14

Click here to load reader

Ws 13-4(2010-11)

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Ws 13-4(2010-11)

1

INTERNET TECHNOLOGIES

The Syntactic Web, Web Information Retrieval algorithms &

Search Engine Technologies

Part II

Αναγνωστόπουλος Ι.

INTERNET TECHNOLOGIES

d1

q

d2

d3

d4

Έγγραφο

Ερώτηση χρήστη

]q ..., ,q ,[ m21qq =v

]w..., ,,[ m21 wwd =v

] t..., , t,[ m21tV =v Λεξιλόγιο

Χώρο-∆ιανυσµατικό Μοντέλο

Βασικές έννοιες: ∆ιάνυσµα, Συχνότητα Όρου, ΑντίστροφηΣυχνότητα Εγγράφου

Page 2: Ws 13-4(2010-11)

2

INTERNET TECHNOLOGIES

d1

q

d2

d3

d4

Για πιο απλούς υπολογισµούς να υποτεθεί ότι ο υπολογισµός του wi,q πραγµατοποιείται µε

παρόµοιο τρόπο όπως του wi,j

INTERNET TECHNOLOGIES

Συλλογή

Συνολικά

ανακτόµενα

έγγραφα (A)

Σχετικά

έγγραφα (R)

Σχετικά

ανακτόµενα

έγγραφα (Ra)

=a

R

RΑνάκληση

Α=

aRΑκρίβεια

Test reference collections:

• TREC

• Reuters

• CACM

Ανάκληση

Ακρίβεια

∆ιάγραµµα ανταλλαγής

Ακρίβειας - Ανάκλησης

Page 3: Ws 13-4(2010-11)

3

INTERNET TECHNOLOGIES

Rank Doc Rel Recall Precision

0 0% 0%

1 d 123� 10% 100%

2 d 84 10% 50%

3 d 56� 20% 67%

4 d 6 20% 50%

5 d 84 20% 40%

6 d 9� 30% 50%

7 d 511 30% 43%

8 d 129 30% 38%

9 d 187 30% 33%

10 d 25� 40% 40%

11 d 38 40% 36%

12 d 48 40% 33%

13 d 250 40% 31%

14 d 113 40% 29%

15 d 3� 50% 33%

=12389715644

3925953

d,d,d,d,d

,d,d,d,d,dRq

0

20

40

60

80

100

10 20 30 40 50

Recall

Pre

cisi

on

Μετρήσεις µε µεθόδους παρεµβολής (interpolation)σε 11 επίπεδα recall: 0%, 10%, 20%, …, 100%

( )22 )x(xn

y)x(xynb,XbYa

bxa

∑∑∑∑∑

−=−=

+

bxa +Γραµµική

παρεµβολή

INTERNET TECHNOLOGIES

∑=

=qN

i q

i

N

rPrP

1

)()(

Μέση τιµή ακρίβειας στο r επίπεδο

ανάκλησης µε Nq ερωτήσειςΑρµονικός µέσος όρος

)j(P)j(R

)j(F11

2

+=

Μετρική Ε

)j(P)j(R

b

b)j(E

1

11

2

2

+

+−=

Μέτρηση σηµείου ισορροπίας

(σ.ε.) breakeven-point

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Ανάκληση

Ακρίβεια

Page 4: Ws 13-4(2010-11)

4

INTERNET TECHNOLOGIES

Μηχανές Μετα-Αναζήτησης

Meta-Search Engines

INTERNET TECHNOLOGIES

Λύση...

� Χρήση πολλών ΜΑ από το χρήστη

Αύξηση της κίνησης στο ∆ιαδίκτυο

Γνώση της σύνταξης ερωτήσεων

∆ιαγραφή διπλότυπων αποτελεσµάτων

Επεξεργασία ξεχωριστών αποτελεσµάτων

� Μηχανές Μετα-Αναζήτησης (ΜΜΑ) – Meta-Search Engines

Οι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδοµένων / ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδοµένων των ΜΑ που

χρησιµοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσµατα και τα επιστρέφουν σε µια ενιαία

µορφή (µετα-αποτελέσµατα).

Παραδείγµατα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion

Χρονοβόρα και δύσκολη διαδικασία

Page 5: Ws 13-4(2010-11)

5

INTERNET TECHNOLOGIES

Πλεονεκτήµατα

• Αναζήτηση σε ενιαίο

περιβάλλον

• Υποβολή ερώτησης µια φορά

• Γνώση µιας σύνταξης

ερωτήσεων

• Μεγαλύτερη κάλυψη της

πληροφορίας

Μειονεκτήµατα

• Συνήθως δεν καθορίζονται από το χρήστη οι

χρησιµοποιούµενες υπηρεσίες αναζήτησης

• Χάνεται η προσωπικότητα των υπηρεσιών

αναζήτησης που χρησιµοποιούνται

• Τα επιστρεφόµενα αποτελέσµατα είναι µια

“ συλλογή” µε τα πιο top ranked από κάθε Μ.Α.

Χρήση ΜΜΑ

INTERNET TECHNOLOGIES

Προβλήµατα που πρέπει να λυθούν...

� Μετάφραση των ερωτήσεων (queries)

� Επεξεργασία των µετα-αποτελεσµάτων

Υπό-συστήµατα ΜΜΑ

� ∆ιεπαφή χρήστη

� ∆ιεκπεραιωτής ή Αποστολέας της

ερώτησης

� Συλλέκτης Αποτελεσµάτων

� Τοπική Βάση ∆εδοµένων

Page 6: Ws 13-4(2010-11)

6

INTERNET TECHNOLOGIES

Εισαγωγή

ερώτησης

INTERNET TECHNOLOGIES

Επεξεργασία και

υποβολή ερώτησης

Page 7: Ws 13-4(2010-11)

7

INTERNET TECHNOLOGIES

Συλλογή και

επεξεργασία

αποτελεσµάτων

INTERNET TECHNOLOGIES

Παρουσίαση µετα-αποτελεσµάτων

Page 8: Ws 13-4(2010-11)

8

INTERNET TECHNOLOGIES

111 o,DR =

Nm DDD UKU1=

βkk

……

β22

β11

D2o2

......

……

γii

……

γ22

γ11

Dmom

……

αpp

……

α22

α11

D1o1

222 o,DR = iii o,DR =

......

......

......

……

δjj

……

δ22

δ11

Dmom

mmm o,DR =

Απεικόνιση προβλήµατος...

Λύση...Αλγόριθµοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές

Κάποια πρόταση ?

INTERNET TECHNOLOGIES

Μέθοδοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές

� Μέθοδοι ενσωµάτωσης (rank aggregation methods)

Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εµφάνισης όρων

και εγγράφων στην εξεταζόµενη συλλογή. Χρησιµοποιούν ειδικές µεθόδους για να

αντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιµων

βαθµών οµοιότητας στα επιστρεφόµενα αποτελέσµατα.

Fagin [2001], Quick-combine [Guntzer,2000], Proximity search [Goldman,1998], WSQ [Widom,2000], COMBSUM, COMBMNZ [Fox & Shaw, 1998]

� Μέθοδοι αποµόνωσης (isolated ranking methods)

Βάσει ανατιθέµενου βαθµού στάθµισης [Selberg,1995]

Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998]

Βάσει ακολουθίας κατάταξης [Yuwono,1997]

Βάσει του περιεχοµένου [Lawrence,1998]

Page 9: Ws 13-4(2010-11)

9

INTERNET TECHNOLOGIES

1 2 … p … N

1 p1 r1 p2 r1 … pp r1 … pN r1

2 p1 r2 p2 r2 … pp r2 … pN r2

… … … … … … …r p1 r r p2 r r … pp r r … pN r r

… … … … … … …K p1 rk p2 rk … pp r k … pN rk

Τάξη προτεραιότητας µηχανής αναζήτησης (x)

Τάξη

αποτελ

έσµατος

(y)

p1 r1

p2 r1

pp r1

pN r1

p1 r2

p2 r2

pp r2

pN r2

p1 rκ

p2 rκ

pp rκ

pN rκ

δείκτης βαρύτητας εξυπηρετητή (χρήστης)

Ακολουθία

κατάταξης

INTERNET TECHNOLOGIES

∆ύσκολη γιατί ...• οι περισσότερες Μ.Α. δεν υποστηρίζουν αναζήτηση εικόνων

• συντάσσουν τα ευρετήριά τους βάσει του περιεχοµένου των ιστοσελίδων και όχι βάσει της

οπτικής πληροφορίας που παρουσιάζουν

• η αναζήτηση δεν περιλαµβάνει booleanτελεστές

για άλλη µια φορά ...• έλλειψη συνοχής

• διαφορετικά επιστρεφόµενα αποτελέσµατα στον τελικό χρήστη

• χαµένη πληροφορία

• Τεράστιο ποσό µη επιθυµητής πληροφορίας

Πρόταση: Υβριδική Μ.Μ.Α. (ΜetaΗunter)Η υβριδική φύση του προτεινόµενου συστήµατος έγκειται στο γεγονός ότι η ανάλυση κειµένου

και η επεξεργασία εικόνας, δρουν συµπληρωµατικά προκειµένου να παρασχεθεί ένας πιο

αποτελεσµατικός και ακριβής τρόπος αναζήτησης εικόνων στο ∆ιαδίκτυο.(εφαρµογή: Φωτογραφίες ανθρώπων)

Άλλες λύσεις: MPEG-21…

Αναζήτηση Εικόνων στο ∆ιαδίκτυο

Page 10: Ws 13-4(2010-11)

10

INTERNET TECHNOLOGIES

Πρόβληµα:Αναζητούµε ιστοσελίδες που αφορούν τον µπασκετµπολίστα Michael Jordan

• Jordan 43/100• Michael AND Jordan 78/100• (Michael Jordan) AND (Chicago Bulls) 89/100

Boolean operators ���� increase precision

Παράδειγµα αναζήτησης URL

INTERNET TECHNOLOGIES

Πρόβληµα:

Αναζητούµε εικόνες που αφορούν τον µπασκετµπολίστα Michael Jordan

• Jordan 29/100• Michael AND Jordan 58/100• (Michael Jordan) AND (Chicago Bulls) 71/100

Αν όµως… (Michael Jordan) AND (Chicago Bulls) [AND “human appearance”]

Παράδειγµα αναζήτησης εικόνων στο ∆ιαδίκτυο

Textual information + Visual information

Page 11: Ws 13-4(2010-11)

11

INTERNET TECHNOLOGIES

MetaHunter interface

PhotoSearch button

INTERNET TECHNOLOGIES

Στηρίζεται ...

� Στην προτεινόµενη µέθοδο κατάταξης αποτελεσµάτων από διαφορετικές πηγές

� Αρχές επεξεργασίας εικόνας

Εντοπισµός περιοχής ενδιαφέροντος

Γεωµετρικός µετασχηµατισµός εικόνων

Κβαντοποίηση και δειγµατοληψία εικόνων

� Εφαρµογή Κανόνων Ασαφούς Λογικής (ΚΑΛ)Αλγόριθµος skin masking [Umbaugh]

� Τεχνητά Νευρωνικά ∆ίκτυα (ΤΝ∆)Πιθανοτικό Νευρωνικό ∆ίκτυο (ΠΝ∆) � Αναγνώριση προσώπου

Στόχος: Μείωση του “θορύβου” της πληροφορίας σε αναζήτηση φωτογραφιών µε πρόσωπα

Τρόπος: µετα-αναζήτηση σε υπηρεσίες που υποστηρίζουν εύρεση εικόνων

επεξεργασία όλων των αποτελεσµάτων � Ανάκτηση Φωτογραφιών

Αναζήτηση εικόνων στο ∆ιαδίκτυο / Λειτουργία PhotoSearch

Page 12: Ws 13-4(2010-11)

12

INTERNET TECHNOLOGIES

ΥΒΡΙ∆ΙΚΗ ΜΜΑ “Meta-Hunter” – ΛΕΙΤΟΥΡΓΙΑ PhotoSearch

INTERNET TECHNOLOGIES

Fuzzification of Umbaugh’s skin masking algorithm

195 209 211 210 205 194 171 161 142 121 113 94 61 28 11

203 209 209 210 209 202 186 174 162 143 130 121 109 84 56

138 139 169 199 199 184 146 114 102 108 114 110 109 117 109

142 123 146 186 191 164 128 119 121 108 120 132 136 150 147

133 84 126 162 207 152 124 121 147 69 108 135 164 175 171

176 151 145 166 210 163 158 142 169 148 170 184 196 190 176

200 192 189 199 214 174 191 178 170 177 193 207 202 190 168

228 215 209 233 219 179 192 209 206 210 216 208 197 183 157

225 210 216 239 218 182 177 196 206 210 207 198 190 174 150

215 200 216 216 194 177 176 186 200 201 197 189 182 162 154

208 203 212 202 178 163 177 200 197 199 194 185 176 162 154

211 201 219 207 176 190 195 192 186 193 193 180 173 157 149

220 193 182 169 146 154 149 148 154 191 193 176 173 152 142

226 212 213 199 178 176 170 176 190 196 185 178 164 139 131

190 225 224 210 199 193 193 191 194 195 180 169 144 133 132

“face”

“no face”

225 nodes425 nodes2 nodes

0,3-0,5sec

≈0,1 sec

0,1-0,2sec

≈0,1 sec

Page 13: Ws 13-4(2010-11)

13

INTERNET TECHNOLOGIES

82.36%397/482Total System Performance

87.83%397/452ANN

Performance

444No faces

397Faces

Artificial Neural Network (ANN)

93.77%452/482FL Rules

performance

452 faces +389 possible skin areas

841Segmented areas

FL rules

482317

Number of facesTotal images

Testing Set

296129103

Skin areas - Other objectsNumber of faces

Total color images

Training Set

98.99%(293/296)

1.01%(3/296)

Other skin area -Object

0.88%(1/129)

99.22% (128/129)

Face

Other skin area – object

Face

Training confusion matrix

System Performance

Training time: 122 sec

INTERNET TECHNOLOGIES

ΑΠΟ∆ΟΣΗ MetaHunter

Other

5925

2271

176

FL rules / im. procc.

PNNTotal

Submitted image queries 324

Total returned meta-results Photos

14875 8932FL rules /image processing

Human Skin Identification 8562

Probabilistic Neural Network (PNN)Face Recognition 8059

"PhotoSearch“ returned meta-results8235

Excluded meta-results6622

Excluded relevant Excluded irrelevant

370 3654

503 2095

Information loss873/8932 9.77%

873 5749Reduction of irrelevant information

5749/5925 97.03%

Page 14: Ws 13-4(2010-11)

14

INTERNET TECHNOLOGIES

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

PhotoSearch_on

PhotoSearch_off

Recall

Precision

Precision-Recall diagrams

break-even point

break-even point

INTERNET TECHNOLOGIES

Copernic Ixquick ProfusionΥβριδική Μ.Μ.Α.

µ.ο. µετα-αποτελεσµάτων

URLs238,4 119,9 166,3 364,5

µ.ο. απόκρισης (sec) 5,2 5,4 6,1 12,7

µ.ο. αύξησης κάλυψης URLs

52% 204% 119% -

µ.ο. µετα-αποτελεσµάτων

εικόνων

63,6 18,4 - 44,8

µ.ο. απόκρισης (sec) 6,3 5,8 - 15,2

Υποβαλλόµενες ερωτήσεις 120 URLs / 90 εικόνες

0

1

2

3

4

5

6

7

Ιαν-02 Μαϊ-02 Σεπ -02 Ιαν-03 Μαϊ-03 Σεπ -03

sec

AllTheWebAltaVistaDirect HitDMOZExciteHotbotLycosNorthern LightYahoo!

ΣΥΓΚΡΙΣΗ µε Copernic, Ixquick και Profusion