Click here to load reader
Upload
vafopoulos
View
623
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
1
INTERNET TECHNOLOGIES
The Syntactic Web, Web Information Retrieval algorithms &
Search Engine Technologies
Part II
Αναγνωστόπουλος Ι.
INTERNET TECHNOLOGIES
d1
q
d2
d3
d4
Έγγραφο
Ερώτηση χρήστη
]q ..., ,q ,[ m21qq =v
]w..., ,,[ m21 wwd =v
] t..., , t,[ m21tV =v Λεξιλόγιο
Χώρο-∆ιανυσµατικό Μοντέλο
Βασικές έννοιες: ∆ιάνυσµα, Συχνότητα Όρου, ΑντίστροφηΣυχνότητα Εγγράφου
2
INTERNET TECHNOLOGIES
d1
q
d2
d3
d4
Για πιο απλούς υπολογισµούς να υποτεθεί ότι ο υπολογισµός του wi,q πραγµατοποιείται µε
παρόµοιο τρόπο όπως του wi,j
INTERNET TECHNOLOGIES
Συλλογή
Συνολικά
ανακτόµενα
έγγραφα (A)
Σχετικά
έγγραφα (R)
Σχετικά
ανακτόµενα
έγγραφα (Ra)
=a
R
RΑνάκληση
Α=
aRΑκρίβεια
Test reference collections:
• TREC
• Reuters
• CACM
Ανάκληση
Ακρίβεια
∆ιάγραµµα ανταλλαγής
Ακρίβειας - Ανάκλησης
3
INTERNET TECHNOLOGIES
Rank Doc Rel Recall Precision
0 0% 0%
1 d 123� 10% 100%
2 d 84 10% 50%
3 d 56� 20% 67%
4 d 6 20% 50%
5 d 84 20% 40%
6 d 9� 30% 50%
7 d 511 30% 43%
8 d 129 30% 38%
9 d 187 30% 33%
10 d 25� 40% 40%
11 d 38 40% 36%
12 d 48 40% 33%
13 d 250 40% 31%
14 d 113 40% 29%
15 d 3� 50% 33%
=12389715644
3925953
d,d,d,d,d
,d,d,d,d,dRq
0
20
40
60
80
100
10 20 30 40 50
Recall
Pre
cisi
on
Μετρήσεις µε µεθόδους παρεµβολής (interpolation)σε 11 επίπεδα recall: 0%, 10%, 20%, …, 100%
( )22 )x(xn
y)x(xynb,XbYa
bxa
∑∑∑∑∑
−
−=−=
+
bxa +Γραµµική
παρεµβολή
INTERNET TECHNOLOGIES
∑=
=qN
i q
i
N
rPrP
1
)()(
Μέση τιµή ακρίβειας στο r επίπεδο
ανάκλησης µε Nq ερωτήσειςΑρµονικός µέσος όρος
)j(P)j(R
)j(F11
2
+=
Μετρική Ε
)j(P)j(R
b
b)j(E
1
11
2
2
+
+−=
Μέτρηση σηµείου ισορροπίας
(σ.ε.) breakeven-point
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Ανάκληση
Ακρίβεια
4
INTERNET TECHNOLOGIES
Μηχανές Μετα-Αναζήτησης
Meta-Search Engines
INTERNET TECHNOLOGIES
Λύση...
� Χρήση πολλών ΜΑ από το χρήστη
Αύξηση της κίνησης στο ∆ιαδίκτυο
Γνώση της σύνταξης ερωτήσεων
∆ιαγραφή διπλότυπων αποτελεσµάτων
Επεξεργασία ξεχωριστών αποτελεσµάτων
� Μηχανές Μετα-Αναζήτησης (ΜΜΑ) – Meta-Search Engines
Οι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδοµένων / ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδοµένων των ΜΑ που
χρησιµοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσµατα και τα επιστρέφουν σε µια ενιαία
µορφή (µετα-αποτελέσµατα).
Παραδείγµατα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion
Χρονοβόρα και δύσκολη διαδικασία
5
INTERNET TECHNOLOGIES
Πλεονεκτήµατα
• Αναζήτηση σε ενιαίο
περιβάλλον
• Υποβολή ερώτησης µια φορά
• Γνώση µιας σύνταξης
ερωτήσεων
• Μεγαλύτερη κάλυψη της
πληροφορίας
Μειονεκτήµατα
• Συνήθως δεν καθορίζονται από το χρήστη οι
χρησιµοποιούµενες υπηρεσίες αναζήτησης
• Χάνεται η προσωπικότητα των υπηρεσιών
αναζήτησης που χρησιµοποιούνται
• Τα επιστρεφόµενα αποτελέσµατα είναι µια
“ συλλογή” µε τα πιο top ranked από κάθε Μ.Α.
Χρήση ΜΜΑ
INTERNET TECHNOLOGIES
Προβλήµατα που πρέπει να λυθούν...
� Μετάφραση των ερωτήσεων (queries)
� Επεξεργασία των µετα-αποτελεσµάτων
Υπό-συστήµατα ΜΜΑ
� ∆ιεπαφή χρήστη
� ∆ιεκπεραιωτής ή Αποστολέας της
ερώτησης
� Συλλέκτης Αποτελεσµάτων
� Τοπική Βάση ∆εδοµένων
6
INTERNET TECHNOLOGIES
Εισαγωγή
ερώτησης
INTERNET TECHNOLOGIES
Επεξεργασία και
υποβολή ερώτησης
7
INTERNET TECHNOLOGIES
Συλλογή και
επεξεργασία
αποτελεσµάτων
INTERNET TECHNOLOGIES
Παρουσίαση µετα-αποτελεσµάτων
8
INTERNET TECHNOLOGIES
111 o,DR =
Nm DDD UKU1=
βkk
……
β22
β11
D2o2
......
……
γii
……
γ22
γ11
Dmom
……
αpp
……
α22
α11
D1o1
222 o,DR = iii o,DR =
......
......
......
……
δjj
……
δ22
δ11
Dmom
mmm o,DR =
Απεικόνιση προβλήµατος...
Λύση...Αλγόριθµοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές
Κάποια πρόταση ?
INTERNET TECHNOLOGIES
Μέθοδοι κατάταξης αποτελεσµάτων από διαφορετικές πηγές
� Μέθοδοι ενσωµάτωσης (rank aggregation methods)
Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εµφάνισης όρων
και εγγράφων στην εξεταζόµενη συλλογή. Χρησιµοποιούν ειδικές µεθόδους για να
αντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιµων
βαθµών οµοιότητας στα επιστρεφόµενα αποτελέσµατα.
Fagin [2001], Quick-combine [Guntzer,2000], Proximity search [Goldman,1998], WSQ [Widom,2000], COMBSUM, COMBMNZ [Fox & Shaw, 1998]
� Μέθοδοι αποµόνωσης (isolated ranking methods)
Βάσει ανατιθέµενου βαθµού στάθµισης [Selberg,1995]
Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998]
Βάσει ακολουθίας κατάταξης [Yuwono,1997]
Βάσει του περιεχοµένου [Lawrence,1998]
9
INTERNET TECHNOLOGIES
1 2 … p … N
1 p1 r1 p2 r1 … pp r1 … pN r1
2 p1 r2 p2 r2 … pp r2 … pN r2
… … … … … … …r p1 r r p2 r r … pp r r … pN r r
… … … … … … …K p1 rk p2 rk … pp r k … pN rk
Τάξη προτεραιότητας µηχανής αναζήτησης (x)
Τάξη
αποτελ
έσµατος
(y)
p1 r1
p2 r1
…
pp r1
pN r1
…
p1 r2
p2 r2
…
pp r2
pN r2
…
…
…
…
p1 rκ
p2 rκ
…
pp rκ
pN rκ
…
δείκτης βαρύτητας εξυπηρετητή (χρήστης)
Ακολουθία
κατάταξης
INTERNET TECHNOLOGIES
∆ύσκολη γιατί ...• οι περισσότερες Μ.Α. δεν υποστηρίζουν αναζήτηση εικόνων
• συντάσσουν τα ευρετήριά τους βάσει του περιεχοµένου των ιστοσελίδων και όχι βάσει της
οπτικής πληροφορίας που παρουσιάζουν
• η αναζήτηση δεν περιλαµβάνει booleanτελεστές
για άλλη µια φορά ...• έλλειψη συνοχής
• διαφορετικά επιστρεφόµενα αποτελέσµατα στον τελικό χρήστη
• χαµένη πληροφορία
• Τεράστιο ποσό µη επιθυµητής πληροφορίας
Πρόταση: Υβριδική Μ.Μ.Α. (ΜetaΗunter)Η υβριδική φύση του προτεινόµενου συστήµατος έγκειται στο γεγονός ότι η ανάλυση κειµένου
και η επεξεργασία εικόνας, δρουν συµπληρωµατικά προκειµένου να παρασχεθεί ένας πιο
αποτελεσµατικός και ακριβής τρόπος αναζήτησης εικόνων στο ∆ιαδίκτυο.(εφαρµογή: Φωτογραφίες ανθρώπων)
Άλλες λύσεις: MPEG-21…
Αναζήτηση Εικόνων στο ∆ιαδίκτυο
10
INTERNET TECHNOLOGIES
Πρόβληµα:Αναζητούµε ιστοσελίδες που αφορούν τον µπασκετµπολίστα Michael Jordan
• Jordan 43/100• Michael AND Jordan 78/100• (Michael Jordan) AND (Chicago Bulls) 89/100
Boolean operators ���� increase precision
Παράδειγµα αναζήτησης URL
INTERNET TECHNOLOGIES
Πρόβληµα:
Αναζητούµε εικόνες που αφορούν τον µπασκετµπολίστα Michael Jordan
• Jordan 29/100• Michael AND Jordan 58/100• (Michael Jordan) AND (Chicago Bulls) 71/100
Αν όµως… (Michael Jordan) AND (Chicago Bulls) [AND “human appearance”]
Παράδειγµα αναζήτησης εικόνων στο ∆ιαδίκτυο
Textual information + Visual information
11
INTERNET TECHNOLOGIES
MetaHunter interface
PhotoSearch button
INTERNET TECHNOLOGIES
Στηρίζεται ...
� Στην προτεινόµενη µέθοδο κατάταξης αποτελεσµάτων από διαφορετικές πηγές
� Αρχές επεξεργασίας εικόνας
Εντοπισµός περιοχής ενδιαφέροντος
Γεωµετρικός µετασχηµατισµός εικόνων
Κβαντοποίηση και δειγµατοληψία εικόνων
� Εφαρµογή Κανόνων Ασαφούς Λογικής (ΚΑΛ)Αλγόριθµος skin masking [Umbaugh]
� Τεχνητά Νευρωνικά ∆ίκτυα (ΤΝ∆)Πιθανοτικό Νευρωνικό ∆ίκτυο (ΠΝ∆) � Αναγνώριση προσώπου
Στόχος: Μείωση του “θορύβου” της πληροφορίας σε αναζήτηση φωτογραφιών µε πρόσωπα
Τρόπος: µετα-αναζήτηση σε υπηρεσίες που υποστηρίζουν εύρεση εικόνων
επεξεργασία όλων των αποτελεσµάτων � Ανάκτηση Φωτογραφιών
Αναζήτηση εικόνων στο ∆ιαδίκτυο / Λειτουργία PhotoSearch
12
INTERNET TECHNOLOGIES
ΥΒΡΙ∆ΙΚΗ ΜΜΑ “Meta-Hunter” – ΛΕΙΤΟΥΡΓΙΑ PhotoSearch
INTERNET TECHNOLOGIES
Fuzzification of Umbaugh’s skin masking algorithm
195 209 211 210 205 194 171 161 142 121 113 94 61 28 11
203 209 209 210 209 202 186 174 162 143 130 121 109 84 56
138 139 169 199 199 184 146 114 102 108 114 110 109 117 109
142 123 146 186 191 164 128 119 121 108 120 132 136 150 147
133 84 126 162 207 152 124 121 147 69 108 135 164 175 171
176 151 145 166 210 163 158 142 169 148 170 184 196 190 176
200 192 189 199 214 174 191 178 170 177 193 207 202 190 168
228 215 209 233 219 179 192 209 206 210 216 208 197 183 157
225 210 216 239 218 182 177 196 206 210 207 198 190 174 150
215 200 216 216 194 177 176 186 200 201 197 189 182 162 154
208 203 212 202 178 163 177 200 197 199 194 185 176 162 154
211 201 219 207 176 190 195 192 186 193 193 180 173 157 149
220 193 182 169 146 154 149 148 154 191 193 176 173 152 142
226 212 213 199 178 176 170 176 190 196 185 178 164 139 131
190 225 224 210 199 193 193 191 194 195 180 169 144 133 132
“face”
“no face”
225 nodes425 nodes2 nodes
0,3-0,5sec
≈0,1 sec
0,1-0,2sec
≈0,1 sec
13
INTERNET TECHNOLOGIES
82.36%397/482Total System Performance
87.83%397/452ANN
Performance
444No faces
397Faces
Artificial Neural Network (ANN)
93.77%452/482FL Rules
performance
452 faces +389 possible skin areas
841Segmented areas
FL rules
482317
Number of facesTotal images
Testing Set
296129103
Skin areas - Other objectsNumber of faces
Total color images
Training Set
98.99%(293/296)
1.01%(3/296)
Other skin area -Object
0.88%(1/129)
99.22% (128/129)
Face
Other skin area – object
Face
Training confusion matrix
System Performance
Training time: 122 sec
INTERNET TECHNOLOGIES
ΑΠΟ∆ΟΣΗ MetaHunter
Other
5925
2271
176
FL rules / im. procc.
PNNTotal
Submitted image queries 324
Total returned meta-results Photos
14875 8932FL rules /image processing
Human Skin Identification 8562
Probabilistic Neural Network (PNN)Face Recognition 8059
"PhotoSearch“ returned meta-results8235
Excluded meta-results6622
Excluded relevant Excluded irrelevant
370 3654
503 2095
Information loss873/8932 9.77%
873 5749Reduction of irrelevant information
5749/5925 97.03%
14
INTERNET TECHNOLOGIES
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
PhotoSearch_on
PhotoSearch_off
Recall
Precision
Precision-Recall diagrams
break-even point
break-even point
INTERNET TECHNOLOGIES
Copernic Ixquick ProfusionΥβριδική Μ.Μ.Α.
µ.ο. µετα-αποτελεσµάτων
URLs238,4 119,9 166,3 364,5
µ.ο. απόκρισης (sec) 5,2 5,4 6,1 12,7
µ.ο. αύξησης κάλυψης URLs
52% 204% 119% -
µ.ο. µετα-αποτελεσµάτων
εικόνων
63,6 18,4 - 44,8
µ.ο. απόκρισης (sec) 6,3 5,8 - 15,2
Υποβαλλόµενες ερωτήσεις 120 URLs / 90 εικόνες
0
1
2
3
4
5
6
7
Ιαν-02 Μαϊ-02 Σεπ -02 Ιαν-03 Μαϊ-03 Σεπ -03
sec
AllTheWebAltaVistaDirect HitDMOZExciteHotbotLycosNorthern LightYahoo!
ΣΥΓΚΡΙΣΗ µε Copernic, Ixquick και Profusion