Upload
vafopoulos
View
553
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
1
INTERNET TECHNOLOGIES
The Syntactic Web, Web Information Retrieval algorithms &
Search Engine Technologies
Part I
Αναγνωστόπουλος Ι.
INTERNET TECHNOLOGIES
Περισσότερα στατιστικά:
nua.ie, mids.org, ripe.net, netcraft.com, gvu.gatech.edu, netsizer.com (Telcordia), caida.com, isoc.org
2
INTERNET TECHNOLOGIES
Μηχανές Αναζήτησης (ΜΑ)Οι µηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισµικού µε την βοήθεια των οποίων οι
χρήστες µπορούν να προσπελάσουν αποµακρυσµένες πηγές πληροφορίας και δικτυακούς
τόπους – ιστοχώρους.
∆ιακρίνονται σε:Αυτόµατες ΜΑ [Crawlers]Google, AltaVista, Excite, AllTheWeb, Lycos, MSN (Bing)
Θεµατικούς Κατάλογους
Yahoo!, Open Directory Project (DMOZ), Looksmart
Άλλες
AskJeeves (επεξεργασία φυσικής γλώσσας), Overture (Paid Listings Search Engines )
Συνεργασία µεταξύ τους ...
INTERNET TECHNOLOGIES
Μηχανισµοί µιας Αυτόµατης Μ.Α.
3
INTERNET TECHNOLOGIES
βιβλίο 1, 2, 10, 30, ...
µολύβι 1, 2, 10, 40, 43, ...
ταινία 11, 21, 22, 23, ...
ήχος 4, 6, 8, ...
Λέξεις IDs κειµένωνΑντεστραµµένα αρχεία
• Μία δοµή αντεστραµµένου αρχείου αποτελείται από:– Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές
λέξεις του κειµένου, και– Μία λίστα κειµένων για κάθε διακριτή λέξη
INTERNET TECHNOLOGIES
4
INTERNET TECHNOLOGIES
INTERNET TECHNOLOGIES
Χαρακτηριστικά των Μ.Α.:
Εξωτερικά χαρακτηριστικά
Aφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήµατα της “σύλληψης”, της συλλογής καιτης σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών, επηρεάζουν την αναζήτησή του και τα επιστρεφόµενα αποτελέσµατα που λαµβάνει. Από την
άλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιµη για τους
υπεύθυνους και τους δηµιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο µε τον
οποίο µια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης της
ιστοσελίδας ανάλογα µε τις ερωτήσεις που υποβάλλει ο χρήστης.
Εσωτερικά χαρακτηριστικά
Το σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριών
από την µεριά του χρήστη. Σε αντίθεση µε τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τους
δηµιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούν
περισσότερο τους τελικούς χρήστες των Μ.Α. (δεν ισχύει βέβαια πάντα αυτό)
5
INTERNET TECHNOLOGIES
Εξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόµατης αναζήτησης ιστοσελίδων
� Υποστήριξη πλαισίων
� Σύνταξη - Χαρτογράφηση εικόνων
� Αποτροπή αυτόµατης ανίχνευσης ιστοχώρου
Robots Exclusion Protocol Η αποτροπή αυτή γίνεται µε την εφαρµογή µιας εντολής που προστίθεται σε ένα ειδικά
καθορισµένο πεδίο των µετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας
Υπερκειµενικής Σήµανσης της ιστοσελίδας.� Αποτροπή αυτόµατης ανίχνευσης ιστοσελίδας
Robots Exclusion META tag� Αναφορά από άλλες υπερσυνδέσµους
Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί
ταυτόχρονα και ένα µέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους
καταλόγους και τα ευρετήρια αναζήτησης.� Ανίχνευση ανανέωσης περιεχοµένου
� Ειδική προβολή µε πληρωµή
INTERNET TECHNOLOGIES
Εξωτερικά χαρακτηριστικά – χαρακτηριστικά σύνταξης ιστοσελίδων
� Σύνταξη “ ορατού” κειµένου
� Αποβολή κοινών λέξεων
� Υποστήριξη πεδίων µετά-ετικετών� ∆ηµιουργία παραγώγων λέξεων
Εξωτερικά χαρακτηριστικά – χαρακτηριστικά κατάταξης αποτελεσµάτων
� Στάθµιση των πεδίων µετα-ετικετών� Στάθµιση σε αναφορές από άλλους υπερσυνδέσµους
� Στάθµιση ανάλογα µε την επιλογή των αποτελεσµάτων
Μέθοδοι σχετικής ανατροφοδότησης – Hotbot
Εξωτερικά χαρακτηριστικά –Αναγνώριση και αντιµετώπιση τεχνικών Spam
� Αντιµετώπιση “ αόρατου” κειµένου
� Αντιµετώπιση κειµένου ελάχιστου µεγέθους
6
INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Μαθηµατικές Εντολές αναζήτησης – εντολές Booleanτύπου
� Τελεστής "AND" ή "+"� Τελεστής "NOT" ή "-"� Τελεστής "OR"� Ο τελεστής "ADJ" ή ""
"όρος1" ADJ "όρος2" ADJ "όρος3"
� Ο τελεστής "NEAR"� Ο τελεστής "FAR"� Φώλιασµα ή Σύνθεση τελεστών
"Ακριβής Φράση" AND ("όρος1" OR "όρος2")
Ενισχυµένες εντολές αναζήτησης
Χρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*")ca?s� cars ή catsca*s � cars ή catsή cameras ή careers
INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Χαρακτηριστικά αναζήτησης
� Σχετικές αναζητήσεις
Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να
πραγµατοποιήσουν πιο συγκεκριµένες αναζητήσεις ή να τους προτείνει παρεµφερείς
ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εµφανίζουν συνήθως
µια λίστα µε υπερσυνδέσεις µε σχετικές αναζητήσεις χρησιµοποιώντας γνωστούς
όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσµατα.� Συγκέντρωση αποτελεσµάτων
Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εµφάνιση πολλών ιστοσελίδων
που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσµατα. Έτσι παρουσιάζεται έναπιο συνοπτικό και αντιπροσωπευτικό δείγµα απαντήσεων ενώ ο χρήστης έχει
µεγαλύτερη πιθανότητα να ανακτήσει µια ενδιαφέρουσα πληροφορία γρήγορα.� ∆ηµιουργία παραγώγων λέξεων
� Εσωτερική Αναζήτηση
Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να
πραγµατοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόµενων
αποτελεσµάτων. Πρόκειται για µια πολύ χρήσιµη λειτουργία γιατί το σύνολο των
αποτελεσµάτων παραµένει αναλλοίωτο, ενώ ταυτόχρονα “στενεύουν” οι αναζητήσεις
του χρήστη.
7
INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Χαρακτηριστικά αναζήτησης
� Αναζήτηση αποθηκευµένων ιστοσελίδων
Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί
πριν ανανεωθούν εκ νέου από τους µηχανισµούς µιας υπηρεσίας αναζήτησης. Έτσι, είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές.(µια εφαρµογή στην επόµενη διαφάνεια)
� Μετάφραση ιστοσελίδας
Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτηµα στέλνεται από τον χρήστη
στον διακοµιστή της Μ.Α., όπου πραγµατοποιείται σε πραγµατικό χρόνο η
µετάφραση
� Έλεγχος και φιλτράρισµα “ επικίνδυνου” περιεχοµένου
INTERNET TECHNOLOGIES
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
days
amou
nt o
f exa
min
ed r
esul
ts
Google MSN
Up-to-dateness rate through caching service (Google – MSN)
8
INTERNET TECHNOLOGIES
Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας
Χαρακτηριστικά προσαρµογής απεικόνισης και προβολής
� Ταξινόµηση αποτελεσµάτων ανά ηµεροµηνία
� Ταξινόµηση αποτελεσµάτων σε καθορισµένο εύρος ηµεροµηνίας
� Προβολή ηµεροµηνίας δηµιουργίας ή µορφοποίησης της ιστοσελίδας
� Παροχή περιβάλλοντος ενισχυµένης αναζήτησης
� Παροχή βοήθειας
INTERNET TECHNOLOGIES
Ο Αλγόριθµος Page Rank (Google)
9
INTERNET TECHNOLOGIES
Επισκόπηση Αυτόµατων Μηχανών Αναζήτησης
GoogleΑλγόριθµος PageRank [Brin, Page - 1998]πλήθος υπερσυνδέσµων που “δείχνουν” στο επιστρεφόµενο αποτέλεσµα (αναφορές)σηµαντικότητα υπερσυνδέσµων – βαρύτητα υπερσυνδέσµων
Μεγαλύτερη κάλυψη, φιλικό περιβάλλον
http://www.iprcom.com/papers/pagerank
D
A, B, DC
CAB
A, B, DCA
1η έµµεσηαναφορά
Άµεση
Αναφορά
Ιστοσελίδα
1. C
2. A
3. B
4. D
INTERNET TECHNOLOGIES
We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85.C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Tn
A
T2
T1
citations
outgoing links
10
INTERNET TECHNOLOGIES
ΑΛΓΟΡΙΘΜΟΣ HITS
Ο Αλγόριθµος HITS (Hypertext Induced Topic Search) προτάθηκε από τονKleinberg (1998).
Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριµένο θέµα
(topic), αναλύοντας το σχετικό υπογράφο του Ιστού.
Βασικές έννοιεςHub = µια σελίδα που δεν δίνει πολλές πληροφορίες για συγκεκριµένο θέµα, αλλά µας λεει
που θα βρούµε αυτές τις πληροφορίες.
πχ το www.autochanell.com είναι ένα hub για αυτοκίνητα.
Authority = µια σελίδα που δίνει πληροφορία κύρους για κάποιο θέµα.
πχ το http://www.bmw.com/ είναι ένα authority για το ερώτηµα “BMW cars”.
INTERNET TECHNOLOGIES
�Ένα hub δείχνει σε πολλά authorities.
�Σε ένα authority αναφέρονται πολλάhubs.
11
INTERNET TECHNOLOGIESΤα βήµατα που διακρίνονται σε αυτό τον αλγόριθµο είναι:
1) Θέτουµε µία ερώτηση στην search engine και λαµβάνουµε απ’ αυτήν ένα αρχικό σύνολοσελίδων (root set) - έστω πήραµε 200 σελίδες ως απάντηση στην ερώτηση.
2) ∆ηµιουργούµε ένα βασικό σύνολο (base set) S, το οποίο αποτελείται από το αρχικό σύνολοκαι όλες τις σελίδες που συνδέονται µε αυτό, µέσω links. Έστω έγιναν 1000 οι σελίδες.
3) Σε κάθε σελίδα p του συνόλου S αντιστοιχούν δύο τιµές - βάρη: µία τιµή authority Α(p) καιµία τιµή hub Η(p).
4) Αρχικά θέτουµε όλες τις τιµές ίσες µε 1: Α(p) = Η(p) = 1
INTERNET TECHNOLOGIES
5) Ενηµερώνουµε τις αρχικές τιµές authority και hub κάθε σελίδας εφαρµόζοντας επαναληπτικάτις διαδικασίες In-degree και Out-degree.
6) Τα βάρη A(p) και H(p) όλων των σελίδων είναι κανονικοποιηµένα, δηλ αφού υπολογιστούναπό τους προηγούµενους τύπους,
διαιρούνται µε και αντίστοιχα.
12
INTERNET TECHNOLOGIES
Παράδειγµα:Στο παρακάτω σχήµα να γίνει page rank εφαρµόζοντας τον αλγόριθµο hits
Θέτουµε αρχικά
H(α) = H(β) = H(γ) = H(δ) = H(ε) = 1A(α) = A(β) = A(γ) = A(δ) = A(ε) = 1
1η επανάληψη
I – operationΑ(α) = H(δ) = 1,Α(β) = 0Α(γ) = 0Α(δ) = H(α) + H(β) + H(γ) = 3Α(ε) = H(α) + H(γ) = 2
Ο – operationΗ(α) = A(δ) + A(ε) = 5,H(β) = Α(δ) = 3H(γ) = A(δ) + A(ε) = 5H(δ) = Α(α) = 1H(ε) = 0
INTERNET TECHNOLOGIES
Κάνουµε κανονικοποίηση
Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες
Α(α) = 1 / 3.74 = 0.267Α(β) = 0Α(γ) = 0Α(δ) = 3 / 3.74 = 0.802Α(ε) = 2 / 3.74 = 0.535
Η(α) = 5 / 7.746 = 0.645
H(β) = Α(δ) = 3 / 7.746 = 0.387
H(γ) = 5 / 7.746 = 0.645
H(δ) = 1 / 7.746 = 0.129
H(ε) = 0
13
INTERNET TECHNOLOGIES
2η επανάληψη
I – operationΑ(α) = H(δ) = 0.129,Α(β) = 0Α(γ) = 0Α(δ) = H(α) + H(β) + H(γ) = 1.677Α(ε) = H(α) + H(γ) = 1.29
Ο – operation
Η(α) = A(δ) + A(ε) = 2.967
H(β) = Α(δ) = 1.677
H(γ) = A(δ) + A(ε) = 2.967
H(δ) = Α(α) = 0.129
H(ε) = 0
INTERNET TECHNOLOGIES
Κάνουµε κανονικοποίηση
Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες
Α(α) = 0.129 / 2.12 = 0.061Α(β) = 0Α(γ) = 0Α(δ) = 1.677 / 2.12 = 0.791Α(ε) = 1.29 / 2.12 = 0.608
Η(α) = 2.967 / 4.5 = 0.659
H(β) = 1.677 / 4.5 = 0.373
H(γ) = 2.967 / 4.5 = 0.659
H(δ) = 0.129 / 4.5 = 0.029
H(ε) = 0
Οµοιώς συνεχίζουµε µέχρι ένα δεδοµένο σηµείο σύγκλισης...
14
INTERNET TECHNOLOGIES
5η επανάληψη και κανονικοποίηση
I – operation Ο – operationΑ(α) = 0Α(β) = 0Α(γ) = 0Α(δ) = 0.788Α(ε) = 0.615
Τελική κατάταξη ? (ανάλογα µε την θεώρηση για το ρόλο των σελίδων Hub - Authority)
Η(α) = 0.657
H(β) = 0.369
H(γ) = A(δ) + A(ε) = 0.657
H(δ) = Α(α) = 0
H(ε) = 0
Συµπεράσµατα
Εκτελείται σε ένα σύνολο ανακτηµένων σελίδων και για κάθε query.Υπολογίζει authorities και hubs.Είναι εύκολος στον υπολογισµό αλλά η εκτέλεση σε πραγµατικό χρόνο είναι δύσκολη.