14
1 INTERNET TECHNOLOGIES The Syntactic Web, Web Information Retrieval algorithms & Search Engine Technologies Part I Αναγνωστόπουλος Ι. INTERNET TECHNOLOGIES Περισσότερα στατιστικά: nua.ie, mids.org, ripe.net, netcraft.com, gvu.gatech.edu, netsizer.com (Telcordia), caida.com, isoc.org

Ws 13-3(2010-11)

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Ws 13-3(2010-11)

1

INTERNET TECHNOLOGIES

The Syntactic Web, Web Information Retrieval algorithms &

Search Engine Technologies

Part I

Αναγνωστόπουλος Ι.

INTERNET TECHNOLOGIES

Περισσότερα στατιστικά:

nua.ie, mids.org, ripe.net, netcraft.com, gvu.gatech.edu, netsizer.com (Telcordia), caida.com, isoc.org

Page 2: Ws 13-3(2010-11)

2

INTERNET TECHNOLOGIES

Μηχανές Αναζήτησης (ΜΑ)Οι µηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισµικού µε την βοήθεια των οποίων οι

χρήστες µπορούν να προσπελάσουν αποµακρυσµένες πηγές πληροφορίας και δικτυακούς

τόπους – ιστοχώρους.

∆ιακρίνονται σε:Αυτόµατες ΜΑ [Crawlers]Google, AltaVista, Excite, AllTheWeb, Lycos, MSN (Bing)

Θεµατικούς Κατάλογους

Yahoo!, Open Directory Project (DMOZ), Looksmart

Άλλες

AskJeeves (επεξεργασία φυσικής γλώσσας), Overture (Paid Listings Search Engines )

Συνεργασία µεταξύ τους ...

INTERNET TECHNOLOGIES

Μηχανισµοί µιας Αυτόµατης Μ.Α.

Page 3: Ws 13-3(2010-11)

3

INTERNET TECHNOLOGIES

βιβλίο 1, 2, 10, 30, ...

µολύβι 1, 2, 10, 40, 43, ...

ταινία 11, 21, 22, 23, ...

ήχος 4, 6, 8, ...

Λέξεις IDs κειµένωνΑντεστραµµένα αρχεία

• Μία δοµή αντεστραµµένου αρχείου αποτελείται από:– Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές

λέξεις του κειµένου, και– Μία λίστα κειµένων για κάθε διακριτή λέξη

INTERNET TECHNOLOGIES

Page 4: Ws 13-3(2010-11)

4

INTERNET TECHNOLOGIES

INTERNET TECHNOLOGIES

Χαρακτηριστικά των Μ.Α.:

Εξωτερικά χαρακτηριστικά

Aφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήµατα της “σύλληψης”, της συλλογής καιτης σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών, επηρεάζουν την αναζήτησή του και τα επιστρεφόµενα αποτελέσµατα που λαµβάνει. Από την

άλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιµη για τους

υπεύθυνους και τους δηµιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο µε τον

οποίο µια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης της

ιστοσελίδας ανάλογα µε τις ερωτήσεις που υποβάλλει ο χρήστης.

Εσωτερικά χαρακτηριστικά

Το σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριών

από την µεριά του χρήστη. Σε αντίθεση µε τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τους

δηµιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούν

περισσότερο τους τελικούς χρήστες των Μ.Α. (δεν ισχύει βέβαια πάντα αυτό)

Page 5: Ws 13-3(2010-11)

5

INTERNET TECHNOLOGIES

Εξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόµατης αναζήτησης ιστοσελίδων

� Υποστήριξη πλαισίων

� Σύνταξη - Χαρτογράφηση εικόνων

� Αποτροπή αυτόµατης ανίχνευσης ιστοχώρου

Robots Exclusion Protocol Η αποτροπή αυτή γίνεται µε την εφαρµογή µιας εντολής που προστίθεται σε ένα ειδικά

καθορισµένο πεδίο των µετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας

Υπερκειµενικής Σήµανσης της ιστοσελίδας.� Αποτροπή αυτόµατης ανίχνευσης ιστοσελίδας

Robots Exclusion META tag� Αναφορά από άλλες υπερσυνδέσµους

Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί

ταυτόχρονα και ένα µέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους

καταλόγους και τα ευρετήρια αναζήτησης.� Ανίχνευση ανανέωσης περιεχοµένου

� Ειδική προβολή µε πληρωµή

INTERNET TECHNOLOGIES

Εξωτερικά χαρακτηριστικά – χαρακτηριστικά σύνταξης ιστοσελίδων

� Σύνταξη “ ορατού” κειµένου

� Αποβολή κοινών λέξεων

� Υποστήριξη πεδίων µετά-ετικετών� ∆ηµιουργία παραγώγων λέξεων

Εξωτερικά χαρακτηριστικά – χαρακτηριστικά κατάταξης αποτελεσµάτων

� Στάθµιση των πεδίων µετα-ετικετών� Στάθµιση σε αναφορές από άλλους υπερσυνδέσµους

� Στάθµιση ανάλογα µε την επιλογή των αποτελεσµάτων

Μέθοδοι σχετικής ανατροφοδότησης – Hotbot

Εξωτερικά χαρακτηριστικά –Αναγνώριση και αντιµετώπιση τεχνικών Spam

� Αντιµετώπιση “ αόρατου” κειµένου

� Αντιµετώπιση κειµένου ελάχιστου µεγέθους

Page 6: Ws 13-3(2010-11)

6

INTERNET TECHNOLOGIES

Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

Μαθηµατικές Εντολές αναζήτησης – εντολές Booleanτύπου

� Τελεστής "AND" ή "+"� Τελεστής "NOT" ή "-"� Τελεστής "OR"� Ο τελεστής "ADJ" ή ""

"όρος1" ADJ "όρος2" ADJ "όρος3"

� Ο τελεστής "NEAR"� Ο τελεστής "FAR"� Φώλιασµα ή Σύνθεση τελεστών

"Ακριβής Φράση" AND ("όρος1" OR "όρος2")

Ενισχυµένες εντολές αναζήτησης

Χρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*")ca?s� cars ή catsca*s � cars ή catsή cameras ή careers

INTERNET TECHNOLOGIES

Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

Χαρακτηριστικά αναζήτησης

� Σχετικές αναζητήσεις

Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να

πραγµατοποιήσουν πιο συγκεκριµένες αναζητήσεις ή να τους προτείνει παρεµφερείς

ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εµφανίζουν συνήθως

µια λίστα µε υπερσυνδέσεις µε σχετικές αναζητήσεις χρησιµοποιώντας γνωστούς

όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσµατα.� Συγκέντρωση αποτελεσµάτων

Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εµφάνιση πολλών ιστοσελίδων

που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσµατα. Έτσι παρουσιάζεται έναπιο συνοπτικό και αντιπροσωπευτικό δείγµα απαντήσεων ενώ ο χρήστης έχει

µεγαλύτερη πιθανότητα να ανακτήσει µια ενδιαφέρουσα πληροφορία γρήγορα.� ∆ηµιουργία παραγώγων λέξεων

� Εσωτερική Αναζήτηση

Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να

πραγµατοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόµενων

αποτελεσµάτων. Πρόκειται για µια πολύ χρήσιµη λειτουργία γιατί το σύνολο των

αποτελεσµάτων παραµένει αναλλοίωτο, ενώ ταυτόχρονα “στενεύουν” οι αναζητήσεις

του χρήστη.

Page 7: Ws 13-3(2010-11)

7

INTERNET TECHNOLOGIES

Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

Χαρακτηριστικά αναζήτησης

� Αναζήτηση αποθηκευµένων ιστοσελίδων

Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί

πριν ανανεωθούν εκ νέου από τους µηχανισµούς µιας υπηρεσίας αναζήτησης. Έτσι, είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές.(µια εφαρµογή στην επόµενη διαφάνεια)

� Μετάφραση ιστοσελίδας

Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτηµα στέλνεται από τον χρήστη

στον διακοµιστή της Μ.Α., όπου πραγµατοποιείται σε πραγµατικό χρόνο η

µετάφραση

� Έλεγχος και φιλτράρισµα “ επικίνδυνου” περιεχοµένου

INTERNET TECHNOLOGIES

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

days

amou

nt o

f exa

min

ed r

esul

ts

Google MSN

Up-to-dateness rate through caching service (Google – MSN)

Page 8: Ws 13-3(2010-11)

8

INTERNET TECHNOLOGIES

Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας

Χαρακτηριστικά προσαρµογής απεικόνισης και προβολής

� Ταξινόµηση αποτελεσµάτων ανά ηµεροµηνία

� Ταξινόµηση αποτελεσµάτων σε καθορισµένο εύρος ηµεροµηνίας

� Προβολή ηµεροµηνίας δηµιουργίας ή µορφοποίησης της ιστοσελίδας

� Παροχή περιβάλλοντος ενισχυµένης αναζήτησης

� Παροχή βοήθειας

INTERNET TECHNOLOGIES

Ο Αλγόριθµος Page Rank (Google)

Page 9: Ws 13-3(2010-11)

9

INTERNET TECHNOLOGIES

Επισκόπηση Αυτόµατων Μηχανών Αναζήτησης

GoogleΑλγόριθµος PageRank [Brin, Page - 1998]πλήθος υπερσυνδέσµων που “δείχνουν” στο επιστρεφόµενο αποτέλεσµα (αναφορές)σηµαντικότητα υπερσυνδέσµων – βαρύτητα υπερσυνδέσµων

Μεγαλύτερη κάλυψη, φιλικό περιβάλλον

http://www.iprcom.com/papers/pagerank

D

A, B, DC

CAB

A, B, DCA

1η έµµεσηαναφορά

Άµεση

Αναφορά

Ιστοσελίδα

1. C

2. A

3. B

4. D

INTERNET TECHNOLOGIES

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85.C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Tn

A

T2

T1

citations

outgoing links

Page 10: Ws 13-3(2010-11)

10

INTERNET TECHNOLOGIES

ΑΛΓΟΡΙΘΜΟΣ HITS

Ο Αλγόριθµος HITS (Hypertext Induced Topic Search) προτάθηκε από τονKleinberg (1998).

Προσπαθεί να διακρίνει authorities και hubs για ένα συγκεκριµένο θέµα

(topic), αναλύοντας το σχετικό υπογράφο του Ιστού.

Βασικές έννοιεςHub = µια σελίδα που δεν δίνει πολλές πληροφορίες για συγκεκριµένο θέµα, αλλά µας λεει

που θα βρούµε αυτές τις πληροφορίες.

πχ το www.autochanell.com είναι ένα hub για αυτοκίνητα.

Authority = µια σελίδα που δίνει πληροφορία κύρους για κάποιο θέµα.

πχ το http://www.bmw.com/ είναι ένα authority για το ερώτηµα “BMW cars”.

INTERNET TECHNOLOGIES

�Ένα hub δείχνει σε πολλά authorities.

�Σε ένα authority αναφέρονται πολλάhubs.

Page 11: Ws 13-3(2010-11)

11

INTERNET TECHNOLOGIESΤα βήµατα που διακρίνονται σε αυτό τον αλγόριθµο είναι:

1) Θέτουµε µία ερώτηση στην search engine και λαµβάνουµε απ’ αυτήν ένα αρχικό σύνολοσελίδων (root set) - έστω πήραµε 200 σελίδες ως απάντηση στην ερώτηση.

2) ∆ηµιουργούµε ένα βασικό σύνολο (base set) S, το οποίο αποτελείται από το αρχικό σύνολοκαι όλες τις σελίδες που συνδέονται µε αυτό, µέσω links. Έστω έγιναν 1000 οι σελίδες.

3) Σε κάθε σελίδα p του συνόλου S αντιστοιχούν δύο τιµές - βάρη: µία τιµή authority Α(p) καιµία τιµή hub Η(p).

4) Αρχικά θέτουµε όλες τις τιµές ίσες µε 1: Α(p) = Η(p) = 1

INTERNET TECHNOLOGIES

5) Ενηµερώνουµε τις αρχικές τιµές authority και hub κάθε σελίδας εφαρµόζοντας επαναληπτικάτις διαδικασίες In-degree και Out-degree.

6) Τα βάρη A(p) και H(p) όλων των σελίδων είναι κανονικοποιηµένα, δηλ αφού υπολογιστούναπό τους προηγούµενους τύπους,

διαιρούνται µε και αντίστοιχα.

Page 12: Ws 13-3(2010-11)

12

INTERNET TECHNOLOGIES

Παράδειγµα:Στο παρακάτω σχήµα να γίνει page rank εφαρµόζοντας τον αλγόριθµο hits

Θέτουµε αρχικά

H(α) = H(β) = H(γ) = H(δ) = H(ε) = 1A(α) = A(β) = A(γ) = A(δ) = A(ε) = 1

1η επανάληψη

I – operationΑ(α) = H(δ) = 1,Α(β) = 0Α(γ) = 0Α(δ) = H(α) + H(β) + H(γ) = 3Α(ε) = H(α) + H(γ) = 2

Ο – operationΗ(α) = A(δ) + A(ε) = 5,H(β) = Α(δ) = 3H(γ) = A(δ) + A(ε) = 5H(δ) = Α(α) = 1H(ε) = 0

INTERNET TECHNOLOGIES

Κάνουµε κανονικοποίηση

Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες

Α(α) = 1 / 3.74 = 0.267Α(β) = 0Α(γ) = 0Α(δ) = 3 / 3.74 = 0.802Α(ε) = 2 / 3.74 = 0.535

Η(α) = 5 / 7.746 = 0.645

H(β) = Α(δ) = 3 / 7.746 = 0.387

H(γ) = 5 / 7.746 = 0.645

H(δ) = 1 / 7.746 = 0.129

H(ε) = 0

Page 13: Ws 13-3(2010-11)

13

INTERNET TECHNOLOGIES

2η επανάληψη

I – operationΑ(α) = H(δ) = 0.129,Α(β) = 0Α(γ) = 0Α(δ) = H(α) + H(β) + H(γ) = 1.677Α(ε) = H(α) + H(γ) = 1.29

Ο – operation

Η(α) = A(δ) + A(ε) = 2.967

H(β) = Α(δ) = 1.677

H(γ) = A(δ) + A(ε) = 2.967

H(δ) = Α(α) = 0.129

H(ε) = 0

INTERNET TECHNOLOGIES

Κάνουµε κανονικοποίηση

Και οι νέες τιµές που προκύπτουν είναι οι ακόλουθες

Α(α) = 0.129 / 2.12 = 0.061Α(β) = 0Α(γ) = 0Α(δ) = 1.677 / 2.12 = 0.791Α(ε) = 1.29 / 2.12 = 0.608

Η(α) = 2.967 / 4.5 = 0.659

H(β) = 1.677 / 4.5 = 0.373

H(γ) = 2.967 / 4.5 = 0.659

H(δ) = 0.129 / 4.5 = 0.029

H(ε) = 0

Οµοιώς συνεχίζουµε µέχρι ένα δεδοµένο σηµείο σύγκλισης...

Page 14: Ws 13-3(2010-11)

14

INTERNET TECHNOLOGIES

5η επανάληψη και κανονικοποίηση

I – operation Ο – operationΑ(α) = 0Α(β) = 0Α(γ) = 0Α(δ) = 0.788Α(ε) = 0.615

Τελική κατάταξη ? (ανάλογα µε την θεώρηση για το ρόλο των σελίδων Hub - Authority)

Η(α) = 0.657

H(β) = 0.369

H(γ) = A(δ) + A(ε) = 0.657

H(δ) = Α(α) = 0

H(ε) = 0

Συµπεράσµατα

Εκτελείται σε ένα σύνολο ανακτηµένων σελίδων και για κάθε query.Υπολογίζει authorities και hubs.Είναι εύκολος στον υπολογισµό αλλά η εκτέλεση σε πραγµατικό χρόνο είναι δύσκολη.