Upload
azra
View
39
Download
2
Embed Size (px)
DESCRIPTION
ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ. Βουχάρα Τάνια(6306Μ002) Εισαγωγικά Θέματα World Wide Web Χειμερινό εξάμηνο 2006-07. Εισαγωγικά. Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και αύξηση του όγκου της πληροφορίας. Εμπορικές, εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις. - PowerPoint PPT Presentation
Citation preview
ΜΗΧΑΝΕΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣΑΝΑΖΗΤΗΣΗΣ
Βουχάρα Τάνια(6306Μ002)Βουχάρα Τάνια(6306Μ002)
Εισαγωγικά Θέματα Εισαγωγικά Θέματα World Wide WebWorld Wide Web Χειμερινό εξάμηνο 2006-07Χειμερινό εξάμηνο 2006-07
ΕισαγωγικάΕισαγωγικά
Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και Ραγδαία εξάπλωση Διαδικτύου > συνεχής μεταβολή και αύξηση του όγκου της πληροφορίας. Εμπορικές, αύξηση του όγκου της πληροφορίας. Εμπορικές, εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις.εκπαιδευτικές, ενημερωτικές και ψυχαγωγικές χρήσεις.
Αύξηση των χρηστών > πρόβλημα ευρέσεως της Αύξηση των χρηστών > πρόβλημα ευρέσεως της χρήσιμης ή επιθυμητής πληροφορίας.χρήσιμης ή επιθυμητής πληροφορίας.
Μηχανές Αναζήτησης: εργαλεία για την αναζήτηση της Μηχανές Αναζήτησης: εργαλεία για την αναζήτηση της πληροφορίας στον Ιστό.πληροφορίας στον Ιστό.
Ενδεικτικά: Ενδεικτικά: Google, Yahoo!, Ask.com, MSN Search, Google, Yahoo!, Ask.com, MSN Search, Robby, Anazitisis.Robby, Anazitisis.
Ιστορική αναδρομήΙστορική αναδρομή
1990 1990 – 1992 > – 1992 > Archie, Gopher, Veronica.Archie, Gopher, Veronica. 1993 > WebCrawler.1993 > WebCrawler. 1994 > Yahoo, Lycos.1994 > Yahoo, Lycos. 1995 > AltaVista, Infoseek, Excite 1995 > AltaVista, Infoseek, Excite αλλά και οι πρώτες μετα-αλλά και οι πρώτες μετα-
μηχανές μηχανές MetaCrawler, SavvySearch.MetaCrawler, SavvySearch. 1996 > Inktomi, HotBot.1996 > Inktomi, HotBot. 1997 > AskJeeves (1997 > AskJeeves (απ’ το 2005 απ’ το 2005 Ask.com), Northern Light.Ask.com), Northern Light. 1998 > Google, MSN Search (Windows Live Search).1998 > Google, MSN Search (Windows Live Search).
Λειτουργία Μ.Α. (1)Λειτουργία Μ.Α. (1)ΔομήΔομή
Spider (Spider (ή ή Crawler Crawler ή ή RobotRobot) > πρόγραμμα υπεύθυνο για ) > πρόγραμμα υπεύθυνο για τον εντοπισμό των ιστοσελίδων. Αφού τις «διαβάσει» τον εντοπισμό των ιστοσελίδων. Αφού τις «διαβάσει» ακολουθεί τους συνδέσμους (ακολουθεί τους συνδέσμους (links) links) των ιστοσελίδων των ιστοσελίδων αυτών προς άλλες.αυτών προς άλλες.
IndexersIndexers > σαρώνουν τις ιστοσελίδες που εντοπίζουν οι > σαρώνουν τις ιστοσελίδες που εντοπίζουν οι spiders spiders αξιολογώντας το κείμενο, τα αξιολογώντας το κείμενο, τα links links και άλλα και άλλα στοιχεία και κρατούν ένα αντίγραφο στη βάση δεδομένων στοιχεία και κρατούν ένα αντίγραφο στη βάση δεδομένων ((index) index) της Μ.Α.της Μ.Α.
Query processorQuery processor > ψάχνει στη βάση δεδομένων της Μ.Α > ψάχνει στη βάση δεδομένων της Μ.Α για να βρει ιστοσελίδες σχετικές με τις λέξεις – κλειδιά που για να βρει ιστοσελίδες σχετικές με τις λέξεις – κλειδιά που πληκτρολόγησε ο χρήστης. πληκτρολόγησε ο χρήστης.
Λειτουργία Μ.Α.(2)Λειτουργία Μ.Α.(2)Καταχώρηση ιστοσελίδωνΚαταχώρηση ιστοσελίδων
4 τρόποι4 τρόποι για την καταχώρηση ενός για την καταχώρηση ενός web site web site σε μία Μ.Α.σε μία Μ.Α. «Χειρωνακτικά» από τον ιδιοκτήτη του δικτυακού τόπου.«Χειρωνακτικά» από τον ιδιοκτήτη του δικτυακού τόπου. Με τη βοήθεια ειδικών προγραμμάτων (π.χ. Με τη βοήθεια ειδικών προγραμμάτων (π.χ. SignPoster).SignPoster). Να βρει η Μ.Α. την ιστοσελίδα μόνη της μέσω συνδέσμων Να βρει η Μ.Α. την ιστοσελίδα μόνη της μέσω συνδέσμων
από άλλους δικτυακούς τόπους, που δείχνουν προς αυτήν.από άλλους δικτυακούς τόπους, που δείχνουν προς αυτήν. Να πληρώσει ο ιδιοκτήτης του Να πληρώσει ο ιδιοκτήτης του web site web site την εταιρεία της την εταιρεία της
Μ.Α.Μ.Α.
Ωστόσο, διαφορετικές προϋποθέσεις θέτει η εκάστοτε Μ.Α. Ωστόσο, διαφορετικές προϋποθέσεις θέτει η εκάστοτε Μ.Α. για να συμπεριλάβει μία ιστοσελίδα στον κατάλογό της. για να συμπεριλάβει μία ιστοσελίδα στον κατάλογό της.
Λειτουργία Μ.Α.(3)Λειτουργία Μ.Α.(3)
Ο χρήστης πληκτρολογεί στο ενδεδειγμένο πεδίο λέξεις – Ο χρήστης πληκτρολογεί στο ενδεδειγμένο πεδίο λέξεις – κλειδιά. Δυνατότητα χρήσης τελεστών(κλειδιά. Δυνατότητα χρήσης τελεστών(Booleans): AND, Booleans): AND, OR, NOT, NEAR. Advanced Search.OR, NOT, NEAR. Advanced Search.
Η Μ.Α. δεν ψάχνει τον Ιστό αλλά τη δική της βάση Η Μ.Α. δεν ψάχνει τον Ιστό αλλά τη δική της βάση δεδομένων.δεδομένων.
Τα αποτελέσματα επιστρέφονται στο χρήστη με τη μορφή Τα αποτελέσματα επιστρέφονται στο χρήστη με τη μορφή μίας λίστας με μίας λίστας με links links στις αντίστοιχες σελίδες.στις αντίστοιχες σελίδες.
Λειτουργία Μ.Α.(4)Λειτουργία Μ.Α.(4)Κριτήρια ιεράρχησης αποτελεσμάτωνΚριτήρια ιεράρχησης αποτελεσμάτων
Κάθε Μ.Α. χρησιμοποιεί αλγόριθμους ταξινόμησης. Ο Κάθε Μ.Α. χρησιμοποιεί αλγόριθμους ταξινόμησης. Ο ακριβής τρόπος λειτουργίας τους δεν είναι γνωστός.ακριβής τρόπος λειτουργίας τους δεν είναι γνωστός.
Γενικά, παίζουν ρόλο τα εξής:Γενικά, παίζουν ρόλο τα εξής: Συνάφεια (τοποθεσία και συχνότητα λέξεων – κλειδιών σε Συνάφεια (τοποθεσία και συχνότητα λέξεων – κλειδιών σε
μία ιστοσελίδα) > φυσικά ή οργανικά αποτελέσματα.μία ιστοσελίδα) > φυσικά ή οργανικά αποτελέσματα. Ανάλυση υπερσυνδέσεων.Ανάλυση υπερσυνδέσεων. Δημοτικότητα μιας ιστοσελίδας (Δημοτικότητα μιας ιστοσελίδας (link popularity).link popularity). Ποιότητα περιεχομένου ιστοσελίδας.Ποιότητα περιεχομένου ιστοσελίδας. Πληρωμένη καταχώρηση (Πληρωμένη καταχώρηση (Paid Inclusion, Paid Search, Paid Inclusion, Paid Search,
Pay Per Click). Pay Per Click).
PageRank PageRank αλγόριθμοςαλγόριθμος
Αλγόριθμος με βάση τον οποίο το Αλγόριθμος με βάση τον οποίο το Google Google αναλύει τον τρόπο αναλύει τον τρόπο διασύνδεσης των ιστοσελίδων.διασύνδεσης των ιστοσελίδων.
Αξιολογεί τη σημαντικότητα μιας Αξιολογεί τη σημαντικότητα μιας ιστοσελίδας με βάση τα ιστοσελίδας με βάση τα inboundinbound ((τα τα links links που κατευθύνονται προς που κατευθύνονται προς μία ιστοσελίδα) και μία ιστοσελίδα) και outbound (outbound (τα τα links links μιας ιστοσελίδας που μιας ιστοσελίδας που οδηγούν σε άλλες) οδηγούν σε άλλες) links.links.
Ευάλωτο σε έξωθεν χειρισμούς.Ευάλωτο σε έξωθεν χειρισμούς.
Search Engine OptimizationSearch Engine Optimization
S.E.O. S.E.O. τεχνικές: μέθοδοι προώθησης ιστοσελίδων μέσω τεχνικές: μέθοδοι προώθησης ιστοσελίδων μέσω της ευνοϊκής τους κατάταξης στις Μ.Α.της ευνοϊκής τους κατάταξης στις Μ.Α.
White hat S.E.O. > White hat S.E.O. > αποδεκτές τεχνικές.αποδεκτές τεχνικές.
Black hat S.E.O.Black hat S.E.O. CloakingCloaking Τοποθέτηση κρυμμένου κειμένουΤοποθέτηση κρυμμένου κειμένου Χρήση Χρήση doorway doorway ή ή gateway gateway σελίδωνσελίδων Spamdexing (Link Farms, Page Hijacking)Spamdexing (Link Farms, Page Hijacking) Google BombingGoogle Bombing
Google BombingGoogle Bombing
Το αόρατο διαδίκτυο (Το αόρατο διαδίκτυο (Deep Web)Deep Web)
Deep Web Deep Web ή ή Invisible Web Invisible Web ή ή Deepnet: Deepnet: περιεχόμενο του περιεχόμενο του Ιστού που οι Ιστού που οι crawlers crawlers αδυνατούν να προσπελάσουν. 2 με αδυνατούν να προσπελάσουν. 2 με 3 φορές μεγαλύτερο απ’ το «ορατό» Διαδίκτυο.3 φορές μεγαλύτερο απ’ το «ορατό» Διαδίκτυο.
Πηγές Πηγές Deep WebDeep Web Δυναμικές ιστοσελίδες.Δυναμικές ιστοσελίδες. Ιστοσελίδες χωρίς Ιστοσελίδες χωρίς inbound links.inbound links. Περιεχόμενο περιορισμένης πρόσβασης.Περιεχόμενο περιορισμένης πρόσβασης. Μη-κειμενικό περιεχόμενο.Μη-κειμενικό περιεχόμενο. JavaScript JavaScript ή ή Flash Flash περιεχόμενο.περιεχόμενο.
Θεματικοί ΚατάλογοιΘεματικοί Κατάλογοι ((Directories)Directories)
Ο εντοπισμός, η αξιολόγηση και η κατάταξη των Ο εντοπισμός, η αξιολόγηση και η κατάταξη των δικτυακών τόπων γίνεται από ομάδα ατόμων υπεύθυνη γι’ δικτυακών τόπων γίνεται από ομάδα ατόμων υπεύθυνη γι’ αυτή την εργασία.αυτή την εργασία.
Δεν εγγράφουν όλες τις ιστοσελίδες στην ίδια βάση Δεν εγγράφουν όλες τις ιστοσελίδες στην ίδια βάση δεδομένων αλλά τις κατατάσσουν σε θεματικές δεδομένων αλλά τις κατατάσσουν σε θεματικές κατηγορίες.κατηγορίες.
Συνήθως, οι υπηρεσίες αναζήτησης είναι «υβριδικές» Συνήθως, οι υπηρεσίες αναζήτησης είναι «υβριδικές» ((hybrid) > hybrid) > μορφές μεταξύ Μ.Α. και Θ.Κ.μορφές μεταξύ Μ.Α. και Θ.Κ.
Μεταμηχανές ΑναζήτησηςΜεταμηχανές Αναζήτησης
Δεν διαθέτουν δικό τους ευρετήριο αλλά αντλούν τα Δεν διαθέτουν δικό τους ευρετήριο αλλά αντλούν τα αποτελέσματα τους από τα ευρετήρια άλλων μηχανών αποτελέσματα τους από τα ευρετήρια άλλων μηχανών αναζήτησης.αναζήτησης.
Παραδείγματα: Παραδείγματα: DogPile, SavvySearch, MetaCrawler.DogPile, SavvySearch, MetaCrawler. Πλεονεκτήματα: ευρεία κάλυψη θέματος, επιστροφή Πλεονεκτήματα: ευρεία κάλυψη θέματος, επιστροφή
απαντήσεων σε ασαφείς ερωτήσεις που μία απλή μηχανή απαντήσεων σε ασαφείς ερωτήσεις που μία απλή μηχανή μπορεί να «χάσει».μπορεί να «χάσει».
Μειονεκτήματα: ενδείκνυνται για απλές αναζητήσεις.Μειονεκτήματα: ενδείκνυνται για απλές αναζητήσεις.
Δημοφιλείς Μηχανές ΑναζήτησηςΔημοφιλείς Μηχανές Αναζήτησης
Συγκριτική ΠαρουσίασηΣυγκριτική Παρουσίαση
S.E.S.E. GoogleGoogle Yahoo! SearchYahoo! Search Ask.comAsk.com
Size Size Huge. THuge. The he
biggestbiggest. . HugeHuge. 20 . 20
billion billion pages.pages. LargeLarge. 2 billion . 2 billion
pages.pages.
FFeatures eatures Popularity Popularity ranking using ranking using PageRank.PageRank.
ShortcutsShortcuts give give quick access quick access to dictionary, to dictionary, synonyms synonyms etc.etc.
Subject-Specific Subject-Specific Popularity Popularity ranking.ranking. BBroader roader / /
narrower termsnarrower terms. . PhrasePhrasess Yes. Use " " Yes. Use " " Yes. Use " " Yes. Use " " Yes. Use " " Yes. Use " "
BooleaBooleansns Partial. AND Partial. AND assumedassumed.. Capitalize Capitalize OR. OR.
AND, OR, AND, OR, NOT or AND NOT or AND
NOTNOT
As in Google.As in Google.
S.E.S.E. GoogleGoogle Yahoo! SearchYahoo! Search Ask.comAsk.com
+Requires/ +Requires/
-Excludes-Excludes - excludes - excludes + retrieve+ retrievess “ “stop stop wordswords" (e.g., " (e.g.,
+in)+in)
- excludes - excludes + search+ searcheses common common
wordswords
As in Google.As in Google.
Sub-Sub-
SearchingSearching YesYes YesYes YesYes
Results Results
RankingRanking Link Popularity. Link Popularity. Fuzzy AND.Fuzzy AND.
Automatic Automatic Fuzzy AND.Fuzzy AND.
ExpertRank ExpertRank Algorithm.Algorithm.
Case Case
sensitivitysensitivity No. No. No. No. No. No.
LanguageLanguage Yes. Yes. Yes. Yes. Yes. Yes.
Βελτιώσεις / ΕξελίξειςΒελτιώσεις / Εξελίξεις
Προσπάθεια σάρωσης του Προσπάθεια σάρωσης του Deep Web > Yahoo! Deep Web > Yahoo! Subscriptions, Google’ s Sitemap Protocol.Subscriptions, Google’ s Sitemap Protocol.
Δυνατότητα για προσωποποίηση των αποτελεσμάτων Δυνατότητα για προσωποποίηση των αποτελεσμάτων π.χ. π.χ. Google Desktop.Google Desktop.
Προσπάθεια αντιμετώπισης του Προσπάθεια αντιμετώπισης του spamdexing > spamdexing > ομαδοποιημένα αποτελέσματα (ομαδοποιημένα αποτελέσματα (clustered results), clustered results), κριτήριο κριτήριο “nofollow” (Google, 2005).“nofollow” (Google, 2005).
The Search Wikia Project: The Search Wikia Project: δεν θα στηρίζεται σε δεν θα στηρίζεται σε αλγόριθμους ταξινόμησης αλλά τα αποτελέσματα θα αλγόριθμους ταξινόμησης αλλά τα αποτελέσματα θα διαμορφώνονται από τους χρήστες.διαμορφώνονται από τους χρήστες.
Κριτική / Μειονεκτήματα(1)Κριτική / Μειονεκτήματα(1)
Μόνο ένα μικρό μέρος του Ιστού επισκέπτονται οι Μόνο ένα μικρό μέρος του Ιστού επισκέπτονται οι spiders.spiders. Δυσκολία στη διάκριση μεταξύ νέας και ήδη Δυσκολία στη διάκριση μεταξύ νέας και ήδη
επεξεργασμένης πληροφορίας.επεξεργασμένης πληροφορίας. Μέσος χρόνος επίσκεψης κάθε κόμβου μέχρι και 6 μήνες Μέσος χρόνος επίσκεψης κάθε κόμβου μέχρι και 6 μήνες
> > broken links, broken links, χάνεται η νέα πληροφορία.χάνεται η νέα πληροφορία. Επικίνδυνες ιστοσελίδες στα αποτελέσματα (έρευνα Επικίνδυνες ιστοσελίδες στα αποτελέσματα (έρευνα
McAfee).McAfee). H H ιεράρχηση των αποτελεσμάτων επηρεάζεται και από ιεράρχηση των αποτελεσμάτων επηρεάζεται και από
διαφημιστικές πρακτικές.διαφημιστικές πρακτικές. Ποιότητα δεδομένων > η πληροφορία δεν ελέγχεται.Ποιότητα δεδομένων > η πληροφορία δεν ελέγχεται.
Κριτική / Μειονεκτήματα(2)Κριτική / Μειονεκτήματα(2)
Υπερβολική πρόσβαση στην Υπερβολική πρόσβαση στην πληροφορία (π.χ. πορνογραφικά πληροφορία (π.χ. πορνογραφικά sites).sites).
Ελλιπής πρόσβαση στην Ελλιπής πρόσβαση στην πληροφορία (π.χ. δυναμικές πληροφορία (π.χ. δυναμικές ιστοσελίδες, ιστοσελίδες, HTTPS URLs).HTTPS URLs).
Λογοκρισία (π.χ. Κίνα).Λογοκρισία (π.χ. Κίνα). Έλλειψη διαφάνειας – ο τρόπος Έλλειψη διαφάνειας – ο τρόπος
λειτουργίας των αλγορίθμων είναι λειτουργίας των αλγορίθμων είναι μυστικός.μυστικός.
Καταπάτηση ατομικών Καταπάτηση ατομικών ελευθεριών.ελευθεριών.
Κοινωνικές διαστάσειςΚοινωνικές διαστάσεις
Μ.Α > πρόσβαση στη γνώση και την πληροφορία. Δεν Μ.Α > πρόσβαση στη γνώση και την πληροφορία. Δεν αποτελούν μόνο τεχνικά φαινόμενα, εμπλέκονται σε αποτελούν μόνο τεχνικά φαινόμενα, εμπλέκονται σε κοινωνικές διαδικασίες.κοινωνικές διαδικασίες.
«Βάσεις δεδομένων» που αντικατοπτρίζουν τις προθέσεις «Βάσεις δεδομένων» που αντικατοπτρίζουν τις προθέσεις (“databases of intentions”) (“databases of intentions”) και την κουλτούρα των και την κουλτούρα των χρηστών. Επιπτώσεις στους τομείς της διαφήμισης και χρηστών. Επιπτώσεις στους τομείς της διαφήμισης και των επιχειρήσεων. (των επιχειρήσεων. (John Batelle, 2005). John Batelle, 2005).
Η καταχώρηση ή μη ενός Η καταχώρηση ή μη ενός web site web site στο στο index index μιας Μ.Α. και μιας Μ.Α. και η θέση του στα αποτελέσματα > οικονομικές, κοινωνικές, η θέση του στα αποτελέσματα > οικονομικές, κοινωνικές, πολιτικές και επιστημονικές επιπτώσεις.πολιτικές και επιστημονικές επιπτώσεις.
Πηγές(1)Πηγές(1) Feldman S.,(2002). This is what I asked for? The searching quarmireFeldman S.,(2002). This is what I asked for? The searching quarmire. .
In Mintz A., In Mintz A., Web of deceptionWeb of deception. Information Today, Inc.. Information Today, Inc. http://daphne.palomar.edu/TGSEARCH/http://daphne.palomar.edu/TGSEARCH/ http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304Ahttp://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A
-37F4-11E8-B7F483414B7F0000-37F4-11E8-B7F483414B7F0000 http://www.pandia.com/goalgetter/index.htmlhttp://www.pandia.com/goalgetter/index.html http://www.searchenginehistory.com/http://www.searchenginehistory.com/ http://pacific.jour.auth.gr/totsidou/Search_Engines.htmhttp://pacific.jour.auth.gr/totsidou/Search_Engines.htm http://www.searchenginemarketing.gr/search-engine-marketing-terms.http://www.searchenginemarketing.gr/search-engine-marketing-terms.
htmhtm http://www.go-online.gr/ebusiness/specials/article.html?article_id=231http://www.go-online.gr/ebusiness/specials/article.html?article_id=231 http://www.inertia.gr/whatSE.htmlhttp://www.inertia.gr/whatSE.html http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.htmlhttp://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html
Πηγές(2)Πηγές(2)
http://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304Ahttp://www.sciam.com/article.cfm?chanID=sa006&articleID=0006304A-37F4-11E8-B7F483414B7F0000&pageNumber=6&catID=2-37F4-11E8-B7F483414B7F0000&pageNumber=6&catID=2
http://www.imerisia.gr/article.asp?catid=4775&subid=2&pubid=274491http://www.imerisia.gr/article.asp?catid=4775&subid=2&pubid=274491 http://en.wikipedia.org/wiki/Search_enginehttp://en.wikipedia.org/wiki/Search_engine http://en.wikipedia.org/wiki/Spamdexinghttp://en.wikipedia.org/wiki/Spamdexing http://jcmc.indiana.edu/vol12/issue3/hargittai.htmlhttp://jcmc.indiana.edu/vol12/issue3/hargittai.html http://jcmc.indiana.edu/vol12/issue3/vaughan.htmlhttp://jcmc.indiana.edu/vol12/issue3/vaughan.html http://jcmc.indiana.edu/vol12/issue3/vancouvering.htmlhttp://jcmc.indiana.edu/vol12/issue3/vancouvering.html http://www.netmode.ntua.gr/courses/postgraduate/edi/ergasies2006/http://www.netmode.ntua.gr/courses/postgraduate/edi/ergasies2006/
SEO.pdfSEO.pdf http://e-rooster.gr/10/2006/350http://e-rooster.gr/10/2006/350