Upload
kasper-edwards
View
45
Download
1
Embed Size (px)
DESCRIPTION
Wyszukiwanie informacji w Internecie. Szymon Bohdanowicz. Internet. Ile jest stron internetowych? netcraft w kwietniu 2011 - 312,693,296. Z czym mamy do czynienia?. wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki. - PowerPoint PPT Presentation
Citation preview
Wyszukiwanie informacji w Internecie
Szymon Bohdanowicz
Internet• Ile jest stron internetowych?
netcraft w kwietniu 2011 - 312,693,296
Z czym mamy do czynienia?
• wyszukiwarki tekstowe• metawyszukiwarki• multiwyszukiwarki• szperacze• szukacze• katalogi stron internetowych• silniki
Katalogi stron internetowych
• posiadają strukturę drzewiastą• pogrupowane tematycznie bądź regionalnie• na ogół są aktualizowane oddolnie• Rodzaje:– katalogi globalne – regionalne– tematyczne– katalogi firm – itd…
Przykłady
• http://www.dmoz.org – ogólno światowy katalog otwarty, redagowany przez społeczność
• http://dir.yahoo.com - katalog komercyjny• http://katalog.wp.pl – polski katalog stron• http://kataloog.info/ - ciekawa inicjatywa• http://www.pf.pl/ - katalog firm• http://najlepsze-blogi.pl – katalog blogów
Zalety• Treść oraz aktualność stron jest weryfikowana• Stosunkowo przejrzysty sposób prezentowania
informacji
Wady• Mała liczba stron – konieczność weryfikacji• Komercyjność - linki sponsorowane są wyżej na
liście• Problem z kategoriami – często jedna strona
może być przypisana do wielu kategorii
Kilka ogólnych uwag
• Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron
• Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??
Wyszukiwarki internetowe
• strony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów
• Aktualnie są to naprawdę skomplikowane narzędzia składające się z:– Crawler, Robot, Pająk, Spider lub Bot czyli robot
internetowy– moduł pobierający dokumenty z sieci. – Indekser - program analizujący i oceniający. – Searcher - interfejs odpowiadający na zapytania – czyli
analizator zapytań + moduł prezentacji wyników.
W jaki sposób strony są wybierane
• Analiza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem.
• Przykład -> w przeglądarce
W jaki sposób strony są wybierane cd.
• Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).
Dodatkowe elementy wyszukiwarek
• programy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..)
• programy archiwizujące repozytorium, • programy analizy technik zabronionych
[spam], • moduły administracyjne.
Najważniejszy atut wyszukiwarki
• Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.
Dodatkowe funkcje wyszukiwarek
• Podpowiadanie• Poprawianie pisowni• Automatyczne tłumaczenie• Wyszukiwanie zaawansowane(znaki
dodatkowe -> ””, + , -), w określonym języku• Wyszukiwanie innych mediów niż tekst ->
obrazy, video, pliki muzyczne
Google – lider absolutny
• http://www.ranking.pl/pl/rankings/search-engines-domains.html
• Jako pierwszy zastosował analizę topologiczną• Jego algorytmy relewancji uznawane są za
najdoskonalsze
Metawyszukiwarki
• Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie.
• Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę
Przykłady
• Metacrawler – działa online• http://www.ixquick.com/ - online• Copernic Agent – oprogramowanie pulpitowe,
komercyjne(podstawowa wersja jest bezpłatna)
Coś więcej? -> deepweb(głęboka sieć)
Struktura sieciStrony internetowe przestały być statycznymi
dokumentami HTML o niezmiennej zawartości.• Warstwa pierwsza - strony WWW o ogólnej
tematyce oraz stałej, nie ulegającej zmianom zawartości
• Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.
Struktura sieci (głęboka)
• Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości.
• Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat.
Mamy więc do czynienia z Internetemniewidzialnym, ukrytym bądź głębokim.
Przeszukiwanie deepwebu
• www.completeplanet.com – ma dostęp do 70000 baz danych, ułatwieniem jest katalog tematyczny
• http://infomine.ucr.edu/ - wyszukiwarka akademicka
• http://www.ipl.org/ - wyszukiwarka bibliotekarzy
Kilka technicznych porad
• Podczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.
+ i - przed użytymi słowamiZastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić.
wyszukiwanie całych zdań/wyrażeń
Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.
wielkie literyZazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów.
Operatory AND, ORTego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)
Kilka słów kluczowych dla googla
• define: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich)
• info: wyświetli podstawowe informacje o danej witrynie
• related: wyświetli strony o podobnym charakterze, podobnej treści
• filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść
• weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji
Jeszcze kilka
• link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres
• * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście
• site:(typ strony .edu) – wyświetlone zostaną witryny tylko określonego typu
Czas na coś wesołego?
• Mam x lat – czyli google prawdę Ci powie
Ważne linki• http://websearch.about.com – kompendium
wiedzy o wyszukiwaniu informacji
Coś ciekawego• http://www.azuon.com/ – ciekawa wyszukiwarka
lotów