26
Wyszukiwanie informacji w Internecie Szymon Bohdanowicz

Wyszukiwanie informacji w Internecie

Embed Size (px)

DESCRIPTION

Wyszukiwanie informacji w Internecie. Szymon Bohdanowicz. Internet. Ile jest stron internetowych? netcraft w kwietniu 2011 - 312,693,296. Z czym mamy do czynienia?. wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki. - PowerPoint PPT Presentation

Citation preview

Page 1: Wyszukiwanie informacji w Internecie

Wyszukiwanie informacji w Internecie

Szymon Bohdanowicz

Page 2: Wyszukiwanie informacji w Internecie

Internet• Ile jest stron internetowych?

netcraft w kwietniu 2011 - 312,693,296

Page 3: Wyszukiwanie informacji w Internecie

Z czym mamy do czynienia?

• wyszukiwarki tekstowe• metawyszukiwarki• multiwyszukiwarki• szperacze• szukacze• katalogi stron internetowych• silniki

Page 4: Wyszukiwanie informacji w Internecie

Katalogi stron internetowych

• posiadają strukturę drzewiastą• pogrupowane tematycznie bądź regionalnie• na ogół są aktualizowane oddolnie• Rodzaje:– katalogi globalne – regionalne– tematyczne– katalogi firm – itd…

Page 5: Wyszukiwanie informacji w Internecie

Przykłady

• http://www.dmoz.org – ogólno światowy katalog otwarty, redagowany przez społeczność

• http://dir.yahoo.com - katalog komercyjny• http://katalog.wp.pl – polski katalog stron• http://kataloog.info/ - ciekawa inicjatywa• http://www.pf.pl/ - katalog firm• http://najlepsze-blogi.pl – katalog blogów

Page 6: Wyszukiwanie informacji w Internecie

Zalety• Treść oraz aktualność stron jest weryfikowana• Stosunkowo przejrzysty sposób prezentowania

informacji

Wady• Mała liczba stron – konieczność weryfikacji• Komercyjność - linki sponsorowane są wyżej na

liście• Problem z kategoriami – często jedna strona

może być przypisana do wielu kategorii

Page 7: Wyszukiwanie informacji w Internecie

Kilka ogólnych uwag

• Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron

• Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??

Page 8: Wyszukiwanie informacji w Internecie

Wyszukiwarki internetowe

• strony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów

• Aktualnie są to naprawdę skomplikowane narzędzia składające się z:– Crawler, Robot, Pająk, Spider lub Bot czyli robot

internetowy– moduł pobierający dokumenty z sieci. – Indekser - program analizujący i oceniający. – Searcher - interfejs odpowiadający na zapytania – czyli

analizator zapytań + moduł prezentacji wyników.

Page 9: Wyszukiwanie informacji w Internecie

W jaki sposób strony są wybierane

• Analiza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem.

• Przykład -> w przeglądarce

Page 10: Wyszukiwanie informacji w Internecie

W jaki sposób strony są wybierane cd.

• Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).

Page 11: Wyszukiwanie informacji w Internecie

Dodatkowe elementy wyszukiwarek

• programy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..)

• programy archiwizujące repozytorium, • programy analizy technik zabronionych

[spam], • moduły administracyjne.

Page 12: Wyszukiwanie informacji w Internecie

Najważniejszy atut wyszukiwarki

• Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.

Page 13: Wyszukiwanie informacji w Internecie

Dodatkowe funkcje wyszukiwarek

• Podpowiadanie• Poprawianie pisowni• Automatyczne tłumaczenie• Wyszukiwanie zaawansowane(znaki

dodatkowe -> ””, + , -), w określonym języku• Wyszukiwanie innych mediów niż tekst ->

obrazy, video, pliki muzyczne

Page 14: Wyszukiwanie informacji w Internecie

Google – lider absolutny

• http://www.ranking.pl/pl/rankings/search-engines-domains.html

• Jako pierwszy zastosował analizę topologiczną• Jego algorytmy relewancji uznawane są za

najdoskonalsze

Page 15: Wyszukiwanie informacji w Internecie

Metawyszukiwarki

• Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie.

• Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę

Page 16: Wyszukiwanie informacji w Internecie

Przykłady

• Metacrawler – działa online• http://www.ixquick.com/ - online• Copernic Agent – oprogramowanie pulpitowe,

komercyjne(podstawowa wersja jest bezpłatna)

Page 17: Wyszukiwanie informacji w Internecie

Coś więcej? -> deepweb(głęboka sieć)

Page 18: Wyszukiwanie informacji w Internecie

Struktura sieciStrony internetowe przestały być statycznymi

dokumentami HTML o niezmiennej zawartości.• Warstwa pierwsza - strony WWW o ogólnej

tematyce oraz stałej, nie ulegającej zmianom zawartości

• Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.

Page 19: Wyszukiwanie informacji w Internecie

Struktura sieci (głęboka)

• Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości.

• Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat.

Mamy więc do czynienia z Internetemniewidzialnym, ukrytym bądź głębokim.

Page 20: Wyszukiwanie informacji w Internecie

Przeszukiwanie deepwebu

• www.completeplanet.com – ma dostęp do 70000 baz danych, ułatwieniem jest katalog tematyczny

• http://infomine.ucr.edu/ - wyszukiwarka akademicka

• http://www.ipl.org/ - wyszukiwarka bibliotekarzy

Page 21: Wyszukiwanie informacji w Internecie

Kilka technicznych porad

• Podczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.

Page 22: Wyszukiwanie informacji w Internecie

+ i - przed użytymi słowamiZastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić.

wyszukiwanie całych zdań/wyrażeń

Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.

Page 23: Wyszukiwanie informacji w Internecie

wielkie literyZazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów.

Operatory AND, ORTego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)

Page 24: Wyszukiwanie informacji w Internecie

Kilka słów kluczowych dla googla

• define: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich)

• info: wyświetli podstawowe informacje o danej witrynie

• related: wyświetli strony o podobnym charakterze, podobnej treści

• filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść

• weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji

Page 25: Wyszukiwanie informacji w Internecie

Jeszcze kilka

• link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres

• * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście

• site:(typ strony .edu) – wyświetlone zostaną witryny tylko określonego typu

Page 26: Wyszukiwanie informacji w Internecie

Czas na coś wesołego?

• Mam x lat – czyli google prawdę Ci powie

Ważne linki• http://websearch.about.com – kompendium

wiedzy o wyszukiwaniu informacji

Coś ciekawego• http://www.azuon.com/ – ciekawa wyszukiwarka

lotów