35
Systemy wyszukiwawcze Dr Stanisław Skórka Systemy wyszukiwania informacji. Wykład 3

Systemy Wyszukiwawcze

Embed Size (px)

DESCRIPTION

Wykład 3

Citation preview

Page 1: Systemy Wyszukiwawcze

Systemy wyszukiwawcze

Dr Stanisław Skórka

Systemy wyszukiwania informacji. Wykład 3

Page 2: Systemy Wyszukiwawcze

System wyszukiwania informacji• S. wyszukiwawczy, s. informacyjno-

wyszukiwawczy• System przetwarzający informację,

który z informacji wejściowych (dokumentów, stron WWW) tworzy zbiór wyszukiwawczy poprzez odpowiednie transformacje, dokonując w nim przeszukiwania na podstawie określonej dla danego systemu relacji relewancji technicznej (dopasowania instrukcji wyszukiwawczej do elementów zbioru wyszukiwawczego)

Page 3: Systemy Wyszukiwawcze

Wyszukiwarka

• Usługa sieciowa umożliwiająca odnajdywanie w Internecie dowolnych informacji określonych za pomocą słów kluczowych i operatorów (instrukcji wyszukiwawczych, zapytań)

• baza danych tworzona automatycznie

• ang. search engine

Page 4: Systemy Wyszukiwawcze

Wyszukiwanie: pojęcia

• wyrażenie – ciąg znaków w postaci słowa lub skrótu,

• słowo kluczowe – wyrażenie odzwierciedlające potrzebę informacyjną zawartą w zadaniu wyszukiwawczym, np. kufi,

• zapytanie – jedno lub więcej wyrażeń skierowanych do wyszukiwarki, mogące zawierać m.in. operatory logiczne lub modyfikatory,

• strona wynikowa – strona WWW zawierająca adresy do dokumentów wzbogacone streszczeniem ich zawartości odpowiadającej wysłanemu zapytaniu (trafienia).

Page 5: Systemy Wyszukiwawcze

Wyszukiwanie według użytkownika

ZapytanieInstrukcja wyszukiwawcza

ZapytanieInstrukcja wyszukiwawcza

Czarna magia

(przetwarzanie)

WynikInformacja wyjściowa

WynikInformacja wyjściowa

Page 6: Systemy Wyszukiwawcze

S.w. wczoraj

1996 r.

2007 r.2007 r.

1994 - powstaje WebCrawler prekursor dzisiejszych wyszukiwarek

Page 7: Systemy Wyszukiwawcze

Posługiwanie się wyszukiwarką do odnajdywania informacji uznaje się

za tradycyjną metodę poszukiwania, gdyż stosowana jest od wielu lat w bazach danych oraz

zintegrowanych systemach bibliotecznych…

Page 8: Systemy Wyszukiwawcze

…jednak jej skuteczność nie jest tak wysoka. Powodem jest brak jednolitej

struktury dokumentów hipertekstowych, w przeciwieństwie

do baz danych, zbudowanych z rekordów, pól i podpól oraz

przechowywanie w swojej strukturze wielu form przekazu (tekst, grafika

i dźwięk).

Page 9: Systemy Wyszukiwawcze

Anatomia s.w.

Morville, Rosenfeld, s. 163

Page 10: Systemy Wyszukiwawcze

Elementy budowy wyszukiwarki

• robot (pajączek), który jest programem przeszukującym strony internetowe i umieszczającym je w bazie danych wyszukiwarki

• baza danych (indeks), przechowuje strony znalezione przez pajączka

• moduł wyszukujący, przegląda bazę danych w poszukiwaniu stron odpowiadających zapytaniu użytkownika

Page 11: Systemy Wyszukiwawcze

Działanie wyszukiwarki Indeksowanie

Page 12: Systemy Wyszukiwawcze

Architektura informacji a wyszukiwanie

1. Interfejs2. Strefy wyszukiwania3. Metody przeszukiwania4. Prezentacja wyników5. Efektywność wyszukiwania

Page 13: Systemy Wyszukiwawcze

1. Interfejs

Page 14: Systemy Wyszukiwawcze

Interfejsy proste

Page 15: Systemy Wyszukiwawcze

Interfejsy zaawansowane

Page 16: Systemy Wyszukiwawcze

2. Strefy wyszukiwania

Page 17: Systemy Wyszukiwawcze

• podzbiory serwisu indeksowane oddzielnie

• możliwość zwiększenia precyzji wyszukiwania

• zaczerpnięte z baz danych (pola indexowane)

Page 18: Systemy Wyszukiwawcze

Kryteria wyboru

• typ zawartości• audytorium• rola / funkcja• geografia• chronologia• autor• dział / jednostka organizacyjna

Page 19: Systemy Wyszukiwawcze

Strefy wyszukiwania

Page 20: Systemy Wyszukiwawcze

3. Metody przeszukiwania

Page 21: Systemy Wyszukiwawcze

Modele klasyczne

• boolowskiboolowski: oparty na algebrze Boole’a, dokumenty i zapytania reprezentowane są przez terminy indeksowe (dokumenty relewantne i nierelewantne)

• zalety: jasno sformułowane kryteria przeszukiwnia

• wady: zbyt dokładne dopasowywanie, przejawiające się zbyt małą lub zbyt dużą liczbą trafień

Page 22: Systemy Wyszukiwawcze

Modele klasyczne

wektorowy: dokumenty i zapytania uważane są za wektory w wielowymiarowej przestrzeni (stosuje tzw. dopasowanie częściowe)

• zalety: stosuje schemat tzw. ważenia terminów, częściowe dopasowanie pozwala odszukać dokumenty przybliżone tematyką do zapytania, jest elastyczny w stosowaniu strategii rankingowej

• popularny wśród projektujących

Page 23: Systemy Wyszukiwawcze

Modele

probabilistyczny: oparty na teorii prawdopodbieństwa,

• zaleta: porządkuje wyniki według prawdopodobnej relewancji

• wady: konieczność rozpoznawania dokumentów relewantnych od nierelewantnych, nie analizuje frekwencyjności terminów w treści,

Page 24: Systemy Wyszukiwawcze

4. Prezentacja wyników

Page 25: Systemy Wyszukiwawcze

Metody porządkowania trafień

• Sortowanie

wg kryteriów formalnych: chronologicznie, alfabetyczne

• Ranking

oparty na ocenie zgodności z zapytaniem

Page 26: Systemy Wyszukiwawcze

Elementy składowe trafienia

• nagłówek (link)• opis (2-3 wiersze)• adres URL

Page 27: Systemy Wyszukiwawcze

Prezentacja wyników

Page 28: Systemy Wyszukiwawcze

Prezentacja wyników (2)

Page 29: Systemy Wyszukiwawcze

5. Skuteczność wyszukiwania

Page 30: Systemy Wyszukiwawcze

5. Skuteczność wyszukiwania

odpowiedź = liczba wyszukanych relewantnych dokumentów / liczba wszystkich relewantnych dokumentów

precyzja = liczba wyszukanych relewantnych dokumentów / liczba wszystkich wyszukanych dokumentów

Page 31: Systemy Wyszukiwawcze

Opcje, ułatwienia

Page 32: Systemy Wyszukiwawcze

Wskazówki

• Użytkownicy oczekują od wyszukiwarek:– pola do wpisania instrukcji

wyszukiwawczej– przycisku z etykietą Szukaj– listy najlepszych wyników, ułożonych

liniowo i ws sposób priorytetowy na nowej stronie

Page 33: Systemy Wyszukiwawcze

Wskazówki (2)

• Pole wyszukiwania (hasłowe) powinno mieć szerokość 27 znaków, co zapewni 90% uzytkownikom wpisanie całej instrukcji wyszukiwawczej

• niewielu użytkowników używa opcji wyszukiwania zaawansowanego – unikaj jej na pierwszej stronie

• Stosuj opcję Czy chodziło ci o…• Użytkownicy najczęściej stosują zapytania

złożone – uwzgledniaj to w sekcji opisie strony

Page 34: Systemy Wyszukiwawcze

• Zasada „Najlepszego strzału” (nazwa produktu, nazwisko dyrektora, nazwa kategorii)

• Specjalista od SEO (Search Engine Optimization)

• Sztuczki oszustów (cloacking, spam wyszukujący, fałszywe komentarze, farmy odnośników)

Wskazówki (3)

Page 35: Systemy Wyszukiwawcze

Literatura

1. J. Nielsen, H. Loranger, Optymalizacja funkcjonalności serwsów internetowych. Gliwice 2007.

2. R. Baeza-Yates, B.Ribeiro-Neto, Modern Information Retrieval. Addison Wesley 1999.

3. L. Rosenfeld, P. Morville, Architektura informacji…, s. 159-206.

• Wykład prof. R. Tadeusiewicza: http://www.ap.krakow.pl/iinib/spai/wyklady/