50
Wyszukiwanie strukturalne

Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Embed Size (px)

Citation preview

Page 1: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie strukturalne

Page 2: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

WprowadzenieWyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Każdy dokument jest opatrzony w opis strukturalny dokumentu (właściwości indeksu / właściwości pliku / właściwości dokumentu), które są określane podczas wprowadzania i indeksowania dokumentów.

Przy użyciu funkcji wyszukiwania, dokumenty są wyszukiwane są według danych indeksowych.

Ponadto, możliwe jest wyszukiwanie dokumentów według całego tekstu. Poprzez połączenie odpowiednich pozycji wyszukiwania możliwe jest

wyszukiwanie złożone według całego tekstu i danych indeksowych dokumentu.

Page 3: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Podobieństwo strukturalne Elementem charakterystycznym dokumentów hipertekstowych,

odróżniającym go od innych rodzajów dokumentów są odsyłacze. Tworzą one strukturę systemu hipertekstowego.

Łącząc dokumenty, równocześnie niosą ze sobą informacje o związkach semantycznych pomiędzy dokumentami.

Zakładając, że odsyłacze niosą ze sobą informację o powiązaniach semantycznych między dokumentami, możemy wykorzystać elementy struktury do wyznaczenia podobieństwa pomiędzy dokumentami hipertekstowymi.

Przy wyszukiwaniu informacji w sieci wykorzystać można funkcje podobieństwa strukturalnego.

Page 4: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Rola odsyłaczy

Odsyłacze pełnią w systemie hipertekstowym dwie podstawowe role: reprezentacyjną (ujmując i prezentując relacje między porcjami informacji w tekście) oraz nawigacyjną (obejmując ścieżki poruszania się użytkownika po systemie).

Nierzadko te dwie role przenikają się nawzajem, czasem są rozdzielone.

Page 5: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Główne typy odsyłaczy Semantyczne (znaczeniowe), czyli bazujące na treści,

mające za zadanie wiązać dokumenty mieszczące się w tej samej lub pokrewnej tematyce.

Organizacyjne, czyli odsyłające, których głównym celem jest lepsza (szybsza, łatwiejsza) nawigacja po systemie. W związku z tym, bywają one także nazywane nawigacyjnymi.

Badania wskazują, że dla hipertekstowego środowiska WWW z dużym prawdopodobieństwem (ponad 80%) można automatycznie rozróżnić odsyłacze nawigacyjne od semantycznych.

Page 6: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Założenia funkcji podobieństwa strukturalnego Traktując odsyłacze jako główne źródło informacji o

podobieństwie dokumentów, można opracować funkcję podobieństwa strukturalnego (odsyłacze tworzą strukturę systemu hipertekstowego).

Założenia przy wyznaczaniu funkcji podobieństwa strukturalnego. W funkcji tej będą uwzględniane:

a) Liczba odsyłaczy łączących oba dokumenty (odsyłacze bezpośrednie).

b) Liczba wszystkich odsyłaczy, które wychodzą z obu dokumentów. Pozwala to na ważenie odsyłaczy łączących dokumenty. Waga jest większa wtedy, gdy są to jedyne odsyłacze występujące w tych dokumentach; mniejsza - gdy są one jednymi z wielu.

Page 7: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

c) Liczba i rodzaj bezpośrednich wspólnych potomków i przodków (w ramach kolekcji i poza nią).

d) Rodzaj odsyłaczy według podziału na semantyczne i nawigacyjne przyjmując, że odsyłacze semantyczne lepiej niż nawigacyjne odzwierciedlają podobieństwo tematyczne między dokumentami.

Załóżmy także, że zbiorem wartości funkcji podobieństwa jest przedział [0,1].

Page 8: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie strukturalne w sieciSieć i ogrom zawartych w niej informacji stwarza nowe wyzwanie dla

sposobów wyszukiwania informacji. Wyszukiwanie z użyciem słów kluczowych zapewniło do nich dostęp. Hiperłącza tworzone przez autorów stron www przedstawiają relacje

pomiędzy źródłowymi a docelowymi stronami co dowodzi istnienia struktury hiperłączy pomiędzy stronami w Internecie.

Silniki wyszukujące w sieci szukają nie tylko słów kluczowych na stronach lecz także struktury hiperłączy pomiędzy nimi.

Rezultaty wyszukiwania z użyciem tej struktury wypadają korzystnie w porównaniu z wyszukiwaniem z użyciem baz słów kluczowych.

Page 9: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Pojęcie Wyszukiwanie strukturalne w sieci - jest procesem przeszukiwania

sieci w poszukiwaniu specyficznej struktury hiperłączy i połączone z tekstową analizą zawartości strony.

Niekiedy do odnalezienia dużej ilości potencjalnie relewantnych stron nie wystarczają jedynie metody działające w oparciu o czysty tekst.

Ludzie chętnie surfują po sieci używając jej graficznej struktury. Aktualnie silniki wyszukujące mogą być używane w celu szukania

niektórych słów kluczowych lub ich kombinacji bez narzucania jakiejkolwiek struktury łącz pomiędzy stronami.

Innymi słowy wyniki uzyskane przez poszczególne silniki mogą być liczbą trafień z których każde zawiera jedną stronę.

Page 10: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

W odniesieniu do wyników wyszukiwania strukturalnego silnik jest liczbą diagramów hiperłączy gdzie każdy węzeł reprezentuje stronę zawierającą słowa kluczowe a krawędzie - hiperłącza pomiędzy stronami.

Silnik zapewnia że te strukturalne trafienia pasują do strukturalnych zapytań użytkownika.

Przykład: Rysunek 1 pokazuje proste zapytanie strukturalne w którym

użytkownik szuka strony o temacie ”informatyka” wskazującej na stronę o temacie „osiągnięcia naukowe”.

Wynik wyszukiwania strukturalnego dla takiego zapytania mógłby być tym samym grafem lub strukturą hiperłączy którą użytkownik wprowadził jako dane wejściowe z wyjątkiem tego, że to już zawiera strony które odpowiadają nie tylko czystemu wyszukiwaniu po słowach kluczowych w silnikach opartych na tekście ale także strukturze hiperłączy pomiędzy nimi.

Page 11: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Przykład zapytania strukturalnego

Informatyka

Osiągnięcia naukowe

Page 12: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Klasteryzacja (clustering)Związana jest z pojęciem wyszukiwania strukturalnego.Jest to wyznaczanie podobieństw w zbiorze obiektów.Znajduje ono zastosowanie w wyszukiwaniu informacji w Internecie.

Silniki wyszukujące oparte o wyszukiwanie słów kluczowych zwracają tysiące linków lecz bez wyjaśnienia tych rezultatów.

Pojawia się potrzeba jakiegoś usystematyzowania tych wyników.

Search Results Clustering ( SRC )– to efektywna identyfikacja znaczących, tematycznych grup dokumentów w wynikach wyszukiwania oraz ich zwięzła prezentacja.

Page 13: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Przykład

Page 14: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Przebieg działania SRC

Dane wejściowe: N linków do dokumentów ( wyniki wyszukiwania ) (0<N<~400), każdy zestawiony z URL, opcjonalnym tytułem i fragmentem.Założenia:Istnieje logiczna struktura tematyczna w zestawie wyników. Dane wyjściowe:Zbiór klastrów ( grup, skupień ) reprezentujących tematy zorganizowanych w hierarchiczną strukturę, częściowo zachodzącą na siebie.Algorytm:Istnieje kilka algorytmów, np. STC (Suffix Tree Clustering), SHOC (Semantic, hierarchical, online clustering), oraz komercyjne Vivisimo, Infonetware i Excavio.

Page 15: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Carrot Projekt, którego celem jest implementacja i weryfikacja

przydatności STC do języka polskiego.

Page 16: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Carrot - wnioski

STC słabo radzi sobie z polskimi tekstami. Szczególnie trudno zdefiniować wartości

progowe. Wciąż jednak rezultaty systemu są

obiecujące.

Page 17: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Model przestrzeni wektorowej w wyszukiwaniu informacji

Model przestrzeni wektorowej oparty jest o założenia algebry liniowej i przedstawia dokumenty i zapytania jako wektory liczb zawierające wartości odpowiadające wystąpieniom słów ( zwanych termami ) w poszczególnych dokumentach.

Niech t będzie wielkością zbioru termów a n – wielkością zbioru dokumentów.

Zarówno zapytanie Q jak i wszystkie dokumenty Di, i = 1..n można przedstawić jako t – wymiarowe wektory.

Di = [ai1, ai2, ..., ait] Q = [aq1, aq2, ..., aqt] gdzie współczynniki aik i aqk reprezentują wartości termu k w dokumencie Di lub odpowiednio zapytania Q.

Zatem zarówno dokumenty i termy tworzą macierz term-dokument A(n×t).

Wiersze macierzy reprezentują dokumenty a kolumny – także zwane termami wektory.

Załóżmy że pozycja aik jest zbiór równy 1, gdy term k pojawia się w dokumencie i 0 gdy nie pojawia się w nim.

Page 18: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Przykład: Dla zbioru dokumentów odpowiadający zapytaniu "king" możemy

stworzyć macierz term-dokument matrix. Zbiór dokumentów: D1: The King University College D2: King College Site Contents D3: University of King College D4: King County Bar Association D5: King County Government Seattle Washington D6: Martin Luther King

Zbiór termów: The, King, University, College, Site, Contents, of, County,

Bar, Association, Government, Seattle, Washington, Martin, Luther

Page 19: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Łatwo zauważyć że dokumenty odpowiadające podobnym tematom powinny mieć podobne wartości na tych samych pozycjach wektorów.

Słabe i mocne strony modelu:

Zalety:

Po przekształceniu dokumentów na wektory można łatwo przeprowadzić operacje matematyczne na nich używając metod algebry liniowej.

Proste, wydajne struktury danych mogą być używane do ich gromadzenia.

Wady:

Brak informacji zawartych w strukturze dokumentów.

Page 20: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Pokrewne prace badawcze Wiele badań podąża w kierunku wyszukiwania opartego o bazy słów

kluczowych a strukturze hiperłączy poświęca się stosunkowo niewiele uwagi. Podczas gdy wiele engine'ów wyszukujących wykorzystuje ją do pozycjonowania stron to sama w sobie nie jest przedmiotem badań. Przykładem może być engin wyszukujący Google. Page Rank jest dobrym sposobem porządkowania wyników wyszukiwania opartego o słowa kluczowe.

Oprócz PageRank Google posiada kilka innych możliwości.

1. Posiada informacje o miejscu dla wszystkich trafień co tworzy szerokie pole zastosowania w wyszukiwaniu bliskości dokumentów.

2. Ponadto, Google pamięta ścieżki niektórych wizualnych szczegółów prezentacji tj. rozmiar czcionki słów.

3. Pełny otwarty HTML stron jest dostępny w repozytorium.

Page 21: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Kolejnym podejściem zastosowania struktury hiperłączy do pozycjonowania stron jest identyfikacja wiarygodnych stron.

Celem jest zebranie listy źródeł w sieci uznawanych za najbardziej wiarygodne i dobrze oddające tematykę. Najpierw takie listy były tworzone ręcznie lub poprzez prace zarówno automatu jak i człowieka.

Obecnie ARC Computer Science Scholarships system automatycznie zestawia listę wiarygodnych sieciowych źródeł na każdy odpowiednio szeroki temat. Ta technika jest zawarta w enginie wyszukującym Clever znajdującym węzły oraz strony wiarygodne.

Dobry węzeł zawiera wiele hiperłączy do wartościowych stron podczas gdy dobra wiarygodność posiada wiele linków z dobrych stron-węzłów.

Page 22: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Oglądanie struktury hiperłączy pod postacią grafów jest dobrym sposobem do poprawienia wyników wyszukiwania enginów wyszukujących.

Połączenie słów kluczowych i struktury hiperłączy stało się główną ideą ostatnich badań nad wyszukiwaniem w sieci tj. WebSUBDUE.

WebSUBDUE jest narzędziem, które wyszukuje miejsca korespondujące ze strukturą ukształtowana jako zapytania użytkownika oparte na grafie.

WebSUBDUE jest umocniony przez system odnajdywania wiedzy zwany SUBDUE, który m.in. odnajduje wzorce w danych strukturalnych.

Autorzy projektu: Nitish Manocha, Diane J. Cook, Lawrence B. Holder - University of Texas at Arlington

[email protected]://www-cse.uta.edu/~cook

WebSUBDUE

Page 23: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Odnajduje wzorce strukturalne w grafie wejściowym.

Substruktura jest połączona z subgrafem. Wystąpienie substruktury jest subgrafem

izomorficznym z opisem substruktury.

object

triangle

R1

C1T1S1

T2S2

T3S3

T4S4

Wejściowa baza danych

Substructura S1 (graf)

Skompresowana baza danych

R1

C1object

squareon

shape

shape S1S1 S1S1 S1S1

S1S1

Page 24: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

SUBDUE - algorytm• Zacznij z pojedynczego wierzchołka. • Zatrzymaj w zapytaniu jedynie najlepsze substruktury. • Rozwiń substrukturę dodając krawędź/wierzchołek. • Skompresuj graf i powtórz generowanie hierarchicznego opisu.• Opcjonalnie wykorzystuj dalsza wiedzę.

Page 25: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Reprezentacja sieci za pomocą grafu Określ zakres domen do wygenerowania grafu

Węzły reprezentują strony / dokumenty Krawędzie reprezentują hiperłącza Dodatkowe węzły reprezentują słowa kluczowe dokumentów

page page

university

texas

learning group

projects

subdue

robotics

parallel

hyperlink

work

word word

planning

Page 26: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie strukturalne w sieci WebSUBDUE Sformułuj zapytanie jako graf Użyj opcji predefiniowanej substruktury Subdue aby

wyszukać wystąpienia zapytania.

Instructor

TeachingRobotics

ResearchRobotics

Publication

Robotics

httphttp

Postscript| PDF

Page 27: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Zapytanie: Znajdź wszystkie strony posiadające link do strony zawierającej termin ‘Subdue’

Wierzchołki subgrafu: 1 pageURL: http://cygnus.uta.edu7  pageURL: http://cygnus.uta.edu/projects.html7 Subdue[1->7] hyperlink[7->8] word

Subdue

pagehyperlink

/* Vertex ID Label */

sv 1 pagev 2 pagev 3 Subdue

/* Edge Vertex 1 Vertex 2 Label */

d 1 2 hyperlinkd 2 3 word

word

page

Page 28: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie stron prezentujących określoną treść AltaVista zapytanie “host:www-cse.uta.edu AND image:next_motif.gif AND

image:up_motif.gif AND image:previous_motif.gif.”

page

page page page

hyperlinkhyperlink

hyperlink

hyperlink hyperlink

Page 29: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie stron z odnośnikami Znajdź strony zawierające przynajmniej 35 linków

WebSubdue znalazł 5 stron na www-cse AltaVista nie może przeprowadzić tego typu wyszukiwania

page

page page page

hyperlinkhyperlink

hyperlink

Page 30: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie stron o ‘zawodach w informatyce' Nieprecyzyjny odpowiednik: zezwalaj na jeden poziom synonimów WebSubdue znalazł 33 odpowiedniki

Słowa uwzględnione zatrudnienie, praca, zawód, problem, zadanie

AltaVista znalazła 2 odpowiedniki

page

jobs computer science

wordword

word

Page 31: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie wiarygodnych stron i wiarygodnych węzłów WebSubdue znalazł 3 węzły ( oraz 3 wiarygodne) strony AltaVista nie może przeprowadzić tego typu wyszukiwania

page

hyperlink

page page

page page page

word word word

algorithms algorithms algorithms

Węzły

Wiarygodne źródła

Page 32: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Kolejnym engine'm opartym na wyszukiwaniu strukturalnym jest Structural Web Search Engine (SWSE) w którym aby wyszukać i znaleźć hierarchiczną strukturę przedstawiona przez użytkownika, nie jest potrzebne narzędzie typu data mining.

Nie ma wiec potrzeby przygotowywania danych. SWSE korzysta z faktu że sieć jest przeglądana ( crawled ) przez potężny szperacz sieciowy ( web crawler ) oparty na engin'ie wyszukującym słowa kluczowe takim jak Google.

SWSE wyszukuje jedynie strony które wymagają przejrzenia przez crawler, to jest strony które posiadają już słowa kluczowe interesujące użytkownika. Wyszukuje on strukturę hiperłączy podaną przez użytkownika pomiędzy poszukiwanymi stronami..

Strony te nie musza być jakąkolwiek specyficzna domeną. SWSE używa podejścia klient-server i może być używany online jak każdy inny engin oparty o słowa kluczowe.

Structural Web Search Engine (SWSE)

Page 33: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Structural Web Search - interfejsSWSE jest zaimplementowany w Javie i wykonywany jako aplikacja

klient-serwer w sieci SWSE jest dostępny pod adresem URL:http://ailab.uta.edu:8080/SWSE/Interface.html.

Page 34: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

SWSE - działanieEdytor jest apletem Javy działającym na maszynie klienta. Całe zapytanie przedstawione jako graf na maszynie klienta jest

przesyłane do serwera jako obiekt. Program Java nasłuchuje zapytań użytkownika na serwerze i odpowiada z

powrotem do klienta z wynikiem wyszukiwania. Wyniki te mają te samą strukturę hiperłączy jak zapytanie przedstawione

przez użytkownika z wyjątkiem tego że zawiera strony odpowiadające nie tylko słowom kluczowym wyszukiwanym w każdym węźle ale także strukturze hiperłączy pomiędzy tymi stronami.

Page 35: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

SWSE – algorytm serwera

Page 36: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

W momencie kiedy serwer uzyska graf, dla każdego węzła w grafie wysyła właściwy ciąg zapytań zawierający słowa kluczowe w węźle do engine'u wyszukującego.

W odpowiedzi otrzymuje strony HTML zawierające trafienia zwrócone przez engine wyszukujący bazujący na słowach kluczowych jak np. Google.

Program analizuje syntaktykę stron HTML i wynajduje wszelkie trafienia.

Następnie w każdym węźle mamy liczbę adresów URL z których każdy zawiera słowa kluczowe wyszczególnione w węźle.

Serwer próbuje znaleźć te adresy URL, które odpowiadają strukturze narzuconej w zapytaniu.

Page 37: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Prezentacja zapytaniaW celu zaprojektowania strukturalnego engine'u wyszukującego w sieci

potrzebujemy zapytania w formie grafu, zatem pożądana struktura hiperłączy może być narzucona przez użytkownika.

Węzły grafu wskazują strony a krawędzie pomiędzy węzłami są linkami pomiędzy nimi.

Rozwijany jest prototyp interfejsu gdzie użytkownik może nakreślić swoją pożądana strukturę opartą na grafie w przyjaznym edytorze i wyszczególnić słowa kluczowe dla każdej strony poprzez wstawienie każdego słowa kluczowego do węzłów grafu.

Zakłada się ze linki są pomiędzy dwoma różnymi węzłami ( brak linków do samych siebie ). Redukuje to złożoność algorytmu – eliminuje linki nawigacyjne stron.

Page 38: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wydobywanie trafień słów kluczowychKażdy engine wyszukujący w sieci oparty na tekście może być

wykorzystany do przeczesywania sieci pod katem słów kluczowych i wyciągać te pasujące.

SWSE korzysta z Google z powodu adekwatności jego rezultatów.Po to aby uzyskać strony zawierające słowa kluczowe jest konieczna

analiza syntaktyczna stron zwrócona przez Google.Dostosowany do potrzeb użytkownika engin wyszukujący Google był

przydatny aby ułatwić fazę analizy syntaktycznej, lecz brak sposobu aby bezpośrednio wysłać ciąg zapytania na serwer i otrzymać rezultat z powrotem. Konieczny jest proces automatyzacji wydobywania trafień.

Wersja Yahoo enginu Google udostępnia taką funkcję.Słowa kluczowe zagnieżdżone w węzłach zapytania są automatycznie

wysyłane na bazujący na tekście engine Google poprzez odpowiedni ciąg zapytań, i wynikowa strona jest podawana analizie syntaktycznej aby wydobyć strony zawierające słowa kluczowe.

Page 39: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

W oparciu o to podejście użytkownik może wstawić jakiekolwiek słowo kluczowe akceptowalne przez Google search engine.

To podejście ogranicza wynik liczby trafień które możemy uzyskać z wersji Yahoo enginu Google, który to jest zwykle mniejszy niż wszystkie trafienia które może znaleźć engine Google.

Ta liczba trafień jest zadowalająca ponieważ użytkownicy zwykle surfują po najbardziej początkowych trafieniach zwróconych przez engine, lecz dokonuje się analizy syntaktycznej i wybiera tak wiele trafień ile dostarczy Google search engine.

Z takim podejściem możemy zakładać że jeśli użytkownik nie może znaleźć żadnego wyniku zwróconego przez SWSE, to jest więcej niż prawdopodobne, że nie może znaleźć żadnego trafienia lub relewantnego trafienia używając engine’u opartego na słowach kluczowych jak Google, nawet jeśli surfuje przez wszystkie zwrócone trafienia.

Page 40: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyszukiwanie struktury hiperłączyNastępnie potrzebujemy odnaleźć specyficzna strukturę

narzucona przez użytkownika pomiędzy stronami wyciągniętymi z wyszukiwania opartego o słowa kluczowe.

Przykład: w zapytaniu link z węzła posiada ”Informatyka” jako słowo kluczowe do innego węzła posiadającego ”Osiągnięcia naukowe” .

Musimy wyciągnąć wszystkie linki w trafieniach wyszukanych z pierwszego, aby zobaczyć czy jest takie hiperłącze do wyszukanego trafienia z drugiego węzła.

Przebiega to zgodnie z przedstawionym wcześniej algorytmem.

Page 41: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Ranking wynikówW obecnej wersji aplikacji wszystkie wyniki są traktowane tak samo –

oznacza to że nie ma wprowadzonego rankingu.Powodem jest to ze strony zwracane przez Google search engine maja

słowa kluczowe których szuka użytkownik oraz struktura powinna ściśle pasować do struktury zapytania; z drugiej strony to nie jest właściwym trafieniem naszego wyszukiwania.

Innym powodem jest to, że użytkownik już wyznaczył węzły przez wstawienie w nie niektórych słów i nie możemy założyć żadnych kryteriów sortowania.

Jeden zasięg mógłby spowodować nieścisłość z grafem zapytania, który mógłby wymagać użycia algorytmu izomorficznego. Poziom zgodności może być użyty do pozycjonowania rezultatów.

Rozszerzeniem tej aplikacji może być wykorzystanie WordNet, elektronicznej bazy danych – leksykonu. Wówczas możemy ustalić ranking wyników oparty o kryteria podobieństwa dla słów kluczowych pasujących do zapytania.

Page 42: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wyniki empiryczneOd wprowadzenia wyszukiwania strukturalnego nie można porównać

wyników SWSE z podobnym enginem wyszukującym. Aby ocenić możliwości SWSE, porównuje się wyniki zapytania SWSE z

rezultatami wyszukiwania wygenerowanymi z użyciem trzech popularnych bazujących na słowach kluczowych enginów: Google, Altavista i Infoseek.

Zaawansowane wyszukiwanie Google wykorzystuje użycie struktury linków sieci aby ocenić ranking jakości dla każdej strony w sieci i wykorzystać je do usprawnienia wyników wyszukiwania.

To zapewnia cenny punkt odniesienia dla rezultatów odnalezionych przez SWSE.

Page 43: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Zapytanie przykładowe: szukamy konkretnej informacji o “Alfredzie Noblu”. Kładł on nacisk na rozwój wynalazków chemicznych, surowców tj. sztuczny kauczuk, sztuczna skóra, sztuczny jedwab.

Został bogaty i zakupił posiadłość przy alei Malakoff. Utrzymywał

kontakty z Victorem Hugo i innymi pisarzami. W międzyczasie jego bracia przystąpili do poszukiwania złóż ropy na Morzu Kaspijskim.

Zapytanie może wyglądać następująco:

Page 44: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Naszym celem jest znalezienie grupy adresów URL związanych z ludźmi i miejscami opisanymi wyżej. Podajemy SWSE zapytanie w postaci rysunku z poprzedniego slajdu.

Strzałka w obydwu kierunkach wskazuje ograniczenie tych linków istniejące w obu kierunkach.

Wyniki przedstawia poniższa tabela:

Page 45: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Pierwsza kolumna tabeli przedstawia słowo kluczowe wstawione w każdym węźle.

Po uruchomieniu SWSE na przedstawionym zapytaniu adresy URL stron w sieci które odpowiadają słowom kluczowym i strukturze hiperłączy przedstawionego zapytania są przedstawione w drugiej kolumnie tabeli.

Wprowadzamy słowa kluczowe w zapytaniu(“AlfredNobel Sztuczny jedwab Victor Hugo Złoża ropy na Morzu kaspijskim”)

do wszystkich trzech engine’ów opartych o słowa kluczowe i nie otrzymujemy żadnych rezultatów.

W niektórych przypadkach nawet gdy usuniemy niektóre słowa kluczowe np. złoża, wciąż nie uzyskamy żadnych wyników albo uzyskamy wyniki nierelewantne do zadanego tematu.

Przykładowo kiedy postawimy inne zapytanie ( te same słowa kluczowe bez “Malakoff” i “Złoża ropy”) do engine’u Google otrzymamy 35 trafień, lecz żadne z nich nie zawiera któregokolwiek z URL odpowiadających zapytaniu strukturalnemu.

Page 46: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Inne doświadczenie przeprowadzono w celu wyszukania wyników wyszukiwania opartego o bazujący na słowach kluczowych engine dla słów kluczowych w każdym węźle oddzielnie.

Wyniki tego przedstawia tabela pod kolumnami “Google”, “Altavista” i “Infoseek”.

Liczba reprezentuje pozycję URL z drugiej kolumny w zwróconych trafieniach przez engine wyszukujący (N/A oznacza że URL nie był na zwróconej liście).

Page 47: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Wynik tego eksperymentu wskazuje możliwość strukturalnych engine’ów wyszukujących szybszego odnajdywania trafień posiadających poszukiwane relacje pomiędzy interesującymi tematami.

Page 48: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Podsumowanie Internauci czują się zagubieni w cyberprzestrzeni

gdy utrącą kontekst w którym szukają informacji i nie są pewni jak postępować aby odnaleźć odpowiednie strony. Strukturalne wyszukiwanie w sieci uwzględnia ten problem.

Rozwijany jest engine w którym użytkownik może wpaść na trop danej informacji w odpowiedzi na pojedyncze zapytanie

SWSE poprawia efektywność surfowania po sieci - sprawia że jest bardziej precyzyjne niż engin’y oparte na słowach kluczowych i ręcznej nawigacji stron internetowych.

Page 49: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Większość metod wyszukiwania skupia się w jakimś stopniu na użyciu danych z hiperłączy aby usprawnić wyszukiwanie w sieci.

Pomimo, że te systemy używają struktury hiperłączy do tworzenia rankingu wyszukanych nie wykonują wyszukiwania strukturalnego.

W odróżnieniu SWSE prowadzi wyszukiwanie aby odnaleźć zapytania strukturalne połączone z kontekstem tekstowym.

Wyniki empiryczne ukazują przewagę takiego podejścia nad tradycyjnym bazującym na słowach kluczowych enginie wyszukującym, kiedy użytkownik jest zainteresowany zarówno strukturą hiperłączy strony internetowej jak i słowami kluczowymi zagnieżdżonymi w tych stronach.

Page 50: Wyszukiwanie strukturalne - zsi.tech.us.edu.plzsi.tech.us.edu.pl/~anowak/files/podboraczynska.pdf · Wyszukiwanie indeksowe (Wyszukiwanie strukturalne)- podejście tradycyjne

Zaprezentowane wyniki wskazują kilka kierunków badań na polu poszukiwań struktury hiperłączy z użyciem struktury grafu.

Zamierzeniem na przyszłość jest zezwolenie użytkownikowi na dodawanie słów kluczowych do krawędzi grafu w celu ograniczenia tekstu zakotwiczonego w hiperłączu oraz przez użycie nieprecyzyjnego grafu do odnajdywania bliskich odpowiedników i tworzenia rankingu odpowiedników na podstawie stopnia bliskości.