162
Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT D U I S B U R G E S S E N

Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

Information RetrievalEin Überblick

Ingo Frommholz

Universität Duisburg-Essen

Vorlesung "Information Engineering"SS 2007

UNIVERSITÄT

D U I S B U R GE S S E N

Page 2: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Inhaltsverzeichnis

1 Einführung

2 Retrievalmodelle

3 Web Information Retrieval

Ingo Frommholz Information Retrieval 2/70

Page 3: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

Einführung

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Page 4: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

Page 5: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

Page 6: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

Page 7: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & Searching

Suche inTexten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

Page 8: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

Page 9: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Unterschiede zur Datenbanksuche

Formulierung des Informationsbedürfnisses als passendeAnfrage problematisch

Anfrage liefert sehr viele Treffer (siehe Google) , aber nur wenigesind interessant

Unsicherheit und Vagheit

Ingo Frommholz Information Retrieval 5/70

Page 10: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

Page 11: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

Page 12: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

Page 13: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

Page 14: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Grundmodell

Wissensstrukturen

internen

TransformationenWissensrepräsentation

Verfahren der

Retrieval

Informationen beim

Daten

Analyse von

Information Retrieval

auf

anhand von

liefert

gespeichert in

durch

beruht auf

Ingo Frommholz Information Retrieval 7/70

Page 15: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispiel: Dokumentretrieval

liefertberuht auf

DBMS ?

Literatur gibt es deutschsprachigeWelche einführendeBeispiel:

(Dateien)Datenbankstrukturen

Boole’sche RetrievalRetrievaloperationen, wie z.B.

ReferierenIndexieren, Klassifizieren,

bibliographische ReferenzenDokumente bzw.

tarischen BezugseinheitenAnalyse von dokumen−

Document−Retrieval

gespeichert in auf

anhand vondurch

techn. Aspekten vonzu implementirungs−

Ingo Frommholz Information Retrieval 8/70

Page 16: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispiel: Faktenretrieval

liefertberuht auf

gespeichert in auf

anhand vondurch

semantische Modellierungeines Weltausschnittes

Zuweisung von Attributenzu gegebenen Einheiten

Fakten einesWeltauschnittes

Kombination elementarerOperationen

im Umfang von mindes−tens einer halben Seitegeschaltet?

eine Anzeige imim letzten JahrWelche Firmen habenBeispiel:

Faktenretrieval

Datenbankstrukturen

Ingo Frommholz Information Retrieval 9/70

Page 17: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche im INSPEC-System

INSPEC: INformation System for Physics, Electronics andComputingEnthält Dokumente, die Artikel oder Bücher beschreiben durch

bibliographische AngabenKurzzusammenfassung (Abstract oder Referat)Einordnung in hierarchisches IndexsystemStichwörter

Boolesches Retrievalsystem: liefert die Dokumente, die dieSuchbegriffe in der angegebenen Form enthalten

Ingo Frommholz Information Retrieval 10/70

Page 18: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

INSPEC-Dokument

Ingo Frommholz Information Retrieval 11/70

Page 19: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

INSPEC-Dokument

Ingo Frommholz Information Retrieval 11/70

Page 20: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

Page 21: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

Page 22: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

Page 23: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

Page 24: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

Page 25: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Ergebnisse verschiedener Suchanfragen

Ingo Frommholz Information Retrieval 13/70

Page 26: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

Retrievalmodelle

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Page 27: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval

Historisch erstes Retrievalmodell

Ungewichtete Indexierung (nur Vorkommen eines Terms)

Liefert Zweiteilung in “gefundene” und “nicht gefundene”Dokumente

Ingo Frommholz Information Retrieval 15/70

Page 28: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Attribute und Anfragen

Definition (Attribut)

Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.

Definition (Anfrage)

Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.

Ingo Frommholz Information Retrieval 16/70

Page 29: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Attribute und Anfragen

Definition (Attribut)

Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.

Definition (Anfrage)

Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.

Ingo Frommholz Information Retrieval 16/70

Page 30: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesche Operationen

Sei t(d) = ti ein Attribut.

Menge der Dokumente, bei denen das Attribut t den Wert tiannimmt:

Dt,ti = t−1(ti) = {d ∈ D|t(d) = ti}

Diese Menge wird auf eine Anfrage, die nur aus demAttribut-Wert-Paar (t, ti) besteht, zurück geliefert

Boolesche Operationen

(t, t1) AND (s,s1) Durchschnitt Dt,t1 ∩Ds,s1

(t, t1) OR (s,s1) Vereinigung Dt,t1 ∪Ds,s1

NOT (t, t1) Komplement D \Dt,t1

Ingo Frommholz Information Retrieval 17/70

Page 31: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

Page 32: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

Page 33: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

Page 34: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

Page 35: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Invertierte Listen

Ingo Frommholz Information Retrieval 19/70

Page 36: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval mit invertierten Listen

Ingo Frommholz Information Retrieval 20/70

Page 37: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval mit invertierten Listen

Ingo Frommholz Information Retrieval 20/70

Page 38: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stoppworteliminierung

Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”

Beispiel

Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.

Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I

hope they’ll build iphone helps news junkie get his fixslow edge data connection

Ingo Frommholz Information Retrieval 21/70

Page 39: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stoppworteliminierung

Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”

Beispiel

Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.

Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I

hope they’ll build iphone helps news junkie get his fixslow edge data connection

Ingo Frommholz Information Retrieval 21/70

Page 40: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stoppworteliminierung

Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”

Beispiel

Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.

Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I

hope they’ll build iphone helps news junkie get his fixslow edge data connection

Ingo Frommholz Information Retrieval 21/70

Page 41: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

Page 42: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

Page 43: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-Algorithmus

Beispiel:computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

Page 44: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

Page 45: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

Page 46: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Nachteile des Booleschen Retrievals

– Größe der Antwortmenge schwierig zu kontrollieren

– Keine Ordnung der Antwortmenge

– Keine Gewichtung

– Trennung zu scharf

– Frageformulieung (boolescher Ausdruck) zu umständlich fürgelegentliche Nutzer

– schlechte Retrievalqualität

Ingo Frommholz Information Retrieval 23/70

Page 47: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Vektorraummodell

Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.

Beschreibung eines Dokuments als Vektor von Termgewichten

dij ∈ R:~d = (dj1, . . . ,djn)

Vektorielle Beschreibung von Anfragen (mit qi ∈ R):

~q = (q1, . . . ,qn)

Ingo Frommholz Information Retrieval 24/70

Page 48: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Vektorraummodell

Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.

Beschreibung eines Dokuments als Vektor von Termgewichten

dij ∈ R:~d = (dj1, . . . ,djn)

Vektorielle Beschreibung von Anfragen (mit qi ∈ R):

~q = (q1, . . . ,qn)

Ingo Frommholz Information Retrieval 24/70

Page 49: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Vektorraummodell

Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.

Beschreibung eines Dokuments als Vektor von Termgewichten

dij ∈ R:~d = (dj1, . . . ,djn)

Vektorielle Beschreibung von Anfragen (mit qi ∈ R):

~q = (q1, . . . ,qn)

Ingo Frommholz Information Retrieval 24/70

Page 50: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrievalfunktion

Berechnung eines Retrieval Status Value (RSV) mittels eines

Vektor-Ähnlichkeitmaßes, z.B. Skalarprodukt:

RSV (dj ,q) = ~dj ·~q =n∑

i=1

dji ·qi

t

t

1

2

q

d

d

1

2

Rangordnung der Dokumente nach absteigendem RSVIngo Frommholz Information Retrieval 25/70

Page 51: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Beispiel-Frage

“side effects of drugs on memory and cognitive abilities”

ti qki d1i d2i d3i d4i

side effect 2 1 0.5 1 1drugs 2 1 1 1 1memory 1 1 1cognitive ability 1 1 1 0.5Retrievalgewicht 5 4 6 4.5

Ingo Frommholz Information Retrieval 26/70

Page 52: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

Page 53: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

Page 54: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

Page 55: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

Page 56: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Gewichtungsmethoden

Definition (term frequency)

tf (t,d) :=occ(t,d)

occ(tmax ,d)

Definition (inverse document frequency)

idf (t) := logN

n(t)

N Anzahl der Dokumenten(t) Anzahl der Dokumente, in denen t auftrittocc(t,d) Auftrittshäufigkeit von t in d

Ingo Frommholz Information Retrieval 28/70

Page 57: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Gewichtungsmethoden

tf und idf können zur Gewichtung von Dokument- undFragetermen benutzt werden

Beispiel:

dji = tf (ti ,dj)

qi = idf (ti)

Ingo Frommholz Information Retrieval 29/70

Page 58: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Speicherung

Invertierte Liste mit Termgewichten

Ingo Frommholz Information Retrieval 30/70

Page 59: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Relevance Feedback im Vektorraummodell

Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt

Modifikation des ursprünglichen Fragevektors

Definition (Roccio-Formel)

~q′ =~q + α1|DR|

∑dj∈DR

~dj −β1|DN |

∑dj∈DN

~dj

DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten

Ingo Frommholz Information Retrieval 31/70

Page 60: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Relevance Feedback im Vektorraummodell

Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt

Modifikation des ursprünglichen Fragevektors

Definition (Roccio-Formel)

~q′ =~q + α1|DR|

∑dj∈DR

~dj −β1|DN |

∑dj∈DN

~dj

DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten

Ingo Frommholz Information Retrieval 31/70

Page 61: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?

Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

Page 62: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmen

Ereignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

Page 63: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

Page 64: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

Page 65: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

Page 66: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

Page 67: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probability Ranking Principle

Theoretische Rechtfertigung der probabilistischen Modelle

Ranking anhand der erwarteten Kosten EC(d ,q):

EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))

C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments

Annahme: C̄ > C

⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)

Ingo Frommholz Information Retrieval 33/70

Page 68: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probability Ranking Principle

Theoretische Rechtfertigung der probabilistischen Modelle

Ranking anhand der erwarteten Kosten EC(d ,q):

EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))

C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments

Annahme: C̄ > C

⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)

Ingo Frommholz Information Retrieval 33/70

Page 69: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

Page 70: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

Page 71: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

Page 72: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

Page 73: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

Page 74: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als probabilistische Inferenz

Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine

Anfrage q impliziert (van Rijsbergen):

P(d → q)

Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:

P(d → q) := P(q|d) =P(d ∩q)

P(d)

=

∑t P(d ∩q∩ t)

P(d)=

∑t P(d ∩q|t)

P(d)

Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse

Ingo Frommholz Information Retrieval 35/70

Page 75: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als probabilistische Inferenz

Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine

Anfrage q impliziert (van Rijsbergen):

P(d → q)

Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:

P(d → q) := P(q|d) =P(d ∩q)

P(d)

=

∑t P(d ∩q∩ t)

P(d)=

∑t P(d ∩q|t)

P(d)

Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse

Ingo Frommholz Information Retrieval 35/70

Page 76: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Beispiel

P(d → q1) = P(q1|d)

=P(d ∩q1)

P(d)

=2/83/8

=23

P(d → q2) = P(q2|d)

=P(d ∩q2)

P(d)

=1/83/8

=13

Ingo Frommholz Information Retrieval 36/70

Page 77: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Prädikatenlogische Modelle

Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus

Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &

below(T,A)

Ingo Frommholz Information Retrieval 37/70

Page 78: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Prädikatenlogische Modelle

Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus

Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &

below(T,A)

Ingo Frommholz Information Retrieval 37/70

Page 79: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistisches Datalog

Prolog-ähnlich, basiert auf Horn-Klauseln

Unsichere Inferenz

Regelbasierter Ansatz

Probabilistische Gewichtung von Fakten

Berechnung nach probabilistischen Regeln

Ingo Frommholz Information Retrieval 38/70

Page 80: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistisches Datalog: Beispiel

0.7 indterm(d1,ir). 0.8 indterm(d1,db).

# db AND irq_and(D) :- indterm(D,db) & indterm(D,ir).

# db OR irq_or(D) :- indterm(D,ir).q_or(D) :- indterm(D,db).

?- q_and(D). ?- q_or(D).0.56 d1 0.94 d1(0.7 * 0.8) (0.7 + 0.8) - (0.7 * 0.8)

Ingo Frommholz Information Retrieval 39/70

Page 81: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Datalog-Beispiel: Retrieval in Hypertexten

0.7 indterm(d1,ir). 0.8 indterm(d1,db).0.5 link(d2,d1). 0.4 link(d3,d2).about(D,T) :- indterm(D,T).about(D,T) :- link(D,D1) & about(D1,T).

?- about(D,db)0.8 d10.4 d2 (0.5 * 0.8)0.16 d3 (0.4 * 0.5 * 0.8)

Ingo Frommholz Information Retrieval 40/70

Page 82: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Datalog-Beispiel: Retrieval mit Wissensstrukturen

Query nach “Exportproblem derAutomobilindustrie in Ostasien”

indterm(d1, "vw"). indterm(d1, "exportproblem"). indterm(d1, "thailand").

0.8 is_part_of("ostasien", "thailand").instance_of("automobilindustrie", "vw").instance_of("automobilindustrie", "ford").about(D,C) :- indterm(D,C).about(D,C) :- is_part_of(C,C1) & about(D,C1).about(D,C) :- instance_of(C,C1) & about(D,C1).

?- about(D, "automobilindustrie") & about(D, "ostasien") &about(D, "exportproblem").

0.8 d1

⇒ findet auch Dokumente über “Thailand”, “Ford” oder “VW”!Ingo Frommholz Information Retrieval 41/70

Page 83: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

Web Information Retrieval

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page 84: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Das World Wide Web

Technische Definition:“Alle Ressourcen und Benutzer im Internet, die das

Hypertext Transfer Protokoll (HTTP) benutzen”

Allgemeinere Definition (Tim Berners-Lee):

“The World Wide Web is the universe ofnetwork-accessible information, an embodiment of humanknowledge”

Ingo Frommholz Information Retrieval 43/70

Page 85: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Informationssuche im Web

Navigationsmethoden (nach Traugott Koch):

Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter

InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf

Einzeldokumente über komplexe Suchbedingungen

Probleme:Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität

Ingo Frommholz Information Retrieval 44/70

Page 86: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Informationssuche im Web

Navigationsmethoden (nach Traugott Koch):

Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter

InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf

Einzeldokumente über komplexe SuchbedingungenProbleme:

Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität

Ingo Frommholz Information Retrieval 44/70

Page 87: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter Kategorien

Kataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

Page 88: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema an

Jedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

Page 89: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)

Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

Page 90: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema ist

Hierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

Page 91: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

Page 92: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Yahoo!

Ingo Frommholz Information Retrieval 46/70

Page 93: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision

+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

Page 94: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

Page 95: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.

Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

Page 96: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

Page 97: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

Page 98: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

Page 99: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

Page 100: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Suche auf dem Web

Fülle der Dokumente im Web kann ohne geeigneteSuchmaschinen nicht erschlossen werden

“Das Web ist ein Dschungel”

Zusammenspiel mit Browsing möglich

Standard IR-Methoden plus Ausnutzen der Linkstruktur

Ingo Frommholz Information Retrieval 48/70

Page 101: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

Page 102: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

Page 103: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

Page 104: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

Page 105: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

Page 106: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

Page 107: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Google

Ingo Frommholz Information Retrieval 50/70

Page 108: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur

Quelle: Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine

Ingo Frommholz Information Retrieval 51/70

Page 109: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

URL Server Sammelt Liste vonabzurufenden URLs aus demDokumentindex, schickt diese an denCrawler

Crawler Sammelt/liest Webseiten

Store Server Komprimiert Webseiten,speichert diese im Repository,vergibt Dokument-ID

Ingo Frommholz Information Retrieval 52/70

Page 110: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

Indexer Liest Repository,dekomprimiert und parst DatenKonvertiert jedes Dokument ineine Menge vonWortvorkommen (Hits)Hits enthalten das Wort, diePosition im Dokument,Fontgröße und Groß- undKleinschreibung.Hits werden in Barrelseinsortiert (nach Dokument-IDs)

Ingo Frommholz Information Retrieval 52/70

Page 111: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

Indexer (Forts.) Parst alle Links imDokument und speichert wichtigeInformation (Quelle, Ziel und Text)über diese in der Anchors-Datei

URL Resolver Liest Anchors-Dateien,wandelt relative in absolute URLsund Document-IDs um, generiertLink-Datenbank

Ingo Frommholz Information Retrieval 52/70

Page 112: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

Sorter Generiert invertierte Listen ausden Barrels und füllt das Lexikon

Page Rank Generiert den Page Rankaus der Link-Struktur

Searcher Eigentliche Suchkomponente,benutzt Page Rank, invertierte Listenund Lexikon zur BBeantwortungvonAnfragen

Ingo Frommholz Information Retrieval 52/70

Page 113: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

Page 114: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

Page 115: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

Page 116: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

Page 117: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Das Web als Hypertext

Definition (Hypertext)

Ein Hypertext ist eine Ansammlung von Knoten und (gerichteten)Kanten (Links) zwischen diesen und bildet einen Graph. Auch dasWeb ist ein Hypertext (zyklischer Graph).

Ingo Frommholz Information Retrieval 54/70

Page 118: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

Page 119: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IR

Möglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

Page 120: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

Page 121: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)

Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

Page 122: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

Page 123: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation-Algorithmus von Frei und Stieger

Numerischer Spreading Activation Ansatz aus dem Hypertext IR

Linkstruktur und RSV der einzelnen Knoten bzgl. der Anfragewerden zum Anpassen des RSV des Ausgangsknoten benutzt

Ingo Frommholz Information Retrieval 56/70

Page 124: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Constrained Spreading Activation

1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.

Anfrage q

2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. aufGrund des Linktyps)

3 Navigationsphase: Berechne

RSV q,nd+1 := RSV q,n

d + wd ·1

|Nnd+1|·

∑n′∈Nn

d+1

RSV q,n′

0

mitwd : Propagierungsfaktor für Distanz dNn

d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n

d : RSV von Knoten n zur Anfrage q in Iteration d

Ingo Frommholz Information Retrieval 57/70

Page 125: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Constrained Spreading Activation

1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.

Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf

Grund des Linktyps)

3 Navigationsphase: Berechne

RSV q,nd+1 := RSV q,n

d + wd ·1

|Nnd+1|·

∑n′∈Nn

d+1

RSV q,n′

0

mitwd : Propagierungsfaktor für Distanz dNn

d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n

d : RSV von Knoten n zur Anfrage q in Iteration d

Ingo Frommholz Information Retrieval 57/70

Page 126: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Constrained Spreading Activation

1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.

Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf

Grund des Linktyps)3 Navigationsphase: Berechne

RSV q,nd+1 := RSV q,n

d + wd ·1

|Nnd+1|·

∑n′∈Nn

d+1

RSV q,n′

0

mitwd : Propagierungsfaktor für Distanz dNn

d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n

d : RSV von Knoten n zur Anfrage q in Iteration d

Ingo Frommholz Information Retrieval 57/70

Page 127: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

Page 128: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

Page 129: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

Page 130: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

Page 131: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

Page 132: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

Page 133: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

Page 134: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

Page 135: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

Page 136: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

Page 137: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

Page 138: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

Page 139: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

Page 140: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

Page 141: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

Page 142: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Random-Surfer-Modell

Random-Surfer-Modell: Page Rank wird zu gleichen Teilen an alleNachfolger propagiert

Ingo Frommholz Information Retrieval 61/70

Page 143: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Berechnung des Page Rank

Iterative Berechnung des Page Rank PR(p) für eine Seite p:

PR(p) = (1−β) · 1N

+ β ·∑q→p

PR(q)

out(q)

mitN: Anzahl Knotenβ: Konstante zwischen 0 und 1

out(q): Anzahl ausgehender Links aus qq→ p: Es existiert ein Link von q nach p

In der Regel hat man nach 100 Iterationen Konvergenz(Henzinger, 2000)

Initial erhält jede Seite den Page Rank 1

Ingo Frommholz Information Retrieval 62/70

Page 144: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Interpretation des Page Rank

Benutzer springt mit der Wahrscheinlichkeit (1−β) auf einebeliebige Webseite (von der jede wiederum dieWahrscheinlichkeit 1/N hat)

und mit der Wahrscheinlichkeit β auf eine Nachfolgeseite q von p

Die Wahrscheinlichkeit, dass man die Seite p anwählt, ist alsogegeben durch die Wahrscheinlichkeit eines zufälligen Sprungsauf p plus der Wahrscheinlichkeit, dass man von einerVorgängerseite q auf p springt

Ingo Frommholz Information Retrieval 63/70

Page 145: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

Page 146: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

Page 147: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

Page 148: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

Page 149: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

Page 150: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

Page 151: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Kleinbergs HITS-Algorithmus

Ermitteln von Hubs und Authorities zu einem Thema

Hub: Verweist zu guten Authorities

Authority: Hat viele eingehende Links von guten Hubs

Ingo Frommholz Information Retrieval 65/70

Page 152: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS: Zweistufiger Algorithmus

1 Berechnung des RSV zur Anfrage für alle Webseiten. Auswahldes Subnetzes der relevanten Dokumente (NeighbourhoodGraph)

2 Berechnung eines Hub- und Authority-Werts für jede Webseite imgewählten Subnetz

Ingo Frommholz Information Retrieval 66/70

Page 153: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Berechnung des Hub- und Authority-Werts

Iterative Berechnung des Hub- und Authority-Werts

ap =∑q→p

hq

hq =∑q→p

ap

mit

ap: Authority-Gewicht für Knoten phq : Hub-Gewicht für Knoten p

und Normalisierungsbedingung∑p

(ap)2 = 1 und∑

p

(hp)2 = 1

Ingo Frommholz Information Retrieval 67/70

Page 154: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Skizze des Algorithmus für Hubs und Authorities

1 Starte mit Hub- und Authority-Gewicht 1 für jeden Knoten

2 Berechne neuen Hub- und Authority-Gewichte für jeden Knoten3 Normalisiere neue Werte hinsichtlich Normaliserungsbedingung4 Gehe zu 2, wenn Konvergenzkriterium nicht erfüllt

Ingo Frommholz Information Retrieval 68/70

Page 155: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

Start

Ingo Frommholz Information Retrieval 69/70

Page 156: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

1. Iteration

Ingo Frommholz Information Retrieval 69/70

Page 157: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

Normalisierung

Ingo Frommholz Information Retrieval 69/70

Page 158: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

2. Iteration

Ingo Frommholz Information Retrieval 69/70

Page 159: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

Normalisierung

Ingo Frommholz Information Retrieval 69/70

Page 160: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beurteilung des HITS-Algorithmus

+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien

Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten

+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt

– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten

Ingo Frommholz Information Retrieval 70/70

Page 161: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beurteilung des HITS-Algorithmus

+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien

Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten

+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt

– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten

Ingo Frommholz Information Retrieval 70/70

Page 162: Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beurteilung des HITS-Algorithmus

+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien

Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten

+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt

– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten

Ingo Frommholz Information Retrieval 70/70