Download pdf - VorlesungimSommersemester2020 Information Retrieval · ZieleFreitextIndex&RSVFeedbackLSIPRP/BIRPagerank ArchitektureinesIR-Systems Dokumenten-sammlung Indexier-funktion Retrieval

STOCHASTISCHE GRAMMATIKMODELLE

Vorlesung im Sommersemester 2020

Prof. E.G. Schukat-Talamazzini

Stand: 28. April 2020

Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ

Teil IX

Information Retrieval


Informationsgewinnung aus Dokumenten

IE Information Extractionextrahiert relevante Information aus Dokumenten

IR Information Retrievalfindet relevante Dokumente aus einer Sammlung

TC Topic Classificationbestimmt relevante Themen eines Dokuments

TM Topic Mappingstrukturiert Dokumentsammlungen in Gruppen,Hierarchien, Netzwerke

TA Text Abstractingerstellt sprachliche Kurzfassung eines Dokuments

QA Question Answeringbeantwortet inhaltliche Fragen zum Dokument


Information Retrieval SystemSpeicherung, Repräsentation und Zugriff auf Dokumente

1. Daten eine ungeordnete Sammlung von Dokumenten2. Anfrage ein semantisch formuliertes Suchkriterium3. Antwort eine Liste von Dokumenten

EU 6. Rahmenprogramm Network of ExcellencePS for Integrated Projects and Networks of ExcellencePARTNER SEARCH ID : CZ30DATE : 31.05.02CALL : EOI FP6 2002DEADLINE : 7 June 2002Type of project : IPIST THEMATIC PRIORITY ADRESSED BY THIS EOI :1.2.2 - Communication, computing and software technologiesPROPOSAL NAME : Multimedial and hypermedial services and their implementation - MM&HPSUBJECT : Development of modern distribution systems of multimedia information and services,solutions in the access network, increasing the effectiveness of cryptographic methods,effective protection of audiovisual data diffusion in the next generation of InternetKEYWORDS : Access network, data communication, multimedia services, data speech compression,ISDN, xDSL, distribution systems, optimizing, optical networks, securing data transmission,cryptography, Internet, protectionFURTHER INFO : http://www.ideal-ist.net/fp6/eoi/IP/122/CZ30.htm


Dokumente mit/ohne Struktur

TextdatenbankenFachartikel Volltext oder ZusammenfassungLiteraturnachweise bibl. Angaben, Index, Kurzfassung, ZitatWWW-Seiten HTML/XML strukturiertFirmendokumente elektronisches Aktenregal im Intranet

Faktendatenbankene-Commerce Artikeleinträge, Bezugsquelle, Preise: B2BNaturwissenschaften verteilte Ressourcen: Genomprojekte, WerkstoffePersonaldaten e-Government, Staatssicherheit, KundenserviceInformationssysteme Krankenhaus IS, Geographische IS

Ultimative HerausforderungDer Stahl X2-CrNi-Mo18-16 verliert in 5%iger AlCl3-Lösung bei 323 K maximal0.11 mm/a und in 25%iger AlCl3-Lösung bei 293 K maximal 1.1 bis 11 mm/a(15) und ist daher in Aluminiumchloridlösungen geringer Konzentration beimäßig erhöhten Temperaturen beständig.


Boolesche RechercheKatastrophales Information Retrieval mit prähistorischen Datenbankzugriffstechniken

Beispielanfrage„The side effects of drugs on memory or cognitive abilities, notrelated to aging “

Boolesche Anfragesitzung# `(Liste) Anfrage1 19248 DRUGS2 2412 DRUGS in TI3 2560 AGING4 19119 DRUG not AGING5 2349 #2 and #46 9305 MEMORY7 6 #5 and (DRUG near4 MEMORY)8 22091 COGNITIVE9 16 #5 and (DRUG near4 COGNITIVE)10 22 #7 or #911 2023 SIDE-EFFECTS-DRUG in DE12 0 #11 and #10

Boolesches IR:Suchbegriffe und logischeVerknüpfungen

Begriffe in Text u/o Index(TI/DE)

Problem:Anzahl der Angebotenicht steuerbar!

Beispiel: korrekte Anfrage(#12) erbringt 0 Treffer!


Moderne IR-RechercheGewichtete Suchbegriffe — gereihtes Angebot von Trefferdokumenten

Dokumentenreihung durch RetrievalstatuswertSuchbegriff Gewicht d1 d2 d3 d4„side effect“ +1 √ √ √ √

„drugs“ +1 √ √ √ √

„memory“ +1 √ √

„cognitive ability“ +1 √ √ √

„aging“ −1 √

Retrievalstatuswert 3 2 4 3

Reihung1. d32. d13. d44. d2

RelevanzPasst d ∈ D zu q ∈ Q?

r :

{Q×D → {0, 1}D 7→ D+

q ] D−q

TermeSuchbegriffe einesfesten InventarsT = {t1, . . . , tK}

RSVGeschätzte Rele-vanzbewertungeines Dokumentsfür q ∈ Q


Aufgabenstellung und Zielgrößen

Freitextverarbeitung

Boolesches, Fuzzy- und Vektorraum-Retrieval

Relevanzverstärkung

Latente semantische Indexierung

Binary Independence Retrieval

Google Page Rank

Zusammenfassung


Architektur eines IR-Systems

Dokumenten−

sammlung

Indexier−

funktion

Retrieval

metrik

Reihung

AN

DOK.

FRAGE

LISTE

Re

trie

va

lS

tatu

sw

ert

Ein Gespenst

geht um in

Europa − das

Gespenst des

Kommunismus.


Single Representation TrickDokumente gewichtete Menge von Termen Anfragen

Vektorraumbasiertes Information Retrieval

• Dokumentensammlung D = {d1, . . . , dN}• Begriffinventar T = {t1, . . . , tK}

Urform = Wortschatz

• Indexierungsfunktion ι : D∪T ∪Q → IRK

Urform = invertierter Index

• Retrievalmetrik % : IRK × IRK → IR+0

• Retrievalstatuswert

% :

{Q×D → IR+

0(q, d) 7→ %(q,d) = %(ι(q), ι(d))


Erfolgskriterien für IR-SystemeObjektive Gütemaße für die Algorithmenentwicklung

Optimale AbdeckungDie Antwortliste für q ∈ Q sollmöglichst alle d ∈ D+

q undkeine d ∈ D.q präsentieren

Reihendes AngebotDoch was verdammtnochmal ist die Antwortlisteeiner IRS-Anfrage?!Google: Ungefähr 1.350.000 Ergebnisse ...

Wann bricht die Benutzerin ihre Recherche ab?

• nach den ersten n Dokumenten

• nach n+ relevanten Dokumenten

• nach n− nicht relevanten Dokumenten

• nach n∗ irrelevanten Dokumenten in Folge

• nach Unterschreiten einer Mindesttrefferquote

• ... oder sobald der kleine rote Geduldsfaden reißt?


Fehlertypen und RatenAngenommen, wir kennen n bzw. die Antwortliste ...

alle

Dokumente

relevant

ausgewählt

tp fpfntn

Absolute ZahlenNfn Fehler 1. ArtNfp Fehler 2. ArtNtp, Ntn korrekt

Globale RatenNf •/N FehlerrateNt•/N Akkuratheit

Relevanzbezogene RatenNtp/(Ntp+Nfn) TPR, recallNfp/(Nfp+Ntn) FPR, fallout

Relative Ausschöpfung

Auswahlbezogene RatenNtp/(Ntp+Nfp) precisionNfn/(Ntn+Nfn) waste

Relative Ausbeute


Algorithmenvergleicheine Anfrage — eine Abrissposition

Akkuratheit & FehlerrateWenig aussagefähig, da Ntp von Ntf dominiert

Ausbeute (precision)Schwindet mit n→ NMessung: Anfrage Prüfen Zählen

Ausschöpfung (recall)Wächst mit n→ NMessung: schwierig ( )

F -MaßGewichtetes harmonisches Mittel

Fβ =

(β

p(n)+

1− βr(n)

)−1

aus Precision & Recall, aber n =??

Indirekte Messungder Ausschöpfung z.B.:

• Repräsentative ProbeD′ ⊂ D ziehen

• Anfrage erweitern undDq′ ⊃ Dq analysieren

• Bootstrap mittelsexternem IR-System

• Einzelfälle d ∈ D mitzahlreichen q ∈ Qprüfen


Algorithmenvergleicheine Anfrage — alle Dokumente gereiht

WEITENGbesser

schlechter

?

?

10 precision

reca

ll

10 precision

reca

ll

Receiver−OperatorCurve

P/R−Ebene

1 1

Die P/R-Punkte zweier Resultatesind nur bedingt vergleichbar((IR2,≤) ist Halbordnung)

Die ROCs zweier Resultate sind nurvergleichbar, wenn sie sich nichtschneiden

Summarische Gütebewertung für eine ROC-KurveA Auswahl eines GleichgewichtspunktesB Flächeninhalt unterhalb des Kurvengraphen


Antitonie zwischen TP-Rate und TN-Ratein Abhängigkeit von der Abrissschwelle

false rejection

correct rejection correct acceptance

TPFP TP

TP TPTP FP

TN

TN

FNFN

Ab

riss

TNTN

n

false acceptance

RSV(d)

Definition geeigneter ArbeitspunkteDie TP- und TN-Raten verlaufen antiton von 0→ 1 bzw. von 1→ 0

APTP,TN = TPR(n0) = TNR(n0) bzw. APp,r = p(n0) = r(n0)

(Für P/R gilt bis auf Oszillationen dasselbe)


Mittlere AusbeuteArea under curve (AUC) a.k.a. Whitney-Mann-Wilcoxon-Statistik

Flächeninhalt im Intervall [0, 1]Mittelung der Precision-Werte bei äquidistanten Recall-Positionen:

AUCq =1|Dq|

·∑{

p(n) | dπ(n) ∈ Dq}

π(n) = Laufindex des n-ten Dokuments in RSV-Sortierung bzgl. Anfrage q ∈ Q

BemerkungDie Ausbeute p(n) fällt nicht unbedingt monoton mit der Position n.

ersetze p(n) beim Mitteln durch das optimistische maxm≥n p(m)

Performanzmittel über viele Anfragen q ∈ Q hinwegmacro-average AUC = 1

M ·∑

m AUCqm gleichgewichtete Anfragenmicro-average AUC (kumulierte Antwortlisten) gleichgewichtete Angebote


Beispielberechnung der mittleren AusbeuteEine Anfrage, drei IR-Verfahren, zehn RSV-beste Dokumente

Position Präzision1–5 6–10 r ≤ 10 r ≤ 5 average interpol

⊕ ⊕ ⊕ ⊕ ⊕ 0.5 1.0 1.0 1.0 ⊕ ⊕ ⊕ ⊕ ⊕ 0.5 0.0 0.3544 0.5 ⊕ ⊕ ⊕ ⊕ ⊕ 0.5 0.4 0.5725 0.644

Die Mittelung erfolgt über alle Trefferpositionen,weil dort die Recalls j/|Dq | angenommen werden:

AUC1 =15·(11

+22

+33

+44

+55

)= 1.0

AUC2 =15·(16

+27

+38

+49

+510

)= 0.3544

AUC3 =15·(12

+23

+36

+47

+58

)= 0.5726

AUC(IP)3 =

15·(23

+23

+58

+58

+58

)= 0.6417








Google Page Rank

Zusammenfassung


DokumentvorverarbeitungVom Freitext zum Termindex

Lexikalisches Filter (Negativcharakterisierung)

Entfernung von Metainformation (XML/HTML/Grafik)

Bedeutungsrelevanz (Stoppwortliste)

Tilgung von Funktionswörtern: PRON, PREP, CONJ, ...

GrundformreduktionMorphologische Schälung (Prä/Postfixliste)Lemmatisierung (Stammbildung) (Porter/Lovins Stemmer)Dekomposition (orthograf. Regeln, Stammverzeichnis)

TermbildungDesambiguierung

{Homographen („Tenor“, „übersetzen“)Polyseme („Bank“, „achten“)

}Terminologiewörterbücher (KWOC/KWIC) · Begriffsnetze (KL-ONE/OWL)


Englische Stoppwortlistea also an and as at be butby can could do for fromgo have he her here hishow i if in into it its my ofon or our say she that thetheir there therefore theythis these those through tountil we what when wherewhich while who withwould you yourEin kleiner Teil des Wortschatzesist verantwortlich für etwa30–50% aller Wortvorkommeneines Textes, ohne wesentlich zuseiner inhaltlichenCharakterisierung beizutragen.

Wortformen vs. Terme• Anfrage q:

Mich interessiert, ob ein Befehleckige oder geschwungeneKlammern haben kann.

• Dokument d :Manche Befehle habenParameter, die zwischengeschwungenen Klammernangegeben werden müssen.Manche Befehle habenParameter, die weggelassen oderzwischen eckigen Klammernangegeben werden können.Manche Befehle haben Varianten,die durch das Hinzufügen einesSterns an den Befehlsnamenunterschieden werden.








Google Page Rank

Zusammenfassung


Boolesches Retrieval

Boolesche Indexierung

ι :

{D → {0, 1}K

d 7→ xd , xdkdef=

{1 #d (tk) 6= 00 #d (tk) = 0

Boolesches Retrievalgewicht%(tk , d) = xdk

%(q1∧q2, d) = min {%(q1, d), %(q2, d)}%(q1∨q2, d) = max {%(q1, d), %(q2, d)}%(¬q1, d) = 1− %(q1, d)

PROAussonderbarkeitbeliebiger Teilmengenvon D

CONTRAbinäre Relevanzbewertungkeine Reihungkeine explizite Anzahlkontrollekeine Gewichtung von Anfragetermenumständliche Anfrageformulierunggeringe IR-Qualität


Fuzzy RetrievalAbgestufte Indexierung & Fuzzyset-Verknüpfungen

Häufigkeitsindikatoren

• Termhäufigkeit TFnk = #dn(tk)

• Dokumenthäufigkeit DFk = |{d ∈ D | #d (tk) 6= 0}|• Gesamthäufigkeit CFk =

∑d∈D#d (tk)

Indexvektordefinitionen (für Dokument d = dn)

• TFR-Gewicht xk = TFnk• IDF-Gewicht xk = TFnk · log2

NDFk

• LTC-Gewicht xk ∝ log2(TFnk + 1) · log2N

DFk

• Entropie-Gewichtxk = log2(TFnk + 1) ·

{1 + 1

log2 N·∑N

n=1TFnkCFk· log2

TFnkCFk

}


Inverse Dokumenthäufigkeitbewertet den Informationsgehalteines Terms in Bezug auf denDokumenteninhalt

CFk DFk

„insurance“ 10 440 3 997„try“ 10 422 8 760

Fuzzy-Operationenim Detail fragwürdig:

Dokumente mit ι(d1) = (0.4, 0.4)und ι(d2) = (0.3, 0.9) liefern fürAnfrage q = t1∧t2 die RSV%(q, d1) = 0.4 bzw. %(q, d2) = 0.3— und es gewinnt leider q1

Ausbeute (Makrolevel) einiger LiteraturdatenbankenMEDLARS CISI INSPEC CACM

|D| 1033 1460 12684 3204|Q| 30 35 77 52Boolesches IR 0.2065 0.1118 0.1159 0.1789Fuzzy IR 0.2368 0.1000 0.1314 0.1551Vektorraummodell 0.5473 0.1569 0.2325 0.3027

(mittlere Ausbeute für r ∈{

1/4,1/2,

3/4})

US/NLM Medical Literature Analysis and Retrieval SystemThomson Reuters Institute for Scientific InformationIndexing Database of the Institution of Engineering and TechnologyCommunications of the Association for Computing Machinery


VektorraummodellGemeinsame Repräsentation für Dokumente d ∈ D und Anfragen q ∈ Q

SMART-Modell (Salton, 1971)

• Dokumentindexierung ιk(d) = TFnk · log2N

DFk

• Anfrageindexierung ι(q) =∑m

i=1 λki · e(ki ) , λki ∈ {±1}• Retrievalstatuswert

%(q, d) = %(ι(q), ι(d)) = cos(q,d) = q>d‖q‖·‖d‖

Ausbeute (Makrolevel) von Beispielanfragenwie „side effects of drugs on memory and cognitive abilities, not aging “

CACM CISI CRAN INSPEC MEDBoolesche Indexierung 0.185 0.103 0.241 0.094 0.413SMART-Indexierung 0.363 0.219 0.384 0.263 0.562


1/4,1/2,

3/4})

Cranfield-Index aus dem Bereich der Aerodynamik








Google Page Rank

Zusammenfassung


RelevanzverstärkungRSV-starke Antworten enthalten wertvolle neue Suchmuster (Rocchio 1966)

Unüberwachte Verstärkung1 Anfrage q ∈ Q als ι(q) indexieren2 Dokumente gemäß RSV anordnen (Permutation π)3 Die top-M Dokumente zur Anfrageverschärfung nutzen:

ι(q) = ι(q) + CM ·M∑i=1

ι(dπ(i))

(RFB lebt vom Single Representation Trick!)


RelevanzverstärkungBenutzerfeedback = Anklicken relevanter Dokumente

Überwachte VerstärkungDie top-M Dokumente der Antwortliste Dq werden geklickt (DM+

q ) odernicht geklickt (DM−

q )

ι(q) = ι(q) + α · 1|DM+

q |

∑d∈DM+

q

ι(d)

︸︷︷︸µ+(q,M)

−β · 1|DM−

q |

∑d∈DM−

q

ι(d)

︸︷︷︸µ−(q,M)

Ausbeute (Makrolevel)CACM CISI CRAN INSPEC MED

ohne RFB 0.1459 0.1184 0.1156 0.1368 0.3346mit RFB 0.2552 0.1404 0.2955 0.1821 0.5630mit RFB* 0.2491 0.1623 0.2534 0.1861 0.5279


1/4,1/2,

3/4})

RFB⊕ überwacht

RFB* überwacht⊕ iteriert








Google Page Rank

Zusammenfassung


Dimensionsreduktion im Indexraum IR|T |

MerkmalselektionAuswahl „interessanter“ Terme tk nach den Kriterien• Signifikante Dokumenttrefferquote

DFk = #{dn ∈ D | TFnk 6= 0}

• Signifikanter Informationsgewinn (bezüglich dn ∈ D)

∆(tk) = H(PN)− P(tk) · H(PN|tk )− P(tk) · H(PN|tk )

• Signifikanter Einfluss auf die Relevanz

χ2-Test für die KontingenztabelleP(q, tk) P(q, tk)

P(q, tk) P(q, tk)


Dimensionsreduktion im Indexraum IR|T |

MerkmaltransformationLineare Abbildung

φ :

{IRK → IRM

x 7→ U> · x mit Dimensionen M � K

von Termkoordinaten in semantische Koordinaten

Propagieren von Bedeutungsähnlichkeitenq „user“ „interface“

t1 t2 t3 t4d1 „user“ „interface“ „HCI“ „interaction“d2 „HCI“ „interaction“

IDEE:Verborgene semantische Achsen hinter den repräsentierenden Termen


LSI — Latente Semantische IndexierungSingulärwertanalyse der TF-Matrix (Deerwester 1990)

U A

VT

S Singulärwertzerlegung (SVD)jeder beliebigen Matrix:

A = U ·S ·V> mit

U>U = ES diagonalV>V = E

Löse EigenwertaufgabeNotwendige Bedingungen:

A · A> = U · S2 ·U>

A> · A = V · S2 · V>

Geordnete Singulärwerteσ1, . . . , σr , 0, . . . , 0 undr = ran(A)

Rangreduzierte SVDFür M < min {N,K} suche‖·‖2-minimale Darstellung

A ≈ A = U · S · V>

mit

U ∈ IRK×M

S ∈ IRM×M

V ∈ IRN×M


Beispiel — Dokumentenrepräsentation

Matrix A: d1 d2 d3 d4 d5 d6„cosmonaut“ 1 0 1 0 0 0„astronaut“ 0 1 0 0 0 0„moon“ 1 1 0 0 0 0„car“ 1 0 0 1 1 0„truck“ 0 0 0 1 0 1

Matrix U : x1 x2 x3 x4 x5„cosmonaut“ −0.44 −0.30 0.57 0.58 0.25„astronaut“ −0.13 −0.33 −0.59 0.00 0.73„moon“ −0.48 −0.51 −0.37 0.00 −0.61„car“ −0.70 0.35 0.15 −0.58 0.16„truck“ −0.26 0.65 −0.41 0.58 −0.09

Matrix B: d1 d2 d3 d4 d5 d6x1 −1.62 −0.60 −0.04 −0.97 −0.71 −0.26x2 −0.46 −0.84 −0.30 1.00 0.35 0.65

ZerlegungEs istA = U · B mitB = S · V>

DokumenteSpalten von Aoder BLinearkombinationender U-Spalten

ProjektionWegenB = U> · A gilt

b(n)

= U> · a(n)


Beispiel — Termrepräsentation

Matrix A: d1 d2 d3 d4 d5 d6„cosmonaut“ 1 0 1 0 0 0„astronaut“ 0 1 0 0 0 0„moon“ 1 1 0 0 0 0„car“ 1 0 0 1 1 0„truck“ 0 0 0 1 0 1

V>: d1 d2 d3 d4 d5 d6x1 −0.75 −0.28 −0.20 −0.45 −0.33 −0.12x2 −0.29 −0.53 −0.19 0.63 0.22 0.41x3 0.28 −0.75 0.45 −0.20 0.12 −0.33x4 0.00 0.00 0.58 0.00 −0.58 0.58x5 −0.53 0.29 0.63 0.19 0.41 −0.22

Matrix C : t1 t2 t3 t4 t5x1 −0.95 −0.28 −1.03 −1.52 −0.57x2 −0.47 −0.53 −0.81 0.56 1.03x3 0.73 −0.75 −0.47 0.20 −0.53

ZerlegungEs istA> = V · Cmit C = S ·U>

TermeSpalten von A>

oder CLinearkombinationender V -Spalten

ProjektionWegenC = V> · A>gilt

c (k) = V> · a(k)


Beispiel — Korrelation und SingulärwerteDiagonalmatrix S : x1 x2 x3 x4 x5x1 2.16 0 0 0 0x2 0 1.59 0 0 0x3 0 0 1.28 0 0x4 0 0 0 1.00 0x5 0 0 0 0 0.39

Corr[A] d1 d2 d3 d4 d5 d6d1 1.00d2 −0.17 1.00d3 0.41 −0.41 1.00d4 −0.17 −0.67 −0.41 1.00d5 0.41 −0.41 −0.25 0.61 1.00d6 −0.61 −0.41 −0.25 0.61 −0.25 1.00

Matrix Corr[A>] t1 t2 t3 t4 t5t1 „astronaut“ 1.00t2 „cosmonaut“ −0.32 1.00t3 „moon“ 0.25 0.63 1.00t4 „car“ 0.00 −0.45 0.00 1.00t5 „truck“ −0.50 −0.32 −0.50 0.00 1.00

SingulärwerteabsteigendgeordnetGewichte fürdie xm-Achsen

DokumenteA>A =VS2V> =B>B

TermeAA> =US2U> =C>C


Latente AchsenTermgebundene versus bedeutungsgebundene Koordinaten

Die LSI-Transformation katapultiert die Dokumente vom IRK in einenRaum IRM , in dem nicht nur identische, sondern auch synonymeTerm(kombinationen) Ähnlichkeit zu stiften in der Lage sind.

dd

d

d

d

64

5

1

2

3d

x

1

2

x

(x1, x2)-Ebenemit cos(·, ·)-Distanz

Gruppe {d1, d2, d3}:raumfahrtorientierteDokumente

Gruppe {d4, d5, d6}:fahrzeugorientierte Dokumente

{d5, d6} termdisjunkt, abernichtsdestoweniger benachbart:wegen „car“ und „truck“ via d4 !








Google Page Rank

Zusammenfassung


Probability Ranking Principlevan Rijsbergen (1979)

„Ranking docs in order of decreasing probabilities is optimal.“IR = inkrementelle (gierige) Suchenach dem jeweils nächst wertvollen Dokument unter den Annahmen:

1. Dokumente sind statistisch unabhängig voneinander

2. Gesamtoptimum = Folge der Einzeloptima

3. Relevanzwahrscheinlichkeit ist verzerrungsfrei zu schätzen

RelevanzwahrscheinlichkeitRepräsentation: binäre Indexierung

P(R | q, d) ≈ P(R | ι(q)︸︷︷︸yq

, ι(d)︸︷︷︸xd

)

Zufallsvariable R mit:R = 1 d ist relevant für q

Binary Independencea Binärvektordarstellungb bed. Unabhängigkeit der{x1, . . . , xK} | r , qc Sparck-Jones-Hypothese

P(xk |R, yk) = P(xk |R, yk)falls yk = 0 war


BIR — Binary Independece Retrieval

odds(R | q, d) =P(R | q, d)

P(R | q, d)

=P(R|q) · P(d | R, q) / P(d |q)

P(R|q) · P(d | R, q) / P(d |q)

= odds(R|q) ·K∏

k=1

P(xk | R, q)

P(xk | R, q)

= odds(R|q) ·∏xk=1

ak

bk·∏xk=0

1− ak

1− bk

= odds(R|q) ·∏xkyk

ak

bk·∏xk yk

ak

bk·∏xkyk

1− ak

1− bk·∏xk yk

1− ak

1− bk

= odds(R|q) ·∏xkyk

ak

bk·∏xkyk

1− ak

1− bk∝∏xkyk

(1− bk) · ak

(1− ak) · bk

mit den Abkürzungen ak = ak(q) = P(xk = 1 | R, q) und bk = P(xk = 1 | R, q)


Lernen der BIR-Parameter

Beweis.Chancenfunktion

Bayesformel für P(·|q)

Kürzen! Kürzen!

odds(R|q) ist d-unabh.

Fallunterscheidungxk ∈ {1, 0}

Fallunterscheidungyk ∈ {1, 0}

Spark-Jones:yk = 0 ak/bk = 1

Skalierung∏yk

1− ak

1− bk

Miniprodukt über{k | xk = 1 = yk}

Generatives ModellAuszählen eines (q, d , r)-Korpusak , bk = relative Häufigkeiten (MLS)

Diskriminatives ModellConditional Max-Ent (CME) Retrievallog P(R | q, d) = log odds(q,d)

1+odds(q,d)

= c0 +∑k

φk(x , y) · log (1−bk)·ak(1−ak)·bk

Iterative Skalierung

Vorteile des CME-RetrievalsElimination „windiger“ Annahmen:⊕ naive Bayes (bedingte Unabh.) xi ∼ xj⊕ Sparck-Jones (Neutralität) ak 6= bk⊕ Binärindex (vs. Freq/Proporz) xk ∈ IN


TermverteilungsmodelleBinäre Indexierung Häufigkeitsindexierung

GEGEBEN:Sammlung D, Anfrage q,Term tk

GESUCHT:P(Xk = ξ | R, q) bzw.P(Xk = ξ | R, q)

? „Wie groß ist die Wahrscheinlichkeit für ein ξ-maligesAuftreten von tk in den Dokumenten aus D+

q bzw. D−q “ ?

BinomialverteilungDokument mit T Positionen; Term tk i.i.d. mit pk gezogen:

B(ξ | T , pk) =

(Tξ

)· pξk · (1− pk)T−ξ

Parameter: T · pk = E[Xk |T ] pk = CFk/∑

j CFj


Poisson-TermverteilungsmodelleDas Auftreten eines Terms ist ein seltenes Ereignis

PoissonverteilungGrenzverteilung von B(T , pk) für T →∞ mit konstantemErwartungswert T · pk ≡: λk für die „Gesamttrefferzahl“

P(ξ | λk) = e−λk ·λξkξ!

Parameter: λk = E[Xk ] λk = CFk/N

Poissonmischung (2 Komponenten){privilegierteperiphere

}Dokumente Begriff tk spielt

{tonangebendeuntergeordnete

}Rolle

P2(ξ | π, λk,1, λk,2) = π · P(ξ | λk,1) + (1− π) · P(ξ | λk,2)

Parameter:EM-Algorithmus (theoretisch) — entscheidungsüberwacht (praktisch)


Binomial- und Poissonverteilungen

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0 2 4 6 8 10 12

Wa

hrs

ch

ein

lich

ke

it

Anzahl Termvorkommen im Dokument

Binom (100, 0.064)Binom (100, 0.025)Binom (100, 0.008)

MixturePoisson (1/2,1,4)Poisson (6.4)


Warum Poisson-Mixturen?Systematisches Überschätzen der Häufigkeit von Inhaltswörtern

Term tk DFk CFk λk DFk Faktor„follows“ 21744 23533 0.2968 20363 0.94„transformed“ 807 840 0.0106 835 1.03„soviet“ 8204 35337 0.4457 28515 3.48„students“ 4953 15925 0.2008 14425 2.91„ james“ 9191 11175 0.1409 10421 1.13„freshly“ 395 611 0.0077 609 1.54

Poissonrekonstruktionder Dokumenthäufigkeit

DFk = N ·(1− P(0|λk)

)aus der Nichttrefferwahrscheinlichkeit

Deftig überschätzt!Inhaltswörter wie „soviet“ oder„students“ verfügen überStreuvorkommen (1×/Dok)wie auch über epidemischeHäufungen.








Google Page Rank

Zusammenfassung


Google Page RankDie Qualität einer Webseite hat zwei Gesichter

Qualität a posteriori„Wie gut passt die Seite zumeiner Anfrage?“

Qualität a priori„Wie wertvoll erweist sich ihrInformationsgehalt?“

Ist das ein Problem für Suchmaschinen?JA — die Nutzer manövrieren im Fadenkreuz geschäftlicher Interessen!

Volkssport SuchmaschinenoptimierungWebseiten machen das Beste aus ihrem Typ (Botox für die Termliste)Das erste/letzte Google-Angebot: Beitragszahler & NSFW

Robuste(!) Kriterien für a priori Qualität?In/direkte Quantität (Textumfang und fan-out) . . . . PrimärmanipulationPopularität (Aufrufe/Zeiteinheit) . . . . . . . . . . . . . . . . . . . . . . . . . KlickroboterProminenz (fan-in) . . . . . . . . . . . . . . . . . . . . . Zitatkartelle, WebseitenfarmenSeriosität („seriöser“ fan-in) . . . . . . . . . . . . . . selbstreferenzielle Definition!


Random Surfer Modell„Gute Webseiten werden von guten Webseiten erwähnt.“

Relevanz und QualitätSeitenbewertung = Anfragepassung + Seriositätsmaß

scoreGoogleq (doc) = Relq(doc) + rank(doc)

Worldwide Web als gerichteter GraphAdjazenzmatrix A ∈ {1, 0}T×T mit ast = 1 doci 7→ docj

IrrfahrtmodellDer „Random Surfer“ besucht Webseiten mit W’keit pj und der Politik

pj = (1− β) · 1T

+ β ·∑

i

pi · aij · 1/∑k aik

Die Gleichgewichtsverteilung gehorcht einer Eigenwertaufgabe (λ = 1):

B · p =

((1− β) · 1

T+ β · A

)·p = p = λ · p , aij

def= aij

/ ∑k

aik








Google Page Rank

Zusammenfassung


Zusammenfassung (9)

1. Information Retrieval sucht die semantisch anfragerelevantenDokumente einer Sammlung.

2. Das boolesche Retrieval der DB-Technik verfehlt das ergonomische Zielmangels Reihung der Angebote nach Anfragepassung (RSV).

3. Objektive Gütekriterien für IR sind die Precision/Recall-Kurve (ROC)und summarische Merkmale wie AUC.

4. Moderne Vektorraum-Architekturen überführen Anfragen und Dokumentenach Freitextverarbeitung in eine gemeinsame Repräsentation (Index,z.B. IDF) und ermitteln den RSV aus der Vektorraumdistanz.

5. Von lexikalischem zu semantischem IR gelangen wir mittelsRelevanzverstärkung u/o latenter Indexierung (LSI).

6. Das Binary Independence IR folgt der naiven Bayesentscheidungsregel;deren Annahmen und Einschränkungen lassen sich durch expliziteTermverteilungsmodelle und diskriminative Lerntechniken (CME)abmildern.

7. Nutzerzufriedenheit hängt neben dem RSV auch an der a priori Qualitäteines Dokuments, messbar durch Kriterien wie den Pagerank.