STOCHASTISCHE GRAMMATIKMODELLE
Vorlesung im Sommersemester 2020
Prof. E.G. Schukat-Talamazzini
Stand: 28. April 2020
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Teil IX
Information Retrieval
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Informationsgewinnung aus Dokumenten
IE Information Extractionextrahiert relevante Information aus Dokumenten
IR Information Retrievalfindet relevante Dokumente aus einer Sammlung
TC Topic Classificationbestimmt relevante Themen eines Dokuments
TM Topic Mappingstrukturiert Dokumentsammlungen in Gruppen,Hierarchien, Netzwerke
TA Text Abstractingerstellt sprachliche Kurzfassung eines Dokuments
QA Question Answeringbeantwortet inhaltliche Fragen zum Dokument
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Information Retrieval SystemSpeicherung, Repräsentation und Zugriff auf Dokumente
1. Daten eine ungeordnete Sammlung von Dokumenten2. Anfrage ein semantisch formuliertes Suchkriterium3. Antwort eine Liste von Dokumenten
EU 6. Rahmenprogramm Network of ExcellencePS for Integrated Projects and Networks of ExcellencePARTNER SEARCH ID : CZ30DATE : 31.05.02CALL : EOI FP6 2002DEADLINE : 7 June 2002Type of project : IPIST THEMATIC PRIORITY ADRESSED BY THIS EOI :1.2.2 - Communication, computing and software technologiesPROPOSAL NAME : Multimedial and hypermedial services and their implementation - MM&HPSUBJECT : Development of modern distribution systems of multimedia information and services,solutions in the access network, increasing the effectiveness of cryptographic methods,effective protection of audiovisual data diffusion in the next generation of InternetKEYWORDS : Access network, data communication, multimedia services, data speech compression,ISDN, xDSL, distribution systems, optimizing, optical networks, securing data transmission,cryptography, Internet, protectionFURTHER INFO : http://www.ideal-ist.net/fp6/eoi/IP/122/CZ30.htm
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Dokumente mit/ohne Struktur
TextdatenbankenFachartikel Volltext oder ZusammenfassungLiteraturnachweise bibl. Angaben, Index, Kurzfassung, ZitatWWW-Seiten HTML/XML strukturiertFirmendokumente elektronisches Aktenregal im Intranet
Faktendatenbankene-Commerce Artikeleinträge, Bezugsquelle, Preise: B2BNaturwissenschaften verteilte Ressourcen: Genomprojekte, WerkstoffePersonaldaten e-Government, Staatssicherheit, KundenserviceInformationssysteme Krankenhaus IS, Geographische IS
Ultimative HerausforderungDer Stahl X2-CrNi-Mo18-16 verliert in 5%iger AlCl3-Lösung bei 323 K maximal0.11 mm/a und in 25%iger AlCl3-Lösung bei 293 K maximal 1.1 bis 11 mm/a(15) und ist daher in Aluminiumchloridlösungen geringer Konzentration beimäßig erhöhten Temperaturen beständig.
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Boolesche RechercheKatastrophales Information Retrieval mit prähistorischen Datenbankzugriffstechniken
Beispielanfrage„The side effects of drugs on memory or cognitive abilities, notrelated to aging “
Boolesche Anfragesitzung# `(Liste) Anfrage1 19248 DRUGS2 2412 DRUGS in TI3 2560 AGING4 19119 DRUG not AGING5 2349 #2 and #46 9305 MEMORY7 6 #5 and (DRUG near4 MEMORY)8 22091 COGNITIVE9 16 #5 and (DRUG near4 COGNITIVE)10 22 #7 or #911 2023 SIDE-EFFECTS-DRUG in DE12 0 #11 and #10
Boolesches IR:Suchbegriffe und logischeVerknüpfungen
Begriffe in Text u/o Index(TI/DE)
Problem:Anzahl der Angebotenicht steuerbar!
Beispiel: korrekte Anfrage(#12) erbringt 0 Treffer!
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Moderne IR-RechercheGewichtete Suchbegriffe — gereihtes Angebot von Trefferdokumenten
Dokumentenreihung durch RetrievalstatuswertSuchbegriff Gewicht d1 d2 d3 d4„side effect“ +1 √ √ √ √
„drugs“ +1 √ √ √ √
„memory“ +1 √ √
„cognitive ability“ +1 √ √ √
„aging“ −1 √
Retrievalstatuswert 3 2 4 3
Reihung1. d32. d13. d44. d2
RelevanzPasst d ∈ D zu q ∈ Q?
r :
{Q×D → {0, 1}D 7→ D+
q ] D−q
TermeSuchbegriffe einesfesten InventarsT = {t1, . . . , tK}
RSVGeschätzte Rele-vanzbewertungeines Dokumentsfür q ∈ Q
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Architektur eines IR-Systems
Dokumenten−
sammlung
Indexier−
funktion
Retrieval
metrik
Reihung
AN
DOK.
FRAGE
LISTE
Re
trie
va
lS
tatu
sw
ert
Ein Gespenst
geht um in
Europa − das
Gespenst des
Kommunismus.
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Single Representation TrickDokumente gewichtete Menge von Termen Anfragen
Vektorraumbasiertes Information Retrieval
• Dokumentensammlung D = {d1, . . . , dN}• Begriffinventar T = {t1, . . . , tK}
Urform = Wortschatz
• Indexierungsfunktion ι : D∪T ∪Q → IRK
Urform = invertierter Index
• Retrievalmetrik % : IRK × IRK → IR+0
• Retrievalstatuswert
% :
{Q×D → IR+
0(q, d) 7→ %(q,d) = %(ι(q), ι(d))
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Erfolgskriterien für IR-SystemeObjektive Gütemaße für die Algorithmenentwicklung
Optimale AbdeckungDie Antwortliste für q ∈ Q sollmöglichst alle d ∈ D+
q undkeine d ∈ D.q präsentieren
Reihendes AngebotDoch was verdammtnochmal ist die Antwortlisteeiner IRS-Anfrage?!Google: Ungefähr 1.350.000 Ergebnisse ...
Wann bricht die Benutzerin ihre Recherche ab?
• nach den ersten n Dokumenten
• nach n+ relevanten Dokumenten
• nach n− nicht relevanten Dokumenten
• nach n∗ irrelevanten Dokumenten in Folge
• nach Unterschreiten einer Mindesttrefferquote
• ... oder sobald der kleine rote Geduldsfaden reißt?
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Fehlertypen und RatenAngenommen, wir kennen n bzw. die Antwortliste ...
alle
Dokumente
relevant
ausgewählt
tp fpfntn
Absolute ZahlenNfn Fehler 1. ArtNfp Fehler 2. ArtNtp, Ntn korrekt
Globale RatenNf •/N FehlerrateNt•/N Akkuratheit
Relevanzbezogene RatenNtp/(Ntp+Nfn) TPR, recallNfp/(Nfp+Ntn) FPR, fallout
Relative Ausschöpfung
Auswahlbezogene RatenNtp/(Ntp+Nfp) precisionNfn/(Ntn+Nfn) waste
Relative Ausbeute
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Algorithmenvergleicheine Anfrage — eine Abrissposition
Akkuratheit & FehlerrateWenig aussagefähig, da Ntp von Ntf dominiert
Ausbeute (precision)Schwindet mit n→ NMessung: Anfrage Prüfen Zählen
Ausschöpfung (recall)Wächst mit n→ NMessung: schwierig ( )
F -MaßGewichtetes harmonisches Mittel
Fβ =
(β
p(n)+
1− βr(n)
)−1
aus Precision & Recall, aber n =??
Indirekte Messungder Ausschöpfung z.B.:
• Repräsentative ProbeD′ ⊂ D ziehen
• Anfrage erweitern undDq′ ⊃ Dq analysieren
• Bootstrap mittelsexternem IR-System
• Einzelfälle d ∈ D mitzahlreichen q ∈ Qprüfen
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Algorithmenvergleicheine Anfrage — alle Dokumente gereiht
WEITENGbesser
schlechter
?
?
10 precision
reca
ll
10 precision
reca
ll
Receiver−OperatorCurve
P/R−Ebene
1 1
Die P/R-Punkte zweier Resultatesind nur bedingt vergleichbar((IR2,≤) ist Halbordnung)
Die ROCs zweier Resultate sind nurvergleichbar, wenn sie sich nichtschneiden
Summarische Gütebewertung für eine ROC-KurveA Auswahl eines GleichgewichtspunktesB Flächeninhalt unterhalb des Kurvengraphen
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Antitonie zwischen TP-Rate und TN-Ratein Abhängigkeit von der Abrissschwelle
false rejection
correct rejection correct acceptance
TPFP TP
TP TPTP FP
TN
TN
FNFN
Ab
riss
TNTN
n
false acceptance
RSV(d)
Definition geeigneter ArbeitspunkteDie TP- und TN-Raten verlaufen antiton von 0→ 1 bzw. von 1→ 0
APTP,TN = TPR(n0) = TNR(n0) bzw. APp,r = p(n0) = r(n0)
(Für P/R gilt bis auf Oszillationen dasselbe)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Mittlere AusbeuteArea under curve (AUC) a.k.a. Whitney-Mann-Wilcoxon-Statistik
Flächeninhalt im Intervall [0, 1]Mittelung der Precision-Werte bei äquidistanten Recall-Positionen:
AUCq =1|Dq|
·∑{
p(n) | dπ(n) ∈ Dq}
π(n) = Laufindex des n-ten Dokuments in RSV-Sortierung bzgl. Anfrage q ∈ Q
BemerkungDie Ausbeute p(n) fällt nicht unbedingt monoton mit der Position n.
ersetze p(n) beim Mitteln durch das optimistische maxm≥n p(m)
Performanzmittel über viele Anfragen q ∈ Q hinwegmacro-average AUC = 1
M ·∑
m AUCqm gleichgewichtete Anfragenmicro-average AUC (kumulierte Antwortlisten) gleichgewichtete Angebote
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Beispielberechnung der mittleren AusbeuteEine Anfrage, drei IR-Verfahren, zehn RSV-beste Dokumente
Position Präzision1–5 6–10 r ≤ 10 r ≤ 5 average interpol
⊕ ⊕ ⊕ ⊕ ⊕ 0.5 1.0 1.0 1.0 ⊕ ⊕ ⊕ ⊕ ⊕ 0.5 0.0 0.3544 0.5 ⊕ ⊕ ⊕ ⊕ ⊕ 0.5 0.4 0.5725 0.644
Die Mittelung erfolgt über alle Trefferpositionen,weil dort die Recalls j/|Dq | angenommen werden:
AUC1 =15·(11
+22
+33
+44
+55
)= 1.0
AUC2 =15·(16
+27
+38
+49
+510
)= 0.3544
AUC3 =15·(12
+23
+36
+47
+58
)= 0.5726
AUC(IP)3 =
15·(23
+23
+58
+58
+58
)= 0.6417
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
DokumentvorverarbeitungVom Freitext zum Termindex
Lexikalisches Filter (Negativcharakterisierung)
Entfernung von Metainformation (XML/HTML/Grafik)
Bedeutungsrelevanz (Stoppwortliste)
Tilgung von Funktionswörtern: PRON, PREP, CONJ, ...
GrundformreduktionMorphologische Schälung (Prä/Postfixliste)Lemmatisierung (Stammbildung) (Porter/Lovins Stemmer)Dekomposition (orthograf. Regeln, Stammverzeichnis)
TermbildungDesambiguierung
{Homographen („Tenor“, „übersetzen“)Polyseme („Bank“, „achten“)
}Terminologiewörterbücher (KWOC/KWIC) · Begriffsnetze (KL-ONE/OWL)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Englische Stoppwortlistea also an and as at be butby can could do for fromgo have he her here hishow i if in into it its my ofon or our say she that thetheir there therefore theythis these those through tountil we what when wherewhich while who withwould you yourEin kleiner Teil des Wortschatzesist verantwortlich für etwa30–50% aller Wortvorkommeneines Textes, ohne wesentlich zuseiner inhaltlichenCharakterisierung beizutragen.
Wortformen vs. Terme• Anfrage q:
Mich interessiert, ob ein Befehleckige oder geschwungeneKlammern haben kann.
• Dokument d :Manche Befehle habenParameter, die zwischengeschwungenen Klammernangegeben werden müssen.Manche Befehle habenParameter, die weggelassen oderzwischen eckigen Klammernangegeben werden können.Manche Befehle haben Varianten,die durch das Hinzufügen einesSterns an den Befehlsnamenunterschieden werden.
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Boolesches Retrieval
Boolesche Indexierung
ι :
{D → {0, 1}K
d 7→ xd , xdkdef=
{1 #d (tk) 6= 00 #d (tk) = 0
Boolesches Retrievalgewicht%(tk , d) = xdk
%(q1∧q2, d) = min {%(q1, d), %(q2, d)}%(q1∨q2, d) = max {%(q1, d), %(q2, d)}%(¬q1, d) = 1− %(q1, d)
PROAussonderbarkeitbeliebiger Teilmengenvon D
CONTRAbinäre Relevanzbewertungkeine Reihungkeine explizite Anzahlkontrollekeine Gewichtung von Anfragetermenumständliche Anfrageformulierunggeringe IR-Qualität
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Fuzzy RetrievalAbgestufte Indexierung & Fuzzyset-Verknüpfungen
Häufigkeitsindikatoren
• Termhäufigkeit TFnk = #dn(tk)
• Dokumenthäufigkeit DFk = |{d ∈ D | #d (tk) 6= 0}|• Gesamthäufigkeit CFk =
∑d∈D#d (tk)
Indexvektordefinitionen (für Dokument d = dn)
• TFR-Gewicht xk = TFnk• IDF-Gewicht xk = TFnk · log2
NDFk
• LTC-Gewicht xk ∝ log2(TFnk + 1) · log2N
DFk
• Entropie-Gewichtxk = log2(TFnk + 1) ·
{1 + 1
log2 N·∑N
n=1TFnkCFk· log2
TFnkCFk
}
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Inverse Dokumenthäufigkeitbewertet den Informationsgehalteines Terms in Bezug auf denDokumenteninhalt
CFk DFk
„insurance“ 10 440 3 997„try“ 10 422 8 760
Fuzzy-Operationenim Detail fragwürdig:
Dokumente mit ι(d1) = (0.4, 0.4)und ι(d2) = (0.3, 0.9) liefern fürAnfrage q = t1∧t2 die RSV%(q, d1) = 0.4 bzw. %(q, d2) = 0.3— und es gewinnt leider q1
Ausbeute (Makrolevel) einiger LiteraturdatenbankenMEDLARS CISI INSPEC CACM
|D| 1033 1460 12684 3204|Q| 30 35 77 52Boolesches IR 0.2065 0.1118 0.1159 0.1789Fuzzy IR 0.2368 0.1000 0.1314 0.1551Vektorraummodell 0.5473 0.1569 0.2325 0.3027
(mittlere Ausbeute für r ∈{
1/4,1/2,
3/4})
US/NLM Medical Literature Analysis and Retrieval SystemThomson Reuters Institute for Scientific InformationIndexing Database of the Institution of Engineering and TechnologyCommunications of the Association for Computing Machinery
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
VektorraummodellGemeinsame Repräsentation für Dokumente d ∈ D und Anfragen q ∈ Q
SMART-Modell (Salton, 1971)
• Dokumentindexierung ιk(d) = TFnk · log2N
DFk
• Anfrageindexierung ι(q) =∑m
i=1 λki · e(ki ) , λki ∈ {±1}• Retrievalstatuswert
%(q, d) = %(ι(q), ι(d)) = cos(q,d) = q>d‖q‖·‖d‖
Ausbeute (Makrolevel) von Beispielanfragenwie „side effects of drugs on memory and cognitive abilities, not aging “
CACM CISI CRAN INSPEC MEDBoolesche Indexierung 0.185 0.103 0.241 0.094 0.413SMART-Indexierung 0.363 0.219 0.384 0.263 0.562
(mittlere Ausbeute für r ∈{
1/4,1/2,
3/4})
Cranfield-Index aus dem Bereich der Aerodynamik
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
RelevanzverstärkungRSV-starke Antworten enthalten wertvolle neue Suchmuster (Rocchio 1966)
Unüberwachte Verstärkung1 Anfrage q ∈ Q als ι(q) indexieren2 Dokumente gemäß RSV anordnen (Permutation π)3 Die top-M Dokumente zur Anfrageverschärfung nutzen:
ι(q) = ι(q) + CM ·M∑i=1
ι(dπ(i))
(RFB lebt vom Single Representation Trick!)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
RelevanzverstärkungBenutzerfeedback = Anklicken relevanter Dokumente
Überwachte VerstärkungDie top-M Dokumente der Antwortliste Dq werden geklickt (DM+
q ) odernicht geklickt (DM−
q )
ι(q) = ι(q) + α · 1|DM+
q |
∑d∈DM+
q
ι(d)
︸ ︷︷ ︸µ+(q,M)
−β · 1|DM−
q |
∑d∈DM−
q
ι(d)
︸ ︷︷ ︸µ−(q,M)
Ausbeute (Makrolevel)CACM CISI CRAN INSPEC MED
ohne RFB 0.1459 0.1184 0.1156 0.1368 0.3346mit RFB 0.2552 0.1404 0.2955 0.1821 0.5630mit RFB* 0.2491 0.1623 0.2534 0.1861 0.5279
(mittlere Ausbeute für r ∈{
1/4,1/2,
3/4})
RFB⊕ überwacht
RFB* überwacht⊕ iteriert
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Dimensionsreduktion im Indexraum IR|T |
MerkmalselektionAuswahl „interessanter“ Terme tk nach den Kriterien• Signifikante Dokumenttrefferquote
DFk = #{dn ∈ D | TFnk 6= 0}
• Signifikanter Informationsgewinn (bezüglich dn ∈ D)
∆(tk) = H(PN)− P(tk) · H(PN|tk )− P(tk) · H(PN|tk )
• Signifikanter Einfluss auf die Relevanz
χ2-Test für die KontingenztabelleP(q, tk) P(q, tk)
P(q, tk) P(q, tk)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Dimensionsreduktion im Indexraum IR|T |
MerkmaltransformationLineare Abbildung
φ :
{IRK → IRM
x 7→ U> · x mit Dimensionen M � K
von Termkoordinaten in semantische Koordinaten
Propagieren von Bedeutungsähnlichkeitenq „user“ „interface“
t1 t2 t3 t4d1 „user“ „interface“ „HCI“ „interaction“d2 „HCI“ „interaction“
IDEE:Verborgene semantische Achsen hinter den repräsentierenden Termen
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
LSI — Latente Semantische IndexierungSingulärwertanalyse der TF-Matrix (Deerwester 1990)
U A
VT
S Singulärwertzerlegung (SVD)jeder beliebigen Matrix:
A = U ·S ·V> mit
U>U = ES diagonalV>V = E
Löse EigenwertaufgabeNotwendige Bedingungen:
A · A> = U · S2 ·U>
A> · A = V · S2 · V>
Geordnete Singulärwerteσ1, . . . , σr , 0, . . . , 0 undr = ran(A)
Rangreduzierte SVDFür M < min {N,K} suche‖·‖2-minimale Darstellung
A ≈ A = U · S · V>
mit
U ∈ IRK×M
S ∈ IRM×M
V ∈ IRN×M
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Beispiel — Dokumentenrepräsentation
Matrix A: d1 d2 d3 d4 d5 d6„cosmonaut“ 1 0 1 0 0 0„astronaut“ 0 1 0 0 0 0„moon“ 1 1 0 0 0 0„car“ 1 0 0 1 1 0„truck“ 0 0 0 1 0 1
Matrix U : x1 x2 x3 x4 x5„cosmonaut“ −0.44 −0.30 0.57 0.58 0.25„astronaut“ −0.13 −0.33 −0.59 0.00 0.73„moon“ −0.48 −0.51 −0.37 0.00 −0.61„car“ −0.70 0.35 0.15 −0.58 0.16„truck“ −0.26 0.65 −0.41 0.58 −0.09
Matrix B: d1 d2 d3 d4 d5 d6x1 −1.62 −0.60 −0.04 −0.97 −0.71 −0.26x2 −0.46 −0.84 −0.30 1.00 0.35 0.65
ZerlegungEs istA = U · B mitB = S · V>
DokumenteSpalten von Aoder BLinearkombinationender U-Spalten
ProjektionWegenB = U> · A gilt
b(n)
= U> · a(n)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Beispiel — Termrepräsentation
Matrix A: d1 d2 d3 d4 d5 d6„cosmonaut“ 1 0 1 0 0 0„astronaut“ 0 1 0 0 0 0„moon“ 1 1 0 0 0 0„car“ 1 0 0 1 1 0„truck“ 0 0 0 1 0 1
V>: d1 d2 d3 d4 d5 d6x1 −0.75 −0.28 −0.20 −0.45 −0.33 −0.12x2 −0.29 −0.53 −0.19 0.63 0.22 0.41x3 0.28 −0.75 0.45 −0.20 0.12 −0.33x4 0.00 0.00 0.58 0.00 −0.58 0.58x5 −0.53 0.29 0.63 0.19 0.41 −0.22
Matrix C : t1 t2 t3 t4 t5x1 −0.95 −0.28 −1.03 −1.52 −0.57x2 −0.47 −0.53 −0.81 0.56 1.03x3 0.73 −0.75 −0.47 0.20 −0.53
ZerlegungEs istA> = V · Cmit C = S ·U>
TermeSpalten von A>
oder CLinearkombinationender V -Spalten
ProjektionWegenC = V> · A>gilt
c (k) = V> · a(k)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Beispiel — Korrelation und SingulärwerteDiagonalmatrix S : x1 x2 x3 x4 x5x1 2.16 0 0 0 0x2 0 1.59 0 0 0x3 0 0 1.28 0 0x4 0 0 0 1.00 0x5 0 0 0 0 0.39
Corr[A] d1 d2 d3 d4 d5 d6d1 1.00d2 −0.17 1.00d3 0.41 −0.41 1.00d4 −0.17 −0.67 −0.41 1.00d5 0.41 −0.41 −0.25 0.61 1.00d6 −0.61 −0.41 −0.25 0.61 −0.25 1.00
Matrix Corr[A>] t1 t2 t3 t4 t5t1 „astronaut“ 1.00t2 „cosmonaut“ −0.32 1.00t3 „moon“ 0.25 0.63 1.00t4 „car“ 0.00 −0.45 0.00 1.00t5 „truck“ −0.50 −0.32 −0.50 0.00 1.00
SingulärwerteabsteigendgeordnetGewichte fürdie xm-Achsen
DokumenteA>A =VS2V> =B>B
TermeAA> =US2U> =C>C
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Latente AchsenTermgebundene versus bedeutungsgebundene Koordinaten
Die LSI-Transformation katapultiert die Dokumente vom IRK in einenRaum IRM , in dem nicht nur identische, sondern auch synonymeTerm(kombinationen) Ähnlichkeit zu stiften in der Lage sind.
dd
d
d
d
64
5
1
2
3d
x
1
2
x
(x1, x2)-Ebenemit cos(·, ·)-Distanz
Gruppe {d1, d2, d3}:raumfahrtorientierteDokumente
Gruppe {d4, d5, d6}:fahrzeugorientierte Dokumente
{d5, d6} termdisjunkt, abernichtsdestoweniger benachbart:wegen „car“ und „truck“ via d4 !
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Probability Ranking Principlevan Rijsbergen (1979)
„Ranking docs in order of decreasing probabilities is optimal.“IR = inkrementelle (gierige) Suchenach dem jeweils nächst wertvollen Dokument unter den Annahmen:
1. Dokumente sind statistisch unabhängig voneinander
2. Gesamtoptimum = Folge der Einzeloptima
3. Relevanzwahrscheinlichkeit ist verzerrungsfrei zu schätzen
RelevanzwahrscheinlichkeitRepräsentation: binäre Indexierung
P(R | q, d) ≈ P(R | ι(q)︸︷︷︸yq
, ι(d)︸︷︷︸xd
)
Zufallsvariable R mit:R = 1 d ist relevant für q
Binary Independencea Binärvektordarstellungb bed. Unabhängigkeit der{x1, . . . , xK} | r , qc Sparck-Jones-Hypothese
P(xk |R, yk) = P(xk |R, yk)falls yk = 0 war
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
BIR — Binary Independece Retrieval
odds(R | q, d) =P(R | q, d)
P(R | q, d)
=P(R|q) · P(d | R, q) / P(d |q)
P(R|q) · P(d | R, q) / P(d |q)
= odds(R|q) ·K∏
k=1
P(xk | R, q)
P(xk | R, q)
= odds(R|q) ·∏xk=1
ak
bk·∏xk=0
1− ak
1− bk
= odds(R|q) ·∏xkyk
ak
bk·∏xk yk
ak
bk·∏xkyk
1− ak
1− bk·∏xk yk
1− ak
1− bk
= odds(R|q) ·∏xkyk
ak
bk·∏xkyk
1− ak
1− bk∝∏xkyk
(1− bk) · ak
(1− ak) · bk
mit den Abkürzungen ak = ak(q) = P(xk = 1 | R, q) und bk = P(xk = 1 | R, q)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Lernen der BIR-Parameter
Beweis.Chancenfunktion
Bayesformel für P(·|q)
Kürzen! Kürzen!
odds(R|q) ist d-unabh.
Fallunterscheidungxk ∈ {1, 0}
Fallunterscheidungyk ∈ {1, 0}
Spark-Jones:yk = 0 ak/bk = 1
Skalierung∏yk
1− ak
1− bk
Miniprodukt über{k | xk = 1 = yk}
Generatives ModellAuszählen eines (q, d , r)-Korpusak , bk = relative Häufigkeiten (MLS)
Diskriminatives ModellConditional Max-Ent (CME) Retrievallog P(R | q, d) = log odds(q,d)
1+odds(q,d)
= c0 +∑k
φk(x , y) · log (1−bk)·ak(1−ak)·bk
Iterative Skalierung
Vorteile des CME-RetrievalsElimination „windiger“ Annahmen:⊕ naive Bayes (bedingte Unabh.) xi ∼ xj⊕ Sparck-Jones (Neutralität) ak 6= bk⊕ Binärindex (vs. Freq/Proporz) xk ∈ IN
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
TermverteilungsmodelleBinäre Indexierung Häufigkeitsindexierung
GEGEBEN:Sammlung D, Anfrage q,Term tk
GESUCHT:P(Xk = ξ | R, q) bzw.P(Xk = ξ | R, q)
? „Wie groß ist die Wahrscheinlichkeit für ein ξ-maligesAuftreten von tk in den Dokumenten aus D+
q bzw. D−q “ ?
BinomialverteilungDokument mit T Positionen; Term tk i.i.d. mit pk gezogen:
B(ξ | T , pk) =
(Tξ
)· pξk · (1− pk)T−ξ
Parameter: T · pk = E[Xk |T ] pk = CFk/∑
j CFj
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Poisson-TermverteilungsmodelleDas Auftreten eines Terms ist ein seltenes Ereignis
PoissonverteilungGrenzverteilung von B(T , pk) für T →∞ mit konstantemErwartungswert T · pk ≡: λk für die „Gesamttrefferzahl“
P(ξ | λk) = e−λk ·λξkξ!
Parameter: λk = E[Xk ] λk = CFk/N
Poissonmischung (2 Komponenten){privilegierteperiphere
}Dokumente Begriff tk spielt
{tonangebendeuntergeordnete
}Rolle
P2(ξ | π, λk,1, λk,2) = π · P(ξ | λk,1) + (1− π) · P(ξ | λk,2)
Parameter:EM-Algorithmus (theoretisch) — entscheidungsüberwacht (praktisch)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Binomial- und Poissonverteilungen
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0 2 4 6 8 10 12
Wa
hrs
ch
ein
lich
ke
it
Anzahl Termvorkommen im Dokument
Binom (100, 0.064)Binom (100, 0.025)Binom (100, 0.008)
MixturePoisson (1/2,1,4)Poisson (6.4)
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Warum Poisson-Mixturen?Systematisches Überschätzen der Häufigkeit von Inhaltswörtern
Term tk DFk CFk λk DFk Faktor„follows“ 21744 23533 0.2968 20363 0.94„transformed“ 807 840 0.0106 835 1.03„soviet“ 8204 35337 0.4457 28515 3.48„students“ 4953 15925 0.2008 14425 2.91„ james“ 9191 11175 0.1409 10421 1.13„freshly“ 395 611 0.0077 609 1.54
Poissonrekonstruktionder Dokumenthäufigkeit
DFk = N ·(1− P(0|λk)
)aus der Nichttrefferwahrscheinlichkeit
Deftig überschätzt!Inhaltswörter wie „soviet“ oder„students“ verfügen überStreuvorkommen (1×/Dok)wie auch über epidemischeHäufungen.
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Google Page RankDie Qualität einer Webseite hat zwei Gesichter
Qualität a posteriori„Wie gut passt die Seite zumeiner Anfrage?“
Qualität a priori„Wie wertvoll erweist sich ihrInformationsgehalt?“
Ist das ein Problem für Suchmaschinen?JA — die Nutzer manövrieren im Fadenkreuz geschäftlicher Interessen!
Volkssport SuchmaschinenoptimierungWebseiten machen das Beste aus ihrem Typ (Botox für die Termliste)Das erste/letzte Google-Angebot: Beitragszahler & NSFW
Robuste(!) Kriterien für a priori Qualität?In/direkte Quantität (Textumfang und fan-out) . . . . PrimärmanipulationPopularität (Aufrufe/Zeiteinheit) . . . . . . . . . . . . . . . . . . . . . . . . . KlickroboterProminenz (fan-in) . . . . . . . . . . . . . . . . . . . . . Zitatkartelle, WebseitenfarmenSeriosität („seriöser“ fan-in) . . . . . . . . . . . . . . selbstreferenzielle Definition!
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Random Surfer Modell„Gute Webseiten werden von guten Webseiten erwähnt.“
Relevanz und QualitätSeitenbewertung = Anfragepassung + Seriositätsmaß
scoreGoogleq (doc) = Relq(doc) + rank(doc)
Worldwide Web als gerichteter GraphAdjazenzmatrix A ∈ {1, 0}T×T mit ast = 1 doci 7→ docj
IrrfahrtmodellDer „Random Surfer“ besucht Webseiten mit W’keit pj und der Politik
pj = (1− β) · 1T
+ β ·∑
i
pi · aij · 1/∑k aik
Die Gleichgewichtsverteilung gehorcht einer Eigenwertaufgabe (λ = 1):
B · p =
((1− β) · 1
T+ β · A
)·p = p = λ · p , aij
def= aij
/ ∑k
aik
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Aufgabenstellung und Zielgrößen
Freitextverarbeitung
Boolesches, Fuzzy- und Vektorraum-Retrieval
Relevanzverstärkung
Latente semantische Indexierung
Binary Independence Retrieval
Google Page Rank
Zusammenfassung
Ziele Freitext Index&RSV Feedback LSI PRP/BIR Pagerank Σ
Zusammenfassung (9)
1. Information Retrieval sucht die semantisch anfragerelevantenDokumente einer Sammlung.
2. Das boolesche Retrieval der DB-Technik verfehlt das ergonomische Zielmangels Reihung der Angebote nach Anfragepassung (RSV).
3. Objektive Gütekriterien für IR sind die Precision/Recall-Kurve (ROC)und summarische Merkmale wie AUC.
4. Moderne Vektorraum-Architekturen überführen Anfragen und Dokumentenach Freitextverarbeitung in eine gemeinsame Repräsentation (Index,z.B. IDF) und ermitteln den RSV aus der Vektorraumdistanz.
5. Von lexikalischem zu semantischem IR gelangen wir mittelsRelevanzverstärkung u/o latenter Indexierung (LSI).
6. Das Binary Independence IR folgt der naiven Bayesentscheidungsregel;deren Annahmen und Einschränkungen lassen sich durch expliziteTermverteilungsmodelle und diskriminative Lerntechniken (CME)abmildern.
7. Nutzerzufriedenheit hängt neben dem RSV auch an der a priori Qualitäteines Dokuments, messbar durch Kriterien wie den Pagerank.