View
108
Download
0
Category
Preview:
Citation preview
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
1
Verarbeitung natürlicher Sprache im IR-- vorgestellt am Beispiel eines Projekts unter der Leitung von General Electric (GE) Research
Yu-wen Pang
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
2
Hauptaufgabenstellung
des Projekts mit Hilfe NLP-Technik die Leistung
von Volltext-Dokument-Retrieval verbessern
1991-1996 : Verbesserung der Dokument-
repräsentation (Indexierung) 1996- jetzt : Query Expansion
Schwerpunkt
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
3
Inhalt Stream-basiertes IR Modell -- Übersicht des Stream-Konzepts
-- Streams
-- Stream Merging
-- Leistung Query Expansion -- Methoden
-- bisheriges Ergebnis Weitere Experimente Andere Ansätze zum NLP im IR
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
4
Übersicht des Stream-Konzepts
text database
Index-1
Index-2
Index-3
Index-4
Search queries
merge
stems
phrases
names
Head+Modifier pairs
match-1
match-4
match-3
match-2
(Tomek Strzalkowski u. a. 1999, S122)
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
5
Streams Was sind Streams?
Indizes, die mit verschiedenen Methoden als Dokumentrepräsentation erzeugt werden
4 verwendete streams
- Wortstämme (stems stream)
- einfache Nominalphrasen
(simple noun phrase stream )
- Namen (name stream)
- Head+Modifier Paare
(H+M pairs stream)
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
6
Wortstämme (stems stream)
einfachster, zur Zeit erfolgreichster aller streams besteht aus Einzelwörtern in Wortstamm-Form Probleme
-- Mehrwortbegriffe
(`joint venture´ Terme: `joint´ / `venture´)
-- lexikalische Ambiguität unerwünschte
Treffer
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
7
Einfache Nominalphrasen (simple noun phrase stream)
Zweck : Erfassung von Mehrwort-Termen Extraktion von 3 Arten von Nominalphrasen
Modifikation(adj,Partizip)+Substantiv(e)
z.B.: air traffic control system
Eigenname + Substantiv
z.B.: U.S. citizen, China trade
Eigenname(proper noun)
z.B.: warren commission
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
8
Namen (name stream) Eigennamen von Personen, Orten, Ereignissen,
Organisationen usw. 2 Prinzipien -- aus mehreren Wörtern zusammengesetzten Name als
eine Einheit, nicht zerlegen
-- Varianten desselben Name
In der verwendeten Datenbank (TREC-5, 1996) sind 8% der generierten Terme zusammengesetzte Namen.
z.B : South Africa= South+Africa
z.B. : President Bill Clinton = President Clinton
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
9
Head+Modifier Paare (H+M pairs stream)
erzeugt in 5 aufeinanderfolgenden Schritten
1. Part-of-speech (Wortart) tagging
2. Lexikon-basierte Normalisierung von Wörtern
3. syntaktische Analyse mit Tagged Text Parser
4. Extraktion von Head+Modifier Paaren
5. Korpus-basierte Disambiguierung von langen Nominalphrasen
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
10
Schritt 1 : Part-of-speech tagging
Funktion
lexikalische Ambiguität auflösen Wirkung
-- genaueres Stemming
-- Basis für Phrasenbegrenzung
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
11
Schritt 2 : Normalisierung von Wörtern
In dem Projekt wird ein Suffix Trimmer verwendet. Funktion -- reduziert flektierte Wörter auf den Wortstamm wie im
Wörterbuch angegeben
-- wandelt nominalisierte Verben (z.B.: implementation,
storage) in Stammform (implement, store) um Beispieloriginaler Text : The issue is veterans entitlement, or the
awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.
stemmed : veteran entitle award monetary compensate medical assist physical damage agent orange
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
12
Schritt 3 : Syntaktische Analyse mit Tagged Text Parser (TTP)
Funktion : Phrasen und deren Beziehung erzeugen
TTP
-- ein schneller und robuster Parser für natürliche
Sprache (für einen Satz unter 1 Sekunde)
-- eine wichtige Strategie vom TTP: „skip-and-fit“
Nach der zugeteilten Zeit wird das problematische Fragment übersprungen. Eine approximative Analyse wird erzeugt. Der Parser setzt mit der nächsten Phrase fort. Das übersprungene Fragment wird später mit einem einfachen Phrasenparser analysiert und an der Hauptstruktur angebunden.
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
13
Schritt 4 : head+modifier PaareExtraktion (aus TTP parse tree)
4 Paartypen werden in Betracht gezogen : 1. Kopf des Substantivs+linke adj/noun Adjunkte
2. Kopf des Substantivs+Kopf rechter Adjunkte
3. Hauptverb+Kopf seiner Objektphrase
4. Kopf des Subjekts+Hauptverb Beispieloriginaler Text : The issue is veterans entitlement, or the
awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.
head+modifier Paare : damage+physical, cause+damage, award+compensate, award+assist, compensate+monetary, assist+medical, entitle+veteran
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
14
Schritt 5 : Disambiguierung der langen Nominalphrasen
Funktion
zerlegt lange Nominalphrasen in sinnvolle H+M Paare
Beispiel : `insider trading case´
`trading+insider´ sinnvoller als `case+trading´.
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
15
Verfahren der Disambiguierung
Phase 1-- Die nicht-ambigen Paare werden generiert.
-- Die strukturell ambigen Nominalphrasen (=Nominalphrasen bestehend aus mehr als 2 Wörter und mindestens 2 Wörter sind Substantive) werden zur Phase 2 verschoben.
-- Die Verteilungsstatistik der zusammengesetzten Terme wird gesammelt. (z.B. `insider trading´ mehr als `trading case´)
Phase 2-- Die H+M Paare von ambigen Nominalphrasen werden nach
der Statistik generiert.
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
16
Erklärung am Beispiel : lnc.ntn
1. lnc : verwendet bei Dokumenten
ntn : verwendet bei Query
2. lnc : log-tf, nicht-idf, Cosinus-Normalisierung
ntn : straight-tf, idf, nicht-Normalisierung
Termgewichtung in StreamsStream Gewichtungsschema
Stämme lnc.ntn
Phrasen ltn.ntn
H+M Paare ltn.nsn
Namen ltn.ntnIn SMART verwendet
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
17
Stream Merging Was ist Merging (Fusion)? -- ein Prozeß, in dem die Ergebnisse des Rankings
von jedem Stream miteinander verschmolzen werden und ein finales Ranking erzeugt wird
Faktoren, die das finale Ranking beeinflussen
-- Werte eines Dokuments von jedem stream
-- Effizienz jedes Streams
-- Anzahl von Streams, in denen ein bestimmtes
Dokument ausgegeben wird
-- Performance im bestimmten Rankingbereich von
jedem Stream
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
18
Algorithmus des Mergingsd : Dokument d i : stream i
A(i) : Koeffizient für stream i
score(i)(d) : Relevanz des Dokuments d zur Query in Stream i
nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird
*Finalscore(d)= A(i)score(i)(d) (0.9+nstreams(d)/10)
*der beste Algorithmus für PRISE
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
19
Leistungen von Streams Leistungen einzelner Streams (11-pt avg. Prec)
RUNS short queries long queries
Stems 0.1682 0.2626
Phrases 0.1233 0.2365
H+M pairs 0.0755 0.2040
Names 0.0844 0.0608
(Tomek Strzalkowski u. a. 1999, S132)
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
20
Erhöhung der Precision nach Merging der Streams gegenüber reinem stemming
Streams merged short queries long queries % change % changealle streams +5.4 +20.94
stems+Phrases+Pairs +6.6 +22.85
stems+Phrases +7.0 +24.94
stems+Pairs +2.2 +15.27 stems+Names +0.6 +2.59
(Tomek Strzalkowski u. a. 1999, S134)
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
21
Query Expansion Beobachtung -- Query vom Benutzer : meistens nur semantisch
oder begrifflich ähnlich den relevanten Dokumente
was noch nicht gut modelliert werden kann
-- die Formulierung der Query : oft irreführend Ziel der Query Die Query soll den relevanten Dokumente ähnlicher
werden, sowohl inhaltlich als auch strukturell. Methoden -- Term-Expansion
-- Volltext-Expansion
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
22
Term-Expansion Verfahren
Retrieval mit originaler Query
mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind
Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt.
Gewichtungen der Terme in der Query werden neu berechnet.
Retrieval mit der bearbeiteten Query
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
23
Probleme der Term-Expansion
1. Einige wichtige Aspekte, die bezüglich der Query manche Dokumente zur Relevanz bringen, sind mit der Term-Expansion nur schwer zu erfassen.(z.B. Textstruktur)
2. Der Expansion mit Relevance-Feedback von den Benutzenden legen einseitige Relevance-Informationen zugrunde.
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
24
Volltext-Expansion (neuer Vorschlag des Projekts) Richtlinien
In Top N Dokumente die zur Query relevanten Abschnitte aussuchen
Retrieval mit originaler Query
Indexierung für die expandierte Query
ganze Abschnitte zur Query hinzufügen
Retrieval mit der expandierter Query
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
25
Ergebnis der Query-Expansion Der beste offizielle Lauf bis 1999
Beschreibung durchschnittl. Precision in Recall von der Query Precision Top 10 Dok. 4728 Dok.
Manuell-unterstützte 0.3346 0.6520 0.3325 Expansion
In diesem Lauf :
1. Indexierung nur mit stem-stream
2. Relevance-Infos vom User mit Zusammenfassung (summary)
3. als `relevant´ beurteilte Zusammenfassungen zum Thema der Query hinzugefügt
(Tomek Strzalkowski u.a. : NLIR TREC-8 Report)
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
26
Weitere Experimente in dem Projekt
Indexierung erweiterter Query mit allen Streams
automatische Expansion mit Textabschnitten vs. Zusammenfassungen
linguistische Verarbeitung
für Indexierung vs. nur für Query
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
27
Andere Ansätze zum NLP in IR-Systeme in TREC CLARIT : NLP verwendet bei
Indexierung
InQuery (von UMass): NLP verwendet bei Verarbeitung von Query
22.01.01 Yu-wen Pang : Verarbeitung natürlicher Sprache im IR
28
Literatur T. Strzalkowski, L. Guthrie, J. Karlgren, J. Leistensnider, F. Lin, J.
Perez-Carballo, T. Straszheim, J. Wang, J. Wilding : Natural Language Information Retrieval : TREC-5 Report http://trec.nist.gov/pubs/trec5/t5_proceedings.html
T. Strzalkowski, J. Karlgren, J. Perez-Carballo, A. Hulth, P. Tapanainen, T. Lahtinen : Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/t8_proceedings.html
T. Strzalkowski, J. Perez-Carballo : Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, 1999 Kluwer Academic Publishers
T. Strzalkowski, P. Scheyen : Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,1996 Kluwer Academic Publishers
Recommended