Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

1

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Sprachverarbeitungim Information Retrieval:

Das Stream-Modell-Projekt von

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin

Wang, Jon Wilding

Kursfolien, Karin Haenelt

mit Folien aus:Yu-Wen Pang (2001). Sprachverarbeitung im

Information Retrieval.

2


Das ProjektGegenstand Natural Language Information Retrieval

Team Tomek Strzalkowski1, Louise Guthrie2, Jussi Karlgren3, Jim Leistensnider2, Fang Lin1, Jose Perez-Carballo4, Troy Straszheim3, Jin Wang1, Jon Wilding2

Organisationen 1 GE Corporate Research & Development 2 Lockheed Martin Corporation 3 Department of Computer Science, New York University 4 School of Communication, Information and Library Studies, Rutgers University

Präsentation TREC-5 ( Text Retrieval Evaluation Conference1996)

3


Quellen dieser Kursfolien• Originalartikel

– Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval: TREC-5 Report http://trec.nist.gov/pubs/trec5/papers/ge.ps.gz

– Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/papers/ge8adhoc2.pdf

– Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers

• Kursfolien– Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat

22.01.2001 kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps– Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003).

Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat. 13.01.2003. kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt

4


• mit Hilfe von NLP-Technikdie Leistung des Volltext-Dokument-Retrieval verbessern

• Schwerpunkte– 1991-1996 Verbesserung der Dokument-

repräsentation (Indexierung)– 1996- Query Expansion

Ziele des Projekts

Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 2

5


Inhalt

• Das Stream-Modell

• Stream-Merging

• Short Queries, Long Queries

• Query Expansion

• Retrievalexperimente und Ergebnisse

6



• Stream-Merging


• Query Expansion


7


Ansatz

• Verwendung verschiedender statistischer und sprachverarbeitender Verfahren für robuste Textanalyse

• Zusammenstellung der verwendeten Methoden im „stream model“

8


Verwendete Sprachverarbeitungsmethoden 1

1. Eliminate stopwords: original text words minus certain no-content words are used to index documents.

2. Morphological stemming: we normalize across morphological word variants using a lexicon-based stemmer.• “proliferation”,• “proliferate”,• “proliferating”

3. Phrase extraction: we use various shallow text processing techniques, such as part-of-speech tagging, phrase boundary detection, and word co-occurrence metrics to identify stable strings of words, such as • “joint venture”.

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

9


Verwendete Sprachverarbeitungsmethoden 2

4. Phrase normalization: we identify “head+modifier” pairs in order to normalize across syntactic variants such as

• “weapon proliferation”,• “proliferation of weapons”,• “proliferate weapons”, • into “weapon+proliferate”.

5. Proper names: we identify proper names for indexing, including people names and titles, location names, organization names, etc.

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

10


Das „Stream Modell“

Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo,Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999: 3)

11


Stream Modell

• Stream Indizes: Dokumentrepräsentationen erzeugt mit verschiedenen Methoden der– Dokumentindexierung– Termextraktion– Termgewichtung

• Anfragen (queries) vorverarbeitet mit der streamspezifischen Zusammenstellung von Methoden

• Endergebnis: Zusammenführung (merging) der Dokumentranglisten der einzelnen stream indexes

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3

12


Stream: „Stämme“(stems stream)

• Funktion– ordnet den Textwörtern eine normalisierte Form zu

• Methode– Abtrennung von Suffixen (wie -ing, -s, -ment, -ation)

implementation: implement– Ersetzung von Suffixen durch normalisierte Suffixe

stor+age → stor+e– Kontrolle der erzeugten Grundform mittels eines

Wörterbuchs (gibt es die erzeugte Form als Wort?)

Stream 1: stems

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 125)

13


Stream: „Stämme“(stems stream)

• Wirkung– einfachster aber wirksamster aller streams– erhöht recall– Gefahr: reduziert precision,

• Fehlerquelle– nicht zusammengehörige Wörter werden möglicherweise auf

eine gemeinsame kanonische Form reduziertdirection, directory > direct

Stream 1: stems

14


Stream: „Stämme“

• Beispiel– originaler Text :

The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– Filtern von Stoppwörtern :The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– Stemming:The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

veteran entitle awardmonetary compensate medical assistphysical damage agent orange

Stream 1: stems


15


Stream: Phrasen(simple noun phrase stream)

• Funktionverwendet einfache Nominalphrasen als atomare Indexterme

• Basispart-of-speech tagging, stemming

• Identifikation der Phrasen:– reguläre Ausdrücke über part-of-speech tags– Länge (beliebig) limitiert auf 7 Wörter

Stream 2: phrases

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 128/129)

16


Stream: Phrasen(simple noun phrase stream)

• verwendete Muster– Sequenz von Modifikatoren (vbn|vbg|jj) gefolgt von

mindestens einem Nomen“cryonic suspend”, “air traffic control system”

– Nomina als Modifikatoren von Nomina,“u.s. citizen”, “china trade”

– Nomina (können ‘&’ enthalten)“warren commission”, “national air traffic controller”

Stream 2: phrases


17


Stream: Namen(name stream)

• Funktion– verwendet Namen als atomare Indexterme– Namen nicht nach Typen unterschieden (Personen, Orte, ..)

• Formen von Namen– „United States of America“, „South Africa“ (nicht zerlegen)– „Bill Clinton, President Bill Clinton“ (Varianten)

• Identifikation der Namen:– Standardverfahren: Wörter mit großem Anfangsbuchstaben

im Englischen– hier verwendetes Verfahren: scanning of successive words

labeled as proper names by the tagger (“np” and “nps” tags).

Stream 3: name stream


Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 8

18


Stream: Namen(name stream)

• Beispiele– right+wing+christian+fundamentalism– u.s+constitution– gun+control+legislation– national+railroad+transportation+corporation– superfund+hazardous+waste+cleanup+programme– u.s+government– united+states– exxon+valdez– dow_corning+corporation– chairman+julius+d+winer– new+york– wall+street+journal

Stream 3: name stream


19


Stream: Head+Modifier-Paare(Head+Modifier pairs stream)

• Dokumente repräsentiert durch H+M-Paare[head: retrieve] + [modifier: information]:

• information retrieval• retrieval of information• retrieve more information• information that is retrieved

• Vorstellung: semantisch– Entdeckung von „Konzepten“– Erfassen semantischer Gleichheit verschiedener

Oberflächenformen von Ausdrücken• Realisierung: rein syntaktisch

– Ermittlung von Wortpaaren durch syntaktische Analyse

Stream 4: H+M Paare


20


Head+Modifier-Paare(Head+Modifier pairs stream)

• erzeugt in 5 aufeinanderfolgenden Schritten

1. Part-of-speech (Wortart) tagging

2. Lexikon-basierte Normalisierung von Wörtern

3. syntaktische Analyse mit Tagged Text Parser

4. Extraktion von Head+Modifier Paaren

5. Korpus-basierte Disambiguierung von langen Nominalphrasen

Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 9

Stream 4: H+M Paare

21


Schritt 1: Part-of-speech tagging

• Funktion– Zuordnung von morpho-syntaktischen Kategorien zu den

Wörtern– Auflösung kategorialer lexikalischer Ambiguität

• they associate ball with sport• associate partner

• Wirkung– genaueres stemming– Basis für Phrasenbegrenzung– Disambiguierung für nachfolgenden Parser

• verwendete Systeme– Brill tagger– BBN POST-tagger

Stream 4: H+M Paare: Schritt 1


22


Schritt 2: Normalisierung von Wörtern (stemming)

• Funktion– implementation → implement– stores → stor+e– stor+age → stor+e

s. Stream 2: stemming


23


Schritt 3: Syntaktische Analyse mit Tagged Text Parser (TTP)

• Funktion – feinere Zusammenhänge zwischen Wörtern und Phrasen erkennen

• Eingabe– tagged text (d.h. disambiguierte Kategorien)

– Linguistic String Grammar mit 400 Produktionen

• Ausgabe– Syntax-Bäume der Sätze

• Strategie– timer: begrenzt die Zeit für die Analyse eines Satzes

– „skip-and-fit“-Modus (bei Zeitüberschreitung)• approximative Analyse• partielle Zuordnung zur Satzstruktur mit top-down Prädiktionen


24


Schritt 4: Extraktion von Head+Modifier Paaren

• Ausgabe des Parsers: Prädikat-Argument-Strukturen

• Extraktion folgender Typen

1. a head noun and its left adjective or noun adjunct[h: example, m: good], [h: example, m: main]

2. a head noun and the head of its right adjunctawarding of monetary compensation[h: award, m: compensate]

3. the main verb of a clause and the head of its object phrase, [h: sell, m: weapon]

4. the head of the subject phrase and the main verbEurope + produce



25



• extrahierte Typen repräsentieren häufige syntaktische Varianten eines Konzepts

• Fehlerbeispiel“former Soviet president” > “former president” und

“Soviet president”



26


damage][cause+


• Beispiel– originaler Text :

The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– Stemming:The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– H+M PaareThe issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

veteran entitle awardmonetary compensate medical assistphysical damage agent orange


veteran][entitle +monetary][compensate+ medical]

[damage+ agent orange[assist +

[award+ assist][award+ compensate]

physical]

27



• Beispiel– originaler Text : The issue is veterans entitlement, or the

awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– head+modifier Paare : damage+physical, cause+damage, award+assist, award+compensate, compensate+monetary, assist+medical, entitle+veteran



28


Schritt 5: Disambiguierung langer Nominalphrasen

• Funktionzerlegt lange Nominalphrasen in sinnvolle H+M Paare

• Beispiel– natural language processing

• natural language• language processing

– insider trading case• insider trading• ? trading + case



29


Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren

• Disambiguierung erfolgt in zwei Phasen• Phase 1

– Generierung nicht-ambiger H+M Paare– Übergabe strukturell ambiger Nominalphrasen an Phase 2

• strukturell ambige Nominalphrase: Nominalphrase aus drei und mehr Wörtern, bestehend aus mindestens zwei Substantiven

– Sammlung der Verteilungsstatistik der zusammengesetzten Terme (z.B. `insider trading´ häufiger als `trading case´)

• Phase 2– Generierung von H+M Paaren aus den ambigen

Nominalphrasen nach der Verteilungsstatistik

-Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6



30


Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren

• Verteilungsbeispiel: Ketten von 2 Substantiven– viele nicht-ambige Vorkommen von “insider trading”,– wenige nicht-ambige Vorkommen von “trading case”.

• Verteilungsbeispiel: Ketten von mehreren Substantiven– viele Fälle: „insider trading“ bleibt konstant:

“insider trading case”, “insider trading legislation”, etc.,– wenige Fälle: „trading case“ bleibt konstant



31


Weitere Streams

• nicht-normalisierte Wörter• fragment stream: Dokumente zerlegt in Einheiten von 1024

Zeichen und Verwendung dieser Einheiten im Retrieval• locality stream• foreign country tags stream


weitere Streams

32



• Stream-Merging


• Query Expansion


33


Stream Merging• Ergebnisse der einzelnen Streams:

– Listen von Dokumenten, geordnet nach der Reihenfolge der Relevanz

• Gesamtergebnis: Merging– Berechnung der Gesamtrelevanz eines Dokuments aus der

Relevanz der einzelnen Streams (stream merging)• Faktoren, die das finale Ranking beeinflussen

– Dokumentrelevanzwerte der einzelen Streams– Precision der Streams in bestimmten Rankingbereichen– durchschnittliche Precision eines Streams (gemessen am

Trainingscorpus)– Anzahl von Streams, in denen ein Dokument ausgegeben

wird– Relevanz eines Dokuments in den einzelnen Streams

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 133),Yu-Wen Pang (2001: 17)

34


i

dnstreamsdiscoreiAdfinalscore )(9.0())(()()(

Berechnung des Mergingsd : Dokument d

i : stream i

A(i) : Koeffizient für stream i

score(i)(d) : Relevanz des Dokuments dzur Query in Stream i

nstreams(d) : Anzahl von Streams, in denen Dokument dausgegeben wird

(beste Formel für das System PRISE) Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 18

35



• Stream-Merging


• Query Expansion


36


Retrieval: TREC-Queries

• Long Query: verwendet alle Felder– <top>

<num> Number: 252<title> Topic: Combating Alien Smuggling<desc> Description: What steps are being taken by governmental or even private entities world-wide to stop the smuggling of aliens.<narr> Narrative:To be relevant, a document must describe an effort being made (other than routine border patrols) in any country of the world to prevent the illegal penetration of aliens across borders.</top>

• Short Query: verwendet nur das description fieldTomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 15

37



• Stream-Merging


• Query Expansion


38


Query Expansion• Beobachtung: Benutzerquery

– approximiert Informationsbedarf– meistens nur semantisch oder begrifflich den relevanten

Dokumenten ähnlich • Ziel der Query Expansion

Query soll den relevanten Dokumenten inhaltlich und strukturell ähnlicher werden

• Methoden der Query Expansion– Term-Expansion– Volltext-Expansion

Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 21

39


Retrieval mit originaler Query

mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind

Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt.

Gewichtungen der Terme in der Query werden neu berechnet.

Retrieval mit der bearbeiteten Query


Term-ExpansionTerm-Expansion

40


In Top N Dokumente die zur Query relevanten Abschnitte aussuchen

Retrieval mit originaler Query

Indexierung für die expandierte Query

ganze Abschnitte zur Query hinzufügen

Retrieval mit der expandierter Query


Volltext-Expansion(neuer Vorschlag des Projekts)

41



• Stream-Merging


• Query Expansion


42


Retrieval: TREC-5 Ergebnisse

genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases.genlp2: autom. single-stream run (stems and bigrams) with foreign country tagging.genlp3: automatic, single-stream run with automatic full-text query expansion.genlp4: manual, multi-stream run with manual full-text query expansion.Baselines: SMART baseline with stems and bigrams sbase1: “short” queriessbase2: “long” queriessbase3: full-text expanded queries


Precision SBASE1 short

SBASE2 long

GENLP1 GENLP2 GENLP3 SBASE3 expanded

GENLP4

11 pt. average % change

0.1478

.2078

+41.0

0.1773

+20.0

0.2083

+41.0

0.2220

+50.0

0.2992

+102.0

0.3176

+115.0 R-Precision %change

0.1609 0.2176 +35.0

0.1776 +10.0

0.2121 +32.0

0.2242 +39.0

0.3074 +91.0

0.3091 +92.0

At 10 docs %change

0.1578 0.2044 +30.0

0.2044 +30.0

0.2044 +30.0

0.2089 +32.0

0.3089 +96.0

0.3156 +100.0

At 100 docs %change

0.0544 0.0696 +28.0

0.0664 +22.0

0.0713 +31.0

0.0709 +30.0

0.0929 +71.0

0.0998 +83.0

R-precision is the precision at R where R is the number of relevant documents in the collection for the query.An R-precision of 1.0 is equivalent to perfect relevance ranking and perfect recall. (Mahesh)

43


Retrieval: Gewichtungsmethoden

Stream 1: stems

Abk. für Gewichtungsmethoden Term-

frequenz idf Normali-

sierung log-tf l straight-tf

n

s idf t no-idf n cosine c no n

Dokument.Query lnc.ltc lnc.ntc

44


Retrieval: Verwendete Gewichtungsmethoden


Tomek Strzalkowski, Fang Lin,Jin Wang, Jose Perez-Carballo (1999: 133)

STREAM Gewichtungsschema Stems lnc.ntn Phrases ltn.ntn H+M Pairs ltn.nsn Names ltn.ntn

• Problem: konventionelle Ranking-Formeln sind nicht nach der Verteilung der Einheiten in den durch streams erweiterten Indizes entworfen

• „The selection of one scheme over another can have dramatic effect on system‘s performance“

45


Retrieval: Ergebnisse der einzelnen Streams

• durchschnittliche precision an den 11 Standardmesspunkten


STREAM genlp1 genlp4 Stems 0.1682 0.2626 Phrase 0.1233 0.2365 H+M Pairs 0.0755 0.2040 Names 0.0844 0.0608

genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases.genlp4: manual, multi-stream run with manual full-text query expansion.

46


Retrieval: Verbesserungen mit Streams gegenüber der Baseline


Which Streams MERGED

genlp1 %change

genlp4 %change

all4 +5.4 +20.94 Stems+Phrases+Pairs +6.6 +22.85 Stems+Phrases +7.0 +24.94 Stems+Pairs +2.2 +15.27 Stems+Names +0.6 +2.59

genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases.genlp4: manual, multi-stream run with manual full-text query expansion.

47


Retrieval: Ergebnisse des Experiments

• streams: geringe Verbesserungen• query expansion: stärkere Verbesserungen

48


Retrieval:Stabilität der Ergebnisse?

• Stabilität der ermittelten Werte bei wechselnden Corpora und Anfragen bleibt zu überprüfen

• Einflussfaktoren bleiben zu ermitteln– Textlänge,Textsorte, Stil– Themen– ....

• H+M-Paare sind eine erste Annäherung an Konzepte (auf syntaktischer Basis)

• weitere Verbesserungen:– echte Prädikat-Argumentstrukturen (erfordert corpusbasierte

Semantik-Analyse und sehr großen Datenmengen zur Ermittlung statistisch relevanter Vorkommen)

– echte Textinhaltsanalyse (Themen, textübergreifende Themenentwicklung)

– linguistisch motivierte Systeminteraktion

49


Literatur• Kavi Mahesh. Text Retrieval Quality: A Primer

http://www.oracle.com/technology/products/text/htdocs/imt_quality.htm • Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003).

Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat. 13.01.2003. kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt

• Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat 22.01.2001 kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps

• Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval : TREC-5 Report http://trec.nist.gov/pubs/trec5/papers/ge.ps.gz

• Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/papers/ge8adhoc2.pdf

• Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers

• Tomek Strzalkowski, Peter Scheyen (1996). Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,Kluwer Academic Publishers

Documents

Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt