49
1 Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt von Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding Kursfolien, Karin Haenelt mit Folien aus: Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval.

Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

Embed Size (px)

Citation preview

Page 1: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

1

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Sprachverarbeitungim Information Retrieval:

Das Stream-Modell-Projekt von

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin

Wang, Jon Wilding

Kursfolien, Karin Haenelt

mit Folien aus:Yu-Wen Pang (2001). Sprachverarbeitung im

Information Retrieval.

Page 2: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

2

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Das ProjektGegenstand Natural Language Information Retrieval

Team Tomek Strzalkowski1, Louise Guthrie2, Jussi Karlgren3, Jim Leistensnider2, Fang Lin1, Jose Perez-Carballo4, Troy Straszheim3, Jin Wang1, Jon Wilding2

Organisationen 1 GE Corporate Research & Development 2 Lockheed Martin Corporation 3 Department of Computer Science, New York University 4 School of Communication, Information and Library Studies, Rutgers University

Präsentation TREC-5 ( Text Retrieval Evaluation Conference1996)

Page 3: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

3

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Quellen dieser Kursfolien• Originalartikel

– Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval: TREC-5 Report http://trec.nist.gov/pubs/trec5/papers/ge.ps.gz

– Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/papers/ge8adhoc2.pdf

– Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers

• Kursfolien– Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat

22.01.2001 kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps– Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003).

Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat. 13.01.2003. kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt

Page 4: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

4

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

• mit Hilfe von NLP-Technikdie Leistung des Volltext-Dokument-Retrieval verbessern

• Schwerpunkte– 1991-1996 Verbesserung der Dokument-

repräsentation (Indexierung)– 1996- Query Expansion

Ziele des Projekts

Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 2

Page 5: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

5

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Inhalt

• Das Stream-Modell

• Stream-Merging

• Short Queries, Long Queries

• Query Expansion

• Retrievalexperimente und Ergebnisse

Page 6: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

6

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

• Das Stream-Modell

• Stream-Merging

• Short Queries, Long Queries

• Query Expansion

• Retrievalexperimente und Ergebnisse

Page 7: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

7

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Ansatz

• Verwendung verschiedender statistischer und sprachverarbeitender Verfahren für robuste Textanalyse

• Zusammenstellung der verwendeten Methoden im „stream model“

Page 8: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

8

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Verwendete Sprachverarbeitungsmethoden 1

1. Eliminate stopwords: original text words minus certain no-content words are used to index documents.

2. Morphological stemming: we normalize across morphological word variants using a lexicon-based stemmer.• “proliferation”,• “proliferate”,• “proliferating”

3. Phrase extraction: we use various shallow text processing techniques, such as part-of-speech tagging, phrase boundary detection, and word co-occurrence metrics to identify stable strings of words, such as • “joint venture”.

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

Page 9: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

9

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Verwendete Sprachverarbeitungsmethoden 2

4. Phrase normalization: we identify “head+modifier” pairs in order to normalize across syntactic variants such as

• “weapon proliferation”,• “proliferation of weapons”,• “proliferate weapons”, • into “weapon+proliferate”.

5. Proper names: we identify proper names for indexing, including people names and titles, location names, organization names, etc.

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3/4

Page 10: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

10

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Das „Stream Modell“

Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo,Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999: 3)

Page 11: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

11

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream Modell

• Stream Indizes: Dokumentrepräsentationen erzeugt mit verschiedenen Methoden der– Dokumentindexierung– Termextraktion– Termgewichtung

• Anfragen (queries) vorverarbeitet mit der streamspezifischen Zusammenstellung von Methoden

• Endergebnis: Zusammenführung (merging) der Dokumentranglisten der einzelnen stream indexes

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 3

Page 12: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

12

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: „Stämme“(stems stream)

• Funktion– ordnet den Textwörtern eine normalisierte Form zu

• Methode– Abtrennung von Suffixen (wie -ing, -s, -ment, -ation)

implementation: implement– Ersetzung von Suffixen durch normalisierte Suffixe

stor+age → stor+e– Kontrolle der erzeugten Grundform mittels eines

Wörterbuchs (gibt es die erzeugte Form als Wort?)

Stream 1: stems

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 125)

Page 13: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

13

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: „Stämme“(stems stream)

• Wirkung– einfachster aber wirksamster aller streams– erhöht recall– Gefahr: reduziert precision,

• Fehlerquelle– nicht zusammengehörige Wörter werden möglicherweise auf

eine gemeinsame kanonische Form reduziertdirection, directory > direct

Stream 1: stems

Page 14: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

14

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: „Stämme“

• Beispiel– originaler Text :

The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– Filtern von Stoppwörtern :The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– Stemming:The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

veteran entitle awardmonetary compensate medical assistphysical damage agent orange

Stream 1: stems

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 125)

Page 15: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

15

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: Phrasen(simple noun phrase stream)

• Funktionverwendet einfache Nominalphrasen als atomare Indexterme

• Basispart-of-speech tagging, stemming

• Identifikation der Phrasen:– reguläre Ausdrücke über part-of-speech tags– Länge (beliebig) limitiert auf 7 Wörter

Stream 2: phrases

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 128/129)

Page 16: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

16

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: Phrasen(simple noun phrase stream)

• verwendete Muster– Sequenz von Modifikatoren (vbn|vbg|jj) gefolgt von

mindestens einem Nomen“cryonic suspend”, “air traffic control system”

– Nomina als Modifikatoren von Nomina,“u.s. citizen”, “china trade”

– Nomina (können ‘&’ enthalten)“warren commission”, “national air traffic controller”

Stream 2: phrases

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 129)

Page 17: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

17

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: Namen(name stream)

• Funktion– verwendet Namen als atomare Indexterme– Namen nicht nach Typen unterschieden (Personen, Orte, ..)

• Formen von Namen– „United States of America“, „South Africa“ (nicht zerlegen)– „Bill Clinton, President Bill Clinton“ (Varianten)

• Identifikation der Namen:– Standardverfahren: Wörter mit großem Anfangsbuchstaben

im Englischen– hier verwendetes Verfahren: scanning of successive words

labeled as proper names by the tagger (“np” and “nps” tags).

Stream 3: name stream

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7

Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 8

Page 18: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

18

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: Namen(name stream)

• Beispiele– right+wing+christian+fundamentalism– u.s+constitution– gun+control+legislation– national+railroad+transportation+corporation– superfund+hazardous+waste+cleanup+programme– u.s+government– united+states– exxon+valdez– dow_corning+corporation– chairman+julius+d+winer– new+york– wall+street+journal

Stream 3: name stream

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 7

Page 19: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

19

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream: Head+Modifier-Paare(Head+Modifier pairs stream)

• Dokumente repräsentiert durch H+M-Paare[head: retrieve] + [modifier: information]:

• information retrieval• retrieval of information• retrieve more information• information that is retrieved

• Vorstellung: semantisch– Entdeckung von „Konzepten“– Erfassen semantischer Gleichheit verschiedener

Oberflächenformen von Ausdrücken• Realisierung: rein syntaktisch

– Ermittlung von Wortpaaren durch syntaktische Analyse

Stream 4: H+M Paare

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 123)

Page 20: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

20

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Head+Modifier-Paare(Head+Modifier pairs stream)

• erzeugt in 5 aufeinanderfolgenden Schritten

1. Part-of-speech (Wortart) tagging

2. Lexikon-basierte Normalisierung von Wörtern

3. syntaktische Analyse mit Tagged Text Parser

4. Extraktion von Head+Modifier Paaren

5. Korpus-basierte Disambiguierung von langen Nominalphrasen

Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 9

Stream 4: H+M Paare

Page 21: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

21

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 1: Part-of-speech tagging

• Funktion– Zuordnung von morpho-syntaktischen Kategorien zu den

Wörtern– Auflösung kategorialer lexikalischer Ambiguität

• they associate ball with sport• associate partner

• Wirkung– genaueres stemming– Basis für Phrasenbegrenzung– Disambiguierung für nachfolgenden Parser

• verwendete Systeme– Brill tagger– BBN POST-tagger

Stream 4: H+M Paare: Schritt 1

Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 10

Page 22: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

22

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 2: Normalisierung von Wörtern (stemming)

• Funktion– implementation → implement– stores → stor+e– stor+age → stor+e

s. Stream 2: stemming

Stream 4: H+M Paare: Schritt 2

Page 23: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

23

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 3: Syntaktische Analyse mit Tagged Text Parser (TTP)

• Funktion – feinere Zusammenhänge zwischen Wörtern und Phrasen erkennen

• Eingabe– tagged text (d.h. disambiguierte Kategorien)

– Linguistic String Grammar mit 400 Produktionen

• Ausgabe– Syntax-Bäume der Sätze

• Strategie– timer: begrenzt die Zeit für die Analyse eines Satzes

– „skip-and-fit“-Modus (bei Zeitüberschreitung)• approximative Analyse• partielle Zuordnung zur Satzstruktur mit top-down Prädiktionen

Stream 4: H+M Paare: Schritt 3

Page 24: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

24

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 4: Extraktion von Head+Modifier Paaren

• Ausgabe des Parsers: Prädikat-Argument-Strukturen

• Extraktion folgender Typen

1. a head noun and its left adjective or noun adjunct[h: example, m: good], [h: example, m: main]

2. a head noun and the head of its right adjunctawarding of monetary compensation[h: award, m: compensate]

3. the main verb of a clause and the head of its object phrase, [h: sell, m: weapon]

4. the head of the subject phrase and the main verbEurope + produce

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Stream 4: H+M Paare: Schritt 4

Page 25: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

25

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 4: Extraktion von Head+Modifier Paaren

• extrahierte Typen repräsentieren häufige syntaktische Varianten eines Konzepts

• Fehlerbeispiel“former Soviet president” > “former president” und

“Soviet president”

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Stream 4: H+M Paare: Schritt 4

Page 26: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

26

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

damage][cause+

Schritt 4: Extraktion von Head+Modifier Paaren

• Beispiel– originaler Text :

The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– Stemming:The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– H+M PaareThe issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

veteran entitle awardmonetary compensate medical assistphysical damage agent orange

Stream 4: H+M Paare: Schritt 4

veteran][entitle +monetary][compensate+ medical]

[damage+ agent orange[assist +

[award+ assist][award+ compensate]

physical]

Page 27: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

27

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 4: Extraktion von Head+Modifier Paaren

• Beispiel– originaler Text : The issue is veterans entitlement, or the

awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.

– head+modifier Paare : damage+physical, cause+damage, award+assist, award+compensate, compensate+monetary, assist+medical, entitle+veteran

Stream 4: H+M Paare: Schritt 4

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 125)

Page 28: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

28

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 5: Disambiguierung langer Nominalphrasen

• Funktionzerlegt lange Nominalphrasen in sinnvolle H+M Paare

• Beispiel– natural language processing

• natural language• language processing

– insider trading case• insider trading• ? trading + case

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Stream 4: H+M Paare: Schritt 5

Page 29: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

29

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren

• Disambiguierung erfolgt in zwei Phasen• Phase 1

– Generierung nicht-ambiger H+M Paare– Übergabe strukturell ambiger Nominalphrasen an Phase 2

• strukturell ambige Nominalphrase: Nominalphrase aus drei und mehr Wörtern, bestehend aus mindestens zwei Substantiven

– Sammlung der Verteilungsstatistik der zusammengesetzten Terme (z.B. `insider trading´ häufiger als `trading case´)

• Phase 2– Generierung von H+M Paaren aus den ambigen

Nominalphrasen nach der Verteilungsstatistik

-Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 11

Stream 4: H+M Paare: Schritt 5

Page 30: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

30

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Schritt 5: Disambiguierung langer Nominalphrasen: Verfahren

• Verteilungsbeispiel: Ketten von 2 Substantiven– viele nicht-ambige Vorkommen von “insider trading”,– wenige nicht-ambige Vorkommen von “trading case”.

• Verteilungsbeispiel: Ketten von mehreren Substantiven– viele Fälle: „insider trading“ bleibt konstant:

“insider trading case”, “insider trading legislation”, etc.,– wenige Fälle: „trading case“ bleibt konstant

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 6

Stream 4: H+M Paare: Schritt 5

Page 31: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

31

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Weitere Streams

• nicht-normalisierte Wörter• fragment stream: Dokumente zerlegt in Einheiten von 1024

Zeichen und Verwendung dieser Einheiten im Retrieval• locality stream• foreign country tags stream

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 8

weitere Streams

Page 32: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

32

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

• Das Stream-Modell

• Stream-Merging

• Short Queries, Long Queries

• Query Expansion

• Retrievalexperimente und Ergebnisse

Page 33: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

33

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Stream Merging• Ergebnisse der einzelnen Streams:

– Listen von Dokumenten, geordnet nach der Reihenfolge der Relevanz

• Gesamtergebnis: Merging– Berechnung der Gesamtrelevanz eines Dokuments aus der

Relevanz der einzelnen Streams (stream merging)• Faktoren, die das finale Ranking beeinflussen

– Dokumentrelevanzwerte der einzelen Streams– Precision der Streams in bestimmten Rankingbereichen– durchschnittliche Precision eines Streams (gemessen am

Trainingscorpus)– Anzahl von Streams, in denen ein Dokument ausgegeben

wird– Relevanz eines Dokuments in den einzelnen Streams

Tomek Strzalkowski, Fang Lin, Jin Wang,Jose Perez-Carballo,(1999: 133),Yu-Wen Pang (2001: 17)

Page 34: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

34

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

i

dnstreamsdiscoreiAdfinalscore )(9.0())(()()(

Berechnung des Mergingsd : Dokument d

i : stream i

A(i) : Koeffizient für stream i

score(i)(d) : Relevanz des Dokuments dzur Query in Stream i

nstreams(d) : Anzahl von Streams, in denen Dokument dausgegeben wird

(beste Formel für das System PRISE) Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 18

Page 35: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

35

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

• Das Stream-Modell

• Stream-Merging

• Short Queries, Long Queries

• Query Expansion

• Retrievalexperimente und Ergebnisse

Page 36: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

36

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval: TREC-Queries

• Long Query: verwendet alle Felder– <top>

<num> Number: 252<title> Topic: Combating Alien Smuggling<desc> Description: What steps are being taken by governmental or even private entities world-wide to stop the smuggling of aliens.<narr> Narrative:To be relevant, a document must describe an effort being made (other than routine border patrols) in any country of the world to prevent the illegal penetration of aliens across borders.</top>

• Short Query: verwendet nur das description fieldTomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 15

Page 37: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

37

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

• Das Stream-Modell

• Stream-Merging

• Short Queries, Long Queries

• Query Expansion

• Retrievalexperimente und Ergebnisse

Page 38: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

38

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Query Expansion• Beobachtung: Benutzerquery

– approximiert Informationsbedarf– meistens nur semantisch oder begrifflich den relevanten

Dokumenten ähnlich • Ziel der Query Expansion

Query soll den relevanten Dokumenten inhaltlich und strukturell ähnlicher werden

• Methoden der Query Expansion– Term-Expansion– Volltext-Expansion

Folie nach: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 21

Page 39: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

39

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval mit originaler Query

mit Hilfe `Relevance-Feedback´ beurteilen, ob die ausgegebenen Dokumente relevant sind

Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt.

Gewichtungen der Terme in der Query werden neu berechnet.

Retrieval mit der bearbeiteten Query

Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 22

Term-ExpansionTerm-Expansion

Page 40: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

40

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

In Top N Dokumente die zur Query relevanten Abschnitte aussuchen

Retrieval mit originaler Query

Indexierung für die expandierte Query

ganze Abschnitte zur Query hinzufügen

Retrieval mit der expandierter Query

Folie übernommen von: Yu-Wen Pang, Verarbeitung natürlicher Sprache im IR, Folie 23

Volltext-Expansion(neuer Vorschlag des Projekts)

Page 41: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

41

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

• Das Stream-Modell

• Stream-Merging

• Short Queries, Long Queries

• Query Expansion

• Retrievalexperimente und Ergebnisse

Page 42: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

42

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval: TREC-5 Ergebnisse

genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases.genlp2: autom. single-stream run (stems and bigrams) with foreign country tagging.genlp3: automatic, single-stream run with automatic full-text query expansion.genlp4: manual, multi-stream run with manual full-text query expansion.Baselines: SMART baseline with stems and bigrams sbase1: “short” queriessbase2: “long” queriessbase3: full-text expanded queries

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

Precision SBASE1 short

SBASE2 long

GENLP1 GENLP2 GENLP3 SBASE3 expanded

GENLP4

11 pt. average % change

0.1478

.2078

+41.0

0.1773

+20.0

0.2083

+41.0

0.2220

+50.0

0.2992

+102.0

0.3176

+115.0 R-Precision %change

0.1609 0.2176 +35.0

0.1776 +10.0

0.2121 +32.0

0.2242 +39.0

0.3074 +91.0

0.3091 +92.0

At 10 docs %change

0.1578 0.2044 +30.0

0.2044 +30.0

0.2044 +30.0

0.2089 +32.0

0.3089 +96.0

0.3156 +100.0

At 100 docs %change

0.0544 0.0696 +28.0

0.0664 +22.0

0.0713 +31.0

0.0709 +30.0

0.0929 +71.0

0.0998 +83.0

R-precision is the precision at R where R is the number of relevant documents in the collection for the query.An R-precision of 1.0 is equivalent to perfect relevance ranking and perfect recall. (Mahesh)

Page 43: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

43

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval: Gewichtungsmethoden

Stream 1: stems

Abk. für Gewichtungsmethoden Term-

frequenz idf Normali-

sierung log-tf l straight-tf

n

s idf t no-idf n cosine c no n

Dokument.Query lnc.ltc lnc.ntc

Page 44: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

44

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval: Verwendete Gewichtungsmethoden

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

Tomek Strzalkowski, Fang Lin,Jin Wang, Jose Perez-Carballo (1999: 133)

STREAM Gewichtungsschema Stems lnc.ntn Phrases ltn.ntn H+M Pairs ltn.nsn Names ltn.ntn

• Problem: konventionelle Ranking-Formeln sind nicht nach der Verteilung der Einheiten in den durch streams erweiterten Indizes entworfen

• „The selection of one scheme over another can have dramatic effect on system‘s performance“

Page 45: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

45

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval: Ergebnisse der einzelnen Streams

• durchschnittliche precision an den 11 Standardmesspunkten

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 19

STREAM genlp1 genlp4 Stems 0.1682 0.2626 Phrase 0.1233 0.2365 H+M Pairs 0.0755 0.2040 Names 0.0844 0.0608

genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases.genlp4: manual, multi-stream run with manual full-text query expansion.

Page 46: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

46

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval: Verbesserungen mit Streams gegenüber der Baseline

Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). 20

Which Streams MERGED

genlp1 %change

genlp4 %change

all4 +5.4 +20.94 Stems+Phrases+Pairs +6.6 +22.85 Stems+Phrases +7.0 +24.94 Stems+Pairs +2.2 +15.27 Stems+Names +0.6 +2.59

genlp1: autom. multi-stream run with foreign country tagging + hyphened phrases.genlp4: manual, multi-stream run with manual full-text query expansion.

Page 47: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

47

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval: Ergebnisse des Experiments

• streams: geringe Verbesserungen• query expansion: stärkere Verbesserungen

Page 48: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

48

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Retrieval:Stabilität der Ergebnisse?

• Stabilität der ermittelten Werte bei wechselnden Corpora und Anfragen bleibt zu überprüfen

• Einflussfaktoren bleiben zu ermitteln– Textlänge,Textsorte, Stil– Themen– ....

• H+M-Paare sind eine erste Annäherung an Konzepte (auf syntaktischer Basis)

• weitere Verbesserungen:– echte Prädikat-Argumentstrukturen (erfordert corpusbasierte

Semantik-Analyse und sehr großen Datenmengen zur Ermittlung statistisch relevanter Vorkommen)

– echte Textinhaltsanalyse (Themen, textübergreifende Themenentwicklung)

– linguistisch motivierte Systeminteraktion

Page 49: Karin Haenelt, 17.12.2006 ( 1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell 1 Sprachverarbeitung im Information Retrieval: Das Stream-Modell-Projekt

49

Karin Haenelt, 17.12.2006 (1 09.01.2005) Sprachverarbeitung im IR: Stream-Modell

Literatur• Kavi Mahesh. Text Retrieval Quality: A Primer

http://www.oracle.com/technology/products/text/htdocs/imt_quality.htm • Vanessa Micelli, Christian Pretzsch, Delphine Vennin (2003).

Sprachverarbeitungsmethoden im Information Retrieval. Seminarreferat. 13.01.2003. kontext.fraunhofer.de/haenelt/kurs/Referate/Micelli_Pretzsch_Vennin_WS02/SprachverarbeitungInIR.htm, | pdf | ppt

• Yu-Wen Pang (2001). Sprachverarbeitung im Information Retrieval. Seminarreferat 22.01.2001 kontext.fraunhofer.de/haenelt/kurs/Referate/Pang/pang.htm | ppt | ps

• Tomek Strzalkowski, Louise Guthrie, Jussi Karlgren, Jim Leistensnider, Fang Lin, Jose Perez-Carballo, Troy Straszheim, Jin Wang, Jon Wilding (1996). Natural Language Information Retrieval : TREC-5 Report http://trec.nist.gov/pubs/trec5/papers/ge.ps.gz

• Tomek Strzalkowski, Jussi Karlgren, Jose Perez-Carballo, Anette Hulth, Pasi Tapanainen, Timo Lahtinen (1999). Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/papers/ge8adhoc2.pdf

• Tomek Strzalkowski, Fang Lin, Jin Wang, Jose Perez-Carballo (1999). Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, Kluwer Academic Publishers

• Tomek Strzalkowski, Peter Scheyen (1996). Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,Kluwer Academic Publishers