Upload
genoveva-weisenborn
View
105
Download
0
Embed Size (px)
Citation preview
1
Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora
1. April 2005
GLDV-05 Frühjahrstagung, Bonn
Chris BiemannUniversität Leipzig
Rainer OsswaldFernUniversität Hagen
2
Gliederung
• Motivation: Lexikonerweiterung für semantisches Parsen
• Von Kookkurrenzen zu Adjektivprofilen von Nomen
• Verebungsmechanismus für semantische Eigenschaften
• Ergebnisse: komplexe semantische Klassen
• Ergebnisse: Kombination von binären Einzelmerkmalen
• Diskussion
3
Motivation
• Semantisches Parsen versucht, eine semantische Repräsentation für geparste Sätze zu finden
• Notwendig hierzu sind semantische Eigenschaften von Wörtern
• Diese semantischen Eigenschaften werden manuell in ein Lexikon codiert (zeitaufwändig und teuer)
• Hypothese: Gegeben ein manuell erstelltes Lexikon mittlerer Größe sollte es möglich sein, Klassifizierer zu trainieren, die neue Einträge findne können.
4
HaGenLex: Semantisches Lexikon
semantic class
Größe: 22‘700 Lemmasdavon: 11‘300 Nomen, 6‘700 Verben
WORT SEMANTISCHE KLASSEAggressivität nonment-dyn-abs-situationAgonie nonment-stat-abs-situationAgrarprodukt nat-discreteÄgypter human-objectAhn human-objectAhndung nonment-dyn-abs-situationÄhnlichkeit relationAirbag nonax-mov-art-discreteAirbus mov-nonanimate-con-potagAirport art-con-geogrAjatollah human-objectAkademiker human-objectAkademisierung nonment-dyn-abs-situationAkkordeon nonax-mov-art-discreteAkkreditierung nonment-dyn-abs-situationAkku ax-mov-art-discreteAkquisition nonment-dyn-abs-situationAkrobat human-object... ...
5
Semantische Klassen in HaGenLex
Insgesamt 50 semantische Klassen für Nomen werden gebildet aus erlaubten Kombinationen von
• 16 semantischen Features (binär): HUMAN+, ARTIFICIAL- • 17 ontologischen Sorten, z.B. concrete, abstract-situation...
Sorte (Hierarchie)
semantische Features
semantische Klassen
6
Anwendung: WOCADI-Parser
„Welche Bücher von Peter Jackson über Expertensysteme wurden bei Addison-Wesley seit 1985 veröffentlicht?“
7
Annahmen
• Harris 1968: Distributional HypothesisSemantische Ähnlichkeit ist eine Funktion über globale Kontexte von Wörtern. Je ähnlicher die Kontexte, desto ähnlicher die Wörter
• Dies projiziert auf Nomen und Adjektive: Nomen mit denselben semantischen Klassen werden typischerweise von denselben Adjektiven modifiziert
• Die Nachbarschaftskookkurrenzbeziehung zwischen Adjektiven (links) und Nomen (rechts) approximiert typische Head-Modifier-Strukturen
8
Nachbarschaftskookkurrenzen und -profile
• Signifikante Kookkurrenzen spiegeln Relationen zwischen Wörtern wieder. Um zu ermitteln, welche Kookkurrenzen (gemeinsame Auftreten) signifikant sind, wird ein Signifikanzmaß benötigt (hier log-likelihood)
• Im Folgenden werden Adjektive, die signifikant häufig (sprich typischerweise) links von Nomen auftreten, sowie Nomen, die signifikant rechts von Adjektiven auftreten
• Die Menge on Adjektiven, die signifikant häufig links von Nomen beobachtet werden, heisst Adjektivprofil des Nomens (Analog: Nomenprofil für Adjektive)
• Für Experimente benutzen wir den Deutschen Korpus Version 2003 des „Projekt Deutscher Wortschatz“, 500 Millionen Tokens
9
Beispiel Nachbarschaftsprofile ... von ganz erlegten Käsebüchern
Datenbasis: grundformreduzierte Nachbarschaftskookkurrenzen.
Umfang: 125‘000 Substantive, 25‘000 Adjektive
Wort Adjektiv- bzw. Substantivprofil
Buch neu, erschienen, erst, neuest, jüngst, gut, geschrieben, letzt, zweit, vorliegend, gleichnamig, herausgegeben, nächst, dick, veröffentlicht, ...
Käse gerieben, überbacken, kleinkariert, fett, französisch, fettarm, löchrig, holländisch, handgemacht, grün, würzig, selbstgemacht, produziert, schimmelig,
Camembert gebacken, fettarm, reif
überbacken Schweinesteak, Aubergine, Blumenkohl, Käse
erlegt Tier, Wild, Reh, Stück, Beute, Großwild, Wildkatzen, Büffel, Rehbock, Beutetier, Wal, Hirsch, Hase, Grizzly, Wildschwein, Thier, Eber, Bär, Mücke,
ganz Leben, Bündel, Stück, Volk, Wesen, Vermögen, Herz, Heer, Arsenal, Dorf, Land, Können, Berufsleben, Paket, Kapitel, Stadtviertel, Rudel, Jahrzehnt, ...
10
Vererbungsmechanismus
Algorithmus:Initialisieren der Adjektiv- und Substantivprofile;Initialisieren der Startmenge;Solange noch neue Substantive klassifiziert werden {
Berechnung der Klassenwahrscheinlichkeiten der Adjektive;Für alle noch unklassifizierten Substantive s {
Multipliziere die Klassenwahrscheinlichkeit für jede Klasse; Weise die Klasse mit der höchsten Wahrscheinlichkeit s zu;
} }
Welche Klasse bekommt S4 im nächsten Schritt?
Klassenwahrscheinlichkeiten pro Adjektiv:• Zähle Klassenanzahlen• Normiere auf Anteil der Klasse in bekannten Substantiven• Normiere auf 1
11
Beispiel: TopfKlassenanzahlen für Adjektive:angebrannt: {nat-substance=1, art-substance=1, ax-mov-art-discrete=1}Suppe art_substanceZigarette ax-mov-art-discreteMilch nat-substance
zerbeult: {nonmov-art-discrete=1, mov-nonanimate-con-potag=2, nonax-mov-art-discrete=1, ax-mov-art-discrete=3}Wagen, Auto mov-nonanimate-con-potagFahrzeug, Mountainbike, Posaune ax-mov-art-discreteMantel nonax-mov-art-discreteDach nonmov-art-discrete
irden: {art-con-geogr=1, nonax-mov-art-discrete=1, ax-mov-art-discrete=9}Schal nonax-mov-art-discreteHafen art-con-geogrTeller, Flasche, Schüssel, Becher, Geschirr, Vase, Krug, Gefäß, Napf ax-mov-art-discrete
tönern: {ax-mov-art-discrete=1, prot-discrete=1}Fuß prot-discreteGefäß ax-mov-art-discrete
übervoll: {nonmov-art-discrete=3, art-con-geogr=1, nonment-dyn-abbs-situation=1, nonax-mov-art-discrete=1}Zimmer, Saal, Lager nonmov-art-discreteStall art-con-geogrVorlesung nonment-dyn-abs-situationTablett nonax-mov-art-discrete
Adjektivprofil von Topf = ax-mov-art-discrete: angebrannt(X) heiß(-) ehern(-) fremd(-) divers(-) zerbeult(X) brodelnd(-) staatlich(-) gußeisern(-) tönern(X) gemeinsam(-) groß(-) irden(X) verschieden(-) verschlossen(-) anonym(-) rund(-) flach(-) Bremer(-) geschlossen(-) passend(-) gesondert(-) andere(-) riesig(-) Golden(-) eisern(-) europäisch(-) viel(-) öffentlich(-) mehr(-) golden(-) leer(-) klein(-) getrennt(-) möglich(-) speziell(-) übervoll(X) dampfend(-) gleich(-) gefüllt(-)
Klassenwahrscheinlichkeiten (unnormiert): {mov-nonanimate-con-potag=2.8E-25, ax-mov-art-discrete=5.8E-8, art-con-geogr=1.5E-20,nonax-mov-art-discrete=2.1E-15, nat-substance=3.3E-25, nonment-dyn-abs-situation=1.6E-25,prot-discrete=5.0E-25, art-substance=3.3E-25, nonmov-art-discrete=7.1E-20}
12
Parameter• Mindestanzahl Adjektive: minAdj
Ein Substantiv wird erst dann klassifiziert, wenn mindestens minAdj klassifizierende Adjektive vorhanden sindVermeidung von statistischem Rauschen und Häufigkeitsschwelle.
• Maximalanzahl Klassen für Adjektive: maxClassEin Adjektiv wird nur dann zum Klassifizieren verwendet, wenn es für höchstens maxClass verschiedene Klassen sprichtunspezifische Adjektive können Ergebnis nicht verzerren
13
Datenbasis Experimente
Verteilung der semantischen Klassen (gesamt: 6045)
nonment-dyn-abs-situationhuman-objectprot-theor-concept
nonoper-attributeax-mov-art-discretenonment-stat-abs-situationanimal-object
nonmov-art-discretement-stat-abs-situationnonax-mov-art-discretetem-abstractum
mov-nonanimate-con-potagart-con-geograbs-infoart-substance
nat-discretenat-substanceprot-discretenat-con-geogr
prot-substancemov-art-discretemeas-unitoper-attribute
institutionment-dyn-abs-situationplant-objectmov-nat-discretecon-info
con-geogrcon-objectanimate-objectprot-method
dyn-abs-situationobjectnonmov-nonanimate-con-potagabs-geogr
stat-abs-situationmodalityrelationcon-potag
prot-con-objectnonmov-nat-discretenoninstit-abs-potagthc-relation
nonanimate-con-potagabs-situationabs-potag
Davon erfüllen 4726 Substantive minAdj=5, d.h. maximaler Recall=78,2%
14
Ergebnisse globaler Klassifikator• Klassifiziert wurde direkt nach semantischer Klasse• Verschiedene Messpunkte entsprechen Parameterbelegungen
minAdj in {5,10,15,20}, maxClass in {2, 5, 50}• Ergebnisse zu schlecht
Precision/Recall für globalen Klassifikator
00,10,20,30,40,50,60,70,80,9
1
0 0,2 0,4 0,6 0,8 1
Precision
Recall
15
EinzelklassifikatorenArchitektur: Binäre Klassifikatoren für Einzelmerkmale, dann
zusammenführen. Parameter: minAdj=5, maxClass=2
ANIMAL +/-ANIMATE +/-ARTIF +/-AXIAL +/-... (16 Stück)
... (17 Stück)
ab +/-abs +/-ad +/-as +/-
Auswahl:Kompatible semantische
Klassen, die minimal bzgl. Hierarchie sind, sowie eindeutig.
Ergebnisklasseoder
Verweigern
16
Evaluation semantische Features
• Für Bias >0,05 gute bis sehr gute Precision• Precision gesamt: 93,8% (86,8% für Eigenschaft +)• Recall gesamt: 70,7% (69,2% für Eigenschaft +)
Precision/Recall vs. Bias semantische Merkmale
0,00
0,20
0,40
0,60
0,80
1,00
0,00 0,10 0,20 0,30 0,40 0,50
Bias Datenbasis
Pre
cisi
on
/Rec
all
total Prec, Prec +, total Rec, Rec +
Name Anzahl + - Bias
method 6004 12 5992 0,0020
instit 6032 39 5993 0,0065
mental 9008 162 8846 0,0180
info 6015 119 5896 0,0198
animal 5995 143 5852 0,0239
geogr 6015 188 5827 0,0313
thconc 6028 518 5510 0,0859
instru 5932 969 4963 0,1634
human 5995 1313 4682 0,2190
legper 6009 1352 4657 0,2250
animate 6010 1505 4505 0,2504
potag 6015 1664 4351 0,2766
artif 5864 2204 3660 0,3759
axial 5892 2260 3632 0,3836
movable 5827 2345 3482 0,4024
spatial 6033 2910 3123 0,4823
17
Evaluation ontologische Sorten
• Für Bias >0,10 gute bis sehr gute Precision• Precision gesamt: 94,1% (89,5% für Eigenschaft +)• Recall gesamt: 73,6% (69,6% für Eigenschaft +)
Precision/Recall vs. Bias ontologische Sorten
0,00
0,20
0,40
0,60
0,80
1,00
0,00 0,10 0,20 0,30 0,40 0,50
Bias Datenbasis
Pre
cisi
on
/Rec
all
total Prec, Prec +, total Rec, Rec +
Name Anzahl + - Bias
re 6033 7 6026 0,0012
mo 6033 8 6025 0,0013
o- 6033 5994 39 0,0065
oa 6045 41 6004 0,0068
me 6045 41 6004 0,0068
qn 6045 41 6004 0,0068
ta 6033 107 5926 0,0177
s 6010 224 5786 0,0373
as 6031 363 5668 0,0602
na 6033 411 5622 0,0681
at 6033 450 5583 0,0746
io 6033 664 5369 0,1101
ad 6031 1481 4550 0,2456
abs 6033 1846 4187 0,3060
d 6010 2663 3347 0,4431
co 6033 2910 3123 0,4823
ab- 6033 3082 2951 0,4891
18
Eval. komplexe sem. Klassen
• Aussage für Bias schwierig• Precision gesamt: 80,2%• Recall gesamt: 34,2%, es wurden 6649 neue Substantive klassifiziert
Precision/Recall in % vs. Anzahl semantische Klassen
0
20
40
60
80
100
0 250 500 750 1000 1250 1500
Anzahl in Trainingsmenge
Pre
cis
ion
/Recall in
%
%Recall %Precision
Klasse
Anz. Prec Rec nonment-dyn-abs-situation 1421 89,19 34,27
human-object 1313 96,82 69,54
prot-theor-concept 516 53,71 18,22
nonoper-attribute 411 0,00 0,00
ax-mov-art-discrete 362 55,64 40,88
nonment-stat-abs-situation 226 36,84 6,19
animal-object 143 100,0 26,57
nonmov-art-discrete 133 57,41 23,31
ment-stat-abs-situation 126 51,28 15,87
nonax-mov-art-discrete 108 31,48 15,74
tem-abstractum 107 96,77 28,04
mov-nonanimate-con-potag 98 70,45 31,63
art-con-geogr 96 58,70 28,12
abs-info 94 42,31 11,70
art-substance 88 60,47 29,55
nat-discrete 88 100,0 31,82
nat-substance 86 57,14 9,30prot-discrete 73 100,0 57,53
nat-con-geogr 63 65,00 20,63
prot-substance 50 100,0 40,00
mov-art-discrete 45 100,0 37,78
meas-unit 41 90,91 24,39
oper-attribute 39 0,00 0,00Institution 39 0,00 0,00ment-dyn-abs-situation 36 0,00 0,00plant-object 34 100,0 8,82mov-nat-discrete 27 22,22 22,22
con-info 25 40,00 8,00Rest 157 39,24 19,75
19
Einige FehlerPflanze animal-object anstatt plant-objectzart, fleischfressend, fressend, verändert, genmanipuliert, transgen, exotisch, selten, giftig, stinkend,
wachsend...
Nachwuchs human-object anstatt animal-objectwissenschaftlich, qualifiziert, akademisch, eigen, talentiert, weiblich, hoffnungsvoll, geeignet, begabt,
journalistisch...
Café art-con-geogr anstatt nonmov-art-discrete (vgl. Restaurant)Wiener, klein, türkisch, kurdisch, romanisch, cyber, philosophisch, besucht, traditionsreich, schnieke,
gutbesucht, ...
Neger animal-object anstatt human-objectweiß, dreckig, gefangen, faul, alt, schwarz, nackt, lieb, gut, brav
aber:Skinhead human-object (richtig){16,17,18,19,20,21,22,23,30}ährig, gleichaltrig, zusammengeprügelt, rechtsradikal, brutal
Wegen zu weniger Adjektive zurückgewiesen:
Leberkäse human-objectbayerisch, warm
20
Ausblicke
• ‚Schwierigste‘ semantische Klasse: nonoper-attributez.B. Anfälligkeit, Angemessenheit, Ängstlichkeit, Beiläufigkeit, da typische Adjektive zu unspezifisch:erhöht, besonders, gering, hoch, extrem, größer, notorisch, gewisse,
übertrieben, völlig, stärker, übergroß, scheinbar, bedingt ...., jedoch enden die meisten auf {k|h}eit....
• Andere syntaktische Beziehungen ausnutzen• Polyseme Wörter behandeln:
- Disambiguierung: Mehrere Adjektivprofile pro Substantiv- Vereinigung von Substantivnachbarn eigenschaftsspezifischer Adjektive können Hinweise auf mehrere Klassen liefern
21
Fragen?
Danke für die Aufmerksamkeit!