NERNamed Entity Recognition
Björn Baumann
PG 520: Intelligence Services [Named Entity Recognition]
209.10.2007
Gliederung
1. Definition & Zielsetzung2. Entstehung: Message Understanding Conferences3. Evaluation4. Interne / Externe Evidenz5. Mögliche Analyseverfahren
Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse
6. Systemarchitekturen Listenbasierte Systeme Regelbasierte Systeme Automatische/Lernende Systeme
7. Diskussion
PG 520: Intelligence Services [Named Entity Recognition]
309.10.2007
Definition & Zielsetzung
NER = Named Entity Recognition Erkennt und klassifiziert Bestandteile eines natürlich-
sprachlichen Textes Named Entities sind definit, also in der Regel nur einmal
vorhanden Nur relevante Informationen sollen klassifiziert /
kategorisiert werden (daher: named) Informationen, die zu dem gesuchten eine semantische
Relevanz haben Relevanz wird durch Auswahl der passenden Trainingsdaten
und Tags bestimmt Named Entities können Namen, Organisationen, Orte,
Zeitangaben, oder quantitative Aussagen sein Teilbereich der Information Extraction (IE) NER wurde 1995 in MUC-6 erstmals als Ziel definiert
PG 520: Intelligence Services [Named Entity Recognition]
409.10.2007
Eingabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären…
Ausgabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld <Person>Bohlen</Person> tatsächlich am <Datum>11. Dezember 2006</Datum> gestohlen wurde, wollte das <Organisation>Landgericht Bochum</Organisation> klären…
Beisp
ielDefinition & Zielsetzung
NER-Markierungen
PG 520: Intelligence Services [Named Entity Recognition]
509.10.2007
EntstehungMessage Understanding Conference
Erstmals 1987 stattgefundene Konferenz mit der Zielsetzung, bessere Information Extraction Methoden zu finden
Verschiedene Teams versuchen eine vorgegebene Aufgabe zu lösen
Texte und Zielsetzungen werden vorgegeben In MUC-6 (1995) wurde zum ersten Mal das Ziel, Named
Entities / Koreferenz zu finden, definiert MUC-7 hat beispielsweise „Space Vehicles & Missile
Launches“ als Thema
PG 520: Intelligence Services [Named Entity Recognition]
609.10.2007
Evaluationsmaße
Anzahl korrekt klassifizierter NEs
Anzahl NEs gefundenPrecision =
Anzahl korrekt klassifizierter NEs
Anzahl vorhandener NEsRecall =
2*Precision*Recall
Precision + RecallF-Measure =
F-Measure: Ungewichteter harmonischer Mittelwert zwischen Präzision und Ausbeute
Recall (Ausbeute): Anteil der korrekt klassifizierten Named Entities zu den insgesamt vorhandenen NE
Precision (Präzision): Anteil der korrekt klassifizierten NE aus der Menge aller gefundenen NE (aber nicht aller vorhandenen)
PG 520: Intelligence Services [Named Entity Recognition]
709.10.2007
Grundsätzlich kann man bei der Klassifikation von Wörtern Interne und Externe Evidenz unterscheiden
Interne Evidenz ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt Eintrag im Lexikon oder anderer lexikalischer Ressourcen Bestimmte Wortbestandteile (-burg) sowie Groß- und
Kleinschreibung
Externe Evidenz nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen Beispiel: „die franz. Stadt …“ dies deutet stark auf einen
Ortsnamen als nachfolgendes Wort hin
Interne / Externe Evidenz
PG 520: Intelligence Services [Named Entity Recognition]
809.10.2007
Mögliche Analyseverfahren Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse
PG 520: Intelligence Services [Named Entity Recognition]
909.10.2007
Mögliche Analyseverfahren Tokenisierung
Erkennen der Wortgrenzen Einfach zu realisieren in europäischen Sprachen (Leerzeichen
zwischen Worten), schwierig für japanisch oder chinesisch Hier muss ein umfangreicheres Modul die Grenzen erkennen
Satzzeichen markieren Struktur des Textes (“.“, “,“,“?“) Auch hier: eventuell schwieriger in anderen Sprachen
Abkürzungen können durch Kapitale erkannt werden
PG 520: Intelligence Services [Named Entity Recognition]
1009.10.2007
Morphologische Analyse von Wörtern versucht die einzelnen Wörter zu „vereinfachen“ Erkennen von Präfix bzw. Suffix Zurückführung eines einfachen oder komplexen Wortes auf sein
Lemma Morphologische Analyse kann in manchen Sprachen
weniger wichtig (Englisch) in vielen anderen aber sehr bedeutend sein (Deutsch, Französisch)
Stemming bestimmt die Stammform eines Verbs Spart Lexikon-Einträge und hält die Regelmenge klein
Viele Stammformen der Verben weisen stark auf eine bestimmte Klasse hin denken Mensch
Teile eines Wortes können ebenfalls auf eine Klasse hinweisen Endungen wie „-burg“,“-stadt“, „-dorf“ Ortsname
Mögliche AnalyseverfahrenMorphologische Analyse
PG 520: Intelligence Services [Named Entity Recognition]
1109.10.2007
Viele Wörter können direkt durch Nachschlag in einem Lexikon einer bestimmten Klasse zugeordnet werden
Bei mehrdeutigen Wörtern genügt allerdings die lexikalische Analyse allein nicht und ein Einbezug des Kontextes ist erforderlich „Essen“ Ort oder Mahlzeit? „Bank“ Finanzeinrichtung oder Sitzmöbel? „Buchen Sie mir einen Flug“ vs. „Die Buchen dort sind schon
alt.“
Mögliche Analyseverfahren Lexikalische Analyse
PG 520: Intelligence Services [Named Entity Recognition]
1209.10.2007
Aufteilung des Satzes in seine syntaktischen Elemente (Nomen, Verben, Präpositionen,…) um Kontextinformationen zu gewinnen
POS-Tagging (Part-of-Speech-Tagging) POS-Tagger ordnen jedes Wort einer Wortklasse zu POS-Tagger „TnT“ klassifiziert englische Wörter mit 86% und
deutsche mit 89% zur richtigen Wortart Disambiguierung (Aufheben von Mehrdeutigkeiten) der Worte
durch Einbezug des Kontexts Wichtig: weist auch unbekannten Wortphrasen eine Bedeutung
zu anhand von Kontext und Wortform zu Full-Parsing
Analyse der kompletten Satzkonstruktionen mit Hilfe eines Parsebaums, der an kontextfreie Grammatiken angelehnt ist
Allerdings schlechte Performanz und fehlerbehaftet Wird so gut wie nicht mehr verwendet!
Mögliche AnalyseverfahrenSyntaktische Analyse
PG 520: Intelligence Services [Named Entity Recognition]
1309.10.2007
Koreferenz-Auflösung: Erkennen von gleichen Referenzen innerhalb eines Texts (auch temporale Referenzen möglich) IBM International Business Machine Deutsche Bahn AG Die Bahn entlässt Mitarbeiter USA U.S.A. United States of America 16.20 Uhr 4.20 PM (temporale Referenz)
Merging: Zusammenfügen von gleichen Relationen zwischen NE
Mögliche AnalyseverfahrenDomänenspezifische Analyse
PG 520: Intelligence Services [Named Entity Recognition]
1409.10.2007
Listenbasierte Systeme Regelbasierte Systeme Automatische / Lernende Systeme
Systemarchitekturen
PG 520: Intelligence Services [Named Entity Recognition]
1509.10.2007
Theoretisch könnte man in einer riesigen Wort-DB alle Wörter speichern, die es als NE zu erkennen gilt. Auch morphologische Varianten müssten dann abgespeichert werden.
Einfach zu Erstellen und schnelle Erkennung ABER:
Unmöglich alle NE zu speichern Nicht in der Lage mehrdeutige Wörter zu disambiguieren Kaum möglich Zeitangaben oder quantitative Aussagen in einer
solchen Liste zu speichern
SystemarchitekturenListenbasierte Systeme
PG 520: Intelligence Services [Named Entity Recognition]
1609.10.2007
Definieren Regeln, die das Einsortieren der einzelnen Token ermöglichen
Nutzung von Lexika, syntaktischem Wissen, morphologischem Wissen und domänenspezifischen Wissen
Erzeugung einer Grammatik, Parser übernimmt die Ableitung der Named Entities
Relativ alte Technik um Wörter einer Klasse zuzuordnen
SystemarchitekturenRegelbasierte Systeme
PG 520: Intelligence Services [Named Entity Recognition]
1709.10.2007
Muss von spezialisierten Linguisten entwickelt werden Benötigt nur eine kleine Menge an Trainings-
Datensätzen Entwicklung sehr zeitaufwändig, da umfassende
Grammatiken konstruiert werden müssen Erweiterung und Anpassung einer umfassenden,
komplexen Grammatik an eine neue Domäne ist aufwändig
Bessere Performanz gegenüber Lernenden Systemen (Precision & Recall)
SystemarchitekturenRegelbasierte Systeme
PG 520: Intelligence Services [Named Entity Recognition]
1809.10.2007
Aufeinanderfolgende Phrasen der Form <Wort><Wort> GmbH deuten mit hoher Wahrscheinlichkeit auf eine Firma / Organisation hin
Ebenso geben großgeschriebene Worte Hinweise auf eine Firma bzw. Organisation: NASA, ADAC, UNICEF,…
Vorkommen von „-burg“, „-dorf“, -„stadt“ deutet auf eine Ortsangabe aus dem deutschsprachigen Raum
„denken“ ist, unabhängig vom Tempus der Verbform, in der dritten Person immer ein starker Hinweis für ein menschliches Subjekt
„produzieren“ ist ebenso ein starker Hinweis auf eine Firma / Organisation
Beisp
ieleSystemarchitekturen
Regelbasierte Systeme
PG 520: Intelligence Services [Named Entity Recognition]
1909.10.2007
Nutzt statistische oder andere Methoden des Maschinellen Lernens
Benötigt aber ein hohes Maß an qualitativ guten Trainings-Texten
Beschaffung dieser Trainings-Daten kann manchmal schwieriger als das Entwerfen von Regeln sein (…für eine bestimmte Domäne)
Oft sind kleine spezifische Wörterbücher hilfreicher als große mit vielen möglichen Bedeutungen
Wichtige Verfahren des Maschinellen Lernens Hidden Markov Models ( IdentiFinder) Maximale Entropie ( MENE) Conditional Random Fields Support Vector Machines
SystemarchitekturenAutomatische / Lernende Systeme
PG 520: Intelligence Services [Named Entity Recognition]
2009.10.2007
Overfitting Overfitting ist die Überanpassung auf bestimmte Trainings-
Datensätze, die immer und immer wieder gelernt werden Wird nun ein anderer Datensatz verwendet kann dies zu sehr
hohen Fehlerraten bei der Klassifikation führen
Große Wörterbücher tendieren zu einer höheren Anzahl an Fehlern Sehr umfangreiche Wörterbücher mit vielen Einträgen neigen
gerade bei häufig vorkommenden Named Entities zu falschen oder mehrdeutigen Einsortierungen
Kleine, dem jeweiligen Thema angepasste Wörterbücher sinnvoller
SystemarchitekturenAutomatische / Lernende Systeme
PG 520: Intelligence Services [Named Entity Recognition]
2109.10.2007
Änderungen der Ziele können bei Lernenden Systemen schneller umgesetzt werden Änderungen oder der komplette Austausch der Trainings-Texte
sind relativ schnell vollzogen Regelbasierte Systeme müssen einen Großteil der Regeln über
Bord werfen, was eine Umstellung schwierig macht Lernende Systeme sind flexibler hinsichtlich etwaiger
Änderungen zur Laufzeit
Lernende Systeme sind unabhängig von der eingesetzten Sprache (englisch, deutsch,…)
DiskussionWelcher Ansatz ist sinnvoller?
PG 520: Intelligence Services [Named Entity Recognition]
2209.10.2007
Performanz von regelbasierten Systemen ist höher als die von Lernenden Systemen MUC-7: Wall Street Journal (93,7% vs. 90,4%) Vorteil aber gering
Regelbasierte Systeme sind etwas schneller bei der Auswertung
DiskussionWelcher Ansatz ist sinnvoller?
PG 520: Intelligence Services [Named Entity Recognition]
2309.10.2007
Noch Fragen?
Ansonsten… Danke fürs Zuhören!