Download ppt - NER Named Entity Recognition Björn Baumann. PG 520: Intelligence Services [Named Entity Recognition]2 09.10.2007 Gliederung 1. Definition & Zielsetzung

NERNamed Entity Recognition

Björn Baumann

PG 520: Intelligence Services [Named Entity Recognition]

209.10.2007

Gliederung

1. Definition & Zielsetzung2. Entstehung: Message Understanding Conferences3. Evaluation4. Interne / Externe Evidenz5. Mögliche Analyseverfahren

Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse

6. Systemarchitekturen Listenbasierte Systeme Regelbasierte Systeme Automatische/Lernende Systeme

7. Diskussion


309.10.2007

Definition & Zielsetzung

NER = Named Entity Recognition Erkennt und klassifiziert Bestandteile eines natürlich-

sprachlichen Textes Named Entities sind definit, also in der Regel nur einmal

vorhanden Nur relevante Informationen sollen klassifiziert /

kategorisiert werden (daher: named) Informationen, die zu dem gesuchten eine semantische

Relevanz haben Relevanz wird durch Auswahl der passenden Trainingsdaten

und Tags bestimmt Named Entities können Namen, Organisationen, Orte,

Zeitangaben, oder quantitative Aussagen sein Teilbereich der Information Extraction (IE) NER wurde 1995 in MUC-6 erstmals als Ziel definiert


409.10.2007

Eingabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären…

Ausgabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld <Person>Bohlen</Person> tatsächlich am <Datum>11. Dezember 2006</Datum> gestohlen wurde, wollte das <Organisation>Landgericht Bochum</Organisation> klären…

Beisp

ielDefinition & Zielsetzung

NER-Markierungen


509.10.2007

EntstehungMessage Understanding Conference

Erstmals 1987 stattgefundene Konferenz mit der Zielsetzung, bessere Information Extraction Methoden zu finden

Verschiedene Teams versuchen eine vorgegebene Aufgabe zu lösen

Texte und Zielsetzungen werden vorgegeben In MUC-6 (1995) wurde zum ersten Mal das Ziel, Named

Entities / Koreferenz zu finden, definiert MUC-7 hat beispielsweise „Space Vehicles & Missile

Launches“ als Thema


609.10.2007

Evaluationsmaße

Anzahl korrekt klassifizierter NEs

Anzahl NEs gefundenPrecision =

Anzahl korrekt klassifizierter NEs

Anzahl vorhandener NEsRecall =

2*Precision*Recall

Precision + RecallF-Measure =

F-Measure: Ungewichteter harmonischer Mittelwert zwischen Präzision und Ausbeute

Recall (Ausbeute): Anteil der korrekt klassifizierten Named Entities zu den insgesamt vorhandenen NE

Precision (Präzision): Anteil der korrekt klassifizierten NE aus der Menge aller gefundenen NE (aber nicht aller vorhandenen)


709.10.2007

Grundsätzlich kann man bei der Klassifikation von Wörtern Interne und Externe Evidenz unterscheiden

Interne Evidenz ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt Eintrag im Lexikon oder anderer lexikalischer Ressourcen Bestimmte Wortbestandteile (-burg) sowie Groß- und

Kleinschreibung

Externe Evidenz nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen Beispiel: „die franz. Stadt …“ dies deutet stark auf einen

Ortsnamen als nachfolgendes Wort hin

Interne / Externe Evidenz


809.10.2007

Mögliche Analyseverfahren Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse


909.10.2007

Mögliche Analyseverfahren Tokenisierung

Erkennen der Wortgrenzen Einfach zu realisieren in europäischen Sprachen (Leerzeichen

zwischen Worten), schwierig für japanisch oder chinesisch Hier muss ein umfangreicheres Modul die Grenzen erkennen

Satzzeichen markieren Struktur des Textes (“.“, “,“,“?“) Auch hier: eventuell schwieriger in anderen Sprachen

Abkürzungen können durch Kapitale erkannt werden


1009.10.2007

Morphologische Analyse von Wörtern versucht die einzelnen Wörter zu „vereinfachen“ Erkennen von Präfix bzw. Suffix Zurückführung eines einfachen oder komplexen Wortes auf sein

Lemma Morphologische Analyse kann in manchen Sprachen

weniger wichtig (Englisch) in vielen anderen aber sehr bedeutend sein (Deutsch, Französisch)

Stemming bestimmt die Stammform eines Verbs Spart Lexikon-Einträge und hält die Regelmenge klein

Viele Stammformen der Verben weisen stark auf eine bestimmte Klasse hin denken Mensch

Teile eines Wortes können ebenfalls auf eine Klasse hinweisen Endungen wie „-burg“,“-stadt“, „-dorf“ Ortsname

Mögliche AnalyseverfahrenMorphologische Analyse


1109.10.2007

Viele Wörter können direkt durch Nachschlag in einem Lexikon einer bestimmten Klasse zugeordnet werden

Bei mehrdeutigen Wörtern genügt allerdings die lexikalische Analyse allein nicht und ein Einbezug des Kontextes ist erforderlich „Essen“ Ort oder Mahlzeit? „Bank“ Finanzeinrichtung oder Sitzmöbel? „Buchen Sie mir einen Flug“ vs. „Die Buchen dort sind schon

alt.“

Mögliche Analyseverfahren Lexikalische Analyse


1209.10.2007

Aufteilung des Satzes in seine syntaktischen Elemente (Nomen, Verben, Präpositionen,…) um Kontextinformationen zu gewinnen

POS-Tagging (Part-of-Speech-Tagging) POS-Tagger ordnen jedes Wort einer Wortklasse zu POS-Tagger „TnT“ klassifiziert englische Wörter mit 86% und

deutsche mit 89% zur richtigen Wortart Disambiguierung (Aufheben von Mehrdeutigkeiten) der Worte

durch Einbezug des Kontexts Wichtig: weist auch unbekannten Wortphrasen eine Bedeutung

zu anhand von Kontext und Wortform zu Full-Parsing

Analyse der kompletten Satzkonstruktionen mit Hilfe eines Parsebaums, der an kontextfreie Grammatiken angelehnt ist

Allerdings schlechte Performanz und fehlerbehaftet Wird so gut wie nicht mehr verwendet!

Mögliche AnalyseverfahrenSyntaktische Analyse


1309.10.2007

Koreferenz-Auflösung: Erkennen von gleichen Referenzen innerhalb eines Texts (auch temporale Referenzen möglich) IBM International Business Machine Deutsche Bahn AG Die Bahn entlässt Mitarbeiter USA U.S.A. United States of America 16.20 Uhr 4.20 PM (temporale Referenz)

Merging: Zusammenfügen von gleichen Relationen zwischen NE

Mögliche AnalyseverfahrenDomänenspezifische Analyse


1409.10.2007

Listenbasierte Systeme Regelbasierte Systeme Automatische / Lernende Systeme

Systemarchitekturen


1509.10.2007

Theoretisch könnte man in einer riesigen Wort-DB alle Wörter speichern, die es als NE zu erkennen gilt. Auch morphologische Varianten müssten dann abgespeichert werden.

Einfach zu Erstellen und schnelle Erkennung ABER:

Unmöglich alle NE zu speichern Nicht in der Lage mehrdeutige Wörter zu disambiguieren Kaum möglich Zeitangaben oder quantitative Aussagen in einer

solchen Liste zu speichern

SystemarchitekturenListenbasierte Systeme


1609.10.2007

Definieren Regeln, die das Einsortieren der einzelnen Token ermöglichen

Nutzung von Lexika, syntaktischem Wissen, morphologischem Wissen und domänenspezifischen Wissen

Erzeugung einer Grammatik, Parser übernimmt die Ableitung der Named Entities

Relativ alte Technik um Wörter einer Klasse zuzuordnen

SystemarchitekturenRegelbasierte Systeme


1709.10.2007

Muss von spezialisierten Linguisten entwickelt werden Benötigt nur eine kleine Menge an Trainings-

Datensätzen Entwicklung sehr zeitaufwändig, da umfassende

Grammatiken konstruiert werden müssen Erweiterung und Anpassung einer umfassenden,

komplexen Grammatik an eine neue Domäne ist aufwändig

Bessere Performanz gegenüber Lernenden Systemen (Precision & Recall)

SystemarchitekturenRegelbasierte Systeme


1809.10.2007

Aufeinanderfolgende Phrasen der Form <Wort><Wort> GmbH deuten mit hoher Wahrscheinlichkeit auf eine Firma / Organisation hin

Ebenso geben großgeschriebene Worte Hinweise auf eine Firma bzw. Organisation: NASA, ADAC, UNICEF,…

Vorkommen von „-burg“, „-dorf“, -„stadt“ deutet auf eine Ortsangabe aus dem deutschsprachigen Raum

„denken“ ist, unabhängig vom Tempus der Verbform, in der dritten Person immer ein starker Hinweis für ein menschliches Subjekt

„produzieren“ ist ebenso ein starker Hinweis auf eine Firma / Organisation

Beisp

ieleSystemarchitekturen

Regelbasierte Systeme


1909.10.2007

Nutzt statistische oder andere Methoden des Maschinellen Lernens

Benötigt aber ein hohes Maß an qualitativ guten Trainings-Texten

Beschaffung dieser Trainings-Daten kann manchmal schwieriger als das Entwerfen von Regeln sein (…für eine bestimmte Domäne)

Oft sind kleine spezifische Wörterbücher hilfreicher als große mit vielen möglichen Bedeutungen

Wichtige Verfahren des Maschinellen Lernens Hidden Markov Models ( IdentiFinder) Maximale Entropie ( MENE) Conditional Random Fields Support Vector Machines

SystemarchitekturenAutomatische / Lernende Systeme


2009.10.2007

Overfitting Overfitting ist die Überanpassung auf bestimmte Trainings-

Datensätze, die immer und immer wieder gelernt werden Wird nun ein anderer Datensatz verwendet kann dies zu sehr

hohen Fehlerraten bei der Klassifikation führen

Große Wörterbücher tendieren zu einer höheren Anzahl an Fehlern Sehr umfangreiche Wörterbücher mit vielen Einträgen neigen

gerade bei häufig vorkommenden Named Entities zu falschen oder mehrdeutigen Einsortierungen

Kleine, dem jeweiligen Thema angepasste Wörterbücher sinnvoller

SystemarchitekturenAutomatische / Lernende Systeme


2109.10.2007

Änderungen der Ziele können bei Lernenden Systemen schneller umgesetzt werden Änderungen oder der komplette Austausch der Trainings-Texte

sind relativ schnell vollzogen Regelbasierte Systeme müssen einen Großteil der Regeln über

Bord werfen, was eine Umstellung schwierig macht Lernende Systeme sind flexibler hinsichtlich etwaiger

Änderungen zur Laufzeit

Lernende Systeme sind unabhängig von der eingesetzten Sprache (englisch, deutsch,…)

DiskussionWelcher Ansatz ist sinnvoller?


2209.10.2007

Performanz von regelbasierten Systemen ist höher als die von Lernenden Systemen MUC-7: Wall Street Journal (93,7% vs. 90,4%) Vorteil aber gering

Regelbasierte Systeme sind etwas schneller bei der Auswertung

DiskussionWelcher Ansatz ist sinnvoller?


2309.10.2007

Noch Fragen?

Ansonsten… Danke fürs Zuhören!