View
114
Download
2
Category
Preview:
Citation preview
InformationsekstraktionWettbewerbe und Kongresse
Daniel Liem
TIPSTER
● 1991 ins Leben gerufen durch DARPA● von unter anderem DoD, NIST, CIA und
SPARWAR gesponsort ● Ziel: die Entwicklung eines effizienteren und
effektiveren Verfahrens zur Verarbeitung von Informationen in textueller Form
● 1998 wegen mangelder Finanzierung eingestellt
TIPSTER(2)
● die drei Schwerpunkte der Untersuchungen● Dokument Detection● Information Extraction● Summarization
Phase 1 des TIPSTER
● Algorithmenentwicklung für Dokumenten- detektion und Informationsekstraktion
● Entwicklung von Bewertungs- bzw. Messungsverfahren
● Ergebnisse: – Dokumentendetektion: von 30% zu 75%– Informationsextraktion:
● Recall: von 49% zu 65%● Precission: von 55% zu 59%
Phase 2 des TIPSTER
● Software Architektur Entwicklung: – Standardisierung von technischen Komponenten– “plug and play” von unterschiedlichen Werkzeugen
ermöglichen– das Software-sharing vorantreiben
● MET (Multilingual Entity Task) – und die dazu gehörigen Werkzeuge
Phase 3 des TIPSTER
● Weiterentwicklung in Grundlagenforschung der Textverarbeitung– Detektion: Suchalgorithmus, Ergebnisfusion
verschiedener Maschine– Extraktion: Abstimmung für neue Domain, erhöhte
Treffsicherheit– Summarizing: Textzusammenfassung
Phase3 des TIPSTER(2)
● Mehrsprachigkeit: Portabilität von Werkzeugen und Techniken in eine andere Sprache
● Technische Schnittstelle: gemeinsame Informationsnutzung von Dokumentenfindung und Extraktion
TREC(Text Retrieval Conference)
● Von ARPA initiiert und von NIST organisiert ● Ziel: Evaluation von Text Retrieval Systemen
und Benutzer● Evaluation durch sogenanntes “Cranfield
Paradigm”● Teilung in Arbeitsbereiche (“Tracks”)
TREC(2)
Tracks :– Cross-Language Track– Filtering Track– Genome Track (neu)– HARD Track– Novelty Track
...
MUC (Message Understanding Conference)
● Ziel: Förderung und Abdeckung der Forschung in automatische Analyse der militärischen Nachrichten mit Informationsinhalt in Form von Texten
● von NOSC initiiert, von NRAD, RDT&E .... gesponsort
● 1998 (MUC 7) eingestellt
MUC – Historische Entwicklung
● 1987: MUC 1 – Erkundungsphase– Kein gemeinsames Ergebnisformat– Selbstbewertung
● 1989: MUC 2– Einführung von Templates als Ergebnisformat (10
Slots)– Auseindersetzung mit den Bewertungskriterien (recall
and precision)– Aufgabe: Militärische Meldungen
MUC – Historische Entwicklung (2)
● 1991: MUC 3 – Aufgabenbereich : terroristische Ereignisse – 18 slots
● 1992: MUC 4– 24 slots
MUC – Historische Entwicklung
● 1993: MUC 5 – Teil des TIPSTER Projekts der Regierung– zwei Tasks: (International Joint Venture und Electonic
Circuit Fabrication) – Multilingualität– Komplexität: (für Joint Venture Task) 11 Templates
und 47 Slots– Einführung von verschachtelten Templates
(hierarchisch)– Ergebnisse: 57% Recall und 64%Precision, 73%
Recall und 74% in den vier “core tasks”
MUC 6
● Ziel: – aufgabenunabhängige technische Komponenten der
IE, die bald ausgenutzt werden können– Portabilität der IE Systeme– Einarbeitung in das “tiefere Verständnis” der Systeme
MUC 6(2)
● Aufgabenbereich :– Kurzfristige Aufgabe: praktische Komponenten zu
erkennen; named entity tasks (ENAMEX und NUMEX)
– Portabilität; Einfachere Templates
MUC 6 (3)
● Verständnis auf Basis Technologien; SemEval:– Coreference– Word sense disambiguation– Predicate-argument structure
MUC 7
● Systeme (von IE Task):– American University in Cairo's System– SIFT System (BBN)– Lockheed Martin's NLToolset (AATM7)– Proteus/PET System (NYU)– IE2 System (SRA)– TASC System
senseval
● Ziel : Evaluation von WSD EntscheidungsProgramme (bzgl. unterschiedliche Wörter, Sprachdialekten und unterschiedliche Sprache)
● Sponsoren : ACL-SIGLEX, EURALEX, ELSNET und EU Projekten ECRAN und SPARKLE
senseval (historisch)
– SIGLEX-97: “Tagging Text with Lexical Semantics”– SIGLEX-99: “Standardising Lexical Resources” – senseval – 1– senseval – 2– ACL-02 Workshop
ACE(Automatic Content Extraction)
● Ziel: Entwicklung von ACE Systeme zur Unterstützung der automatischen Verarbeitung der natürlichen Sprache in textuellem Format
● ACE Systeme: Detektion und Charakterisierung von Entitäten, Relation und Ereignisse
● Drei Eingaben: – newswire– broadcast news– newspaper
ACE
Teilnehmer:● BBN● MITRE● LDC ● NIST ● NYU ● SRI
Phasen der ACE
● Phase 1 (99-00): Entity Detection and Tracking
● Phase 2 (01-02): Entity Detection and Tracking + RDC (Relationen)
● evtl. Einstellung wegen mangelnder Finanzierung
Quelle
● http://trec.nist.gov● http://www.itl.nist.gov/iad/894.02/
related_projects/muc/proceedings/muc_7_toc.html
● http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/
● http://www.senseval.org/● http://www.itl.nist.gov/iad/894.01/tests/ace/
Recommended