Upload
zola
View
60
Download
2
Embed Size (px)
DESCRIPTION
Track 3: Historische lexicondata. Katrien Depuydt. Doel van track 3. Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands. Het historisch lexicon. Opbouw : - PowerPoint PPT Presentation
Citation preview
Katrien Depuydt
Track 3: Historische lexicondata
Doel van track 3
Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken
Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands
Het historisch lexicon
Opbouw:
Toekenning “modern lemma” en woordsoort aan alle woordvormen
Attestatie-informatie bij de woordvormen Koppeling met de historische woordenboeken
Toepassingen van het historisch lexicon
Gebruik bij automatische taalkundige verrijking Referentie bij interpretatie teksten Query-expansie: er kan met modern lemma als
zoeksleutel gezocht worden
Toepassingen van het historisch lexicon
Bulga
rian
Czech
180
0-18
09
Czech
181
0-18
42
Czech
184
3-18
49
Czech
185
0
Dutch
Engl
ish
Fren
ch
Germ
an 1
6
Germ
an 1
7
Germ
an 1
8
Germ
an 1
9
Polis
h
Polis
h 2
Slov
ene
Span
ish
0
0.2
0.4
0.6
0.8
1
1.2
Modern lexicon coverage Match with modern lexicon and patterns (MP) Match with modern and historical lexicon (MH)Match with modern lexicon, historical lex-icon and patterns (MHP)
Toepassingen van het historisch lexicon
Hoe bouwen we het
WNT-gebaseerd IMPACT lexicon wordt basis Uitbreiding met gegevens uit ONW, VMNW,
MNW Onderlinge koppeling van de woordenboeken
zodat we daadwerkelijk een lexicon krijgen Uitbreiding gebaseerd op corpusmateriaal
(historisch en modern)
Ingrediënten basislexicon
ONW : 9268 ingangen, 12619 definities, 30025 citaten
VMNW: 25946 ingangen, 102202 definities, 194366 citaten
MNW: 74773 ingangen, 144367 definities, 392244 citaten
WNT: 467217 ingangen, 915637 definities, 1665537 citaten
ingangen totaal: 577.204 betekenissen totaal: 1.174.825 citaten totaal: 2.282.172
Werkwijze: lexiconinhoud uit woordenboekcitaten
Uitgangspunt: WNT-module GiGaNT
Onderlinge koppeling woordenboeklemmata
Werkwijze: Corpusgebaseerde uitbreiding lexicon
Trainingmateriaal voor taggen en lemmatiseren
Omvang per periode en type materiaal: te bepalen!
Werkwijze: automatische voorbewerking en correctie in CoBaLT (vgl. Kenter, Erjavec, Žorga Dulmin & Fiše 2012)
Integratie met basislexicon
Deliverables
D. 1.1 Uitbreiding van het GiGaNT-lexicon met de MNW-basismodule
D. 1.2 Uitbreding van het GiGaNT-lexicon met de VMNW-basismodule
D. 1.3 Uitbreiding van het GiGaNT-lexicon met de ONW-basismodule
D. 1.4 Eventueel uitbreiding van het GiGaNT-lexicon met modern materiaal
D. 1.5 Periodespecifieke sets van spellingvariatieregels die in combinatie met het lexicon als webservice gebruikt moeten worden bij de verrijking. Tool ontwikkeld binnen IMPACT. Onderzoek nodig naar grootte van de periode.
D. 1.6 Gold Standard corpusmateriaal voor het trainen van taggers en lemmatiseerders voor nog nader te definiëren periodes, en ter aanvulling van het lexiconmateriaal van de verschillende periodes.