Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Korpus 2010 & ePOS
Jørg AsmussenDet Danske Sprog- og Litteraturselskab
Onsdag, 31. oktober 2012Sprogteknologisk workshop, KU
Hvem?
Hvornår & hvor?
Hvad?
Denne præsentation findes underhttp://korpus.dsl.dk/staff/ja/pres/sprogtekno2012.pdf
Hvad ellers?
Det almensproglige korpus i DK-CLARIN
En ny POS-tagger for dansk
1Wednesday, 31 October 12
Intro: DK-CLARIN
Deltagere:Jørg Asmussen, DSLJakob Halskov, DSNLiisa Theilgaard, DSL
1 million kroner:DSL 700.000DSN 300.000
WP2.1 Reference corpus of general language Some corpora for Danish do exist, but there is a need for intensifying the compilation of corpus material both in terms of quantity and with respect to continuity in order to secure the diachronic aspect. The project will collect at least 15 million words of Danish text per year. Material will mainly be taken from newspapers and periodicals. Some basic methods and tools for automatically collecting, structuring and annotating text will be developed, using KB's records of the entire .dk domain, harvested 4 times per year. Material will be collected taking the copyright into consideration and all the collected text will be made available to the research community without restrictions in so far as copyrights permit, cf. WP1.
Arbejdsopgaver ...
DSN0,67 årsværk
DSL1,25 årsværk
Flere oplysninger:http://clarin.dsl.dk
2Wednesday, 31 October 12
Arbejdsopgaver = Program
2. Metadata og formater1. Indsamling
3. Ordklasseopmærkning
Indsamling ...
Korpus 2010
4. Det færdige korpus
5. Adgang
3Wednesday, 31 October 12
1. Indsamling
Tapning fra KB’s arkiv over dk-domænet
Løbende Infomedia-indsamling DSL siden 2005DSN siden 2008
“Frit” materiale (DSN):FolketingetWikipedia
CLARIN-aftale (DSN):Bo Bedre, Smag & Behag, Se & Hør, Irma, Liberalt Overblik, Socialdemokraten, UNG, Idényt, Vi Unge, Tjeck, Samvirke, Ud & Se
Fælles-aftale:Via Infomedia (DSL): Helse, Magasinet Ejendom, Juristen, djøfbladet, Hus Forbi, Ældre Sagen, Højskolebladet, Folkeskolen, Samfundsøkonomen, penge.dkVia webbet (DSN): blogsbjerg.com, skauogco.blogspot.com, jarlcordua.dk, Lifli, Bentes Blog, blogbogstaver.dk, selvhenter.org, Mangamania, clioonline.dk
Aftale-status uvis
Overvejende komplementære
Infomedia
Lad os se på en fordeling ...
Måtte opgives
4Wednesday, 31 October 12
1. Indsamling: Tekstmængde fordelt på aftaler
Næste punkt: Metadata og formater ...
14%
49%
32%5%
CLARIN-aftale“Frit” materialeLbd. InfomediaFælles-aftale
2 leverandører FolketingetWikipedia
7 leverandører
WeekendavisenEkstra BladetInformationJyllands-PostenPolitikenUniversitetsavisenKommunalbladet
Ikke CLARIN-clearet
5Wednesday, 31 October 12
2. Metadata og formater: Kildebeskrivelsen
KildebeskrivelsenTeksttitelForfatterOversætterVærktitelUdgiverForlagLokaliseringURLFilnavn
TEI P5
<SourceDesc>
Videre med tekstprofilen ...6Wednesday, 31 October 12
2. Metadata og formater: Tekstprofilen
TekstprofilenTilblivelsesårSprogtypeKanalForfatningAfledningDomæneFaktualitetInteraktion: RolleInteraktion: AlderForberedelseFormålKlassifikation
Videre med tekstprofilen ...
Se den fulde headerbeskrivelse under:http://korpus.dsl.dk/clarin/corpus-doc/
text-header.pdf
7Wednesday, 31 October 12
2. Metadata og formater: Tekstformat
Pga. disse problemer vælger vi en anden løsning ...
Eksempel fra PAROLE-korpusset Ej TEI P5
Annoteringer og tekstfiltret ind i hinanden
Interpunktion fortolket som ord
Vanskeligt at tilføje yderligere annoteringslag
Tokenreferencer ikke mulige
Annoteringer kan ikke adskilles fra teksten
Alternative annoteringer af samme tekst kræver ny version
8Wednesday, 31 October 12
2. Metadata og formater: Tekstformat
Næste punkt: Ordklasseopmærkning
DK-CLARIN tekstrepræsentation Se den fulde tekstformatbeskrivelse under:http://korpus.dsl.dk/clarin/corpus-doc/
text-format.pdf
9Wednesday, 31 October 12
3. Ordklasseopmærkning: Muligheder
Fremgangsmåde...
KriterierÅbenhed: Programmel & sprogvidenTilgængelighedSkal kunne lemmatisereUdbredt programmeringssprog, helst JavaSkal kunne tilpasses forskellige behovVeldokumenteretLøbende vedligeholdelse
Evaluering og konklusion12 taggere, heraf 2 til danskFeltforsøg med en Java-implementering af en HMM TaggerTræningsgrundlag: PAROLE v.2Fuldformsleksikon: DSL Flexion, DDO, PAROLE
Læs evalueringsrapporten:http://korpus.dsl.dk/clarin/corpus-doc/
pos-survey.pdf
Læs om taggeren:http://korpus.dsl.dk/clarin/corpus-doc/
pos-design.pdf
10Wednesday, 31 October 12
3. Ordklasseopmærkning: Fremgangsmåde
Tag-struktur...
Princip: Så simpelt som muligtIngen lingvistisk viden nødvendig til tekstsegmentering, dvs. intet lingvistisk sætnings- eller ordkoncept
Tilpasning af PAROLE-korpusset (ca. 9000 ændringer)Ordgrænser: mellemrum, interpunktion, bindestregerOrtografiske fejl og taggingfejl blev rettet
Opbygning af passende fuldformsleksikon (ca. 100000 lemmaer)Bygger på diverse DSL-resurser, herunder DDOIndtil videre råversion, kræver manuel efterbehandling
TræningsmetodeSlå ordform op i leksikonetTransformér ordformen til et mønster af potentielle tagsBrug dette mønster + det rigtige tag som input i træningen
11Wednesday, 31 October 12
3. Ordklasseopmærkning: Tag-struktur
Eksempel...
Princip: Strengt positionel (ikke kompakt)Find alle ord med en genitiv-markør uanset deres ordklasse!
XY:abcd:ef:ghij
KlassifikationX = ordklasseY = subklasse
Nominale træka = numerusb = definithedc = kasusd = genus
Verbale træke = tempusf = diatese
Diverse trækg = komparationb = personc = refleksivitetd = possessor
Læs om tag-strukturen:http://korpus.dsl.dk/clarin/corpus-doc/
pos-design.pdf
12Wednesday, 31 October 12
3. Ordklasseopmærkning: Eksempel
Det færdige korpus...
<s>Min _! min PO:s--c:--:-1nsfar _! far NC:siuc:--:----pacede _! pace VF:----:ta:----mig _! jeg PP:s-uc:--:-1#-frem ,_! frem D-:----:--:u---men _! men CC:----:--:----jeg _! jeg PP:s-nc:--:-1n-måtte _! måtte VF:----:ta:----stoppe _! stoppe VI:----:-a:----som _! som US:----:--:----17 -! 17 LW:----:--:----årig ,_! årig AC:siuc:--:p---fordi _! fordi CS:----:--:----jeg _! jeg PP:s-nc:--:-1n-begyndte _! begynde VF:----:ta:----at _! at UI:----:--:----tage _ tage VI:----:-a:----speed .$ speed NC:siuc:--:----</s>
13Wednesday, 31 October 12
4. Det færdige korpus
Sidste punkt: Adgang ...
16%
3%2%
16%
2%
13%
48%
avisbladblogfolketingforumwebwikipedia
45 mio. ordFordeling på teksttyper
2008-2011
14Wednesday, 31 October 12
5. Adgang
Korpus findes som XML TEI P5-filer
POS-tagget&
lemmatiseret
Uploade[ts] tilDK-CLARIN repositoriet
Bliver søgbart i særligweb-grænseflade
TAK!15Wednesday, 31 October 12