15
Korpus 2010 & ePOS Jørg Asmussen Det Danske Sprog- og Litteraturselskab Onsdag, 31. oktober 2012 Sprogteknologisk workshop, KU Hvem? Hvornår & hvor? Hvad? Denne præsentation findes under http://korpus.dsl.dk/staff/ja/pres/sprogtekno2012.pdf Hvad ellers? Det almensproglige korpus i DK-CLARIN En ny POS-tagger for dansk 1 Wednesday, 31 October 12

Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

Korpus 2010 & ePOS

Jørg AsmussenDet Danske Sprog- og Litteraturselskab

Onsdag, 31. oktober 2012Sprogteknologisk workshop, KU

Hvem?

Hvornår & hvor?

Hvad?

Denne præsentation findes underhttp://korpus.dsl.dk/staff/ja/pres/sprogtekno2012.pdf

Hvad ellers?

Det almensproglige korpus i DK-CLARIN

En ny POS-tagger for dansk

1Wednesday, 31 October 12

Page 2: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

Intro: DK-CLARIN

Deltagere:Jørg Asmussen, DSLJakob Halskov, DSNLiisa Theilgaard, DSL

1 million kroner:DSL 700.000DSN 300.000

WP2.1 Reference corpus of general language Some corpora for Danish do exist, but there is a need for intensifying the compilation of corpus material both in terms of quantity and with respect to continuity in order to secure the diachronic aspect. The project will collect at least 15 million words of Danish text per year. Material will mainly be taken from newspapers and periodicals. Some basic methods and tools for automatically collecting, structuring and annotating text will be developed, using KB's records of the entire .dk domain, harvested 4 times per year. Material will be collected taking the copyright into consideration and all the collected text will be made available to the research community without restrictions in so far as copyrights permit, cf. WP1.

Arbejdsopgaver ...

DSN0,67 årsværk

DSL1,25 årsværk

Flere oplysninger:http://clarin.dsl.dk

2Wednesday, 31 October 12

Page 4: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

1. Indsamling

Tapning fra KB’s arkiv over dk-domænet

Løbende Infomedia-indsamling DSL siden 2005DSN siden 2008

“Frit” materiale (DSN):FolketingetWikipedia

CLARIN-aftale (DSN):Bo Bedre, Smag & Behag, Se & Hør, Irma, Liberalt Overblik, Socialdemokraten, UNG, Idényt, Vi Unge, Tjeck, Samvirke, Ud & Se

Fælles-aftale:Via Infomedia (DSL): Helse, Magasinet Ejendom, Juristen, djøfbladet, Hus Forbi, Ældre Sagen, Højskolebladet, Folkeskolen, Samfundsøkonomen, penge.dkVia webbet (DSN): blogsbjerg.com, skauogco.blogspot.com, jarlcordua.dk, Lifli, Bentes Blog, blogbogstaver.dk, selvhenter.org, Mangamania, clioonline.dk

Aftale-status uvis

Overvejende komplementære

Infomedia

Lad os se på en fordeling ...

Måtte opgives

4Wednesday, 31 October 12

Page 5: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

1. Indsamling: Tekstmængde fordelt på aftaler

Næste punkt: Metadata og formater ...

14%

49%

32%5%

CLARIN-aftale“Frit” materialeLbd. InfomediaFælles-aftale

2 leverandører FolketingetWikipedia

7 leverandører

WeekendavisenEkstra BladetInformationJyllands-PostenPolitikenUniversitetsavisenKommunalbladet

Ikke CLARIN-clearet

5Wednesday, 31 October 12

Page 6: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

2. Metadata og formater: Kildebeskrivelsen

KildebeskrivelsenTeksttitelForfatterOversætterVærktitelUdgiverForlagLokaliseringURLFilnavn

TEI P5

<SourceDesc>

Videre med tekstprofilen ...6Wednesday, 31 October 12

Page 7: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

2. Metadata og formater: Tekstprofilen

TekstprofilenTilblivelsesårSprogtypeKanalForfatningAfledningDomæneFaktualitetInteraktion: RolleInteraktion: AlderForberedelseFormålKlassifikation

Videre med tekstprofilen ...

Se den fulde headerbeskrivelse under:http://korpus.dsl.dk/clarin/corpus-doc/

text-header.pdf

7Wednesday, 31 October 12

Page 8: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

2. Metadata og formater: Tekstformat

Pga. disse problemer vælger vi en anden løsning ...

Eksempel fra PAROLE-korpusset Ej TEI P5

Annoteringer og tekstfiltret ind i hinanden

Interpunktion fortolket som ord

Vanskeligt at tilføje yderligere annoteringslag

Tokenreferencer ikke mulige

Annoteringer kan ikke adskilles fra teksten

Alternative annoteringer af samme tekst kræver ny version

8Wednesday, 31 October 12

Page 9: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

2. Metadata og formater: Tekstformat

Næste punkt: Ordklasseopmærkning

DK-CLARIN tekstrepræsentation Se den fulde tekstformatbeskrivelse under:http://korpus.dsl.dk/clarin/corpus-doc/

text-format.pdf

9Wednesday, 31 October 12

Page 10: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

3. Ordklasseopmærkning: Muligheder

Fremgangsmåde...

KriterierÅbenhed: Programmel & sprogvidenTilgængelighedSkal kunne lemmatisereUdbredt programmeringssprog, helst JavaSkal kunne tilpasses forskellige behovVeldokumenteretLøbende vedligeholdelse

Evaluering og konklusion12 taggere, heraf 2 til danskFeltforsøg med en Java-implementering af en HMM TaggerTræningsgrundlag: PAROLE v.2Fuldformsleksikon: DSL Flexion, DDO, PAROLE

Læs evalueringsrapporten:http://korpus.dsl.dk/clarin/corpus-doc/

pos-survey.pdf

Læs om taggeren:http://korpus.dsl.dk/clarin/corpus-doc/

pos-design.pdf

10Wednesday, 31 October 12

Page 11: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

3. Ordklasseopmærkning: Fremgangsmåde

Tag-struktur...

Princip: Så simpelt som muligtIngen lingvistisk viden nødvendig til tekstsegmentering, dvs. intet lingvistisk sætnings- eller ordkoncept

Tilpasning af PAROLE-korpusset (ca. 9000 ændringer)Ordgrænser: mellemrum, interpunktion, bindestregerOrtografiske fejl og taggingfejl blev rettet

Opbygning af passende fuldformsleksikon (ca. 100000 lemmaer)Bygger på diverse DSL-resurser, herunder DDOIndtil videre råversion, kræver manuel efterbehandling

TræningsmetodeSlå ordform op i leksikonetTransformér ordformen til et mønster af potentielle tagsBrug dette mønster + det rigtige tag som input i træningen

11Wednesday, 31 October 12

Page 12: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

3. Ordklasseopmærkning: Tag-struktur

Eksempel...

Princip: Strengt positionel (ikke kompakt)Find alle ord med en genitiv-markør uanset deres ordklasse!

XY:abcd:ef:ghij

KlassifikationX = ordklasseY = subklasse

Nominale træka = numerusb = definithedc = kasusd = genus

Verbale træke = tempusf = diatese

Diverse trækg = komparationb = personc = refleksivitetd = possessor

Læs om tag-strukturen:http://korpus.dsl.dk/clarin/corpus-doc/

pos-design.pdf

12Wednesday, 31 October 12

Page 13: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

3. Ordklasseopmærkning: Eksempel

Det færdige korpus...

<s>Min _! min PO:s--c:--:-1nsfar _! far NC:siuc:--:----pacede _! pace VF:----:ta:----mig _! jeg PP:s-uc:--:-1#-frem ,_! frem D-:----:--:u---men _! men CC:----:--:----jeg _! jeg PP:s-nc:--:-1n-måtte _! måtte VF:----:ta:----stoppe _! stoppe VI:----:-a:----som _! som US:----:--:----17 -! 17 LW:----:--:----årig ,_! årig AC:siuc:--:p---fordi _! fordi CS:----:--:----jeg _! jeg PP:s-nc:--:-1n-begyndte _! begynde VF:----:ta:----at _! at UI:----:--:----tage _ tage VI:----:-a:----speed .$ speed NC:siuc:--:----</s>

13Wednesday, 31 October 12

Page 14: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

4. Det færdige korpus

Sidste punkt: Adgang ...

16%

3%2%

16%

2%

13%

48%

avisbladblogfolketingforumwebwikipedia

45 mio. ordFordeling på teksttyper

2008-2011

14Wednesday, 31 October 12

Page 15: Hvad? Korpus 2010 & ePOS · 2012. 11. 12. · Arbejdsopgaver = Program 2. Metadata og formater 1. Indsamling 3. Ordklasseopmærkning Indsamling ... Korpus 2010 4. Det færdige korpus

5. Adgang

Korpus findes som XML TEI P5-filer

POS-tagget&

lemmatiseret

Uploade[ts] tilDK-CLARIN repositoriet

Bliver søgbart i særligweb-grænseflade

TAK!15Wednesday, 31 October 12