View
213
Download
0
Category
Preview:
Citation preview
Språkgranskningsverktyg
Felmodellering
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Varför felmodellering?
• Återkoppling till användaren– Vad kan betraktas som ett fel?– Hur kan det beskrivas?
– Hur kan det förklaras?– Hur kan det åtgärdas?
• Utvärdering– Vilka fel klarar mitt program av?– Hur bra klarar det av dem?
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Huvudsteg vid felmodellering
• Felinsamling
• Felanalys – Vad är för fel?
• Feltypologi– Hur kan felen kategoriseras?
• Hur kan felet åtgärdas?
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Felinsamling
• Korpusbaserad– Text producerad av den aktuella målgruppen– Parallellkorpus av rå och korrekturläst text
• Automatisk felinsamling
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Ex. på rå och korrigerad text
Faran med produkten är att den - till skillnad från klassikern T-röd - innehåller en hög halt metanol, d v s träsprit. (SvD)
->Faran med produkten är att den - till skillnad från
klassikern T-röd - innehåller en hög halt metanol, dvs träsprit. (SvD)
Det kördes också också två treårslopp. (UNT)->Det kördes också två treårslopp. (UNT)
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Scarrie-projektet
Scandinavian Proof-Reading Tools, ett EU projekt som genomfördes 1996-1999.
I projektet utvecklades prototyper till korrekturläsningsverktyg för den danska, norska och svenska publiceringsindustrin.
Det svenska delprojektet var främst inriktat mot tidningstext och genomfördes som ett samarbete mellan Inst f lingvistik vid UU samt SvD och UNT.
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Felinsamling i ScarrieSvenska Dagbladet (SvD) och Uppsala Nya Tidning (UNT) levererade
rå och korrekturläst text. Korrekturläsningen hade gjorts på tidningarna av professionella korrekturläsare.
Materialet från SvD levererades i elektronisk form. De båda textversionerna parallellställdes mening för mening, och korrigeringarna spårades automatiskt med hjälp av ett datorprogram. Totalt sett omfattade leveransen två veckors produktion, vilket svarade mot 734 artiklar och 2 100 fel.
UNT levererade papperskopior med korrekturmarkeringar. Leveransen svarade mot 25 dagars produktion från de avsnitt av tidningen som korrekturlästes. Totalt sett insamlades 6 801 fel med rättelser.
Felen analyserades och kategoriserades i enlighet med en feltypologi som byggdes upp.
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Ex. på grammatikfel
1. ett stor hus2. Böckerna var intressant.3. det tidiga 1800-talen4. en av de många fallen5. Där samlade då hela universitetets spridda administration.6. Det är tänkbart att vi flyttar ut Skandalhuset, men jag kan
inte föregripa utvecklingen.7. En idé har varit att göra Carolina till bli universitetets
ansikte med en informationsdisk i entrén för studenter och besökare.
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Feltypologi i Scarrie
• Huvudgrupp– Kategori
• Underkategori– Specifikation
(Wedbjer Rambell 98)
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Huvudgrupper
• Ordfel (performans och kompetens)
• Grammatikproblem
• Interpunktionsproblem
• Grafiska problem
• Stil-, betydelse- och syftningsproblem
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Ett grammatikfel: analys och felkod
Det tidstypiska tornet var på modet under sent 1800-tal där dåtida sjöman... ->Det tidstypiska tornet var på modet under sent 1800-tal där dåtida sjömän...
• Grupp: Grammatikproblem (GP) • Kategori: Nominalfras (NP) • Underkategori: Kongruens (AG) • Specifikation: singular -> plural (01)
• GPNPAG01
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Stavfel - SP
• Kategorier– Stor bokstav - CP– Ordbildning - WF
– Avstavning – HY– Övriga - OS
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Grammatikfel - GP
• Kategorier– Nominalfraser NP – Adjektivfraser AP
– Adverbfraser AB – Prepositionsfraser PP – Konjunktioner och konjunktiva adverb CN
– Verbfras i begränsad mening VF – Verbvalens VV
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Grammatikproblem – GP, forts
– Pronominellt kasus PC – Kongruens (på satsnivå) AG – Syftningsproblem RP
– Ordföljd WO – Fel ordkategori WC – Andra fel OG
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Interpunktionsproblem - PU
• Kategorier– Meningsslut – ES
– Stor bokstav – CP
– Comma – CO
– Tankestreck i meningen – DW
– Colon – CN
– Semikolon – SN
– Övriga problem - OP
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Grafiska problem - TY
• Kategorier– Mellanrum – SC– Ny rad el. nytt stycke –NL
– Tankestreck i meningen –DW– Anföringstecken – QM– Parenteser – PA
– Typografiska fel –TY– Övriga grafiska problem - OP
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Stil-, betydelse- och syftnings-problem - SP• Rekommenderad skrivning (PS)• Förkortning (AB)• Siffer- och nummerstil (NS)• Rätt ordklass men fel ord (WN)• Val av ord och uttryck (CW)• Val av skiljetecken (CS)• Val av meningsgräns (CB)• Val av syntaktisk konstruktion (SC)• Konsistens i uttrycket (CN)• Redundans (RD)• Syftningsproblem (RP
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Feldatabas
Alla felinstanser analyserades och försågs med uppgift om felkod, tidning, publiceringsdatum och avsnitt i tidningen. Därefter lagrades de tillsammans med de rättade versionerna i en feldatabas, se www.lingfil.uu.se/ling/ecd/. (Sidan är lösenordsskyddad.)
Se också Wedbjer Rambell O., Dahlqvist, B., Tjong Kim Sang, E. & Hein, N. 1998.
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Feldatabasen
Feldatabasen med dess gränssnitt är det bästa hjälpmedlet när det gäller att skaffas sig kunskap och överblick över den komplexa feltypologin
Den tillkom som ett alternativ till ett försök att beskriva typologin som en trädstruktur
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Feldistribution - gruppnivåFel-grupp
Felkod UNT % SvD % Tot. %
Stav-ning
SE 3068 45,4 723 34,5 3809 42,8
Gram-matik
GP 984 14,5 390 18,6 1374 15,4
Interp. PU 1009 14,8 468 22,3 1477 16,6
Typo-grafi
GR 670 9,9 120 5,7 790 8,9
Stil etc. SP 1049 15,4 397 18,9 1446 16,3
Tot. 6798 100 2098 100 8896 100
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Feldistribution - stavfel
Felkat. Felkod UNT % SvD % Tot. %
Stor b. SECP 409 13,3 128 17,7 537 14,1
Ordb. SEWF 630 20,4 346 47,9 976 25,6
Avstav. SEHY 1263 40,9 0 0 1263 33,2
Andra SEOS 783 25,4 248 34,3 1031 27,1
Tot. 3085 100 722 100 3807 100
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Feldistribution - GrammatikFelkat. Felkod UNT % SvD % Tot. %
NP GPNP 414 42,1 147 37,3 561 40,8
AP GPSP 5
0,5 3 0,8
8 0,6
AB GPAB 5 0,5 1 0,3 6 0,4
PP GPPP 114 11,6 38 9,7 152 11,1
Konjunk. GPCN 50 5,1 21 5,4 71 5,2
Verbf. GPVF 79 8,0 33 8,5 112 8,2
Valens GPVV 151 15,3 88 22,6 239 17,4
Pron.kas GPPC 11 1,1 10 2,6 21 1,5
Kongru. GPAG 42 4,3 15 3,8 57 4,1
Syftn. GPR9 26 2,6 10 2,6 36 2,6
Ordf. GPWO 48 4,9 8 2,1 56 4,1
Ordkat. GPWC 13 1,3 1 0,3 14 1,0
Andra GPOG 26 2,6 15 3,8 41 3,0
Tot. 984 100 390 100 1374 100
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Användarmodellering
• Olika användare gör olika fel vilket bör avspeglas i felmodelleringen– felinsamling– feltypologi– felrespons
• se t.ex. EAGLES, 1996, Evaluation of natural language processing systems. Nås via http://www.issco.unige.ch/projects/ewg96/ewg96.html
Språkgranskningsverktyg vt 09, Anna Sågvall Hein
Ex. på feltypologierSvenska
SCARRIEGrammatifix (-> Word)GRANSKA
SpanskaGramCheckCon-Text
DanskaScarrieTEMAA
NorskaScarrie
ItalienskaTEMAA
Recommended