Upload
toviel
View
77
Download
1
Embed Size (px)
DESCRIPTION
Puudepangad ( treebanks ). Heli Uibo TÜ arvutiteaduse instituut. Ülevaade. Mis on treebank (TB) ? Milleks TB-sid vaja on? TB-des kasutatavad süntaksimudelid TB-de loomise ja kasutamise vahendid, visualiseerimine Kuulsamad TB-d maailmas Nordic Treebank Network - PowerPoint PPT Presentation
Citation preview
Puudepangad (treebanks)
Heli UiboTÜ arvutiteaduse instituut
Ülevaade
Mis on treebank (TB)? Milleks TB-sid vaja on? TB-des kasutatavad süntaksimudelid TB-de loomise ja kasutamise vahendid,
visualiseerimine Kuulsamad TB-d maailmas Nordic Treebank Network Eesti keele süntaksipuude pank – mis on olemas
ja mida vaja teha?
Mis on puudepank?
Puudepank (inglise k. treebank) on süntaktiliselt (+ semantiliselt) märgendatud tekstikorpus.
Korpuse tekstid võimalikult loomulikku päritolu, näiteks ajalehetekstid, suuline kõne.
Märgendus peab võimaldama iga lause jaoks konstrueerida puu, seega peab kasutatav süntaksimudel kirjeldama lause osade vahelisi sõltuvussuhteid.
Milleks puudepanku vaja on?
Keeletarkvara testimine, sh. eriti süntaksianalüsaatorid leksikograafi abivahendid masintõlge küsimus-vastussüsteemid
lingvistiliste teooriate paikapidavuse kontroll masintõlkesüsteemide arendamine (eeldab
paralleel-puudepanka, millest tuletatakse struktuuride transformatsioonireeglid)
Puudepankades kasutatavad süntaksimudelid Dependency Grammar erinevad
realisatsioonid Head-driven Phrase Structure Grammar
(HPSG) = puustruktuur + tippude tunnusstruktuurid
Puudepanga loomine
Eesmärk on lingvistiline korrektsus, seepärast toimub märgendamine täielikult käsitsi
või poolautomaatselt (näiteks esmalt
rakendatakse tekstile süntaksianalüsaatorit, märgendust parandavad ja täiendavad eksperdid)
Puudepanga kasutamine Päringud:
Millistes kontekstides esines antud struktuur? Jne.
Paralleelpuudepankades: Kuidas tõlgiti mingi struktuur ühest keelest teise? masintõlkesüsteemid
Keeletarkvara arendamineparserid leksikograafi abivahendidmasintõlgeküsimus-vastussüsteemid
Visualiseerimisvahendid
Märgendatud teksti põhjal joonistatakse välja süntaksipuu
Ka puudepanga arendamise tarkvara võib olla graafilise kasutajaliidesega - hõlbustab lingvisti tööd
Kuulsamad puudepangad maailmas Penn Treebank – Univ of Pennsylvania Prague Treebank (tšehhi k.) Verbmobil (saksa) TiGer (saksa) LinGO – CSLI, Stanford (HPSG)
Nordic Treebank Network Osalejad:
Rootsi: Växjö, Göteborgi, Stockholmi, Uppsala Ülikool, KTH (Stockholm)
Norra: NTNU (Trondheim), Bergeni ja Oslo Ülikool
Taani: CBS (Copenhagen Business School), SDU (Univ. of Southern Denmark)
Island: Islandi ÜlikoolSoome: CSC (Scientific Computing Ltd.), EspooEesti: Tartu Ülikool
Nordic Treebank Network Eesmärgid:
Dokumenteerida olemasolevad ressursid ja jooksvad projektid korpuste süntaktilise märgendamise alal.
Toetada keeletehnoloogia-alast doktoriõpet Põhjamaades.
Luua väike paralleel-puudepank. samad tekstid, tõlke-relatsioonis sama märgendussüsteem
Toetada suuremate puudepankade loomist Põhjamaade keelte jaoks.
Rahvusvaheline koostöö.
Nordic Treebank Network Tegevused:
Rahvusvaheline konverents TLT 2003 (Treebanks and Linguistic Theories)
14.-15. nov. 2003 Växjö’sPhD kursused:
2004 kevadel ja sügisel Teemad (esialgsed):
Treebanks for spoken language (Jens Allwood)Dependency structures in treebanks (Sabine
Kirchmeier-Andersen)Treebanks: Formats, Tools and Usage (Martin Volk)
Nordic Treebank Network
Ressursside ja projektide dokumenteerimineÜhiselt kasutatava puudepanga arendamise
tarkvara hankimine/kirjutamineEsimene kohtumine 17.-18. sept. 2003
Eesti keele süntaksipuude pank – mis on olemas? kitsenduste grammatikal (constraint grammar)
põhinevad morfoloogiline ühestaja (T. Puolakainen), valib
sõnavormi morfoloogilistest tõlgendustest välja ühe ja õige (rakendatakse pärast morf. analüsaatorit)
süntaksianalüsaator (K. Müürisep) = shallow syntactic parser, määrab sõnade süntaktilised funktsioonid lauses
Tulemused (2000. a. lõpp): recall = 99.2%, precision = 89.6%, kui sisendis pole
vigu (käsitsi üle kontrollitud) recall = 96.4%, precision = 78.1%, kui sisend on
automaatselt morfoloogiliselt analüüsitud.
Eesti keele süntaksipuude pank – mis on olemas? kitsenduste grammatika järgi morfoloogiliselt ja
süntaktiliselt märgendatud ja ühestatud korpus mahuga ca 123 000 sõna, (ilukirjandus 106 500 + ajalehed 10 000 + juura 6000)
eelmärgendamiseks on kasutatud programme estmorf (H.-J. Kaalep), estyhmm (Markovi peitmudelil põhinev statistiline morf. ühestaja, H.-J. Kaalep, T. Vaino) ja CGP (constraint grammar parser, K. Müürisep)
Eesti k. puudepank – mis olemas? Märgendamine viiakse lõpule käsitsi
lõplik morfoloogiline ühestamine pärast programmide estmorf ja estyhmm rakendamist;
lõplik süntaktiline ühestamine pärast programmi CGP rakendamist.
Metoodika: Ühte ja sama teksti ühestavad sõltumatult kaks lingvisti. Tulemusi võrreldakse automaatselt. Kui mõlemad lingvistid on määranud sõnale sama
süntaktilise funktsiooni, siis loetakse see õigeks. Kui hinnangud lahknevad, siis probleemi arutatakse ja
lahendatakse erimeelsused.
Eesti keele kitsenduste grammatika süntaksianalüsaatori märgendid SUBJ – alus OBJ – sihitis +FMV, -FMV, +FCV, -FCV – öeldise märgendid PRD – öeldistäide ADVL – määrus NN>, <NN – nimisõnaline ees- ja järeltäiend AN>, <AN – omadussõnaline ees- ja järeltäiend P>, <P – kaassõnafraasi laiend Q>, <Q – kvantorifraasi laiend
Näide märgendatud lausestMitmekesisus
mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB @SUBJ
on
ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr // @+FMV
elu
elu+0 //_S_ com sg gen // @NN>
vaieldamatu
vaieldamatu+0 //_A_ pos sg nom // @AN>
omapära
oma_pära+0 //_S_ com sg nom // @PRD
$,
$, //_Z_ Com //
Näide märgendatud lausest (järg)selle
see+0 //_P_ dem sg gen // **CLB @P>
vastu
vastu+0 //_K_ post #gen // @ADVL
ei
ei+0 //_V_ aux neg // @NEG
tohi
tohti+0 //_V_ mod indic pres ps neg #FinV #Intr // @+FCV
kätt
käsi+tt //_S_ com sg part // @OBJ
tõsta
tõst+a //_V_ main inf #NGP-P // @-FMV
$.
$. //_Z_ Fst //
Fraasistruktuuripuu (1. osalause) S
NP VP
N auxV Nmitmekesisus on omapära
Adj vaieldamatu N elu
Fraasistruktuuripuu (2. osalause)
S
PP VP
N P neg modV cVselle vastu ei tohi
N Vkätt tõsta
Probleem: puu joonistamiseks ei piisa CG-tüüpi pindsüntaktilisest analüüsist Võimalik lahendus: üleminek FDG-le (Functional
Dependency Grammar) – sõltuvussuhted paremini väljendatud, seejuures võimalik ka fraasistruktuuri taastamine sõltuvusstruktuurist
FDG realisatsioon: Connexor OY (T. Järvinen jt.)
www.conexor.fi/demos
Linke http://www.bultreebank.org/Proceedings.html –
Proceedings of The First Workshop on Treebanks and Linguistic Theories (TLT 2002) Sozopol, Bulgaaria
http://wodan.let.rug.nl/vannoord_bin/alpino – Alpino treebank (Groningeni Ülikool, hollandi k., näitelaused olemas)
http://www.speech.kth.se/~bea/treebank.html – Beata Megyesi lingid
http://faculty.washington.edu/dillon/GramResources/GramResources.html – resources for studying English syntax online
Lõpetuseks
Eesti keele puudepank ootab tegijaid (põhitöö 2004-..., aga tausta võib uurima hakata varem).