24
Puudepangad (treebanks) Heli Uibo TÜ arvutiteaduse instituut

Puudepangad ( treebanks )

  • Upload
    toviel

  • View
    77

  • Download
    1

Embed Size (px)

DESCRIPTION

Puudepangad ( treebanks ). Heli Uibo TÜ arvutiteaduse instituut. Ülevaade. Mis on treebank (TB) ? Milleks TB-sid vaja on? TB-des kasutatavad süntaksimudelid TB-de loomise ja kasutamise vahendid, visualiseerimine Kuulsamad TB-d maailmas Nordic Treebank Network - PowerPoint PPT Presentation

Citation preview

Page 1: Puudepangad ( treebanks )

Puudepangad (treebanks)

Heli UiboTÜ arvutiteaduse instituut

Page 2: Puudepangad ( treebanks )

Ülevaade

Mis on treebank (TB)? Milleks TB-sid vaja on? TB-des kasutatavad süntaksimudelid TB-de loomise ja kasutamise vahendid,

visualiseerimine Kuulsamad TB-d maailmas Nordic Treebank Network Eesti keele süntaksipuude pank – mis on olemas

ja mida vaja teha?

Page 3: Puudepangad ( treebanks )

Mis on puudepank?

Puudepank (inglise k. treebank) on süntaktiliselt (+ semantiliselt) märgendatud tekstikorpus.

Korpuse tekstid võimalikult loomulikku päritolu, näiteks ajalehetekstid, suuline kõne.

Märgendus peab võimaldama iga lause jaoks konstrueerida puu, seega peab kasutatav süntaksimudel kirjeldama lause osade vahelisi sõltuvussuhteid.

Page 4: Puudepangad ( treebanks )

Milleks puudepanku vaja on?

Keeletarkvara testimine, sh. eriti süntaksianalüsaatorid leksikograafi abivahendid masintõlge küsimus-vastussüsteemid

lingvistiliste teooriate paikapidavuse kontroll masintõlkesüsteemide arendamine (eeldab

paralleel-puudepanka, millest tuletatakse struktuuride transformatsioonireeglid)

Page 5: Puudepangad ( treebanks )

Puudepankades kasutatavad süntaksimudelid Dependency Grammar erinevad

realisatsioonid Head-driven Phrase Structure Grammar

(HPSG) = puustruktuur + tippude tunnusstruktuurid

Page 6: Puudepangad ( treebanks )

Puudepanga loomine

Eesmärk on lingvistiline korrektsus, seepärast toimub märgendamine täielikult käsitsi

või poolautomaatselt (näiteks esmalt

rakendatakse tekstile süntaksianalüsaatorit, märgendust parandavad ja täiendavad eksperdid)

Page 7: Puudepangad ( treebanks )

Puudepanga kasutamine Päringud:

Millistes kontekstides esines antud struktuur? Jne.

Paralleelpuudepankades: Kuidas tõlgiti mingi struktuur ühest keelest teise? masintõlkesüsteemid

Keeletarkvara arendamineparserid leksikograafi abivahendidmasintõlgeküsimus-vastussüsteemid

Page 8: Puudepangad ( treebanks )

Visualiseerimisvahendid

Märgendatud teksti põhjal joonistatakse välja süntaksipuu

Ka puudepanga arendamise tarkvara võib olla graafilise kasutajaliidesega - hõlbustab lingvisti tööd

Page 9: Puudepangad ( treebanks )

Kuulsamad puudepangad maailmas Penn Treebank – Univ of Pennsylvania Prague Treebank (tšehhi k.) Verbmobil (saksa) TiGer (saksa) LinGO – CSLI, Stanford (HPSG)

Page 10: Puudepangad ( treebanks )

Nordic Treebank Network Osalejad:

Rootsi: Växjö, Göteborgi, Stockholmi, Uppsala Ülikool, KTH (Stockholm)

Norra: NTNU (Trondheim), Bergeni ja Oslo Ülikool

Taani: CBS (Copenhagen Business School), SDU (Univ. of Southern Denmark)

Island: Islandi ÜlikoolSoome: CSC (Scientific Computing Ltd.), EspooEesti: Tartu Ülikool

Page 11: Puudepangad ( treebanks )

Nordic Treebank Network Eesmärgid:

Dokumenteerida olemasolevad ressursid ja jooksvad projektid korpuste süntaktilise märgendamise alal.

Toetada keeletehnoloogia-alast doktoriõpet Põhjamaades.

Luua väike paralleel-puudepank. samad tekstid, tõlke-relatsioonis sama märgendussüsteem

Toetada suuremate puudepankade loomist Põhjamaade keelte jaoks.

Rahvusvaheline koostöö.

Page 12: Puudepangad ( treebanks )

Nordic Treebank Network Tegevused:

Rahvusvaheline konverents TLT 2003 (Treebanks and Linguistic Theories)

14.-15. nov. 2003 Växjö’sPhD kursused:

2004 kevadel ja sügisel Teemad (esialgsed):

Treebanks for spoken language (Jens Allwood)Dependency structures in treebanks (Sabine

Kirchmeier-Andersen)Treebanks: Formats, Tools and Usage (Martin Volk)

Page 13: Puudepangad ( treebanks )

Nordic Treebank Network

Ressursside ja projektide dokumenteerimineÜhiselt kasutatava puudepanga arendamise

tarkvara hankimine/kirjutamineEsimene kohtumine 17.-18. sept. 2003

Page 14: Puudepangad ( treebanks )

Eesti keele süntaksipuude pank – mis on olemas? kitsenduste grammatikal (constraint grammar)

põhinevad morfoloogiline ühestaja (T. Puolakainen), valib

sõnavormi morfoloogilistest tõlgendustest välja ühe ja õige (rakendatakse pärast morf. analüsaatorit)

süntaksianalüsaator (K. Müürisep) = shallow syntactic parser, määrab sõnade süntaktilised funktsioonid lauses

Tulemused (2000. a. lõpp): recall = 99.2%, precision = 89.6%, kui sisendis pole

vigu (käsitsi üle kontrollitud) recall = 96.4%, precision = 78.1%, kui sisend on

automaatselt morfoloogiliselt analüüsitud.

Page 15: Puudepangad ( treebanks )

Eesti keele süntaksipuude pank – mis on olemas? kitsenduste grammatika järgi morfoloogiliselt ja

süntaktiliselt märgendatud ja ühestatud korpus mahuga ca 123 000 sõna, (ilukirjandus 106 500 + ajalehed 10 000 + juura 6000)

eelmärgendamiseks on kasutatud programme estmorf (H.-J. Kaalep), estyhmm (Markovi peitmudelil põhinev statistiline morf. ühestaja, H.-J. Kaalep, T. Vaino) ja CGP (constraint grammar parser, K. Müürisep)

Page 16: Puudepangad ( treebanks )

Eesti k. puudepank – mis olemas? Märgendamine viiakse lõpule käsitsi

lõplik morfoloogiline ühestamine pärast programmide estmorf ja estyhmm rakendamist;

lõplik süntaktiline ühestamine pärast programmi CGP rakendamist.

Metoodika: Ühte ja sama teksti ühestavad sõltumatult kaks lingvisti. Tulemusi võrreldakse automaatselt. Kui mõlemad lingvistid on määranud sõnale sama

süntaktilise funktsiooni, siis loetakse see õigeks. Kui hinnangud lahknevad, siis probleemi arutatakse ja

lahendatakse erimeelsused.

Page 17: Puudepangad ( treebanks )

Eesti keele kitsenduste grammatika süntaksianalüsaatori märgendid SUBJ – alus OBJ – sihitis +FMV, -FMV, +FCV, -FCV – öeldise märgendid PRD – öeldistäide ADVL – määrus NN>, <NN – nimisõnaline ees- ja järeltäiend AN>, <AN – omadussõnaline ees- ja järeltäiend P>, <P – kaassõnafraasi laiend Q>, <Q – kvantorifraasi laiend

Page 18: Puudepangad ( treebanks )

Näide märgendatud lausestMitmekesisus

mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB @SUBJ

on

ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr // @+FMV

elu

elu+0 //_S_ com sg gen // @NN>

vaieldamatu

vaieldamatu+0 //_A_ pos sg nom // @AN>

omapära

oma_pära+0 //_S_ com sg nom // @PRD

$,

$, //_Z_ Com //

Page 19: Puudepangad ( treebanks )

Näide märgendatud lausest (järg)selle

see+0 //_P_ dem sg gen // **CLB @P>

vastu

vastu+0 //_K_ post #gen // @ADVL

ei

ei+0 //_V_ aux neg // @NEG

tohi

tohti+0 //_V_ mod indic pres ps neg #FinV #Intr // @+FCV

kätt

käsi+tt //_S_ com sg part // @OBJ

tõsta

tõst+a //_V_ main inf #NGP-P // @-FMV

$.

$. //_Z_ Fst //

Page 20: Puudepangad ( treebanks )

Fraasistruktuuripuu (1. osalause) S

NP VP

N auxV Nmitmekesisus on omapära

Adj vaieldamatu N elu

Page 21: Puudepangad ( treebanks )

Fraasistruktuuripuu (2. osalause)

S

PP VP

N P neg modV cVselle vastu ei tohi

N Vkätt tõsta

Page 22: Puudepangad ( treebanks )

Probleem: puu joonistamiseks ei piisa CG-tüüpi pindsüntaktilisest analüüsist Võimalik lahendus: üleminek FDG-le (Functional

Dependency Grammar) – sõltuvussuhted paremini väljendatud, seejuures võimalik ka fraasistruktuuri taastamine sõltuvusstruktuurist

FDG realisatsioon: Connexor OY (T. Järvinen jt.)

www.conexor.fi/demos

Page 23: Puudepangad ( treebanks )

Linke http://www.bultreebank.org/Proceedings.html –

Proceedings of The First Workshop on Treebanks and Linguistic Theories (TLT 2002) Sozopol, Bulgaaria

http://wodan.let.rug.nl/vannoord_bin/alpino – Alpino treebank (Groningeni Ülikool, hollandi k., näitelaused olemas)

http://www.speech.kth.se/~bea/treebank.html – Beata Megyesi lingid

http://faculty.washington.edu/dillon/GramResources/GramResources.html – resources for studying English syntax online

Page 24: Puudepangad ( treebanks )

Lõpetuseks

Eesti keele puudepank ootab tegijaid (põhitöö 2004-..., aga tausta võib uurima hakata varem).