Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine

Preview:

DESCRIPTION

Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine. Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 heli.uibo@ut.ee http://math.ut.ee/~heli_u. Süntaktiliselt märgendatud korpused – milleks?. Keeletehnoloogi töövahend: - PowerPoint PPT Presentation

Citation preview

Valdkond: Süntaktiliselt märgendatud korpuste

loomine ja kasutamine

Heli UiboKeeletehnoloogia lektor

J. Liivi 2-339heli.uibo@ut.ee

http://math.ut.ee/~heli_u

Süntaktiliselt märgendatud korpused – milleks?

• Keeletehnoloogi töövahend:– Grammatikapõhiste meetodite puhul –

süntaksianalüsaatori testimiseks– Statistiliste meetodite puhul – nii

süntaksianalüsaatori “ehitamiseks” kui testimiseks

• Lingvisti töövahend: võimaldab kontrollida süntaksiteooriate kehtivust praktikas, teha päringuid lausestruktuuride kohta jne.

Mida tähendab süntaktiline märgendamine?

1. Fraasistruktuuri märgendamine

Mida tähendab süntaktiline märgendamine? (2)

2. Sõltuvusstruktuuri märgendamine (Dům, který je drahý, si nekoupíme.)

Mida tähendab süntaktiline märgendamine? (3)

Pindsüntaktiline märgendamine (määratud iga sõna süntaktiline funktsioon lauses)

Eesti keele süntaktiliselt märgendatud korpused

• Pindsüntaktiliselt analüüsitud korpus EstCGC

• Puude pank (treebank) Arborest

• Puude pank eesti keele morfoloogia ja süntaksi õpetamiseks

• Sofie paralleelpuudepank

Lause pindsüntaktiliselt märgendatud korpusest<s>

Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB

@SUBJon ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr //

@+FMVelu elu+0 //_S_ com sg gen // @NN>vaieldamatu vaieldamatu+0 //_A_ pos sg nom // @AN>omapära oma_pära+0 //_S_ com sg nom // @PRD$. . //_Z_ Fst // </s>

Eesti keele puude pank Arborest

• Koostöö dr. Eckhard Bick’iga, University of Southern Denmark

• Märgendussüsteem: VISL (http://beta.visl.sdu.dk) • Märgendatud nii süntaktilised funktsioonid (S =

subject, P = predicate, O = object, A = adverbial,STA = statement, QUE = question, etc.) kui vormid (fraasistruktuur) (np, vp, pp, advp, adjp, fcl = finite clause, par = paratagma, etc.)

Arborest

• Automaatselt genereeritud EstCGC-st (2500 lauset) reeglitega, mis tuletavad pindsüntaktilisest märgendusest puustruktuuri

• 149 lauset käsitsi parandatud• Reeglid genereerisid 1/3 lausete struktuurid

korrektselt • Reegleid täiendatakse

Veebileht http://corp.hum.sdu.dk/arborest.html

Näitelause eesti keele puude pangast Arborest

Sofie paralleelpuudepank• Alustatud projekti Nordic Treebank

Network raames

• Materjal – esimesed kaks peatükki Jostein Gaarder‘i romaanist "Sofie maailm"

• Keeled: rootsi, saksa, norra, taani, islandi, fääri, eesti

• Sofie Paralleelpuudepanga veebileht:

http://omilia.uio.no/sofie

(user: ntn, password: opera)

Sofie Parallel Treebank

Sophie's father was the captain of a big oil tanker, and was away for most of the year.

Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid

Projekt VISL (Visual Interactive Syntax Learning) Lõuna-Taani Ülikoolis

• üle 20 keele; eesti keelega alustati 2004. a.• kõikide keelte jaoks loodud ühtses formaadis

süntaktiliselt märgendatud korpused ehk puude pangad

• veebileht: http://beta.visl.sdu.dk/visl

Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid (2)

Eesti keele õpetamisotstarbeline puude pank: http://beta.visl.sdu.dk/visl/et– 100 lauset tekstina ja visualiseeritavad

süntaksipuuna– õppemängud:

• sõnaliikide tundmine (“Shooting gallery", „Labyrinth“, “Wordfall”)

• fraaside määramine• lause moodustajate süntaktiliste

funktsioonide määramine (“Space rescue”)

Võimalikud uurimisteemad• Korpuse EstCGC märgenduse korrektsuse ja

ühtluse automaatne kontrollimine• Sofie paralleelpuudepanga uurimine:

– erinevate keelte süntaktiliste struktuuride võrdlemine– automaatne fraaside joondamine

• Veebipõhised süntaksimängud: – tutvustamine koolides ja tagasiside kogumine– õpetamisotstarbelise puude panga suurendamine

• Katsetused masintõlke alal: näidetepõhine (EBMT = example-based machine translation) ja statistiline (SMT)

Fraaside joondamine paralleelpuudepangas

Süntaksjuhitav statistiline masintõlge

• SMT tööriist GenPar: http://www.clsp.jhu.edu/ws2005/groups/statistical/GenPar.html

• Vahend joondatud puustruktuuride visualiseerimiseks http://www.clsp.jhu.edu/ws2005/groups/statistical/mtv.html