50
Pristupi ovisnosnom parsanju hrvatskih tekstova Željko Agić Sveučilište u Zagrebu Filozofski fakultet Odsjek za informacijske i komunikacijske znanosti 2012-07-09

Pristupi ovisnosnom parsanju hrvatskih tekstova

Embed Size (px)

Citation preview

Page 1: Pristupi ovisnosnom parsanju hrvatskih tekstova

Pristupi ovisnosnom parsanju hrvatskih tekstova

Željko Agić

Sveučilište u ZagrebuFilozofski fakultet

Odsjek za informacijske i komunikacijske znanosti

2012-07-09

Page 2: Pristupi ovisnosnom parsanju hrvatskih tekstova

Pregled

Željko objašnjava parsanje .N V N Z

Pred

Sb Obj

AuxK

Page 3: Pristupi ovisnosnom parsanju hrvatskih tekstova

Pregled

PitanjaI Što je ovisnosno parsanje teksta?I Kako i zašto ovisnosno parsati tekst računalom?I Kako što točnije i učinkovitije ovisnosno parsati tekstove pisane

hrvatskim jezikom?Hipoteze

I Tekstovi pisani hrvatskim jezikom mogu se robustno, točno iučinkovito ovisnosno parsati.

I Točnost ovisnosnoga parsanja može se povećati uporabom jezičnihresursa za hrvatski jezik, bez gubitka robusnosti i učinkovitosti.

Page 4: Pristupi ovisnosnom parsanju hrvatskih tekstova

Sadržaj

I ovisnosno parsanjeI definicija parsanjaI parser kao inteligentni računalni sustavI parsanje jezika i parsanje tekstaI opći model parsera tekstaI ovisnosno parsanje i ovisnosni parser

I postojeći pristupiI natjecanja u ovisnosnom parsanjuI ovisnosni parseri temeljeni na teoriji grafovaI prijelaznički ovisnosni parseri

I jedan model ovisnosnog parsera hrvatskih tekstovaI neki pristupi poboljšavanju parseraI predloženi pristup

I zaključakI nacrt budućih istraživanja

Page 5: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeSintaktička analiza — parsanje — neke definicije

I Parsanje je sintaktička analiza.I Sintaktički analizirati znači provesti analizu s gledišta sintakse.I Sintaksa je

I jezikoslovna disciplina ili razina jezičnoga opisa,I skup pravila za opis nekoga jezika na toj razini jezičnoga opisa,I instancija tih pravila nad nekim jezičnim uzorkom, itd.

I Sintaktička analiza je analiza uloga riječi i skupova riječi urečenicama nekog jezika prema nekom sintaktičkom formalizmu.

I Sintaktička analiza naziva se parsanje iz povijesnih razloga.

Page 6: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeElementi rečeničnoga ustroja. Jednostavne i složene rečenice

Sintaktička analiza je analiza uloga riječi i skupova riječi urečenicama nekog jezika prema nekom sintaktičkom formalizmu.

I elementi rečeničnoga ustroja jednostavne rečeniceI samostalni elementi

I predikat — radnja, subjekt — vršitelj, objekt — trpiteljI priložna oznaka — dodatni opis radnje

Željko je igrao nogomet svake srijede.I nesamostalni elementi

I atribut i apozicija — dodatni opisi vršitelja i trpiteljaAmater Željko je igrao loš nogomet svake srijede.

I složene rečeniceI nezavisno-složene — koordinacija

Željko je igrao nogomet, a vani je padala kiša.I zavisno-složene — subordinacija

Željko je igrao nogomet dok je vani padala kiša.

Page 7: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeUvođenje elemenata rečeničnoga ustroja u rečenicu

Elementi rečeničnoga ustroja se uvode u rečenicu jedni po drugima.

Željko objašnjava ovisnosno parsanje .N V N Z

Pred

Sb Atr

Obj

AuxK

Sintaktički formalizam podrazumijeva opis elemenata rečeničnoga ustrojai opis načina njihovoga uvođenja u rečenicu.

Page 8: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeSintaktički formalizmi

I sintaktički formalizmi po opisu uvođenjaI sintaksa fraznih struktura (en. phrase structure, constitutency)I ovisnosna sintaksa (en. dependency)

Ovisnosni modeli sintakse smatraju se prikladnijima za jezike saslobodnijim redoslijedom riječi.

Page 9: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeSintaktički formalizmi — projektivnost i neprojektivnost

I (ne)projektivnost se odnosi na svojstvo pojedinih elemenatarečeničnoga ustroja da (ne) predstavljaju neprekinute slijedove riječi

Page 10: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeSintaktička višeznačnost prirodnoga jezika

Jezik je višeznačan na svim razinama jezičnoga opisa.Višeznačnost jezika postoji s razlogom — olakšava razmjenu obavijesti.

Vratar brani dobro .

Pred AuxK

Sb Obj

Adv

Koju obavijest ljudi usvajaju iz ove rečenice i kako to rade?Kako u računalo ugraditi znanje za takvu vrstu obradbe?

Page 11: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeParser kao inteligentni računalni sustav

Parser je inteligentni računalni sustav kojim se provodi sintaktička analizarečenica nekoga jezika u skladu sa zadanim sintaktičkim formalizmom.

I umjetna inteligencijaI stvaranje strojeva koji usporedivo dobro izvršavaju zadatke za koje

ljudi koriste inteligenciju kad ih izvršavajuI parsanje jezika i parsanje teksta

I generativni sintaktički model — formalne gramatike, formalni jeziciI parseri formalnom gramatikom (CYK, Earley, itd.)

I implicitni model — obradba prirodnoga jezikaI parseri temeljeni na ručno izrađenim pravilimaI parseri temeljeni na podatcima

Page 12: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeTražena svojstva parsera prirodnoga jezika

I robustno razrješavanje višeznačnostiParser je robustan ako svakoj rečenici dodijeli barem jedno parsnostablo.Parser razrješuje sintaktičku višeznačnost ako svakoj rečenici dodijelinajviše jedno parsno stablo.

I točnostParser je potpuno točan ako svakoj rečenici dodijeli baš ono parsnostablo koje predstavlja točno tumačenje te rečenice prema zadanomeformalizmu.

I učinkovitostParser je potpuno učinkovit ako rečenice parsa u linearnom vremenu.

Page 13: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeTražena svojstva, parseri gramatikom i parseri teksta

I parseri gramatikom ne zadovoljavaju neka od svojstavaI nijedan ne razrješuje višeznačnost robustnoI problem (ne)pokrivenosti prirodnoga jezika formalnom gramatikomI problem nemogućnosti razrješivanja postojećim parserima

I opći model parsera tekstaI jezični model i algoritam za parsanje

Page 14: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeParseri teksta temeljeni na jezičnim resursima

I dva razdvojena pristupaI ovisnosni parseri temeljeni na ručno izrađenim pravilima

I često se nazivaju i parserima temeljenima na gramatikamaI zadržavaju probleme pokrivenosti i posljedične nemogućnosti

robustnoga razrješivanja sintaktičke višeznačnostiI ovisnosni parseri temeljeni na podatcima

Page 15: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeSintaktički označeni računalni korpusi — banke ovisnosnih stabala

I banka ovisnosnih stabalaI korpus tekstova pisanih nekim jezikomI označene granice rečenica i riječiI svakoj rečenici dodijeljeno ovisnosno stabloI najčešće također lematiziran i morfosintaktički označen

I Hrvatska ovisnosna banka stabala — HOBSI izgrađuje se nad novinskim korpusom CW100 (cca 108 kw)I slijedi načela izgradnje Praške banke ovisnosnih stabala

Page 16: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeHrvatska ovisnosna banka stabala

I čestota sintaktičkih funkcijaI osnovne i proširene, odnosno sve funkcije

Page 17: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeHrvatska ovisnosna banka stabala

I čestota sintaktičkih funkcijaI izdvojene samo osnovne sintaktičke funkcije

Page 18: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeHrvatska ovisnosna banka stabala

I čestota rečenica po broju pojavnicaI najviše rečenica između 15 i 25 pojavnica

Page 19: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeHrvatska ovisnosna banka stabala

I razdioba sintaktičkih funkcija po vrstama riječiI izdvojene osnovne sintaktičke funkcije s ozbirom na definiciju

elemenata rečeničnoga ustroja i najčešće vrste riječi

Page 20: Pristupi ovisnosnom parsanju hrvatskih tekstova

Ovisnosno parsanjeHrvatska ovisnosna banka stabala

I HOBS nije dovršen resursI prilagodbe preuzetog formalizma posebnostima hrvatskih tekstovaI ispravljanje pogrešakaI sustavno označavanje složenih rečenicaI označavanje čitavog korpusa CW100 — preostalo je 1,161 rečenicaI uvođenje novih tekstova

I nastavak ručnog označavanjaI hr-si paralelni korpus 1984. iz projekta MTEI poluautomatsko prebacivanje ovisnosnih stabala

I eksperimenti s ovisnosnim parsanjem drugih jezikaI korištene banke stabala od min. 30 kw do max. 0.5 mwI HOBS dovoljno velik za treniranje ovisnosnih parsera i preliminarno

testiranje

Page 21: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriOdabir pristupa parsanju za testiranje na HOBS-u

I testirati ovisnosne parsere na hrvatskim tekstovima iz HOBS-aI brojni javno dostupni ovisnosni parseri

I MaltParser, MSTParser, ISBN Parser, DeSR, kMST Parser, itd.I velik interes za ovisnosno parsanje u zadnjih 10-ak godina

I pristup odabiruI isprobati različite paradigmeI isključiti neisplative parsere iz testiranja

I natjecanja u ovisnosnom parsanju na skupu CoNLL 2006. i 2007.I izdvaja se MaltParser i MSTParserI parseri temeljeni na podatcima i teoriji grafova, odnosno

prijelazničkim sustavima

Page 22: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriOsnovne postavke problema

I ovisnosno parsanje je optimizacijski problemI opći model ovisnosnog parsera temeljenoga na podatcimaI jezični model, parsni algoritam, treniranje i testiranje

M = (Γ, λ, h),G = h(s, Γ, λ)

Page 23: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriOvisnosno parsanje temeljeno na teoriji grafova

I ovisnosno stablo je grafI svojstvo posjedovanja korijenskog čvora, povezanosti, usmjerenosti,

acikličnosti, jedne glave po relacijiI primjena metoda iz teorije grafova

I jezični model sadrži preferencije povezivanja pojedinih riječi u relacijeuz dodjelu pojedinih sintaktičkih funkcija

I preferencije su definirane jezičnim značajkamaI koriste se algoritmi za pronalaženje najvećeg prostirućeg

(razapinjućeg) stabla (en. maximum spanning tree, MST)

I neusmjereni algoritmi, globalno pretraživanje, ograničene globalneznačajke (en. arc-factored)

I predstavnik — generator parsera MSTParserI jezični modeli prvog i drugog redaI algoritmi za projektivno (Eisner) i neprojektivno (Chu-Liu-Edmonds)

parsanjeI parsanje u kvadratnom i kubnom vremenu

Page 24: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriOvisnosno parsanje temeljeno na prijelazničkim sustavima

I prijelaznički sustav je formalni automatI određen s pomoću skupa konfiguracija (ili stanja) i funkcije koja,

najčešće ovisno o nekome ulazu, određuje njegovo prelaženje iz jedneu drugu konfiguraciju (ili iz jednoga stanja u drugo)

I u ovisnosnom se parsanju najčešće koristi stog i ulazna vrpca —potisni automat

I parsanje u linearnom vremenuI algoritam po zadanoj strategiji pita jezični model o idućem prijelazuI izrada jezičnoga modela i odabir značajki najvažniji su koraci u

uporabi prijelazničkih parsera

I usmjereni algoritmi, lokalno pretraživanje, lokalne značajkeI predstavnik — generator parsera MaltParser

I pet razreda algoritama, devet različitih algoritamaI veliki broj postavkiI sustav MaltOptimizer za odabir postavki prema značajkama banke

ovisnosnih stabala

Page 25: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriMjere za vrjednovanje ovisnosnih parsera

I formalni kriteriji za vrjednovanjeI preduvjeti — robustno razrješavanje višeznačnostiI optimizacijski kriteriji — točnost i učinkovitost

I mjere za vrjednovanje točnostiI povezivanje pojavnica uz dodjelu sintaktičkih funkcija (en. labeled

attachment score, LAS)I povezivanje pojavnica bez dodjele sintaktičkih funkacija (en.

unlabeled attachment score, UAS)I dodjela sintaktičkih funkcija pojavnicama (en. label attachment, LA)I preciznost i odziv pri dodjeli pojedinih sintaktičkih funkcijaI pojedine mjere s obzirom na vrstu riječi, morfosintaktičke značajke,

svojstva ovisnosnih stabala, itd.I mjere za vrjednovanje učinkovitosti

I vrijeme izvođenja i memorijski zahtjevi postupaka treniranja itestiranja parsera

Page 26: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriPostavke eksperimenta

I usklađenost s natjecanjima CoNLL 2006. i 2007.I skup za testiranje modela od cca 5,000 pojavnicaI deseterostruka unakrsna provjera (en. tenfold cross-validation)I korištene osnovne sintaktičke funkcijeI vrjednovano ukupno 11 ovisnosnih parsera iz generatora parsera

MaltParser i MSTParser

Page 27: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — točnost parsera prema mjerama LAS, UAS i LA

Page 28: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — točnost parsera prema mjerama LAS, UAS i LA

I parseri temeljeni na teoriji grafova bolji od prijelazničkih parseraI najbolji sustav s CLE MST algoritmom, cca 74.53 LAS

Page 29: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — točnost parsera s obzirom na vrstu riječi

Page 30: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — točnost parsera s obzirom na sintaktičku funkciju

Page 31: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — preciznost i odziv dodjele sintaktičkih funkcija po LA

Page 32: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — točnost (LAS) s obzirom na duljinu rečenice

Page 33: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — točnost (LAS) s obzirom na udaljenost među pojavnicama

Page 34: Pristupi ovisnosnom parsanju hrvatskih tekstova

Postojeći parseriRezultati eksperimenta — neki zaključci

I parseri temeljeni na podatcima primjenjivi za ovisnosno parsanjehrvatskih tekstova

I pristupi temeljeni na grafovima bolji od prijelazničkih pristupaI točnost prema odabranim mjerama usporediva s točnošću istih

parsera na natjecanjima CoNLL 2006. i 2007. na srodnim jezicimaI češki 80.2 LAS, slovenski 73.4 UASI HOBS cca 90 kw, SDT iz 2006. cca 30 kw — razlika u točnosti od

cca 1.13 prema mjeri LAS?I točnost povezivanja i označavanja obavijesno najvažnijih kategorija

I predikat — 69.09 LAS, 76.06 UASI subjekt — 72.63 LAS, 81.67 UASI objekt — 69.38 LAS, 84.64 UASI Kako povećati točnost povezivanja i označavanja ovih elemenata

rečeničnoga ustroja u okviru ovisnosnoga parsanja temeljenoga napodatcima, odnosno na teoriji grafova?

Page 35: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelPristupi povećavanju točnosti ovisnosnih parsera

I slaganje ovisnosnih parseraI glasovanje (en. voting) — paralelnoI vezivanje (en. stacking) — serijski

I hibridizacija ovisnosnih parseraI uvođenje jezično-specifičnih modulaI korištenje specifičnih jezičnih resursaI pitanje smislenosti pojedinih izbora s obzirom na prirodu problema

Page 36: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelPristupi povećavanju točnosti ovisnosnih parsera

I slaganje ovisnosnih parsera načelno daje mjerljiva poboljšanjaI ovisno o polazišnoj točnosti pojedinih parseraI povezivanje raznorodnih parsera daje osjetnija poboljšanjaI razlika među parserima temeljenima na grafovima i prijelazničkim

parserima u prethodno prikazanome eksperimentu ne jamči značajnijepoboljšanje rezultata

I odnosi se na glasovanje i na vezivanjeI odabran hibridizacijski pristup

I razvoj dodatnih modula temeljenih na pravilima je dugotrajan inarušava učinkovitost

I ugradnja modula temeljenih na pravilima u postojeće paradigme jenajčešće netrivijalna

I korištenje dostupnih jezičnih resurasa za hrvatski jezikI valencijski rječnik glagola hrvatskoga jezika — CROVALLEX

Page 37: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelValencijski rječnik hrvatskih glagola CROVALLEX

I valencija glagola (i drugih vrsta riječi) predstavlja model uvođenjaelemenata u rečenicu preko ranije uvedenih elemenata i u osnovi jeovisnosnih teorija sintakse

I korištena inačica CROVALLEX-a 2.008I 1,797 lema glagolaI 5,188 pripadajućih valencijskih okviraI svaki okvir uključuje podatak o broju mjesta koja se otvaraju za nove

elemente rečeničnoga ustroja i traženim morfosintaktičkim svojstvimatih elemenata

Page 38: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelCROVALLEX i HOBS — pokrivenost glagola

I statička i dinamička pokrivenostI 1,525 lema i 12,958 pojavnih oblika glagola u HOBS-u (cca 15% od

ukupnoga broja)I u CROVALLEX-u se nalazi cca 51.87% lema glagola iz HOBS-aI cca 45.64% lema glagola iz CROVALLEX-a nije se pojavilo u HOBS-uI CROVALLEX-om pokriveno cca 90.76% pojavnih oblika glagola iz

HOBS-a (nepokrivenost cca 9.24%)I visoka pokrivenost opravdava uporabu CROVALLEX-a u ovisnosnom

parsanjuI Kako ugraditi znanje o glagolima sadržano u CROVALLEX-u u

postupak ovisnosnoga parsanja temeljenoga na grafovima?

Page 39: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelUporaba CROVALLEX-a u ovisnosnom parsanju

I čestota sintaktičkih funkcija osnovnih elemenata rečeničnoga ustrojas obzirom na položaj u ovisnosnom stablu

Page 40: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelUporaba CROVALLEX-a u ovisnosnom parsanju

I razdioba sintaktičkih funkcija pojavnica direktno ovisnih opredikatima

Page 41: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelHibridni ovisnosni parser temeljen na grafovima

I vrjednovanje predloženih ovisnosnih stabala valencijskim rječnikomI neka postoji neki broj kandidata za ovisnosno stablo neke rečenice

hrvatskoga jezikaI svaka ovisnosna relacija kojom se neka pojavnica vezuje uz glagolski

predikat podložna je vrjednovanju CROVALLEX-omI trostupanjsko vrjednovanje ovisnih pojavnica

I broj pojavnicaI vrste riječiI morfosintaktička svojstva

I dvostupanjsko rangiranje ovisnosnih stabalaI prema statističkoj pouzdanosti (en. k-best parsing)I prema ocjeni iz CROVALLEX-a

I razviti novi ovisnosni parser temeljen na grafovimaI daje k ovisnosnih stabala za svaku ulaznu rečenicu i svakom stablu

pridružuje mjeru pouzdanostiI naknadno pridružuje mjere pouzdanosti s obzirom na CROVALLEXI stabla se nanovno rangiraju vrjednovanjem kombinacije dviju mjera

Page 42: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelHibridni ovisnosni parser temeljen na grafovima

I dvije razvojne fazeI ovisnosni parser temeljen na grafovima

I prototipni sustav radnoga naziva CroDep0I po uzoru na MSTParserI jezični model prvoga reda (en. arc-factored) i algoritam CLEI razvijen u programskom jeziku Java

I k-best ovisnosno parsanje i uporaba CROVALLEX-aI prototipni sustav radnoga naziva CroDepI algoritam CLE neučinkovit za k-best parsanjeI uporabljen algoritam kMST iz teorije grafova, provjeren u ovisnosnom

parsanju engleskih tekstovaI k = 10 u prototipnoj izvedbiI postojeća izvedba vrjednovana samo po mjeri UASI dodana interakcija s jezičnim modelom za dodjelu sintaktičkih funkcijaI razvijen modul za vrjednovanje ovisnosnih relacija CROVALLEX-omI također razvijen u programskom jeziku Java

Page 43: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelPostavke eksperimenta

I k-best parser s uporabom CROVALLEX-a vrjednovan premapostavkama prethodnoga eksperimenta

I CLE parseru izmjerena samo ukupna točnost prema mjeri LAS uusporedbi s najboljim prijelazničkim parserom i najboljim parseromtemeljenim na teoriji grafova prema prethodnome eksperimentu

Page 44: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelRezultati eksperimenta — ukupna točnost (LAS) i točnost prema vrsti riječi

Page 45: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelRezultati eksperimenta — točnost (LAS) s obzirom na sintaktičku funkciju

I porast od cca 2.68 LAS u usporedbi s najboljim postojećim sustavomI porast od najmanje 10.00 LAS za glagole i imenice, odnosno

predikate, subjekte i objekte

Page 46: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelRezultati eksperimenta — LAS s obzirom na duljinu rečenica i ovisnosnih relacija

Page 47: Pristupi ovisnosnom parsanju hrvatskih tekstova

Predloženi modelRezultati eksperimenta — vremenska i memorijska učinkovitost

I Intel Core 2 Quad Q6600 (2.40 GHz, 8 MB cache, 1066 MHz FSB),6 GB radne memorije (DDR2, 1066 MHz)

I Malt* parseri su prijelaznički i parsaju u linearnom vremenuI prikazano vrijeme parsanja predstavlja zbroj vremena učitavanja

modela i njegove primjeneI uporaba CROVALLEX-a ne umanjuje učinkovitost parsera CroDep

Page 48: Pristupi ovisnosnom parsanju hrvatskih tekstova

Zaključak

I iz uvodaI Tekstovi pisani hrvatskim jezikom mogu se robustno, točno i

učinkovito ovisnosno parsati.I najbolji sustav postigao na HOBS-u cca 74.53 LASI parseri temeljeni na teoriji grafova bolji od prijelazničkih parsera

I Točnost ovisnosnoga parsanja može se povećati uporabom jezičnihresursa za hrvatski jezik, bez gubitka robusnosti i učinkovitosti.

I uporabljen CROVALLEX i k-best ovisnosni parserI postignuta točnost od cca 77.21 LAS (povećanje od cca 2.68 LAS)I preko 10-postotno uvećanje točnosti za obavijesno najvažnije

elementeI nema gubitka učinkovitosti

Page 49: Pristupi ovisnosnom parsanju hrvatskih tekstova

Nacrt budućih istraživanja

I u tijekuI utjecaj točnosti lematizacije i MSD-označavanja na točnost

ovisnosnog parsanjaI bitno za uporabu parsera u stvarnim sustavimaI utjecaj točnosti MSD-označavanja značajniji, posebno u usporedbi s

utjecajem točnosti lematizacijeI utjecaj promjene faktora k na točnost i učinkovitost

I nema statistički značajnijeg povećanja točnostiI gubitak učinkovitosti

I glasovanje i vezivanje ovisnosnih parseraI u tijeku eksperiment s glasovanjem — Malt*, MST* i CroDep

I uporaba predložene hibridne metode u parsanju drugih jezikaI planirana istraživanja

I uporaba izostavljenih ovisnosnih parseraI uporaba valencijskoga rječnika CROVALLEX u prijelazničkom parsanju

I daljnji razvoj HOBS-aI lingvistički usmjerenije vrjednovanje točnosti

Page 50: Pristupi ovisnosnom parsanju hrvatskih tekstova

Hvala na pozornosti! ,