23
Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006 17.3.2006 17.3.2006

Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006

  • Upload
    sef

  • View
    38

  • Download
    1

Embed Size (px)

DESCRIPTION

Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006. 17.3.2006. Novi obrazi. Predavatelj: doc.dr.Tomaž Erjavec Odsek za tehnologije znanja Institut Jožef Stefan Vaje: mag. Irena Srdanović Erjavec Urnik !. Pregled bloka tehno. - PowerPoint PPT Presentation

Citation preview

Page 1: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Predstavitev projektov za predmet

Jezikovne tehnologije

PNG SlovenistikaII. letnik 2006

17.3.200617.3.2006

Page 2: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Novi obrazi

Predavatelj: Predavatelj: doc.dr.Tomaž Erjavecdoc.dr.Tomaž ErjavecOdsek za tehnologije znanjaOdsek za tehnologije znanjaInstitutInstitut Jožef StefanJožef Stefan

Vaje:Vaje:mag. Irena Srdanović Erjavecmag. Irena Srdanović Erjavec

UrnikUrnik!!

Page 3: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Pregled bloka tehno

17.3.2006: predstavitev projektov17.3.2006: predstavitev projektov 07.4.2006: označevanje korpusov07.4.2006: označevanje korpusov 14.4.2006: standardi za zapis korpusov14.4.2006: standardi za zapis korpusov 21.4.2006: zapisi znakov21.4.2006: zapisi znakov 19.5.2006: skladnja19.5.2006: skladnja

Ali je dal prvi letnik zadostne osnove?Ali je dal prvi letnik zadostne osnove?

Page 4: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Jezikovni viri

Digitalne zbirke podatkov o jeziku: Digitalne zbirke podatkov o jeziku: korpusi, slovarji/leksikoni, drugi modeli korpusi, slovarji/leksikoni, drugi modeli

UporabniUporabni za ljudi: za ljudi:

korpusno (kvantitativno) jezikoslovje, korpusno (kvantitativno) jezikoslovje, leksikografija, terminografijaleksikografija, terminografija

za programe: za programe: vir znanja, testna in vir znanja, testna in učnaučna množica množica

Page 5: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Izdelava jezikovnih virov

izbira (npr. besedil)izbira (npr. besedil) zajem (tehnični in pravni vidiki)zajem (tehnični in pravni vidiki) poenotenje (luščenje, čiščenje in standardni zapis)poenotenje (luščenje, čiščenje in standardni zapis) označevanje (strojno, mogoče (še) ročno)označevanje (strojno, mogoče (še) ročno) distribucijadistribucija= dostopen, dokumentiran, standardno zapisan in = dostopen, dokumentiran, standardno zapisan in

kvaliteten jezikovni virkvaliteten jezikovni virza slovenski jezik moramo take vire narediti, več ali za slovenski jezik moramo take vire narediti, več ali

manj, v Sloveniji.manj, v Sloveniji.

Page 6: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Delo na jezikovnih virih na E8 IJSSeznam rezultatov, žal samo v angleščini, na Seznam rezultatov, žal samo v angleščini, na http://nl.ijs.si/http://nl.ijs.si/ : : Intitiatives, services and resources: Intitiatives, services and resources:

SDJTSDJT: the Slovenian Language Technologies Society : the Slovenian Language Technologies Society WWW concordancesWWW concordances: Slovene monolingual and parallel corpora and : Slovene monolingual and parallel corpora and

on-line lemmatizer on-line lemmatizer ZRC eLibraryZRC eLibrary: Scholarly Digital Editions of Slovenian Literature : Scholarly Digital Editions of Slovenian Literature jaSlojaSlo: Japanese - Slovene on-line learner's dictionary : Japanese - Slovene on-line learner's dictionary slEnJa: Slovene - English - Japanese on-line learner's dictionary slEnJa: Slovene - English - Japanese on-line learner's dictionary GNUsl: an Open Source effort for Slovene localisation GNUsl: an Open Source effort for Slovene localisation The Slovenian Linguist: a collection of Slovenian dialect material The Slovenian Linguist: a collection of Slovenian dialect material

Downloadable corpora for HLT research: Downloadable corpora for HLT research: MULTEXT-EastMULTEXT-East Version 3: Version 3:

East and Central European multilingual corpus and lexical resources East and Central European multilingual corpus and lexical resources IJS-ELAN Version 2:IJS-ELAN Version 2:

Slovene-English parallel corpus, 1 million words Slovene-English parallel corpus, 1 million words SVEZ-IJS Version 1:SVEZ-IJS Version 1:

Slovene-English parallel corpus of EU legal texts, 10 million words Slovene-English parallel corpus of EU legal texts, 10 million words SDTSDT, the Slovene Dependency Treebank (in development):, the Slovene Dependency Treebank (in development):

Slovene syntactically annotated corpus, 30.000 words Slovene syntactically annotated corpus, 30.000 words

Page 7: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

MULTEXT-East

večjezikovna zbirka virov za jezikovne večjezikovna zbirka virov za jezikovne tehnologije: vzhodni jeziki, projekt EUtehnologije: vzhodni jeziki, projekt EU

zbirka zapisana v XML, prosto dostopna zbirka zapisana v XML, prosto dostopna za raziskaveza raziskave

najbolj natančno obdelana oblikoslovna najbolj natančno obdelana oblikoslovna raven, sestavljenja iz treh nivojev:raven, sestavljenja iz treh nivojev:

1.1. oblikoslovno označen korpus: “1984”oblikoslovno označen korpus: “1984”2.2. oblikoslovni leksikon (15.000 lem)oblikoslovni leksikon (15.000 lem)3.3. oblikoslovne specifikacijeoblikoslovne specifikacije

Page 8: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Primer iz korpusa

Page 9: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Primer iz leksikona

lenuhulenuhu lenuhlenuh NcmsdNcmsdlenuhulenuhu lenuhlenuh NcmslNcmslleplep == AfpmsnnAfpmsnnleplep leplep Afpmsan-nAfpmsan-nlepalepa leplep AfpfsnAfpfsnlepalepa leplep AfpmdaAfpmdalepalepa leplep AfpmdnAfpmdnlepalepa leplep AfpnpaAfpnpalepalepa leplep AfpnpnAfpnpnlepelepe leplep AfpfpaAfpfpalepelepe leplep AfpfpnAfpfpnlepelepe leplep AfpfsgAfpfsglepelepe leplep AfpmpaAfpmpalepegalepega leplep Afpmsa--yAfpmsa--ylepegalepega leplep AfpmsgAfpmsglepegalepega leplep AfpnsgAfpnsglepemlepem leplep AfpmslAfpmsllepemlepem leplep AfpnslAfpnsllepemulepemu leplep AfpmsdAfpmsdlepemulepemu leplep AfpnsdAfpnsdlepenklepenk lepenkalepenka NcfdgNcfdg

Page 10: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Primer iz specifikacij

Specifikacije določijo, da je npr. Ncmsd možna oblikoslovna oznaka za slovenščino, in da pomeni PoS:Noun, Type:common, Gender:masculine, Number:singular, Case:dative

Page 11: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Pomen MULTEXT-East za jezikovne tehnologije harmonizirani opisi in vzporedni viri za veliko harmonizirani opisi in vzporedni viri za veliko

število vzhodnih jezikov število vzhodnih jezikov postal de facto postal de facto standard za nekatere jezike (npr. korpus FIDA)standard za nekatere jezike (npr. korpus FIDA)

prvi ročno označen in dostopen korpus za več prvi ročno označen in dostopen korpus za več jezikov, npr. slovenskega jezikov, npr. slovenskega učenje in testiranje učenje in testiranje programov za npr. oblikoslovno označevanjeprogramov za npr. oblikoslovno označevanje

kot okvir za vzpostavitev osnovnih jezikovnih kot okvir za vzpostavitev osnovnih jezikovnih virov za nove jezike (BLARK) virov za nove jezike (BLARK) Srbščina, Srbščina, Rezijanščina, Makedonščina, Perzijščina Rezijanščina, Makedonščina, Perzijščina

Page 12: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

MULTEXT-East in označevanje

na korpusu naučen na korpusu naučen oblikoslovni označevalnikoblikoslovni označevalnik na leksikonu naučen na leksikonu naučen lematizatorlematizator skupaj s skupaj s tokenizatorjemtokenizatorjem povezani v program povezani v program

“totale”“totale” ker je program statističen, dela napakeker je program statističen, dela napake te lahko do neke mere odpravimo z večjim ročno te lahko do neke mere odpravimo z večjim ročno

označenim korpusom, iz novih domenoznačenim korpusom, iz novih domen ročno odkrivanje in popravljanje napakročno odkrivanje in popravljanje napak

pomaga tudi pri izdelavi boljšega označevalnikapomaga tudi pri izdelavi boljšega označevalnika

Page 13: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

SDT: Slovene Dependency Treebank korpusi so lahko označeni tudi s skladenjsko strukturokorpusi so lahko označeni tudi s skladenjsko strukturo koristno za empirični študij skladnje, ter za avtomatsko koristno za empirični študij skladnje, ter za avtomatsko

učenje skladenjskih razčlenjevalnikovučenje skladenjskih razčlenjevalnikov eden največjih skladenjsko označenih korpusov (razen za eden največjih skladenjsko označenih korpusov (razen za

angleščino) je Prague Dependecy Treebankangleščino) je Prague Dependecy Treebank teoretični model PDT je funkcionalna odvisnostna slovnicateoretični model PDT je funkcionalna odvisnostna slovnica v okviru projekta so izdelali priročnik za anotacijo in v okviru projekta so izdelali priročnik za anotacijo in

urejevalnik drevesurejevalnik dreves za slovenski jezik je v teku prirejanje priročnika in za slovenski jezik je v teku prirejanje priročnika in

označevanje z analitično ravnjo, zaenkrat 1/3 “1984”označevanje z analitično ravnjo, zaenkrat 1/3 “1984” verjetno bomo kmalu rabili nove označevalce!verjetno bomo kmalu rabili nove označevalce!

Page 14: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Primer označenega stavka

Page 15: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

AHlib: knjižnica XIX. stoletja

projekta na avstrijski akademiji znanosti in projekta na avstrijski akademiji znanosti in v Sloveniji (Uni Lj, Uni Mb)v Sloveniji (Uni Lj, Uni Mb)

cilj: narediti knjižnico vseh slovenskih knjig cilj: narediti knjižnico vseh slovenskih knjig prevedenih iz nemščine 1848-1919prevedenih iz nemščine 1848-1919

postopek: postopek: skeniranje knjig v NUK in OCRskeniranje knjig v NUK in OCR ročne korekcijeročne korekcije

mrežni vmesnik za kontrolo rezultatovmrežni vmesnik za kontrolo rezultatov

Page 16: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Primeri

Page 17: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Original in besedilo po OCR

Page 18: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Besedilo po korekciji

Page 19: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Postopek pretvorbe

(popravljena) datoteka Word (RTF)(popravljena) datoteka Word (RTF) avtomatska konverzije v XMLavtomatska konverzije v XML iz tega pa v HTMLiz tega pa v HTML ta služi za preverjanje pravilnosti datoteke ta služi za preverjanje pravilnosti datoteke

WordWord dodatno na voljo besedna analiza (Excel)dodatno na voljo besedna analiza (Excel)

Page 20: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

jaSlo: Japonsko-slovenski slovar za učenje japonščine v sodelovanju z katedro za japonologijo na v sodelovanju z katedro za japonologijo na

Univerzi v Ljubljani Univerzi v Ljubljani trenutno vsebuje okoli 4.000 vnosov, nova trenutno vsebuje okoli 4.000 vnosov, nova

inačica (v delu) pa 10.000.inačica (v delu) pa 10.000. slovar je označen po standardu TEI P4 slovar je označen po standardu TEI P4 dostopen preko brskalnega in bralnega dostopen preko brskalnega in bralnega

vmesnika vmesnika

Page 21: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Zapis v TEI

Page 22: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Iskalnik

Page 23: Predstavitev projektov  za predmet  Jezikovne tehnologije PNG  Slovenistika II. letnik 2006

Naprej na vajah..