37
Od SSKJ do Spletnega portala standardne slovenščine Simon Krek Amebis d.o.o., Kamnik Institut “Jožef Stefan”

Od SSKJ do Spletnega portala standardne slovenščine

  • Upload
    lotte

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

Od SSKJ do Spletnega portala standardne slovenščine. Simon Krek Amebis d.o.o., Kamnik Institut “Jožef Stefan”. Načrtovanje?. Nacionalni program NPELT za /.../ jezikovne tehnologije - PowerPoint PPT Presentation

Citation preview

  • Od SSKJ do Spletnega portala standardne slovenine Simon KrekAmebis d.o.o., KamnikInstitut Joef Stefan

  • Nartovanje?Nacionalni program NPELT za /.../ jezikovne tehnologijeProgram NPELT je leta 2005 sestavila skupina strokovnjakov za raunalniko obdelavo naravnih jezikov, financira ga Ministrstvo za /.../, trajanje: 5 let (2006-2010).

  • Osnovni cilj programa NPELT je...razviti tehnoloko podporo za /.../ jezik do stopnje, ki omogoa normalno delovanje jezika v sodobni informacijski drubi. NPELT financira aktivnosti, povezane z raunalniko obdelavo naravnih jezikov, med drugim izdelavo vekratno uporabnih jezikovnih virov in razvoj osnovnih jezikovnih programskih orodij (do delujoih prototipov). Poleg tega je cilj razviti relevatno jezikovnotehnoloko infrastrukturo na sodobni ravni. Viri in prototipi, ki jih financira nacionalni program, so v javni lasti.

  • Nadzor?Program NPELT upravlja odbor z devetimi lani, ki vljuuje koordinatorja programa, strokovnjake za raunalniko obdelavo naravnih jezikov in predstavnike ministrstva. Odbor ocenjuje predloge projektov in poroila o napredku, predlaga financiranje, preverja namensko rabo javnih financ, spremlja razvoj na podroju RONJ na nacionalni in mednarodni ravni itd. Pri tem upoteva naslednja pravila:

  • Kako to zares poeti?projekti se financirajo na podlagi javnih razpisov, skupine morajo oddajati redna letna poroila o napredku, ocenjevanje projektov temelji na vnaprej znanih kriterijih, slediti je treba mednarodnim standardom in formatom, dostop do razvitih prototipov in jezikovnih virov je prost ali na podlagi licence s pogoji uporabe

  • govorne teh. - pisne teh. virido 2004

  • govorne teh. - pisne teh. virido 2006

  • govorne teh. - pisne teh. viri

  • Estonski jezikovni viri (baze podatkov)dvojezini slovarji angleki, ruski, finskiparalelni korpus2 mio // 10 miopomensko razdvoumljeni korpus 100.000 besedleksikalna baza WordNetsploni korpus pisnih besedil 80 mio besed

  • Estonski jezikovni viri (baze podatkov)povrinska skladnja (raven besedne zv.)50.000 beseddialoki korpus100.000 // 500.000 // 1 mio besed korpus govorjenega jezika1 mio besed (+ transkripcija)leksikogramatina bazaglobinska skladnja (drevesnica)50.000 // 100.000 besed

  • Estonski jezikovni viri (baze podatkov)leksikosemantina bazaestonsko-angleka leksikalna bazatezaver (slovar sinonimov)

    korpus ustveno obarvanega govora

  • Slovenski jezikovni viri (baze podatkov)[slovar] dvojezini slovarji angleki, nemki, italijanski itd.[korpus] paralelni korpus2 mio // 10 mio[korpus] pomensko razdvoumljeni korpus 100.000 besed[leksbaza] leksikalna baza WordNet[korpus] sploni korpus pisnih besedil 80 mio besed

  • Slovenski jezikovni viri (baze podatkov)[korpus] povrinska skladnja (raven besedne zv.)50.000 besed[korpus] dialoki korpus100.000 // 500.000 // 1 mio besed [korpus] korpus govorjenega jezika1 mio besed (+ transkripcija)[leksbaza] leksikogramatina baza[korpus] globinska skladnja (drevesnica)50.000 // 100.000 besed

  • Slovenski jezikovni viri (baze podatkov)[leksbaza] leksikosemantina baza[leksbaza] slovensko-angleka leksikalna baza[leksbaza/slovar] tezaver (slovar sinonimov)

  • Prej potemzbirke listkovnega gradivazbirke zvonih posnetkovnatisnjeni slovarji

    razlini korpusileksikalne bazeslovarske baze

  • Kaj poznamo e nekaj asa?Enojezini leksikalni viri (neenciklopedini)obseneji opis splonega jezikaSSKJ (1970-1991)Veliki slovar tujk (2002)standardizacijaPravopis (1990-2001) + povzemalni prironikiUSS (2000), odzivi na pravopis itd.terminologijarazlini slovarji v knjini obliki

  • Kaj poznamo zadnjih 15 let?Digitalizacija in svetovni spletobseneji opis splonega jezikaSSKJ diskete (1997)CD-ROM (1998)svetovni splet (2000)Prironi e-slovar tujk, CD-ROM (2005)standardizacijaPravopis, CD-ROM (2003)USS na spletu (1998-2009)

  • Kaj poznamo zadnjih 10 let?terminologijaEvroterm / Evrokorpus (http://evroterm.gov.si/)Islovar / Ikorpus (www.islovar.org, nl2.ijs.si/dsi.html)imenik (http://evroterm.gov.si/slovar/slovar.html)

  • Novi-stari jezikovni viribesedilni korpusiFIDA / FidaPLUSNova besedaparaleleni (Evrokorpus...)terminoloki (Ikorpus, KoRP,...)slovarske baze (tj. kot podatkovne zbirke)SSKJ, Pravopis itd. dvojezini slovarji

  • Znailnostirazprenost po razlinih institucijahnekompatibilnost tehninih reitevneurejena dostopnost javno financiranih virovneusklajeno javno financiranje enakih ali podobnih virovneupotevanje dvojne narave virov podatkovna zbirka in izdelek

  • Ali si je mogoe zamisliti javni program, ki bi zajemal kljune leksikalne podatkovne zbirke za slovenino?

  • Jezikovni viri kljuni dejavnikiseznanjenost z dogajanji pri drugih jezikihjezikoslovna kompetentnostdobra raunalnika podporaorganizacija = jezikovni viri so rezultat organiziranega skupnega naporakoliina vloenega napora = as & denar

  • jezikovni opisstandardizacijaterminologijadvojezinisploni enojezinislovarpedagoki slovar / za tujcepedagoka slovnicakorpusi za razline potrebeleksikalna bazatezaverleksikon besednih oblikpravilaterminoloki portalangleko-slovenska leksikalna bazaslovensko-angleka leksikalna bazadrugi jezikislovnini opisslogovni prironik / (servis)

  • jezikovni opisstandardizacijaterminologijadvojezinisploni enojezinislovarpedagoki slovar / za tujcepedagoka slovnicakorpusi za razline potrebeleksikalna bazatezaverleksikon besednih oblikpravilaterminoloki portalangleko-slovenska leksikalna bazaslovensko-angleka leksikalna bazadrugi jezikislovnini opisslogovni prironik / (servis)Spletni portal standardnega slovenskega jezika

  • jezikovni opisstandardizacijaterminologijadvojezinisploni enojezinislovarpedagoki slovar / za tujcepedagoka slovnicakorpusi za razline potrebeleksikalna bazatezaverleksikon besednih oblikpravilaterminoloki portalangleko-slovenska leksikalna bazaslovensko-angleka leksikalna bazadrugi jezikislovnini opisslogovni prironik / (servis)

  • Podvozje in okvirTehnologije in orodja:tokenizacija, lematizacijaoblikoslovni oznaevalnikskladenjski razlenjevalniksemantino razdvoumljanjesamodejno luenje terminologijesamodejno luenje prevodnih ustreznicpodatkovno rudarjenjeprepoznava lastnih imen ...

  • Karoserijadidaktina gradiva & orodjadinamini dodatkidialoki sistemivizualizacija...

  • Se je o tem e razmiljalo?

  • RESOLUCIJA o nacionalnem programu za jezikovno politiko 20072011Za opis sodobne norme slovenskega knjinega jezika (5. cilj):b) Nadaljnje izpopolnjevanje in usklajevanje ter spletna dostopnost jezikovne infrastrukture (omreja besedilnih korpusov slovenine idr.). Naloge: isto. Nosilci: MVZT, M, Javna agencija za raziskovalno dejavnost RS (JARRS). Izvajalci: raziskovalne in razvojne organizacije (intituti, univerze, podjetja, zalobe). Rok: trajno.Proraun: da.

  • RESOLUCIJA) Reevanje aktualnih vpraanj jezikovne in besedilne standardizacije ter izpopolnjevanje in prenavljanje kodifikacije. Naloge: razkrivanje in uzaveanje morebitnih premikov v razmerjih med jezikovnimi zvrstmi in presoja njihove knjine normodajalnosti (nareje, pogovorni jezik, sleng knjini jezik; jezik elektronskih sporoil, blogov, SMS-ov) idr.; vrednotenje primernosti in povednosti posameznih jezikovnih izrazil na podlagi podatkov iz reprezentativnih besedilnih in govornih korpusov in drugih jezikovnih virov, stalie do pisnega podomaevanja lastnih imen iz nelatininih pisav, stalie in standardizirane reitve, /.../ idr. Nosilca: MVZT, JARRS. Izvajalci: raziskovalne organizacije in posamezniki v sodelovanju s iro strokovno javnostjo.Rok: trajno. Proraun: da.

  • RESOLUCIJAa) Poivitev in uskladitev delovanja terminolokih skupin (posebno v naravoslovno-tehninih vedah, ekonomiji, menederstvu, vojatvu) ter raziskovanje prevajalskih procesov in strategij.Naloge: okrepitev strokovne motivacije in financiranja, urejanje kadrovskih vpraanj, spletno povezovanje, izpopolnjevanje in dostopnost terminolokih zbirk. Nosilci: MVZT in druga ministrstva, JARRS. Izvajalci: izbrane raziskovalne, razvojne ipd. organizacije/ustanove. Rok: 2007. Proraun: da.b) Razvijanje jezikovne infrastrukture, zlasti sistemov za strojno analizo in sintezo slovenskega govora, za prevajanje in simultano tolmaenje, za uveljavljanje rkovnih naborov s streicami in drugimi diakritinimi znamenji (16).Naloge: uskladitev in pospeitev razvojnih prizadevanj, prenaanje dosekov v prakso. Nosilci: MVZT, MzK, M. Izvajalci: raziskovalne in razvojne organizacije/podjetja in posamezniki. Rok: takoj. Proraun: da.

  • RESOLUCIJA) Zagotavljanje spletne dostopnosti jezikovnih virov, npr. SSKJ, SP in drugih.Nalogi: brezplani dostop, dopolnjevanje pravopisnega slovarja. Nosilci: MzK, M, MVZT.Izvajalci: izbrane strokovne oziroma raziskovalne organizacije. Rok: takoj. Proraun: da.

  • RESOLUCIJAl) Priprava splonih in specializiranih prironikov za slovenino.Naloge: pravoreje, pedagoka slovnica, frazeoloki, sinonimni, terminoloki, zgodovinski in dvojezini slovarji, mali Slovenski pravopis, zbirke standardiziranih zemljepisnih idr. lastnih imen, obogateni in komentirani katalogi vzorcev besedilnih vrst ipd. Nosilci: ministrstva. Izvajalci: izbrane raziskovalne in izobraevalne organizacije, zalobe. Rok: postopoma do 2011. Proraun: da.

  • RESOLUCIJAm) Izpopolnjevanje in zagotavljanje spletne dostopnosti elektronskih jezikovnih orodij.Naloge: rkovalnik, prevajalniki, slovarji, terminoloke zbirke. Nosilci: MzK, M, MVZT, Generalni sekretariat Vlade RS. Izvajalci: raziskovalne in razvojne organizacije/podjetja. Rok: trajno. Proraun: da.

  • Bistvo?Program upravlja odbor z devetimi lani, ki vkljuuje koordinatorja programa, strokovnjake za /.../ in predstavnike ministrstev (MVZT, M, MzK?). Odbor ocenjuje predloge projektov in poroila o napredku, predlaga financiranje, preverja namensko rabo javnih financ, spremlja razvoj na tem podroju na nacionalni in mednarodni ravni itd. Pri tem upoteva naslednja pravila:

  • Program: slovenski jezikovni viri?projekti se financirajo na podlagi javnih razpisov, skupine morajo oddajati redna letna poroila o napredku (od tega je odvisno nadaljnje financiranje) ocenjevanje projektov temelji na vnaprej znanih kriterijih, slediti je treba mednarodnim standardom in formatom, dostop do razvitih prototipov in jezikovnih virov je prost ali na podlagi licence s pogoji uporabe

  • Hvala za [email protected]