34
Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema Martynas Sabaliauskas Panevėžy s 2015 09 18

Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Embed Size (px)

Citation preview

Page 1: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema

Martynas Sabaliauskas

Panevėžys 2015 09 18

Page 2: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Projektas

• Integruotų lietuvių kalbos ir raštijos išteklių, produktų ir paslaugų interneto svetainės sukūrimas (Raštija.lt)

• 1 Etapas 2012.10.01-2015.03.31• 2 Etapas 2015.03.31-2015.07.31• Projekto biudžetas 321 732,69 €Projektą vykdo: • Vilniaus universitetas (Matematikos ir informatikos institutas)Pagal• Įgyvendinamą Ekonomikos augimo veiksmų programos

prioriteto „Informacinė visuomenė visiems“ įgyvendinimo priemonės Nr. VP2-3.1-IVPK-12-K „Lietuvių kalba informacinėje visuomenėje“ pirmąją veiklų grupę

Page 3: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Projekto paskirtis

• Projekto „Integruotų lietuvių kalbos ir raštijos išteklių, produktų ir paslaugų interneto svetainės sukūrimas“ paskirtis – internetinės svetainės www.raštija.lt sukūrimas, kurioje būtų sudaryta galimybė visuomenei viešai ir nemokamai naudotis esamais ir kuriamais naujais lietuvių kalbos ir raštijos ištekliais, produktais ir paslaugomis (LKPIPP).

• Svetainė yra priemonės Nr. VP2-3.1-IVPK-12-K „Lietuvių kalba informacinėje” visų vykdomų projektų veiklos rezultatų pateikimo viešojoje erdvėje įrankis.

Page 4: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Viešinami projektai

Page 5: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Projekto tikslas

• Projekto tikslas – sukurti modernų LKRIPP integravimo internete sprendimą, viešu ir nemokamu LKRIPP naudojimu sumažinti skaitmeninę atskirtį ir skatinti informacinės visuomenės procesus.

• Projekto tikslinės grupės – gyventojai, išteklių ir paslaugų kūrėjai, verslas, viešojo administravimo institucijos.

Page 6: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Informacinė sistema (1)

• Projekto metu sukurta valstybinė „Integruotų lietuvių kalbos ir raštijos išteklių“ informacinė sistema (Raštija IS).

Page 7: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Informacinė sistema (2)

Raštija IS tikslas - informacinių technologijų priemonėmis kaupti ir teikti lietuvių kalbos ir raštijos išteklius.Raštija IS uždaviniai:

o kaupti lietuvių kalbos ir raštijos išteklius;o viešinti lietuvių kalbos ir raštijos išteklius;o teikti priemones, reikalingas naujų viešųjų saityno

paslaugų kūrimui.Raštijos pagrindinės funkcijos:

o teikti lietuvių kalbos ir raštijos išteklius bei jų turinį;o automatiškai ar pusiau automatiškai surinkti ir apdoroti

duomenis iš įvairių lietuvių kalbos ir raštijos šaltinių;o atlikti paprastą ir semantinę paiešką turimuose lietuvių

kalbos ir raštijos ištekliuose.

Page 8: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Raštijos projekte buvo numatyta

• Parengti pradinę medžiagą ontologijų sukūrimui,

• Išrinkti lingvistinių išteklių formatą (OWL, XTM, LTM, TEI, LMF,...),

• Sukurti ontologijų kūrimo, derinimo, integravimo ir testavimo instrumentiką,

• Semantiškai struktūrizuoti Raštijos IS išteklius bei suvesti į ontologiją,

• Realizuoti semantinę paiešką.

Page 9: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Raštija IS funkcinė sistema

Ontologijų kūrimo ir redagavimo įrankis

Indeksavimo ir paieškos komponentas

Lietuvių kalbos išteklių administravimo komponentas

Paieškos paslaugų sąsaja

Duomenų saugykla

Portalo posistemė

Automatinio duomenų surinkimo komponentas

Naudotojų administravimo komponentas

Informacijos teikimo komponentas

Turin

io v

aldy

mo

kom

pone

ntas

Saityno paslaugų posistemė

Duomenų teikimo sąsaja

Page 10: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Kas yra ontologija?

Ontologija - tai tam tikros srities sąvokų visumos specifikavimas išreikštu pavidalu.„explicit specification of a conceptualization“, T.R.Gruber 1993 m.

Ontologija specifikuoja nagrinėjamos srities• Konceptus, esybių (daiktų bei reiškinių) tipus,• Konceptų hierarchijas, esybių tarpusavio sąryšius,

priklausomybes,• Aksiomas, taisykles, dėsningumus ir t.t.

Page 11: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Kitos sąvokos

• Semantinė paieška – intelektuali paieška ontologijoje apdorojant užklausas (t.y., automatiškai apibendrinant užklausas, surandant artimiausius dalinius atitikmenis).

• Lingvistiniai ištekliai: žodynai, leksinės duomenų bazės, tekstynai, garsynai, įrašų bazės ir kt.

Page 12: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

LMF formatas

LMF (angl. Lexical Markup Framework) yra ISO standartas natūraliam kalbos apdorojimui (sintaksė, fonetika, morfologija).Pagrindinė LMF paskirtis - žodynų strūkturavimas.

Natūralus kalbos apdorojimas (angl. Natural language processing) - tai kompiuterių mokslo, dirbtinio intelekto ir kompiuterinės lingvistikos sritis, kurioje nagrinėjamas kompiuterio ir žmogaus kalbos sąveikos laukas.

Page 13: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

OWL semantinė žymėjimo kalba

• OWL (angl. Web Ontology Language) yra semantinė žymėjimo kalba naudojama ontologijų platinimui ir dalinimuisi tinkle.

• OWL kalba sukurta su tikslu ne tik informacijai sisteminti, t.y. ją apibrėžti per ryšius, klases, atributus, tačiau ir papildyti informaciją naujais sąryšiais, išskirti naujas klases, išsaugant vartotojo užklausas. Tokiu principu, formuojant naujas jungtis tarp klasių, informacijos paieška adaptuojama vartotojui pagal jo poreikius. Taip veikia populiariausios paieškos sistemos.

• OWL semantinę žymėjimo kalbą galima taikyti žodynų struktūrai aprašyti: pagal semantinę paiešką atvaizduojami tam tikromis prasmėmis susiję terminai su paieškos rezultatais.

Page 14: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ontologijų kūrimo aplinka Protege

• Stanfordo universitete JAVA kalbos pagrindu sukurta priemonė, skirta žinių įgijimui.

• Laisvai platinama, plačiai naudojama, lengvai išplečiama (iki 150 000 freimų), suderinama su OKBC, eksportuoja HTML, XML, Turtle, RDF schemomis, JDBC ir DAML+OIL formatais.

• http://protege.stanford.edu.

Page 15: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ontologijų kūrimo aplinka Protege

Page 16: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

LMF ir OWL sąlytis

Užduotis: rasti reikiamą digrafo pografį.

Page 17: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Terminų laukų siejimas su LMF formatu

Terminų banko laukai

Raštija.lt laukai

Terminyno laukai

Standartizacijos departamento

terminaiURI Laukas Pastaba

terminas terminas terminas terminas LexicalResource/Lexicon/LexicalEntry/Lemma writtenform standartinis lmf

statusas statusasstatusas

(tinkamumo kategorija)

statusas (tinkamumo kategorija) LexicalResource/Lexicon/LexicalEntry/Sense/SubjectField status

LMF pagal "Global Atlas" projektą [13]

sritis sritis sritis sritis LexicalResource/Lexicon/LexicalEntry/Lemma scope pasiūlytastaksono rangas LexicalResource/Lexicon/LexicalEntry/WordForm taxon_rank pasiūlytas

apibrėžtis apibrėžtis apibrėžtis apibrėžtis LexicalResource/Lexicon/LexicalEntry/Sense/Definition gloss standartinis lmfpastaba pastaba pastaba pastaba LexicalResource/Lexicon/LexicalEntry/Lemma comment pasiūlytas

kalbos dalis LexicalResource/Lexicon/LexicalEntry partOfSpeech standartinis lmf

giminė giminė LexicalResource/Lexicon/LexicalEntry/WordForm grammaticalGender standartinis lmf

skaičius skaičius LexicalResource/Lexicon/LexicalEntry/WordForm grammaticalNumber standartinis lmf

linksniuotė LexicalResource/Lexicon/LexicalEntry/WordForm declension pasiūlytasformulė formulė formulė LexicalResource/Lexicon/LexicalEntry/Lemma formula pasiūlytaskirčiuotė kirčiuotė LexicalResource/Lexicon/LexicalEntry/WordForm accentuation pasiūlytas

santrumpa(-os) santrumpa(-os) LexicalResource/Lexicon/LexicalEntry/Lemma abbreviation pasiūlytas

trumpoji forma LexicalResource/Lexicon/LexicalEntry/Lemma short_form pasiūlytaskilmė kilmė LexicalResource/Lexicon/LexicalEntry/Lemma origin pasiūlytas

pavyzdys(-iai) LexicalResource/Lexicon/LexicalEntry/Lemma example standartinis lmfnuoroda nuoroda nuoroda LexicalResource/Lexicon/LexicalEntry/Lemma reference pasiūlytas

atitikmenys atitikmenys atitikmenys atitikmenys LexicalResource/Lexicon/LexicalEntry/Sense/Equivalent writtenForm standartinis lmf

ryšiai LexicalResource/Lexicon/LexicalEntry/Sense/SenseRelation type standartinis lmfšaltinis šaltinis šaltinis šaltinis LexicalResource writtenform pasiūlytas

paveikslėlis LexicalResource/Lexicon/LexicalEntry/Lemma imageLMF pagal "LIRICS" projektą

garsas LexicalResource/Lexicon/LexicalEntry/Lemma soundLMF pagal "LIRICS" projektą

kalbos žymuo LexicalResource/Lexicon language standartinis lmfatitikmens

šalies žymuoatitikmens

šalies žymuoatitikmens šalies

žymuo LexicalResource/Lexicon/LexicalEntry/Sense/Equivalent language standartinis lmf

termino variantai

termino variantai LexicalResource/Lexicon/LexicalEntry/Lemma term_variation pasiūlytas

kirčiuotas terminas kirčiuotas terminas LexicalResource/Lexicon/LexicalEntry/Lemma accented_term pasiūlytas

Page 18: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

LMF/OWL ontologijos kūrimas

Page 19: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ontologijų konstravimo automatizavimas

1. Parinkus kurį nors žodyną, naudojant Protege programą, įkelti jo kelis jam priklausančius terminus į LMF/OWL ontologiją.

2. Sugeneruotą failą atsidaryti su tekstiniu redaktoriumi bei pagal jo struktūrą realizuoti įrankį, kuris automatiškai sugeneruotų viso žodyno ontologiją pagal pradinius struktūrizuotus duomenis.

3. Patikrinimui, ar informaciją galima atkurti, realizuoti SPARQL užklausas, kurios įdiegus Apache Jena grąžintų informaciją atgal į lenteles.

Page 20: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Žodynų ontologijų generavimo įrankis (1)

XLS -> LMF/OWL įrankyje naudojamų laukų sąrašas

Page 21: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Žodynų ontologijų generavimo įrankis (2)

Rezultato fragmentas:

Page 22: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Žodynų ontologijų generavimo įrankis (3)

Rezultatas Protege programoje:

Page 23: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ontologijų atvaizdavimas raštija.lt svetainėje

Paieškos rezultatai Daugiau informacijos Hiperteksto naudojimas

Page 24: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Raštija IS išoriniai duomenų srautai

LIEPA IS

Lokalizavimo šaltiniai

Kiti duomenų tiekėjai

Page 25: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ištekliai (1)

Terminynas.lt žodynai (15):o Astronomijos enciklopedinis žodynas (1984 m.)o Botanikos terminų žodynas (1965 m.)o Chemijos terminų aiškinamasis žodynas (1997 m.)o Civilinės aviacijos terminų žodynas (1996 m.)o Fizikos terminų žodynas (1979 m.)o Geologijos ir fizinės geografijos terminų žodynas (1956 m.)o Informacijos terminų žodynas (1993 m.)o Lietuvių–anglų–rusų–vokiečių kalbų informatikos terminų žodynas (1997 m.)o Matematikos terminų žodynas (1994 m.)o Medicinos terminų žodynas (1980 m.)o Psichologijos žodynas (1993 m.)o Radioelektronikos terminų žodynas (2000 m.)o Rusų–lietuvių kalbų meteorologijos terminų žodynas (1975 m.)o Rusų–lietuvių kalbų politechnikos žodynas (1984 m.)o Šiuolaikinių kompiuterių programų ir tinklų žodynas (2003 m.)

Kiti žodynai:o Žinių technologijų (ir saityno technologijų) terminų žodynėlis (2012 m.)

Page 26: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ištekliai (2)

Projekto „Visuomenei aktualios programinės įrangos lokalizavimas, programoms reikalingų priemonių sukūrimas“ (Lokalizavimas) sukurti žodynai:

o Aiškinamasis norminis kompiuterijos žodynaso Enciklopedinis kompiuterijos žodynaso Anglų-lietuvių kalbų kompiuterijos žodynaso Dažnai pasikartojančių kompiuterijos frazių žodynaso Kompiuterių vartotojų teminis žodynėlis

Page 27: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ištekliai (3)

Lietuvių kalbos instituto informacinės sistemos ištekliai:

o Dabartinės lietuvių kalbos žodynaso Latvių–lietuvių žodynaso Lietuvių–latvių žodynaso Lenkų–lietuvių žodynaso Lietuvių–lenkų žodynaso Liaudies tikėjimų kartotekao Lietuvių–vokiečių žodynaso Vokiečių–lietuvių žodynaso Mįslių kartotekao Pagrindinė kartotekao Pokario partizanų dainų kartotekao Sinonimų žodynas

Page 28: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Raštija.lt vartotojams siūlo

• Ieškok - nuo šiol galėsi naudotis detalia ir semantine paieška tarp daugelio skaitmeninių lietuvių kalbos išteklių vienoje vietoje!o Paprasta, detali ir semantinė paieška svetainėjeo Mobili aplikacija, skirta paieškai naudojanti išmaniuosius įrenginius

• Bendrauk - Raštija.lt tau leis ne tik domėtis Lietuvos kultūriniu paveldu, bet ir bendrauti su kitais bendraminčiais svetainės naudotojais!

• Kurk - jei esi žodyno kūrėjas ar autorius, tau sudaryta unikali galimybė kurti ir Raštija.lt talpinti savo žodynus bei atlikti šių skaitmeninių lietuvių kalbos ir raštijos išteklių koregavimą, pildymą ir viešinimą. Visiems sudaryta galimybė kurti savo įvairiausius išvestinius produktus ar paslaugas, naudojantis Raštija.lt!

Page 29: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ieškok

• Paieška tarp 33 žodynų• Paieška naudojantis mobilia

aplikacija• Paieška naudojanti

mašina-mašina sąsaja

Page 30: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ieškok (2)

• Paprasta paieška:o Loginiai operatoriai AND, OR, NOT;o Operatoriai:

• * – paieškos žodyje praleidžiamos kelios raidės,• ? – paieškos žodyje praleidžiama viena raidė,• ~ – ieškoma paieškos žodžiui panašūs atitikmenys,• „“ – kai ieškoma konkrečios atributų reikšmės.

• Detali paieška leidžia tikslinti pagal:o išteklių,o autorius,o kalbą,o leidėją,o metus,o ontologiją,

Page 31: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Bendrauk

• Forumaso Diskusijos įvairiomis temomis

• Asmeninė erdvėo Susirašinėjimas su kitais Raštija IS vartotojaiso Komentavimas esančių ištekliųo Bendravimas su išteklių kūrėjais

• Kviečiame prisijungti prie Raštija socialiniuose tinkluose:o Facebook,o Google+,o Twitter.

Page 32: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Kurk

• Žodynų kūrėjams siūloma galimybė:o talpinti ir redaguoti savo žodynus Raštijos IS;o Viešinti ir leisti kitiems naudotis savo veikloje;o Tobulinti, atsižvelgiant į svetainės naudotojų atsiliepimus.

• Įmonėms siūloma:o Kurti išvestinius produktus naudojantis Raštija IS semantinio

komponento mašina-mašina sąsaja.

Page 33: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Paieškos rezultatų palyginimas

Paieškos rezultatai Terminų banko svetainėje:

Paieškos rezultatai raštija.lt svetainėje:

Page 34: Martynas SABALIAUSKAS „Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema“

Ačiū už dėmesį.

Panevėžys 2015 09 18