Upload
janisgrabis1
View
108
Download
6
Embed Size (px)
Citation preview
Latviešu valoda jaunajās tehnoloģijās
Raivis Skadiņš un Inguna Skadiņa
KAS IR TILDE?
Nodrošinātlatviešu valodai
tādu pašu atbalstu jaunajās tehnoloģijās kā plaši lietotām valodām
Kas ir Tilde?
Darbības virzieni un kompetence
Tulkošanas tehnoloģijas
Terminoloģijas risinājumi
Runas tehnoloģijas
Multimodāli virtuālie asistenti
Pareizrakstības līdzekļi
Mācību līdzekļi
Valodas resursi
• 6 zinātņu doktori, 2 doktoranti
• Aktīva dalība starptautiskās valodas tehnoloģiju organizācijās un projektos
• Vairāk nekā 120 zinātniskās publikācijas starptautisko konferenču rakstu krājumos
• Dalība ES līdzfinansētos pētniecības projektos kopš 2002. gada
• Tilde ir piedalījusies vai piedalās 14 projektos
• Vadījusi 5 projektus
Eiropas mēroga pētniecības aktivitātes
Sadarbība
vairāk nekā 40 sadarbības partneru
LATVIEŠU VALODA JAUNAJĀS TEHNOLOĢIJĀS
Kā Pēcis Beisikānis Maiju Saprātiņu programmēt mācīja B.Martuzāns, 1986
Pirms neilga laika angļu valoda kalpoja par saziņas valodu tīmeklī, jo lielākā daļa satura bija angļu valodā.
Tagad tīmekļa satura apjoms citās valodās ir strauji pieaudzis
Bet kā ar tehnoloģijām, kas “saprot” un prot lietot valodu?
Valodu tehnoloģiju iespējas un izaicinājumi
DIGITĀLĀS TEKSTU KRĀTUVESNevienam nerada šaubas nepieciešamība veidot digitālās resursu krātuves, kurās apkopota gan runātā, gan rakstītā valoda
Digitālā bibliotēka
http://www.korpuss.lv/senie/
saeima.korpuss.lv
http://letonika.lv/literatura
PAMATTEHNOLOĢIJAS
Valodas tehnoloģiju iespējas
Valodas tehnoloģijas kļuvušas par mūsu ikdienu
– lietojam meklēšanas rīkus
– uzticamies pareizrakstības pārbaudes rīkiem
– klausāmies automašīnas navigācijas sistēmas mutiskās norādes
– vēlamies uzticamus tulkošanas rīkus
Pareizrakstības pārbaude
• Parasti izceļ kļūdaini uzrakstītus vārdus un piedāvā labojumus
• Pareizrakstības pārbaudes rīki atrod arī sintakses kļūdas
• Pareizas sintakses likumsCSENT -> main:SENT pm:T cc:C cc:SENT
cc:C.ConjType==Coord
pm:T.PunctType==comma
• Kļūdainas sintakses likumsDESCR "Pieturzīmes kļūda"
ERROR-6 -> main:SENT cc:C cc:SENT
cc:C.ConjType==Coord
GRAMMCHECK MarkSpaceBefore(cc:C)
SUGGEXPLAN "Starp divām patstāvīgām teikuma daļām ir jāliek komats"
SUGGEST (","+cc:C)
Pareizas un kļūdainas sintakses likumu pāris
AUTOMATIZĒTA TULKOŠANA
Latvijas iedzīvotāji nelasa vai reti lasa informāciju Internetā,
ja tā nav dzimtajā valodā
46%
Latvijas nodarbinātie iedzīvotāji neveic vai reti veic profesionālo komunikāciju Internetā, ja tā nav dzimtajā valodā
64%
Statistiskās MT sistēmas
1947. gada 4.martā Vorens Vīvers(Warren Weaver) Norbertam Vīneram(Norbert Wiener) vēstulē izklāsta idejupar datora izmantošanu tulkošanā
… Also knowing nothing official about, but having guessed and inferred considerable about, powerful new mechanized methods in cryptography... one naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian, I say: “This is really written in English, but it has been coded in some strange symbols. I will now proceed todecode.”...
Kad es redzu tekstu krieviski, es saku “Tas īstenībā ir rakstīts angliski, bet ir nokodēts ar dīvainiem simboliem. Es to atkodēšu”
23
Mašīntulkošana
Ideja par datoru izmantošanu dabiskās valodas teksta tulkošanā radās 1946. gadā
Mi pyeryedayem mislyi posryedstvom ryechi.
We transmit thoughts by means of speech.
Statistiskā MT iemācās tulkošanu no divu veidu datiem:• Cilvēka veiktajiem tulkojumiem
• Tekstiem mērķvalodā
• Jo vairāk datu, jo labāk
• Svarīgi, lai tie būtu piemēroti dati!
Kā darbojas mūsdienu MT?
25
Kā darbojas mūsdienu MT: trenēšana
Paralēlais korpuss(angļu-latviešu)
Korpuss mērķvalodā
(latviešu)
Tulkošanas modelisP(A|L)
Valodas modelisP(L)
26
Kā darbojas mūsdienu MT: tulkošana
Tulkošanas modelisP(A|L)
Valodas modelisP(L)
Teikums angļu valodā
Teikums latviešu valodā
Dekoderisargmaxl P(L)P(A|L)
27
Kurš teikums, ir kura tulkojums
Sastatījums teikuma līmenī
Take the cone on the square. Take the block.Take the green block.
Paņem konusu no kvadrāta.Paņem klucīti.Paņem zaļo klucīti.
Kā tulkojami vārdi un vārdu savienojumi
Vārdu sastatīšana, tulkojumu varbūtības
blockgreentake
klucītiszaļšpaņemt
Kāds ir pareizs teikums mērķvalodā
Valodas modelis Paņem zaļo klucīti.Paņem klucīti zaļo.
Ko dators iemācās no tekstiem?
28
Sastatīšana teikuma līmenī
29
Take the cube.
Take the green cube on the red circle.
Take the green cube,put the cube on the red
circle.
Put the cone on the red circle on the square.
Paņem kubu.
Paņem zaļo kubu no sarkanā apļa.
Noliec kubu uz sarkanā apļa.
Pārliec konusu no sarkanā apļa uz kvadrāta.
Paņem zaļo kubu.
William A. Gale and Kenneth Ward Church (1991): A PROGRAM FOR ALIGNING SENTENCES IN BILINGUAL CORPORA, Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics (ACL)
Sastatīšana vārdu līmenī
http://www.lr-coordination.eu/sites/default/files/presentation/GER_workshop-master-S7a-Josef%20van%20Genabith-final-DE.pdf
Sastatīšana vārdu līmenī
31http://www.lr-coordination.eu/sites/default/files/presentation/GER_workshop-master-S7a-Josef%20van%20Genabith-final-DE.pdf
Vārdu tulkojumu izguve
32
Teikuma līmeņa sastatījums
Take the block. Paņem klucīti.
Take the green block. Paņem zaļo klucīti.
Take the red square. Paņem sarkano kvadrātu.
Put the square on the red block. Noliec kvadrātu uz sarkanā klucīša.
Put on the red square. Noliec uz sarkanā kvadrāta.
Vārdu tulkojumu izguve
33
Vārdu pāru biežumi
take paņem 3
klucīti 2
...
block klucīti 2
klucīša 1
green zaļo 1
red sarkano 1
sarkanā 2
on uz 2
put noliec 2
.....
Sastatījums
Take the block. Paņem klucīti.
Take the green block. Paņem zaļo klucīti.
Take the red square. Paņem sarkanokvadrātu.
Put the square onthe red block.
Noliec kvadrātu uzsarkanā klucīša.
Put on the redsquare.
Noliec uz sarkanākvadrāta.
Tulkošanas modelis
34
Put the red blockVārdu pāru biežumi
take paņem 3
klucīti 2
...
block klucīti 2
klucīša 1
green zaļo 1
red sarkano 1
sarkanā 2
on uz 2
put noliec 2
.....
?
Tulkošanas modelis
35
Put the red block
Vārdu pāru biežumi
take paņem 3
klucīti 2
...
block klucīti 2
klucīša 1
green zaļo 1
red sarkano 1
sarkanā 2
on uz 2
put noliec 2
.....
? Noliec sarkano klucīti2/2 1/3 1/3
Noliec sarkano klucīša2/2 1/3 1/3
Noliec sarkanā klucīti2/2 2/3 2/3
Noliec sarkanā klucīša2/2 2/3 1/3
Tulkošanas modelis
36
Put the red blockVārdu pāru biežumi
take paņem 3
klucīti 2
...
block klucīti 2
klucīša 1
green zaļo 1
red sarkano 1
sarkanā 2
on uz 2
put noliec 2
.....
?
Noliec sarkanā klucīti
Valodas modelis
37
• Kas ir laba valoda?• Kuri vārdi var kuriem sekot un kuri nevar?• Kādi ir pareizie locījumi?
Noliec sarkano klucīti
Noliec sarkano klucīša
Noliec sarkanā klucīti
Noliec sarkanā klucīša
Valodas modelis• Valodas modelis novērtē pārtulkoto vārdu virkni L, t.i.,
novērtē vai tas ir pareizs teikums P(L)• Valodas modeļa veidošanai izmanto lielus monolingvālus
tekstu korpusus• Lai noskaidrotu, kas ir “laba” vai “slikta” valoda, tiek
izmantoti valodas n-grammu modeļi, visbiežāk 3-grammas, 5-grammas, 7- grammas
P(noliec sarkano klucīti) P(noliec|teikuma sākums) *P(sarkano | teikuma sākums, noliec) *P(klucīti |noliec, sarkano) *P(teikuma beigas| noliec, sarkano) *P(teikuma beigas |sarkano)
38
Valodas modelis
39
• Kas ir laba valoda?• Kuri vārdi var kuriem sekot un kuri nevar?• Kādi ir pareizie locījumi?
Noliec sarkano klucīti2 0.1 0.1 0.1 0.1Noliec sarkano klucīša2 0.1 0.1 0. 1 0.1Noliec sarkanā klucīti2 0.1 0.1 0.1 0.1Noliec sarkanā klucīša2 0.1 0.1 1 1
Sastatījums
Take the block. Paņem klucīti.
Take the green block. Paņem zaļo klucīti.
Take the red square. Paņem sarkanokvadrātu.
Put the square onthe red block.
Noliec kvadrātu uzsarkanā klucīša.
Put on the redsquare.
Noliec uz sarkanākvadrāta.
Statistiskā mašīntulkošana
40
Vārdu pāru biežumi
take paņem 3
block klucīti 2
klucīša 1
green zaļo 1
red sarkano 1
sarkanā 2
...
+
Tulkojums mērķvalodā
Put the red block
Noliec sarkanā klucīša
Tulkošana
Paralēlais korpuss(angļu-latviešu)
Korpuss mērķvalodā
(latviešu)
Tulkošanas modelisP(A|L)
Valodas modelisP(L)
Teikums angļu valodā
Teikums latviešu valodā
Dekoderisargmaxl P(L)P(A|L)
41
• Tulkojot vārdus, tiek zaudēts konteksts: piemēram, saskaņojums (paņem sarkanā klucīti …) u.c.
• Daļēji risina valodas modelis
• Labāks risinājums ir frāzēs balstīts modelis - ne tikai vārdu tulkojumi, bet arī frāžu tulkojumi
Frāzēs balstīta SMT
42
Statistiskā mašīntulkošana
43
Biežumu statistika
take paņem 4
block klucīti 2
klucīša 1
green zaļo 2
zaļā 1
red sarkano 1
sarkanā 2
on uz 3
put noliec 3
square kvadrāta 1
kvadrātu 2
Sastatījums
Take the block. Paņem klucīti.
Take the green block. Paņem zaļo klucīti.
Take the green square. Paņem zaļo kvadrātu.
Take the red square. Paņem sarkanokvadrātu.
Put the square on thered block.
Noliec kvadrātu uzsarkanā klucīša.
Put on the red square. Noliec uz sarkanākvadrāta.
Put on the green block. Noliec uz zaļā klucīša.
44
Biežumu statistika
take paņem 4
block klucīti 2
klucīša 1
green zaļo 2
zaļā 1
red sarkano 1
sarkanā 2
on uz 3
put noliec 3
square kvadrāta 1
kvadrātu 2
Put the red square on thegreen block
Noliec sarkanā kvadrātu uz zaļo klucīti
Statistiskā mašīntulkošana
45
Biežumu statistika
the red square sarkano kvadrātu 1
on the green block uz zaļā klucīša 1
on the red squire uz sarkanā kvadrāta 1
put noliec 3
....
Sastatījums
Take the block. Paņem klucīti.
Take the green block. Paņem zaļo klucīti.
Take the green square. Paņem zaļo kvadrātu.
Take the red square. Paņem sarkano kvadrātu.
Put the square on the red block. Noliec kvadrātu uz sarkanā klucīša.
Put on the red square. Noliec uz sarkanā kvadrāta.
Put on the green block. Noliec uz zaļā klucīša.
Statistiskā mašīntulkošana
46
Noliec sarkano kvadrātu uz zaļā klucīša
Biežumu statistika
the red square sarkano kvadrātu 1
on the green block uz zaļā klucīša 1
on the red squire uz sarkanā kvadrāta 1
put noliec 3
Put the red square on the green block
Mašīntulkošanas sistēmas izveides soļi
47
VALODU VIRZIENS JOMA BLEU
Angļu-latviešu Valsts pārvalde 55,58
Latviešu-angļu Valsts pārvalde 60,93
Latviešu-krievu Valsts pārvalde 65,88
Apsteigts Google un Microsoft: sasniegta
pasaulē labākā mašīntulkošanas kvalitāte
Baltijas valstu valodām
Skype Translator
51http://www.skype.com/en/translator-preview/
Neironu tīklu lietojums MT
Pašlaik vislabākie rezultāti
Pirmie eksperimentālie rezultāti
K. Stevens. Neural Networks and Google Translate: http://lectures.ms.mff.cuni.cz/view.php?rec=278
Valodas modeļu pārvērtēšana
52
RUNAS TEHNOLOĢIJAS
Runas atpazīšanas korpuss
Ortogrāfiski marķēts latviešu valodas runas korpuss:– Ortogrāfiski marķēti dati (100 stundas)
– Fonētiski marķēti dati (4 stundas)
Runātās valodas korpuss
Sadalījums pa vecuma grupām
Balss atpazīšanas procesa izpēte
• Modelē akustiskās pārejas fonēmās un starp tām
• Modelēšana ar HMM modeli (HiddenMarkov Model)
• «Apmācīšana» uz transkribētiem balss datiem
Akustiskais modelis
Grafēmu-fonēmu modelis
Valodas modelis
• Modelē grafēmu izrunu
• Vienkāršākais modelis –izrunas vārdnīca
• Komplicētāki modeļi, piem., ar Finite StateTransducers
• Modelē iespējamo vārdu secību teikumā.
• Vienkāršākie modeļi ar CFG.
• Vispārējs varbūtisks valodas modelis ar n-grammām
Audiosignāla parametri-
zācija
• Attīra trokšņu un fona ietekmi
• Normalizē audiosignālu, līdzsvarojot akustiskos, tembrālos un tonālos parametrus
Balss atpazīšanas process
Speech signal
Feature extraction
Acoustic model
Languagemodel
Combining both models
Best hypothesis
𝑃 𝑎𝑐𝑜𝑢𝑠𝑡𝑖𝑐 𝑠𝑖𝑔𝑛𝑎𝑙|𝑇
𝑃(𝑇)
𝑎𝑟𝑔max𝑇
VIRTUĀLIE SARUNU BIEDRI
Virtuālie sarunu biedri
Tjūringa tests (1950)
Arhitektūra
Runas atpazīšanas un runas sintēzes
tīmekļa pakalpojumiGoogle, Nuanse
iPhone
Android
Windows Phone
Ms Windows
Lietotāja iekārtas
Vairāku aģentu dialoga vadības
sistēma
Ārējās zināšanu bāzesĀrējās zināšanu
bāzesĀrējās zināšanu bāzes
text, ID, GPS, ...
text/xml, ID
Pirmais prototips: valūtas konvertors Ēriks
• Dialogsistēma ierobežotas lietošanas scenārijam.
• Eksperimentāla lietotne, kas palīdzēja Latvijas iedzīvotājiem vieglāk orientēties valūtas konvertācijas procesā 2014. gada pirmajos mēnešos, kad notika pāreja no latiem uz eiro.
• Pirmā multimodālā dialogsistēma, kas demonstrē skaitļu atpazīšanu runā latviešuvalodā.
Meklēšana tīmeklīKāds
šodien datums
?
Kurā vietā atrodas vaicātājs
Kur meklējamas laika ziņas?
Kāds būs laiks 24. februārī
Rīgā?
Kāds rīt būs laiks?
Laura• Dialogsistēma Laura ir virtuālā
sarunbiedra prototips.• Laura saprot vienkāršus
jautājumus angļu valodā un var sniegt atbildes uz tiem.
• Sarunas laikā pauž emocijas.
• Papildus prot arī: • Atbildēt par laikapstākļiem;• Noteikt attālumu;• Noteikt atrašanās vietu;• Tulkot no angļu valodas uz spāņu, krievu
un franču valodām u.tml.
Laura Riga Guide• Laura Riga Guide iepazīstina
lietotājus ar Rīgu un Latviju.
• Pielāgota saskarne; Papildus servisi iekļauj:
• Google Maps /Google Directions
• Foursquare
Mobils mācību palīglīdzeklis reizrēķina apguvei latviešu
valodā
Reizrēķins• Multimodālās dialogsistēmas
prototips Reizrēķins veidots kā spēle un palīgs bērniem reizrēķinazināšanu nostiprināšanai latviešuvalodā.
• Runas atpazīšana reālā laikā.
• Pauž emocijas atkarībā no atbildes pareizības.
• Interaktīvs 3D tēls.
Multimodālā sapludināšana –emocionāls, bērnam saprotams
virtuālais tēls, kas reaģē atbilstoši situācijai
PALDIES PAR UZMANĪBU!
JAUTĀJUMI?