View
2
Download
0
Category
Preview:
Citation preview
Univerza v Mariboru
Fakul te ta za varnostne vede
DIPLOMSKO DELO
Programska oprema na področ ju jezikos lovja
Tadej Špi ta la r
Maj , 2010 Mentor : mag . Branko Aţman
KAZALO
1 UVOD .............................................................................................................. 1
2 ORODJA V UREJEVALNIKIH BESEDIL ................................................ 3
2.1 Črkovalniki ......................................................................................................... 3
2.2 Delilniki .............................................................................................................. 4
2.3 Lematizatorji ...................................................................................................... 5
2.4 Generatorji besednih oblik ................................................................................. 5
2.5 Slovnični pregledovalniki................................................................................... 5
2.6 Orodja za povzemanje besedil ............................................................................ 6
2.7 Program za optično branje dokumentov Amebis Prest ...................................... 6
3 SLOVARJI ..................................................................................................... 8
3.1 Enojezični slovarji .............................................................................................. 8
3.2 Dvojezični slovarji ............................................................................................. 9
3.3 Tezavri ali slovarji sinonimov .......................................................................... 10
3.4 Terminološki enojezični ali dvojezični slovarji ............................................... 10
3.5 Leksikoni besednih oblik.................................................................................. 11
4 KORPUSI ..................................................................................................... 13
4.1 Gradnja korpusov ............................................................................................. 14
4.2 Tipologija korpusov ......................................................................................... 16
4.2.1 Referenčni korpusi .................................................................................... 17
4.2.2 Enojezični korpusi .................................................................................... 18
4.2.3 Dvojezični korpusi .................................................................................... 19
4.2.4 Vzporedni korpusi ..................................................................................... 20
4.2.5 Primerljivi korpusi .................................................................................... 20
4.3 Korpusna orodja ............................................................................................... 20
4.3.1 Orodja za označevanje besedil ................................................................. 21
4.3.2 Orodja za iskanje in analizo – konkordančnik ......................................... 21
5 RAČUNALNIŠKA ORODJA ZA PREVAJANJE ................................... 28
5.1 Strojno prevajanje............................................................................................. 30
5.2 Računalniško podprto prevajanje ..................................................................... 32
5.3 Pomnilniki prevodov ........................................................................................ 32
5.4 Terminološki programi ..................................................................................... 34
5.5 Strojno simultano prevajanje govora ................................................................ 35
5.6 Razlike med strojnim simultanim prevajanjem govora in strojnim prevajanjem
besedila ............................................................................................................. 37
6 GOVORNE TEHNOLOGIJE .................................................................... 39
6.1 Računalniki in naravni jezik ............................................................................. 39
6.2 Sistemi za sintezo govora ................................................................................. 41
6.2.1 MS Agents ................................................................................................. 41
6.2.2 Amebis Govorec ........................................................................................ 42
7 UPORABA RAČUNALNIŠKIH ORODIJ NA PODROČJU
POUČEVANJA JEZIKA ............................................................................ 43
7.1 Namenska gradiva ............................................................................................ 43
7.1.1 Pripravljena gradiva ................................................................................ 43
7.1.2 Referenčni viri .......................................................................................... 44
7.1.3 Orodja za jezikovni pouk .......................................................................... 45
7.2 Nenamenska gradiva in orodja ......................................................................... 45
7.2.1 Nenamenska gradiva ................................................................................ 45
7.2.2 Urejevalniki besedil pri jezikovnem pouku ............................................... 47
7.2.3 Elektronska komunikacija…………………………...……………......……….47
7.2.4 Elektronska pošta ..................................................................................... 48
7.2.5 Internetna komunikacija ........................................................................... 48
7.2.6 Elektronsko učenje na daljavo .................................................................. 49
8 ZAKLJUČEK ............................................................................................... 50
9 SEZNAM VIROV IN LITERATURE ....................................................... 51
10 PRILOGA ..................................................................................................... 56
KAZALO SLIK
Slika 1: Prepoznavanje govora in sinteza ....................................................................... 42
KAZALO TABEL
Tabela 1: KWIC konkordanca angleške besede greh ..................................................... 23
Tabela 2: Tekst, uporabljen za konkordanco .................................................................. 23
Tabela 3: Prikaz konkordance je moţen tudi na način, kjer je pred ali za ključno besedo,
prikazanih tudi 75 do 80 znakov .................................................................... 24
Tabela 4: Vzporedna angleško-francoska konkordanca za besedo “pour” .................... 24
POVZETEK
Diplomska naloga pred vami je opisnega tipa in nudi pregled nad programsko opremo
na področju jezikoslovja oziroma jezikovnih tehnologij. V prvem delu so predstavljena
splošno znana orodja v urejevalnikih besedil, kot so črkovalniki in delilniki, slovnični
pregledovalniki, generatorji besednih oblik, lematizatorji, orodja za povzemanje besedil
in programi za optično branje dokumentov. V osrednjem delu so opisani elektronski
slovarji, tako enojezični, dvojezični, terminološki kot tudi tezavri in leksikoni besednih
oblik ter korpusi, kot empirična in izrazito računalniško podprta veja jezikoslovja. V
nadaljevanju naloga opisuje računalniška orodja za prevajanje, med njimi orodja za
strojno in računalniško podprto prevajanje, pomnilnike prevodov, terminološke
programe ter orodja za strojno simultano prevajanje. V zadnjem delu naloga predstavlja
nekaj govornih tehnologij, in sicer sisteme za sintezo govora ter računalniška orodja na
področju poučevanja jezika.
Ključne besede: jezikoslovje, računalniška orodja, črkovalniki, slovnični
pregledovalniki, elektronski slovarji, korpusi, govorne tehnologije
LINGUISTICS SOFTWARE TOOLS
SUMMARY
Dissertation before you provides overview above most widespread software tools on
field of language technologies. In the beginning dissertation describes generally known
tools in text editors, among them spell checkers, hypenators, grammar checkers, word
form generators, lemmatisers, tools for summarising of text and programs for optical
reading of documents. In central part dissertation describes electronic dictionaries,
thesaurus, lexica of word forms and corpora as explicitly empirical branch of linguistics
supported by computers. Furthermore dissertation focuses on computational
technologies used by translators. These technologies include machine tanslation,
computer-aided translation (translation memories and terminological programs) and
simultaneous machine translation. Last chapter discusses the speech technologies,
particulary speech synthesis and computer tools on field of teaching of language.
Key words: language technologies, spell checkers, grammar checkers, electronic
dictionaries, corpora, speech tecnologies
1
1 UVOD
Jezik je najbolj neposredni izraz kulture, je to, kar nas dela človeške in vsakemu izmed
nas daje občutek identitete. Jeziki so vpeti v kulturo deţel in pokrajin, kjer jih prebivalci
govorijo, v običaje, tradicije in sisteme prepričanj (Evropska komisija, 2009).
Odkar ţivimo v informacijski dobi, so računalniške in komunikacijske tehnologije
postale obvezen del našega vsakdanjika. Večina uporabnikov računalnikov se dnevno
srečuje z urejevalniki besedil, ki poleg osnovnih funkcij za urejanje le-teh, vsebujejo
tudi nekatera izmed programskih orodij za jezikoslovje, kot so črkovalniki, delilniki in
slovnični pregledovalniki. Ti omogočajo, da se avtor preteţno osredotoči na vsebino
besedila.
Pozitivna raba interneta je v nekaj letih postala odvisna od učinkovitih iskalnikov, preko
katerih uporabniki hitro ter enostavno najdejo ţelene informacije. V spletnih iskalnikih
so vgrajeni črkovalniki, ki sproti preverjajo pravilnost vnesenih besed in v primeru
napake ponudijo ustrezno. Elektronski slovarji so drugo področje programskih orodij v
jezikoslovju, ki so poleg orodij v urejevalnikih besedil, najbolj znani širšim
uporabnikom. Slovarji so na voljo kot samostojne aplikacije ali kot integrirani moduli v
urejevalnikih besedil, z razmahom interneta pa so še bolj pridobili na pomenu, kjer jih
je nemalo tudi brezplačno dostopnih.
Internet je od samega začetka pomemben medij za razvoj korpusov, to so elektronske
zbirke besedil, ki omogočajo raziskovanje jezikoslovja in jezikoslovnih pojavov z
empirično-kvantitativnega vidika. Velja, da je internet kot medij z velikanskim številom
elektronskih zbirk besedil, največji in najširše dostopni korpus. Korpusi sluţijo tudi kot
temelj za razvoj drugih jezikoslovnih tehnologij, kot so na primer govorne tehnologije
ali tehnologije za podporo prevajalstvu. Poleg namenskih prevajalskih aplikacij, spletni
iskalniki ponujajo moţnost prevajanja posameznih besed ali celotnih vsebin. Na
področju govornih tehnologij naprave, kot so na primer gsm aparati, ţe vključujejo
programske pakete, ki pretvarjajo poljubno besedilo v govor in med drugim omogočajo
glasovno prebiranje kratkih sporočil. Računalniški programi so danes tako zmoţni
2
zapisa po nareku in hkratnega stilnega prilagajanja besedila, povzemanja daljšega
besedila in prevajanja v tuj ali materni jezik. Nenazadnje pa so jezikovne tehnologije
postale tudi nepogrešljiv del jezikovnega pouka.
3
2 ORODJA V UREJEVALNIKIH BESEDIL
Urejevalniki besedil, kot sta na primer MS Word ali Open Office, obstaja pa še vrsta
drugih, so namenjeni oblikovanju besedil z moţnostjo vključevanja slikovnih in drugih
objektov. Tipičen namen uporabe urejevalnikov je pisanje dokumentov, pa tudi bolj
obseţnih gradiv, kot so publikacije. Danes so najbolj razširjeni grafično usmerjeni
urejevalniki, torej urejevalniki, kjer vidimo besedilo v oknu, v njem pa z miško ali
tipkovnico premikamo kazalec in tako določamo poloţaj, kjer bomo besedilo
spreminjali.
Programska orodja za potrebe jezikoslovja, ki so vgrajeni v sodobne urejevalnike
besedil in jih bomo v nadaljevanju predstavili, so: črkovalniki, slovnični
pregledovalniki (računalniško orodje, ki odkriva slovnične in slogovne napake v
besedilih, kot so npr. neujemanje pridevnika in samostalnika, opozarja na nepravilne
predloţne zveze, manjkajoče vejice, zanikanje s toţilnikom, nepravilne predloge pri
lastnih imenih itd.), delilniki, samopopravki (vgrajen korektor v urejevalniku besedil, ki
samodejno popravlja običajne tipkarske napake, nepravilno črkovanje, nepravilno
uporabo velike začetnice), generatorji besednih oblik (modul, ki za določeno osnovno
besedo generira vse njene besedne oblike).
2.1 Črkovalniki
Črkovalnik je najbolj splošno znano jezikovno računalniško orodje. Osnovna naloga
črkovalnika je iskanje pravopisnih in tipkarskih napak. Program pregleduje besedilo,
dokler ne naleti na napako. Takrat odpre okno, v katerem ima uporabnik moţnost
besedo popraviti, pri tem pa mu program pomaga tudi z nasveti. Nasveti so po obliki
najbolj podobne besede, ki jih ima črkovalnik v slovarju, ne glede na njihov pomen.
Koristni so v primerih, ko uporabnik ne ve, katera oblika je pravilna. Tak primer so npr.
besede "daljni", "dalnji", "daljnji", "nadaljni", "nadalnji" in "nadaljnji". Črkovalnik je
lahko del programa ali samostojni program. Deluje na podlagi leksikona besed in
besednih oblik, ki ga najlaţje pridobimo iz korpusa ali slovarja (Vintar, 2003).
4
Tipično deluje tako, da vhodno besedilo razreţe na besede in le-te poišče v slovarju, ki
vsebuje seznam pravilnih besed za dani jezik. Če besede v slovarju ne najde, sklepa, da
bi lahko bila napačna. V tem primeru poskusi poiskati po slovarju besede, ki bi lahko
bile mišljene, in sicer tako, da upošteva tipične napake oziroma podobnost besed.
Preverjanje lahko deluje ţe sproti med tipkanjem besedila ali pa na zahtevo. Slovar
znanih besed nikoli ne more pokriti vseh besed, ker v jezikih po eni strani neprestano
nastajajo nove, po drugi strani pa je predvsem lastnih imen, ki prihajajo iz drugih
jezikov veliko preveč za kaj takega. Pretirano povečevanje slovarja v resnici lahko celo
poslabša kakovost preverjanja črkovanja, ker se začne dogajati, da se zatipkane pogoste
besede začnejo prekrivati z redkimi besedami (v slovenščini je tako pri besedi "ţelad"
najbrţ bolj verjetno, da je to zatipkana beseda "čelad", kot da gre za redek samostalnik
"ţelad"). Zato črkovalniki običajno ponujajo moţnost, da uporabnik v slovar doda
besede iz svojega specifičnega besedišča, ki jih splošni slovar ne pozna.
Namesto slovarja lahko črkovalniki uporabljajo tudi statistične metode (preverjajo,
katere kombinacije črk so dovolj verjetne v nekem jeziku). S tem je moţno pokriti tudi
novo nastale besede, vendar se lahko marsikatera zatipkana beseda razglasi za pravilno,
ker "zveni" dovolj pravilno.
2.2 Delilniki
Delilnik je računalniško orodje za pravilno deljenje besed. Običajno je sestavljen iz
programskega in slovarskega dela. Programski del je izveden glede na okolje, v katerem
mora delovati. Običajno je to dll datoteka, njegova osnovna funkcija pa je deljenje
besed. Ker je delilnik v osnovi algoritmičen, je za izjeme vgrajen dodatni slovar, ki jih
algoritem ne deli pravilno. Slovar je spisek besed z označenimi mesti deljenja, ki jih
programski del uporablja pri delovanju. Besede je mogoče poljubno dodajati. Glavni
problem deljenja (zlogovanja) besed so običajno ohlapna pravila v pravopisu, ki način
deljenja v večini primerov prepuščajo "akustičnemu občutku" posameznika. Ker je ta od
človeka do človeka različen, je več tudi različnih deljenj določene besede, ki pa vsa
ustrezajo obstoječim pravilom. Algoritem poleg pravopisno predpisanih pravil upošteva
5
tudi fonetična merila deljenja. Algoritem ima to lastnost, da poleg "najboljšega" deljenja
predlaga tudi "moţna" deljenja, ki so prav tako pravilna. Ker sta deljenje in zlogovanje
zelo tesno povezana, je v algoritmu velikokrat dodana moţnost zlogovanja. Tako lahko
isto funkcijo poleg uporabe v modulu za deljenje uporabimo tudi v drugih programih,
npr. pri sintezi govora, kjer je od števila zlogov odvisna tudi hitrost izgovarjave
določene besede.
2.3 Lematizatorji
Lematizator je program, katerega funkcija je iskanje osnovne oblike besede za določeno
besedno obliko, ki je lahko poljubna (npr. pišemo – pisati, drevesoma - drevo).
Običajno je sestavljen iz programskega in slovarskega dela. Programski del je izveden
glede na okolje, v katerem mora delovati. Običajno je to dll datoteka, njegova osnovna
funkcija pa je iskanje osnovnih besed. Slovarski del vsebuje morfološko opisane
osnovne besede, iz katerih izhajajo različne besedne oblike oziroma različne pomenske
oblike (Amebis, 2008).
2.4 Generatorji besednih oblik
Generator besednih oblik je modul, ki za določeno osnovno besedo generira vse njene
besedne oblike. Modul za vgradnjo v urejevalnik besedila je sestavljen iz programskega
in slovarskega dela. Programski del je izveden glede na okolje, v katerem mora delovati.
Običajno je to dll datoteka, njegova osnovna funkcija pa je generiranje ustreznih
besednih oblik. Slovar je spisek besed, ki jih programski del uporablja pri delovanju.
Besede je mogoče poljubno dodajati ali jih zbirati iz računalniških zbirk besedil
oziroma korpusov (Amebis, 2008).
2.5 Slovnični pregledovalniki
Slovnični pregledovalnik je računalniško orodje, ki odkriva slovnične in slogovne
napake v besedilih, kot so neujemanje pridevnika in samostalnika, opozarja na
nepravilne predloţne zveze, manjkajoče vejice, zanikanje s toţilnikom, nepravilne
6
predloge pri lastnih imenih itd. V besedilih odkriva nekatere najznačilnejše napake in
največkrat tudi predlaga, kako jih popraviti. Pri obvestilih o napakah prikaţe razlago,
kaj naj bi bilo narobe. Slovnični pregledovalnik ne more nadomestiti lektorja - ne zna
najti vseh vrst napak, marsikatera napaka pa postane opazna šele na pomenski ravni, kar
je za računalniško tehnologijo še nedosegljivo. Kljub temu uporabniku, ki ureja
besedilo, pomaga, da hitro odpravi očitne napake in se lahko več posveča drugim
vidikom besedila. Amebisov pregledovalnik za slovenski jezik Besana po novem
vsebuje tudi pregibnik, s katerim lahko sklanjamo, stopnjujemo in spregamo besedne
oblike. Pregibnik išče besedo po vseh oblikah, zato je le-ta lahko vpisana v katerem koli
sklonu, spolu, številu, stopnji, času osebi (Amebis, 2009).
2.6 Orodja za povzemanje besedil
Računalnik s pomočjo orodja za povzemanje besedil samodejno opravi povzetek
daljšega besedila. V času vsesplošne informacijske zasičenosti je povzemanje koristna
aplikacija. Danes je na voljo prek deset komercialnih orodij za povzemanje, med njimi
najbrţ najbolj znan Microsoftov, ki ga je mogoče vključiti v Word in druge programe.
Zgodnja orodja za povzemanje besedil so temeljila na luščenju ključnih besed in
vrednotenju povedi glede na informativno teţo. Povzetek, katerega dolţino lahko
uporabnik določi sam, je sestavljen iz ustreznega števila visoko uvrščenih povedi,
katerih notranja zgradba ostane nespremenjena. Naprednejša orodja vključujejo
jezikovno odvisne komponente obliko skladenjske analize in zmorejo mnogo več, med
drugim tudi preoblikovanje povedi tako, da je zajeta le ključna informacija, pa tudi
povzemanje mnoţice dokumentov (Vintar 2003).
2.7 Program za optično branje dokumentov Amebis Prest
Prest je prvi program za optično branje dokumentov z vgrajenim slovenskim
črkovalnikom. Noben program ne more popolnoma natančno prebrati besedila, ki je
zapisano kot slika, saj imajo pri tem teţave celo ljudje. Zato si ljudje pomagamo tako,
da iz sosednjih črk in besed "uganemo" črke, ki jih ne moremo prebrati. Tako deluje
tudi program Prest. Prest zna pretvoriti vse standardne vrste črk in številk v obliko, ki je
7
namenjena nadaljnjemu obdelovanju z urejevalnikom. Tudi program Prest ima že
vgrajen enostaven urejevalnik in črkovalnik slovenskega jezika (Amebis, 2008).
8
3 SLOVARJI
Slovar je knjiga, v katerem so abecedno urejene in pojasnjene besede nekega jezika.
Slovarji lahko vsebujejo podatke o pisavi, izgovoru, pomenu in izvoru posameznih
besed (SSKJ, 1998). Najbolj klasični jezikovni priročniki v elektronski obliki so
obstoječi knjiţni slovarji, bodisi enojezični ali dvojezični, neposredno preneseni v
računalniško okolje. Preskok v digitalno okolje pa je obenem tudi kvalitativni preskok.
Uporabnost slovarja v elektronski obliki je ob ustrezni programski opremi, ki omogoča
kompleksna iskanja po celotni slovarski bazi podatkov, vključno z večino gesel ali
njegovimi posamičnimi deli, neprimerno večja kot v knjiţni obliki (Landau, 2001).
Slovarji se v digitalni obliki pojavljajo v večini računalniških okolij kot aplikacije pa v
vseh vrstah računalnikov, na internetu, v obliki SMS sporočil v mobilni telefoniji ali v
specializiranih napravah, kot je denimo kombinacija optičnega čitalnika in slovarja –
Quicktionary (Krek, 2003).
3.1 Enojezični slovarji
Splošnih enojezičnih slovarjev v knjiţni obliki, ki opisujejo sodobni jezik, je veliko.
Nam najbolj znan je Slovar slovenskega knjiţnega jezika, ki je izšel v petih zvezkih od
leta 1970 do 1991 (SSKJ), Slovenski pravopis iz leta 2001 (SP 2001) in Veliki slovar
tujk iz leta 2002 (VST 2002). Tem bi pogojno lahko dodali tudi Besedišče slovenskega
jezika z oblikoslovnimi podatki (BSJ), tj. spisek besed, ki niso bile vključene v SSKJ,
ter Odzadnji slovar slovenskega jezika po Slovarju slovenskega knjiţnega jezika
(OSSJ), spisek iztočnic iz SSKJ, razvrščenih po abecedi od zadnje črke do prve. SSKJ
se je kot prvi, pojavil leta 1997 na disketah v programu ASP za operacijski sistem DOS
in Windows. Trenutno je SSKJ dostopen v paketu s programom ASP32, ki deluje v
obliki enouporabniške ali mreţne aplikacije v različicah operacijskega sistema
Windows za osebne računalnike in streţnike.
Program ASP32 je slovarski vmesnik s funkcijami, ki so postale standard pri podobnih
programih: različne moţnosti tiskanja gesel in geslovnika, moţnost dodajanja opomb,
prilagajanja velikosti ali barv črk na ekranu, sito, ki s skrivanjem posameznih delov
9
gesla omogoča boljši pregled vsebine pri daljših geslih, odpiranje več oken z več gesli
itd. Predvsem je moţno orodje za kompleksna iskanja – z nadomestnimi znaki za en (?)
ali niz znakov (*) ter operatorji »IN«, »ALI«, »NE«, »BLIZU« ter t. i. »NOTRANJI
NE« in »NOTRANJI IN«, ki delujeta znotraj posameznega niza iskanih znakov.
Celotno slovarsko bazo lahko preiskujemo po posameznih delih gesel: geslo, zaglavje,
razlaga, primer, podgeslo in kvalifikator, iskanja po posameznih segmentih lahko tudi
poljubno kombiniramo. Iščemo lahko po vseh posebnih znakih, ki so v SSKJ, od
naglasnih znamenj za izgovarjavo besede do grških črk in matematičnih znakov. Ena od
uporabnih lastnosti programa ASP32 je tudi moţnost shranjevanja in iskanja po izboru
gesel, kar nam olajša pogosta iskanja po geslih, ki smo jih iz celote ţe izločili s
kompleksnejšim iskalnim pogojem. Moţnosti pri spletnem vmesniku so v primerjavi z
ASP32 skromnejše, vendar tudi ta omogoča iskanje po celotni vsebini SSKJ, kar je
dovolj za osnovno uporabo (Krek, 2003).
3.2 Dvojezični slovarji
Dvojezični slovarji so bili poleg črkovalnikov, prvi jezikovni priročniki, ki so – ob
koncu osemdesetih in na začetku devetdesetih let ţe v nelicenčni obliki – obstajali tudi
v obliki računalniške aplikacije, takrat za operacijski sistem DOS, kar govori o veliki
potrebi po njih. Pri nas je bil leta 1994 prvi dvojezični slovar, ki je bil legalno dostopen
v računalniški obliki v programu ASP za DOS in Windows.
Temu so sledili drugi dvojezični slovarji in trenutno so v tej obliki dostopni vsi
obseţnejši in novejši dvojezični slovarji zaloţbe DZS, osemjezični Evropski slovar
Zaloţbe Mladinska knjiga ter nekaj manjših avtorskih slovarjev, ki jih je izdalo podjetje
Amebis (Krek, 2003). Širjenje interneta v devetdesetih letih prejšnjega stoletja je s seboj
prineslo tudi silovit razmah dostopnosti dvojezičnih slovarjev, vendar je (pri tujih
jezikih) razvoj potekal v dveh smereh. Globalno omreţje nudi brezplačen dostop do
mnoţice slovarjev zelo različnega izvora, navadno pa so to zbirke, ki so rezultat
akademskih projektov, posameznih navdušencev, starejše verzije sodobnih slovarjev in
podobno. Sčasoma so se poleg splošnih brskalnikov na svetovnem spletu pojavili tudi
specializirani iskalniki, ki iskano besedo ali zvezo iščejo po vseh brezplačno dostopnih
10
slovarjih, npr. , ,
itd. V večini primerov je tem slovarjem skupna bodisi
nedokončanost bodisi zastarelost in relativno majhen obseg ali fragmentarnost, vendar
imajo tudi takšni viri svojo vrednost.
3.3 Tezavri ali slovarji sinonimov
Beseda tezaver izhaja iz grščine, kar pomeni podobno kot zaklad. Dolgo časa je termin
tezaver pomenil celotni besedni zaklad enega jezika. Roche je k temu dodal, da je
tezaver bolj slovar sinonimov. Tezaver je kontrolirani slovar s strukturo (hierarhičen,
asociativen) in je standardiziran (izdela se po ISO standardu 2788. Za slovenski jezik
slovar sinonimov ali tezaver v knjiţni obliki ne obstaja, obstaja pa v elektronski obliki.
Microsoft v svojem programskem paketu Office od leta 1997 ponuja tudi orodje, ki
uporabniku predlaga sopomenke. Slovar, ki ga orodje uporablja, je razmeroma
nedodelan in potrebna bo nadaljnja jezikoslovna dodelava. Poznamo več vrst tezavorov,
in sicer splošni - zajemajo večja tematska področja, tematski - so omejeni na eno temo,
večjezični - v katerem so izrazi v različnih jezikih. Poznamo še makrotezavre, ki
zajemajo široka področja in mikrotezavre, ki zajemajo oţja področja oziroma
predstavljajo nekakšen podtezaver (SSKJ, 1998).
3.4 Terminološki enojezični ali dvojezični slovarji
Terminološki slovarji so zelo primeren priročnik za medij, kakršen je internet. Če
iščemo prevod ali razlago nekega termina, nas pravzaprav ne zanima, ali je v slovarju
deset ali deset tisoč iztočnic. Vsaka ad hoc sestavljena lista terminov s prevodi ali
razlagami, ki jih je sestavil bodisi navdušeni amater bodisi akademik, ki lahko na
svetovnem spletu sproti dopolnjuje terminologijo nekega področja brez dragega
tiskanja, nam bo dala bolj ali manj zanesljivo informacijo. Na svetovnem spletu kar
mrgoli tovrstnih virov, ki jih lahko najdemo s pomočjo splošnih ali specializiranih
iskalnih orodij za slovarje, ki so omenjeni v poglavju o dvojezičnih slovarjih. V spletni
slovarski zbirki povezav je mogoče najti
terminološke slovarje z zelo različnih področij, od zootehnike do besedja na temo
11
slapov, bogato knjiţnico povezav najdemo tudi na strani , precej manjšo tudi na portalu Matkurja
. Med vsemi
terminološkimi slovarji gotovo izstopa Evroterm, terminološka baza s spletnim
iskalnikom Sektorja za prevajanje Sluţbe Vlade RS za evropske zadeve, ki vsebuje več
kot 30.000 dvojezičnih slovensko-angleških vpisov in je nastala pri prevajanju evropske
zakonodaje v slovenski jezik. Geslovnik je trijezični, zato lahko iščemo angleške,
francoske, nemške in slovenske iztočnice. Baza Evroterm se dnevno dopolnjuje in
revidira. Iskalnik omogoča tudi iskanje z nadomestnimi znaki (Vlada Republike
Slovenije, 2009).
3.5 Leksikoni besednih oblik
Leksikoni besednih oblik so izjemno pomembni za veliko aplikacij na področju
jezikovnih tehnologij. Moţnosti hranjenja in hitrega dostopa do velikih količin
podatkov ter potrebe povsem računalniških jezikovnih orodij, kot so črkovalniki,
delilniki, besedilni korpusi, avtomatski prevajalniki itd. so s seboj prinesli tudi potrebo
in moţnost organiziranja leksikonov besednih oblik pri pregibnih besednih vrstah, ki so
nujni zlasti pri jezikih z velikim številom oblikoslovnih paradigem. Te informacije so
bile do računalniške dobe v precej skrčeni obliki navadno dostopne v zaglavju
enojezičnih ali dvojezičnih slovarjev kot rodilniška oblika ednine pri samostalnikih in
pridevnikih ali prvoosebna oblika ednine pri glagolih, z občasnimi opozorili pri
izjemah, ter v oblikoslovnih razdelkih slovnic slovenskega jezika.
Informacija tako v slovnici (nekaj primerov paradigme) kot v slovarju (pri posamezni
besedi le ena ali nekaj oblik) je bila dokaj neizoblikovana in je za uporabo v resnici
predpostavljala poznavanje slovnice oziroma oblikoslovnih paradigem. Uporabniško
gledano je sklepanje iz osnovne oblike na vse oblike besede za domače govorce
(slovenščine) predvsem pri oblikah, ki so oblikoslovno teţavnejše in morda manj v rabi,
sorazmerno naporno, za tujce, ki se učijo slovenščino, pa tako rekoč neobvladljivo.
Računalniški medij je za tovrstni priročnik precej bolj primeren kot knjiţna oblika,
najbrţ celo edini moţni, kajti izpisovanje vseh oblik določene besede je prostorsko
12
precej potratno, predvidljivost oblik velika. Na svetovnem spletu najdemo orodja, ki
imajo funkcijo iskalnika po računalniškem leksikonu besednih oblik.
13
4 KORPUSI
Kadar nam slovarski ali drugi jezikovni priročniki ne nudijo odgovorov na vprašanja
oziroma ko ţelimo določen jezikovni pojav raziskati z empirično-kvantitativnega
vidika, so nam v pomoč besedilni korpusi ali elektronske zbirke besedil. Do nekaterih
korpusov lahko dostopamo preko interneta, za specifične potrebe pa si lahko zgradimo
tudi lastno računalniško zbirko besedil, po kateri nam iskanje omogočajo različni
korpusni programi.
Razvoj korpusnega jezikoslovja kot empirične in računalniško podprte veje
jezikoslovja, ki svoja spoznanja črpa iz zbirk jezikovnih proizvodov, tj. govornih ali
pisnih besedil, danes merimo ţe v desetletjih. Z razmahom interneta so nekateri korpusi
postali prosto dostopni tudi za širši krog uporabnikov. Uporaba korpusov ni omejena le
na jezikoslovne raziskave, temveč se vse bolj uveljavlja tudi pri pouku maternega in
tujega jezika, prevajanju, lektoriranju in drugih z jezikovno prakso povezanih
dejavnostih. V jezikoslovju se na besedilne zbirke naslanjata predvsem leksikografija in
terminografija, vzporedni in primerljivi korpusi so dragocen vir za prevodoslovje in
primerjalne študije. Posebno vlogo igrajo računalniške zbirke besedil v računalniškem
jezikoslovju in pri razvoju jezikovnih tehnologij, kjer se na podlagi korpusov razvija
metodologija za avtomatsko obdelavo jezika, npr. lematizacijo in oblikoskladenjsko
analizo, analizo in sintezo govora, strojno prevajanje, avtomatsko iskanje terminografije
in rudarjenja podatkov (Vintar, 2001).
Korpusno jezikoslovje pomeni zbirni pojem za niz različnih dejavnosti v zvezi s
korpusi, pri tem pa je izhodišče analize velika količina načrtno zbranega avtentičnega
gradiva in empirična analiza dejanskih vzorcev jezikovne rabe (Biber, Conrad, Reppen,
1998). Šele pojav računalnikov in oblikovanje metod zbiranja ter gradnje korpusov je
omogočilo pridobiti veliko količino relevantnih aktualnih jezikovnih podatkov za
jezikoslovne študije; sodobni jezikovni opisi tako lahko temeljijo na empirični analizi
zares velike količine avtentičnih besedil (Biber in sodelavci, 1998). Gre za značilnosti
jezikovnih podatkov, ki jih starejšim zbirkam jezikovnih podatkov ne moremo pripisati
(Čermak, 2002).
14
Delo v zvezi s korpusi je danes povezano z različnimi dejavnostmi; oblikovanje
kakovostnih korpusov pa zahteva učinkovito sodelovanje jezikoslovcev z raziskovalci s
področja druţboslovnih ved in računalništva, predvsem tistega dela, ki se ukvarja z
naravnimi jeziki.
4.1 Gradnja korpusov
Gradnja korpusov zdruţuje tako jezikoslovce kot računalniške strokovnjake, saj je delo
na področju oblikovanja korpusa vezano tako na načela njihove gradnje kot na
zagotavljanje ustreznega elektronskega zapisa, ki v nadaljevanju omogoča analizo
jezikovnih podatkov (Kennedy, 1998). Pri načelih gradnje korpusov je najprej potrebno
pripraviti okvirni načrt gradnje, ki zajema serijo premislekov in odločitev. V osnovi bi
jih lahko strnili v naslednje sklope (Kennedy, 1998):
specifikacija korpusa in njegova oblika,
strojna in programska oprema,
zajem besedil in označevanje korpusnih dokumentov,
procesiranje zbranega gradiva,
končna oblikovanost korpusa in povratne informacije v zvezi z njim.
V največji meri so jezikoslovni premisleki v zvezi s korpusom vezani na prvo alinejo,
torej specifikacijo korpusa in njegovo obliko. Temeljni premislek je vezan na tip
korpusa, ki ga ţelimo graditi. To za seboj potegne odločitve v zvezi z jezikom besedil
(enojezični ali večjezični korpus), s časovnim zajemanjem besedil (sinhroni ali diahroni
korpus), premislek o zajemu besedil glede na prenosnik (pisni ali govorni korpus) itd.
Izhodiščni jezikoslovni premislek pri osrednjem tipu korpusa, tj. referenčnem korpusu,
ki ţeli predstaviti določen jezik v čim širšem obsegu njegove pojavnosti, pa je vezan
tudi na določitev parametrov za uravnoteţenost v korpusu zajetih besedil na eni strani
(Biber, 1993) ter njihovo jezikoslovno označenostjo v korpusu na drugi.
15
Prav to so parametri, ki dvigajo kakovost jezikovnim podatkom v korpusu, saj je
razumljivo, da korpus, ki zajema samo leposlovna besedila ali samo besedila enega
časopisa, ne more biti kakovosten vir za npr. referenčne jezikovne priročnike.
Da bi z gradnjo sploh lahko začeli, je potrebna tehnična podpora, ki mora od samega
začetka slediti zahtevam tako glede strojne kot programske opreme ter biti sposobna
oblikovati orodja za procesiranje zbranega gradiva. Prav pri procesiranju podatkov se je
potrebno odločati tako, da jezikovnim podatkom zagotovimo čim večjo uporabnost,
izmenjavo ter trajnost, kar v zadnjem času omogočajo standardi za prenos in zapis
jezikovnih podatkov. Čeprav se razmislek v zvezi s postopki zajemanja besedil zdi
dokaj trivialen, pa so se korpusi prav na tem nivoju velikokrat znašli pred nerešljivo
teţavo: kako sploh organizirati zbiranje besedil ter prepričati avtorje, da za namene
korpusa svoja besedila odstopijo. Prav zaradi nepredvideno zapletenih postopkov se je
pr mnogih korpusih njihova gradnja precej zavlekla, tako da se danes vsi zavedajo
zahtevnosti in zamudnosti zbiranja besedil (Atkins, Clear, Oster, 1992).
S pridobivanjem besedil je povezano še eno temeljno vprašanje, ki ga mora vsak resno
zastavljen korpusni projekt rešiti pred začetkom gradnje, tj. zagotavljanje varovanja
avtorskih pravic. Potrebno je poznavanje področja varovanja avtorskih pravic, in sicer
tako na mednarodni kot drţavni ravni, ter v skladu s tem oblikovanje ustreznih rešitev
(Atkins in sodelavci, 1992). Prav izkušnje pri starejših korpusih, ki vprašanja avtorskih
pravic niso zadovoljivo rešile, tako da danes tovrstnih podatkov sploh ni mogoče
uporabljati, so oblikovalce kasnejših korpusov prisilile v razmislek ter iskanje ustreznih
rešitev.
Pri končni obliki korpusa je z vseh vidikov smiselno spremljati odzive na rešitve, jih
sistematično obdelati ter razmisleke v zvezi z gradnjo revidirati ter tako pri njegovi
nadgradnji dosegati večjo kakovost ter prijaznost do uporabnikov. Čeprav se zdi
samoumevno, pa je mogoče vendarle potrebno izpostaviti potrebo po gradnji korpusa
tako, da lahko sproti sledimo jezikovnim spremembam, torej zasnovati delo na način, da
lahko novo besedilno gradivo v korpus nenehno vključujemo.
16
Razvoj orodij za delo s korpusom je vezan predvsem na področje računalniškega
jezikoslovja (Kennedy, 1998), danes pa nekateri široko dostopni programi omogočajo
tudi računalniško manj izobraţenim uporabnikom korpusa samostojen razvoj manj
kompliciranih programskih orodij, ki si jih za svoje specifične potrebe lahko oblikujemo
sami; ob tem se vzporedno razvijajo tudi postopki in metode korpusne analize.
Ob delu s korpusi se razvijajo druga področja jezikovnih tehnologij, ki za svoje
izhodišče potrebujejo kakovostne jezikovne vire. Sem sodi razvoj črkovalnikov,
različnih slovničnih pregledovalnikov, elektronskih slovarjev in tezavrov pa tudi sinteze
in analize govora ipd. V jezikoslovju sodijo na področje korpusnega jezikoslovja
raziskave za potrebe opisnega jezikoslovja, kamor tradicionalno sodijo različne vrste
slovničnih in leksikalnih analiz (Kennedy, 1998). Predvsem leksikologija in
leksikografija sta področji, ki ţe po tradiciji izhajata iz sistematično zbranega gradiva
(McEnery, Wilson, 1996). Prav slovarji, narejeni na podlagi korpusov, pa so tudi prvi
res široki javnosti dostopni rezultati jezikoslovne uporabe korpusov. S pojavom večjega
števila širši javnosti dostopnih različnih tipov korpusov pa se njihova uporabnost širi
predvsem na tradicionalno gradivo usmerjena jezikoslovna področja, kot so
besediloslovje, prevodoslovje, sociolingvistika, stilistika ipd. (McEnery in sodelavci,
1996).
Uporaba računalnika z avtomatičnimi in interaktivnimi tehnikami omogoča analizo
velike količine jezikovnih podatkov. Z razvojem tehnik korpusne analize količina
jezikovnih podatkov ne predstavlja ovire, pač pa prav obratno, z večjo količino
podatkov lahko pridemo do novih informacij. Za določene postopke korpusne analize
pa so sploh primerni samo izjemno veliki korpusi. Ob tem pa ostaja področje odprto za
druge veje jezikoslovja, ki korpus uporabljajo le kot klasično gradivo zgolj za
preverjanje svojih hipotez.
4.2 Tipologija korpusov
S širjenjem računalniških korpusov se je pojavila tudi potreba po ovrednotenju ter
razvrstitvi korpusov. Z opisom karakteristik s katerimi lahko neki korpus ovrednotimo
17
in z definiranjem zvrsti korpusov, ki jih je med seboj smiselno razlikovati, se je
ukvarjala skupina za tipologijo korpusov pri evropski iniciativi Eagles (Expert Advisory
Group for Language Engineering). Po tipologiji Eagles so karakteristike nekega korpusa
naslednje (ISTWORLD, 2009):
velikost, tj. količina podatkov, ki jih neki korpus vsebuje;
kakovost njegove izdelave;
avtentičnost glede na merila, po katerih je bil zgrajen;
enostavnost njegovega zapisa;
dokumentiranost.
V nadaljevanju bomo opisali posamezne korpuse ter njihove specifike.
4.2.1 Referenčni korpusi
Referenčni korpus je obseţna elektronska besedilna zbirka, ki zajema vzorčni deleţ
besedil nekega jezika. Referenčni korpus naj bi kar najbolj reprezentativno in
uravnoteţeno predstavljal jezik v vseh njegovih besedilnih udejanjenjih (Vintar, 2001).
Njegov osnovni namen je, da omogoča temeljit vpogled v jezik na najrazličnejših
ravneh in področjih, in je tako pomemben vir za uporabno in teoretično jezikoslovje,
npr. slovaropisje v vseh oblikah (eno in večjezični slovarji, terminološki slovarji in
drugi jezikovni priročniki), poučevanje jezika (učbeniki in učni pripomočki), jezikovne
tehnologije (črkovalniki, slovnični pregledovalniki, govorni vmesniki) ter tudi druge
druţboslovne in humanistične vede, npr. literarno vedo, psihologijo in sociologijo (Fida,
2009).
Referenčni korpusi predstavljajo osnovno zvrst korpusa in sluţijo kot jezikovni
standardi. Posebna pozornost se pri takšnih korpusih posveča izbiri komponentnih
besedil, saj naj bi tak korpus predstavljal idealizirano podobo nekega jezika. Primer
takšnega korpusa je prvi široko dostopni računalniški korpus, in sicer korpus Brown
ameriške angleščine, ki vsebuje petsto skrbno uravnoteţenih odlomkov iz petnajstih
jezikovnih zvrsti, ki segajo od religije, preko znanstvene fantastike, do humorja.
18
Referenčni korpus ne more zajeti vseh jezikovnih moţnosti, kar pomeni, da je v jeziku
lahko tudi tisto, česar v korpusu ni. K temu sodi tudi zrcalna trditev: vse, kar je v
korpusu, je tudi (bilo) v jeziku (Stabej, 1998).
Kot nasprotje referenčnim korpusom stojijo specializirani korpusi (sluţijo nekemu
namenu) in oportunistični (cenena različica referenčnih korpusov; zbrani so glede na
dane moţnosti) ali spremljevalni korpusi (dinamični korpusi, v katerih je vidno
spreminjanje jezika) (Ponikvar, 2002).
4.2.2 Enojezični korpusi
Najbolj splošni tip enojezičnega korpusa so zgoraj navedeni referenčni korpusi. Za
slovenščino je prvi tak korpus FIDA, korpus slovenskega jezika, ki vsebuje 103
milijone besed iz skoraj 30.000 besedil. Za iskanje po korpusu FIDA obstaja prilagojena
internetna različica programa ASP32, ki poleg iskanja po korpusu omogoča tudi
urejanje rezultatov in njihovo statistično analizo. Korpus FIDA je tematiziran in
oblikoslovno označen, kar pomeni, da je vsaki besedi pripisana osnovna oblika (lema)
in oblikoskladenjska oznaka. To je pri iskanju zelo pomembno, saj lahko brez teţav
dostopamo do pojavitev določene besede v vseh njenih oblikah, moţna pa so tudi
zahtevnejša iskanja.
Druga velika zbirka slovenskih elektronskih besedil na internetu je Beseda in novejša
različica Nova beseda, ki vsebuje skupno 48 milijonov besed, od tega 42 milijonov
besedil dnevnika Delo, pribliţno dva milijona besed izvirnega slovenskega leposlovja in
milijon besed prevodov v slovenščino (Jakopin, 2000).
Referenčni korpusi so na internetu dostopni tudi za številne druge jezike, npr. angleški
BNC, nemški Cosmas, češki ČNK, hrvaški HNK in drugi. Omeniti velja tudi spletni
konkordančnik WebCorp, ki za korpus uporablja ogromno število dokumentov na
svetovnem spletu in za iskani pogoj izpiše konkordance.
19
Čeprav so korpusi začeli nastajati predvsem za potrebe leksikografov, se danes s
koristjo uporabljajo v vseh tistih vejah jezikoslovja, kjer kvantitativne informacije lahko
pripomorejo do novih spoznanj in kjer je opazovane jezikovne pojave mogoče do te
mere formalizirati, da jih s pomočjo računalniških orodij lahko hitreje in učinkoviteje
obdelujemo. To pogosto vključuje različne ravni označevanja korpusa, od katerih je
nekatere danes ţe moţno zadovoljivo opraviti avtomatsko (lematizacija,
oblikoskladenjsko označevanje), druge pa zahtevajo ročno delo (npr. označevanje
pomena, stilnig prvin, pri govornih korpusih prozodije, komunikacijskih funkcij,
gestike).
Za običajne uporabnike je korpus lahko pomembno dopolnilo enojezičnega slovarja.
Slovarski priročniki pogosto ţe ob izidu zamujajo in tako ne odraţajo aktualnih
razvojnih procesov v jeziku. Tako na primer SSKJ ne vsebuje gesel za danes ţe povsem
udomačene besede, kot so internet, notesnik, zgoščenka.
4.2.3 Dvojezični korpusi
Dvojezični korpusi se po tradicionalni tipologiji delijo na vzporedne in primerljive. V
zadnjem času se pojavlja še en tip korpusa, tako imenovan prevajalski korpus. Na
splošno je dvojezične korpuse nekoliko teţje graditi kot enojezične, še posebej če
potrebujemo elektronske različice besedil v izvirniku in prevodu, zato se praviloma tudi
odpovemo zahtevi po reprezentativnosti za jezikovni par v celoti in se raje omejimo na
določeno jezikovno zvrst, besedilno vrsto, ţanr ali strokovno področje. Na podlagi
dvojezičnega izpisa konkordanc lahko raziskujemo prevodno ustreznost, primerjamo
prevajalske odločitve glede na tip besedila ali področje, primerjalno raziščemo
leksikalno polje izbranega leksema ali opazujemo terminološko variabilnost (Vintar,
2001). Z večjezičnimi korpusi dostopamo do naravnih vzorcev v jeziku, saj nam nudijo
vpogled v jezikovne strukture v njihovem domačem okolju in ne v prevedenem
besedilu. S prepoznavanjem strokovnih izrazov oz. njihovih prevodov, besed in fraz se
pribliţujejo pomnilnikom prevodov in terminološkim bazam. Pomembno vlogo imajo
pri materialih za pisanje, poučevanju prevajalcev in pri izboljšavi programov za strojno
prevajanje (Ponikvar, 2002).
20
4.2.4 Vzporedni korpusi
Vzporedni korpusi vsebujejo ista besedila v izvirniku in prevodu, včasih gre tudi v obeh
primerih za prevod iz tretjega jezika (Vintar, 2001). so nepogrešljivi pri prevajanju, za
izdelavo prevajalskih pripomočkov, pri izboljšavah za strojno prevajanje in za izdelavo
terminoloških baz, kot orodje pri programih za poučevanje prevajanja, pri učenju
jezikov s pomočjo jezikovnih tehnologij in pri terminoloških študijah, kjer so
terminološki izrazi izluščeni iz korpusov. Največji uporabniki vzporednih korpusov so
Zdruţeni narodi, Nato, Evropska unija in drţave z dvema uradnima jezikoma (npr.
Kanada). V vzporednih korpusih lahko iščemo prevodne ustreznice s pomočjo
vzporednih konkordanc. Primerjamo lahko pogostost posameznih prevodnih ustreznic
in njihova sobesedila, kar olajša izbiro primernega prevoda (Ponikvar, 2002).
4.2.5 Primerljivi korpusi
Primerljivi korpusi vsebujejo za vsak jezik različen izbor besedil, ki so po izbranih
merilih primerljiva (Vintar, 2001). So nekakšni kriţanci med večjezičnimi in
vzporednimi korpusi in so sestavljeni iz dveh posameznih ločenih zbirk besedil v istem
jeziku: iz besedil v izvirnem jeziku in iz zbirke prevodov v ta jezik iz enega ali več
drugih jezikov (npr. časopisni članki iz evropskih časopisov v nekem obdobju). S tem je
moţno prepoznavanje vzorcev, ki so specifični za prevedena besedila ne glede na
izhodiščni oz. ciljni jezik, kar sproţi nove hipoteze o postopku prevajanja, ugotavljanje
prevodnih norm v specifičnih kontekstih ter odkrivanje metod in rešitev za poklicne
prevajalce (Ponikvar, 2002).
4.3 Korpusna orodja
Kadar korpusi, do katerih lahko dostopamo, za naše potrebe ne zadoščajo oziroma nam
obdelava besedil preko interneta ne ustreza, si lahko zgradimo lastno zbirko besedil ali
pa ţe obstoječi korpus prenesemo na lasten računalnik in z njim delamo lokalno. V ta
namen je na voljo vrsta programskih orodij, ki jih lahko razdelimo na orodja za
21
označevanje, to je vnašanje jezikovnih in drugih informacij v besedilo, in orodja za
iskanje in obdelavo rezultatov, ki jim pravimo konkordančniki (Vintar, 2001).
4.3.1 Orodja za označevanje besedil
Označevanje nekaterih jezikovnih ravni poteka preteţno avtomatsko in je človeško delo
potrebno le za preverjanje rezultatov označevanja in prileganje programja. Druge ravni
označevanja je teţje avtomatizirati, zato se izvajajo ročno, pogosto pa je ročno
označevanje tudi prvi korak pri razvijanju in učenju računalniških programov za
označevanje. Za vnašanje oznak v korpus je na voljo precej različnih orodij, še posebej
pestra je izbira na področju govora. Novejša orodja večinoma temeljijo na standardu
xml in uporabniku dovoljujejo, da opredeli lastno označevalno shemo. Ker pogosto
označujemo več ravni hkrati, je pomembno tudi, da izbrano orodje dopušča večplastno
označevalno shemo z gnezdenjem elementov.
4.3.2 Orodja za iskanje in analizo – konkordančnik
Orodjem za iskanje po korpusih in obdelavo rezultatov pravimo tudi konkordančniki
(Vintar, 2001). Konkordančniki prikaţejo pojave določene besede (ali niza) poravnane
skupaj s sobesedilom v oknu »KWIC« (ang. Key Word in Context). Z njimi lahko
ugotovimo, v kakšnem sobesedilu je mogoče uporabiti besedo, s katerim predlogom se
veţe, ali jo je mogoče uporabiti figurativno itn. Če je konkordanca zadosti velika, si
lahko pogledamo primere rabe besede v dejanskih besedilih. To je še posebej koristno
pri neologizmih, izposojenkah in drugih besedah, ki jih v običajnih slovarjih (še) ni
mogoče najti.
Najširše uporabljan konkordančnik je Wordsmith (Blaţič, 2002), ki poleg prikaza
konkordanc omogoča tudi vrsto drugih obdelav besedil od izdelave besedilnih
seznamov, izračunavanja besednih skupkov (clusters) in kolokacij, primerjave besednih
seznamov in izračuna ključnih besed, do vključevanja seznamov prepovedanih besed
(stoplist) in podpore pri ročni lematizaciji. Program podpira tudi označena besedila in
nudi vrsto funkcij za predpripravo korpusa (Vintar, 2001).
22
Sodobna analiza jezikovne rabe ne more več temeljiti na intuiciji, na jezikovni
kompetenci enega govorca ali minimalnem besedilnem gradivu, ampak ji njeno
relevantnost zagotavlja prav empirična analiza velike količine avtentičnih besedil.
(Gorjanc, 1999).
Korpus velja za zelo zanesljiv vir podatkov o realni rabi določenih jezikovnih oblik. Z
velikim obsegom pisnih in/ali govorjenih besedil korpusov ter z različnimi moţnostmi
iskanja, ki jih omogoča konkordančnik med obseţnim številom dobljenih zadetkov,
skupaj dajeta reprezentativno sliko jezikovne rabe, vzorcev in trend razvoja določenega
jezika. Za raziskovanje jezika, iskanje po korpusu in obdelavo rezultatov iskanja
uporabljamo programsko orodje, imenovano konkordančnik. Konkordančnik je bila
prvotno metoda analiziranja pisnih besedil, ki je nudila seznam vseh besed v besedilu in
kje so te besede uporabljene v le-tem.
Konkordančnik ali programski vmesnik je programsko orodje, ki se uporablja v
korpusnem jezikoslovju in je potrebno za iskanje po korpusu in obdelavo rezultatov
iskanja. S pomočjo konkordančnika lahko iščemo po različnih kriterijih, zadetke
razvrščamo in jih statistično obdelujemo. Omogoča iskanje posameznih besed, fraz,
delov besed ali kombinacij le-teh (DZS, 2009)
Konkordančnik nam pokaţe, kako se določena beseda ali besedna zveza pojavlja v
kontektstu besedila. Tako lahko na primer preverimo, kako pogosto se pojavlja neka
beseda v korpusu, statistično izmerimo pomensko povezanost neke besede ali pa
razvrstimo seznam zadetkov po abecednem vrstnem redu. (Inštitut Joţef Stefan, 2009).
Prednost konkordančnika pri analizi besedil je v tem, da je kontekst rabe izbranih besed
ali besednih zvez vedno prisoten. Značilnost sodobnih konkordančnikov je
interaktivnost, saj uporabnik »prikliče« konkordančni niz za izbrano besedo, kadar ţeli.
Konkordančna orodja omogočajo odkriti jezikovne vzorce, ki obstajajo v vsakem
naravnem jeziku, a na prvi pogled niso lahko vidni. S konkordančniki vzorce poiščemo
23
in še pomembneje, prikaţemo. Konkordančiki te vzorce prikaţejo in jih prikazati na tak
način, da so uporabniku lahko vidna in razumljiva. (Tribble, 1997)
Pri enostavnem iskanju se nam na zaslonu izpiše iskana beseda, ki predstavlja osrednji
del prikazanih zadetkov. Za vsak zadetek vidimo na zaslonu minimalno sobesedilo le-
tega, nekaj besed levo ter desno od iskane besede. Posamezni zadetek ali eno vrstico
besedila imenujemo konkordanca, nabor vseh zadetkov skupaj pa konkordančni niz.
Takšnemu prikazu angleško rečemo Key Word In Context (KWIC) in je najbolj pogosto
uporabljen način prikaza konkordanc. (Tribble, 1997).
Tabela 1: KWIC konkordanca angleške besede greh (Internet)
1. Thus from my lips, by yours, my Sin is purged.
2. Then have my lips the Sin that they have took.
3. Sin from thy lips? O trespass sweetly urged!
4. Give me my Sin again.
Tabela 2: Tekst, uporabljen za konkordanco, ključna beseda odebeljena (Internet)
JULIET
Ay, pilgrim, lips that they must use in prayer.
ROMEO
O, then, dear saint, let lips do what hands do;
They pray, grant thou, lest faith turn to despair.
JULIET
Saints do not move, though grant for prayers’ sake.
ROMEO
Then move not, while my prayer’s effect I take.
Thus from my lips, by yours, my sin is purged.
JULIET
Then have my lips the sin that they have took.
ROMEO
Sin from thy lips? O trespass sweetly urged!
Give me my sin again.
24
Tabela 3: Prikaz konkordance je moţen tudi na način, kjer je pred ali za ključno besedo,
prikazanih tudi 75 do 80 znakov (Internet)
1. move not, while my prayer’s effect I take. Thus from my lips, by yours, my sin is
purged. JULIET Then have my lips the sin that they have took. ROMEO
2. Thus from my lips, by yours, my sin is purged. JULIET Then have my lips the sin
that they have took. ROMEO Sin from thy lips? O trespass sweetly urged!
3. is purged. JULIET Then have my lips the sin that they have took. ROMEO Sin
from thy lips? O trespass sweetly urged! Give me my sin again
4. they have took. ROMEO Sin from thy lips? O trespass sweetly urged! Give me my
sin again.
Tabela 4: Vzporedna angleško-francoska konkordanca za besedo “pour” (Internet)
Originalni tekst Prevod
1. Ainsi, quand il aperçut POUR la
première fois mon avion [...]
1. The first time he saw my aeroplane, for
instance [...]
2. Alors elle avait forcé sa toux
POUR lui infliger quand même des
remords.
2. Then she forced her cough a little more SO
THAT he should suffer from remorse just the
same.
3. -Approche-toi que je te voie mieux,
lui dit le roi qui était tout fier d’être
enfin roi POUR quelqu’un.
3. “Approach, so that I may see you better,”
said the king, who felt consumingly proud of
being at last a king OVER somebody.
4. Car, POUR les vaniteux, les autres
hommes sont des admirateurs.
4. For, TO conceited men, all other men are
admirers.
5. C’est comme POUR la fleur. “ 5. It is just as it is WITH the flower.
6. C’est donc POUR ça encore que
j’ai acheté une boîte de couleurs et des
crayons.
6. It is FOR THAT PURPOSE, again, that I
have bought a box of paints and some pencils.
7. C’est le même paysage que celui de
la page précédente, mais je l’ai
dessiné une fois encore POUR bien
vous le montrer.
7. It is the same as that on page 90, but I have
drawn it again TO impress it on your memory
25
Izdelava konkordančnika tudi še danes, v dobi računalništva, zahteva veliko časa in
truda. Zato so bili pvi konkordančniki v srednjem veku izdelani le za pomembnejša
literarna dela, kot sta Biblija in Koran. Prvi konkordančnik, imenovan »Concordantiae
Sacrorum Bibliorum ali Concordantiae S. Jacobi« je bil izdelan 1262, na pobudo
francoskega kardinala Huga de Sancto Charo, ob sodelovanju več kot petsto menihov.
(Appleton, 1983).
Poleg Biblije, so bila za izdelavo konkordančnikov, najbolj pogosto uporabljene zbirke
besedil Shakespeara. Leta 1894 je ameriški urednik Bartlett izdelal konkordančnik z
naslovom »A Complete Concordance to Shakespeare's Dramatic Works and Poems«.
Konkordančniki se uporabljajo na področju računalniško podprtega in strojnega
prevajanja, na področju leksikografije in slovaropisja. Značilen primer je Collins
Cobuildov slovar, kjer so vnosi nastali zgolj na podlagi korpusne analize milijonov
avtentičnih besedil. Uporaba konkordančnikov je znana tudi na področju stilistike in
literarnih raziskav. Vsi našteti primeri običajno zahtevajo velike, več milijonske
korpusne zbirke besedil. Manj bolj jezikovno specifične zbirke besedil, pa so lahko v
povezavi z uporabo konkordančnikov, namenjene področju učenja in poučevanja jezika.
Z razmahom interneta, ki sluţi kot lahko dostopen korpus in z razvojem internetnih
konkordančnikov, so le-ti postali uporabni tudi za namen poučevanja in učenja jezika.
Razvoj in dostopnost osebnih računalnikov je ta proces še pohitril, saj so orodja postala
»uporabniku prijazna« in so zmoţna analizirati velike količine besedil v zanemarljivo
kratkem času. Danes pomembnejši zaloţniki, kot so Oxford University Press, Longman
in Cambridge University Press, izdajajo reprezentativne korpuse za namen poučevanja
in učenja jezika. Slednji je na primer izdal korpus »Million Word Corpora«, ki obsega
zbirke pisnih in govornih besedil različnih ţanrov in področij (znanstvena, splošna,
strokovna, informativna, umetnostna, športna in podobno). To uporabnikom
konkordančnikov omogoča, da za poučevanje ali učenje ter raziskovanje jezika izberejo
besedila iz točno ţelenega področja, kar je zlasti pomembno z vidika reprezentativnosti
in dejanske uporabnosti.
26
Konkordančniki so s stališča osebe, ki se uči določenega jezika, zanimivi tako na
področju semantike in sintakse. Prvo zanima pomen besed v njenem osnovnem
(konotativnem) in dodatnem (denotativnem) pomenu, slovarski in besedilni pomen
besed in razmerje med obema, sintaksa pa se ukvarja z zgradbo stavkov. Primer za to je
beseda brati, ta ima več pomenov: brati jagode, grozdje, brati knjigo, ima pa sinonim
čitati, ampak samo v drugem pomenu, v prvem ne. Pravi pomen besede dobimo torej
šele z besedilom oziroma stavkom, v katerem je bila beseda brati uporabljena. (Zavod
Med.Over.Net, 2009).
Vloga konkordančnikov na področju spoznavanju oziroma učenja jezika je v
vzpodbujanju načela učenja po principu odkrivanja (angleško »learning by discovery«).
Učenje po principu odkrivanja pomeni, da učitelj predstavi učencem neki specifičen
primer, učenci pa skušajo odkriti interrelacijo ter strukturo obravnavanega. V skladu z
Brunerjevo kognitivno teorijo naj bi za učinkovitejše učenje učitelji vzpostavili
problemske situacije, ki bi učence stimulirale k samostojnemu odkrivanju strukture
obravnavanega (Plut Pregelj, 2000).
Samostojna uporaba konkordančnika, glede na trenutno jezikovno zmoţnost osebe, ki
se uči določenega jezika, je ena izmed najbolj zaţelenih uporab le-tega. Tovrstno rabo
Johns opredeljuje tudi kot »naključno učenje« (Johns, 1998). Gre za podobnost z
listanjem slovarja in ugotavljanjem pomena besed, njihove rabe v jeziku in določenih
pravopisnih zakonitosti jezika. Uporaba konkordančnika na ta način ima po mnenju
James in Garett-a 1991 spodnje prednosti:
Oseba je pri samoučenju s pomočjo konkordančnika avtonomna pri izbiri »kaj
in kdaj« ţeli raziskovati v izbranem jeziku
»Odgovori na vprašanja« ustrezajo trenutnemu nivoju znanja osebe oziroma
»jezikovni kompetenci«
Raziskovanje jezika s pomočjo konkordančnika povečuje jezikovno in kulturno
zavest
27
Uporaba konkordančnika v procesu učenja jezika omogoča samostojno raziskovanje
pomena in rabe besed v kontektstu besedila in posledično sklepanje o slovničnih
zakonitostih jezika.
Oseba s pomočjo konkordančnika lahko v avtentičnem besedilu poišče kolokacije,
njihov pomen in rabo v izbranem jeziku. Učenec namesto vloge zgolj receptorja pridobi
vlogo raziskovalca jezika. (Ammar Merhbi, 2009).
Učenci lahko konkordančnik pod mentorstvom učitelja uporabijo za analizo in popravek
napak pri njihovem pisanju. Konkordančnik omogoča tudi induktivno učenje. Pri
induktivnem učenju učenec napreduje od specifičnega k splošnemu oziroma od
posameznih primerov proti oblikovanju splošnega pravila (Flowerdew, 1996).
»Pasti pri uporabi konkordančnikov« se skrivajo predvsem pri izbiri korpusa za analizo.
Velja mnenje, da večji kot je korpus, bolj je reprezentativen. Kjer ima uporaba
konkordančnika vlogo študija kolokacij in leksikalnega pomena besed, tam bomo
uporabili večji korpus. Pri izbiri korpusa za preučevanje »splošnega jezika« je
pomembno tudi, da korpus vključuje primere govorjenega jezika. V primeru da učenec
spoznava jezik na specifičnem področju, pa je bolj kot sama velikost, pomembno da je
korpus izbran iz preučevanega področja (Flowerdew, 1996).
Za uspešno izrabo moţnosti, ki jih ponujajo konkordančniki pri analizi korpusov, je
bistvenega pomena priprava ter seznanjanje učencev z uporabo le-teh s strani učiteljev
in sprotna analiza ter usmerjanje učencev s strani slednjih.
28
5 RAČUNALNIŠKA ORODJA ZA PREVAJANJE
Ideje o samodejnem prevajanju med ljudmi obstajajo ţe dolgo (predlog o mehanskem
slovarju Descartesa in Leibniza seţe v 17. stoletje). Sistemi za samodejno prevajanje se
tako razvijajo ţe od časov izuma elektronskega računalnika v štiridesetih letih. Dolga
leta zatem se je tako prevajanje izvajalo neposredno preko dvojezičnih slovarjev in
postopek je vključeval skopo analizo drugih jezikovnih prvin.
V osemdesetih letih je napredek v računalniškem jezikoslovju prinesel bolj kompleksen
pristop k prevajalskemu postopku. Ti sistemi so vključevali programe za prepoznavanje
besednih oblik (morfološka raven), strukture stavkov (skladenjska raven) in
razpoznavanje večpomenskosti, enakozvočnic ter leksikalnih razmerij (leksikalna
raven).
Skozi zgodovino so bili razviti trije tipi sistemov strojnega prevajanja (Hutchins,
Somers, 1992: 4):
Pri neposrednem pristopu, ki je najstarejši, gre za strojno prevajanje
posameznega para jezikov v eno smer. Izhodiščno besedilo je analizirano zgolj
za potrebe pretvarjanja v ciljni jezik.
Vmesno stopnjo prevajalskega postopka predstavlja od jezikov neodvisni
tako imenovani vmesni jezik (ang. interlingua). Pri tem gre za dva dela
postopka: prevod iz izhodiščnega jezika v vmesni jezik, kateremu sledi prevod
iz vmesnega jezika v ciljni jezik.
Transferni pristop ima tri stopnje:
o pretvorbo izhodiščnega besedila v abstraktno izhodiščno predstavo, kjer
se razreši večpomenskost ne glede na jezik,
o prenos predstave v abstraktno ciljno predstavo in
o tvorbo besedila v ciljnem jeziku.
29
S pojavom osebnih računalnikov se je začel tudi razvoj prevajalske programske opreme
zanje. Danes je razvoj usmerjen k statističnim sistemom, ki se prevajanja naučijo iz
vzporednih korpusov (npr. EGYPT).
V devetdesetih so postala priljubljena prevajalska namizja (ang. workbench), ki
zdruţujejo večino prevajalskih orodij (za štetje besed, pretvarjanje formatov, filtriranje,
poravnavanje ţe prevedenega besedila). Tako so omogočala večjezično obdelovanje
besedil, pošiljanje in sprejemanje dokumentov v elektronski obliki, pretvorbo grafičnih
zapisov v besedila elektronske oblike, upravljanje terminologije s konkordančnim
iskanjem, pomnilnike prevodov itn.
Prevajalska namizja so računalnik prevajalcem predstavila v povsem novi luči. Dobili
so orodja, ki so jim omogočala širok razpon uporabe. Kot vedno pa je vrednost
tehnologij odvisna od kakovosti dela. Pri strojnem prevajanju slovarji in terminologija
zahtevajo trud, čas in denar, pomnilniki prevodov pa se zanašajo na zbirko uporabnih
prevodov. Štiri največja prevajalska namizja, ki jih poznamo danes, so TRADOSi,
STAR (Transit), LinguaNet (TranslationManager) in LANT (Eurolang Optimizer).
Do pred nekaj leti so ti sistemi tekli na velikih računalnikih (ang. mainframe computers)
in so bili naprodaj za več milijonov dolarjev. S kasnejšim razvojem moči osebnih
računalnikov in operacijskih sistemov Unix je postalo dostopnih veliko rešitev enake
kakovosti in natančnosti in to po ceni, ki si jo prevajalci lahko privoščijo (ItoCAT,
2002).
Poleg tega je na internetu dostopna celo brezplačna programska oprema, s katero se
proti patentiranju bori projekt prostovoljcev, imenovan GNU (GNU's Not Unix).
Posledica moţnosti nalaganja programske opreme, za katero ni potrebno plačilo in ki se
jo pod njihovimi pogoji (v nespremenjeni obliki in brezplačno) lahko ponuja naprej, sta
širjenje in lokalizacija. Slovenski GNUsl skuša v duhu GNU ponuditi tiste tehnologije,
ki so prosto dostopne in vezane na slovenski prostor: internetni črkovalni servis Primoţ
Trubar, prazne besede slovenskega jezika (predlogi, vezniki, zaimki, pomoţni glagoli
itn.), navodila za prilagoditev nekaterih računalniških orodij slovenskemu jeziku (npr.
30
kodni nabori, tezaver slovenskega jezika, oblikoskladenjski slovar) ter nenazadnje
orodje za lokalizacijo programov v obliki pomnilnika prevodov SMART skupine za
slovenjenje Linuxa (Košir, Peterlin, Erjavec, 1998).
Področje prevajalskih tehnologij se deli na dve veji, ki se med seboj tudi povezujeta:
strojno in računalniško podprto prevajanje.
5.1 Strojno prevajanje
Strojni prevajalniki so programi z lastnimi moduli za jezikovno analizo izhodiščnega in
sintezo ciljnega besedila, tako da prevajanje poteka bolj ali manj samodejno. Usmerjeno
je v simulacijo samega miselnega, introspektivnega dela prevajalskega postopka.
Kakšen je dober prevod, je kompleksno vprašanje, na katerega se ne da preprosto
odgovoriti. Pri strojnih prevajalnikih je odločilen podatek, koliko sprememb in
popravkov potrebuje prevod (čeprav zna prevajalnik tudi sam zaznati nekatere napake
in sam ponuja načine, kako se izogniti napakam), da ustreza prevajalcu, bralcu ali
naročniku in čas, ki ga pri tem porabimo (Ilič, Golob, Čurić, 1999). Pred tem merilom
se slovenski uporabnik strojnega prevajanja spopade še z večjo oviro. Širše uporabnih in
prosto dostopnih strojnih prevajalnikov pri nas namreč še ni. Na srečo so nekatera
orodja za pridobivanje slovenskih jezikovnih virov in jezikovni viri drugih jezikov
dostopni v tujini ali celo brezplačno na internetu.
Uporabnost sistemov strojnega prevajanja pa je odvisna tudi od drugih dejavnikov, med
katerimi je treba posebej upoštevati izhodiščno besedilo samo. Da se izognemo
nepotrebnim napakam, je priporočljivo izhodiščno besedilo najprej pripraviti (ali
prenesti v nadzorovani jezik), pri čemer moramo paziti na enostavno stavčno strukturo
in manjši obseg besedila, ki gre v prevod. Besedila ne smejo imeti napak pri črkovanju
(te so lahko posledica nenatančnega skeniranja dokumenta), slovničnih napak,
neslovničnih struktur in leksikalnih dvoumnosti.
31
Prevajalniki so uporabni predvsem pri besedilih z določenega področja, za katera mora
biti v računalnik vnesena tudi vsa potrebna terminologija (tudi ţargonski izrazi), ki se v
takšnih besedilih velikokrat ponavlja. Stavčna struktura takšnih besedil navadno ni
zapletena oz. bi jo lahko laţje prilagodili.
Ob nepravi uporabi se lahko strojni prevajalnik res izkaţe za zamudnega. Vseeno
uporabniki počasi začenjajo sprejemati prednosti strojnega prevajanja pri enostavno
strukturiranih besedilih, saj je uporabno tudi za preverjanje besedila.
Strojno prevajanje je dostopno tudi na internetu. Uporabniki lahko v določenem
obdobju uporabljajo poskusne različice strojnih prevajalnikov ali pa kot stalni
uporabniki izkoristijo streţniško ponudbo (Systran Logos, GLOBALink).
Dodaten znak velikega vpliva interneta je naraščanje programov za strojno prevajanje
spletnih strani, elektronske pošte in pripetih dokumentov ter klepetalnic. Nekatera
orodja lahko za uporabo strojnih prevajalnikov in pomnilnikov prevodov jezik
izhodiščnega besedila priredijo nadzorovanemu jeziku.
Strojne prevajalnike uporabljajo tudi poslovni ljudje, in sicer za prevajanje glavnega
pomena dokumentov, elektronske pošte, časopisnih člankov, poslovnih pisem; koristni
so pri izbiri besedil, ki potrebujejo prevod strokovnjaka, za posredovanje informacij, ki
spremljajo izhodiščno besedilo ter za izdelavo prevodov kot polizdelkov za nadaljnjo
uporabo.
V zadnjem času se vedno pogosteje pojavlja teţnja po zdruţevanju strojnih
prevajalnikov s pomnilniki prevodov. Translator's Workbench je danes na voljo z
integriranim sistemom za strojno prevajanje podjetja Logos, ki vskoči pri vseh
prevodnih enotah, ki nimajo ustreznic v pomnilniku prevodov. Obratno tudi vse več
komercialnih sistemov za strojno prevajanje (npr. Langenscheidt) ponuja komponento
za arhiviranje strojno prevedenih in popravljenih stavkov, ki (kot pomnilnik prevodov)
sluţijo kot priporočilo ob novih prevodih. Pri nas komercialni prevajalnik PRESIS, ki
32
ima vgrajen tudi pomnilnik prevodov, prevaja iz nemščine v slovenščino, angleščine v
slovenščino in slovenščine v angleščino).
Podjetja se zavedajo potenciala strojnega prevajanja, zato se v bliţnji prihodnosti
obetajo nove, izboljšane verzije in sveţe ideje. V Singapurju, na primer, je bil ţe leta
1995 lokalno razvit sistem za prevajanje iz angleščine v kitajščino, malajščino,
japonščino in korejščino, ki ga pregledujejo poklicni prevajalci. Sistem omogoča
prevajanje ogromnih količin dokumentov za naročnike z vsega sveta, ponuja pa tudi
lokalizacijo podjetjem, ki razvijajo programsko opremo za kitajsko govoreči del trţišča
(Hutchins, 1999).
5.2 Računalniško podprto prevajanje
Računalniško podprto prevajanje (ang. CAT – Computer-Aided Translation) predstavlja
drugo vejo prevajalskih računalniških tehnologij, ki se je razvila s prevlado osebnih
računalnikov.
Uporaba teh orodij olajšuje in pospešuje, optimizira in zniţa stroške prevajalskega
postopka. Ti programi nam sluţijo za podporo referenčnega dela, tj. iskanja po
slovarjih, vzorčnih besedilih, terminoloških bazah. Med orodja za računalniško podprto
prevajanje v širšem smislu sodijo vse jezikovne tehnologije, ki prevajalcu sluţijo kot
pripomoček na poti do prevoda, se pravi tudi črkovalniki, tezavri, elektronski slovarji in
drugi elektronski podatkovni viri, v oţjem pomenu pa predstavljajo pomemben korak na
tem področju predvsem programi za izdelavo in vzdrţevanje terminoloških bank ter
programi s pomnilnikom prevodov (Vintar, 2001).
5.3 Pomnilniki prevodov
Po definiciji skupine strokovnjakov za standarde jezikovnega inţeniringa EAGLES
(Expert Advisory Group on Language Engineering Standards) je pomnilnik prevodov
»večjezični besedilni arhiv, ki vsebuje (segmentirana, poravnana, razčlenjena in
klasificirana) večjezična besedila in dovoljuje shranjevanje besedil in iskanje po njih
33
glede na različne pogoje« (Peterlin, 2002). Natančneje pa pomnilnik prevodov opiše
Špela Vintar (1998): »Pomnilnik prevodov je podatkovna zbirka prevodnih enot,
navadno povedi ali krajših delov besedila, ki so v izvirniku in prevodu shranjeni v
pomnilnik in so ob morebitni ponovitvi enakega ali zelo podobnega dela besedila na
razpolago za ponovno uporabo.«
Pomnilnik prevodov je lahko integriran v urejevalnik besedil, lahko pa ima lastno
delovno namizje, v katerega uvozimo dokument, ki ga ţelimo prevesti. Navadno obsega
še orodje za izdelavo in upravljanje terminoloških enot, komponento za vzporejanje, s
katero pomnilnike ustvarjamo iz ţe prevedenih besedil, preverjanje črkovanja, strojno
prevajanje, lahko pa ima tudi statistični program, s katerim lahko ugotovimo tako
imenovan dejavnik ponavljanja v besedilu. Ta nam pove, kako pogosto pride do
ponovitev, kar nam je v pomoč pri izbiri primernega prevajalskega postopka in orodja.
To orodje nima vgrajenih modulov za oblikoskladenjsko analizo prevodnih enot, niti
lastnih leksikonov, saj deluje na jezikovno neodvisnem principu, kar pomeni, da ne
zaznava podobnosti pomenov. Sposobno je prepoznavati podobnost na ravni besed ali
besednih nizov, zato je uporabno za vse jezikovne pare oz. za vse jezike, za katere je
zagotovljena znakovna podpora. Program med prevajanjem v ozadju išče enake
(popolni zadetek, ang. exact match) ali podobne enote (megleni zadetek, ang. fuzzy
match), ki jih prevajalcu samodejno ponudi. Podobnost je odvisna predvsem od števila
besed, ki se ujemajo v obeh prevodnih enotah, in besednega reda. Prag ujemanja lahko
določi prevajalec sam.
Ti programi se v svetu najhitreje uveljavljajo v velikih industrijskih podjetjih z
mednarodno dejavnostjo in drţavnih institucijah, kjer se prevajajo velike količine
besedil z istega področja in kjer se ţe prevedena besedila pogosto posodabljajo in
izdajajo na novo (npr. navodila za uporabo, uporabniški priročniki, dokumenti
mednarodnih in drţavnih upravnih organov). Shranjene prevodne enote pa so dragocen
jezikovni vir za prihodnje delo (za korpus ali (pol)samodejno pridobivanje
terminologije) terminologov in prevodoslovcev.
34
5.4 Terminološki programi
Spreminjajoče se terminologije, zaradi nenehnega razvoja strokovnih in drugih področij,
pogosto ne more spremljati ne slovaropisje ne prevajalec. Prevajanje besedil s področij
kot so proizvodnja, energija, pravo, medicina idr. je lahko zato zelo naporno, saj je
iskanje izrazov in njihovih prevodov lahko dolgotrajno in neuspešno. Veliko izrazov je
moč najti na internetu in v drugih javnih medijih, terminologija pa je lahko v lasti
izdelovalca terminološke baze oz. naročnika prevoda in tako zaščitena z avtorskimi
pravicami. Prevajalec ali skupina prevajalcev, ki večinoma prevajajo besedila
določenega področja, si zato sami ustvarjajo terminološko bazo, ki jim v naslednjih
prevodih zagotavlja tudi enotnost pri izbiri izrazov. Delajo pa lahko tudi na različnih
jezikih, saj lahko terminološki program za posamezen izraz shranjuje večjezične
prevodne ustreznice (ItoCAT, 2002).
Terminološki programi so orodja za izdelavo in vzdrţevanje terminologije. Imajo vlogo
skladišča, kamor se zbirajo in shranjujejo izhodiščni in ciljni izrazi za kasnejšo uporabo
v prevodu. Hranijo lahko neomenjeno število terminoloških vnosov. Tehnike
shranjevanja in prikazovanja izrazov pa so različne od programa do programa. Ta
(lahko) vsebuje orodja, ki (Ibid, 2002):
strukturirajo, posodabljajo in povezujejo vnose,
o omogočajo preproste funkcije iskanja,
o omogočajo konceptualni prikaz popolnih in meglenih zadetkov,
o podpirajo shranjevanje grafičnih prikazov,
o omogočajo samodejno vnašanje izrazov v urejevalnik besedil
z jezikovno analizo izhodiščnega in ciljnega besedila prepoznajo in izločijo
izraze za uvoz v terminološki program,
o vključujejo tudi slovarsko upravljanje terminologije,
o podatkovno bazo izvozijo in uvozijo v druge aplikacije.
35
V nekaterih pogledih so zelo podobni pomnilnikom prevodov:
Podpirajo vse jezike, za katere je zagotovljena znakovna podpora, saj je iskanje
tudi tu pogojeno s podobnostjo besed.
Omogočajo globalno iskanje (iskanje tudi po delih izraza), megleno iskanje
(prikaţe se kazalo besednih zvez, ki poleg korena iskane besede vsebuje tudi
tvorjenke, oblikoslovne različice besed ipd.) in filtriranje (prikaz vnosov po
merilih, ki jih določi uporabnik).
Omogočajo doslednost in enotnost.
Terminološki vnosi so opremljeni s podatki o vnašanju (vnašatelj, datum vnosa, datum
spremembe, področje, kje v besedilu se izrazje nahaja itn.) in o izrazu samem (o rabi,
obliki, lastnostih, definiciji idr.).
Terminološka baza je ob nakupu prazna in neuporabna, dokler vanjo ne vnesemo
terminoloških vnosov. Čas, ki ga potrebujemo za vnašanje izrazov, lahko skrajšamo s
predpripravo enojezične baze, ki ji samo dodamo prevodne ustreznice.
Prevajalec lahko uporablja terminološko bazo kot dopolnilo pomnilniku prevodov ali
drugim jezikovnim virom. Podjetjem, ki se resno ukvarjajo s prevajanjem, pomeni
takšen terminološki program dragocen jezikovni vir.
5.5 Strojno simultano prevajanje govora
Ideja, kako uporabni bi bilo, če bi imeli na voljo prevajalski stroj, je zelo stara. Prvi
koraki v tej smeri so bili narejeni v letih po drugi svetovni vojni. Tako je takrat
Američan Warren Weaver zapisal: "Pred seboj imam besedilo v ruščini, vendar se bom
pretvarjal, da je v resnici zapisano v angleščini in zakodirano s čudnimi simboli. Vse,
kar moram narediti, je razbiti kodo, da dobim informacijo, ki jo vsebuje besedilo."
(Arnold, 1994) Takšen pogled na strojno prevajanje in razlike med jeziki je seveda zelo
preprost, vendar je Weaver s tem spodbudil raziskave na tem področju in leta 1954 je
36
bila demonstracija prototipa angleško-ruskega sistema strojnega prevajanja pisanega
besedila.
Začetnega optimizma glede strojnega prevajanja besedila je bilo konec s poročilom
ALPAC-a (Automatic Language Processing Advisory Committee) leta 1966, ki je
ugotavljalo, da to področje ni perspektivno in da zahteva preveč stroškov glede na
končno doseţeno kakovost produkta. Posledica je bila, da ameriška vlada ni bila več
pripravljena financirati raziskav s tega področja, delo so nadaljevale le redke skupine
zunaj ZDA.
V sedemdesetih so se vendarle zgodili nekateri pomembni premiki: zgrajena sta bila
Systran za prevajanje besedil med ruščino in angleščino (za potrebe ameriškega
letalstva) ter Meteo za prevajanje vremenskih napovedi. V Evropi so naredili angleško-
francosko verzijo Systrana.
Pravo prebujenje tehnologije strojnega prevajanja besedila pa se je zgodilo v
osemdesetih. Pomembnejši projekti na tem področju so bili evropski Eurotra, na
Japonskem Mu, v ZDA pa t.i. Knowledge-Based Machine Translation. Nastajati so
začeli tudi nekateri komercialni sistemi.
V poznih osemdesetih in začetku devetdesetih se je za področje strojnega prevajanja
besedila začelo zanimati veliko podjetij, med pristopi se razvija statistično strojno
prevajanje besedil. V tem času pa se začne tudi zanimanje za strojno simultano
prevajanje govora, ki je veliko zahtevnejše in se, kot bomo videli v nadaljevanju,
bistveno razlikuje od strojnega prevajanja besedil.
V poznih devetdesetih lahko opazujemo strojno prevajanje besedil na internetu, širjenje
uporabe raznih elektronskih pripomočkov za prevajanje besedil, tudi pri nas (Hirci,
2003). Med pristopi se začnejo razvijati na primerih temelječi sistemi strojnega
prevajanja besedila (ang. example-based machine translation). V letu 2002 dobimo prvi
večji strojni prevajalnik besedil tudi za slovenščino: podjetje Amebis predstavi
slovensko-angleški prevajalni sistem Presis (Romih, Holozan 2002), poskuse
37
statističnega strojnega prevajanja besedil prav tako iz slovenščine v angleščino delajo
tudi na Fakulteti za računalništvo in informatiko v Ljubljani in Inštitutu Joţef Stefan
(Vičič, Erjavec, 2002).
Ustrezni jezikovni viri so osnova za izdelavo sistemov strojnega simultanega prevajanja
govora, vendar je najprej potreben temeljit premislek o vrsti in velikosti teh virov, o
podatkih, ki naj jih vsebujejo, o zagotavljanju njihove kakovosti, o njihovi usklajenosti s
podobnimi viri za tuje jezike.
5.6 Razlike med strojnim simultanim prevajanjem govora in strojnim
prevajanjem besedila
Sistemi strojnega simultanega prevajanja govora se v marsikaterem pogledu razlikujejo
od sistemov strojnega prevajanja pisanega besedila. Prva pomembna razlika je, da mora
sistem strojnega simultanega prevajanja govora najprej razpoznati govor (tj. znati
prevesti zvok v takšno pisno obliko, kot to naredi človek), šele nato lahko sledi govorno
orientirano prevajanje (ki pa je zaradi lastnosti govorjenega jezika, ki jih opisujemo v
naslednjem odstavku, prav tako drugačna, zahtevnejša naloga kot strojno prevajanje
besedila), potem pa je treba prevedeno besedilo ponovno pretvoriti v zvok. Sistemi
strojnega simultanega prevajanja govora so torej sestavljeni iz treh osrednjih modulov:
razpoznave, govorno orientiranega prevajanja, sinteze (Hoege, Miksić, 2002). To pa
pomeni veliko dodatno oviro za uspešnost strojnega simultanega prevajanja govora, saj
je povsem natančna razpoznava zelo teţavna, zaradi česar se lahko ţe na tej ravni
vnesejo napake. Poleg tega so v besedilu z ločili podane nekatere informacije o skladnji
in prozodiji, ki se pri razpoznavi govora izgubijo.
Razlike med govorno orientiranim strojnim prevajanjem in strojnim prevajanjem
besedila pa so pogojene tudi z razlikami med pisnim in govorjenim jezikom.
Primerjalne raziskave obeh (Wiebe, 1996) so pokazale, da v govoru ljudje posredujejo
več informacij implicitno, kar se kaţe v veliko večji pogostosti rabe zaimkov in
nedokončanih stavkov. Prvo predstavlja problem v primerih, ko se v jezikih, med
katerima prevajamo, zaimek ne ujema, npr. ang. "I saw a cat. It was crossing the
38
street.", slovenjeno. "Videl sem mačko. Prečkala je cesto." (to je problem tudi pri
strojnem prevajanju besedila). Poleg tega najdemo v govoru: napačne začetke, pomote
pri pregibanju besed (npr. vprašal sem vam namreč), ponavljanje, izpuste, obotavljanje,
mašila (npr. eee, mhm) (Kay, Gawron, Norvig, 1994).
Kay in sodelavci (1994) navajajo, da je takih elementov pri pazljivem govoru
povprečno 15 %, lahko pa tudi več kot polovica. Simultani prevajalci ne prevajajo vseh
teh elementov dobesedno, ampak samo, če je to smiselno, in enako pričakujemo od
strojnega simultanega prevajalnika govora. Zaradi vsega tega je naloga strojnega
simultanega prevajanja govora bistveno zahtevnejša in tudi bistveno drugačna od naloge
strojnega prevajanja besedila. Jezikovni viri, namenjeni za razvoj govorno orientiranega
strojnega prevajanja, morajo zato izhajati iz govorjenega jezika in ne iz zapisanega
besedila.
39
6 GOVORNE TEHNOLOGIJE
Govorna tehnologija je v svetu ţe dobro uveljavljena. Vključuje sisteme prepoznavanja
govora, sinteze govora, govornega dialoga in strojnega simultanega prevajanja govora.
Predvsem sinteza in prepoznavanje govora nezadrţno prodirata v naše ţivljenje. Ob
narekovalnih sistemih, ki so najbolj vidni predstavnik uporabe te tehnologije, je uporaba
govorne tehnologije danes praktično prisotna povsod (avtomobilska industrija, mobilne
naprave, govorni portali, glasovno prebiranje elektronske pošte, vojaška industrija). Ker
je bilo v preteklosti izvedenih največ raziskav za angleški jezik, je uporaba govorne
tehnologije najbolj razširjena prav v drţavah tega govornega področja. V slovenskem
prostoru še ni bilo pravega preboja na področju uporabe govorne tehnologije v
komercialnih sistemih. Trenutno obstajata samo sistem M-vstopnica, ki omogoča
rezervacijo kino vstopnice za nabor filmov tekočega dneva, ter Vida - virtualna davčna
pomočnica.
6.1 Računalniki in naravni jezik
Naravni jezik pomeni najpomembnejšo obliko komuniciranja med ljudmi. Razumevanje
naravnega jezika, ko je besedilo z vneseno v računalnik, zadeva dve področji:
samo razumevanje naravnega jezika in
prevajanje (iz enega v drug naravni jezik).
Najstarejši in najpreprostejši sistem za prepoznavanje naravnega jezika je ujemanje
besed. Bistvo je prepoznavanje specifičnih ključnih besed v vhodnem besedilu. Ključne
besede se spreminjajo od besed do fraz in celih stavkov. Tak način ne izvede analize, s
katero bi lahko ugotovili, kako določene besede ali fraze vplivajo druga na drugo in
tako dajo besedilu spremenjen pomen.
Sistem za prepoznavanje naravnega jezika na osnovi sintakse in semantike za
prepoznavanje uporablja kombin
Recommended