Univerza v Mariboru - COnnecting REpositories · 2017. 11. 27. · Nenazadnje pa so jezikovne...

Univerza v Mariboru

Fakul te ta za varnostne vede

DIPLOMSKO DELO

Programska oprema na področ ju jezikos lovja

Tadej Špi ta la r

Maj , 2010 Mentor : mag . Branko Aţman

KAZALO

1 UVOD .............................................................................................................. 1

2 ORODJA V UREJEVALNIKIH BESEDIL ................................................ 3

2.1 Črkovalniki ......................................................................................................... 3

2.2 Delilniki .............................................................................................................. 4

2.3 Lematizatorji ...................................................................................................... 5

2.4 Generatorji besednih oblik ................................................................................. 5

2.5 Slovnični pregledovalniki................................................................................... 5

2.6 Orodja za povzemanje besedil ............................................................................ 6

2.7 Program za optično branje dokumentov Amebis Prest ...................................... 6

3 SLOVARJI ..................................................................................................... 8

3.1 Enojezični slovarji .............................................................................................. 8

3.2 Dvojezični slovarji ............................................................................................. 9

3.3 Tezavri ali slovarji sinonimov .......................................................................... 10

3.4 Terminološki enojezični ali dvojezični slovarji ............................................... 10

3.5 Leksikoni besednih oblik.................................................................................. 11

4 KORPUSI ..................................................................................................... 13

4.1 Gradnja korpusov ............................................................................................. 14

4.2 Tipologija korpusov ......................................................................................... 16

4.2.1 Referenčni korpusi .................................................................................... 17

4.2.2 Enojezični korpusi .................................................................................... 18

4.2.3 Dvojezični korpusi .................................................................................... 19

4.2.4 Vzporedni korpusi ..................................................................................... 20

4.2.5 Primerljivi korpusi .................................................................................... 20

4.3 Korpusna orodja ............................................................................................... 20

4.3.1 Orodja za označevanje besedil ................................................................. 21

4.3.2 Orodja za iskanje in analizo – konkordančnik ......................................... 21

5 RAČUNALNIŠKA ORODJA ZA PREVAJANJE ................................... 28

5.1 Strojno prevajanje............................................................................................. 30

5.2 Računalniško podprto prevajanje ..................................................................... 32

5.3 Pomnilniki prevodov ........................................................................................ 32

5.4 Terminološki programi ..................................................................................... 34

5.5 Strojno simultano prevajanje govora ................................................................ 35

5.6 Razlike med strojnim simultanim prevajanjem govora in strojnim prevajanjem

besedila ............................................................................................................. 37

6 GOVORNE TEHNOLOGIJE .................................................................... 39

6.1 Računalniki in naravni jezik ............................................................................. 39

6.2 Sistemi za sintezo govora ................................................................................. 41

6.2.1 MS Agents ................................................................................................. 41

6.2.2 Amebis Govorec ........................................................................................ 42

7 UPORABA RAČUNALNIŠKIH ORODIJ NA PODROČJU

POUČEVANJA JEZIKA ............................................................................ 43

7.1 Namenska gradiva ............................................................................................ 43

7.1.1 Pripravljena gradiva ................................................................................ 43

7.1.2 Referenčni viri .......................................................................................... 44

7.1.3 Orodja za jezikovni pouk .......................................................................... 45

7.2 Nenamenska gradiva in orodja ......................................................................... 45

7.2.1 Nenamenska gradiva ................................................................................ 45

7.2.2 Urejevalniki besedil pri jezikovnem pouku ............................................... 47

7.2.3 Elektronska komunikacija…………………………...……………......……….47

7.2.4 Elektronska pošta ..................................................................................... 48

7.2.5 Internetna komunikacija ........................................................................... 48

7.2.6 Elektronsko učenje na daljavo .................................................................. 49

8 ZAKLJUČEK ............................................................................................... 50

9 SEZNAM VIROV IN LITERATURE ....................................................... 51

10 PRILOGA ..................................................................................................... 56

KAZALO SLIK

Slika 1: Prepoznavanje govora in sinteza ....................................................................... 42

KAZALO TABEL

Tabela 1: KWIC konkordanca angleške besede greh ..................................................... 23

Tabela 2: Tekst, uporabljen za konkordanco .................................................................. 23

Tabela 3: Prikaz konkordance je moţen tudi na način, kjer je pred ali za ključno besedo,

prikazanih tudi 75 do 80 znakov .................................................................... 24

Tabela 4: Vzporedna angleško-francoska konkordanca za besedo “pour” .................... 24

POVZETEK

Diplomska naloga pred vami je opisnega tipa in nudi pregled nad programsko opremo

na področju jezikoslovja oziroma jezikovnih tehnologij. V prvem delu so predstavljena

splošno znana orodja v urejevalnikih besedil, kot so črkovalniki in delilniki, slovnični

pregledovalniki, generatorji besednih oblik, lematizatorji, orodja za povzemanje besedil

in programi za optično branje dokumentov. V osrednjem delu so opisani elektronski

slovarji, tako enojezični, dvojezični, terminološki kot tudi tezavri in leksikoni besednih

oblik ter korpusi, kot empirična in izrazito računalniško podprta veja jezikoslovja. V

nadaljevanju naloga opisuje računalniška orodja za prevajanje, med njimi orodja za

strojno in računalniško podprto prevajanje, pomnilnike prevodov, terminološke

programe ter orodja za strojno simultano prevajanje. V zadnjem delu naloga predstavlja

nekaj govornih tehnologij, in sicer sisteme za sintezo govora ter računalniška orodja na

področju poučevanja jezika.

Ključne besede: jezikoslovje, računalniška orodja, črkovalniki, slovnični

pregledovalniki, elektronski slovarji, korpusi, govorne tehnologije

LINGUISTICS SOFTWARE TOOLS

SUMMARY

Dissertation before you provides overview above most widespread software tools on

field of language technologies. In the beginning dissertation describes generally known

tools in text editors, among them spell checkers, hypenators, grammar checkers, word

form generators, lemmatisers, tools for summarising of text and programs for optical

reading of documents. In central part dissertation describes electronic dictionaries,

thesaurus, lexica of word forms and corpora as explicitly empirical branch of linguistics

supported by computers. Furthermore dissertation focuses on computational

technologies used by translators. These technologies include machine tanslation,

computer-aided translation (translation memories and terminological programs) and

simultaneous machine translation. Last chapter discusses the speech technologies,

particulary speech synthesis and computer tools on field of teaching of language.

Key words: language technologies, spell checkers, grammar checkers, electronic

dictionaries, corpora, speech tecnologies

1

1 UVOD

Jezik je najbolj neposredni izraz kulture, je to, kar nas dela človeške in vsakemu izmed

nas daje občutek identitete. Jeziki so vpeti v kulturo deţel in pokrajin, kjer jih prebivalci

govorijo, v običaje, tradicije in sisteme prepričanj (Evropska komisija, 2009).

Odkar ţivimo v informacijski dobi, so računalniške in komunikacijske tehnologije

postale obvezen del našega vsakdanjika. Večina uporabnikov računalnikov se dnevno

srečuje z urejevalniki besedil, ki poleg osnovnih funkcij za urejanje le-teh, vsebujejo

tudi nekatera izmed programskih orodij za jezikoslovje, kot so črkovalniki, delilniki in

slovnični pregledovalniki. Ti omogočajo, da se avtor preteţno osredotoči na vsebino

besedila.

Pozitivna raba interneta je v nekaj letih postala odvisna od učinkovitih iskalnikov, preko

katerih uporabniki hitro ter enostavno najdejo ţelene informacije. V spletnih iskalnikih

so vgrajeni črkovalniki, ki sproti preverjajo pravilnost vnesenih besed in v primeru

napake ponudijo ustrezno. Elektronski slovarji so drugo področje programskih orodij v

jezikoslovju, ki so poleg orodij v urejevalnikih besedil, najbolj znani širšim

uporabnikom. Slovarji so na voljo kot samostojne aplikacije ali kot integrirani moduli v

urejevalnikih besedil, z razmahom interneta pa so še bolj pridobili na pomenu, kjer jih

je nemalo tudi brezplačno dostopnih.

Internet je od samega začetka pomemben medij za razvoj korpusov, to so elektronske

zbirke besedil, ki omogočajo raziskovanje jezikoslovja in jezikoslovnih pojavov z

empirično-kvantitativnega vidika. Velja, da je internet kot medij z velikanskim številom

elektronskih zbirk besedil, največji in najširše dostopni korpus. Korpusi sluţijo tudi kot

temelj za razvoj drugih jezikoslovnih tehnologij, kot so na primer govorne tehnologije

ali tehnologije za podporo prevajalstvu. Poleg namenskih prevajalskih aplikacij, spletni

iskalniki ponujajo moţnost prevajanja posameznih besed ali celotnih vsebin. Na

področju govornih tehnologij naprave, kot so na primer gsm aparati, ţe vključujejo

programske pakete, ki pretvarjajo poljubno besedilo v govor in med drugim omogočajo

glasovno prebiranje kratkih sporočil. Računalniški programi so danes tako zmoţni

2

zapisa po nareku in hkratnega stilnega prilagajanja besedila, povzemanja daljšega

besedila in prevajanja v tuj ali materni jezik. Nenazadnje pa so jezikovne tehnologije

postale tudi nepogrešljiv del jezikovnega pouka.

3

2 ORODJA V UREJEVALNIKIH BESEDIL

Urejevalniki besedil, kot sta na primer MS Word ali Open Office, obstaja pa še vrsta

drugih, so namenjeni oblikovanju besedil z moţnostjo vključevanja slikovnih in drugih

objektov. Tipičen namen uporabe urejevalnikov je pisanje dokumentov, pa tudi bolj

obseţnih gradiv, kot so publikacije. Danes so najbolj razširjeni grafično usmerjeni

urejevalniki, torej urejevalniki, kjer vidimo besedilo v oknu, v njem pa z miško ali

tipkovnico premikamo kazalec in tako določamo poloţaj, kjer bomo besedilo

spreminjali.

Programska orodja za potrebe jezikoslovja, ki so vgrajeni v sodobne urejevalnike

besedil in jih bomo v nadaljevanju predstavili, so: črkovalniki, slovnični

pregledovalniki (računalniško orodje, ki odkriva slovnične in slogovne napake v

besedilih, kot so npr. neujemanje pridevnika in samostalnika, opozarja na nepravilne

predloţne zveze, manjkajoče vejice, zanikanje s toţilnikom, nepravilne predloge pri

lastnih imenih itd.), delilniki, samopopravki (vgrajen korektor v urejevalniku besedil, ki

samodejno popravlja običajne tipkarske napake, nepravilno črkovanje, nepravilno

uporabo velike začetnice), generatorji besednih oblik (modul, ki za določeno osnovno

besedo generira vse njene besedne oblike).

2.1 Črkovalniki

Črkovalnik je najbolj splošno znano jezikovno računalniško orodje. Osnovna naloga

črkovalnika je iskanje pravopisnih in tipkarskih napak. Program pregleduje besedilo,

dokler ne naleti na napako. Takrat odpre okno, v katerem ima uporabnik moţnost

besedo popraviti, pri tem pa mu program pomaga tudi z nasveti. Nasveti so po obliki

najbolj podobne besede, ki jih ima črkovalnik v slovarju, ne glede na njihov pomen.

Koristni so v primerih, ko uporabnik ne ve, katera oblika je pravilna. Tak primer so npr.

besede "daljni", "dalnji", "daljnji", "nadaljni", "nadalnji" in "nadaljnji". Črkovalnik je

lahko del programa ali samostojni program. Deluje na podlagi leksikona besed in

besednih oblik, ki ga najlaţje pridobimo iz korpusa ali slovarja (Vintar, 2003).

4

Tipično deluje tako, da vhodno besedilo razreţe na besede in le-te poišče v slovarju, ki

vsebuje seznam pravilnih besed za dani jezik. Če besede v slovarju ne najde, sklepa, da

bi lahko bila napačna. V tem primeru poskusi poiskati po slovarju besede, ki bi lahko

bile mišljene, in sicer tako, da upošteva tipične napake oziroma podobnost besed.

Preverjanje lahko deluje ţe sproti med tipkanjem besedila ali pa na zahtevo. Slovar

znanih besed nikoli ne more pokriti vseh besed, ker v jezikih po eni strani neprestano

nastajajo nove, po drugi strani pa je predvsem lastnih imen, ki prihajajo iz drugih

jezikov veliko preveč za kaj takega. Pretirano povečevanje slovarja v resnici lahko celo

poslabša kakovost preverjanja črkovanja, ker se začne dogajati, da se zatipkane pogoste

besede začnejo prekrivati z redkimi besedami (v slovenščini je tako pri besedi "ţelad"

najbrţ bolj verjetno, da je to zatipkana beseda "čelad", kot da gre za redek samostalnik

"ţelad"). Zato črkovalniki običajno ponujajo moţnost, da uporabnik v slovar doda

besede iz svojega specifičnega besedišča, ki jih splošni slovar ne pozna.

Namesto slovarja lahko črkovalniki uporabljajo tudi statistične metode (preverjajo,

katere kombinacije črk so dovolj verjetne v nekem jeziku). S tem je moţno pokriti tudi

novo nastale besede, vendar se lahko marsikatera zatipkana beseda razglasi za pravilno,

ker "zveni" dovolj pravilno.

2.2 Delilniki

Delilnik je računalniško orodje za pravilno deljenje besed. Običajno je sestavljen iz

programskega in slovarskega dela. Programski del je izveden glede na okolje, v katerem

mora delovati. Običajno je to dll datoteka, njegova osnovna funkcija pa je deljenje

besed. Ker je delilnik v osnovi algoritmičen, je za izjeme vgrajen dodatni slovar, ki jih

algoritem ne deli pravilno. Slovar je spisek besed z označenimi mesti deljenja, ki jih

programski del uporablja pri delovanju. Besede je mogoče poljubno dodajati. Glavni

problem deljenja (zlogovanja) besed so običajno ohlapna pravila v pravopisu, ki način

deljenja v večini primerov prepuščajo "akustičnemu občutku" posameznika. Ker je ta od

človeka do človeka različen, je več tudi različnih deljenj določene besede, ki pa vsa

ustrezajo obstoječim pravilom. Algoritem poleg pravopisno predpisanih pravil upošteva

5

tudi fonetična merila deljenja. Algoritem ima to lastnost, da poleg "najboljšega" deljenja

predlaga tudi "moţna" deljenja, ki so prav tako pravilna. Ker sta deljenje in zlogovanje

zelo tesno povezana, je v algoritmu velikokrat dodana moţnost zlogovanja. Tako lahko

isto funkcijo poleg uporabe v modulu za deljenje uporabimo tudi v drugih programih,

npr. pri sintezi govora, kjer je od števila zlogov odvisna tudi hitrost izgovarjave

določene besede.

2.3 Lematizatorji

Lematizator je program, katerega funkcija je iskanje osnovne oblike besede za določeno

besedno obliko, ki je lahko poljubna (npr. pišemo – pisati, drevesoma - drevo).

Običajno je sestavljen iz programskega in slovarskega dela. Programski del je izveden

glede na okolje, v katerem mora delovati. Običajno je to dll datoteka, njegova osnovna

funkcija pa je iskanje osnovnih besed. Slovarski del vsebuje morfološko opisane

osnovne besede, iz katerih izhajajo različne besedne oblike oziroma različne pomenske

oblike (Amebis, 2008).

2.4 Generatorji besednih oblik

Generator besednih oblik je modul, ki za določeno osnovno besedo generira vse njene

besedne oblike. Modul za vgradnjo v urejevalnik besedila je sestavljen iz programskega

in slovarskega dela. Programski del je izveden glede na okolje, v katerem mora delovati.

Običajno je to dll datoteka, njegova osnovna funkcija pa je generiranje ustreznih

besednih oblik. Slovar je spisek besed, ki jih programski del uporablja pri delovanju.

Besede je mogoče poljubno dodajati ali jih zbirati iz računalniških zbirk besedil

oziroma korpusov (Amebis, 2008).

2.5 Slovnični pregledovalniki

Slovnični pregledovalnik je računalniško orodje, ki odkriva slovnične in slogovne

napake v besedilih, kot so neujemanje pridevnika in samostalnika, opozarja na

nepravilne predloţne zveze, manjkajoče vejice, zanikanje s toţilnikom, nepravilne

6

predloge pri lastnih imenih itd. V besedilih odkriva nekatere najznačilnejše napake in

največkrat tudi predlaga, kako jih popraviti. Pri obvestilih o napakah prikaţe razlago,

kaj naj bi bilo narobe. Slovnični pregledovalnik ne more nadomestiti lektorja - ne zna

najti vseh vrst napak, marsikatera napaka pa postane opazna šele na pomenski ravni, kar

je za računalniško tehnologijo še nedosegljivo. Kljub temu uporabniku, ki ureja

besedilo, pomaga, da hitro odpravi očitne napake in se lahko več posveča drugim

vidikom besedila. Amebisov pregledovalnik za slovenski jezik Besana po novem

vsebuje tudi pregibnik, s katerim lahko sklanjamo, stopnjujemo in spregamo besedne

oblike. Pregibnik išče besedo po vseh oblikah, zato je le-ta lahko vpisana v katerem koli

sklonu, spolu, številu, stopnji, času osebi (Amebis, 2009).

2.6 Orodja za povzemanje besedil

Računalnik s pomočjo orodja za povzemanje besedil samodejno opravi povzetek

daljšega besedila. V času vsesplošne informacijske zasičenosti je povzemanje koristna

aplikacija. Danes je na voljo prek deset komercialnih orodij za povzemanje, med njimi

najbrţ najbolj znan Microsoftov, ki ga je mogoče vključiti v Word in druge programe.

Zgodnja orodja za povzemanje besedil so temeljila na luščenju ključnih besed in

vrednotenju povedi glede na informativno teţo. Povzetek, katerega dolţino lahko

uporabnik določi sam, je sestavljen iz ustreznega števila visoko uvrščenih povedi,

katerih notranja zgradba ostane nespremenjena. Naprednejša orodja vključujejo

jezikovno odvisne komponente obliko skladenjske analize in zmorejo mnogo več, med

drugim tudi preoblikovanje povedi tako, da je zajeta le ključna informacija, pa tudi

povzemanje mnoţice dokumentov (Vintar 2003).

2.7 Program za optično branje dokumentov Amebis Prest

Prest je prvi program za optično branje dokumentov z vgrajenim slovenskim

črkovalnikom. Noben program ne more popolnoma natančno prebrati besedila, ki je

zapisano kot slika, saj imajo pri tem teţave celo ljudje. Zato si ljudje pomagamo tako,

da iz sosednjih črk in besed "uganemo" črke, ki jih ne moremo prebrati. Tako deluje

tudi program Prest. Prest zna pretvoriti vse standardne vrste črk in številk v obliko, ki je

7

namenjena nadaljnjemu obdelovanju z urejevalnikom. Tudi program Prest ima že

vgrajen enostaven urejevalnik in črkovalnik slovenskega jezika (Amebis, 2008).

8

3 SLOVARJI

Slovar je knjiga, v katerem so abecedno urejene in pojasnjene besede nekega jezika.

Slovarji lahko vsebujejo podatke o pisavi, izgovoru, pomenu in izvoru posameznih

besed (SSKJ, 1998). Najbolj klasični jezikovni priročniki v elektronski obliki so

obstoječi knjiţni slovarji, bodisi enojezični ali dvojezični, neposredno preneseni v

računalniško okolje. Preskok v digitalno okolje pa je obenem tudi kvalitativni preskok.

Uporabnost slovarja v elektronski obliki je ob ustrezni programski opremi, ki omogoča

kompleksna iskanja po celotni slovarski bazi podatkov, vključno z večino gesel ali

njegovimi posamičnimi deli, neprimerno večja kot v knjiţni obliki (Landau, 2001).

Slovarji se v digitalni obliki pojavljajo v večini računalniških okolij kot aplikacije pa v

vseh vrstah računalnikov, na internetu, v obliki SMS sporočil v mobilni telefoniji ali v

specializiranih napravah, kot je denimo kombinacija optičnega čitalnika in slovarja –

Quicktionary (Krek, 2003).

3.1 Enojezični slovarji

Splošnih enojezičnih slovarjev v knjiţni obliki, ki opisujejo sodobni jezik, je veliko.

Nam najbolj znan je Slovar slovenskega knjiţnega jezika, ki je izšel v petih zvezkih od

leta 1970 do 1991 (SSKJ), Slovenski pravopis iz leta 2001 (SP 2001) in Veliki slovar

tujk iz leta 2002 (VST 2002). Tem bi pogojno lahko dodali tudi Besedišče slovenskega

jezika z oblikoslovnimi podatki (BSJ), tj. spisek besed, ki niso bile vključene v SSKJ,

ter Odzadnji slovar slovenskega jezika po Slovarju slovenskega knjiţnega jezika

(OSSJ), spisek iztočnic iz SSKJ, razvrščenih po abecedi od zadnje črke do prve. SSKJ

se je kot prvi, pojavil leta 1997 na disketah v programu ASP za operacijski sistem DOS

in Windows. Trenutno je SSKJ dostopen v paketu s programom ASP32, ki deluje v

obliki enouporabniške ali mreţne aplikacije v različicah operacijskega sistema

Windows za osebne računalnike in streţnike.

Program ASP32 je slovarski vmesnik s funkcijami, ki so postale standard pri podobnih

programih: različne moţnosti tiskanja gesel in geslovnika, moţnost dodajanja opomb,

prilagajanja velikosti ali barv črk na ekranu, sito, ki s skrivanjem posameznih delov

9

gesla omogoča boljši pregled vsebine pri daljših geslih, odpiranje več oken z več gesli

itd. Predvsem je moţno orodje za kompleksna iskanja – z nadomestnimi znaki za en (?)

ali niz znakov (*) ter operatorji »IN«, »ALI«, »NE«, »BLIZU« ter t. i. »NOTRANJI

NE« in »NOTRANJI IN«, ki delujeta znotraj posameznega niza iskanih znakov.

Celotno slovarsko bazo lahko preiskujemo po posameznih delih gesel: geslo, zaglavje,

razlaga, primer, podgeslo in kvalifikator, iskanja po posameznih segmentih lahko tudi

poljubno kombiniramo. Iščemo lahko po vseh posebnih znakih, ki so v SSKJ, od

naglasnih znamenj za izgovarjavo besede do grških črk in matematičnih znakov. Ena od

uporabnih lastnosti programa ASP32 je tudi moţnost shranjevanja in iskanja po izboru

gesel, kar nam olajša pogosta iskanja po geslih, ki smo jih iz celote ţe izločili s

kompleksnejšim iskalnim pogojem. Moţnosti pri spletnem vmesniku so v primerjavi z

ASP32 skromnejše, vendar tudi ta omogoča iskanje po celotni vsebini SSKJ, kar je

dovolj za osnovno uporabo (Krek, 2003).

3.2 Dvojezični slovarji

Dvojezični slovarji so bili poleg črkovalnikov, prvi jezikovni priročniki, ki so – ob

koncu osemdesetih in na začetku devetdesetih let ţe v nelicenčni obliki – obstajali tudi

v obliki računalniške aplikacije, takrat za operacijski sistem DOS, kar govori o veliki

potrebi po njih. Pri nas je bil leta 1994 prvi dvojezični slovar, ki je bil legalno dostopen

v računalniški obliki v programu ASP za DOS in Windows.

Temu so sledili drugi dvojezični slovarji in trenutno so v tej obliki dostopni vsi

obseţnejši in novejši dvojezični slovarji zaloţbe DZS, osemjezični Evropski slovar

Zaloţbe Mladinska knjiga ter nekaj manjših avtorskih slovarjev, ki jih je izdalo podjetje

Amebis (Krek, 2003). Širjenje interneta v devetdesetih letih prejšnjega stoletja je s seboj

prineslo tudi silovit razmah dostopnosti dvojezičnih slovarjev, vendar je (pri tujih

jezikih) razvoj potekal v dveh smereh. Globalno omreţje nudi brezplačen dostop do

mnoţice slovarjev zelo različnega izvora, navadno pa so to zbirke, ki so rezultat

akademskih projektov, posameznih navdušencev, starejše verzije sodobnih slovarjev in

podobno. Sčasoma so se poleg splošnih brskalnikov na svetovnem spletu pojavili tudi

specializirani iskalniki, ki iskano besedo ali zvezo iščejo po vseh brezplačno dostopnih

10

slovarjih, npr. , ,

itd. V večini primerov je tem slovarjem skupna bodisi

nedokončanost bodisi zastarelost in relativno majhen obseg ali fragmentarnost, vendar

imajo tudi takšni viri svojo vrednost.

3.3 Tezavri ali slovarji sinonimov

Beseda tezaver izhaja iz grščine, kar pomeni podobno kot zaklad. Dolgo časa je termin

tezaver pomenil celotni besedni zaklad enega jezika. Roche je k temu dodal, da je

tezaver bolj slovar sinonimov. Tezaver je kontrolirani slovar s strukturo (hierarhičen,

asociativen) in je standardiziran (izdela se po ISO standardu 2788. Za slovenski jezik

slovar sinonimov ali tezaver v knjiţni obliki ne obstaja, obstaja pa v elektronski obliki.

Microsoft v svojem programskem paketu Office od leta 1997 ponuja tudi orodje, ki

uporabniku predlaga sopomenke. Slovar, ki ga orodje uporablja, je razmeroma

nedodelan in potrebna bo nadaljnja jezikoslovna dodelava. Poznamo več vrst tezavorov,

in sicer splošni - zajemajo večja tematska področja, tematski - so omejeni na eno temo,

večjezični - v katerem so izrazi v različnih jezikih. Poznamo še makrotezavre, ki

zajemajo široka področja in mikrotezavre, ki zajemajo oţja področja oziroma

predstavljajo nekakšen podtezaver (SSKJ, 1998).

3.4 Terminološki enojezični ali dvojezični slovarji

Terminološki slovarji so zelo primeren priročnik za medij, kakršen je internet. Če

iščemo prevod ali razlago nekega termina, nas pravzaprav ne zanima, ali je v slovarju

deset ali deset tisoč iztočnic. Vsaka ad hoc sestavljena lista terminov s prevodi ali

razlagami, ki jih je sestavil bodisi navdušeni amater bodisi akademik, ki lahko na

svetovnem spletu sproti dopolnjuje terminologijo nekega področja brez dragega

tiskanja, nam bo dala bolj ali manj zanesljivo informacijo. Na svetovnem spletu kar

mrgoli tovrstnih virov, ki jih lahko najdemo s pomočjo splošnih ali specializiranih

iskalnih orodij za slovarje, ki so omenjeni v poglavju o dvojezičnih slovarjih. V spletni

slovarski zbirki povezav je mogoče najti

terminološke slovarje z zelo različnih področij, od zootehnike do besedja na temo

11

slapov, bogato knjiţnico povezav najdemo tudi na strani , precej manjšo tudi na portalu Matkurja

. Med vsemi

terminološkimi slovarji gotovo izstopa Evroterm, terminološka baza s spletnim

iskalnikom Sektorja za prevajanje Sluţbe Vlade RS za evropske zadeve, ki vsebuje več

kot 30.000 dvojezičnih slovensko-angleških vpisov in je nastala pri prevajanju evropske

zakonodaje v slovenski jezik. Geslovnik je trijezični, zato lahko iščemo angleške,

francoske, nemške in slovenske iztočnice. Baza Evroterm se dnevno dopolnjuje in

revidira. Iskalnik omogoča tudi iskanje z nadomestnimi znaki (Vlada Republike

Slovenije, 2009).

3.5 Leksikoni besednih oblik

Leksikoni besednih oblik so izjemno pomembni za veliko aplikacij na področju

jezikovnih tehnologij. Moţnosti hranjenja in hitrega dostopa do velikih količin

podatkov ter potrebe povsem računalniških jezikovnih orodij, kot so črkovalniki,

delilniki, besedilni korpusi, avtomatski prevajalniki itd. so s seboj prinesli tudi potrebo

in moţnost organiziranja leksikonov besednih oblik pri pregibnih besednih vrstah, ki so

nujni zlasti pri jezikih z velikim številom oblikoslovnih paradigem. Te informacije so

bile do računalniške dobe v precej skrčeni obliki navadno dostopne v zaglavju

enojezičnih ali dvojezičnih slovarjev kot rodilniška oblika ednine pri samostalnikih in

pridevnikih ali prvoosebna oblika ednine pri glagolih, z občasnimi opozorili pri

izjemah, ter v oblikoslovnih razdelkih slovnic slovenskega jezika.

Informacija tako v slovnici (nekaj primerov paradigme) kot v slovarju (pri posamezni

besedi le ena ali nekaj oblik) je bila dokaj neizoblikovana in je za uporabo v resnici

predpostavljala poznavanje slovnice oziroma oblikoslovnih paradigem. Uporabniško

gledano je sklepanje iz osnovne oblike na vse oblike besede za domače govorce

(slovenščine) predvsem pri oblikah, ki so oblikoslovno teţavnejše in morda manj v rabi,

sorazmerno naporno, za tujce, ki se učijo slovenščino, pa tako rekoč neobvladljivo.

Računalniški medij je za tovrstni priročnik precej bolj primeren kot knjiţna oblika,

najbrţ celo edini moţni, kajti izpisovanje vseh oblik določene besede je prostorsko

12

precej potratno, predvidljivost oblik velika. Na svetovnem spletu najdemo orodja, ki

imajo funkcijo iskalnika po računalniškem leksikonu besednih oblik.

13

4 KORPUSI

Kadar nam slovarski ali drugi jezikovni priročniki ne nudijo odgovorov na vprašanja

oziroma ko ţelimo določen jezikovni pojav raziskati z empirično-kvantitativnega

vidika, so nam v pomoč besedilni korpusi ali elektronske zbirke besedil. Do nekaterih

korpusov lahko dostopamo preko interneta, za specifične potrebe pa si lahko zgradimo

tudi lastno računalniško zbirko besedil, po kateri nam iskanje omogočajo različni

korpusni programi.

Razvoj korpusnega jezikoslovja kot empirične in računalniško podprte veje

jezikoslovja, ki svoja spoznanja črpa iz zbirk jezikovnih proizvodov, tj. govornih ali

pisnih besedil, danes merimo ţe v desetletjih. Z razmahom interneta so nekateri korpusi

postali prosto dostopni tudi za širši krog uporabnikov. Uporaba korpusov ni omejena le

na jezikoslovne raziskave, temveč se vse bolj uveljavlja tudi pri pouku maternega in

tujega jezika, prevajanju, lektoriranju in drugih z jezikovno prakso povezanih

dejavnostih. V jezikoslovju se na besedilne zbirke naslanjata predvsem leksikografija in

terminografija, vzporedni in primerljivi korpusi so dragocen vir za prevodoslovje in

primerjalne študije. Posebno vlogo igrajo računalniške zbirke besedil v računalniškem

jezikoslovju in pri razvoju jezikovnih tehnologij, kjer se na podlagi korpusov razvija

metodologija za avtomatsko obdelavo jezika, npr. lematizacijo in oblikoskladenjsko

analizo, analizo in sintezo govora, strojno prevajanje, avtomatsko iskanje terminografije

in rudarjenja podatkov (Vintar, 2001).

Korpusno jezikoslovje pomeni zbirni pojem za niz različnih dejavnosti v zvezi s

korpusi, pri tem pa je izhodišče analize velika količina načrtno zbranega avtentičnega

gradiva in empirična analiza dejanskih vzorcev jezikovne rabe (Biber, Conrad, Reppen,

1998). Šele pojav računalnikov in oblikovanje metod zbiranja ter gradnje korpusov je

omogočilo pridobiti veliko količino relevantnih aktualnih jezikovnih podatkov za

jezikoslovne študije; sodobni jezikovni opisi tako lahko temeljijo na empirični analizi

zares velike količine avtentičnih besedil (Biber in sodelavci, 1998). Gre za značilnosti

jezikovnih podatkov, ki jih starejšim zbirkam jezikovnih podatkov ne moremo pripisati

(Čermak, 2002).

14

Delo v zvezi s korpusi je danes povezano z različnimi dejavnostmi; oblikovanje

kakovostnih korpusov pa zahteva učinkovito sodelovanje jezikoslovcev z raziskovalci s

področja druţboslovnih ved in računalništva, predvsem tistega dela, ki se ukvarja z

naravnimi jeziki.

4.1 Gradnja korpusov

Gradnja korpusov zdruţuje tako jezikoslovce kot računalniške strokovnjake, saj je delo

na področju oblikovanja korpusa vezano tako na načela njihove gradnje kot na

zagotavljanje ustreznega elektronskega zapisa, ki v nadaljevanju omogoča analizo

jezikovnih podatkov (Kennedy, 1998). Pri načelih gradnje korpusov je najprej potrebno

pripraviti okvirni načrt gradnje, ki zajema serijo premislekov in odločitev. V osnovi bi

jih lahko strnili v naslednje sklope (Kennedy, 1998):

specifikacija korpusa in njegova oblika,

strojna in programska oprema,

zajem besedil in označevanje korpusnih dokumentov,

procesiranje zbranega gradiva,

končna oblikovanost korpusa in povratne informacije v zvezi z njim.

V največji meri so jezikoslovni premisleki v zvezi s korpusom vezani na prvo alinejo,

torej specifikacijo korpusa in njegovo obliko. Temeljni premislek je vezan na tip

korpusa, ki ga ţelimo graditi. To za seboj potegne odločitve v zvezi z jezikom besedil

(enojezični ali večjezični korpus), s časovnim zajemanjem besedil (sinhroni ali diahroni

korpus), premislek o zajemu besedil glede na prenosnik (pisni ali govorni korpus) itd.

Izhodiščni jezikoslovni premislek pri osrednjem tipu korpusa, tj. referenčnem korpusu,

ki ţeli predstaviti določen jezik v čim širšem obsegu njegove pojavnosti, pa je vezan

tudi na določitev parametrov za uravnoteţenost v korpusu zajetih besedil na eni strani

(Biber, 1993) ter njihovo jezikoslovno označenostjo v korpusu na drugi.

15

Prav to so parametri, ki dvigajo kakovost jezikovnim podatkom v korpusu, saj je

razumljivo, da korpus, ki zajema samo leposlovna besedila ali samo besedila enega

časopisa, ne more biti kakovosten vir za npr. referenčne jezikovne priročnike.

Da bi z gradnjo sploh lahko začeli, je potrebna tehnična podpora, ki mora od samega

začetka slediti zahtevam tako glede strojne kot programske opreme ter biti sposobna

oblikovati orodja za procesiranje zbranega gradiva. Prav pri procesiranju podatkov se je

potrebno odločati tako, da jezikovnim podatkom zagotovimo čim večjo uporabnost,

izmenjavo ter trajnost, kar v zadnjem času omogočajo standardi za prenos in zapis

jezikovnih podatkov. Čeprav se razmislek v zvezi s postopki zajemanja besedil zdi

dokaj trivialen, pa so se korpusi prav na tem nivoju velikokrat znašli pred nerešljivo

teţavo: kako sploh organizirati zbiranje besedil ter prepričati avtorje, da za namene

korpusa svoja besedila odstopijo. Prav zaradi nepredvideno zapletenih postopkov se je

pr mnogih korpusih njihova gradnja precej zavlekla, tako da se danes vsi zavedajo

zahtevnosti in zamudnosti zbiranja besedil (Atkins, Clear, Oster, 1992).

S pridobivanjem besedil je povezano še eno temeljno vprašanje, ki ga mora vsak resno

zastavljen korpusni projekt rešiti pred začetkom gradnje, tj. zagotavljanje varovanja

avtorskih pravic. Potrebno je poznavanje področja varovanja avtorskih pravic, in sicer

tako na mednarodni kot drţavni ravni, ter v skladu s tem oblikovanje ustreznih rešitev

(Atkins in sodelavci, 1992). Prav izkušnje pri starejših korpusih, ki vprašanja avtorskih

pravic niso zadovoljivo rešile, tako da danes tovrstnih podatkov sploh ni mogoče

uporabljati, so oblikovalce kasnejših korpusov prisilile v razmislek ter iskanje ustreznih

rešitev.

Pri končni obliki korpusa je z vseh vidikov smiselno spremljati odzive na rešitve, jih

sistematično obdelati ter razmisleke v zvezi z gradnjo revidirati ter tako pri njegovi

nadgradnji dosegati večjo kakovost ter prijaznost do uporabnikov. Čeprav se zdi

samoumevno, pa je mogoče vendarle potrebno izpostaviti potrebo po gradnji korpusa

tako, da lahko sproti sledimo jezikovnim spremembam, torej zasnovati delo na način, da

lahko novo besedilno gradivo v korpus nenehno vključujemo.

16

Razvoj orodij za delo s korpusom je vezan predvsem na področje računalniškega

jezikoslovja (Kennedy, 1998), danes pa nekateri široko dostopni programi omogočajo

tudi računalniško manj izobraţenim uporabnikom korpusa samostojen razvoj manj

kompliciranih programskih orodij, ki si jih za svoje specifične potrebe lahko oblikujemo

sami; ob tem se vzporedno razvijajo tudi postopki in metode korpusne analize.

Ob delu s korpusi se razvijajo druga področja jezikovnih tehnologij, ki za svoje

izhodišče potrebujejo kakovostne jezikovne vire. Sem sodi razvoj črkovalnikov,

različnih slovničnih pregledovalnikov, elektronskih slovarjev in tezavrov pa tudi sinteze

in analize govora ipd. V jezikoslovju sodijo na področje korpusnega jezikoslovja

raziskave za potrebe opisnega jezikoslovja, kamor tradicionalno sodijo različne vrste

slovničnih in leksikalnih analiz (Kennedy, 1998). Predvsem leksikologija in

leksikografija sta področji, ki ţe po tradiciji izhajata iz sistematično zbranega gradiva

(McEnery, Wilson, 1996). Prav slovarji, narejeni na podlagi korpusov, pa so tudi prvi

res široki javnosti dostopni rezultati jezikoslovne uporabe korpusov. S pojavom večjega

števila širši javnosti dostopnih različnih tipov korpusov pa se njihova uporabnost širi

predvsem na tradicionalno gradivo usmerjena jezikoslovna področja, kot so

besediloslovje, prevodoslovje, sociolingvistika, stilistika ipd. (McEnery in sodelavci,

1996).

Uporaba računalnika z avtomatičnimi in interaktivnimi tehnikami omogoča analizo

velike količine jezikovnih podatkov. Z razvojem tehnik korpusne analize količina

jezikovnih podatkov ne predstavlja ovire, pač pa prav obratno, z večjo količino

podatkov lahko pridemo do novih informacij. Za določene postopke korpusne analize

pa so sploh primerni samo izjemno veliki korpusi. Ob tem pa ostaja področje odprto za

druge veje jezikoslovja, ki korpus uporabljajo le kot klasično gradivo zgolj za

preverjanje svojih hipotez.

4.2 Tipologija korpusov

S širjenjem računalniških korpusov se je pojavila tudi potreba po ovrednotenju ter

razvrstitvi korpusov. Z opisom karakteristik s katerimi lahko neki korpus ovrednotimo

17

in z definiranjem zvrsti korpusov, ki jih je med seboj smiselno razlikovati, se je

ukvarjala skupina za tipologijo korpusov pri evropski iniciativi Eagles (Expert Advisory

Group for Language Engineering). Po tipologiji Eagles so karakteristike nekega korpusa

naslednje (ISTWORLD, 2009):

velikost, tj. količina podatkov, ki jih neki korpus vsebuje;

kakovost njegove izdelave;

avtentičnost glede na merila, po katerih je bil zgrajen;

enostavnost njegovega zapisa;

dokumentiranost.

V nadaljevanju bomo opisali posamezne korpuse ter njihove specifike.

4.2.1 Referenčni korpusi

Referenčni korpus je obseţna elektronska besedilna zbirka, ki zajema vzorčni deleţ

besedil nekega jezika. Referenčni korpus naj bi kar najbolj reprezentativno in

uravnoteţeno predstavljal jezik v vseh njegovih besedilnih udejanjenjih (Vintar, 2001).

Njegov osnovni namen je, da omogoča temeljit vpogled v jezik na najrazličnejših

ravneh in področjih, in je tako pomemben vir za uporabno in teoretično jezikoslovje,

npr. slovaropisje v vseh oblikah (eno in večjezični slovarji, terminološki slovarji in

drugi jezikovni priročniki), poučevanje jezika (učbeniki in učni pripomočki), jezikovne

tehnologije (črkovalniki, slovnični pregledovalniki, govorni vmesniki) ter tudi druge

druţboslovne in humanistične vede, npr. literarno vedo, psihologijo in sociologijo (Fida,

2009).

Referenčni korpusi predstavljajo osnovno zvrst korpusa in sluţijo kot jezikovni

standardi. Posebna pozornost se pri takšnih korpusih posveča izbiri komponentnih

besedil, saj naj bi tak korpus predstavljal idealizirano podobo nekega jezika. Primer

takšnega korpusa je prvi široko dostopni računalniški korpus, in sicer korpus Brown

ameriške angleščine, ki vsebuje petsto skrbno uravnoteţenih odlomkov iz petnajstih

jezikovnih zvrsti, ki segajo od religije, preko znanstvene fantastike, do humorja.

18

Referenčni korpus ne more zajeti vseh jezikovnih moţnosti, kar pomeni, da je v jeziku

lahko tudi tisto, česar v korpusu ni. K temu sodi tudi zrcalna trditev: vse, kar je v

korpusu, je tudi (bilo) v jeziku (Stabej, 1998).

Kot nasprotje referenčnim korpusom stojijo specializirani korpusi (sluţijo nekemu

namenu) in oportunistični (cenena različica referenčnih korpusov; zbrani so glede na

dane moţnosti) ali spremljevalni korpusi (dinamični korpusi, v katerih je vidno

spreminjanje jezika) (Ponikvar, 2002).

4.2.2 Enojezični korpusi

Najbolj splošni tip enojezičnega korpusa so zgoraj navedeni referenčni korpusi. Za

slovenščino je prvi tak korpus FIDA, korpus slovenskega jezika, ki vsebuje 103

milijone besed iz skoraj 30.000 besedil. Za iskanje po korpusu FIDA obstaja prilagojena

internetna različica programa ASP32, ki poleg iskanja po korpusu omogoča tudi

urejanje rezultatov in njihovo statistično analizo. Korpus FIDA je tematiziran in

oblikoslovno označen, kar pomeni, da je vsaki besedi pripisana osnovna oblika (lema)

in oblikoskladenjska oznaka. To je pri iskanju zelo pomembno, saj lahko brez teţav

dostopamo do pojavitev določene besede v vseh njenih oblikah, moţna pa so tudi

zahtevnejša iskanja.

Druga velika zbirka slovenskih elektronskih besedil na internetu je Beseda in novejša

različica Nova beseda, ki vsebuje skupno 48 milijonov besed, od tega 42 milijonov

besedil dnevnika Delo, pribliţno dva milijona besed izvirnega slovenskega leposlovja in

milijon besed prevodov v slovenščino (Jakopin, 2000).

Referenčni korpusi so na internetu dostopni tudi za številne druge jezike, npr. angleški

BNC, nemški Cosmas, češki ČNK, hrvaški HNK in drugi. Omeniti velja tudi spletni

konkordančnik WebCorp, ki za korpus uporablja ogromno število dokumentov na

svetovnem spletu in za iskani pogoj izpiše konkordance.

19

Čeprav so korpusi začeli nastajati predvsem za potrebe leksikografov, se danes s

koristjo uporabljajo v vseh tistih vejah jezikoslovja, kjer kvantitativne informacije lahko

pripomorejo do novih spoznanj in kjer je opazovane jezikovne pojave mogoče do te

mere formalizirati, da jih s pomočjo računalniških orodij lahko hitreje in učinkoviteje

obdelujemo. To pogosto vključuje različne ravni označevanja korpusa, od katerih je

nekatere danes ţe moţno zadovoljivo opraviti avtomatsko (lematizacija,

oblikoskladenjsko označevanje), druge pa zahtevajo ročno delo (npr. označevanje

pomena, stilnig prvin, pri govornih korpusih prozodije, komunikacijskih funkcij,

gestike).

Za običajne uporabnike je korpus lahko pomembno dopolnilo enojezičnega slovarja.

Slovarski priročniki pogosto ţe ob izidu zamujajo in tako ne odraţajo aktualnih

razvojnih procesov v jeziku. Tako na primer SSKJ ne vsebuje gesel za danes ţe povsem

udomačene besede, kot so internet, notesnik, zgoščenka.

4.2.3 Dvojezični korpusi

Dvojezični korpusi se po tradicionalni tipologiji delijo na vzporedne in primerljive. V

zadnjem času se pojavlja še en tip korpusa, tako imenovan prevajalski korpus. Na

splošno je dvojezične korpuse nekoliko teţje graditi kot enojezične, še posebej če

potrebujemo elektronske različice besedil v izvirniku in prevodu, zato se praviloma tudi

odpovemo zahtevi po reprezentativnosti za jezikovni par v celoti in se raje omejimo na

določeno jezikovno zvrst, besedilno vrsto, ţanr ali strokovno področje. Na podlagi

dvojezičnega izpisa konkordanc lahko raziskujemo prevodno ustreznost, primerjamo

prevajalske odločitve glede na tip besedila ali področje, primerjalno raziščemo

leksikalno polje izbranega leksema ali opazujemo terminološko variabilnost (Vintar,

2001). Z večjezičnimi korpusi dostopamo do naravnih vzorcev v jeziku, saj nam nudijo

vpogled v jezikovne strukture v njihovem domačem okolju in ne v prevedenem

besedilu. S prepoznavanjem strokovnih izrazov oz. njihovih prevodov, besed in fraz se

pribliţujejo pomnilnikom prevodov in terminološkim bazam. Pomembno vlogo imajo

pri materialih za pisanje, poučevanju prevajalcev in pri izboljšavi programov za strojno

prevajanje (Ponikvar, 2002).

20

4.2.4 Vzporedni korpusi

Vzporedni korpusi vsebujejo ista besedila v izvirniku in prevodu, včasih gre tudi v obeh

primerih za prevod iz tretjega jezika (Vintar, 2001). so nepogrešljivi pri prevajanju, za

izdelavo prevajalskih pripomočkov, pri izboljšavah za strojno prevajanje in za izdelavo

terminoloških baz, kot orodje pri programih za poučevanje prevajanja, pri učenju

jezikov s pomočjo jezikovnih tehnologij in pri terminoloških študijah, kjer so

terminološki izrazi izluščeni iz korpusov. Največji uporabniki vzporednih korpusov so

Zdruţeni narodi, Nato, Evropska unija in drţave z dvema uradnima jezikoma (npr.

Kanada). V vzporednih korpusih lahko iščemo prevodne ustreznice s pomočjo

vzporednih konkordanc. Primerjamo lahko pogostost posameznih prevodnih ustreznic

in njihova sobesedila, kar olajša izbiro primernega prevoda (Ponikvar, 2002).

4.2.5 Primerljivi korpusi

Primerljivi korpusi vsebujejo za vsak jezik različen izbor besedil, ki so po izbranih

merilih primerljiva (Vintar, 2001). So nekakšni kriţanci med večjezičnimi in

vzporednimi korpusi in so sestavljeni iz dveh posameznih ločenih zbirk besedil v istem

jeziku: iz besedil v izvirnem jeziku in iz zbirke prevodov v ta jezik iz enega ali več

drugih jezikov (npr. časopisni članki iz evropskih časopisov v nekem obdobju). S tem je

moţno prepoznavanje vzorcev, ki so specifični za prevedena besedila ne glede na

izhodiščni oz. ciljni jezik, kar sproţi nove hipoteze o postopku prevajanja, ugotavljanje

prevodnih norm v specifičnih kontekstih ter odkrivanje metod in rešitev za poklicne

prevajalce (Ponikvar, 2002).

4.3 Korpusna orodja

Kadar korpusi, do katerih lahko dostopamo, za naše potrebe ne zadoščajo oziroma nam

obdelava besedil preko interneta ne ustreza, si lahko zgradimo lastno zbirko besedil ali

pa ţe obstoječi korpus prenesemo na lasten računalnik in z njim delamo lokalno. V ta

namen je na voljo vrsta programskih orodij, ki jih lahko razdelimo na orodja za

21

označevanje, to je vnašanje jezikovnih in drugih informacij v besedilo, in orodja za

iskanje in obdelavo rezultatov, ki jim pravimo konkordančniki (Vintar, 2001).

4.3.1 Orodja za označevanje besedil

Označevanje nekaterih jezikovnih ravni poteka preteţno avtomatsko in je človeško delo

potrebno le za preverjanje rezultatov označevanja in prileganje programja. Druge ravni

označevanja je teţje avtomatizirati, zato se izvajajo ročno, pogosto pa je ročno

označevanje tudi prvi korak pri razvijanju in učenju računalniških programov za

označevanje. Za vnašanje oznak v korpus je na voljo precej različnih orodij, še posebej

pestra je izbira na področju govora. Novejša orodja večinoma temeljijo na standardu

xml in uporabniku dovoljujejo, da opredeli lastno označevalno shemo. Ker pogosto

označujemo več ravni hkrati, je pomembno tudi, da izbrano orodje dopušča večplastno

označevalno shemo z gnezdenjem elementov.

4.3.2 Orodja za iskanje in analizo – konkordančnik

Orodjem za iskanje po korpusih in obdelavo rezultatov pravimo tudi konkordančniki

(Vintar, 2001). Konkordančniki prikaţejo pojave določene besede (ali niza) poravnane

skupaj s sobesedilom v oknu »KWIC« (ang. Key Word in Context). Z njimi lahko

ugotovimo, v kakšnem sobesedilu je mogoče uporabiti besedo, s katerim predlogom se

veţe, ali jo je mogoče uporabiti figurativno itn. Če je konkordanca zadosti velika, si

lahko pogledamo primere rabe besede v dejanskih besedilih. To je še posebej koristno

pri neologizmih, izposojenkah in drugih besedah, ki jih v običajnih slovarjih (še) ni

mogoče najti.

Najširše uporabljan konkordančnik je Wordsmith (Blaţič, 2002), ki poleg prikaza

konkordanc omogoča tudi vrsto drugih obdelav besedil od izdelave besedilnih

seznamov, izračunavanja besednih skupkov (clusters) in kolokacij, primerjave besednih

seznamov in izračuna ključnih besed, do vključevanja seznamov prepovedanih besed

(stoplist) in podpore pri ročni lematizaciji. Program podpira tudi označena besedila in

nudi vrsto funkcij za predpripravo korpusa (Vintar, 2001).

22

Sodobna analiza jezikovne rabe ne more več temeljiti na intuiciji, na jezikovni

kompetenci enega govorca ali minimalnem besedilnem gradivu, ampak ji njeno

relevantnost zagotavlja prav empirična analiza velike količine avtentičnih besedil.

(Gorjanc, 1999).

Korpus velja za zelo zanesljiv vir podatkov o realni rabi določenih jezikovnih oblik. Z

velikim obsegom pisnih in/ali govorjenih besedil korpusov ter z različnimi moţnostmi

iskanja, ki jih omogoča konkordančnik med obseţnim številom dobljenih zadetkov,

skupaj dajeta reprezentativno sliko jezikovne rabe, vzorcev in trend razvoja določenega

jezika. Za raziskovanje jezika, iskanje po korpusu in obdelavo rezultatov iskanja

uporabljamo programsko orodje, imenovano konkordančnik. Konkordančnik je bila

prvotno metoda analiziranja pisnih besedil, ki je nudila seznam vseh besed v besedilu in

kje so te besede uporabljene v le-tem.

Konkordančnik ali programski vmesnik je programsko orodje, ki se uporablja v

korpusnem jezikoslovju in je potrebno za iskanje po korpusu in obdelavo rezultatov

iskanja. S pomočjo konkordančnika lahko iščemo po različnih kriterijih, zadetke

razvrščamo in jih statistično obdelujemo. Omogoča iskanje posameznih besed, fraz,

delov besed ali kombinacij le-teh (DZS, 2009)

Konkordančnik nam pokaţe, kako se določena beseda ali besedna zveza pojavlja v

kontektstu besedila. Tako lahko na primer preverimo, kako pogosto se pojavlja neka

beseda v korpusu, statistično izmerimo pomensko povezanost neke besede ali pa

razvrstimo seznam zadetkov po abecednem vrstnem redu. (Inštitut Joţef Stefan, 2009).

Prednost konkordančnika pri analizi besedil je v tem, da je kontekst rabe izbranih besed

ali besednih zvez vedno prisoten. Značilnost sodobnih konkordančnikov je

interaktivnost, saj uporabnik »prikliče« konkordančni niz za izbrano besedo, kadar ţeli.

Konkordančna orodja omogočajo odkriti jezikovne vzorce, ki obstajajo v vsakem

naravnem jeziku, a na prvi pogled niso lahko vidni. S konkordančniki vzorce poiščemo

23

in še pomembneje, prikaţemo. Konkordančiki te vzorce prikaţejo in jih prikazati na tak

način, da so uporabniku lahko vidna in razumljiva. (Tribble, 1997)

Pri enostavnem iskanju se nam na zaslonu izpiše iskana beseda, ki predstavlja osrednji

del prikazanih zadetkov. Za vsak zadetek vidimo na zaslonu minimalno sobesedilo le-

tega, nekaj besed levo ter desno od iskane besede. Posamezni zadetek ali eno vrstico

besedila imenujemo konkordanca, nabor vseh zadetkov skupaj pa konkordančni niz.

Takšnemu prikazu angleško rečemo Key Word In Context (KWIC) in je najbolj pogosto

uporabljen način prikaza konkordanc. (Tribble, 1997).

Tabela 1: KWIC konkordanca angleške besede greh (Internet)

1. Thus from my lips, by yours, my Sin is purged.

2. Then have my lips the Sin that they have took.

3. Sin from thy lips? O trespass sweetly urged!

4. Give me my Sin again.

Tabela 2: Tekst, uporabljen za konkordanco, ključna beseda odebeljena (Internet)

JULIET

Ay, pilgrim, lips that they must use in prayer.

ROMEO

O, then, dear saint, let lips do what hands do;

They pray, grant thou, lest faith turn to despair.

JULIET

Saints do not move, though grant for prayers’ sake.

ROMEO

Then move not, while my prayer’s effect I take.

Thus from my lips, by yours, my sin is purged.

JULIET

Then have my lips the sin that they have took.

ROMEO

Sin from thy lips? O trespass sweetly urged!

Give me my sin again.

24

Tabela 3: Prikaz konkordance je moţen tudi na način, kjer je pred ali za ključno besedo,

prikazanih tudi 75 do 80 znakov (Internet)

1. move not, while my prayer’s effect I take. Thus from my lips, by yours, my sin is

purged. JULIET Then have my lips the sin that they have took. ROMEO

2. Thus from my lips, by yours, my sin is purged. JULIET Then have my lips the sin

that they have took. ROMEO Sin from thy lips? O trespass sweetly urged!

3. is purged. JULIET Then have my lips the sin that they have took. ROMEO Sin

from thy lips? O trespass sweetly urged! Give me my sin again

4. they have took. ROMEO Sin from thy lips? O trespass sweetly urged! Give me my

sin again.

Tabela 4: Vzporedna angleško-francoska konkordanca za besedo “pour” (Internet)

Originalni tekst Prevod

1. Ainsi, quand il aperçut POUR la

première fois mon avion [...]

1. The first time he saw my aeroplane, for

instance [...]

2. Alors elle avait forcé sa toux

POUR lui infliger quand même des

remords.

2. Then she forced her cough a little more SO

THAT he should suffer from remorse just the

same.

3. -Approche-toi que je te voie mieux,

lui dit le roi qui était tout fier d’être

enfin roi POUR quelqu’un.

3. “Approach, so that I may see you better,”

said the king, who felt consumingly proud of

being at last a king OVER somebody.

4. Car, POUR les vaniteux, les autres

hommes sont des admirateurs.

4. For, TO conceited men, all other men are

admirers.

5. C’est comme POUR la fleur. “ 5. It is just as it is WITH the flower.

6. C’est donc POUR ça encore que

j’ai acheté une boîte de couleurs et des

crayons.

6. It is FOR THAT PURPOSE, again, that I

have bought a box of paints and some pencils.

7. C’est le même paysage que celui de

la page précédente, mais je l’ai

dessiné une fois encore POUR bien

vous le montrer.

7. It is the same as that on page 90, but I have

drawn it again TO impress it on your memory

25

Izdelava konkordančnika tudi še danes, v dobi računalništva, zahteva veliko časa in

truda. Zato so bili pvi konkordančniki v srednjem veku izdelani le za pomembnejša

literarna dela, kot sta Biblija in Koran. Prvi konkordančnik, imenovan »Concordantiae

Sacrorum Bibliorum ali Concordantiae S. Jacobi« je bil izdelan 1262, na pobudo

francoskega kardinala Huga de Sancto Charo, ob sodelovanju več kot petsto menihov.

(Appleton, 1983).

Poleg Biblije, so bila za izdelavo konkordančnikov, najbolj pogosto uporabljene zbirke

besedil Shakespeara. Leta 1894 je ameriški urednik Bartlett izdelal konkordančnik z

naslovom »A Complete Concordance to Shakespeare's Dramatic Works and Poems«.

Konkordančniki se uporabljajo na področju računalniško podprtega in strojnega

prevajanja, na področju leksikografije in slovaropisja. Značilen primer je Collins

Cobuildov slovar, kjer so vnosi nastali zgolj na podlagi korpusne analize milijonov

avtentičnih besedil. Uporaba konkordančnikov je znana tudi na področju stilistike in

literarnih raziskav. Vsi našteti primeri običajno zahtevajo velike, več milijonske

korpusne zbirke besedil. Manj bolj jezikovno specifične zbirke besedil, pa so lahko v

povezavi z uporabo konkordančnikov, namenjene področju učenja in poučevanja jezika.

Z razmahom interneta, ki sluţi kot lahko dostopen korpus in z razvojem internetnih

konkordančnikov, so le-ti postali uporabni tudi za namen poučevanja in učenja jezika.

Razvoj in dostopnost osebnih računalnikov je ta proces še pohitril, saj so orodja postala

»uporabniku prijazna« in so zmoţna analizirati velike količine besedil v zanemarljivo

kratkem času. Danes pomembnejši zaloţniki, kot so Oxford University Press, Longman

in Cambridge University Press, izdajajo reprezentativne korpuse za namen poučevanja

in učenja jezika. Slednji je na primer izdal korpus »Million Word Corpora«, ki obsega

zbirke pisnih in govornih besedil različnih ţanrov in področij (znanstvena, splošna,

strokovna, informativna, umetnostna, športna in podobno). To uporabnikom

konkordančnikov omogoča, da za poučevanje ali učenje ter raziskovanje jezika izberejo

besedila iz točno ţelenega področja, kar je zlasti pomembno z vidika reprezentativnosti

in dejanske uporabnosti.

26

Konkordančniki so s stališča osebe, ki se uči določenega jezika, zanimivi tako na

področju semantike in sintakse. Prvo zanima pomen besed v njenem osnovnem

(konotativnem) in dodatnem (denotativnem) pomenu, slovarski in besedilni pomen

besed in razmerje med obema, sintaksa pa se ukvarja z zgradbo stavkov. Primer za to je

beseda brati, ta ima več pomenov: brati jagode, grozdje, brati knjigo, ima pa sinonim

čitati, ampak samo v drugem pomenu, v prvem ne. Pravi pomen besede dobimo torej

šele z besedilom oziroma stavkom, v katerem je bila beseda brati uporabljena. (Zavod

Med.Over.Net, 2009).

Vloga konkordančnikov na področju spoznavanju oziroma učenja jezika je v

vzpodbujanju načela učenja po principu odkrivanja (angleško »learning by discovery«).

Učenje po principu odkrivanja pomeni, da učitelj predstavi učencem neki specifičen

primer, učenci pa skušajo odkriti interrelacijo ter strukturo obravnavanega. V skladu z

Brunerjevo kognitivno teorijo naj bi za učinkovitejše učenje učitelji vzpostavili

problemske situacije, ki bi učence stimulirale k samostojnemu odkrivanju strukture

obravnavanega (Plut Pregelj, 2000).

Samostojna uporaba konkordančnika, glede na trenutno jezikovno zmoţnost osebe, ki

se uči določenega jezika, je ena izmed najbolj zaţelenih uporab le-tega. Tovrstno rabo

Johns opredeljuje tudi kot »naključno učenje« (Johns, 1998). Gre za podobnost z

listanjem slovarja in ugotavljanjem pomena besed, njihove rabe v jeziku in določenih

pravopisnih zakonitosti jezika. Uporaba konkordančnika na ta način ima po mnenju

James in Garett-a 1991 spodnje prednosti:

Oseba je pri samoučenju s pomočjo konkordančnika avtonomna pri izbiri »kaj

in kdaj« ţeli raziskovati v izbranem jeziku

»Odgovori na vprašanja« ustrezajo trenutnemu nivoju znanja osebe oziroma

»jezikovni kompetenci«

Raziskovanje jezika s pomočjo konkordančnika povečuje jezikovno in kulturno

zavest

27

Uporaba konkordančnika v procesu učenja jezika omogoča samostojno raziskovanje

pomena in rabe besed v kontektstu besedila in posledično sklepanje o slovničnih

zakonitostih jezika.

Oseba s pomočjo konkordančnika lahko v avtentičnem besedilu poišče kolokacije,

njihov pomen in rabo v izbranem jeziku. Učenec namesto vloge zgolj receptorja pridobi

vlogo raziskovalca jezika. (Ammar Merhbi, 2009).

Učenci lahko konkordančnik pod mentorstvom učitelja uporabijo za analizo in popravek

napak pri njihovem pisanju. Konkordančnik omogoča tudi induktivno učenje. Pri

induktivnem učenju učenec napreduje od specifičnega k splošnemu oziroma od

posameznih primerov proti oblikovanju splošnega pravila (Flowerdew, 1996).

»Pasti pri uporabi konkordančnikov« se skrivajo predvsem pri izbiri korpusa za analizo.

Velja mnenje, da večji kot je korpus, bolj je reprezentativen. Kjer ima uporaba

konkordančnika vlogo študija kolokacij in leksikalnega pomena besed, tam bomo

uporabili večji korpus. Pri izbiri korpusa za preučevanje »splošnega jezika« je

pomembno tudi, da korpus vključuje primere govorjenega jezika. V primeru da učenec

spoznava jezik na specifičnem področju, pa je bolj kot sama velikost, pomembno da je

korpus izbran iz preučevanega področja (Flowerdew, 1996).

Za uspešno izrabo moţnosti, ki jih ponujajo konkordančniki pri analizi korpusov, je

bistvenega pomena priprava ter seznanjanje učencev z uporabo le-teh s strani učiteljev

in sprotna analiza ter usmerjanje učencev s strani slednjih.

28

5 RAČUNALNIŠKA ORODJA ZA PREVAJANJE

Ideje o samodejnem prevajanju med ljudmi obstajajo ţe dolgo (predlog o mehanskem

slovarju Descartesa in Leibniza seţe v 17. stoletje). Sistemi za samodejno prevajanje se

tako razvijajo ţe od časov izuma elektronskega računalnika v štiridesetih letih. Dolga

leta zatem se je tako prevajanje izvajalo neposredno preko dvojezičnih slovarjev in

postopek je vključeval skopo analizo drugih jezikovnih prvin.

V osemdesetih letih je napredek v računalniškem jezikoslovju prinesel bolj kompleksen

pristop k prevajalskemu postopku. Ti sistemi so vključevali programe za prepoznavanje

besednih oblik (morfološka raven), strukture stavkov (skladenjska raven) in

razpoznavanje večpomenskosti, enakozvočnic ter leksikalnih razmerij (leksikalna

raven).

Skozi zgodovino so bili razviti trije tipi sistemov strojnega prevajanja (Hutchins,

Somers, 1992: 4):

Pri neposrednem pristopu, ki je najstarejši, gre za strojno prevajanje

posameznega para jezikov v eno smer. Izhodiščno besedilo je analizirano zgolj

za potrebe pretvarjanja v ciljni jezik.

Vmesno stopnjo prevajalskega postopka predstavlja od jezikov neodvisni

tako imenovani vmesni jezik (ang. interlingua). Pri tem gre za dva dela

postopka: prevod iz izhodiščnega jezika v vmesni jezik, kateremu sledi prevod

iz vmesnega jezika v ciljni jezik.

Transferni pristop ima tri stopnje:

o pretvorbo izhodiščnega besedila v abstraktno izhodiščno predstavo, kjer

se razreši večpomenskost ne glede na jezik,

o prenos predstave v abstraktno ciljno predstavo in

o tvorbo besedila v ciljnem jeziku.

29

S pojavom osebnih računalnikov se je začel tudi razvoj prevajalske programske opreme

zanje. Danes je razvoj usmerjen k statističnim sistemom, ki se prevajanja naučijo iz

vzporednih korpusov (npr. EGYPT).

V devetdesetih so postala priljubljena prevajalska namizja (ang. workbench), ki

zdruţujejo večino prevajalskih orodij (za štetje besed, pretvarjanje formatov, filtriranje,

poravnavanje ţe prevedenega besedila). Tako so omogočala večjezično obdelovanje

besedil, pošiljanje in sprejemanje dokumentov v elektronski obliki, pretvorbo grafičnih

zapisov v besedila elektronske oblike, upravljanje terminologije s konkordančnim

iskanjem, pomnilnike prevodov itn.

Prevajalska namizja so računalnik prevajalcem predstavila v povsem novi luči. Dobili

so orodja, ki so jim omogočala širok razpon uporabe. Kot vedno pa je vrednost

tehnologij odvisna od kakovosti dela. Pri strojnem prevajanju slovarji in terminologija

zahtevajo trud, čas in denar, pomnilniki prevodov pa se zanašajo na zbirko uporabnih

prevodov. Štiri največja prevajalska namizja, ki jih poznamo danes, so TRADOSi,

STAR (Transit), LinguaNet (TranslationManager) in LANT (Eurolang Optimizer).

Do pred nekaj leti so ti sistemi tekli na velikih računalnikih (ang. mainframe computers)

in so bili naprodaj za več milijonov dolarjev. S kasnejšim razvojem moči osebnih

računalnikov in operacijskih sistemov Unix je postalo dostopnih veliko rešitev enake

kakovosti in natančnosti in to po ceni, ki si jo prevajalci lahko privoščijo (ItoCAT,

2002).

Poleg tega je na internetu dostopna celo brezplačna programska oprema, s katero se

proti patentiranju bori projekt prostovoljcev, imenovan GNU (GNU's Not Unix).

Posledica moţnosti nalaganja programske opreme, za katero ni potrebno plačilo in ki se

jo pod njihovimi pogoji (v nespremenjeni obliki in brezplačno) lahko ponuja naprej, sta

širjenje in lokalizacija. Slovenski GNUsl skuša v duhu GNU ponuditi tiste tehnologije,

ki so prosto dostopne in vezane na slovenski prostor: internetni črkovalni servis Primoţ

Trubar, prazne besede slovenskega jezika (predlogi, vezniki, zaimki, pomoţni glagoli

itn.), navodila za prilagoditev nekaterih računalniških orodij slovenskemu jeziku (npr.

30

kodni nabori, tezaver slovenskega jezika, oblikoskladenjski slovar) ter nenazadnje

orodje za lokalizacijo programov v obliki pomnilnika prevodov SMART skupine za

slovenjenje Linuxa (Košir, Peterlin, Erjavec, 1998).

Področje prevajalskih tehnologij se deli na dve veji, ki se med seboj tudi povezujeta:

strojno in računalniško podprto prevajanje.

5.1 Strojno prevajanje

Strojni prevajalniki so programi z lastnimi moduli za jezikovno analizo izhodiščnega in

sintezo ciljnega besedila, tako da prevajanje poteka bolj ali manj samodejno. Usmerjeno

je v simulacijo samega miselnega, introspektivnega dela prevajalskega postopka.

Kakšen je dober prevod, je kompleksno vprašanje, na katerega se ne da preprosto

odgovoriti. Pri strojnih prevajalnikih je odločilen podatek, koliko sprememb in

popravkov potrebuje prevod (čeprav zna prevajalnik tudi sam zaznati nekatere napake

in sam ponuja načine, kako se izogniti napakam), da ustreza prevajalcu, bralcu ali

naročniku in čas, ki ga pri tem porabimo (Ilič, Golob, Čurić, 1999). Pred tem merilom

se slovenski uporabnik strojnega prevajanja spopade še z večjo oviro. Širše uporabnih in

prosto dostopnih strojnih prevajalnikov pri nas namreč še ni. Na srečo so nekatera

orodja za pridobivanje slovenskih jezikovnih virov in jezikovni viri drugih jezikov

dostopni v tujini ali celo brezplačno na internetu.

Uporabnost sistemov strojnega prevajanja pa je odvisna tudi od drugih dejavnikov, med

katerimi je treba posebej upoštevati izhodiščno besedilo samo. Da se izognemo

nepotrebnim napakam, je priporočljivo izhodiščno besedilo najprej pripraviti (ali

prenesti v nadzorovani jezik), pri čemer moramo paziti na enostavno stavčno strukturo

in manjši obseg besedila, ki gre v prevod. Besedila ne smejo imeti napak pri črkovanju

(te so lahko posledica nenatančnega skeniranja dokumenta), slovničnih napak,

neslovničnih struktur in leksikalnih dvoumnosti.

31

Prevajalniki so uporabni predvsem pri besedilih z določenega področja, za katera mora

biti v računalnik vnesena tudi vsa potrebna terminologija (tudi ţargonski izrazi), ki se v

takšnih besedilih velikokrat ponavlja. Stavčna struktura takšnih besedil navadno ni

zapletena oz. bi jo lahko laţje prilagodili.

Ob nepravi uporabi se lahko strojni prevajalnik res izkaţe za zamudnega. Vseeno

uporabniki počasi začenjajo sprejemati prednosti strojnega prevajanja pri enostavno

strukturiranih besedilih, saj je uporabno tudi za preverjanje besedila.

Strojno prevajanje je dostopno tudi na internetu. Uporabniki lahko v določenem

obdobju uporabljajo poskusne različice strojnih prevajalnikov ali pa kot stalni

uporabniki izkoristijo streţniško ponudbo (Systran Logos, GLOBALink).

Dodaten znak velikega vpliva interneta je naraščanje programov za strojno prevajanje

spletnih strani, elektronske pošte in pripetih dokumentov ter klepetalnic. Nekatera

orodja lahko za uporabo strojnih prevajalnikov in pomnilnikov prevodov jezik

izhodiščnega besedila priredijo nadzorovanemu jeziku.

Strojne prevajalnike uporabljajo tudi poslovni ljudje, in sicer za prevajanje glavnega

pomena dokumentov, elektronske pošte, časopisnih člankov, poslovnih pisem; koristni

so pri izbiri besedil, ki potrebujejo prevod strokovnjaka, za posredovanje informacij, ki

spremljajo izhodiščno besedilo ter za izdelavo prevodov kot polizdelkov za nadaljnjo

uporabo.

V zadnjem času se vedno pogosteje pojavlja teţnja po zdruţevanju strojnih

prevajalnikov s pomnilniki prevodov. Translator's Workbench je danes na voljo z

integriranim sistemom za strojno prevajanje podjetja Logos, ki vskoči pri vseh

prevodnih enotah, ki nimajo ustreznic v pomnilniku prevodov. Obratno tudi vse več

komercialnih sistemov za strojno prevajanje (npr. Langenscheidt) ponuja komponento

za arhiviranje strojno prevedenih in popravljenih stavkov, ki (kot pomnilnik prevodov)

sluţijo kot priporočilo ob novih prevodih. Pri nas komercialni prevajalnik PRESIS, ki

32

ima vgrajen tudi pomnilnik prevodov, prevaja iz nemščine v slovenščino, angleščine v

slovenščino in slovenščine v angleščino).

Podjetja se zavedajo potenciala strojnega prevajanja, zato se v bliţnji prihodnosti

obetajo nove, izboljšane verzije in sveţe ideje. V Singapurju, na primer, je bil ţe leta

1995 lokalno razvit sistem za prevajanje iz angleščine v kitajščino, malajščino,

japonščino in korejščino, ki ga pregledujejo poklicni prevajalci. Sistem omogoča

prevajanje ogromnih količin dokumentov za naročnike z vsega sveta, ponuja pa tudi

lokalizacijo podjetjem, ki razvijajo programsko opremo za kitajsko govoreči del trţišča

(Hutchins, 1999).

5.2 Računalniško podprto prevajanje

Računalniško podprto prevajanje (ang. CAT – Computer-Aided Translation) predstavlja

drugo vejo prevajalskih računalniških tehnologij, ki se je razvila s prevlado osebnih

računalnikov.

Uporaba teh orodij olajšuje in pospešuje, optimizira in zniţa stroške prevajalskega

postopka. Ti programi nam sluţijo za podporo referenčnega dela, tj. iskanja po

slovarjih, vzorčnih besedilih, terminoloških bazah. Med orodja za računalniško podprto

prevajanje v širšem smislu sodijo vse jezikovne tehnologije, ki prevajalcu sluţijo kot

pripomoček na poti do prevoda, se pravi tudi črkovalniki, tezavri, elektronski slovarji in

drugi elektronski podatkovni viri, v oţjem pomenu pa predstavljajo pomemben korak na

tem področju predvsem programi za izdelavo in vzdrţevanje terminoloških bank ter

programi s pomnilnikom prevodov (Vintar, 2001).

5.3 Pomnilniki prevodov

Po definiciji skupine strokovnjakov za standarde jezikovnega inţeniringa EAGLES

(Expert Advisory Group on Language Engineering Standards) je pomnilnik prevodov

»večjezični besedilni arhiv, ki vsebuje (segmentirana, poravnana, razčlenjena in

klasificirana) večjezična besedila in dovoljuje shranjevanje besedil in iskanje po njih

33

glede na različne pogoje« (Peterlin, 2002). Natančneje pa pomnilnik prevodov opiše

Špela Vintar (1998): »Pomnilnik prevodov je podatkovna zbirka prevodnih enot,

navadno povedi ali krajših delov besedila, ki so v izvirniku in prevodu shranjeni v

pomnilnik in so ob morebitni ponovitvi enakega ali zelo podobnega dela besedila na

razpolago za ponovno uporabo.«

Pomnilnik prevodov je lahko integriran v urejevalnik besedil, lahko pa ima lastno

delovno namizje, v katerega uvozimo dokument, ki ga ţelimo prevesti. Navadno obsega

še orodje za izdelavo in upravljanje terminoloških enot, komponento za vzporejanje, s

katero pomnilnike ustvarjamo iz ţe prevedenih besedil, preverjanje črkovanja, strojno

prevajanje, lahko pa ima tudi statistični program, s katerim lahko ugotovimo tako

imenovan dejavnik ponavljanja v besedilu. Ta nam pove, kako pogosto pride do

ponovitev, kar nam je v pomoč pri izbiri primernega prevajalskega postopka in orodja.

To orodje nima vgrajenih modulov za oblikoskladenjsko analizo prevodnih enot, niti

lastnih leksikonov, saj deluje na jezikovno neodvisnem principu, kar pomeni, da ne

zaznava podobnosti pomenov. Sposobno je prepoznavati podobnost na ravni besed ali

besednih nizov, zato je uporabno za vse jezikovne pare oz. za vse jezike, za katere je

zagotovljena znakovna podpora. Program med prevajanjem v ozadju išče enake

(popolni zadetek, ang. exact match) ali podobne enote (megleni zadetek, ang. fuzzy

match), ki jih prevajalcu samodejno ponudi. Podobnost je odvisna predvsem od števila

besed, ki se ujemajo v obeh prevodnih enotah, in besednega reda. Prag ujemanja lahko

določi prevajalec sam.

Ti programi se v svetu najhitreje uveljavljajo v velikih industrijskih podjetjih z

mednarodno dejavnostjo in drţavnih institucijah, kjer se prevajajo velike količine

besedil z istega področja in kjer se ţe prevedena besedila pogosto posodabljajo in

izdajajo na novo (npr. navodila za uporabo, uporabniški priročniki, dokumenti

mednarodnih in drţavnih upravnih organov). Shranjene prevodne enote pa so dragocen

jezikovni vir za prihodnje delo (za korpus ali (pol)samodejno pridobivanje

terminologije) terminologov in prevodoslovcev.

34

5.4 Terminološki programi

Spreminjajoče se terminologije, zaradi nenehnega razvoja strokovnih in drugih področij,

pogosto ne more spremljati ne slovaropisje ne prevajalec. Prevajanje besedil s področij

kot so proizvodnja, energija, pravo, medicina idr. je lahko zato zelo naporno, saj je

iskanje izrazov in njihovih prevodov lahko dolgotrajno in neuspešno. Veliko izrazov je

moč najti na internetu in v drugih javnih medijih, terminologija pa je lahko v lasti

izdelovalca terminološke baze oz. naročnika prevoda in tako zaščitena z avtorskimi

pravicami. Prevajalec ali skupina prevajalcev, ki večinoma prevajajo besedila

določenega področja, si zato sami ustvarjajo terminološko bazo, ki jim v naslednjih

prevodih zagotavlja tudi enotnost pri izbiri izrazov. Delajo pa lahko tudi na različnih

jezikih, saj lahko terminološki program za posamezen izraz shranjuje večjezične

prevodne ustreznice (ItoCAT, 2002).

Terminološki programi so orodja za izdelavo in vzdrţevanje terminologije. Imajo vlogo

skladišča, kamor se zbirajo in shranjujejo izhodiščni in ciljni izrazi za kasnejšo uporabo

v prevodu. Hranijo lahko neomenjeno število terminoloških vnosov. Tehnike

shranjevanja in prikazovanja izrazov pa so različne od programa do programa. Ta

(lahko) vsebuje orodja, ki (Ibid, 2002):

strukturirajo, posodabljajo in povezujejo vnose,

o omogočajo preproste funkcije iskanja,

o omogočajo konceptualni prikaz popolnih in meglenih zadetkov,

o podpirajo shranjevanje grafičnih prikazov,

o omogočajo samodejno vnašanje izrazov v urejevalnik besedil

z jezikovno analizo izhodiščnega in ciljnega besedila prepoznajo in izločijo

izraze za uvoz v terminološki program,

o vključujejo tudi slovarsko upravljanje terminologije,

o podatkovno bazo izvozijo in uvozijo v druge aplikacije.

35

V nekaterih pogledih so zelo podobni pomnilnikom prevodov:

Podpirajo vse jezike, za katere je zagotovljena znakovna podpora, saj je iskanje

tudi tu pogojeno s podobnostjo besed.

Omogočajo globalno iskanje (iskanje tudi po delih izraza), megleno iskanje

(prikaţe se kazalo besednih zvez, ki poleg korena iskane besede vsebuje tudi

tvorjenke, oblikoslovne različice besed ipd.) in filtriranje (prikaz vnosov po

merilih, ki jih določi uporabnik).

Omogočajo doslednost in enotnost.

Terminološki vnosi so opremljeni s podatki o vnašanju (vnašatelj, datum vnosa, datum

spremembe, področje, kje v besedilu se izrazje nahaja itn.) in o izrazu samem (o rabi,

obliki, lastnostih, definiciji idr.).

Terminološka baza je ob nakupu prazna in neuporabna, dokler vanjo ne vnesemo

terminoloških vnosov. Čas, ki ga potrebujemo za vnašanje izrazov, lahko skrajšamo s

predpripravo enojezične baze, ki ji samo dodamo prevodne ustreznice.

Prevajalec lahko uporablja terminološko bazo kot dopolnilo pomnilniku prevodov ali

drugim jezikovnim virom. Podjetjem, ki se resno ukvarjajo s prevajanjem, pomeni

takšen terminološki program dragocen jezikovni vir.

5.5 Strojno simultano prevajanje govora

Ideja, kako uporabni bi bilo, če bi imeli na voljo prevajalski stroj, je zelo stara. Prvi

koraki v tej smeri so bili narejeni v letih po drugi svetovni vojni. Tako je takrat

Američan Warren Weaver zapisal: "Pred seboj imam besedilo v ruščini, vendar se bom

pretvarjal, da je v resnici zapisano v angleščini in zakodirano s čudnimi simboli. Vse,

kar moram narediti, je razbiti kodo, da dobim informacijo, ki jo vsebuje besedilo."

(Arnold, 1994) Takšen pogled na strojno prevajanje in razlike med jeziki je seveda zelo

preprost, vendar je Weaver s tem spodbudil raziskave na tem področju in leta 1954 je

36

bila demonstracija prototipa angleško-ruskega sistema strojnega prevajanja pisanega

besedila.

Začetnega optimizma glede strojnega prevajanja besedila je bilo konec s poročilom

ALPAC-a (Automatic Language Processing Advisory Committee) leta 1966, ki je

ugotavljalo, da to področje ni perspektivno in da zahteva preveč stroškov glede na

končno doseţeno kakovost produkta. Posledica je bila, da ameriška vlada ni bila več

pripravljena financirati raziskav s tega področja, delo so nadaljevale le redke skupine

zunaj ZDA.

V sedemdesetih so se vendarle zgodili nekateri pomembni premiki: zgrajena sta bila

Systran za prevajanje besedil med ruščino in angleščino (za potrebe ameriškega

letalstva) ter Meteo za prevajanje vremenskih napovedi. V Evropi so naredili angleško-

francosko verzijo Systrana.

Pravo prebujenje tehnologije strojnega prevajanja besedila pa se je zgodilo v

osemdesetih. Pomembnejši projekti na tem področju so bili evropski Eurotra, na

Japonskem Mu, v ZDA pa t.i. Knowledge-Based Machine Translation. Nastajati so

začeli tudi nekateri komercialni sistemi.

V poznih osemdesetih in začetku devetdesetih se je za področje strojnega prevajanja

besedila začelo zanimati veliko podjetij, med pristopi se razvija statistično strojno

prevajanje besedil. V tem času pa se začne tudi zanimanje za strojno simultano

prevajanje govora, ki je veliko zahtevnejše in se, kot bomo videli v nadaljevanju,

bistveno razlikuje od strojnega prevajanja besedil.

V poznih devetdesetih lahko opazujemo strojno prevajanje besedil na internetu, širjenje

uporabe raznih elektronskih pripomočkov za prevajanje besedil, tudi pri nas (Hirci,

2003). Med pristopi se začnejo razvijati na primerih temelječi sistemi strojnega

prevajanja besedila (ang. example-based machine translation). V letu 2002 dobimo prvi

večji strojni prevajalnik besedil tudi za slovenščino: podjetje Amebis predstavi

slovensko-angleški prevajalni sistem Presis (Romih, Holozan 2002), poskuse

37

statističnega strojnega prevajanja besedil prav tako iz slovenščine v angleščino delajo

tudi na Fakulteti za računalništvo in informatiko v Ljubljani in Inštitutu Joţef Stefan

(Vičič, Erjavec, 2002).

Ustrezni jezikovni viri so osnova za izdelavo sistemov strojnega simultanega prevajanja

govora, vendar je najprej potreben temeljit premislek o vrsti in velikosti teh virov, o

podatkih, ki naj jih vsebujejo, o zagotavljanju njihove kakovosti, o njihovi usklajenosti s

podobnimi viri za tuje jezike.

5.6 Razlike med strojnim simultanim prevajanjem govora in strojnim

prevajanjem besedila

Sistemi strojnega simultanega prevajanja govora se v marsikaterem pogledu razlikujejo

od sistemov strojnega prevajanja pisanega besedila. Prva pomembna razlika je, da mora

sistem strojnega simultanega prevajanja govora najprej razpoznati govor (tj. znati

prevesti zvok v takšno pisno obliko, kot to naredi človek), šele nato lahko sledi govorno

orientirano prevajanje (ki pa je zaradi lastnosti govorjenega jezika, ki jih opisujemo v

naslednjem odstavku, prav tako drugačna, zahtevnejša naloga kot strojno prevajanje

besedila), potem pa je treba prevedeno besedilo ponovno pretvoriti v zvok. Sistemi

strojnega simultanega prevajanja govora so torej sestavljeni iz treh osrednjih modulov:

razpoznave, govorno orientiranega prevajanja, sinteze (Hoege, Miksić, 2002). To pa

pomeni veliko dodatno oviro za uspešnost strojnega simultanega prevajanja govora, saj

je povsem natančna razpoznava zelo teţavna, zaradi česar se lahko ţe na tej ravni

vnesejo napake. Poleg tega so v besedilu z ločili podane nekatere informacije o skladnji

in prozodiji, ki se pri razpoznavi govora izgubijo.

Razlike med govorno orientiranim strojnim prevajanjem in strojnim prevajanjem

besedila pa so pogojene tudi z razlikami med pisnim in govorjenim jezikom.

Primerjalne raziskave obeh (Wiebe, 1996) so pokazale, da v govoru ljudje posredujejo

več informacij implicitno, kar se kaţe v veliko večji pogostosti rabe zaimkov in

nedokončanih stavkov. Prvo predstavlja problem v primerih, ko se v jezikih, med

katerima prevajamo, zaimek ne ujema, npr. ang. "I saw a cat. It was crossing the

38

street.", slovenjeno. "Videl sem mačko. Prečkala je cesto." (to je problem tudi pri

strojnem prevajanju besedila). Poleg tega najdemo v govoru: napačne začetke, pomote

pri pregibanju besed (npr. vprašal sem vam namreč), ponavljanje, izpuste, obotavljanje,

mašila (npr. eee, mhm) (Kay, Gawron, Norvig, 1994).

Kay in sodelavci (1994) navajajo, da je takih elementov pri pazljivem govoru

povprečno 15 %, lahko pa tudi več kot polovica. Simultani prevajalci ne prevajajo vseh

teh elementov dobesedno, ampak samo, če je to smiselno, in enako pričakujemo od

strojnega simultanega prevajalnika govora. Zaradi vsega tega je naloga strojnega

simultanega prevajanja govora bistveno zahtevnejša in tudi bistveno drugačna od naloge

strojnega prevajanja besedila. Jezikovni viri, namenjeni za razvoj govorno orientiranega

strojnega prevajanja, morajo zato izhajati iz govorjenega jezika in ne iz zapisanega

besedila.

39

6 GOVORNE TEHNOLOGIJE

Govorna tehnologija je v svetu ţe dobro uveljavljena. Vključuje sisteme prepoznavanja

govora, sinteze govora, govornega dialoga in strojnega simultanega prevajanja govora.

Predvsem sinteza in prepoznavanje govora nezadrţno prodirata v naše ţivljenje. Ob

narekovalnih sistemih, ki so najbolj vidni predstavnik uporabe te tehnologije, je uporaba

govorne tehnologije danes praktično prisotna povsod (avtomobilska industrija, mobilne

naprave, govorni portali, glasovno prebiranje elektronske pošte, vojaška industrija). Ker

je bilo v preteklosti izvedenih največ raziskav za angleški jezik, je uporaba govorne

tehnologije najbolj razširjena prav v drţavah tega govornega področja. V slovenskem

prostoru še ni bilo pravega preboja na področju uporabe govorne tehnologije v

komercialnih sistemih. Trenutno obstajata samo sistem M-vstopnica, ki omogoča

rezervacijo kino vstopnice za nabor filmov tekočega dneva, ter Vida - virtualna davčna

pomočnica.

6.1 Računalniki in naravni jezik

Naravni jezik pomeni najpomembnejšo obliko komuniciranja med ljudmi. Razumevanje

naravnega jezika, ko je besedilo z vneseno v računalnik, zadeva dve področji:

samo razumevanje naravnega jezika in

prevajanje (iz enega v drug naravni jezik).

Najstarejši in najpreprostejši sistem za prepoznavanje naravnega jezika je ujemanje

besed. Bistvo je prepoznavanje specifičnih ključnih besed v vhodnem besedilu. Ključne

besede se spreminjajo od besed do fraz in celih stavkov. Tak način ne izvede analize, s

katero bi lahko ugotovili, kako določene besede ali fraze vplivajo druga na drugo in

tako dajo besedilu spremenjen pomen.

Sistem za prepoznavanje naravnega jezika na osnovi sintakse in semantike za

prepoznavanje uporablja kombin

Univerza v Mariboru - COnnecting REpositories · 2017. 11. 27. · Nenazadnje pa so jezikovne...

Documents

GLAVNA TEMA - SIQ...letos gostila IEC zasedanje tehničnega odbora TC 61, ki pokriva varnost gospodinjskih in podobnih aparatov, in nenazadnje tudi v infrastrukturi kakovosti, ki jo

MNOGOTERI OBRAZI TRAVME IN VZPOSTAVLJANJA RAVNOVESJA · 2018. 3. 20. · integracije travme ipd. Nenazadnje bi želela opozoriti tudi na pomembnost drugega dela naše naslovne teme

18...kotloma kapacitete 12 in 25 t/h, temperature 250 C Napajalni rezervoar za parna kotla 5 RAZISKAVE IN RAZVOJ Na prodajnem programu CC Mastrov se zaveda- mo, da je plastika nepogrešljiv

^ Wd D Z îìíô KAJ KJE KDAJarhiv.nd-mb.si/nd/KKK_september_2018.pdfmogočen, bleščeč in lepo zavit instrument je resnično nepogrešljiv v vsaki resni koncertni dvorani. Ob tem

VPLIV TRŽENJA NA MAJHNO DRUŽINSKO PODJETJE · trženja in prakso s posebnim poudarkom na trženjskem spletu, tržnih raziskavah in nenazadnje izdelkih oz. storitvah glede na to,

MAREC 2017 - City MagazineFantje, ki so z vrhunsko scensko produkcijo in kakovostnimi koreografijami pripomogli k sprejemanju striptiza kot oblike zabave in nenazadnje tudi športa,

Albina Nećak Lük Bralna pismenost v razmerah jezikovnega ... · PDF file•Kritična pismenost: uvid v razporeditev moči in virov v družbi ter orodje za ustrezno vplivanje na družbeno

UNIVERZA V LJUBLJANI EKONOMSKA FAKULTETA · PDF filepredvideti dolo čene rezultate evolucije. Nenazadnje pa je teorija iger vedno bolj odlo čujo ča v vojnih konfliktih in spopadih

Analiza govorno jezikovnega statusa naglušnega otrokapefprints.pef.uni-lj.si/2570/1/Simona_Erjavec_Diplomsko_delo.pdfiste besedne družine, sopomenk, protipomenk, nadpomenk in podpomenk

RAZVOJ IN NA ČRTOVANJE PROCESA IZDELAVE …diplome.fov.uni-mb.si/mag/13061Mohoric.pdf · 4.2.2 Uporaba FMEA metode ... nenehnega konkuren čnega boja in nenazadnje neizmernih poslovnih

KATALOG ZNANSTVENE E-PUBLIKACIJE ... - Fakulteta za upravo · podiplomski ravni, za pripravo na strokovni izpit iz upravnega postopka ter nenazadnje uradnim osebam in strankam pri

Učni načrti - University of Maribor · Učni načrti Obvezni predmeti . ... jezikovnega sistema in ločevanja med jezikovnimi ... Resumos. Porto Alegre: PUCRS, 2007, str. 75

Kako dobro nas sončna očala ščitijo4 Povzetek Sončna očala so zaščitni znak filmskih junakov, za mnoge od nas pa so postala tudi nepogrešljiv modni dodatek. Krožijo številni

PROGRAM PRAVNEGA IN JEZIKOVNEGA DELA ......3 Konvencija o varstvu človekovih pravic in temeljnih svoboščin, spremenjena in dopolnjena s protokolom št. 11 ter z dodatnim protokolom

Historični seminar 8 - ZRC SAZUhs.zrc-sazu.si/Portals/0/sp/hs8_n/hs8-5.pdf82 nemškega jezikovnega področja najdemo na vzhodu tako imenovana bavar-ska, na zahodu pa alemanska narečja.3

RIMSKO’PRAVO’ · 2012. 3. 18. · 1 RIMSKO’PRAVO’ " ubi’societas’ibi’ius’–kjerjedružbajepravo! pravojenek!nepogrešljiv!element!dužbe.To!pravo!izhajaiz! družbe,sepa!vanjo!vrača!in!jo

Mija Michelizza: Splet z jezikovnega in jezikoslovnega vidika

UNIVERZA V LJUBLJANI...učni načrt za športno vzgojo v prvem triletju s standardi, ki veljajo pri nas, nato smo opisali poljski učni načrt s področja gibalnih dejavnosti, nenazadnje

Duhovno potovanje v dolino bosanskih piramid in predavanja ... 9_16.pdfološki park: Bosanska piramida Sonca« — pa nenazadnje omogodamo tudi na- daljnja odkopavanja v tunelih in

Kratkočasnik April 2016/17 KRATKOASNIKrezervaoslasko.splet.arnes.si/files/2017/05/Kratkočasnik...bogatimo svoje razmiljanje in svoj besedni zaklad. Nenazadnje se ob knjigi tudi umirimo,