Upload
mateja
View
69
Download
0
Embed Size (px)
DESCRIPTION
KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE. Janja Sterle Živa Malovrh. UVOD. Predstavitev teme Izbira gradiva Zgraditev korpusa Označevanje besedil Obdelava s programom Wordsmith Izdelava glosarja. IZBIRA TEME. Predstavitev asist. Senje Pollak Področje je že določeno. IZBIRA GRADIVA. - PowerPoint PPT Presentation
Citation preview
KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJEJanja SterleŽiva Malovrh
UVOD
•Predstavitev teme•Izbira gradiva•Zgraditev korpusa•Označevanje besedil•Obdelava s programom Wordsmith•Izdelava glosarja
IZBIRA TEME
•Predstavitev asist. Senje Pollak•Področje je že določeno
IZBIRA GRADIVA
•Izhodišče članki, doktorske disertacije in diplomske naloge v angleščini
•15 člankov, 4 magistrske naloge, 11 doktorskih disertacij
•Slovenščina: 43 člankov, 8 diplomskih nalog, 3 magistrske naloge, 6 doktorskih disertacij
•13 povzetkov in njihovih angleških prevodov•Zahvala asist. Senji Pollak za pomoč pri
zbiranju gradiva•Najbolj dolgotrajna faza projekta
TEŽAVE PRI PRIDOBIVANJU GRADIVA:Slovenščina•V knjižnici ni možna izposoja diplomskih
in magistrskih nalog in doktorskih disertacij
•Nekateri avtorji niso želeli prispevati svojih nalog – vprašanje avtorskih pravic
TEŽAVE PRI PRIDOBIVANJU GRADIVA:Angleščina•Pomanjkanje angleških člankov in nalog v
knjižnicah•Na internetu je veliko člankov in nalog
plačljivih – vprašanje kredibilnosti vzorca•Veliko nalog sicer vsebuje temo jezikovnih
tehnologij, vendar le kot delovno metodo na nekem drugem področju
OZNAČEVANJE BESEDIL• Primer:
<id_js n=''JT_2003_0001_0000_slv_Lart''/>id = identifikacijajs = Janja Sterlen = številkaJT = jezikovne tehnologijePR = prevajanjeRJ = računalniško jezikoslovjeKJ = korpusno jezikoslovje2003 = letnica izida besedila0001 = zaporedna številka besedila v korpusu0000 = specifična oznaka (po navodilih)Slv = slovenščina, Ang = angleščinaL = dolg, S = kratekart = članek, dip = diplomska nalogamag = magistrska naloga, dok = doktorat
DELO Z WORDSMITHOM 1. del
•Združitev najinih korpusov s korpusom asist. Senje Pollak
•Obdelava korpusa s funkcijo stoplist, wordlist, concordance in key words za izluščenje eno- in večbesednih terminov v angleščini
•Pri tem sva si razdelili delo na polovico (ena od A – K, druga od L – Z)
DELO Z WORDSMITHOM 2. del
•Iskanje prevodnih ustreznic najdenim angleškim terminom v slovenskem korpusu (uporaba programa Wordsmith)
•Strategije iskanja: „na slepo“, iskanje besedne zveze po jedrnih besedah, možnost angleškega imena v slovenskem korpusu s prevodom, iskanje prevodne različice po internetu
VELIKOST KORPUSA IN GLOSARJA•85,426 angleških, 25,309 slovenskih
pojavnic•Skupaj 110,735 pojavnic
•Glosar: 197 angleških terminov, 229 slovenskih terminov
IZDELAVA GLOSARJA•Izdelava excelove tabele in združitev obeh
delov•Razporeditev po abecednem vrstnem redu•Pojavitev nekaterih podvojenih elementov
(ko je npr. ena iskala „extraction“ in je našla „term extraction“, druga pa je iskala „term“ in našla „term extraction“) -> funkcija odstrani podvojitve
•Primeri več slovenskih prevodnih različic za en angleški termin (npr. „automatic term extraction“ = avtomatsko luščenje terminologije / samodejno luščenje izrazja)
ISKANJE DEFINICIJ
•Iskanje po korpusu (redko – malo definicij)•Iskanje po internetu (google, wikipedia –
presenetljivo veliko definicij)•Približno 80 % najdenih definicij•Pri nekaj angleških terminih se definicija
podvoji (npr. „POS tagging“ / „part-of-speech tagging“)
•Pri nekaterih je definicija odveč (npr. „speech recording“)
•Za nekatere ni bilo mogoče najti definicije
IZDELAVA GLOSARJA V MULTITERMU•Pretvorba excelove tabele s programom
Multiterm Convert•Uvoz datotek v Multiterm
ZAKLJUČEK
•Uporabna vrednost•Praktična uporaba znanj, pridobljenih pri
predmetu•Programi za obdelavo so bili včasih
nezanesljivi•Večje poznavanje korpusov in programov
za njihovo obdelavo