16
KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE Janja Sterle Živa Malovrh

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

  • Upload
    mateja

  • View
    69

  • Download
    0

Embed Size (px)

DESCRIPTION

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE. Janja Sterle Živa Malovrh. UVOD. Predstavitev teme Izbira gradiva Zgraditev korpusa Označevanje besedil Obdelava s programom Wordsmith Izdelava glosarja. IZBIRA TEME. Predstavitev asist. Senje Pollak Področje je že določeno. IZBIRA GRADIVA. - PowerPoint PPT Presentation

Citation preview

Page 1: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJEJanja SterleŽiva Malovrh

Page 2: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

UVOD

•Predstavitev teme•Izbira gradiva•Zgraditev korpusa•Označevanje besedil•Obdelava s programom Wordsmith•Izdelava glosarja

Page 3: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

IZBIRA TEME

•Predstavitev asist. Senje Pollak•Področje je že določeno

Page 4: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

IZBIRA GRADIVA

•Izhodišče članki, doktorske disertacije in diplomske naloge v angleščini

•15 člankov, 4 magistrske naloge, 11 doktorskih disertacij

•Slovenščina: 43 člankov, 8 diplomskih nalog, 3 magistrske naloge, 6 doktorskih disertacij

•13 povzetkov in njihovih angleških prevodov•Zahvala asist. Senji Pollak za pomoč pri

zbiranju gradiva•Najbolj dolgotrajna faza projekta

Page 5: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

TEŽAVE PRI PRIDOBIVANJU GRADIVA:Slovenščina•V knjižnici ni možna izposoja diplomskih

in magistrskih nalog in doktorskih disertacij

•Nekateri avtorji niso želeli prispevati svojih nalog – vprašanje avtorskih pravic

Page 6: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

TEŽAVE PRI PRIDOBIVANJU GRADIVA:Angleščina•Pomanjkanje angleških člankov in nalog v

knjižnicah•Na internetu je veliko člankov in nalog

plačljivih – vprašanje kredibilnosti vzorca•Veliko nalog sicer vsebuje temo jezikovnih

tehnologij, vendar le kot delovno metodo na nekem drugem področju

Page 7: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

OZNAČEVANJE BESEDIL• Primer:

<id_js n=''JT_2003_0001_0000_slv_Lart''/>id = identifikacijajs = Janja Sterlen = številkaJT = jezikovne tehnologijePR = prevajanjeRJ = računalniško jezikoslovjeKJ = korpusno jezikoslovje2003 = letnica izida besedila0001 = zaporedna številka besedila v korpusu0000 = specifična oznaka (po navodilih)Slv = slovenščina, Ang = angleščinaL = dolg, S = kratekart = članek, dip = diplomska nalogamag = magistrska naloga, dok = doktorat

Page 8: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

DELO Z WORDSMITHOM 1. del

•Združitev najinih korpusov s korpusom asist. Senje Pollak

•Obdelava korpusa s funkcijo stoplist, wordlist, concordance in key words za izluščenje eno- in večbesednih terminov v angleščini

•Pri tem sva si razdelili delo na polovico (ena od A – K, druga od L – Z)

Page 9: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

DELO Z WORDSMITHOM 2. del

•Iskanje prevodnih ustreznic najdenim angleškim terminom v slovenskem korpusu (uporaba programa Wordsmith)

•Strategije iskanja: „na slepo“, iskanje besedne zveze po jedrnih besedah, možnost angleškega imena v slovenskem korpusu s prevodom, iskanje prevodne različice po internetu

Page 10: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

VELIKOST KORPUSA IN GLOSARJA•85,426 angleških, 25,309 slovenskih

pojavnic•Skupaj 110,735 pojavnic

•Glosar: 197 angleških terminov, 229 slovenskih terminov

Page 11: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

IZDELAVA GLOSARJA•Izdelava excelove tabele in združitev obeh

delov•Razporeditev po abecednem vrstnem redu•Pojavitev nekaterih podvojenih elementov

(ko je npr. ena iskala „extraction“ in je našla „term extraction“, druga pa je iskala „term“ in našla „term extraction“) -> funkcija odstrani podvojitve

•Primeri več slovenskih prevodnih različic za en angleški termin (npr. „automatic term extraction“ = avtomatsko luščenje terminologije / samodejno luščenje izrazja)

Page 12: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

ISKANJE DEFINICIJ

•Iskanje po korpusu (redko – malo definicij)•Iskanje po internetu (google, wikipedia –

presenetljivo veliko definicij)•Približno 80 % najdenih definicij•Pri nekaj angleških terminih se definicija

podvoji (npr. „POS tagging“ / „part-of-speech tagging“)

•Pri nekaterih je definicija odveč (npr. „speech recording“)

•Za nekatere ni bilo mogoče najti definicije

Page 13: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

IZDELAVA GLOSARJA V MULTITERMU•Pretvorba excelove tabele s programom

Multiterm Convert•Uvoz datotek v Multiterm

Page 14: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE
Page 15: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE
Page 16: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

ZAKLJUČEK

•Uporabna vrednost•Praktična uporaba znanj, pridobljenih pri

predmetu•Programi za obdelavo so bili včasih

nezanesljivi•Večje poznavanje korpusov in programov

za njihovo obdelavo