8
Rječnik korpusne lingvistike Alat za konkordancije (concord tool) Današnji korpusi prevelikoga su opsega da bi se mogli pretraživali bez pomoći računala. Stoga se alat za konkordancije nalazi u samom središtu korpusne lingvistike i osnovni je alat korpusnoga jezikoslovca Alat za pretvaranje = conversion tool Alati za sravnjivanje (aligner) je alat koji obavlja sravnjivanje. ASCII (American Standard Code for Information Interchange) je jednostavni kôd za prikazivanje pismena engleskoga jezika preko brojčanog sustava CES (Corpus Encoding Standard) je skup standarda za kodiranje razvijenih u suradnji europskih projekata MULTEXT i EAGLES s američkim partnerom Vassar College i francuskim partnerom CNRS (Centre National de la Recherche Scientifique). CES je sastavni dio EAGLES smjernica. Namjena je CES-a da bude skup široko prihvaćenih standarda za kodiranje tekstova koji su standardi optimalni za korpusno zasnovane djelatnosti. Glavni je cilj CES-a određivanje minimalne razine kodiranja koju korpus mora zadovoljiti da bi se mogao smatrati standardiziranim u smislu deskriptivne reprezentacije (označavanje strukturalnih i tipografskih informacija), ali također i općenite arhitekture (ne bi li se postigla maksimalna prikladnost za uporabu u tekstovnim bazama podataka). CES također pokriva i transkribirane govorne tekstove. DTD (Document Type Definition) je jedinstveni propis koji definira koji se elementi, atributi i ostale karakteristike obilježavanja smiju pojaviti u dokumentu, kao i redoslijed njihovog pojavljivanja. Dakle, DTD je neka vrsta gramatike, skup sintaktičkih pravila za elemente u dokumentu.

definicijekl

Embed Size (px)

DESCRIPTION

dd

Citation preview

Jezini su resursi izvori jezinih tekstova, a sastoje se od korpusa i rjenika pohranjenima u digitalnome obliku tj

Rjenik korpusne lingvistike

Alat za konkordancije (concord tool) Dananji korpusi prevelikoga su opsega da bi se mogli pretraivali bez pomoi raunala. Stoga se alat za konkordancije nalazi u samom sreditu korpusne lingvistike i osnovni je alat korpusnoga jezikoslovca

Alat za pretvaranje = conversion tool

Alati za sravnjivanje (aligner) je alat koji obavlja sravnjivanje.

ASCII (American Standard Code for Information Interchange) je jednostavni kd za prikazivanje pismena engleskoga jezika preko brojanog sustava

CES (Corpus Encoding Standard) je skup standarda za kodiranje razvijenih u suradnji europskih projekata MULTEXT i EAGLES s amerikim partnerom Vassar College i francuskim partnerom CNRS (Centre National de la Recherche Scientifique). CES je sastavni dio EAGLES smjernica. Namjena je CES-a da bude skup iroko prihvaenih standarda za kodiranje tekstova koji su standardi optimalni za korpusno zasnovane djelatnosti. Glavni je cilj CES-a odreivanje minimalne razine kodiranja koju korpus mora zadovoljiti da bi se mogao smatrati standardiziranim u smislu deskriptivne reprezentacije (oznaavanje strukturalnih i tipografskih informacija), ali takoer i openite arhitekture (ne bi li se postigla maksimalna prikladnost za uporabu u tekstovnim bazama podataka). CES takoer pokriva i transkribirane govorne tekstove.

DTD (Document Type Definition) je jedinstveni propis koji definira koji se elementi, atributi i ostale karakteristike obiljeavanja smiju pojaviti u dokumentu, kao i redoslijed njihovog pojavljivanja. Dakle, DTD je neka vrsta gramatike, skup sintaktikih pravila za elemente u dokumentu.

EAGLES (Expert Advisory Groups on Language Engineering Standards) je projekt EU-a kojim je iskazana inicijativa Europske Komisije zaduene za ubrzano donoenje standarda za jezine resurse, sredstava za obradu znanja kroz formalizaciju jezika, jezike za obiljeavanje, razliite alate, te za vrednovanje resursa, alata i proizvoda.

Entitet (entity) je bilo koji proizvoljno odreen dio teksta kojemu se pridruuje neki proizvoljni naziv. (odnosi se na XML)

Ispravnost (well formednes) dokumenta: Obiljeeni dokument (tekst) je ispravan (well formed) ako ga parser korektno obradi, tj. ne javlja pogreku. (odnosi se na XML)

Jezini alati su aplikacije koje obrauju ili se slue postojeim resursima kako su definirani gore, ili tekstovima koji se upravo stvaraju.

Jezini korpus je zbirka jezinih odsjeaka koji su odabrani i sakupljeni prema eksplicitnim lingvistikim kriterijima upravo s ciljem da ine jezini uzorak.

Jezini resursi su izvori jezinih tekstova, a sastoje se od korpusa i rjenika pohranjenima u digitalnome obliku tj. u obliku elektronikoga teksta.

Jezik za obiljeavanje (markup language) skup je konvencija za obiljeavanje teksta, gdje je specificirano koje su oznake doputene, koje su obvezne, kako se oznake razlikuju od teksta, i to pojedine oznake znae.

Kljune rijei (KeyWords) su one pojavnice koje imaju neuobiajeno visoku estotu u odnosu prema nekom normativu. Normativ je obino referentni korpus nekoga jezika (npr. za engleski bi to mogao biti BNC, za hrvatski HNK). Do kljunih se rijei dolazi usporedbom dva popisa pojavnica. Kljune su rijei vrlo koristan nain za odreivanje karakteristika ili anra teksta.

Kodiranje (encoding) je nain na koji su informacije zapisane na raunalu.

Kodiranje pismena (character encoding) odnosi se na koritenje sustava za zapis pismena.

Kodiranje tekstova (text encoding) odnosi se na strukturalno (odlomci, reenice, naslovi itd.) i analitiko (gramatike kategorije, sintaktike kategorije itd.) zapisivanje teksta.

Kolokacije su karakteristina supojavljivanja obrazaca pojavnica. One su kombinacije stoernice i onih pojavnica koje se pojavljuju u njezinoj blioj okolini.

Komercijalni su proizvodi nastali na temelju istraivanja jezinih resursa jezinim alatima.

Kon-tekst (ponekad se naziva i situacijski kontekst) koji se sastoji od jezinoga ko-teksta i njegova odnosa prema izvanjezinim situacijama.

Ko-tekst se odnosi na lijevu i desnu tekstnu okolinu pojavnice u konkordancijskom retku.

Korpus (corpus) podrazumijeva zbir tekstova prirodnoga jezika sastavljen po stanovitu kriteriju.

Korpusna lingvistika u najirem smislu oznaava istraivanje jezika na osnovi korpusa tekstova, pri emu se danas obino podrazumijeva strojno izraenih korpusa.

Kosturni parsing (skeleton parsing) je manje detaljan pristup reeninoj analizi. Za razliku od potpunog parsinga, nije obiljeena unutranja struktura odreenih sastavnica, pa su imenske fraze obiljeene samo s oznakom N, bez osobina kao to je npr. pluralnost.

KWAL (Key-Word And Line) je oblik konkordancije koja doputa nekoliko redaka konteksta s lijeve i desne strane okoline.

KWIC (Key-Word In Context) je oblik konkordancije gdje se stoernice nalaze unutar unaprijed definirane lijeve i desne okoline.

Leksikon u korpusnoj lingvistici je gotovo sinonim za rjeniku bazu podataka, ali se podrazumijeva njegov strojno-itljiv oblik.

Lema je onaj oblik pod kojim bismo traili neku rije u rjeniku.

Lematizacija (lemmatisation) je svoenje pojavnica iz korpusa na njihove natuknike oblike, tj. svoenje razliitih pojavnica (lanova iste paradigme) na zajedniku lemu. Na primjer, pojavnice stol, stolova ili stolu bile bi svedene na lemu stol.

Metajezik je sustav koji opisuje ili definira druge jezike. Metajezik, za razliku od jezika ima otvoren skup oznaka.

Monitor korpus (monitor corpus) je takav korpus koji nije ogranien standardnim korpusnim parametrima (u prvom redu konanom veliinom i vremenskim rasponom tekstova u korpusu).

Neobiljeeni korpus (unannotated corpus) je korpus to se sastoji od tekstova kojima nije pridodana nikakva dodatna informacija. Tekstovi koji ine korpus zapisani su u obliku obinoga ASCII teksta (plain ASCII text) i ne sadre nikakve dodatne oznake.Obiljeavanje (annotation, mark-up) je pridodavanje dodatnih eksplicitnih informacija tekstu za raunalnu obradu tamo gdje su one implicitno prisutne osobi koja ita tekst. Pri obiljeavanju korpusa oznake se ubacuju iz odreenoga skupa oznaka, gdje oznake mogu biti ubaene u elektroniki zapis teksta u smislu obiljeavanja strukture i drugih osobitosti teksta za koje postoji potreba za obiljeavanjem.

Obiljeeni korpus (annotated corpus), nasuprot obiljeenom korpusu sadri razliite tipove strukturnih (naslov, odlomak, reenica itd.) i lingvistikih (gramatike kategorije, sintaktika struktura itd.) informacija.

Oznaavanje (tagging) je proces pridruivanja oznaka (tags) iz skupa ili popisa oznaka dijelovima teksta (pojavnica, reenica i sl.) koji su delimitirane jezine jedinice.

Oznaiva (tagger) je alat koji je sposoban automatskim putem ubacivati oznake u tekst.Oznaka (tag) je kd pridruen nekoj jedinici teksta i oznauje neku osobinu ili skup osobina koje pripadaju toj jedinici

Paralelni korpus (parallel corpus) je korpus koji sadri tekstove na vie od jednog jezika, a tekstovi su uzajamni prijevodi.

Parsing je postupak odvajanja reeninih dijelova i opisivanje relacija izmeu njih. Dakle, parsingom se odreuje sintaktika struktura reenice.

Part-of-speech (POS) oznaavanje je pridruivanje gramatike kategorije svakoj pojavnici u tekstu (ponekad se naziva gramatiko oznaavanje ili morfosintaktiko obiljeavanje).

Pisme = characterPojavnica (token) bi se mogla definirati kao sve ono to se nalazi izmeu dva pismena koja slue kao graninici, a ona pismena koja se nalaze izmeu graninika moraju biti iz abecede kojoj su pridodane znamenke i crtica. U literaturi Brown korpusa pojavnica je definirana kao: An individual word (token) () can be simply defined as continuous string of letters, numerals, punctuation marks, and other symbols (i.e. graphemes), uninterrupted by space () Prema tome u nizu: stol, stola, stol, stola, stol nalazi se pet pojavnica. Dakle, pojavnica je svako pojedinano pojavljivanje rijei u korpusu, pa bi se pod pojmom milijunski korpus podrazumijevao korpus od milijun pojavnica.

Popis pojavnica (WordList) je lista u kojoj je svaka pojavnica popraena podatkom o svojoj estoti (frekvenciji)

POS oznaiva (POS tagger) je alat s pomou kojega se obavlja automatsko POS oznaavanje

Potpunim se parsingom (full parsing) nastoji napraviti to detaljnija analiza reenine strukture. Uz odnose sastavnica reenine strukture obiljeeni su i morfosintaktiki opisi pojavnica.

Pozivanje na entitete (entity reference) je ubacivanje naziva entiteta na ono mjesto u tekstu gdje se treba nalaziti sadraj entiteta koji se zamjenjuje. Naziv entiteta razlikuje se od ostalih oznaka po tome to uvijek zapoinje s &, a zavrava s ;. (odnosi se na XML)

Pravilo predloka (template rule) ima uzorke (patterns) koji specificiraju dio stabla i zatim ga ispisuju ili obrauju uz pomo dodatnih instrukcija. (odnosi se na XML)

Preglednik (browser) je program namijenjen pregledavanju i prikazivanju raznovrsnih oblika datoteka (kao npr. HTML, XML itd.).

Pretvaranje = conversionRaunalna lingvistika je grana lingvistike koja koristi raunalne tehnike i koncepte za rasvjetljivanje lingvistikih i fonetskih problema.

Raunalni je korpus korpus koji je kodiran na standardan i dosljedan nain s nakanom da bude otvoren za raunalno pretraivanje.

Razlinica (type), nasuprot pojavnici je jedinstveni oblik pojavnice iz korpusa. Ili u literaturi Brown korpusa razlinica je definirana: A distinct word (type) can also be simply defined as a set of identical individual words, as defined above. Dakle, u nizu: stol, stola, stol, stola, stol nalaze se dvije razlinice: stol i stola.Referentni korpus (reference corpus) je vrlo veliki korpus koji se koristi za utvrivanje osnovnih karakteristika jezika.

Segmentacija na reenice (sentence segmentation, sentence boundary disambiguation) obavlja se ubacivanjem jedinstvenih nizova pismena, tj. graninih oznaka na poetak, odnosno na zavretak reenica u tekstu (u suvremenim shemama za obiljeavanje teksta to su nizovi i ).

SGML (Standard Generalized Markup Language) je meunarodni standard (iz 1986. godine) za definiranje aplikacijski i platformski neovisnih metoda za zapis tekstova u elektronikome obliku.

Skup oznaka (tagset, tag list) je popis svih moguih (potencijalnih) oznaka kojima se moe obiljeavati tekst.

Sravnjivanje (alignment) je povezivanje elemenata (reenica, fraza ili rijei) koje su uzajamni prijevodi. Sravnjivanjem se definiraju eksplicitne veza meu odsjecima tekstova paralelnoga korpusa.

Stoernica (headword) je u kontekstu konkordancija pojavnica koja se pretrauje. Najee se nalazi u sredini konkordancijskoga retka.

TEI (Text Encoding Initiative) je najvei meunarodni projekt u podruju definiranja standarda za elektroniku razmjenu ponajprije tekstovnih podataka pokrenut 1988. godine. Cilj je TEI-a bio napraviti smjernice za pripremu i razmjenu elektronikih tekstova kako za znanstvena istraivanja, tako i za irok raspon uporaba za potrebe jezinih tehnologija, pa i ire.

Tokenizaciju (tokenisation) je dovoenje korpusa u stanje u kojem su sve rijei-pojavnice identificirane i eksplicitno obiljeene.

Udaljeno obiljeavanje (stand-off mark-up, stand-off annotation) je nain obiljeavanja pri kojem se iz odvojenih dokumenata poveznicama (links) referira na odreeno mjesto u dokumentima u kojima se nalaze tekstovi na koje se oznake odnose. Poveznice iz polaznoga dokumenta jednoznano upuuju na specifino mjesto u dokumentu u kojem se nalazi tekst. Time se stvara hipertekstni oblik dokumenata, gdje poveznice imaju vie semantiku nego uobiajenu navigacijsku ulogu. Prednost je ovakvoga naina obiljeavanja to izvorni tekst ne mora sadrati nikakve oznake (osim strukturnih oznaka), jer se one nalaze u odvojenom dokumentu s vezama prema izvornome tekstu. Kod udaljenog obiljeavanja XML-om na obiljeene se odsjeke referira preko URI-ja (Uniform Resource Identifier), ciljanoga izvora (target resource), proirenoga pokazivaa (extended pointer) koji identificira element i tamo gdje je potrebno odabranog niza pismena iz sadraja toga elementa.

Ureiva teksta (text editor) je program s pomou kojega je mogue upisati (input), izmijeniti i ispisati (output) neki tekst.

Usporedba s uzorkom (pattern matching) je tehnika kojom se pristupa vorovima iz izvora. Usporedba s uzorkom predstavlja jednostavan jezik za postavljanje upita (query language) ija je svrha identifikacija vorova u XML dokumentu. (odnosi se na XML)

Uzajamna obavijesnost, UO (Mutual Information, MI) je brojana vrijednost koja se izraunava usporeivanjem vjerojatnosti supojavljivanja dviju pojavnica bilo koje jezine jedinice (ili bilo kojih vrijednosti gramatikih kategorija u korpusu, npr. vrsta rijei) zajedno s vjerojatnou da se pojave odvojeno.

Valjanost (validity) dokumenta: Obiljeeni dokument (tekst) je valjan (valid), ako je u skladu s pripadajuim DTD-om. (odnosi se na XML)

XML (eXtended Markup Language) je noviji (prva inaica 1998. godine) metajezik za obiljeavanje koji se koristi u korpusnoj lingvistici.

Zamjensko pisme (wildcard) zamjenjuje jedno ili vie pismena.

Zaustavan je popis (stop list) negativan rjenik, popis rijei koje se nee uzimati u obzir pri obraivanju.

Zbirka i arhiv se odnose na skup tekstova koji ne trebaju biti odabrani ili sakupljeni, ili odabiranje i/ili sakupljanje ne treba biti prema lingvistikim kriterijima.