29
Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti

Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti

  • Upload
    tolla

  • View
    43

  • Download
    1

Embed Size (px)

DESCRIPTION

Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti. Pregled predavanja. Namen luščenja terminologije Statistične metode Metoda z vzorci Dvojezično luščenje Primeri Razprava. Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč) - PowerPoint PPT Presentation

Citation preview

Page 1: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti

Page 2: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Pregled predavanja Namen luščenja terminologije

Statistične metode

Metoda z vzorci

Dvojezično luščenje

Primeri

Razprava

Page 3: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč)

Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu.

Zunanji ponudnik storitev

Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.

Page 4: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč)

Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu.

Zunanji ponudnik storitev

Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.

Page 5: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Zakaj samodejno luščenje terminologije v svetu elektronskih besedil so termini “fižol v informacijskem pasulju” iskanje podatkov terminološke aplikacije v službi medjezikovnega posredovanja podpora slovarskemu delu osnova za semantično bogate aplikacije

odgovarjanje na vprašanja (QA) strojno prevajanje in tolmačenje (MT) rudarjenje znanja (DM, KE) semantični splet (SW)

Page 6: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

“Nepravo” luščenje terminov iskanje podatkov (IR) – indeksiranje dokumentov

namen: poiskati besede, ki naredijo dokument najbolj prepoznaven v

množici in po katerih se najbolj razlikuje od vseh dokumentov v

množici

tf-idf (Term Frequency – Inverse Document Frequncy, Salton & Yang 1973)

w i , j tf i , j log Nn i

Page 7: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

“Pravo” luščenje terminov iskanje vseh enot, ki se v specializiranem besedilu nanašajo na točno določeni

pojem, oziroma se njihova raba razlikuje od rabe v nespecializiranih besedilih

obravnava eno- in večbesednih enot

samodejnost (sistem poišče terminološke kandidate brez vnaprej podanih terminoloških slovarjev)

Page 8: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Statistične metode “ključnost” (keyness)(Ahmad 1992, Scott 1998) – primerjava relativne pogostosti med specialnim in

referenčnim korpusom

Primer: SK RK f(gnojenje) 11 27

N 10.000 100.000 rf = 4,07

“terminološkost” (termhood)(Ananiadou 1994, Heid 1999) – termini vsebujejo material, ki ga splošne besede ne (prevzeti termini iz klasičnih jezikov, izlastnoimenski termini, akronimi, izbrana ločila)Primer: ab-, auf-, ent-, anti-, bi-, mega-, mikro-, multi-, radial-, semi-, ad-, ex-, in-, ko-, pro-; -grad, -heit, -nis, -schaft, -tum, -ial, -gramm, -graph, -id, -ik, -tion, -taet, -um, -ator,...

Page 9: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Večbesedni termini: statistika asociacij

2 (Manning & Schütze 1999)

Page 10: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Statistika asociacij II medsebojna informacija (MI) (Church & Hanks 1990)

logaritem razmerij verjetja (LLR) (Dunning 1993)

Page 11: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 12: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 13: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 14: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 15: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 16: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 17: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Luščenje na podlagi oblikoskladenjskih vzorcev večbesedni termini sledijo ustaljenim oblikoskladenjskim vzorcem (P+S, S+Sg,

P+P+S,...)

razvrščanje terminoloških kandidatov glede na ključnost (rf) njihovih sestavnih delov

Primer:

center za krizno upravljanje = (0.149 + 0.06 + 0.66 + 0.15) / 4

slabost: poudarek na samostalniških frazah Bourigault (1992), Justeson&Katz (1995), Daille, Gaussier & Lange (1994), ...

Page 18: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 19: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Luščenje dvojezičnega slovarja iz vzporednega korpusa fosilni program Twente (Hiemstra 1998)

temelji na algoritmu Iterative Proportional Fitting Procedure (IPFP),

prevodni model ena-na-ena

za vsako besedo predlaga eno ali več prevodnih ustreznic skupaj s

statistično verjetnostjo

izboljšave: lematizacija, odstranjevanje praznih besed

Page 20: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Primer izluščenega leksikona

sprejeti sprejetje sprememba spremeniti------------------ ------------------ ------------------ ------------------adopted 0.45 adoption 0.94 amendments 0.54 amended 0.38approved 0.33 responsibilit 0.06 changes 0.21 will 0.17adoption 0.11 amendment 0.14 Health 0.16approval 0.10 Act 0.03 amending 0.03 Harmonized 0.02 evidence 0.03 devices 0.02 supplementing 0.03 medical 0.02 short 0.03 responsibilit 0.01 awaiting 0.03

spremljajocx spremljanje spricxevalo sprostiti------------------ ------------------ ------------------ ------------------accompanying 0.47 monitoring 1.00 referral 0.16 adapted 0.27responsibilit 0.16 issue 0.11 equestrian 0.27Institutions 0.16 attached 0.11 events 0.27800 0.07 changed 0.11 there 0.18regulates 0.05 veterinarians 0.11 free 0.01cost 0.03 attestations 0.11work 0.03 appointed 0.11begin 0.02 emergency 0.08

Page 21: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Iskanje prevoda – “ustreznice v žaklju” za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz

leksikona

jedrska elektrarna Černobil

nuclear 1.00 power 0.50plant 0.50

Chernobyl 1.00

Page 22: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Iskanje prevoda – “ustreznice v žaklju” za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz

leksikona

jedrska elektrarna Černobil

nuclear 1.00 power 0.50plant 0.50

Chernobyl 1.00

Nuclear power plant 2.00Power plant 1.00Chernobyl nuclear power plant 3.00

Page 23: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Dvojezični kandidatiSlovensko Angleško Ustreznost

doznih mej dose limits 1.49

nadzorovane jedrske fuzije controlled nuclear fusion 1.89

varstvo pred sevanjem radiation protection 2.00

mednarodnega termonuklearnega poskusnega

International thermonuclear experimental

2.49

poskusnega reaktorja experimental reactor 1.49

študenti in pripravniki Students and apprentices 1.50

izpostavljenost ionizirajočemu sevanju

emitting ionizing radiation 1.99

zdravstvenimi službami approved medical practitioners

0.75

izpostavljenih delavcev exposed workers 1.78

države članice Member states require 1.49

Page 24: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Težave

v slovenščini isti termini večkrat izluščeni v različnih sklonih neuspešno razlikovanje med “splošnimi” in “specifičnimi” termini

(enaka oblika, enaka pogostost!) slabši priklic za slovenščino interdisciplinarnost besedil

Page 25: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Dvojezično luščenje pri projektu Voicetran namen:

izboljšava prevajalnika in razpoznavalnika govora podpora terminografskemu delu na FDV

korpusi: mali vzporedni vojaški korpus (ca. 120.000 besed) malo večji enojezični korpus (NO, SV, RZ; 5,5 M besed)

oblikoskladenjsko označevanje in lematizacija: Erjavec IJS luščenje z oblikoskladenjskimi vzorci:

A N 2N Ng 1...

terminološkost: rf (primerjava s Fido)

Page 26: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Dvojezični leksikonair ### zračen 0.56 letalski 0.29 zrak 0.07 (null) 0.03 protioklepen 0.02 zagotavljanje 0.01 air-base ### polkoven 0.38 letalski 0.25 dodaten 0.23 vtp 0.14 air-conditioning ### klimatski 0.87 naprava 0.13 air-defence ### rkb-obramba 0.55 namenski 0.45 air-raid ### zatuliti 0.50 oznanjati 0.50 air-space ### zračen 0.68 prostor 0.32 airbase ### letališče 0.82 zagotovljen 0.18 airborne ### letalski 0.83 enota 0.17 airbus ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 aircraft ### letalo 0.91 letalstvo 0.05 teritorialec 0.05

airfield ### gradnja 0.50 letališki 0.50 airlift ### zračnotransp 0.50 cougar 0.50 airline ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 airplane ### kobilarna 0.13 lipica 0.13 najem 0.13 počastitev 0.13 letalo 0.13 prerazporedit 0.13 obnova 0.11 kritje 0.11airport ### letališče 1.00 airspace ### zračen 1.00

Page 27: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti

Iskanje prevodnih ustreznic “ustreznice v žaklju” možno dvojezično luščenje iz nevzporednih (primerljivih) korpusov

dvojezični leksikon

kandidati L1

kandidati L2

dvojezični kandidati

Page 28: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti
Page 29: Luščenje terminologije iz korpusov:  od osnov do umazanih podrobnosti