36
Medjezično iskanje (MI) 2 Prevajanje iskalnih zahtev s slovarji, prevajanje iskalnih zahtev s korpusi, avtomatska gradnja jezikovnih virov.

Medjezično iskanje (MI) 2

  • Upload
    anise

  • View
    42

  • Download
    2

Embed Size (px)

DESCRIPTION

Medjezično iskanje (MI) 2. Prevajanje iskalnih zahtev s slovarji, prevajanje iskalnih zahtev s korpusi, avtomatska gradnja jezikovnih virov. MI s prevajanjem iskalnih zahtev P revajanje iskalnih zahtev s slovarji. P revajanje iskalnih zahtev s slovarji. - PowerPoint PPT Presentation

Citation preview

Page 1: Medjezično iskanje (MI) 2

Medjezično iskanje (MI) 2

Prevajanje iskalnih zahtev s slovarji,prevajanje iskalnih zahtev s korpusi,avtomatska gradnja jezikovnih virov.

Page 2: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 2

MI s prevajanjem iskalnih zahtev

Prevajanje iskalnih zahtev s slovarji

Page 3: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 3

Prevajanje iskalnih zahtev s slovarji

Potrebujemo dvojezični e-slovar. Različne oblike:

od enostavnega glosarja z dvojezičnimi pari besed do pravega računalniškega leksikona s sintaktičnimi

in semantičnimi informacijami. Za vsako besedo (razen blokiranih) iz iskalne

zahteve poiščemo prevod v ciljnem jeziku. S prevedeno iskalno zahtevo opravimo

enojezično iskanje dokumentov v ciljnem jeziku.

Page 4: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 4

Prevajanje iskalnih zahtev s slovarji

V postopek že vgrajena nenatančnost, izvirajoča iz ohlapnosti naravnega jezika:

veliko besed nima natančnega prevoda, ali je prevodov več, z zelo različnimi pomeni.

Vključevanje prevodov z napačnimi pomeni zelo zniža natančnost iskanja.

Page 5: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 5

Izpeljava eksperimentov s prevajanjem iskalnih zahtev

Klasični pristop: Imamo iskalne zahteve v jeziku b in

dokumente v jeziku b; znani so relevantni dokumenti za iskalne zahteve.

Postopek: enojezično iskanje v jeziku b (rezultat za

primerjavo z MI), ročno prevajanje iskalnih zahtev v jezik a, avtomatsko prevajanje iskalnih zahtev v jezik b, enojezično iskanje v jeziku b z isk. zahtevami iz 3.

koraka – v resnici medjezično iskanje, primerjava rezultatov 1 in 4.

Page 6: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 6

Prevajanje iskalnih zahtev s slovarji

Osrednji problemi MI: prevajanje polisemih besed, prevajanje besednih zvez, prevajanje strokovnih izrazov, pomanjkanje jezikovnih virov, neprimerljivost rezultatov, dobljenih z

različnimi metodami.

Page 7: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 7

Prevajanje iskalnih zahtev s slovarjiProblem polisemije: Beseda v izvornem jeziku ima lahko veliko različnih

pomenov, prevod vsakega od pomenov ima lahko tudi v ciljnem jeziku različne pomene.

Primer: beseda “fly”. V angleščini 8 pomenov in 13 možnih španskih

prevodov; njihovo prevajanje nazaj v angleščino da 38

različnih besed. Posledica iskanja z enostavnim prevajanjem brez

razreševanja polisemije je kombinatorična eksplozija pomenov in rezultati iskanja z zelo nizko natančnostjo.

Page 8: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 8

Prevajanje iskalnih zahtev s slovarji

Uspešnost iskanja brez razreševanja dvoumnosti zaradi polisemije (vključevanje vseh možnih prevodov): 40% - 60% natančnosti enojezičnega iskanja.

Vse kar je več je odlično.

Izkaže se celo, da je izbira naključnega od možnih prevodov enako dobra, kot izbira vseh prevodov.

Page 9: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 9

Prevajanje iskalnih zahtev s slovarji

Razreševanje polisemije: v iskalno zahtevo vključimo vse prevode neke

besede in poskušamo zmanjšati vpliv posameznega prevoda,

ali iz porazdelitve besed v učnem korpusu poskušamo

izračunati verjetnost posameznih prevodov in vključimo najverjetnejšega(e).

Page 10: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 10

Prevajanje iskalnih zahtev s slovarji

Pomen prevajanja besednih zvez Pravilno prevajanje besednih zvez dramatično

zmanjša vpliv polisemije: samostojno prevajanje posameznih besed, ki

sestavljajo zvezo, uvaja množico pomenov, ki so največkrat drugačni od pomena besedne zveze,

besedne zveze imajo običajno en sam pomen, zato prevajanje zvez ne uvaja dvoumnosti.

Page 11: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 11

Prevajanje iskalnih zahtev s slovarji

Pomen prevajanja besednih zvez Poskus (Hull, Grefenstette, 1996):

Prevajanje iskalnih zahtev iz francoščine v angleščino. Med drugim primerjala učinek(a) slovarja z enobesednimi gesli in(b) istega slovarja z dodanimi prevodi besednih zvez.

Rezultati: (a) 68,4% natančnosti enojezičnega iskanja,(b) 90,8% natančnosti enojezičnega iskanja.

Page 12: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 12

Prevajanje iskalnih zahtev s slovarji

Za prevajanje so problematične iskalne zahteve, ki sprašujejo po vsebini dokumentov.

“Vsebinske” iskalne zahteve so zelo pogosto strokovne narave.

Problem: zelo redki računalniški dvojezični slovarji

strokovnega jezika, prevajanje iskalnih zahtev strokovne narave

običajno poteka s slovarji splošnega jezika. Posledica iskanja je nizek priklic.

Page 13: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 13

Prevajanje iskalnih zahtev s slovarji

Poskus A. Pirkole, 1998 Prevajanje iz finščine v angleščino. Iskanje časopisnih člankov s poljudno

medicinsko tematiko. Uporabljeni postopki za:

prevajanje strokovnega izrazja, prevajanje polisemih besed, prevajanje besednih zvez.

Page 14: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 14

Prevajanje iskalnih zahtev s slovarji

Poskus A. Pirkole (nadaljevanje) Uporabil splošni in strokovni medicinski slovar:

najprej prevajanje s strokovnim slovarjem, sledi prevajanje preostalih besed s splošnim

slovarjem. Vključil vse možne prevode vsake besede,

dvoumnost zaradi polisemije rešil z obteževanjem prevodov.

Page 15: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 15

Prevajanje iskalnih zahtev s slovarji

Poskus A. Pirkole (nadaljevanje) Pri iskanju so imeli vsi prevodi ene besede enak

skupni vpliv na računanje relevantnosti dokumenta kot beseda, ki da en sam prevod.

Tako je imel posamezen (največkrat napačen) prevod poliseme besede manjši relativni vpliv kot prevod besede z enim samim pomenom.

Strokovne besede so imele največkrat en sam prevod.

Page 16: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 16

Prevajanje iskalnih zahtev s slovarji

Poskus A. Pirkole (nadaljevanje) Problem določanja in prevajanja besednih zvez močno

olajšan zaradi same narave finščine – besedne zveze so sestavljenke.

Uspeh: povprečna natančnost MI praktično dosegla povprečno

natančnost enojezičnega iskanja. Nauk:

zelo dobre rezultate je mogoče doseči brez uporabe dragih jezikovnih virov in zapletenih metod računalniškega jezikoslovja.

Page 17: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 17

MI s prevajanjem iskalnih zahtev

Prevajanje iskalnih zahtev s korpusi

Page 18: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 18

Prevajanje iskalnih zahtev s korpusi

Postopki so najenostavnejši, če so na razpolago paralelni korpusi, poravnani na nivoju stavkov.

Uporaba: Prevajamo iskalno zahtevo iz jezika J1 v jezik J2. Sistem za vsako besedo v iskalni zahtevi v jeziku J1

poišče v korpusu v jeziku J1 vse stavke s to besedo. V korpusu v jeziku J2 poišče paralelne stavke, jih

združi in poišče najpogostejšo besedo. To besedo vključi v prevod iskalne zahteve.

Page 19: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 19

Prevajanje iskalnih zahtev s korpusi

Tak enostaven pristop je relativno uspešen, če paralelni korpus sodi v isto domeno, kot iskalna zahteva.

Paralelni korpusi, poravnani na nivoju stavkov, zelo redki, izdelava izjemno draga.

Obstajajo le za nekatere jezikovne pare in le za nekatere domene.

Page 20: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 20

MI s prevajanjem iskalnih zahtev

Prevajanje iskalnih zahtev s slovarji in korpusi

Page 21: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 21

Prevajanje iskalnih zahtev s slovarji in korpusi

Najboljše rezultate daje kombinacija prevajanja iskalne zahteve s slovarjem in razreševanja dvoumnosti s korpusom.

Uporabljeni korpusi: paralelni, poravnani na nivoju dokumentov, ali primerljivi, »poravnani« na nivoju tematike.

Page 22: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 22

Prevajanje iskalnih zahtev s slovarji in korpusi

Primer: Ballesteros, Croft; 1997

Instrumentarij: Collinsov angleško-španski slovar. primerljivi angleški korpus.

Iskalne zahteve v angleščini, iskanje po španski zbirki.

Priprava iskalnih zahtev: označevanje besednih vrst v iskalni zahtevi, določitev besednih zvez samostalnik-samostalnik, pridevnik-

samostalnik,Ločeno prevajanje posameznih besed in besednih zvez.

Page 23: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 23

Prevajanje iskalnih zahtev s slovarji in korpusi

Ballesteros, Croft; 1997, (nadaljevanje):

Uporabljena dva postopka, ki izvirata iz klasičnega IR:

lokalna povratna zanka (LPZ) in lokalna kontekstna analiza (LKA).

Page 24: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 24

Prevajanje iskalnih zahtev s slovarji in korpusi

1. začetno iskanje, povratna zanka:

2. iskalec označi relevantne dokumente, 3. sistem razširi iskalno zahtevo z »najboljšimi«

besedami iz njih.lokalna povratna zanka:

2. sistem privzame, da so vsi najvišje uvrščeni dokumenti relevantni in

3. razširi iskalno zahtevo z »najboljšimi« besedami iz njih.

Page 25: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 25

Prevajanje iskalnih zahtev s slovarji in korpusi

Kontekstna analiza: širitev iskalne zahteve z besedami ali besednimi

zvezami, ki se v korpusu največkrat sopojavljajo z besedami iz iskalne zahteve.

Lokalna kontekstna analiza: 1. začetno iskanje, 2. kontekstna analiza na najvišje uvrščenih

dokumentih.

Page 26: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 26

Prevajanje iskalnih zahtev s slovarji in korpusi

Ballesteros, Croft; 1997, eksperimenti: Slovar: iskanje s slovarskim prevodom. Pred-LPZ: razširitev iskalnih zahtev z lokalno povratno

zanko pred prevajanjem (angl. korpus). Po-LPZ: razširitev iskalnih zahtev z lokalno povratno zanko

po prevajanju (špan. korpus). Pred-LKA: razširitev iskalnih zahtev z lokalno kontekstno

analizo pred prevajanjem (angl. korpus). Po-LKA: razširitev iskalnih zahtev z lokalno kontekstno

analizo po prevajanju (špan. korpus). Komb-LPZ: kombinirana razširitev iskalnih zahtev z

lokalno povratno zanko pred in po prevajanju. Komb-LKA: kombinirana razširitev iskalnih zahtev z

lokalno kontekstno analizo pred in po prevajanju.

Page 27: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 27

Ponazoritev postopka Ballesteros, Croft, 1997

Page 28: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 28

Prevajanje iskalnih zahtev s slovarji in korpusi

Rezultati Ballesteros, Croft; 1997:Metoda % uspešnosti glede na

enojezično iskanje Slovar 41,2

Pred-LPZ 55,0

Pred-LKA 57,0

Po-LPZ 45,8

Po-LKA 51,1

Komb-LPZ 62,2

Komb-LKA 68,0

Page 29: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 29

Prevajanje iskalnih zahtev s slovarji in korpusi

Ballesteros, Croft; 1997: Nauk - dobre rezultate da

kombinacija metod IR širjenje iskalne zahteve v izvornem in ciljnem jeziku z

dodatnimi pomensko sorodnimi izrazi, in metod računalniškega jezikoslovja

označevanje besednih vrst in identifikacija besednih zvez.

Page 30: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 30

Avtomatska gradnja jezikovnih virov: gradnja paralelnih korpusov

Page 31: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 31

Gradnja paralelnih korpusovNie et al., 1999: Odkrivanje jezikovnih parov spletnih

dokumentov. Uporabili najpogostejše lastnosti parov:

prevodi dokumentov povezani s kazalci v obe smeri,

besedilo sidra kazalca imenuje jezik dokumenta (“in English”, “English version”...),

pari dokumentov imajo podobna imena (“products_fre.html”, “products_eng.html”...),

na spletišču sta hierarhiji map za dokumente v posameznih jezikih zelo podobni ali identični.

Page 32: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 32

Gradnja paralelnih korpusov

Nie et al., 1999 (nadaljevanje): Brez posebnih težav sestavili paralelni korpus,

poravnan na nivoju besedil. Nadaljevanje postopka je avtomatsko preverjanje

pravilnosti izbire parov z enostavnimi hevrističnimi postopki.

Ročno preverjanje pokazalo le 2% napak. Velikost korpusa 14.200 parov dokumentov (250

Mbytov).

Page 33: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 33

Avtomatska gradnja jezikovnih virov: gradnja tezavrov kolokacij

Page 34: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 34

Gradnja tezavrov kolokacij Dvojezični tezavri kolokacij (similarity thesauri)

so avtomatsko zgrajen približek dvojezičnim slovarjem.

Enojezično okolje dokumentov: Znanje o vsebinski domeni korpusa je opisano s

podatki o sorodnosti izrazov v korpusu. Temelj je predpostavka, da imata besedi, ki se

pogosto pojavljata v istih dokumentih, sorodno vsebino.

Sorodnost dveh izrazov se meri s statistično analizo njunih kolokacij.

Page 35: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 35

Gradnja tezavrov kolokacij

Tezavri kolokacij v enojezičnem okolju (nadaljevanje): Za merjenje teže neke kolokacije z besedo b je

pomembna tudi vsebina dokumenta; kolokacije z besedo b, ki nastopajo v dokumentih,

kjer je vsebina b zelo pomembna, imajo večjo težo, kot kolokacije z b v ostalih dokumentih.

Tezaver kolokacij je seznam vseh besed v korpusu in, za vsako besedo, njej najsorodnejših besed.

Page 36: Medjezično iskanje (MI) 2

J. Dimec. Medjezično iskanje 2 36

Gradnja tezavrov kolokacij

Tezavri kolokacij v dvojezičnem okolju: Potrebujemo dvojezični korpus, vzporeden na

nivoju dokumentov. Jezikovne pare dokumentov združimo v

navidezne dokumente. Analiza kolokacij v teh navideznih dokumentih

prinese najverjetnejše prevode besed. Tezavri kolokacij so bili uspešno uporabljeni v

MI.