1
Medjezično iskanje (MI) 1
Razlogi za razvoj MI,
definicije in pregled postopkov MI,
MI z večjezičnimi tezavri,
računalniško prevajanje v MI.
2
Motivacija za razvoj MI Hiter razvoj omrežnega (spletnega)
publiciranja sprožil razvoj iskalnikov spletnih dokumentov.
Na začetku skoraj 100% dokumentov v angleščini – vsa metodologija spletnih iskalnikov prilagojena angleščini.
Danes porazdelitev jezikov spletnih dokumentov bistveno drugačna:60% angleščina,39% evropski, neangleški jeziki,10% ostalo.
3
Motivacija za razvoj MI
Taka porazdelitev se neposredno odraža v zbirkah velikih iskalnikov.
Gradnja zbirk in iskalni algoritmi spletnih iskalnikov so še vedno prilagojeni angleščini.
4
Motivacija za razvoj MI
Iskanje z iskalnimi zahtevami v naravnem jeziku: Primerjanje besed ali besednih zvez iz iskalne
zahteve z besedami ali besednimi zvezami v dokumentih.
Iskanje ne more dati rezultatov, če sta iskalna zahteva in dokument v različnih jezikih.
5
Motivacija za razvoj MI
Iskalec mora sestaviti ločene iskalne zahteve v jezikih dokumentov.
Težave: iskalec se tekoče izraža le v enem ali dveh
jezikih, ostali dokumenti nepoiskani, neizenačena kvaliteta rezultatov zaradi različnega
znanja jezikov pri istem iskalcu, multiplikati prevodov istega dokumenta, velik iskalni napor, ...
6
Definicije medjezičnega iskanja
V strokovni literaturi se pojavljajo različni izrazi: cross-language IR, cross-lingual IR, multilingual IR, translingual IR...,
ne da bi bila jasna razmejitev njihovih pomenov.
7
Definicije MI
Medjezično iskanje je iskanje, pri katerem je naravni jezik iskalne zahteve lahko različen
od jezika ali jezikov dokumentov v zbirki. Iskalna zahteva je v jeziku a ali b, dokumenti v zbirki so v jezikih a in b, poiskani relevantni dokumenti so v jezikih
a in b. MI je tudi iskanje po enojezični zbirki, če so
lahko iskalne zahteve v različnih jezikih.
8
Definicije MI
Enojezično ali istojezično iskanje (monolingual IR): Iskalna zahteva in poiskani dokumenti v zbirki
so v istem jeziku. Medjezično iskanje z enim delom svoje
definicije pokriva tudi enojezično iskanje.
9
Definicije MI
Najširši izraz je večjezično iskanje (multilingual IR), ki vključuje enojezično iskanje, medjezično iskanje, in iskanje dokumentov z deli v več jezikih.
Večjezične sisteme imenujemo tudi sisteme s pomnoženo enojezično funkcionalnostjo: ločene iskalne zahteve v različnih jezikih in priklic
dokumentov v teh jezikih.
10
Definicije MI
Ameriški zorni kot: medjezični sistemi so »sistemi, ki iskalcem
nudijo dokumente, ki jih ti ne znajo prebrati«.
11
Splošno o MI: IR vs. MI
Področji IR in MI imata mnogo skupnega: načine organiziranja dokumentov v zbirkah, metode avtomatskega indeksiranja, interpretiranje iskalnih zahtev, računanje relevantnosti dokumentov.
12
Splošno o MI: IR vs. MI
Med področji IR in MI obstaja bistvena razlika: klasični IR ne potrebuje prevajanja.
Vsak avtomatski postopek MI, ki ni vezan na ročno indeksiranje z večjezičnimi tezavri, vključuje neko vrsto računalniškega prevajanja.
13
Splošno o MI
Avtomatske metode medjezičnega iskanja
prevajanje iskalnih zahtev
kontroliran besednjak
naravni jezik
prevajanje dokumentov
popolni dokumenti zgoščeni opisi
formalizirano znanje korpusi
ontologije
tezavri
slovarji
poravnanebesede
poravnanistavki
poravnanidokumenti
vzporedni primerljivi tezavri kolokacij
14
Ontologije
Ontologija: predstavitev mreže ali hierarhije konceptov in
njihovih povezav
Tezaver: ontologija namenjena opisovanju in iskanju
dokumentov v kontroliranih pogojih
Dvojezični leksikon: ontologija namenjena strojnemu prevajanju
Dvojezični slovar: ontologija namenjena človeškemu prevajanju
15
MI z večjezičnim tezavrom
16
MI z večjezičnim tezavrom
Najstarejša oblika MI. Tezaver s prevodi konceptov v različne jezike. Ročno indeksiranje dokumenta v jezikih a, b, c
z deskriptorji v jezikih a, b, c. Iskanje z deskriptorji v jeziku a vrne
dokumente v jezikih a, b, c. Do 100% uspešnost v primerjavi z enojezičnim
iskanjem.
17
MI z večjezičnim tezavrom
Primer večjezičnega besednjaka:
EUROVOC: Večjezični tezaver, v katerem so vsa gesla
prevedena v 18 jezikov EU (+ hrvaščina, albanščina, bolgarščina, romunščina in ruščina).
Gesla pokrivajo področja, na katerih je aktivna EU.
Uporabljajo ga dokumentacijske službe vseh pomembnejših institucij EU, pri katerih nastajajo dokumenti, med drugim Evropski, nacionalni in regionalni partlamenti.
18
MI z večjezičnim tezavrom
Največja pomanjkljivost MI z večjezičnim tezavrom je cena ročnega indeksiranja.
Opravljeni zanimivi poskusi izrabe večjezičnih tezavrov za prevajanje iskalnih zahtev v naravnem jeziku.
Osnovna ideja: prevesti iskalne zahteve v naravnem jeziku v deskriptorje večjezičnega tezavra in izvesti MI.
19
MI z večjezičnim tezavrom
Primer: uporaba UMLS za MI s francoskimi in španskimi iskalnimi zahtevami v naravnem jeziku.
UMLS (Unified Medical Language System): “seštevek” 60+ tezavrov, osnova je MeSH (Medical Subject Headings).
Obstaja nekaj prevodov MeSH, vključenih v UMLS.
20
MI z večjezičnim specializiranim tezavrom
Povzetek postopka: Prevajanje francoskih in španskih iskalnih
zahtev v naravnem jeziku v francoske oz. španske prevode deskriptorjev MeSH.
Sestavljanje iskalne zahteve iz angleških ustreznic teh deskriptorjev.
Iskanje po zbirki Medline, ki je indeksirana z angleškimi deskriptorji.
21
MI z večjezičnim specializiranim tezavrom
Primer (nadaljevanje): Izbor francoskih (španskih) deskriptorjev v 3
korakih:1. izbrani enobesedni deskriptorji, ki so enaki
besedam iz iskalne zahteve,2. sestavljeni vsi možni pari preostalih besed in
izbrani dovolj podobni dvobesedni deskriptorji,3. za vsako besedo, preostalo po korakih 1 in 2
zbrani vsi deskriptorji, v katerih se pojavlja, poiskani njihovi angleški prevodi, angleški deskriptorji razbiti na besede, kot prevod v angleščino izbrana najfrekventnejša
beseda.
22
MI z večjezičnim specializiranim tezavrom
Primer (nadaljevanje): Uspešnost postopka, merjena kot %
natančnosti, ki bi jo dosegli z angleškimi deskriptorji, ki bi jih določil izkušen informacijski posrednik: španske iskalne zahteve – 71%, francoske iskalne zahteve – 61%.
Relativno uspešen poskus, vendar postopek omejen na specializirano ontologijo (MeSH) v relativno ozki domeni (medicina).
23
MI z računalniškim prevajanjem dokumentov
24
MI z računalniškim prevajanjem dokumentov
Dilema: prevajanje iskalnih zahtev ali prevajanje
dokumentov?
Prevajanje iskalnih zahtev: (teoretično) manjši računalniški napor, iskalec dobi rezultate v različnih jezikih, večji iskalčev napor pri razumevanju dokumentov.
25
MI z računalniškim prevajanjem dokumentov
Prevajanje dokumentov (v fazi gradnje zbirke) prevajanje vseh dokumentov v vse jezike
zbirke, iskanje je enojezično, uporabnik dobi dokumente v svojem jeziku, majhen iskalčev napor, velik (prevelik?)
računalniški napor.
26
MI z računalniškim prevajanjem dokumentov
Prevajanje dokumentov (po iskanju) prevajanje iskalnih zahtev, sledi medjezično
iskanje, iskalec je sposoben približnega razumevanja
dokumentov in odločanja o relevantnih dokumentih,
(varianta: sistem sposoben avtomatskega abstrahiranja in prevajanja zgoščene vsebine),
avtomatsko prevajanje najboljših relevantnih dokumentov,
prevodi se v sistemu kopičijo.
27
MI z računalniškim prevajanjem dokumentov
Eden redkih poskusov (Oard, 1998): Korpus 250.000 nemških dokumentov
računalniško preveden v angleščino. Iskanje z angleškimi iskalnimi zahtevami –
zelo velika natančnost. Za prevajanje porabljenih 10 procesorskih
mesecev na delovnih postajah Sun Sparc 20. Korpus relativno majhen in statičen – realnost
spleta, digitalnih knjižnic in števila jezikov je drugačna.
28
MI z računalniškim prevajanjem dokumentov
Konsenz srenje: računalniško prevajanje dokumentov je
prenaporno in prepočasno za zahteve MI. Zaenkrat je videti njegovo prihodnost le v
omejenih situacijah za prevajanje posameznih dokumentov.
29
MI s prevajanjem iskalnih zahtev
30
MI s prevajanjem iskalnih zahtev
Iskalna zahteva se z avtomatskimi postopki prevede v jezike dokumentov, potem sledi serija enojezičnih iskanj.
Na prvi pogled je pravo računalniško prevajanje iskalnih zahtev idealno tudi za potrebe MI, realnost je drugačna.
31
MI s prevajanjem iskalnih zahtev
Računalniško prevajanje temelji na metodah, kot so razčlenjevanje stavkov, označevanje besednih vrst, razreševanje dvoumnosti večpomenskih
(polisemih besed).
Cilj računalniškega prevajanja je generiranje sintaktično in semantično pravilnih
stavkov. Pri različnih prevodih besede se mora prevajalnik
odločiti le za enega.
32
MI s prevajanjem iskalnih zahtev
Računalniško prevajanje potrebuje dolge in pravilne besedilne strukture ter sobesedilo za ugotavljanje najverjetnejšega pomena besed.
Iskalne zahteve so kratka besedila, pogosto le zaporedja ključnih besed.
Uporaben rezultat prevajanja za potrebe MI so posamezne, nepovezane besede.
Različni prevodi besede so pogosto sinonimi in so zato lahko koristni v prevedeni iskalni zahtevi.
33
MI s prevajanjem iskalnih zahtev
Pravo računalniško prevajanje iskalnih zahtev uporabno le v redkih primerih: dolge, večstavčne iskalne zahteve, dokument kot iskalna zahteva in iskanje
najsorodnejših dokumentov v ciljnem jeziku.