Transcript
Page 1: Medjezično iskanje (MI) 1

1

Medjezično iskanje (MI) 1

Razlogi za razvoj MI,

definicije in pregled postopkov MI,

MI z večjezičnimi tezavri,

računalniško prevajanje v MI.

Page 2: Medjezično iskanje (MI) 1

2

Motivacija za razvoj MI Hiter razvoj omrežnega (spletnega)

publiciranja sprožil razvoj iskalnikov spletnih dokumentov.

Na začetku skoraj 100% dokumentov v angleščini – vsa metodologija spletnih iskalnikov prilagojena angleščini.

Danes porazdelitev jezikov spletnih dokumentov bistveno drugačna:60% angleščina,39% evropski, neangleški jeziki,10% ostalo.

Page 3: Medjezično iskanje (MI) 1

3

Motivacija za razvoj MI

Taka porazdelitev se neposredno odraža v zbirkah velikih iskalnikov.

Gradnja zbirk in iskalni algoritmi spletnih iskalnikov so še vedno prilagojeni angleščini.

Page 4: Medjezično iskanje (MI) 1

4

Motivacija za razvoj MI

Iskanje z iskalnimi zahtevami v naravnem jeziku: Primerjanje besed ali besednih zvez iz iskalne

zahteve z besedami ali besednimi zvezami v dokumentih.

Iskanje ne more dati rezultatov, če sta iskalna zahteva in dokument v različnih jezikih.

Page 5: Medjezično iskanje (MI) 1

5

Motivacija za razvoj MI

Iskalec mora sestaviti ločene iskalne zahteve v jezikih dokumentov.

Težave: iskalec se tekoče izraža le v enem ali dveh

jezikih, ostali dokumenti nepoiskani, neizenačena kvaliteta rezultatov zaradi različnega

znanja jezikov pri istem iskalcu, multiplikati prevodov istega dokumenta, velik iskalni napor, ...

Page 6: Medjezično iskanje (MI) 1

6

Definicije medjezičnega iskanja

V strokovni literaturi se pojavljajo različni izrazi: cross-language IR, cross-lingual IR, multilingual IR, translingual IR...,

ne da bi bila jasna razmejitev njihovih pomenov.

Page 7: Medjezično iskanje (MI) 1

7

Definicije MI

Medjezično iskanje je iskanje, pri katerem je naravni jezik iskalne zahteve lahko različen

od jezika ali jezikov dokumentov v zbirki. Iskalna zahteva je v jeziku a ali b, dokumenti v zbirki so v jezikih a in b, poiskani relevantni dokumenti so v jezikih

a in b. MI je tudi iskanje po enojezični zbirki, če so

lahko iskalne zahteve v različnih jezikih.

Page 8: Medjezično iskanje (MI) 1

8

Definicije MI

Enojezično ali istojezično iskanje (monolingual IR): Iskalna zahteva in poiskani dokumenti v zbirki

so v istem jeziku. Medjezično iskanje z enim delom svoje

definicije pokriva tudi enojezično iskanje.

Page 9: Medjezično iskanje (MI) 1

9

Definicije MI

Najširši izraz je večjezično iskanje (multilingual IR), ki vključuje enojezično iskanje, medjezično iskanje, in iskanje dokumentov z deli v več jezikih.

Večjezične sisteme imenujemo tudi sisteme s pomnoženo enojezično funkcionalnostjo: ločene iskalne zahteve v različnih jezikih in priklic

dokumentov v teh jezikih.

Page 10: Medjezično iskanje (MI) 1

10

Definicije MI

Ameriški zorni kot: medjezični sistemi so »sistemi, ki iskalcem

nudijo dokumente, ki jih ti ne znajo prebrati«.

Page 11: Medjezično iskanje (MI) 1

11

Splošno o MI: IR vs. MI

Področji IR in MI imata mnogo skupnega: načine organiziranja dokumentov v zbirkah, metode avtomatskega indeksiranja, interpretiranje iskalnih zahtev, računanje relevantnosti dokumentov.

Page 12: Medjezično iskanje (MI) 1

12

Splošno o MI: IR vs. MI

Med področji IR in MI obstaja bistvena razlika: klasični IR ne potrebuje prevajanja.

Vsak avtomatski postopek MI, ki ni vezan na ročno indeksiranje z večjezičnimi tezavri, vključuje neko vrsto računalniškega prevajanja.

Page 13: Medjezično iskanje (MI) 1

13

Splošno o MI

Avtomatske metode medjezičnega iskanja

prevajanje iskalnih zahtev

kontroliran besednjak

naravni jezik

prevajanje dokumentov

popolni dokumenti zgoščeni opisi

formalizirano znanje korpusi

ontologije

tezavri

slovarji

poravnanebesede

poravnanistavki

poravnanidokumenti

vzporedni primerljivi tezavri kolokacij

Page 14: Medjezično iskanje (MI) 1

14

Ontologije

Ontologija: predstavitev mreže ali hierarhije konceptov in

njihovih povezav

Tezaver: ontologija namenjena opisovanju in iskanju

dokumentov v kontroliranih pogojih

Dvojezični leksikon: ontologija namenjena strojnemu prevajanju

Dvojezični slovar: ontologija namenjena človeškemu prevajanju

Page 15: Medjezično iskanje (MI) 1

15

MI z večjezičnim tezavrom

Page 16: Medjezično iskanje (MI) 1

16

MI z večjezičnim tezavrom

Najstarejša oblika MI. Tezaver s prevodi konceptov v različne jezike. Ročno indeksiranje dokumenta v jezikih a, b, c

z deskriptorji v jezikih a, b, c. Iskanje z deskriptorji v jeziku a vrne

dokumente v jezikih a, b, c. Do 100% uspešnost v primerjavi z enojezičnim

iskanjem.

Page 17: Medjezično iskanje (MI) 1

17

MI z večjezičnim tezavrom

Primer večjezičnega besednjaka:

EUROVOC: Večjezični tezaver, v katerem so vsa gesla

prevedena v 18 jezikov EU (+ hrvaščina, albanščina, bolgarščina, romunščina in ruščina).

Gesla pokrivajo področja, na katerih je aktivna EU.

Uporabljajo ga dokumentacijske službe vseh pomembnejših institucij EU, pri katerih nastajajo dokumenti, med drugim Evropski, nacionalni in regionalni partlamenti.

Page 18: Medjezično iskanje (MI) 1

18

MI z večjezičnim tezavrom

Največja pomanjkljivost MI z večjezičnim tezavrom je cena ročnega indeksiranja.

Opravljeni zanimivi poskusi izrabe večjezičnih tezavrov za prevajanje iskalnih zahtev v naravnem jeziku.

Osnovna ideja: prevesti iskalne zahteve v naravnem jeziku v deskriptorje večjezičnega tezavra in izvesti MI.

Page 19: Medjezično iskanje (MI) 1

19

MI z večjezičnim tezavrom

Primer: uporaba UMLS za MI s francoskimi in španskimi iskalnimi zahtevami v naravnem jeziku.

UMLS (Unified Medical Language System): “seštevek” 60+ tezavrov, osnova je MeSH (Medical Subject Headings).

Obstaja nekaj prevodov MeSH, vključenih v UMLS.

Page 20: Medjezično iskanje (MI) 1

20

MI z večjezičnim specializiranim tezavrom

Povzetek postopka: Prevajanje francoskih in španskih iskalnih

zahtev v naravnem jeziku v francoske oz. španske prevode deskriptorjev MeSH.

Sestavljanje iskalne zahteve iz angleških ustreznic teh deskriptorjev.

Iskanje po zbirki Medline, ki je indeksirana z angleškimi deskriptorji.

Page 21: Medjezično iskanje (MI) 1

21

MI z večjezičnim specializiranim tezavrom

Primer (nadaljevanje): Izbor francoskih (španskih) deskriptorjev v 3

korakih:1. izbrani enobesedni deskriptorji, ki so enaki

besedam iz iskalne zahteve,2. sestavljeni vsi možni pari preostalih besed in

izbrani dovolj podobni dvobesedni deskriptorji,3. za vsako besedo, preostalo po korakih 1 in 2

zbrani vsi deskriptorji, v katerih se pojavlja, poiskani njihovi angleški prevodi, angleški deskriptorji razbiti na besede, kot prevod v angleščino izbrana najfrekventnejša

beseda.

Page 22: Medjezično iskanje (MI) 1

22

MI z večjezičnim specializiranim tezavrom

Primer (nadaljevanje): Uspešnost postopka, merjena kot %

natančnosti, ki bi jo dosegli z angleškimi deskriptorji, ki bi jih določil izkušen informacijski posrednik: španske iskalne zahteve – 71%, francoske iskalne zahteve – 61%.

Relativno uspešen poskus, vendar postopek omejen na specializirano ontologijo (MeSH) v relativno ozki domeni (medicina).

Page 23: Medjezično iskanje (MI) 1

23

MI z računalniškim prevajanjem dokumentov

Page 24: Medjezično iskanje (MI) 1

24

MI z računalniškim prevajanjem dokumentov

Dilema: prevajanje iskalnih zahtev ali prevajanje

dokumentov?

Prevajanje iskalnih zahtev: (teoretično) manjši računalniški napor, iskalec dobi rezultate v različnih jezikih, večji iskalčev napor pri razumevanju dokumentov.

Page 25: Medjezično iskanje (MI) 1

25

MI z računalniškim prevajanjem dokumentov

Prevajanje dokumentov (v fazi gradnje zbirke) prevajanje vseh dokumentov v vse jezike

zbirke, iskanje je enojezično, uporabnik dobi dokumente v svojem jeziku, majhen iskalčev napor, velik (prevelik?)

računalniški napor.

Page 26: Medjezično iskanje (MI) 1

26

MI z računalniškim prevajanjem dokumentov

Prevajanje dokumentov (po iskanju) prevajanje iskalnih zahtev, sledi medjezično

iskanje, iskalec je sposoben približnega razumevanja

dokumentov in odločanja o relevantnih dokumentih,

(varianta: sistem sposoben avtomatskega abstrahiranja in prevajanja zgoščene vsebine),

avtomatsko prevajanje najboljših relevantnih dokumentov,

prevodi se v sistemu kopičijo.

Page 27: Medjezično iskanje (MI) 1

27

MI z računalniškim prevajanjem dokumentov

Eden redkih poskusov (Oard, 1998): Korpus 250.000 nemških dokumentov

računalniško preveden v angleščino. Iskanje z angleškimi iskalnimi zahtevami –

zelo velika natančnost. Za prevajanje porabljenih 10 procesorskih

mesecev na delovnih postajah Sun Sparc 20. Korpus relativno majhen in statičen – realnost

spleta, digitalnih knjižnic in števila jezikov je drugačna.

Page 28: Medjezično iskanje (MI) 1

28

MI z računalniškim prevajanjem dokumentov

Konsenz srenje: računalniško prevajanje dokumentov je

prenaporno in prepočasno za zahteve MI. Zaenkrat je videti njegovo prihodnost le v

omejenih situacijah za prevajanje posameznih dokumentov.

Page 29: Medjezično iskanje (MI) 1

29

MI s prevajanjem iskalnih zahtev

Page 30: Medjezično iskanje (MI) 1

30

MI s prevajanjem iskalnih zahtev

Iskalna zahteva se z avtomatskimi postopki prevede v jezike dokumentov, potem sledi serija enojezičnih iskanj.

Na prvi pogled je pravo računalniško prevajanje iskalnih zahtev idealno tudi za potrebe MI, realnost je drugačna.

Page 31: Medjezično iskanje (MI) 1

31

MI s prevajanjem iskalnih zahtev

Računalniško prevajanje temelji na metodah, kot so razčlenjevanje stavkov, označevanje besednih vrst, razreševanje dvoumnosti večpomenskih

(polisemih besed).

Cilj računalniškega prevajanja je generiranje sintaktično in semantično pravilnih

stavkov. Pri različnih prevodih besede se mora prevajalnik

odločiti le za enega.

Page 32: Medjezično iskanje (MI) 1

32

MI s prevajanjem iskalnih zahtev

Računalniško prevajanje potrebuje dolge in pravilne besedilne strukture ter sobesedilo za ugotavljanje najverjetnejšega pomena besed.

Iskalne zahteve so kratka besedila, pogosto le zaporedja ključnih besed.

Uporaben rezultat prevajanja za potrebe MI so posamezne, nepovezane besede.

Različni prevodi besede so pogosto sinonimi in so zato lahko koristni v prevedeni iskalni zahtevi.

Page 33: Medjezično iskanje (MI) 1

33

MI s prevajanjem iskalnih zahtev

Pravo računalniško prevajanje iskalnih zahtev uporabno le v redkih primerih: dolge, večstavčne iskalne zahteve, dokument kot iskalna zahteva in iskanje

najsorodnejših dokumentov v ciljnem jeziku.


Recommended