Medjezino iskanje (MI) 1

  • View
    46

  • Download
    2

Embed Size (px)

DESCRIPTION

Medjezično iskanje (MI) 1. Razlogi za razvoj MI, definicije in pregled postopkov MI, MI z večjezičnimi tezavri, računalniško prevajanje v MI. Motivacija za razvoj MI. Hiter razvoj omrežnega (spletnega) publiciranja sprožil razvoj iskalnikov spletnih dokumentov. - PowerPoint PPT Presentation

Text of Medjezino iskanje (MI) 1

  • Medjezino iskanje (MI) 1

    Razlogi za razvoj MI,definicije in pregled postopkov MI,MI z vejezinimi tezavri, raunalniko prevajanje v MI.

  • Motivacija za razvoj MIHiter razvoj omrenega (spletnega) publiciranja sproil razvoj iskalnikov spletnih dokumentov.Na zaetku skoraj 100% dokumentov v angleini vsa metodologija spletnih iskalnikov prilagojena angleini.Danes porazdelitev jezikov spletnih dokumentov bistveno drugana:60% angleina,39% evropski, neangleki jeziki,10% ostalo.

  • Motivacija za razvoj MITaka porazdelitev se neposredno odraa v zbirkah velikih iskalnikov.Gradnja zbirk in iskalni algoritmi spletnih iskalnikov so e vedno prilagojeni angleini.

  • Motivacija za razvoj MIIskanje z iskalnimi zahtevami v naravnem jeziku:Primerjanje besed ali besednih zvez iz iskalne zahteve z besedami ali besednimi zvezami v dokumentih. Iskanje ne more dati rezultatov, e sta iskalna zahteva in dokument v razlinih jezikih.

  • Motivacija za razvoj MIIskalec mora sestaviti loene iskalne zahteve v jezikih dokumentov. Teave:iskalec se tekoe izraa le v enem ali dveh jezikih, ostali dokumenti nepoiskani,neizenaena kvaliteta rezultatov zaradi razlinega znanja jezikov pri istem iskalcu,multiplikati prevodov istega dokumenta,velik iskalni napor,...

  • Definicije medjezinega iskanjaV strokovni literaturi se pojavljajo razlini izrazi:cross-language IR, cross-lingual IR, multilingual IR, translingual IR..., ne da bi bila jasna razmejitev njihovih pomenov.

  • Definicije MIMedjezino iskanje je iskanje, pri katerem je naravni jezik iskalne zahteve lahko razlien od jezika ali jezikov dokumentov v zbirki. Iskalna zahteva je v jeziku a ali b, dokumenti v zbirki so v jezikih a in b,poiskani relevantni dokumenti so v jezikih a in b. MI je tudi iskanje po enojezini zbirki, e so lahko iskalne zahteve v razlinih jezikih.

  • Definicije MIEnojezino ali istojezino iskanje (monolingual IR):Iskalna zahteva in poiskani dokumenti v zbirki so v istem jeziku. Medjezino iskanje z enim delom svoje definicije pokriva tudi enojezino iskanje.

  • Definicije MINajiri izraz je vejezino iskanje (multilingual IR), ki vkljuuje enojezino iskanje, medjezino iskanje, in iskanje dokumentov z deli v ve jezikih.

    Vejezine sisteme imenujemo tudi sisteme s pomnoeno enojezino funkcionalnostjo: loene iskalne zahteve v razlinih jezikih in priklic dokumentov v teh jezikih.

  • Definicije MIAmeriki zorni kot:medjezini sistemi so sistemi, ki iskalcem nudijo dokumente, ki jih ti ne znajo prebrati.

  • Splono o MI: IR vs. MIPodroji IR in MI imata mnogo skupnega: naine organiziranja dokumentov v zbirkah,metode avtomatskega indeksiranja,interpretiranje iskalnih zahtev,raunanje relevantnosti dokumentov.

  • Splono o MI: IR vs. MIMed podroji IR in MI obstaja bistvena razlika: klasini IR ne potrebuje prevajanja.

    Vsak avtomatski postopek MI, ki ni vezan na rono indeksiranje z vejezinimi tezavri, vkljuuje neko vrsto raunalnikega prevajanja.

  • Splono o MI

    Avtomatske metode medjezinega iskanja prevajanje iskalnih zahtevkontroliran besednjak naravni jezik prevajanje dokumentov popolni dokumentizgoeni opisi formalizirano znanje korpusi ontologije tezavri slovarji poravnane besede poravnani stavki poravnani dokumenti vzporedni primerljivi tezavri kolokacij

  • OntologijeOntologija:predstavitev mree ali hierarhije konceptov in njihovih povezav

    Tezaver:ontologija namenjena opisovanju in iskanju dokumentov v kontroliranih pogojih

    Dvojezini leksikon:ontologija namenjena strojnemu prevajanju

    Dvojezini slovar:ontologija namenjena lovekemu prevajanju

  • MI z vejezinim tezavrom

  • MI z vejezinim tezavrom Najstareja oblika MI.Tezaver s prevodi konceptov v razline jezike.Rono indeksiranje dokumenta v jezikih a, b, c z deskriptorji v jezikih a, b, c.Iskanje z deskriptorji v jeziku a vrne dokumente v jezikih a, b, c.Do 100% uspenost v primerjavi z enojezinim iskanjem.

  • MI z vejezinim tezavrom Primer vejezinega besednjaka:

    EUROVOC:Vejezini tezaver, v katerem so vsa gesla prevedena v 18 jezikov EU (+ hrvaina, albanina, bolgarina, romunina in ruina).Gesla pokrivajo podroja, na katerih je aktivna EU.Uporabljajo ga dokumentacijske slube vseh pomembnejih institucij EU, pri katerih nastajajo dokumenti, med drugim Evropski, nacionalni in regionalni partlamenti.

  • MI z vejezinim tezavrom Najveja pomanjkljivost MI z vejezinim tezavrom je cena ronega indeksiranja.

    Opravljeni zanimivi poskusi izrabe vejezinih tezavrov za prevajanje iskalnih zahtev v naravnem jeziku.Osnovna ideja: prevesti iskalne zahteve v naravnem jeziku v deskriptorje vejezinega tezavra in izvesti MI.

  • MI z vejezinim tezavrom Primer: uporaba UMLS za MI s francoskimi in panskimi iskalnimi zahtevami v naravnem jeziku.UMLS (Unified Medical Language System): setevek 60+ tezavrov, osnova je MeSH (Medical Subject Headings).Obstaja nekaj prevodov MeSH, vkljuenih v UMLS.

  • MI z vejezinim specializiranim tezavromPovzetek postopka: Prevajanje francoskih in panskih iskalnih zahtev v naravnem jeziku v francoske oz. panske prevode deskriptorjev MeSH.Sestavljanje iskalne zahteve iz anglekih ustreznic teh deskriptorjev.Iskanje po zbirki Medline, ki je indeksirana z anglekimi deskriptorji.

  • MI z vejezinim specializiranim tezavromPrimer (nadaljevanje):Izbor francoskih (panskih) deskriptorjev v 3 korakih:izbrani enobesedni deskriptorji, ki so enaki besedam iz iskalne zahteve,sestavljeni vsi moni pari preostalih besed in izbrani dovolj podobni dvobesedni deskriptorji,za vsako besedo, preostalo po korakih 1 in 2 zbrani vsi deskriptorji, v katerih se pojavlja,poiskani njihovi angleki prevodi,angleki deskriptorji razbiti na besede,kot prevod v angleino izbrana najfrekventneja beseda.

  • MI z vejezinim specializiranim tezavromPrimer (nadaljevanje):Uspenost postopka, merjena kot % natannosti, ki bi jo dosegli z anglekimi deskriptorji, ki bi jih doloil izkuen informacijski posrednik:panske iskalne zahteve 71%,francoske iskalne zahteve 61%.

    Relativno uspeen poskus, vendar postopek omejen na specializirano ontologijo (MeSH) v relativno ozki domeni (medicina).

  • MI z raunalnikim prevajanjem dokumentov

  • MI z raunalnikim prevajanjem dokumentovDilema: prevajanje iskalnih zahtev ali prevajanje dokumentov?

    Prevajanje iskalnih zahtev:(teoretino) manji raunalniki napor,iskalec dobi rezultate v razlinih jezikih,veji iskalev napor pri razumevanju dokumentov.

  • MI z raunalnikim prevajanjem dokumentovPrevajanje dokumentov (v fazi gradnje zbirke)prevajanje vseh dokumentov v vse jezike zbirke,iskanje je enojezino,uporabnik dobi dokumente v svojem jeziku,majhen iskalev napor, velik (prevelik?) raunalniki napor.

  • MI z raunalnikim prevajanjem dokumentovPrevajanje dokumentov (po iskanju)prevajanje iskalnih zahtev, sledi medjezino iskanje,iskalec je sposoben priblinega razumevanja dokumentov in odloanja o relevantnih dokumentih,(varianta: sistem sposoben avtomatskega abstrahiranja in prevajanja zgoene vsebine),avtomatsko prevajanje najboljih relevantnih dokumentov,prevodi se v sistemu kopiijo.

  • MI z raunalnikim prevajanjem dokumentovEden redkih poskusov (Oard, 1998): Korpus 250.000 nemkih dokumentov raunalniko preveden v angleino.Iskanje z anglekimi iskalnimi zahtevami zelo velika natannost.Za prevajanje porabljenih 10 procesorskih mesecev na delovnih postajah Sun Sparc 20.Korpus relativno majhen in statien realnost spleta, digitalnih knjinic in tevila jezikov je drugana.

  • MI z raunalnikim prevajanjem dokumentovKonsenz srenje: raunalniko prevajanje dokumentov je prenaporno in prepoasno za zahteve MI.Zaenkrat je videti njegovo prihodnost le v omejenih situacijah za prevajanje posameznih dokumentov.

  • MI s prevajanjem iskalnih zahtev

  • MI s prevajanjem iskalnih zahtev Iskalna zahteva se z avtomatskimi postopki prevede v jezike dokumentov, potem sledi serija enojezinih iskanj.

    Na prvi pogled je pravo raunalniko prevajanje iskalnih zahtev idealno tudi za potrebe MI, realnost je drugana.

  • MI s prevajanjem iskalnih zahtev Raunalniko prevajanje temelji na metodah, kot so razlenjevanje stavkov,oznaevanje besednih vrst, razreevanje dvoumnosti vepomenskih (polisemih besed).Cilj raunalnikega prevajanja jegeneriranje sintaktino in semantino pravilnih stavkov.Pri razlinih prevodih besede se mora prevajalnik odloiti le za enega.

  • MI s prevajanjem iskalnih zahtevRaunalniko prevajanje potrebuje dolge in pravilne besedilne strukture ter sobesedilo za ugotavljanje najverjetnejega pomena besed. Iskalne zahteve so kratka besedila, pogosto le zaporedja kljunih besed.

    Uporaben rezultat prevajanja za potrebe MI so posamezne, nepovezane besede.Razlini prevodi besede so pogosto sinonimi in so zato lahko koristni v prevedeni iskalni zahtevi.

  • MI s prevajanjem iskalnih zahtevPravo raunalniko prevajanje iskalnih zahtev uporabno le v redkih primerih:dolge, vestavne iskalne zahteve,dokument kot iskalna zahteva in iskanje najsorodnejih dokumentov v ciljnem jeziku.