Upload
matija-matovilac-prahin
View
19
Download
5
Tags:
Embed Size (px)
DESCRIPTION
21
Citation preview
III Racionalna primjena
(1975-1988)
III Racionalna primjena (1975-1988)
Sustavi koji koriste teoriju pojmovne zavisnosti (eng. conceptual dependency theory ) - prikazuju riječi u osnovnim semantičkim jedinicama (eng. semantic primitives)
letjeti : kretati se – krilima
hodati : kretati se – nogama
Začetnik ideje: Yorick Wilks (1968) - riječi prikazuje kao osnovne značenjske jedinice i na tome
izradio program za strojno prevođenje- teorija razvijena kako bi se izbjegla sintaktička analiza i parsiranje
Ulazna rečenica pretvara se u semantički osnovne jedinice – semantičke primitive
- podaci su tako izravno dohvatljivi, a pravila o kombiniranju riječi nalaze se u leksikonu
- neovisni o vrsti jezika, tj. zajedničke svim jezicima - na taj način stvoren je međukod
Nešto dalje u ovom području: Roger Schank (1969) - razvio teoriju pojmovne zavisnosti, gdje su osnovni elementi prikaza pojmovi
Ukoliko riječ ima više značenja prikazuju se samo ona najvjerojatnija, za razliku od prethodno navedenog Wilksovog sistema.
Pr. ako se nešto vidi, čuje ili pročita, prikazuje se kao mentalnu radnja MTRANS za prijenos informacija
Ovakav način prikaza predstavlja znatnu uštedu memorije i povećava brzinu rada, ali ne rješava problem višeznačnosti i pozadinskog znanja u jeziku.
Osnovno pitanje koje se tiče svih formalizama za prikaz znanja jest vokabular formalizma
Osnovne semantičke jedinice (semantički primitivi) prikazani su u leksikonu – naglasak na prikazu semantike
U leksikonu se također nalaze pravila kombiniranja riječi (izbjegnuta sintaksa)
MTS - Machine Translation System
1968.Yorick Wilks
– prevodi manje paragrafe sa engleskog na francuski
– ideja međukoda: rečenice iz engleskog pretvara u internu prezentaciju (međukod koji se sastoji od osnovnih semantičkih jedinica) od čega se generira prijevod na francuskom - ideja semantičkih primitiva
– Podaci o kombiniranju riječi nalaze se u leksikonu
– Prikaz u leksikonu za jedinicu razbiti:
(BREAK: (*HUM SUBJ) (*PHYSOB OBJE)
((((NOTWHOLE KIND) BE) CAUSE) GOAL)
(THING INST) (STRIK)
Opis pravila: eng. break – razbiti, slomiti znači razbijanje (STRIKing) koje izvršava živo biće (HUMan SUBJect) pomoću INSTrumenta koji je stvar (THING) s ciljem (GOAL) da se izazove (of CAUSing) da fizički objekt (PHYSical Object) ne bude cjelina (to be NOTWHOLE).
– izbjegnuta sintaktička analiza i parsiranje; naglasak na semantici
Wilks koristi oko 80 osnovnih semantičkih jedinica
Entiteti MAN čovjekSTUFF stvarPART dio entiteta
Akcije CAUSE razlogBE ekvivalentno FLOW kretanje tekućine
Padeži TO prema nečemuIN sadržina
Kvalifikatori GOOD moralno ispravanMUCH količinski mnogo
Tip indikatora HOW tip akcije – za priložne konstrukcijeKIND za kvalitetu – pridjevske konstrukcije
1968.Yorick Wilks - MTS
Problem višeznačnosti: ako riječ ima više značenja, opisuju se sva moguća značenja (radi
razlikovanja od ostalih riječi) piće – tekući objekt, subjekt živo biće - prikazano pravilima
zaključivanja koja su odvojena od rječnika i služe kao posljednji mehanizam za razbijanje višeznačnosti (uključuju vino, gorivo)
nedostatak: ne razlikuje čekić, malj, bat, sjekira tekst se pretvara u niz sličnih formula koje se uređuju kao trojke (agent,
akcija, objekt) ili eng. templates
Wilks postavlja razliku između definicije riječi koja izražava činjenice (npr. voda je tekuća tvar) ali ne i činjenicu da se može smrznuti u led, što se se prikazuje pravilima zaključivanja koja su odvojena od rječnika i služe kao posljednji mehanizam za razbijanje višeznačnosti.
MARGIE Meaning Analysis, Response Generation
and Inference on English
1975. Roger Schank
Wilksov sustav – usmjeren na prevođenje Schank ima šire težnje: prevođenje, prepričavanje, izvođenje zaključaka,
odgovaranje radnje se žele prikazati primjenom pojmova 11 osnovnih radnji (eng. acts): činjenica da se vidi, čuje,
pročita (MTRANS), fizički prijenos ATRANS ne rješava višeznačnost i pozadinsko znanje u jeziku nego
prikazuje samo najvjerojatnija značenja; različite rečenice istog pojmovnog sadržaja moraju
imati isti prikaz (Želim knjigu; Želim posjedovati knjigu; Želim imati knjigu) - osnovni princip ove teorije
reakcija na padežnu gramatiku N. Chomskog
Schank tvrdi da se prikaz prirodnog jezika može postići pojmovnom strukturom (eng. conceptual structure)
teorija pojmovne zavisnosti (Conceptual Dependency Theory) - osnovni elementi nisu riječi nego pojmovi (en. concepts)
dakle, temelj jezika čine pojmovi, koji su opisani u međujeziku Međujezik se sastoji od:
pojmova i odnosa (akcije) među pojmovima koji su zajednički jezicima
temelj čini jezik koji je pojmovnog tipa (eng. conceptual language)
pojmovna razina se opisuje u međukodu (interlingua), dok je rečenična razina specifična za jezik (eng. language specific)
prirodni jezik je predvidljiv, tj. temelji se na očekivanjima, zahvaljujući sintaksi i semantici pojmovne razine
za ovakav način obrade jezika, sintaksa je samo pokazivač na pojmovno značenje, te se koristi istovremeno sa pojmovnom obradom
1975. Roger Schank – program MARGIE
Conceptual Dependency (CD) Theory- Roger C. Schank (1972) (Conceptual Depandency: Theory of NLU// Cognitive Psychology, (3)4, 532-631)
dakle, temelj jezika čine pojmovi, koji su opisani u međujeziku. Međujezik se sastoji od pojmova i odnosa među pojmovima koji su zajednički jezicima.
Osnovne kategorije:
a) Pojmovi (imenice)
b) Akcije
a) Akcija se razlama u primitivne aktove ACTS i akcija ne odgovara glagolima
b) postoji rječnik aktova (eng. ACTs) kojima se opisuje svaki glagol i time određuje njegovo značenje
• Akciju čini niz aktova (1 glagol se može prikazati pomoću nekoliko aktova)
– 11 osnovnih radnji (eng. ACTs)
Fizičke radnjePROPEL primjeniti silu na fizički objektMOVE pokretati dio tijelaINGEST unijeti u tijelo živog bićaEXPEL silom izbaciti iz živog bićaGRASP zgrabiti fizički objekt
Radnje nastale promjenom stanjaPTRANS promjena lokacije fizičkog objektaATRANS promjena apstraktnih odnosa, npr. vlasništva
Radnje koje se koriste kao instrument za druge radnjeSPEAK proizvoditi zvuk govoromATTEND usmjeren na organ osjeta
Mentalne radnjeMTRANS transfer informacijaMBUILD kontrukcija nove informacije na temelju starih
1975. Roger Schank – program MARGIE
• svaki glagol zahtijeva niz pojmovnih padeža (eng. OBJECTIVE, RECIPIENT, DIRECTIVE, INSTRUMENTAL). Neophodni padeži čine očekivanja (ideja o predvidivosti jezika)
• Padežni odnosi čine temelj Schankove teorije.
• u rečenici Ivica je razbio prozor ili Prozor je razbijen od Ivice – glagol razbiti se opisuje osnovnim semantičkim jedinicama (aktovima) - (Ivica je vršilac radnje, prozor je objekt)
• Akciju čini niz aktova; glagol razbiti (Ivica je vršilac radnje, prozor je objekt)
• Sintaksa se opisuje nizom pravila, semantika se određuje na pojmovnoj razini
Ivica je dao knjigu Marici Marica je dobila knjigu od Ivice.
EVENT1 EVENT1 ACTOR: Ivica ACTOR: Marica
ACTION: ATRANS ACTION: ATRANSOBJECT: knjiga OBJECT: knjigaDIRECTION: DIRECTION:
FROM: Ivica FROM: IvicaTO: Marica TO:
Marica
Teorija pojmovne zavisnosti izbjegava sintaktičku obradu, ali se ona ipak nadoknađuje u leksikonu koji pohranjuje više informacija o svakoj riječi
Nedostatak: glagoli kao dati, kupiti, ukrasti opisuju se istim osnovnim semantičkim jedinicama (ATRANS)
CD teorija pogodna za opis jednostavnih akcija, naredbi, jednostavnih pitanja
Uklopljena u sisteme za obradu govora
Pravila određuju način kombiniranja radnji u prikaz značenja
2 osnovne vrste kombiniranja (konceptualizacije):
– živo biće kao vršitelj radnje
– objekt s opisom stanja
Konceptualizacije se mogu međusobno povezati odnosima instrumentalnosti, uzroka itd.
I za Wilksa i za Schanka osnovne jedinice imaju isključivo funkcionalnu ulogu
Zaključak:
III Racionalna primjena (1975-1988)
– za dobar prijevod potrebno osigurati razumijevanje ulaznog teksta
– Pomak na semantiku
– potrebno znanje o svijetu: rječnik + univerzalna enciklopedija
– Strategija međukoda
– Izlazak iz laboratorija u poduzeća i urede
– PC programi
Podjela MT sustava prema cilju (znanstveni ili praktični) (Tucker, A. u S. Nirenburg: Machine translation, p. 29-41 )
A. Operativni – mjere se troškom na 1.000 riječi i brzinom prevođenja po stranici na sat kojom radi post-urednik naprama relativni trošak i brzina ljudskog prevođenja. Georgetown i sljedbenici Taum-meteo Metal Systran Logos
B. Eksperimentalni–temeljeni na lingvističkim teorijama i UI, a ne na proizvodnji; ne vrijede kriteriji troškova i rokova; provode seznanstveni i praktični jezični eksperimenti Eurotra Japanski projekti: Fujitsu, Hitachi Susy DLT
Primjena
•Systran
– Ford, General Motors, Aerospatiale, Berlitz, US Air Force, National Air
Intelligence Center, Foreign Broadcasting Information Service, Xerox, European Commission
• Logos
– Ericsson, Lexi-Tech, Osram, Océ Technologies, SAP
• METAL
– Boehringer Ingelheim, Philips, Union Bank of Switzerland, SAP
Georgetown
– prvi operativni MT sustav prve generacije (1960-63)– Rusko-engleski– 250 riječi, 6 pravila, 49 rečenica – ali veliki interes Instaliran u Euratom (Ispra, Italy), 1963-76 Instaliran u US Atomic Energy Authority, Oakridge National
Laboratory, 1964-80 [ran until 1980] direktno prevođenje– primjena od 1964. za rusko-englesko prevođenje– Zamjena riječi– Bez lingvističke teorije
– ”The spirit is willing, but the flesh is weak” translated to Russian and then back to English. The result: ”The wine is agreeable, but the meat has spoiled”
I Operativni programi
Metal , započeo 1961.
– prevodi s njemačkog na engleski u području telekomunikacija (financira Siemens Corporation); kasnije dodani španjolski i kineski
– metoda transfera– Koristi 10.000 kanoničkih parova riječi u rječnicima koji povezuju
stemove– Gramatika (Phrase Structure Grammar) koristi 600 pravila;
nekoliko parsera– kontekstualna ograničenja uvjetuju sintaktičku i semantičku veću
određenost.– Do 1985. prevedeno se preko 1.000 stranica s njemačkog na
engleski. Kvaliteta varira od 45% do 85% u proteklih 5 godina. – Prevodi se kontekstualno i to cijele knjige
Operativni programi
METEO (od 1976. u kanadskoj vladi)
– meteorološki izvještaji eng-fr, fr-eng– Potpuno automatiziran postupak (razlog: prevoditelji nakon 6 mjeseci
daju ostavke) – dnevno obradi cca 80 000 riječi– Razlog: prevoditelji daju ostavke– 1.500 riječi; do 94% točnosti– 5 vrsta stabala
1. jedna riječ 2. stereotipni naslovi (ime, datum, dan)3. rečenica tipa: prilog – prilog – vrijeme (Uglavnom sunčano – s
umjerenim vjetrovima – danas)4. rečenica tipa: imenica – min i max temperaturu - vrijeme
(Temperatura – 15 do 18 stupnjeva – sutra)5. rečenica tipa: imenska skupina – prilog – dodaci (Prognoza za
petak – sunčano – s umjerenim vjetrovima)
Operativni programi
II. Eksperimentalni programi
Eurotra http://www-sk.let.uu.nl/stt/eurotra.html
– program za razvoj višejezičnog MT sustava za 9 jezika EEZ-a
– leksikoni od 200.000 riječi po jeziku– Sustav ima 7x6=42 transfer modula – jezici mogu koristiti nezavisne parsere
(ATN, gramatika fraznih struktura itd.).
II Eksperimentalni programi
Susy (1984)
– izveden iz rusko-njemačkog prototipa iz 1970. god. – višejezične mogućnosti (njemački, ruski, francuski, engleski, esperanto)– više istraživanje u MT, nego operativni sustav; – metoda transfera– Analiza u 8 koraka: identifikacija riječi, morfološka analiza, rješavanje
višeznačnosti homografa, parsiranje jednostavnih rečenica (prostih i proširenih – eng. clauses), analiza NP, analiza VP, kombiniranje NP i VP, rješavanje semantičke višeznačnosti.
– U rješavanju problema homografije koristi se heuristička metoda( za određivanje vrsta riječi )
– Za rješavanje semantičke višeznačnosti koriste se semantički rječnici, koji omogućavaju pridruživanje svojstava, a sintaktičkim strukturama transformacije
– Za transfer koriste se dvojezični rječnici u zamjeni izvornih riječi ciljnima – Za sintezu postoje 3 koraka: stvaranje idioma i “umjetnih”riječi, generiranje
nizova stemova i ciljnom jeziku, daljnje morfološko generiranje na stemove. Iako dobro razrađen, Susy sistem uglavnom je usmjeren na sintaktičku analizu, a manje na semantičku ili pragmatičku.
Eksperimentalni programi
DLT (Distributed Language Translation, 1983.)
– Cilj: razviti višejezični MT sustav pomoću međujezika– Pilot-projekt uključuje izradu međujezika za prevođenja s
međukoda na njemački, uz simulaciju izvornog jezika kroz dijalog
– Drugi dio uključuje razvoj ciljnog jezika, uključujući transfer rječnik s međujezika na njemački, sintetiziranje njemačkog rječnika (posuđenog od Susy, 1983)
– Posljednja faza - akumuliranja terminologije o međunarodnom poslovanju i pravu, zbog obogaćivanja rječnika
Eksperimentalni programi