Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Traduzione automa.ca e cri0ografia
Cris%na Bosco Informa%ca applicata alla
comunicazione mul%mediale 2015-‐2016
Il memorandum di Weaver -‐ 1949
Pochi anni dopo la comparsa dei primi computer e la fine della II guerra mondiale, Warren Weaver pubblica un memorandum, in.tolato “On transla)on”, in cui si descrivono in modo molto oBmis.co i possibili sviluppi per la MT.
Il suo oBmismo dipende dal successo o0enuto nella decri<azione e dalle teorie sulla comunicazione e cri0ografia elaborate in quel periodo da Shannon.
Cri0ografia e decri0azione
Già a par.re dall’an.chità sono state applicate tecniche di cri0ografia.
In modo più o meno sofis.cato le tecniche di cri0ografia comportano una riscri0ura di un documento sulla base di una chiave di interpretazione.
Cri0ografare un messaggio significa renderlo illeggibile a chi non possiede la chiave.
Cri0ografia e decri0azione
Esempio di messaggio cri0ografato:
Il cane mangia
Lm dbof nbohlb
12 3456 745814
Cri0ografia e decri0azione
Esempio di messaggio cri0ografato:
Il cane mangia
Lm dbof nbohlb
CHIAVE:
i = l ; l = m ; c = d ; a = b ; n = o ; e = f ; m = n ; g = h
(sos.tuzione di ogni le0era con quella seguente nell’alfabeto)
Cri0ografia e decri0azione
Esempio di messaggio cri0ografato:
Il cane mangia
12 3456 745814
CHIAVE:
i = 1 ; l = 2 ; c = 3 ; a = 4 ; n = 5 ; e = 6 ; m = 7 ; g = 8
(sos.tuzione di ogni le0era con un numero)
Cri0ografia e decri0azione
Le tecniche di decri0azione o cri0oanalisi sono tenta.vi di ricostruire una chiave di interpretazione (usata per cri0are il messaggio) sulla base di esempi cri0ografa..
Alla base di tali tecniche ci sono i da. sta.s.ci rela.vi alla frequenza delle le0ere e delle parole nel linguaggio ogge0o di cri0ografia.
Le stesse conoscenze sono importan. per i sistemi di NLP e di MT in par.colare.
Cri0ografia araba an.ca
Fin dal VII sec. d.C. nelle scuole teologiche arabe (di Bassora, Kufa e Baghdad) si svilupparono tecniche di cri0oanalisi.
Raffina. metodi linguis.ci vennero applica. al Corano e all’Hadith (raccolta delle massime di Maome0o).
Il computo della frequenza di alcune parole consenc di stabilire la cronologia dei capitoli del Corano. Spingendo l’esame dei tes. alle singole le0ere se ne scoprì la frequenza variabile (a e l sono le più usate in arabo, mentre g è 10 volte meno usata).
Cri0ografia araba an.ca
La scoperta della frequenza variabile delle le0ere è la prima grande scoperta della cri0oanalisi e viene descri0a per la prima volta nella monografia del IX sec. Sulla decri3azione dei messaggi cri3a) di Abu Yusuf ibn Ishaq al-‐Kindi, che con.ene disquisizioni di sta.s.ca, fone.ca e sintassi dell’arabo.
La scoperta dimostra che nella cri0oanalisi non occorre controllare tu0e le possibili combinazioni di simboli, ma solo quelle che hanno le stesse frequenze della lingua cri0ata.
Cri0ografia an.ca (il ‘500)
Lo sviluppo dell’analisi delle frequenze rese meno sicura la cri0ografia basata su sos.tuzione monoalfabe.ca che era la più diffusa nel mondo an.co.
Leon BaBsta Alber. (nato nel 1404) propose la prima forma di cri0ografia bialfabe.ca (le le0ere pari sos.tuite da un alfabeto cifrante e le dispari da un altro), ma l’idea fu sviluppata da Blaise de Vigenère (nato nel 1523) nella cifratura basata su una tavola di 26 righe: la ciffre indéchiffrable .
La ciffre indéchiffrable
Per cifrare ogni le0era è usata una riga della tavola di Vigenère che è scelta in base ad una parola chiave.
Con una cifratura di questo .po, polialfabe.ca, la stessa le0era è cifrata in mol. modi diversi nel corso dello stesso messaggio e diventa di conseguenza impossibile vedere la frequenza delle le0ere del messaggio originale.
Questo rese per diversi secoli la cifratura alla Vigenère indecifrabile, ma anche difficile da u.lizzare, e spiega perché sovente ad essa vennero preferite cifrature meno sicure.
La ciffre indéchiffrable
Per ogni le0era è usata una riga della tavola di Vigenère in base alla parola chiave. Data la parola chiave “BEFFA”, e il messaggio “Vai a casa di Mario”:
Chiave: B E F F A B E F F A B E F F A M-‐chiaro: V a i a c a s a d i M a r i o M-‐Cifrato: W e n f c b w f i i n e w n o
Babbage e la cri0oanalisi
Charles Babbage (nato nel 1791) è noto per avere proge0ato il precursore del computer e per il suo lavoro nella cri0oanalisi.
Scienziato poliedrico scoprì che l’ampiezza degli anelli dei tronchi dipende dal clima dell’anno corrispondente, compilò le prime tabelle di mortalità che sono usate dalle assicurazioni, propose la tariffazione unica indipendente dalla distanza per le spedizioni postali delle le0ere.
Babbage e la cri0oanalisi
Charles Babbage esaminando le tavole numeriche usate per calcoli astronomici e navali scoprì mol. errori e proge0ò la macchina delle differenze 1 per fare i calcoli in modo automa.co. A questo proge0o seguì la macchina delle differenze 2, considerata il precursore del computer. I due progeB non vennero realizza. per mo.vi economici e pra.ci.
Babbage e Vigenère Babbage trovò il sistema per decri0are la ciffre indéchiffrable.
La stessa le0era è cifrata in modo diversi e quindi la stessa parola è cifrata in modi diversi. Tu0avia se la stessa le0era o parola si trova più volte nella stessa posizione rispe0o alla chiave, allora verrà cri0ata nello stesso modo. Quindi in un testo sufficientemente lungo in rapporto alla lunghezza della chiave, si troveranno delle ripe.zioni.
Babbage e Vigenère
Esempio:
Cri0ografia e decri0azione
Tecniche di decri0azione in senso lato sono quelle u.lizzate nello studio di linguaggi an.chi … la stele di Rose0a … il lineare B …
Come nella decri0azione di messaggi a chiave, si rileva la presenza ricorrente di determinate sequenze di simboli (regolarità sta.s.che), riconosciute le quali si può formulare una interpretazione del linguaggio.
Oltre alla frequenza delle le0ere si deve considerare anche la loro co-‐occorrenza.
Cri0ografia e decri0azione
Il lineare B è la lingua u.lizzata dagli an.chi abitan. di Creta e di alcune zone della Grecia.
Scoperto negli scavi di Evans a Creta nel 1900, rimase indecifrabile fin dopo la fine della seconda guerra mondiale, e fu decifrato con tecniche .piche della decri0azione da Michael Ventris nel 1952, mostrando che si tra0ava di una forma arcaica di greco an.co scri0a con cara0eri differen..
Cri0ografia e decri0azione
Tecniche di cri0ografia sono oggi molto u.lizzate in Internet, tu0e le volte che un messaggio con.ene da. “sensibili” appropriandosi dei quali si potrebbero comme0ere rea., come frodi e fur..
Si tra0a ad esempio del numero della carta di credito nelle transazioni del commercio ele0ronico, o delle credenziali degli uten., delle firme ele0roniche.
Cri0ografia e decri0azione
Tecniche di cri0ografia sono state applicate in modo sistema.co per scopi bellici, fin dall’an.chità, ma sopra0u0o durante la II guerra mondiale.
Alcuni storici a0ribuiscono il successo degli allea. all’aBvità di decri0azione svolta dal gruppo di scienzia. di Bletchley Park.
Cri0ografia e decri0azione
Durante la II guerra mondiale i tedeschi costruirono sofis.cate macchine (Enigma) per cri0ografare e decri0are i messaggi di importanza strategica.
Una di queste macchine cadde però nelle mani dell’esercito inglese.
Cri0ografia e decri0azione Gli inglesi costruirono macchine per la decri0azione in grado di provare in tempi rela.vamente brevi molte possibili chiavi sui messaggi interce0a..
E ovviamente trassero vantaggio dalla macchina Enigma rubata ai tedeschi.
Tra gli scienzia. di Bletchley Park, c’era anche Alan Turing, oggi considerato come uno dei pionieri dell’informa.ca.
I primi sistemi
I primi sistemi di MT, di cui parla Weaver nel 1949, sono ampi dizionari bilingui le cui entry lessicali nel linguaggio sorgente (LS) contenevano uno o più termini equivalen. nel linguaggio target (LT).
Si tra0ava di traduzione parola per parola.
I precursori
Ma l’idea della MT nasce ben prima dell’avvento dei computer e dei primi sistemi di cui parla Weaver.
Già nel XVII secolo alcuni filosofi come Leibniz e Cartesio discutevano di ‘linguaggi universali’ per facilitare il commercio e lo scambio di conoscenza tra i popoli, e di ‘linguaggi logici’ che rappresentano un precedente per i linguaggi di programmazione.
I precursori
All’inizio del XX secolo vengono costruite le prime macchine per la traduzione ed i primi ‘cervelli meccanici’, ad opera di due studiosi indipendentemente:
George Artsouni Petr Trojanskiy
I precursori
Nel 1933, Georges Artsouni
ideò un “cervello meccanico”, un disposi.vo per tra0are (archiviare, consultare e stampare) informazioni, creato per scopi di cri0ografia, ma u.lizzabile per la traduzione e basato sulla traduzione dire0a parola per parola
(senza nessuna analisi linguis.ca so0ostante)
I precursori
Nel 1933, Petr Petrovic Trojanskij
breve0a un modello più evoluto di macchina per la traduzione che prevede la trasformazione
del testo in forma logica universale (esperanto) prima di passare alla lingua di des.nazione e u.lizza rudimentali forme di
analisi morfologica e sintaBca
I precursori
L’importanza dei precursori sta nel fa0o di aver proposto i due modelli di traduzione che nella storia della MT verranno costantemente ripropos.: parola per parola e basato su interlingua.
I primi sistemi
Dopo i precursori arriva la II guerra mondiale e il successo della cri0ografia, l’invenzione del computer, i primi sistemi di MT … e il memorandum di Weaver.
Il memorandum suscita molto entusiasmo acri.co e provoca lo stanziamento di fondi per la ricerca sulla MT, sopra0u0o da parte del governo USA.
Ma Weaver è un matema.co e non coglie la complessità del problema della traduzione.
I primi sistemi
Dalla fine degli anni ‘50 comincia a diminuire l’entusiasmo per la MT, ma cresce la consapevolezza dei problemi che stavano dietro la MT che necessitava di:
-‐ conoscenza linguis.ca -‐ conoscenza del mondo -‐ e per la quale le tecniche di cri0ografia non erano adeguate
Cri0ografia?
Perchè non funzionano le tecniche di cri0ografia?
Si basano su iden.ficazione e sos.tuzione di unità individuali
A B C D E F G H I J K L M N O P Q R …
Z Y X W V U T S R Q P O N M L K J I …
HELLO = SVOOL = HELLO
Ma nel linguaggio le parole devono essere
Cri0ografia?
Perchè non funzionano le tecniche di cri0ografia?
Nel linguaggio le parole devono essere viste nel contesto:
The | green | cars
Le | vert | voitures (invece di les voitures vertes)
Gli anni ‘60
Fu presto chiaro che erano necessarie anche regole per manipolare l’ordine delle parole che poteva variare nella LT rispe0o alla LS.
Ma le regole che servivano in abbinamento al dizionario sembrava essere troppe e quasi sempre ad hoc, a causa della grande varietà stru0urale e lessicale del linguaggio umano.
Gli anni ‘60
La soluzione era lavorare ad un altro livello di astrazione, cioè fare analisi morfologica e sintaBca del testo.
Si sviluppano sistemi ispira. a varie teorie linguis.che, prevalentemente chomskiane basate su cos.tuen. e trasformazioni.
Gli anni ’60: Georgetown
Per mantenere vivo l’oBmismo suscitato da Weaver si svolse quello che è rimasto noto come l’esperimento di Georgetown.
Nel 1954 l’IBM organizza con successo un esperimento che consisteva nel tradurre dal russo all’inglese 49 frasi (accuratamente preparate) u.lizzando 6 regole gramma.cali e 250 item lessicali.
Cri.ca della MT
Ma all’inizio degli anni ’60 l’oBmismo cala grazie ad analisi sempre più oggeBve sullo stato dell’arte della MT, ed in par.colare:
-‐ Il survey pubblicato da J. Bar-‐Hillel
-‐ Il rapporto ALPAC.
Cri.ca della MT: Bar-‐Hillel
Nel 1960 Joshua Bar-‐Hillel pubblica un survey dove dimostra che non è possibile la traduzione completamente automa.ca di alta qualità.
Bar-‐Hillel non si pronuncia contro la possibilità pra)ca di realizzare la traduzione automa.ca, ma contro la sua stessa possibilità teorica.
Secondo lui la traduzione non è un compito difficile, ma impossibile.
Cri.ca della MT: Bar-‐Hillel
Bar-‐Hillel u.lizza in par.colare un argomento per dimostrare che la MT non è possibile:
è impossibile tradurre senza avere conoscenza contestuale e del mondo, e un sistema di MT non può avere questo .po di conoscenza.
Cri.ca della MT: Bar-‐Hillel
La sua dimostrazione si basa sulla frase “The box was in the pen”
(un essere umano, ma non un sistema di MT, è in grado di selezionare per la parola PEN il significato ‘gabbia per animali’ invece che ‘ogge0o per scrivere’ perché ha conoscenza delle dimensioni rela.ve di scatole e penne, cioè conoscenza del mondo)
Cri.ca della MT: Bar-‐Hillel
I tradu0ori umani u.lizzano la loro conoscenza del mondo per tradurre, prevalentemente in modo inconsapevole, per risolvere le ambiguità sintaBche e seman.che che le macchine non sanno risolvere o risolvere corre0amente.
La MT è possibile solo se il testo da tradurre è stato compreso, in modo appropriato dal meccanismo di traduzione.
Cri.ca della MT: Bar-‐Hillel
Il contesto da cui le argomentazioni di Bar-‐Hillel provengono è quello dei primi analizzatori sintaBci che potevano produrre una grande quan.tà di stru0ure alterna.ve anche per frasi molto semplici.
Oggi sappiamo che abbiamo bisogno di conoscenza seman.ca per risolvere queste ambiguità e che esistono modi di rappresentare tale conoscenza … anche se ancora oggi è difficile usarla nei sistemi.
Cri.ca della MT: ALPAC
Nel 1966, il governo statunitense promuove uno studio sistema.co della aBvità legate alla MT nel mondo accademico e industriale.
Il risultato è la pubblicazione del rapporto ALPAC (Automa.c Language Processing Advisory Commi0ee) che dimostra i limi. della MT e mo.va il taglio dei fondi dedica. alla MT del decennio successivo.
Il rapporto ALPAC
Il .tolo: Language and machines: computers in transla)on and linguis)cs
• Il rapporto intendeva inves.gare non solo la MT ma tu0a l’area della linguis.ca computazionale
• Ma, in quel momento storico, la maggior parte dell’aBvità nell’ambito della linguis.ca computazionale era dedicata alla MT
Il rapporto ALPAC
Perché con.nuare a lavorare nella MT? • Per ALPAC l’impegno nella MT poteva essere gius.ficato solo se la ricerca e sviluppo correla. alla MT fossero sta. in grado di produrre, in breve tempo, una riduzione di spesa o una buona prestazione o la soddisfazione di una necessità opera%va.
Il rapporto ALPAC
Le domande a cui il rapporto tenta di rispondere sono:
• La MT può costare meno dei tradu0ori umani impiega. dal governo?
• La MT può offrire traduzioni di qualità analoga a quella offerta dai tradu0ori umani?
• Quanto del materiale trado0o è realmente necessario tradurre?
Il rapporto ALPAC
La prospeBva nel rispondere a queste domande è fortemente orientata a:
• Basarsi sulle necessità del governo e dell’esercito americano
• Prendere in considerazione solo l’inglese e il russo
• Non considerare le necessità di altri potenziali uten. della MT e di altre lingue
Il rapporto ALPAC
I da. mostra. nel rapporto: • Il 76% della produzione scien.fica era in lingua inglese, il 14% in russo
• Una conoscenza della lingua russa poteva essere o0enuta in circa 200 ore
• I tradu0ori professionis. avevano un salario molto inferiore a quello degli scienzia. impegna. nella MT e c’era ampia disponibilità di tradu0ori professionis.
Il rapporto ALPAC
I da. mostra. nel rapporto: • Erano ogge0o di traduzione mol. tes. inu.li (meno del 30% degli ar.coli scien.fici tradoB da russo a inglese erano acce0a. per la pubblicazione su riviste americane)
• L’utenza dei servizi di traduzione era estremamente limitata (scienzia. prevalentemente)
Il rapporto ALPAC
Non c’era quindi nessuna emergenza su ampia scala a cui la MT dovesse fare fronte.
“The problem is not to meet some nonexistent need through nonexistent machine transla)on. There are, however, several crucial problems of transla)on. These are quality, speed and cost.”
Il rapporto ALPAC
Quale era la qualità della MT? • Non esisteva ancora un modo di valutarla
• Viene proposto nel rapporto ALPAC un esperimento da cui risulta che la qualità anche della traduzione umana era variabile, ma comunque più elevata di quella offerta dalla MT
Il rapporto ALPAC
Quale era la velocità della MT? • Il sistema di MT più rapido traduceva 50 pagine in 15 giorni, tenendo conto della necessità di post-‐edi.ng
Il rapporto ALPAC
Quale era il costo della MT? • Leggere un documento D trado0o da MT richiedeva il doppio del tempo che quando D era trado0o da un tradu0ore; se D aveva più di 20 le0ori, conveniva applicare la traduzione umana
• Era meglio spendere per apprendere il russo o per pagare meglio i tradu0ori che per la MT
• 20 milioni di dollari (in realtà 12-‐13) erano sta. inves.. nella MT negli ul.mi 10 anni
Il rapporto ALPAC
In conclusione lo stato della MT: • La MT deve essere un mezzo per passare da un testo in LS a uno in LT senza intervento umano
• Non esisteva ne’ sarebbe esis.to entro breve tempo un simile sistema di MT
• Il post-‐edi.ng richiesto dai sistemi di MT, secondo la valutazione dei tradu0ori, era lungo quanto una traduzione ex novo
Il rapporto ALPAC
Si auspicava pertanto: • Lo sviluppo di sistemi di machine-‐aided (e non human-‐aided) transla)on, più economici e u.li della MT: CAT
• Si riconosceva il contributo della MT allo sviluppo della linguis.ca computazionale, ma era quest’ul.ma che doveva essere supportata economicamente e sviluppata, non la MT