28
Supplemento al numero 219 di settembre 2004 di MEDIA DUEMILA I quaderni di E uropa “allargata”: 25 paesi e 25 lingue. La necessità di comprendersi, di dialogare, di scambiare messaggi, dati, informazioni diventa sempre più urgente. Una prospettiva che sta facendo compiere significativi passi in avanti alle tecniche che portano a realizzare (non è più un sogno!) la traduzione automatica, la comprensione di una notizia, in qualunque lingua venga scritta o detta. La multimedialità è da tempo oggetto di sperimentazioni e di realizzazioni si- gnificative e importanti. In quest’ambito uno spazio di primo piano sta conqui- stando la traduzione automatica, come dimostra il “libro bianco” sul TAL (trat- tamento automatico del linguaggio) che la Fondazione Ugo Bordoni presenta al- la Fiera del Libro a Francoforte (6-10 ottobre 2004), l’appuntamento più atteso e significativo dell’editoria mondiale. Da anni la traduzione automatica è sul tavolo della sperimentazione. Progres- si marcati si stanno registrando da quando si sono diffusi anche a livello di sin- goli cittadini (e non soltanto di imprese) i servizi on line gratuiti di TA (traduzio- ne simultanea). In pratica: un testo dettato in italiano può essere oggi tradotto immediatamente e automaticamente in altre lingue (una quindicina sulla base delle tecnologie finora messe a punto). E l’apparecchio è in grado di leggere il testo nelle singole lingue prescelte. L’editoria del futuro è multimediale e nel contempo multilingue. Una sfida è politica (oltre che tecnologica): non si tratta di imporre una lingua comune a tutti, una “globalizzazione del parlare”, oltretutto impossibile, ma di creare le condizio- ni tecniche perché i popoli possano comprendersi e avanzare lungo la strada della comunicazione e della conoscenza. Che è la strada del progresso e della pace. Una sfida dell’Europa a 25: la molteplicità delle traduzioni L’editoria multimediale a Francoforte A cura di Alberto Mucci

I quaderni di

  • Upload
    votuong

  • View
    233

  • Download
    1

Embed Size (px)

Citation preview

Supplemento al numero 219 di settembre 2004 di MEDIA DUEMILA

I quaderni di

Europa “allargata”: 25 paesi e 25 lingue. La necessità di comprendersi,di dialogare, di scambiare messaggi, dati, informazioni diventa semprepiù urgente. Una prospettiva che sta facendo compiere significativi

passi in avanti alle tecniche che portano a realizzare (non è più un sogno!) latraduzione automatica, la comprensione di una notizia, in qualunque linguavenga scritta o detta.

La multimedialità è da tempo oggetto di sperimentazioni e di realizzazioni si-gnificative e importanti. In quest’ambito uno spazio di primo piano sta conqui-stando la traduzione automatica, come dimostra il “libro bianco” sul TAL (trat-tamento automatico del linguaggio) che la Fondazione Ugo Bordoni presenta al-la Fiera del Libro a Francoforte (6-10 ottobre 2004), l’appuntamento più attesoe significativo dell’editoria mondiale.

Da anni la traduzione automatica è sul tavolo della sperimentazione. Progres-si marcati si stanno registrando da quando si sono diffusi anche a livello di sin-goli cittadini (e non soltanto di imprese) i servizi on line gratuiti di TA (traduzio-ne simultanea). In pratica: un testo dettato in italiano può essere oggi tradottoimmediatamente e automaticamente in altre lingue (una quindicina sulla basedelle tecnologie finora messe a punto). E l’apparecchio è in grado di leggere iltesto nelle singole lingue prescelte.

L’editoria del futuro è multimediale e nel contempo multilingue. Una sfida èpolitica (oltre che tecnologica): non si tratta di imporre una lingua comune a tutti,una “globalizzazione del parlare”, oltretutto impossibile, ma di creare le condizio-ni tecniche perché i popoli possano comprendersi e avanzare lungo la strada dellacomunicazione e della conoscenza. Che è la strada del progresso e della pace.

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

L’editoria multimediale a Francoforte

A cura di Alberto Mucci

59

60

67

71

79

Sono usciti:

Il Quaderno è stato realizzato dalla Fondazione Ugo Bordoni (Presidente il Prof. GiordanoBruno Guerri, Direttore Generale il Consigliere Guido Salerno, Direttore delle Ricerche l’Ing.Mario Frullone). Coordinatore del Quaderno l’ing. Andrea Paoloni. Hanno collaborato: AndreaDi Carlo, Fondazione Ugo Bordoni; Johanna Monti, Università degli Studi di Napoli “L’Orientale”;Claudio Cirilli, SYNTHEMA s.r.l.; Gianni Lazzari, Itc-irst; Elisa Ranucci-Fischer, DGT.

Sono usciti:

I satelliti nella società multimediale dicembre-gennaio 2003

Telefonia mobile e emissioni elettromagnetiche febbraio 2003

Le reti di telecomunicazioni diventano intelligenti marzo 2003

Mentre viaggi lavori con Internet aprile 2003

Come garantire sicurezza con lo sviluppo di Internet maggio 2003

Le macchine che parlano giugno 2003

Le macchine che capiscono luglio-agosto 2003

Il progresso tecnologico fra brevetti e standard settembre 2003

La rendicontazione? Automatica, ma… ottobre 2003

Le nuove tecnologie fotoniche novembre 2003

Il progetto Galileo sta diventando realtà dicembre-gennaio 2004

Non confondere la biometrica con il “grande fratello febbraio 2004

Dal call center al contact center marzo 2004

La larga banda si diffonde cambia la vita della gente aprile 2004

I campi elettromagnetici non sono più “sconosciuti” maggio 2004

Anche l’Italia si dota di un organismo che certifica la sicurezza informatica giugno 2004

Il digitale terrestre accende i motori luglio-agosto 2004

Il “libro bianco” sul TAL

Dal sogno meccanico alla e-translation – la traduzione automatica è diventata realtà?

Traduzione automatica: storia, situazione e prospettive

Comunicare con le tecnologie del linguaggio nell’era globale

L’informatica a sostegno del multilinguismo: il servizio di traduzione della Commissione europea

INDICEINDICE

tutti usiamo, soprattutto per evitare i refusi;un altro esempio è costituito dai sistemi ditraduzione automatica, che permettono an-che a chi non conosce una lingua di avere al-meno un’idea del contenuto di un messaggioo di una pagina web.

Il testo presenta le principali tecnologie ri-conducibili al TAL, come la gestione dei con-tenuti, l’indicizzazione e la ricerca d documen-ti testuali disponibili in rete, l’indicizzazione el’archiviazione di materiale vocale in basi didati multimediali, la traduzione automatica deitesti scritti e della comunicazione orale, l’inter-faccia vocale per il comando vocale agli elet-trodomestici o dell’automobile o per applica-zioni più complesse tra le quali l’aiuto ai disa-bili. Alla rassegna delle applicazioni e degli al-goritmi che sono alla base dei sistemi oggi di-sponibili, segue un capitolo che illustra lo Sta-to dell’arte del TAL in Italia; vengono descrittii risultati dell’analisi di 71 questionari riempitida soggetti del mondo accademico e del mon-do dell’industria e dei servizi. In particolare,l’attenzione è stata rivolta all’attività e alla pro-duzione realizzate da strutture nazionali; nellarassegna pertanto non compaiono soggettistranieri o multinazionali che, pur presenti sulmercato italiano con prodotti di TAL, nonhanno in Italia strutture di produzione o di ri-cerca e sviluppo.

Sono stati descritti ben 206 progetti di ri-cerca e sviluppo, l’offerta commerciale relativaa 229 prodotti, e anche l’attività di formazioneuniversitaria.

Da questa analisi sono risultati alcuni inte-ressanti spunti per ulteriori discussioni, ad e-sempio l’esigenza di far conoscere e megliopromuovere le potenzialità del TAL nelle Pub-bliche Amministrazioni che sembrano esserescarsamente presenti nella risposta ai questio-nari e nelle collaborazioni ivi evidenziate, mad’altro canto mostrano un significativo interes-

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

Il ForumTAL sul trattamento automaticodel linguaggio, costituito presso il mini-stero delle comunicazioni con l’obiettivodi supportare la ricerca e lo sviluppo nelle

tematiche della comunicazione parlata e scritta(Trattamento Automatico del Linguaggio -TAL), ha individuato come suo primo obietti-vo la stesura di un libro bianco che fornisca,nel medesimo tempo, un riferimento sullo sta-to dell’arte di questa tecnologia e una guidadel mercato italiano delle tecnologie del lin-guaggio contenente l’elenco completo degliEnti interessati al TAL nell’ambito della ricer-ca, della formazione e dell’industria.

Il Libro Bianco sul TAL vuole pertanto es-sere uno strumento di lavoro per tutti coloroche svolgono un’attività nel campo della lin-guistica computazionale e soprattutto unaguida per coloro che sono interessanti ad in-trodurre queste tecnologie nella loro attivitàper migliorare l’impatto della loro offertacommerciale.

Il Libro Bianco parte dalla definizione dicosa sia il TAL, e il compito non è facile per-ché il trattamento del linguaggio pervademolte applicazioni senza identificarsi nella re-lativa tecnologia di riferimento. Si pensi ai te-lefonini, che contengono numerose tecnolo-gie TAL, relative sia all’elaborazione del par-lato, come la codifica della voce alla base del-la tecnologia “GSM”, sia il riconoscimentodel parlato, per consentire di effettuare unachiamata senza comporre il numero di telefo-no ma semplicemente pronunciando un no-me, sia l’elaborazione del testo, si pensi alletecniche di scrittura degli SMS; nonostanteciò il cellulare non viene identificato comeprodotto TAL. Un altro esempio di uso in-consapevole della tecnologia TAL è il corret-tore di testi (in genere disponibile per varielingue) che tutti abbiamo sul computer, che

59Settembre 2004

Il “libro bianco” sul TAL

di questo mercato. Non intendiamo qui pro-porre le risposte, talvolta contraddittorie, chesono state fornite alle precedenti domande, cilimitiamo a citare l’accordo unanime circa lanecessità di una formazione multidisciplinareattualmente carente e la scarsa informazionesulle potenzialità di questa tecnologia che,conseguentemente, è poco diffusa negli am-bienti di lavoro.

Alle interviste fa seguito un capitolo con lepresentazioni di tutti gli enti che hanno rispo-sto al questionario loro sottoposto e sulla basedel quale sono state tratte le notizie del capito-lo secondo. Infine i capitoli successivi conten-gono l’elenco dei prodotti disponibili in Italiae l’indirizzario delle ditte e degli enti impegna-ti nel TAL.

Il Libro Bianco verrà presentato alla Fie-ra del Libro di Francoforte, che costituiscel’evento più significativo per l’editoria mon-diale; presso la mostra saranno disponibilisistemi dimostrativi della tecnologia TAL,volti a rendere visibile le potenzialità di que-sta tecnologia.

ANDREA PAOLONI E ANDREA DI CARLO

Fondazione Ugo Bordoni

La storia della traduzione automatica/as-sistita, ovvero il tentativo di automatizzaretutto o parte del processo di traduzione, è,da un lato, caratterizzata dagli entusiasmi,talvolta eccessivi, da parte dei ricercatori im-pegnati nella progettazione e nello sviluppodei sistemi (che soprattutto all’inizio sperava-no di ottenere risultati se non uguali, almenocomparabili alla traduzione effettuata da tra-duttori professionisti) ma, dall’altra, dalladiffidenza del grande pubblico, e dai timori

Il “libro bianco” sul TAL

se partecipando ai livelli più alti alla vita delForumTAL.

Dall’analisi emergono difficoltà nel quantiz-zare economicamente il dominio e una scarsadiffusione della cultura della condivisione deiprodotti per scopi di ricerca. Sembra inoltre op-portuno promuovere una maggiore sinergia trale varie componenti della comunità nazionale.

Sul piano della formazione si segnala unprogressivo disimpegno dal dominio dellecomponenti scientifiche fisico-matematiche, afavore dell’ingegneria e delle cosiddette“scienze umane”.

Segue poi un capitolo che contiene dieci in-terviste ad esperti di differente qualifica i qualiillustrano il loro punto di vista sulla tecnologiadel TAL.

Agli intervistati, che sono utenti di questatecnologia, sviluppatori della stessa o addettialla ricerca, sono state poste domande relativealla diffusione della conoscenza della tecnolo-gie, all’importanza che riveste nell’ambito del-la cultura, alle strade da battere per promuo-verla, su quali siano le ricerche da privilegiare,e su come stimolare lo sviluppo della crescita

La traduzione automatica ripropone intermini moderni uno dei più antichisogni dell’uomo: la possibilità di co-struire una macchina in grado di

pensare e agire come un essere umano. L’ipo-tesi di partenza è che i complessi meccanismimentali che governano l’attività umana di tra-duzione da una lingua naturale ad un’altrasiano riducibili, almeno in parte, ad un insie-me di procedure eseguibili da un programmadi calcolatore elettronico.

60

Dal sogno meccanico alla e-translation:la traduzione automatica è realtà?

I quaderni di

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

61Settembre 2004

Figura 1. Schema logico dei sistemi di traduzione.

da parte dei traduttori nei confronti dellenuove tecnologie.

La prima idea

La prima idea di un dizionario basato su co-dici numerici per tradurre da e verso altre lin-gue risale addirittura all’Illuminismo europeoe fu sviluppata da Descartes e Leibniz. Taleconcetto si ispirava al movimento che teorizza-va il “linguaggio universale”, ovvero un lin-guaggio basato su principi logici e su simboli i-conici comprensibili universalmente. Questa i-dea venne sviluppata solo con l’avvento delcalcolatore e con i progressi dell’informaticanel secolo scorso: gli universali linguistici, ov-vero regole comuni a tutte le lingue naturali,sembravano poter essere la base ideale per larealizzazione di un software in grado di tradur-re da una lingua naturale ad un’altra senza al-cun intervento da parte dell’uomo.

Negli anni ’60, sull’onda della grammaticagenerativo-trasformazionale elaborata dal lin-guista americano Noam Chomsky, la ricercanel campo della TA si orientò alla realizzazionedi grammatiche formali, concentrandosi esclu-sivamente sugli aspetti sintattici del linguaggio.Ma questo approccio approdò ad un punto dinon ritorno verso la metà degli anni ’60 quan-do si realizzò che la sintassi da sola rappresen-

tava una base insufficiente per la traduzioneautomatica: i risultati prodotti dai sistemi ditraduzione automatica di tipo sintattico eranoinfatti assolutamente scoraggianti. L’idea dellinguaggio universale basato su meri principisintattici si scontrò con il problema della poli-semia, dell’ambiguità e della complessità dellinguaggio naturale. Superare le barriere se-mantiche divenne il vero problema per i ricer-catori impegnati in questo settore. Essendo o-ramai divenuto chiaro che la sola analisi sintat-tica consentiva di disambiguare i testi solo a li-vello morfo-sintattico, ma non era di alcun aiu-to nella comprensione ed interpretazione di untesto, la ricerca si orientò verso lo sviluppo disistemi basati su modelli semantici, che si rite-nevano potessero operare in maniera più effi-cace rispetto ai modelli sintattici. Ma anche inquesto caso i risultati furono alquanto delu-denti.

L’idea di un metalinguaggio basato su uni-versali linguistici venne quindi abbandonato infavore di un approccio meno ambizioso, piùpragmatico, ma che produsse risultati qualita-tivamente migliori, ovvero l’approccio a tran-sfer, utilizzato da molti sistemi commerciali at-tualmente sul mercato, come ad esempio Sy-stran, su cui si basa il servizio di traduzione au-tomatica on-line BabelFish. I sistemi a transfersono basati su una struttura a tre fasi.

è frutto della creatività dell’essere umano. Illinguaggio utilizzato dal computer, invece, èun linguaggio artificiale, caratterizzato da unaestrema rigidità, basato su regolarità e ricorsi-vità. Nel passaggio dal linguaggio naturale allinguaggio del computer si perde sempre qual-cosa.

Così, benché l’obiettivo della traduzioneautomatica sia la traduzione da una lingua na-turale ad un’altra senza l’intervento umano, ilrisultato del processo di traduzione automaticanon è una lingua naturale, bensì la lingua che èil sistema è stato programmato a produrre. Illinguaggio prodotto da un sistema di TA è difatto il risultato dell’esecuzione di algoritmi,basati su un insieme limitato di dati (lessicali,sintattici e talvolta semantici) ed è dunque unalingua artificiale. Il linguaggio umano è il risul-tato della creatività umana, che non è guidatada processi di tipo algoritmico, bensì da pro-cessi complessi non pienamente rappresenta-bili in un codice macchina in quanto guidati daintuizione e flessibilità.

Nel primo capitolo del suo libro Dire quasila stessa cosa: esperienze di traduzione, (Bom-piani 2003) U. Eco chiarisce molto bene que-sto contrasto tra lingua naturale e lingua utiliz-zata dal computer, sulla base di una serie ditraduzioni effettuate utilizzando appunto Ba-belFish, il servizio gratuito di traduzione auto-matica offerto da Altavista.

Storia della traduzione automatica

Il primo vero impulso allo sviluppo di siste-mi di traduzione automatica si ebbe nel secoloscorso. I primi tentativi degni di nota si ebberoinfatti negli anni ’30 quando Pëtr Smirnov-Troyanskii presentò in Russia un primo proto-tipo di traduttore automatico, e nel 1933 uningegnere francese di origini armene, GeorgesArtsrouni, brevettò una macchina per tradurredal nome “Mechanical Brain”.

Gli storici della materia fanno risalire il ve-ro inizio della traduzione automatica alle con-versazioni ed alla corrispondenza che ebbero

Dal sogno meccanico alla e-translation: la traduzione automatica è realtà?

La prima fase è rappresentata dall’analisidella lingua di partenza che ha come risultatoil passaggio dalla lingua naturale ad una rap-presentazione astratta della lingua stessa, siadal punto di vista lessicale che grammaticale(ed, in alcuni casi, anche dal punto di vista se-mantico): questa rappresentazione astratta in-termedia rappresenta la base per la successivafase di transfer in cui si trasforma, ovvero siconverte, tale rappresentazione della lingua dipartenza nella corrispondente rappresentazio-ne astratta della lingua di arrivo. L’ultima fasedi generazione converte nuovamente la rap-presentazione astratta intermedia della linguad’arrivo nella corrispondente lingua naturale.

Ad approcci di tipo linguistico al problemadella traduzione automatica, come quelli fin’o-ra descritti, si sono affiancate, nel corso degliultimi anni, linee di ricerca diverse che riguar-dano sostanzialmente lo sviluppo di basi cono-scenza, di modelli statistici e di ampi corporatestuali bilingui e multilingui.

La tendenza attuale è quella di un approc-cio integrato, ovvero l’integrazione di tecnolo-gie tradizionali con approcci diversi, comequelli appena menzionati, anche di tipo nonlinguistico, avvantaggiandosi dei benefici of-ferti dalle diverse tecnologie, unificate all’in-terno di un unico sistema.

L’obiettivo perseguito

Nonostante i progressi dell’informatica, ne-gli ultimi anni la ricerca nel campo della TAnon ha avuto grosse evoluzioni e non ha pro-dotto grossi miglioramenti relativamente allaqualità della traduzione e soprattutto non èstata ancora sviluppata una macchina in gradodi riprodurre il ragionamento ed il linguaggiodi un essere umano. Obiettivo questo difficil-mente perseguibile, almeno allo stato attuale,da parte di un computer soprattutto se si con-sidera che il linguaggio naturale è caratterizza-to dalla massima libertà di espressione e dallamassima flessibilità, è aperto al cambiamento,non è basato su regolarità bensì su irregolarità,

62 I quaderni di

non intravide nessuna utilità immediata e nonritenne necessari ulteriori investimenti e finan-ziamenti in questo campo.

Fortunatamente, la comunità scientifica inaltri paesi non condivise questo giudizio cosìnegativo e così si formarono altri gruppi di ri-cerca principalmente in Canada ed in Europa,dove il problema del multilinguismo era parti-colarmente sentito.

Nel 1976 in Canada venne sviluppato il si-stema Meteo per tradurre i bollettini metereo-logici delle trasmissioni televisive. Contempo-raneamente, la Comunità Europea divenneuno sponsor attivo della traduzione automati-ca, innanzitutto con adozione del sistema SY-STRAN per la traduzione di documentazionescientifica, tecnica, amministrativa e legale.Successivamente la Comunità Europea decisedi finanziare l’ambizioso progetto EURO-TRA, il cui scopo principale era la realizzazio-ne di un sistema pre-industriale multilingue a-vanzato per la traduzione tra tutte le linguedella comunità europea basato su una struttu-ra ad interlingua. Tuttavia il progetto non riu-scì a produrre un vero sistema operativo co-sicché si concluse alla fine degli anni ’80. An-che se EUROTRA fallì nel suo scopo princi-pale, ovvero la creazione di un sistema di tra-duzione multilingue da e in tutte le lingue eu-ropee, ebbe però il merito di stimolare la ri-cerca transnazionale nel campo della linguisti-ca computazionale.

Lo sviluppo negli anni ’80

Lo sviluppo più significativo degli anni ’80fu la diffusione dei primi prodotti commercialidi traduzione automatica come ad esempio ilsistema LOGOS negli Stati Uniti, SYSTRANin Francia, e METAL in Germania.

Alla fine degli anni ’80 in Francia si ebbeanche la prima realizzazione di un servizio ditraduzione automatica in rete ad uso del gran-de pubblico. Infatti nel 1988 il Servizio PostaleFrancese offrì su Minitel un servizio di tradu-zione automatica basato su Systran per diverse

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

luogo nel 1947 tra Andrew D. Booth, un cri-stallografo inglese, e Warren Weaver, direttoredella divisione di scienze naturali della fonda-zione Rockfeller e più precisamente ad un me-morandum scritto da Weaver nel 1949 per lafondazione Rockfeller, in cui, per la prima vol-ta, vengono delineate le prospettive della tra-duzione automatica. Questo documento diedel’avvio alla ricerca sulla traduzione automatica:agli inizi degli anni ’50, negli Stati Uniti e inEuropa si formarono i primi gruppi di ricerca,che poterono beneficiare di finanziamenti dinon poco conto da parte dei governi locali, e,con il progresso dell’informatica, si ebbero iprimi risultati concreti e aumentò l’interessesull’argomento. Nel 1952 si tenne la primaconferenza sulla traduzione automatica e nel1954 ebbe luogo la prima dimostrazione pub-blica di un sistema di traduzione automatica. Ilsistema sviluppato da IBM e dalla GeorgetownUniversity negli Stati Uniti si basava su un vo-cabolario di 250 parole e solo sei regole sintat-tiche ed era in grado di tradurre in inglese uninsieme selezionato di 49 frasi russe. Questadimostrazione diede l’impulso ad un finanzia-mento su vasta scala alla ricerca sulla traduzio-ne automatica negli Stati Uniti.

Da quel momento in poi si verificarono im-portanti progressi nella progettazione e nelfunzionamento dei programmi di traduzione.Tra gli anni ’50 e ’60 assistiamo ad un gran fer-mento soprattutto a livello accademico: gruppidi ricerca negli Stati Uniti (Georgetown Uni-versity, MIT, Università di Harward, Univer-sità del Texas e di Berkley), in Unione Sovieti-ca (Istituto di linguistica di Mosca e Leningra-do) e nel Regno Unito (Cambridge ResearchUnit) lavoravano alla realizzazione di prototipiper dimostrare la fattibilità della traduzioneautomatica. Tuttavia la qualità delle traduzionilasciava ancora molto a desiderare e l’inizialeeuforia cedette il passo a giudizi molto negativisul futuro della traduzione automatica. Nel1966 il Rapporto dell’Automatic LanguageProcessing Advisory Committee (ALPAC) sul-le prospettive della Traduzione Automatica

63Settembre 2004

Nel 1996 venne pubblicato The LanguageEngineering Directory - A resource guide toLanguage Engineering Organisations, productsand services, che conteneva i risultati di una ri-cerca condotta per delineare lo stato dell’artenell’ambito dell’Industria delle Lingue. Nellasezione dedicata ai servizi di ingegneria lingui-stica nella categoria “Machine Translation viaModem/Minitel” sono enumerate ben sei so-cietà che già a quel tempo offrivano servizi diquesto tipo: Compuserve Inc., Globalink Inc.,Language Engineering Corporation, Nec Cor-poration - C&C IT Research Laboratorie, SmartCommunications Inc. e infine Systran SA.

È proprio quest’ultima società che diede unimpulso decisivo alla diffusione dei servizi ditraduzione automatica on-line alleandosi conAltavista, il famoso motore di ricerca ed of-frendo al grande pubblico il primo serviziogratuito di traduzione automatica on-line intempo reale sul dominio noto ancora oggi co-me Babelfish, un concetto ripreso dal libro“The Hitchhiker’s Guide to Galaxy” dell’auto-re di fantascienza Douglas Adams, in cui degliautostoppisti galattici riuscivano a capire ognilingua, semplicemente attivando un piccolopesce giallo nelle loro orecchie.

Questo primo esperimento divenne in bre-vissimo tempo un grande successo; come ci ri-feriscono Jin Yang ed Elke D. Lange, in duearticoli sui servizi online offerti in BabelFish: ilnumero di richieste di Traduzione automaticaaumentò da 500.000 nel maggio 1998 a 1,3 mi-lioni di richieste al giorno nel 2000.

A partire dal 1997 si diffusero velocementealtri servizi gratuiti di TA on-line allo scopo dipubblicizzare i prodotti che erano alla base ditali servizi e quindi di creare un mercato ri-chiamando l’attenzione del vasto popolo di in-ternauti, affinché usassero e sperimentasseroquesto tipo di servizio.

In Hutchins J.& W. Hartmann (2003)Compendium of Translation Software Com-mercial machine translation systems and com-puter-aided translation support tools (Euro-pean Association for Machine Translation

Dal sogno meccanico alla e-translation: la traduzione automatica è realtà?

coppie di lingue, disponibile agli utenti su ter-minali collegati alla rete delle Poste. Il serviziopresentava però una serie di svantaggi: era in-fatti caro, relativamente lento e non integratoin ambiente PC.

Gli anni ’90 furono caratterizzati da un plu-ralismo di orientamenti nella ricerca. Questopluralismo si rifletté in una varietà di approcciche videro coesistere sistemi basati sulla sem-plice traduzione parola per parola o sull’ap-proccio a transfer con sistemi che sperimenta-vano nuove teorie. Dalla metà degli anni ’90 i-noltre si ebbe un rapido incremento di numeroe di tipologie di sistemi di traduzione disponi-bili: traduzione automatica, sistemi di tradu-zione assistita, ambienti di lavoro per il tradut-tore, memorie di traduzione, sistemi on-lineforniti su Internet.

Da allora si è affermato un approccio piùpragmatico e soprattutto più attento alle realinecessità degli utenti: è stato abbandonato ilmito di una macchina capace di tradurre comeun essere umano, per fornire al pubblico stru-menti realmente utilizzabili e soprattutto real-mente di ausilio al processo di traduzione.

La vera svolta per la traduzione automaticaarriva con la diffusione di Internet e con la rea-lizzazione di servizi di traduzione automaticaon-line ad opera di alcuni produttori disoftware che avevano intuito quanto Internetpotesse rappresentare un potente mezzo dipubblicità per i loro prodotti e servizi.

64

Figura 2. Interfaccia del sistema di traduzioneBabelFish.

I quaderni di

pubblicabili. La traduzione automatica è inquesto senso solo una fase di un più ampioprocesso (o progetto) di traduzione, suddivisoin più fasi: analisi della traduzione e reperi-mento del materiale di riferimento, aggiorna-mento del sistema di traduzione automatica,preparazione del testo da sottoporre a tradu-zione automatica (o pre-editing), la traduzioneautomatica vera e propria, revisione della tra-duzione automatica da parte di traduttori pro-fessionisti ed esperti nel settore di appartenen-za del testo, controlli di qualità. I sistemi di TAcommerciali (tra i quali ad esempio LOGOS,Systran, ecc.) sono stati progettati principal-mente per rispondere a questo scopo, soprat-tutto nel settore delle traduzioni di testi di tipotecnico-scientifico, ovvero di tipo non-lettera-rio. Si tratta dunque della traduzione di testi“chiusi”, per mutuare una definizione dal Lec-tor in fabula di U. Eco (1979), ovvero di testi ilcui scopo principale è comunicare al lettoredelle informazioni che siano meno ambiguepossibili e più precise possibili, come è il casodei manuali di istruzione di un software, op-pure dei manuali operativi di un aereo, carat-terizzati da una sintassi semplice, da una altaripetitività dei contenuti e semmai da una no-tevole complessità e densità dal punto di vistaterminologico. Se opportunamente “addestra-ti” con la terminologia specifica di settore, i si-stemi di traduzione automatica possono daredei risultati qualitativamente non trascurabilied economicamente vantaggiosi. Rispetto aquesto scopo la traduzione automatica/assisti-ta presenta diversi vantaggi relativamente, adesempio, alla gestione della terminologia spe-cializzata (linguaggi settoriali) ed alla gestionedi grossi volumi di traduzione.

Nella traduzione tecnico-scientifica è neces-sario utilizzare in modo coerente e rigoroso laterminologia specifica all’interno dei testi, che avolte possono essere costituiti anche da migliaiadi pagine, come nel caso dei manuali di un ae-reo. I sistemi di traduzione automatica garanti-scono che tale terminologia, una volta immessanel sistema, venga usata in modo coerente in

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

Sixth edition March 2003) sono enumerati ca.55 servizi on-line di traduzione automatica, dicui ben 25 offrono coppie di lingue con l’ita-liano. Questi dati indicano chiaramente comeInternet abbia costituito per la traduzione au-tomatica un valido trampolino di lancio nellaSocietà dell’Informazione, creando una sem-pre più ampia e diffusa richiesta di mercatoper i servizi di Traduzione Automatica on-li-ne. Paradossalmente però tale richiesta dimercato si orienta verso una tipologia di tra-duzioni che i sistemi attualmente in uso ecommercializzati non sono preparati ad af-frontare, dando risultati non sempre di buonaqualità.

Internet ha cambiato il modo in cui il gran-de pubblico percepisce questa tecnologia ed ilmodo in cui la utilizza, aprendo alla traduzioneautomatica delle prospettive inaspettate, e pro-babilmente contribuirà in futuro anche a mi-gliorarne la qualità.

I diversi usi della traduzione automatica

Se dal punto di vista della ricerca non sonostati fatti grandi progressi negli ultimi anni e laqualità delle traduzioni prodotte dai sistemi diTraduzione Automatica non è, nella maggiorparte dei casi, comparabile a quella delle tra-duzioni effettuate da traduttori professionisti,tuttavia è innegabile che il prodotto del pro-cesso di traduzione automatica, la traduzione“grezza” (raw translation) prodotta in tempirapidissimi, è ormai largamente utilizzata perscopi diversi: come base per una traduzione fi-nita, per facilitare l’accesso alle informazioni,per la comprensione di un testo in una linguasconosciuta, per il rapido interscambio diinformazioni.

La TA come “base” per una traduzione fi-nita (Dissemination Tool). Si tratta dello sco-po principale per cui vengono utilizzati i siste-mi di traduzione automatica, inseriti all’inter-no di un ciclo completo di traduzione che hacome risultato la produzione di traduzioni

65Settembre 2004

costituiscono infatti ben l’80% della popola-zione mondiale e man mano che le nuove tec-nologie di comunicazione saranno accessibili aquesti utenti, il predominio dell’inglese è desti-nato a diminuire. Secondo le stime dell’IDC(International Data Corporation), gli utenti diInternet non anglofoni raggiungeranno entro il2004 la quota del 70% della totalità della po-polazione che si collega a Internet. Sono quin-di necessari strumenti che facilitano la comu-nicazione multilingue, consentendo agli utentidi accedere alle informazioni presenti su Inter-net, utilizzando la propria lingua: in tal sensogli strumenti di TA rappresentano un validoaiuto.

La TA per il rapido interscambio di infor-mazioni (Interchange Tool): in contesti in cuilo scambio di informazioni tra persone che par-lano lingue diverse deve avvenire in tempo rea-le, come ad esempio nelle discussioni delle chat-room, la traduzione intesa in senso tradizionaleovvero il ricorso a traduttori professionisti è as-solutamente fuori discussione. La traduzioneautomatica rappresenta in questi contesti l’uni-ca soluzione possibile, riuscendo ad offrire tra-duzioni in tempo reale in svariate lingue.

Oltre a questi usi della traduzione automa-tica, che ormai potremmo definire tradizionali,Jin Yang ed Elke D. Lange in un loro articolosui servizi di Traduzione Automatica offerti suBabelFish da Systran, riscontrano due ulterioriusi da parte degli utenti:

La TA come strumento per di trattenimen-to (Entertainment Tool): l’uso più diffuso del-la TA su Internet sembra essere la traduzioneda una lingua di partenza (ad esempio l’italia-no) ad una lingua di arrivo (ad esempio l’ingle-se) e la successiva ritraduzione nella lingua dipartenza (di nuovo l’italiano) o la traduzione inun’altra lingua ancora. Si tratta di un uso asso-lutamente sconsigliabile dei servizi di TA, so-prattutto se in questo modo si intende valutarela qualità delle traduzioni. Il sito Lost in tran-

Dal sogno meccanico alla e-translation: la traduzione automatica è realtà?

tutto il testo. Le potenzialità dei sistemi di TA,negli ultimi anni, sono state inoltre aumentatedal fatto che questi sono stati integrati all’inter-no di “postazioni di lavoro del traduttore” cheincludono altri strumenti di ausilio al traduttorequali ad esempio dizionari elettronici, memoriedi traduzione, strumenti per il controllo dellaqualità della traduzione, ecc.

La TA per facilitare l’accesso alle informazio-ni (Information Access Tool): è la possibilitàdi utilizzare la traduzione automatica integra-ta in sistemi di Information Retrieval (ricercae recupero di informazioni) su database te-stuali, o in sistemi di interrogazione di data-base strutturati.

La TA come strumento immediato di com-prensione di un testo straniero (AssimilationTool) di cui non si conosce la lingua. Questaapplicazione della Traduzione automatica èsempre stata considerata storicamente un ef-fetto derivato o secondario rispetto allo scopoprincipale che era quello appunto di produrretraduzioni grezze che fornissero la base pertraduzioni pubblicabili di tipo tecnico-scienti-fico. È interessante notare come invece negliultimi anni la diffusione di servizi di traduzio-ne automatica on-line per la traduzione di pa-gine WEB abbia in qualche modo enfatizzatoquesta funzione della traduzione automatica eabbia contribuito a far conoscere questi siste-mi al grande pubblico. Quotidianamente ven-gono effettuate milioni di richieste a servizi ditraduzione automatica in tempo reale offertiad esempio da siti come Babelfish allo scopo diconoscere i contenuti dei testi che circolanonelle più svariate lingue su Internet. La dispo-nibilità di questo tipo di servizi ha consentitoin qualche modo di abbattere le barriere lin-guistiche: la comunicazione su Internet è mul-tilingue e se l’Inglese rappresenta ancora la lin-gua per eccellenza nel campo delle comunica-zioni transnazionali, questa tendenza è desti-nata ad attenuarsi per cedere il passo all’usodelle lingue nazionali: gli utenti non anglofoni

66 I quaderni di

tica ha trovato la sua ragion d’essere, aven-do abbandonato le velleità di un sogno im-possibile da realizzare, e cioè di essere“macchina pensante” e di produrre dei ri-sultati comparabili al pensiero umano, perdiventare strumento, pur con tutti i suoi li-miti, al servizio di una efficace comunica-zione multilingue. Internet e la traduzioneautomatica hanno stretto una alleanza in-dissolubile, diventando indispensabili l’unoper l’altra: Internet ha infatti contribuito afar conoscere la traduzione automatica el’ha resa, al di là di ogni ragionevole aspet-tativa, utilizzabile da parte del grande pub-blico e utile ai fini dell’abbattimento dellebarriere linguistiche nel villaggio globale.La traduzione automatica ha invece reso In-ternet uno strumento di comunicazione e direperimento delle informazioni più che maiefficace.

JOHANNA MONTI

Università degli Studi di Napoli “L’Orientale”

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

slation (http://www.tashian.com/multibabel/)utilizzando il dominio di Babelfish propone ungioco di traduzione, che riecheggia il più anti-co “telefono senza fili”, a partire da un testoinglese, che una volta tradotto in una linguaviene ritradotto in un’altra e così via fino a ri-tornare alla lingua di partenza: il risultato è adir poco fantasmagorico e sicuramente ci ri-corda la massima di Antoine de Saint-Exupéry: “Language is the source of misun-derstandings”.

La TA come strumento per l’apprendimen-to di una lingua straniera (Learning Tool): glistrumenti di traduzione automatica onlinevengono spesso utilizzati dagli studenti, princi-palmente di scuola superiore, per svolgere i lo-ro compiti a casa di lingua straniera.

Conclusioni

Nell’era digitale la Traduzione Automa-

e una sfida per le attività di ricerca nelle disci-pline coinvolte (Informatica, Linguistica Com-putazionale, Intelligenza Artificiale, ScienzeCognitive).

La “storia” della Traduzione Automatica i-nizia negli anni ’50, e quei tentativi iniziali fu-rono caratterizzati da un eccessivo ottimismonelle possibilità degli elaboratori di allora, e dauna grave sottovalutazione delle complessitàconnesse con i problemi di traduzione, com-plessità che ancora oggi devono essere sempreben presenti per un approccio serio e realisti-co.

Verso la fine degli anni ’60 una valutazionedei risultati ottenuti, praticamente inutilizzabi-

Il TAL (Trattamento Automatico del Lin-guaggio) è molto più di una sigla: signifi-ca un impegno, a nostro avviso molto im-portante, per coordinare e rilanciare le

molteplici potenzialità (e necessità) di contri-buire con ricerche e sviluppi informatici al su-peramento delle barriere linguistiche, e più ingenerale al miglioramento della comunicazio-ne e della conoscenza.

La Traduzione Automatica, cioè la possibi-lità di affidare a un computer la traduzionecompleta di un testo, riducendo al minimo lasuccessiva e comunque necessaria revisione daparte dell’utente, è una parte importante delTAL, anche se è stata per molti anni un’utopia,

67Settembre 2004

Traduzione automatica: storia, situazione e prospettive

concentrarsi solo sulla revisione degli aspettipiù complessi che il sistema automatico non èstato in grado di risolvere completamente.

Questi sistemi integrano complessi compo-nenti linguistici e adeguate funzionalità perl’interfaccia utente, in modo da permettere latraduzione di comunicazioni e di documenta-zioni tecnico/commerciali, ottenendo un testotradotto automaticamente, con opportune fun-zioni di aiuto per la successiva revisione e conla ricostruzione automatica di tutte le caratteri-stiche di struttura del testo originale (font, ta-belle, figure, ecc.).

L’utilizzatore tipico può essere sia chi, inambiente individuale o di ufficio, ha necessitàdi tradurre documenti, sia il traduttore profes-sionista che opera in settori tecnico/commer-ciali (informatica, meccanica, medicina, finan-za, ecc.), che con l’aggiunta di opportuni dizio-nari specialistici può ottenere elevati aumentidi produttività e qualità.

Più in generale, per affrontare correttamen-te i problemi della Traduzione Automatica construmenti informatici è necessario partire dallaconsapevolezza che si tratta di un processospesso molto complesso, e che per avere risul-tati accettabili il sistema informatico deve ave-re una “architettura” opportuna. Nella Figura1 è rappresentato uno schema concettuale diriferimento, che permette di identificare lemodalità e le architetture per la traduzione.

L’architettura di tipo “diretto” prevede ap-punto il passaggio diretto dalla frase nella lin-gua di partenza a quella di destinazione, conl’utilizzo di dizionari mono e bilingue, con tra-duzione in pratica “parola per parola”. Questaarchitettura era usata dai primi sistemi “stori-ci” (ed ancora oggi in sistemi molto semplifica-ti), e si è rivelata assolutamente inadatta per ot-tenere risultati di vera e propria TraduzioneAutomatica.

L’architettura di tipo “transfer” (descrittapiù in dettaglio nel seguito) affronta invece iprincipali aspetti linguistici necessari, in modo

Traduzione automatica: storia, situazione e prospettive

li nonostante il rilevante impegno di risorse suscala mondiale, portò ad una situazione di pes-simismo generalizzato sulle possibilità dellaTraduzione Automatica, e alla conseguente in-terruzione delle attività in quest’area.

Dopo un black-out durato più di venti an-ni, e partendo da una tecnologia informaticache nel frattempo aveva visto progressi sor-prendenti, la ricerca e sviluppo per la Tradu-zione Automatica ha ripreso un ruolo signifi-cativo. Ma questa “rinascita” non è dovuta sol-tanto alle nuove possibilità fornite dal-l’hardware e dal software: da parte di tutti igruppi di ricerca seri è cambiato radicalmentel’approccio, diventato interdisciplinare, consa-pevole delle complessità e orientato verso pro-dotti effettivamente usabili.

Questo vuol dire fra l’altro impiegare archi-tetture e tecniche linguistiche adeguate, percerti aspetti molto complesse, se si voglionorealizzare sistemi di vera Traduzione Automa-tica, e non solo strumenti di aiuto basati su di-zionari o con traduzione parola per parola.

D’altra parte è anche essenziale chiarire agliutilizzatori i “limiti”, attuali ma anche futuri,di questi sistemi: la traduzione completamenteautomatica di qualsiasi tipo di testo è, e re-sterà, un’utopia.

La validità di un sistema di Traduzione Au-tomatica è sempre associata a una successivarevisione umana, e dipende da quanto il siste-ma riesce a tradurre in modo completamentecorretto o con necessità di correzioni semplici,garantendo in aggiunta una correttezza e coe-renza delle terminologie tecniche.

Il mercato mondiale

Il mercato mondiale, e le comunicazioni in-ternazionali sempre più diffuse, richiedonostrumenti di questo tipo, sia per traduzionicompletamente automatiche non perfette macomprensibili di comunicazioni (ad esempio diposta elettronica), sia per aumentare la pro-duttività e la qualità delle traduzioni tecniche,permettendo al traduttore professionista di

68 I quaderni di

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

69Settembre 2004

Figura 1. Traduzione Automatica: schema concettuale.

modulare, e prevede l’utilizzo di “grammaticheautomatiche” per le singole lingue, “grammati-che contrastive” per la coppia di lingue, e dizio-nari mono e bilingue opportunamente arricchiticon informazioni semantiche e di contesto, perpermettere la disambiguazione. Questa archi-tettura è quella ad oggi più usata dai sistemi diTraduzione Automatica realmente usabili.

L’architettura di tipo “interlingua” prevedeinvece un unico linguaggio intermedio interno(una specie di “esperanto informatico”), suffi-cientemente formale e con capacità di rappre-sentazione dei significati, a cui ridurre le frasida tradurre e da cui partire per ottenere le cor-rispondenti frasi tradotte. Questa architetturaè interessante dal punto di vista della ricerca,ma di difficile realizzazione per sistemi pratica-mente usabili.

I principali componenti di un sistema di ve-ra Traduzione Automatica, basato sull’archi-tettura di tipo “transfer”, sono:

� Analisi del testo da tradurre. In base adun’opportuna grammatica automatica dellalingua di partenza, e al relativo dizionario mo-nolingua, un analizzatore morfo/sintattico

(“parser”) prende in considerazione il testo datradurre e produce in modo formale tutte ca-ratteristiche linguistiche necessarie per la suc-cessiva traduzione. In pratica ogni frase viene“compresa”, per quanto possibile, nei suoi a-spetti morfologici, sintattici e semantici.� Transfer strutturale. La struttura sintatticadi ogni frase da tradurre, risultato della fase dianalisi, non ha in genere una identica strutturaper la lingua in cui deve essere tradotta. Il si-stema deve quindi contenere una “grammaticacontrastiva” automatica, e le relative funzionidi trasformazione degli alberi sintattici.� Transfer lessicale. Oltre alla trasformazionedelle strutture sintattiche, è necessaria la tradu-zione appropriata di tutte le parole che com-pongono la frase. In generale una parola in unalingua può avere diverse traduzioni a secondadella collocazione sintattica e del contesto.Questo aspetto è uno dei più complessi dalpunto di vista della scelta automatica, e richie-de che il sistema sia dotato di un opportuno di-zionario bilingue per poter effettuare automati-camente di volta in volta la traduzione giusta.� Generazione (sintesi) del testo tradotto.Per ottenere la traduzione completa della fraseè necessario che il sistema sia in grado di co-

grande) di testi “paralleli”, tradotti corretta-mente, e tramite opportuni software statistici ilcomputer “impara” a tradurre per quella cop-pia di lingue.

Con questo approccio si ha un risultato cer-tamente di minor qualità e accuratezza, ma consoftware ben fatto si può ottenere una traduzio-ne che fa capire il significato del testo originale,pur con una correttezza grammaticale moltobassa. I vantaggi sono nel tempo/costo di realiz-zazione molto più bassi dei sistemi con approc-cio linguistico, purché i corpus paralleli di par-tenza siano opportunamente vasti e corretti.

Attualmente è opinione abbastanza diffusache l’approccio statistico, anziché come alter-nativa, possa essere utile per integrare quellolinguistico.

Per concludere, alcune riflessioni sulla si-tuazione in Italia. Purtroppo esistono pochissi-me aziende italiane in grado di sviluppare pro-dotti di vera traduzione automatica, sia perchéle complessità e i costi di sviluppo sono moltoelevati, sia perché a nostro avviso è ancora ca-rente l’iniziativa per lanciare questo settorecon opportune strategie di politica economica.

In questo ristretto panorama, chi scrive hafondato 10 anni fa (come “spin off” del Cen-tro di Ricerca IBM) un’azienda informatica(SYNTHEMA) che appunto sviluppa pro-dotti di vera Traduzione Automatica. L’ap-proccio fin qui adottato è quello linguistico,in particolare con architettura di tipo transfersintattico/semantico, ma sono in corso esperi-menti per una integrazione con l’approcciostatistico. Esistono da tempo sul mercato no-stri prodotti “consumer”, di basso costo madi qualità elevata, come anche “soluzioni” a-ziendali per intranet, che SYNTHEMA puòpersonalizzare sia dal punto di vista termino-logico che linguistico, in modo da raggiunge-re risultati qualitativi molto elevati: la perso-nalizzazione, aziendale o di settore, è a nostroavviso una delle chiavi determinanti per ilsuccesso di questi sistemi.

CLAUDIO CIRILLI SYNTHEMA s.r.l.

Traduzione automatica: storia, situazione e prospettive

struire tutte le forme flesse appropriate (gene-re/numero, tempo/modo/persona, ecc.) insie-me a tutti gli aspetti caratteristici della linguadi destinazione (ad esempio, per l’italiano,concordanze, troncamenti, preposizioni arti-colate, pronomi enclitici, ecc.). Per far questoil sistema deve avere un opportuno dizionariomonolingua, e la relativa grammatica generati-va automatica.� Interfaccia utente. In aggiunta ai componen-ti precedenti (il cosiddetto “motore linguisti-co”), un buon sistema di traduzione automati-ca deve fornire all’utente, in modo semplice edamichevole, tutte le funzioni operative neces-sarie, sia per le varie modalità di traduzione siaper le attività specifiche di consultazione, crea-zione e aggiornamento dei dizionari aggiuntividi utente.

Un’architettura di questo tipo, e una appro-priata attenzione alla “copertura” dei compo-nenti linguistici, sono requisiti essenziali per si-stemi di vera Traduzione Automatica.

Per evitare comunque aspettative non reali-stiche è importante ribadire che per avere unatraduzione completamente corretta è quasisempre necessaria una revisione umana. La va-lidità di un sistema automatico si misura ap-punto sull’entità di questa revisione: se il testotradotto automaticamente ha un’alta percen-tuale di frasi corrette o che richiedono sempli-ci modifiche, allora si può definire efficace e u-sabile in modo produttivo.

L’approccio statistico

Un approccio completamente diverso daquelli descritti in precedenza è il cosiddetto“approccio statistico”, che da alcuni anni è og-getto di ricerca (e anche di polemiche fra gli e-sperti di traduzione automatica). In terminimolto semplificati, si parte dal concetto che in-vece di “insegnare” al computer gli aspetti les-sicali, sintattici e semantici di una coppia dilingue (attività molto complessa e molto costo-sa), si fornisce al computer un corpus (molto

70 I quaderni di

ricerca per lo sviluppo di sistemi di supportoall’apprendimento del linguaggio e di sofisti-cati sistemi di elaborazione linguistica del-l’informazione contenuta in forma elettronicain documenti, giornali, notizie televisive, ingenerale nel Web.

Relativamente alla prima linea di tendenza,in Europa la scuola si fa carico di cambiare ipropri programmi indicando nuove prioritàformative in funzione delle lingue europee ecercando di migliorare il metodo di apprendi-mento per aumentare l’efficacia dei risultatinella comunicazione interpersonale; in Asia, eprincipalmente in Cina, si stanno attuando deiprogrammi di massa per l’apprendimento del-l’inglese basato sull’utilizzo dei nuovi strumen-ti informatici di supporto all’apprendimentodelle lingue. In India, invece, la popolazionenon ha il problema di conoscere l’Inglese siaper il suo trascorso coloniale che per l’impo-stazione del suo sistema formativo, ma ha delledifficoltà a rendere visibile nel Web le proprielingue.

Relativamente alla seconda linea di tenden-za, gli Stati Uniti hanno come priorità la cono-scenza delle lingue arabe e del cinese allo sco-po di conoscere per fini economici e politicitutte le informazioni ed i documenti prodottiin queste lingue. L’Europa, al contrario, ha co-me esigenza primaria la salvaguardia di tutte lesue lingue e quindi la necessità di renderne so-stenibile il costo, in quanto gestire con pari di-gnità una trentina di lingue potrebbe diventareun’impresa impossibile se interamente basatasul puro lavoro umano.

Se rimaniamo sul terreno dell’informazio-ne, e non consideriamo l’aspetto sociale dellacomunicazione, oggi notiamo che gran parte

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

“Impara il tedesco!”, “Non puoi fare a menodell’inglese!”, “È giunta l’ora del cinese!”,“Ma perché non impari una lingua araba, tro-verai sicuramente un lavoro!” Tutte queste sol-lecitazioni, questi slogan, che leggiamo suigiornali e sentiamo nelle nostre discussioniquotidiane esprimono bisogni, necessità ed a-spirazioni, che negli ultimi anni, si sono accen-tuate soprattutto in seguito ai cambiamenti av-venuti nell’Est Europeo ed in Asia.

L’internazionalizzazione dei rapporti dovu-ta all’aumento impressionante sia della circola-zione delle merci che delle persone, alle grandimigrazioni e alla diffusione del Web, stannocreando una nuova necessità di comunicazioneinterpersonale e di accesso ad informazioni edocumenti che richiede una diffusa conoscen-za delle lingue. Dal primo di maggio del 2004dieci nuovi Stati ed altrettante lingue si sonoaggiunte all’Unione Europea con tutte le rela-tive incombenze: predisposizione di tutta lamodulistica europea, preparazione dei reso-conti del parlamento europeo, sottotitoli e/otraduzione dei programmi televisivi, ecc.

Questo nuovo contesto all’interno del qua-le intere popolazioni trovano nuove opportu-nità di sviluppo ed altre cercano di difendereposizioni acquisite, impone da parte degli sta-ti e dei governi delle scelte molto forti sia perfar fronte all’immediato sia per giocare unruolo strategico nel futuro. Analizzando inmodo sommario alcune tendenze in atto sinotano due fenomeni, da una parte un grandesforzo formativo di apprendimento delle lin-gue: in particolare l’apprendimento diffusodell’inglese in Europa ed in Asia e l’apprendi-mento del cinese e delle lingue arabe in occi-dente in modo molto più selezionato. Il se-condo fenomeno è quello dell’investimento in

71Settembre 2004

Comunicare con le tecnologie del linguaggio nell’era globale

TIDES<http://www.darpa.mil/ipto/Pro-grams/ tides/index.htm>;– il 2004: anno in cui l’Unione Europea ha ini-ziato a finanziare il progetto TC-STAR<http://tc-star.org>.

Analizzando questi ultimi venti anni, si no-ta che la ricerca della traduzione del linguag-gio parlato ha seguito il percorso tipico diuna nuova area di ricerca nel settore delle tec-nologie dell’informazione e della comunica-zione. Nei primi dieci anni, infatti, sono statirealizzati progetti che hanno dimostrato lafattibilità di alcune applicazioni: interpretetelefonico, e-commerce, comunicazione fac-cia a faccia e solo recentemente, dopo un ul-teriore decennio, si è giunti alla definizione diuna vera e propria agenda di ricerca, caratte-rizzata da obiettivi scientifici, domini applica-tivi, metodi ed approcci e criteri di valutazio-ne. Un ruolo chiave in questo percorso è statosvolto dal consorzio C-STAR e dal ProgettoVerbmobil. Il primo per aver dimostrato lafattibilità delle tecnologie SLT attraverso dueprincipali dimostrazioni su scala planetarianel 1995 e nel 1999. Il secondo, per aver pro-posto lo scenario applicativo della comunica-zione multilingua faccia a faccia, e per aver i-niziato ad esplorare diversi approcci alla solu-zione del problema della traduzione: alcuni

Comunicare con le tecnologie del linguaggio nell’era globale

dell’informazione è elettronica e questo cipermette di elaborarne anche enormi quan-tità in modo molto efficiente. L’informazioneè codificata nelle varie lingue e possiamo pen-sare quindi di elaborare il linguaggio in modoautomatico, per estrarre informazioni, pertrovare documenti, per tradurre anche in mo-do sommario delle notizie o dei notiziari tele-visivi, per poter comunicare, anche in modoprimitivo e semplice con altre persone chenon parlano la nostra lingua, allo scopo di ot-tenere informazione.

La ricerca sulla traduzione e la comunicazione multilingua

La traduzione del linguaggio parlato (SLT)rappresenta un’area di ricerca piuttosto recen-te nell’ambito delle tecnologie sul linguaggioumano. Le date più importanti nella storia re-cente della SLT sono: – il 1986: data di inizio in Giappone del pro-getto di ATR sulla traduzione del linguaggioparlato;– il 1992: data di nascita del consorzio C-STAR <http://www.c-star.org>;– il 1993: il governo Tedesco avvia il progettonazionale VERBMOBIL <http://verbmobil.dfki.de/overview-us.html>; – il 2000: DARPA lancia

72

Figura 1. Uno scenario applicativo della traduzione, poter ascoltare le notizie ovunque nella propria lingua.

I quaderni di

I programmi di ricerca al mondosulla traduzione

Attività di SLT in ASIA

In Asia, la ricerca in SLT è stata per molti an-ni un settore importante. I laboratori ITL delAdvanced Telecommunications Research Insti-tute International (ATR) <http://www.atr.jp> diKyoto in Giappone sono stati costituiti 1986 esono stati il primo laboratorio che ha lavoratoin Asia sulla traduzione del parlato. L’ATR i-noltre è stato uno dei principali sponsor delconsorzio C-STAR. Nella prima fase della ri-cerca (dal 1986 al 1992), l’obiettivo era finaliz-zato a studiare la fattibilità di tecnologie di tra-duzione del linguaggio. Il primo esperimentointernazionale congiunto di interpretazionedella telefonia tra Giappone, USA, e Germa-nia è stato condotto con successo nel gennaiodel 1989. Il linguaggio usato era molto sempli-ce e permetteva all’utente di usare solo frasigrammaticalmente corrette e pronunciate inmodo controllato, in un ambiente privo di ru-more significativo.

Nella seconda fase, dal 1993 al 1999, l’o-biettivo di ricerca si è spostato verso lo studiodel dialogo naturale multilingua. Il sistemadoveva trattare frasi tipiche di parlato, anchenon grammaticalmente corrette e pronuncia-te in modo naturale. A partire dal 1997 sonostati sviluppati sistemi sperimentali e prototi-pi che traducono dal giapponese in coreano,in tedesco, in inglese e cinese. Nel 1998 è sta-ta creata la prima piattaforma bidirezionalegiapponese-inglese: ATR-MATRIX. Un se-condo esperimento congiunto internazionaledi comunicazione multilingue è stato eseguitocon successo nel luglio del 1999. Nello stessoanno ATR ha realizzato anche una piattafor-ma semplificata per l’uso di un pc portatile odi un cellulare. A partire dal 2000 è iniziata laterza fase di ricerca, il cui obiettivo primarioè l’estensione della tecnologia alla comunica-zione multilingua senza vincoli di pronuncia edi contesti per l’utente ed in grado di ridurreil rumore ambientale.

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

basati su metodi di intelligenza artificiale,quali il trasferimento semantico e l’interlin-gua, altri basati su metodi di apprendimentodai dati “data-driven”, quali la traduzione ba-sata su esempi e la traduzione statistica.

È importante notare che lo spostamento daattività basate sulla dimostrazione di fattibilitàad attività basate sulla valutazione tecnologica èstato il percorso seguito dalla comunità scienti-fica del riconoscimento automatico del parlato(ASR). È abbastanza naturale aspettarsi che latraduzione da parlato a parlato (SLT) segua unpercorso analogo. Programmi come TIDES, ilnuovo progetto europeo integrato TC-STAR ele attività portate avanti all’interno del consor-zio C-STAR III <http://www.slt.atr.co.jp/ IW-SLT2004/>, dimostrano che questo settore diricerca sta affrontando una nuova fase di matu-rità caratterizzata da:� un consenso diffuso, su un approccio “da-ta-driven”, dove i metodi statistici, combina-zione di modelli di linguaggio e di teorie del-la decisione statistica, sembrano essere i piùpromettenti;� l’adozione di una organizzazione della ri-cerca basata sul paradigma di competizionee di cooperazione. Ciò significa mettere afuoco principalmente obiettivi comuni, uti-lizzando dati comuni, ma significa anchemettersi in competizione sui metodi e suglialgoritmi. Questo processo ha l’obiettivo diaccelerare lo sviluppo della ricerca, come ègià stato sperimentato all’interno della co-munità ASR, soprattutto se la competizioneviene accompagnata da una forte coopera-zione incentrata sull’adozione di una meto-dologia open source (un’esperienza interes-sante è portata avanti dalla Comunità dellabioinformatica);� una cooperazione scientifica globale checoinvolga tutti i principali centri al mondo chepartecipano a questa grande sfida. Non ci saràavanzamento nel campo senza il coinvolgimen-to di una massa critica di ricercatori e senza ladisponibilità di una grande quantità di dati al-lineati in molte lingue.

73Settembre 2004

lità delle tecnologie di traduzione dal coreanoalle lingue asiatiche ed alle lingue occidentali.L’obiettivo attuale è quello di riuscire a porta-re sul mercato semplici sistemi di traduzioneche aiutano i viaggiatori all’estero. ETRI è i-noltre impegnata nel settore della trascrizionee della traduzione delle notizie televisive dalcoreano al cinese.

Orientati allo sviluppo di sistemi SLT per igiochi olimpici di Pechino del 2008, CAS-IA,ATR ed ETRI hanno firmato recentemente unaccordo di cooperazione per lo sviluppo di si-stemi SLT in grado di tradurre richieste e con-versazioni turistiche in giapponese, cinese ecoreano.

Le attività negli Stati Uniti

Nonostante la ricerca sulla traduzione delparlato sia iniziata negli Stati Uniti negli anninovanta, il riconoscimento della sua impor-tanza strategica è stato molto graduale. Ciò èsicuramente legato al dominio dell’inglese co-me la lingua usata per gli affari internazionali,la scienza ed il commercio in tutto il mondo.Di conseguenza i sistemi SLT sono stati consi-derati con una priorità secondaria per lo svi-luppo commerciale e scientifico. I recenti e-venti di politica internazionale, con il coinvol-gimento degli Stati Uniti a livello globale, gliscambi e gli affari internazionali, e per ultimima non meno importanti i cambiamenti de-mografici hanno cambiato drammaticamentequesta percezione. Mentre per i parlatori nati-vi inglesi è generalmente più difficile studiarealtre lingue (per mancanza di opportunità inun’ampia società monolingue), la necessità diconoscere le lingue straniere è diventata sem-pre più stringente.

Il bisogno di un facile e veloce accesso adocumenti ed informazioni multimediali (chenon sono necessariamente in inglese) appar-tenenti a lingue straniere è stato riconosciutosia dal mondo degli affari che dal GovernoFederale. Inoltre la possibilità di comunicarecon parlatori non-inglesi in situazioni di in-

Comunicare con le tecnologie del linguaggio nell’era globale

Il primo progetto di SLT finanziato dal go-verno cinese, <http://www.nsfc.gov.cn/>, èstato sviluppato dall’Istituto di Automazionedell’Accademia delle scienze cinese (CAS-IA,< http://www.ia.ac.cn/ > dal gennaio 1999 adicembre 2002. In questo progetto sono stateavviate le attività di base per la realizzazione disistemi SLT.

Nel 2002, il China High-Technical Program(programma 863) <http://www.863.org.cn> hafinanziato un importante progetto denominato“Digital Olympic”. I responsabili del progettosono Beijing Capital Information (Cap Info)Co. Ltd. <http://www.capinfo.com.cn> e CAS-IA. Questo progetto intende sviluppare le tec-nologie di base per realizzare un sistema intel-ligente di gestione dell’informazione per i gio-chi olimpici 2008 a Pechino. La ricerca inclu-de tecnologie del linguaggio, tra cui la tradu-zione automatica delle pagine Web, i sistemiSLT, i sistemi di reperimento delle informazio-ni, e servizi d’informazione basati su terminalimobili.

Per la traduzione multilingua SLT, CAS-IA, sta raccogliendo i dati e sviluppando icomponenti utilizzando un approccio inter-lingua. La prima versione del sistema SLT,sviluppato in collaborazione con l’UniversitàCarnegie Mellon di Pittsburgh, è stata pre-sentata con successo nell’esposizione dellescienze e tecnologie tenutasi dal 22 al 26Maggio 2004 a Pechino. Nel luglio dello stes-so anno, il sistema è stato presentato a Barcel-lona al forum mondiale di cultura. CAS-IA haanche ottenuto significativi risultati per appli-cazioni della tecnologia SLT che usano com-puter palmari.

In Corea, le attività di ricerca in questosettore, sono sviluppate principalmente dal-l’ETRI <www.etri.re.kr>, il Centro Ricerchedella Compagnia Nazionale di Telecomunica-zione, all’interno del programma nazionale“Tecnologie per l’elaborazione delle informa-zioni linguistiche”. ETRI ha già dimostrato,nell’ambito del consorzio C-STAR la fattibi-

74 I quaderni di

gue affrontate sono inglese, cinese ed arabo.Vengono inoltre sviluppati esperimenti sunuove lingue al fine di esplorare la portabilitàdella tecnologia. I laboratori di ricerca chepartecipano alla valutazione annuale in MT so-no: CMU, IBM, ISI, JHU, RWTH, ITC-irst.

DARPA BABYLON - I progetti BABY-LON e la sua prosecuzione, CASTE, affronta-no il problema della comunicazione multilin-gua tra parlatori inglesi e stranieri. Gli scenarisviluppati includono il trattamento dei rifugia-ti nelle aree di intervento, interviste mediche, esituazioni di controllo di polizia. Le lingue in-cludono: arabo, cinese, Pashtu, Farsi e Thai. Isistemi che si stanno sviluppando affrontanoun dominio linguistico limitato, sono bidire-zionali ed utilizzano un approccio basato sul-l’Interlingua (vedi figura 2). Alcune applica-zioni possono essere anche solo monodirezio-nali (esempio un medico americano che vuolcomunicare con dei rifugiati, oppure un medi-co che fa le stesse interviste sulla salute a moltepersone, in cui la traduzione dall’inglese avvie-ne attraverso frasi e concetti standard). I siste-mi di Babylon sono anche disponibili su com-puter palmari, al fine di permetterne l’uso insituazioni di mobilità. Un esempio è dato dalSistema Phraselator, rappresentato in figura 3.

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

terventi umanitari e militari viene considerataoggi estremamente importante. Questo biso-gno sta diffondendosi anche all’interno degliStati Uniti per rispondere in modo più effica-ce alle emergenze e ai bisogni delle persone inun paese, in cui la composizione linguisticasta rapidamente cambiando e diventando piùvaria.

In vista di questi cambiamenti, alcune nuo-ve iniziative di ricerca sono state lanciate negliStati Uniti. Tre progetti in corso di svolgimen-to mirano ad affrontare questi problemi.

DARPA TIDES-TIDES ha l’obiettivo rea-lizzare sistemi intelligenti per l’accesso, l’estra-zione e la produzione di riassunti a partire datesti multilingua. I sistemi di traduzione da te-sto (MT) sono una delle più grandi sfide all’in-terno di TIDES, con una grande aspettativa diprodurre nuovi importanti avanzamenti dopodue decadi di progresso limitato in questo set-tore. TIDES non include il linguaggio parlato,ma le tecnologie di base di MT sviluppate sonomolto importanti anche per la ricerca nella tra-duzione del linguaggio parlato (SLT). L’obiet-tivo finale di TIDES è l’estrazione di contenu-to di interesse civile e/o militare da testi chepossono essere scritti in diverse lingue. Le lin-

75Settembre 2004

Figura 2. L’architettura del progetto NESPOLE! basata su un approccio interlingua.

Le attività in Europa

La lingua costituisce un tema cruciale nellacostruzione dell’Unione Europea, consideratele forti implicazioni di natura sociale, politicaed economica che essa comporta. L’UnioneEuropea si fonda infatti sul riconoscimento ela valorizzazione della diversità linguistica. Losforzo necessario per affrontare questo proble-ma è troppo grande per essere sostenuto sola-mente dalla Commissione e viene quindi con-diviso tra la Commissione stessa, che ha il do-vere di assicurare una buona comunicazionecon gli stati membri, e gli stati membri che de-vono preservare e promuovere le loro lingue e,attraverso le loro lingue, la loro cultura. Perquesta ragione la Commissione, nel V e nel VIProgramma Quadro, ha identificato le Tecno-logie del Linguaggio Umano (HLT) come unobiettivo strategico.

In questo momento sono attivi tre progetti:LC-STAR <www.lc-star.com>, PF-STAR<http://pfstar.itc.it>e TC-STAR <www.tc-star.org>. Precedentemente i progetti più impor-tanti portati avanti in Europa sono stati, Verbmo-bil I e II finanziati dal governo tedesco, EU-TRANS e NESPOLE! finanziati dalla Commis-sione Europea. NESPOLE!, http://nespole.itc.it,conclusosi nel 2002 è stato cofinanziato dall’UE edalla NSF degli Stati Uniti.

Comunicare con le tecnologie del linguaggio nell’era globale

I laboratori che partecipano nella traduzionedel linguaggio parlato in Babylon sono: BBN,CMU, IBM, ISI/HRL, SRI.

NSF STR-DUST - STR-DUST è un’iniziati-va supportata dalla National Science Founda-tion (NSF) della durata di 5 anni che tenta diandare oltre la traduzione del parlato in domi-ni del discorso limitati e di indagare la tradu-zione del parlato senza vincoli linguistici. Ilprogetto si svolge all’Università Carnegie Mel-lon e le lingue coinvolte sono il cinese, l’araboe l’inglese. Il progetto è appena iniziato ed èstato preparato in collaborazione con quelloeuropeo TC-STAR.

In aggiunta a queste iniziative di ricerca fi-nanziate dalle agenzie governative, sono in fasedi sviluppo alcuni prodotti commerciali perturisti e per personale militare, basati su com-puter palmari (Ectaco, Marine Acoustics).Questi dispositivi non forniscono una tradu-zione bidirezionale completa, ma consentonol’accesso vocale a liste di frasi tipiche, comequelle che si trovano sulle guide turistiche, fra-si che vengono poi lette da un sintetizzatorenella lingua dell’interlocutore.

Questi strumenti, seppure molto semplici,rappresentano il primo passo verso il supera-mento delle barriere linguistiche in mobilità.

76 I quaderni di

Figura 3. PHRASELATOR, uno dei risultati del progetto Babylon.

facce multimodali: traduzione del parlato(SLT), la rilevazione di stati emozionali e le tec-nologie del parlato per i bambini. PF-STARparte dai risultati sviluppati in anni di ricerca dadiversi progetti di ricerca nazionali e internazio-nali, quali NESPOLE!, C-STAR, Verbmobil,SmartKom. Le lingue considerate sono l’ingle-se, il tedesco, l’italiano e lo spagnolo.

I partners di progetto sono: ITC-IRST,RWTH, UKA, CNR ISTC-SPFD, EURLN,KTH, and UB.

Il progetto TC-STAR

Trascrivere e tradurre notiziari e discorsi èl’obiettivo del progetto integrato europeo TC-STAR, coordinato dall’ITC-irst, e che mira afar progredire notevolmente le prestazioni deisistemi di traduzione vocale, cercando di ri-durre la distanza fra la traduzione umana equella della macchina. Nella prima fase trien-nale di ricerca verranno affrontate le traduzio-ni di notiziari televisivi e di discorsi pubblici(conferenze e sessioni del parlamento euro-peo), vedi figura 4, mentre nel secondo trien-nio verrà affrontata la traduzione di conversa-zioni libere. Le lingue considerate nella primafase saranno l’inglese, lo spagnolo ed il cinese.

Il progetto TC-STAR, è iniziato il primoaprile del 2004 ed è un progetto integratocon un finanziamento di 11 milioni di euro e

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

LC-STAR, è iniziato ufficialmente il primofebbraio del 2002 ed è un progetto che si foca-lizza sulla creazione di risorse linguistiche (LR)necessarie alla creazione dei componenti SLTnelle applicazioni di comunicazione da perso-na a persona ed uomo-macchina in ambientimultilingua. L’obiettivo del progetto è di crea-re lessici per 13 lingue e corpora di testo per 3lingue e di preparare una dimostrazione di tra-duzione in tre lingue. I lessici copriranno 13lingue: ogni lessico avrà almeno 100 000 entra-te consistenti in 50 000 parole comuni, 45 000nomi propri e 5 000 parole ad uso specifico.Le liste di parole corrispondenti sono estratteda grandi corpora testuali che contengono al-meno 10 milioni di parole. Le lingue copertesono l’italiano, il greco, il russo, il turco, lospagnolo, il catalano, il tedesco, l’arabo classi-co, l’ebraico, l’inglese americano, il finlandese,il cinese mandarino e lo sloveno. Nella secon-da fase saranno prodotti corpora testuali alli-neati e lessici monolingue con entrate morfo-sintattiche. Queste LR copriranno il dominiolinguistico turistico. Le coppie di lingue consi-derate sono: catalano/inglese americano, spa-gnolo/catalano e spagnolo/ inglese americano.

PF-STAR, che si concluderà in ottobre 2004,ha l’obiettivo ambizioso di fornire piattaformetecnologiche avanzate e valutazioni tecnologi-che comparative in tre aree chiave delle inter-

77Settembre 2004

Figura 4. TC-STAR, traduzione di notiziari televisivi e di discorsi.

Comunicare con le tecnologie del linguaggio nell’era globale

12 partner: ITC-IRST, RWTH, LIMSI, UPC,UKA, IBM, SIEMENS MONACO e LAN-NION, NOKIA, SONY STUTTGART, EL-DA e SPEX. TC-STAR è pensato come unosforzo a lungo termine focalizzato sulla ri-cerca avanzata in tutte le tecnologie chiaveper la traduzione: riconoscimento del parla-to, traduzione del parlato e sintesi del parla-to. Il focus del progetto sarà sullo sviluppodi nuovi, possibilmente rivoluzionari, algo-ritmi e metodi che integrano tutta la cono-scenza linguistica disponibile con metodi emodelli statistici.

TC-STAR è pianificato per una durata disei anni, che rappresenta il tempo necessa-rio per esplorare e valutare i nuovi approc-ci alle SLT e per creare l’infrastruttura ne-cessaria per accelerare il tasso di progressonel settore. Le azioni chiave per raggiunge-re gli obiettivi e affrontare queste grandisfide sono: – l’implementazione e la valutazione di unainfrastruttura basata su valutazioni competiti-ve, al fine di raggiungere il punto di svolta de-siderato, come rappresentato in figura 5;– la creazione di un’infrastruttura tecnologicache mira ad alimentare un’efficace distribuzio-ne e valutazione dei risultati scientifici;

78

Figura 5. Il Processo di valutazione nel Progetto TC-STAR.

I quaderni di

– il supporto della disseminazione della cono-scenza dei risultati scientifici all’interno delconsorzio e della comunità scientifica.

Uno sguardo al futuro

Tra una decina di anni alcuni di questi stru-menti saranno con buona probabilità di uso co-mune. Oggi possiamo fare una ricerca sul sitoRai cercando le notizie dei telegiornali locali econ una grande precisione accediamo proprio al-lo spezzone di telegiornale che ci interessa. Unodei componenti chiave di questo motore di ricer-ca è un sofisticato trascrittore automatico delparlato, che pur facendo degli errori, ci azzecca asufficienza per lo scopo. Quando 8 anni fa deci-demmo, dopo l’esperienza positiva della dettatu-ra dei referti medici, di affrontare la nuova sfidadella trascrizione di radio e telegiornali ci sem-brava un obiettivo fuori portata, impossibile.

Guardando al futuro, le tendenze in atto sug-geriscono che dovremmo essere più abili nellelingue per aumentare la nostra capacità di comu-nicazione e nel contempo più dotati di strumentiautomatici di analisi del linguaggio finalizzati al-l’elaborazione di informazione e conoscenza.

GIANNI LAZZARI Itc-irst

le combinazioni linguistiche attivate. Dallequattro lingue utilizzate nel 1958 – francese, te-desco, neerlandese e italiano – il primo maggio2004 si è passati a venti lingue (ceco, danese, e-stone, finlandese, francese, greco, inglese, italia-no, lettone, lituano, maltese, neerlandese, po-lacco, portoghese, slovacco, sloveno, spagnolo,svedese, tedesco e ungherese), che diventeran-no presto ventitre, con l’arrivo del bulgaro, delcroato e del rumeno.

Fin dalle origini della Comunità europea l’i-taliano è utilizzato in modo assai limitato per laredazione di testi ed è presente nelle istituzionicomunitarie soprattutto come lingua di tradu-zione. Per la redazione si ricorre infatti in lar-ghissima misura alle due lingue di lavoro delle i-stituzioni: l’inglese e il francese.

Nel 2003 la percentuale dei testi redatti in i-taliano era solo dell’1,9%, contro il 59,46% perl’inglese, il 28,79 per il francese e il 3,62% per iltedesco. Rispetto al 1999, la situazione dell’ita-liano appare invariata, mentre l’inglese ha gua-dagnato 7 punti (52%), il tedesco ha perso unpunto (4,5) e il francese quasi 6 (34,5%). In nu-mero di pagine la presenza dell’italiano non ècomunque indifferente: 25 991 pagine, prove-nienti in massima parte dalle istituzioni italiane,di cui è stata assicurata la traduzione almeno ininglese e francese. Nel primo semestre 2004 lapercentuale dei testi redatti in italiano è salita al2,19%, e si conferma il progresso dell’inglese(59,91%), accanto al calo del francese (28,26%)e del tedesco (3,1%) (grafico 1).

I traduttori italiani della Commissione tra-ducono virtualmente da tutte le lingue ufficialidell’Unione europea, ma di fatto quasi esclusi-vamente dall’inglese e dal francese, lingue in

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

Adifferenza di altre organizzazioni in-ternazionali l’Unione europea ema-na atti che sono direttamente vinco-lanti per i cittadini europei e che

debbono quindi risultare immediatamentecomprensibili ai destinatari. Un regolamentodella Commissione europea è direttamente ap-plicabile in tutti gli Stati membri e perchéquesto sia possibile è necessario tradurlo intutte le lingue ufficiali dei paesi membri del-l’Unione. Questo obbligo, che risponde ad e-videnti esigenze democratiche, è sancito da unregolamento, il primo in assoluto adottato dal-la CEE e dall’EURATOM nel lontano 1958,modificato diverse volte, ma tuttora in vigore.Esso stabilisce che le lingue ufficiali degli Statimembri sono lingue ufficiali dell’Unione euro-pea, che tutti i regolamenti e gli altri testi diportata generale delle istituzioni comunitariedevono essere redatti e pubblicati in tutte lelingue ufficiali e che i testi diretti dalle istitu-zioni ad uno Stato membro, o ad una personaappartenente alla giurisdizione di uno Statomembro, devono essere redatti nella lingua ditale Stato.

Per ottemperare a questi obblighi le diverseistituzioni europee hanno dovuto dotarsi di unservizio di traduzione interno, a cui affidare l’e-laborazione delle diverse versioni linguistichedei dispositivi comunitari.

La Commissione europea, che dispone di unproprio potere di decisione e di un potere di i-niziativa, è l’istituzione più fortemente implica-ta in questo processo di redazione ed è assistitada un servizio di traduzione che può vantarsi diessere il più grande del mondo, non solo per ilnumero di pagine tradotte (624 499 nel 2003) edi traduttori (1092) ma anche e soprattutto per

79Settembre 2004

L’informatica a sostegno del multilinguismo: il servizio

di traduzione della Commissione europea

logica multilingue Eurodicautom, creata dallaCommissione europea nel 1973. Alle quattrolingue originarie – francese, italiano, neerlande-se e tedesco (più il latino) – si sono via via ag-giunte le lingue dei nuovi paesi aderenti all’U-nione europea fino ad arrivare ad 11 lingue nel1995. Attualmente la banca contiene oltre seimilioni e mezzo di termini e 300 000 abbrevia-zioni, classificate in 48 settori, con particolareattenzione alle tematiche connesse con le politi-che comunitarie: agricoltura, telecomunicazioni,trasporti, finanze ecc.

Destinata originariamente ad uso interno, dadiversi anni è liberamente accessibile su Internet(http://www.cc.cec/eurodicautom/Controller)e presenta un altissimo tasso di consultazione:in media 120 000 richieste al giorno. L’inter-faccia di ricerca, disponibile solo in inglese, èmolto semplice da usare: basta inserire nel-l’apposito campo il termine che si vuole con-trollare e selezionare la lingua d’origine e lalingua in cui si desidera la traduzione. Il siste-ma proporrà diverse traduzioni del termine ri-cercato, a seconda dei contesti d’uso, indican-done la fonte e nel caso di concetti particolar-mente complessi fornendo anche una brevenota esplicativa. È possibile personalizzare lericerche in base alle proprie esigenze specifi-

L’informatica a sostegno del multilinguismo

cui è redatto il 95,8% dei testi di cui è richie-sta una versione in italiano. Seguono in per-centuale il tedesco (1,79), lo spagnolo (1,16), ilfinlandese (0,32), il neerlandese (0,31), il por-toghese (0,23), il greco (0,16) il danese (0,10) elo svedese (0,07) (grafico 2). Oltre il 90% deitesti tradotti in italiano sono destinati allapubblicazione: nella Gazzetta ufficiale dell’U-nione europea (serie L per la legislazione, serieC per le proposte, le decisioni, le comunica-zioni, ecc.), sotto forma di relazioni o bolletti-ni o sui s it i web della Commissione, perl’informazione dei cittadini. La percentuale re-stante è costituita dalla corrispondenza con leistituzioni italiane e da testi ad uso interno(grafico 3).

La produzione è aumentata in modo costan-te: da 87 451 pagine nel 1982 si è passati a 101363 nel 1999 e a 116 836 nel 2003. Il numero deitraduttori italiani nello stesso periodo si è inveceridotto, scendendo da 112 a 91. C’è quindi statoun sensibile aumento della produttività, resopossibile soprattutto da un ricorso sempre piùsistematico all’informatica.

Il primo strumento informatico utilizzato dalservizio di traduzione è stata la banca termino-

80

Grafico 1. Lingue di redazione dell’originale (primo semestre 2004).

Lingue di redazione degli originali

EN 59,91%FR 28,26%DE 3,10%IT 2,19%ES 1,77%

EL 1,05%NL 0,92%PT 0,83%Altre lingue UE 1,97%

I quaderni di

ecc.) e gli accordi conclusi tra gli Stati mem-bri. I lavori preparatori includono essenzial-mente le proposte legislative della Commissio-ne nonché i programmi, i rapporti e le comu-nicazioni emananti da questa istituzione, le ri-soluzioni del Parlamento europeo, i pareri e lerisoluzioni del Comitato economico e sociale edel Comitato delle regioni, le posizioni comu-ni del Consiglio ecc. Nella giurisprudenza fi-gurano in primo luogo le sentenze e i pareridella Corte di giustizia delle Comunità euro-pee e del Tribunale di primo grado. Nel setto-re “misure nazionali di esecuzione” si trovanoi riferimenti relativi alle disposizioni nazionalicon cui le direttive vengono recepite nell’ordi-namento giuridico interno di ciascuno Statomembro.

La base CELEX poteva essere consultata an-che da utenti esterni, a pagamento, fin dagli an-ni ’80. Dal 1° luglio l’accesso è diventato liberoe gratuito (http://europa.eu.int/celex/htm/ce-lex_it.htm). La consultazione, basata su un’in-terfaccia di grande semplicità, è possibile in ita-liano come in ognuna delle altre dieci lingue uf-ficiali dell’Unione prima dell’allargamento.

Nel 1976 la Commissione ha cominciato amettere a punto un sistema di traduzione auto-matica noto come EC Systran, basato sulla tec-nologia Systran (System Translation), ma diversodalla versione reperibile in commercio. Attual-

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

che nonché lasciare una nota o un commentocome feedback per i gestori del servizio.

Nei prossimi mesi, con il progetto IATE (In-ter-Agency Terminology Exchange) la bancaEurodicautom sarà integrata in una nuova ban-ca dati terminologica, in cui confluiranno lebanche terminologiche di altre istituzioni comu-nitarie e che verrà sviluppata e alimentata nelleventi lingue dell’Unione.

Nel 1976, con una risoluzione del Consigliodelle Comunità europee, è stata istituita labanca dati CELEX (acronimo per Comunita-tis Europae Lex). Si tratta di un sistema interi-stituzionale di documentazione automatizzataper il diritto comunitario, a cui affluiscono gliatti emanati dai principali organi comunitariche possono essere resi pubblici. Attualmentecontiene circa 250 000 documenti in undicilingue comunitarie (l’inserimento delle versio-ni nelle nuove lingue al momento non è ancorapienamente operativo), riconducibili essen-zialmente a quattro grandi categorie: legisla-zione, lavori preparatori, giurisprudenza, mi-sure nazionali di esecuzione delle direttive einterrogazioni parlamentari. La legislazionecomprende i trattati istitutivi dell’Unione, itrattati di adesione, gli accordi conclusi dal-l’Unione europea con altri paesi o organizza-zioni internazionali, il diritto derivato (regola-menti, direttive, decisioni, raccomandazioni

81Settembre 2004

Grafico 2. Lingue dell’originale dei documenti tradotti in italiano (primo semestre 2004).

Lingue dell’originale dei documenti tradotti in italiano

utenti del sistema una versione grammatical-mente corretta, ma di mediocre qualità lingui-stica, utile per testi urgenti, ma a diffusione li-mitata. La quantità di correzioni necessarie va-ria in funzione della lingua, della materia e deltipo di testo, nonché dalla qualità linguisticadel testo originale: se il testo di partenza è im-preciso, contiene errori di ortografia o è sintat-ticamente troppo complesso il risultato lascerànecessariamente a desiderare. La qualità dellatraduzione dipende naturalmente anche dal-l’affinità tra la lingua di partenza e la lingua diarrivo e dagli investimenti effettuati per ali-mentare i dizionari specializzati di ciascuna lin-gua. Il sistema si basa infatti su una serie di di-zionari specializzati per settore (attualmente isettori sono 36) e può essere specificamenteconfigurato per rendere lo stile di determinatitipi di testi : verbali di riunioni, lettere, ma-nuali di istruzioni ecc. Esso è inoltre integratocon la base terminologica Eurodicautom e conla base documentaria Celex.

Dal 1° gennaio 1994 i traduttori della Com-missione dispongono di un sistema di archivia-zione elettronica, denominato SdTVista, checontiene tutti gli originali da tradurre inviatidalle direzioni generali e tutte le traduzioni ela-borate dal servizio. Un’interfaccia di facile uti-lizzazione permette di ritrovare quasi istanta-neamente qualsiasi documento anche sulla base

L’informatica a sostegno del multilinguismo

mente Systran CE copre diciotto combinazionilinguistiche :– dall’inglese in francese, greco, italiano, neer-

landese, portoghese, spagnolo e tedesco,– dal francese in inglese, italiano, neerlandese,

portoghese, spagnolo e tedesco,– dallo spagnolo in francese e inglese,– dal tedesco in francese e inglese,– dal greco in francese.

La traduzione automatica di testi italiani infrancese e in inglese è teoricamente ancora in fa-se sperimentale, ma di fatto già operativa.

Il sistema, che permette di tradurre fino a2000 pagine all’ora, è a disposizione sia dei tra-duttori che degli amministratori che lavoranonelle diverse direzioni generali della Commis-sione. È utilizzato per la traduzione di testi, maanche per la redazione in una lingua diversadalla lingua principale dello scrivente. In effet-ti esso si è rivelato uno strumento prezioso perl’attività amministrativa in un’istituzione multi-lingue come la Commissione europea e il suotasso di utilizzazione risulta molto più elevatotra gli amministratori (60%) che fra i tradutto-ri (40%). Alcuni funzionari preferiscono infattiscrivere un testo nella propria lingua, chieder-ne la traduzione automatica e successivamentecorreggere o far correggere il risultato. LaCommissione ha creato un servizio di editing“rapido”, appaltato all’esterno, che offre agli

82

Grafico 3. Tipologia dei documenti tradotti in italiano (primo semestre 2004).

Tipologia dei documenti tradotti in italiano in percentuale sulla produzione totale

1 Proposte di atti legislativi 25,11%

2 Altri documenti destinatialla pubblicazione 65,33%

3 Corrispondenza edocumenti interni 9,56%

I quaderni di

del testo, in cui l’impiego di diversi colori per-mette di distinguere le equivalenze assolute(segmenti di testo che corrispondono perfetta-mente a segmenti già tradotti e convalidati), leequivalenze parziali e i risultati della traduzio-ne automatica.

La memoria centrale è alimentata costante-mente con l’invio dei segmenti tradotti dai tra-duttori della Commissione che utilizzano il si-stema ovvero con postallineamenti di testi giàpubblicati e considerati di particolare rilevanzae/o utilità. La sua ricchezza è dunque diretta-mente legata alla sua frequenza di impiego: al-cuni settori, come ad esempio quello dell’agri-coltura, in cui vi è una forte percentuale di testiripetitivi che si prestano particolarmente aquesto tipo di trattamento, dispongono di unrilevante patrimonio di allineamenti, mentre al-tri sono molto meno sviluppati. Nel 2003 le pa-gine tradotte in italiano utilizzando le applica-zioni EURAMIS sfioravano il 23% della pro-duzione totale.

La struttura del sistema permette di tradurreda qualsiasi lingua in qualsiasi lingua: una voltache per uno stesso testo esistono allineamentidall’ungherese in inglese e dall’inglese in italia-no è possibile ricavare allineamenti ungherese-i-taliano come supporto per una eventuale tradu-zione dall’ungherese in italiano. La qualità deirisultati dipende, in questo come in tutti gli altricasi, dalla qualità dei segmenti tradotti e conva-lidati in passato. I documenti comunitari devo-no essere per definizione equivalenti in tutte leloro versioni linguistiche: se tutte le versioni lin-guistiche di un originale inglese sono buone, lacorrispondenza tra le diverse coppie di versionidovrebbe essere teoricamente perfetta.

Attualmente la procedura che deve seguireun traduttore che utilizza gli strumenti di tradu-zione assistita per tradurre un determinato do-cumento è la seguente:

– aprire il documento sul suo computer; sele-zionare la lingua di partenza e la lingua di arri-vo; controllare l’esistenza di allineamenti imme-diatamente utilizzabili ; chiedere altri allinea-menti utili per quel testo (testi di riferimento,

Una sfida dell’Europa a 25: la molteplicità delle traduzioni

del contenuto del testo. In questo modo è possi-bile controllare le precedenti traduzioni di undeterminato termine a partire da qualsiasi lin-gua comunitaria e in qualsiasi lingua comunita-ria. Per molti documenti del 2004 questa possi-bilità di controllo è ormai estesa a tutte le 400combinazioni linguistiche esistenti. In questomodo in pochi secondi per un determinato seg-mento di testo in italiano è possibile visualizzarei segmenti corrispondenti in ognuna delle altrediciannove lingue.

Attualmente lo strumento informatico piùimportante per il servizio di traduzione dellaCommissione è il sistema EURAMIS (Euro-pean Advanced Multilingual Information Sy-stem), un insieme di applicazioni che offre unaserie integrata di servizi nel campo del tratta-mento del linguaggio naturale. EURAMIS ènato nel 1994, dalla collaborazione tra la Dire-zione generale Società dell’informazione e laDirezione della traduzione, concretatasi nel-l’indizione di una gara per la fornitura di stru-menti multilingue e il loro inserimento in ser-vizi multilingue. Tra le applicazioni offerte fi-gura il TWB (Translator’s Workbench), un si-stema di traduzione assistita sviluppato dalladitta Trados che consente la gestione locale e iltrattamento interattivo di dati ottenuti me-diante l’allineamento di due versioni linguisti-che di uno stesso documento: nel corso dellostesso processo di traduzione ma anche e so-prattutto attraverso la consultazione di unamemoria di traduzione centrale. Euramis si ba-sa infatti su uno stoccaggio centrale delle risor-se linguistiche, che permette la condivisioneglobale dei dati (memorie di traduzione). Il si-stema integra tutti gli strumenti di aiuto allatraduzione esistenti e offre la possibilità dicombinare più servizi: dall’allineamento del te-sto con integrazione dei dati CELEX, all’estra-zione di allineamenti con sostituzione automa-tica di porzioni di frasi contenuti nella memo-ria centrale fino alla combinazione con la tra-duzione automatica. In quest’ultimo caso all’u-tente viene proposta una traduzione completa

83Settembre 2004

servizio di traduzione della Commissione di as-sicurare la traduzione di una quantità sempremaggiore di documenti in un numero sempremaggiore di lingue riducendo sensibilmentel’organico dei traduttori di ciascuna lingua emantenendo un buon livello qualitativo. Que-sta evoluzione ha cambiato il lavoro del tradut-tore, e non solo perché sono necessarie nuovecompetenze per potersi avvalere efficacementedelle risorse esistenti. Il traduttore lavora oggiin una rete ed è costantemente chiamato ad in-teragire con essa: se da un lato le buone solu-zioni del singolo diventano il patrimonio dimolti, dall’altro l’errore di un traduttore ri-schia di moltiplicarsi a catena, inquinando lamemoria centrale. È quindi essenziale assicura-re il controllo di qualità del sistema e riservare,all’interno del processo di traduzione, unaquota non irrilevante del tempo di lavoro deltraduttore umano a compiti di verifica e revi-sione del proprio prodotto.

Gli strumenti informatici contribuiscono i-noltre in misura rilevante alla salvaguardia delmultilinguismo nelle istituzione comunitarie,in quanto ne riducono sensibilmente i costi eaprono canali di passaggio da una lingua all’al-tra non necessariamente unidirezionali e cen-tripeti: le quattrocento combinazioni linguisti-che attivabili nell’Unione a 25 sarebbero unasfida impossibile per un servizio non informa-tizzato, mentre possono diventare una realtàoperativa nell’Europa di domani. Grazie adessi, senza incorrere in un aumento esponen-ziale dei costi, sarebbe attuabile una comuni-cazione interlinguistica più ricca e articolata,che contribuisca a rafforzare l’identità euro-pea, forte delle sue diversità anche a livello lin-guistico.

ELISA RANUCCI-FISHER DGT

Elisa Ranucci è capo di una delle quattro unità italiane di tradu-zione presso la Direzione generale Traduzione della Commissio-ne europea a Bruxelles. Le opinioni espresse in questo articolosono tuttavia quelle personali dell’autrice e non riflettono ne-cessariamente il punto di vista della Commissione europea.

L’informatica a sostegno del multilinguismo

modelli ecc.); creare una memoria di traduzioneimportandovi gli allineamenti già proposti auto-maticamente dal sistema e quelli da lui eventual-mente richiesti; se del caso, chiedere una tradu-zione automatica di supporto, con verifica deidati CELEX; completare, controllare e convali-dare il prodotto così ottenuto e inviarne copiaalla memoria centrale.

In questo processo è evidente che il ruolodel traduttore diventa particolarmente crucialenelle fasi a valle e a monte della traduzione: de-ve sapere quali sono i testi di riferimento da u-tilizzare per quel testo e deve saper valutarecorrettamente le proposte di traduzione del si-stema, adeguandole al nuovo contesto, in mo-do da fornire una traduzione esatta e coerentedell’originale.

La stragrande maggioranza dei traduttoriscrive direttamente il proprio testo sul compu-ter. Il personale di segreteria, in media unapersona ogni sei traduttori, un tempo addettoalla battitura dei testi dettati dal traduttore,svolge ora compiti amministrativi, collabora alpretrattamento dei testi, controlla il rispettodei formati previsti per la presentazione e in-terviene su problemi specifici, ad esempio nel-l’elaborazione di tabelle e grafici. Ai traduttoriche non amano scrivere i propri testi o chenon possono farlo per motivi contingenti dal2002 viene data la possibilità di utilizzare unsistema di riconoscimento vocale, il DragonNaturally Speaking, che permette di dettareun testo direttamente al computer. Il sistema èattualmente disponibile in francese, inglese, i-taliano, neerlandese, spagnolo e tedesco, ha untasso di precisione massima del 98%, una ve-locità massima di 160 parole al minuto e puòessere combinato con gli altri strumenti di aiu-to alla traduzione.

Conclusioni

Il ricorso a strumenti informatici semprepiù sofisticati ed integrati hanno consentito al

84 I quaderni di