44
3. La linguistica dei corpora La linguistica dei corpora non può considerarsi propriamente come una branca della scienza linguistica, bensì un approccio, una serie di metodi e un insieme di strumenti di indagine linguistica. La lin- guistica dei corpora ha avuto controversa fortuna nella storia delle discipline glottologiche e linguistiche. Il metodo di raccolta di testi- monianze linguistiche ha avuto un discreto successo in diverse for- me fino agli anni Cinquanta, quando il linguista americano Noam Chomsky l’ha esplicitamente rifiutato come metodo inadeguato al- la ricerca linguistica (§ 2.2). Negli anni Sessanta e Settanta si è avu- ta una battuta di arresto nello sviluppo della disciplina, che ha coin- ciso con la diffusione della produzione di lavori di stampo genera- tivo-trasformazionale soprattutto negli Stati Uniti. Dopo tale pe- riodo di latenza, proprio in risposta alle critiche chomskyane, si è avuta un’esplosione opposta che ha fatto sì che la disciplina pren- desse una forma più definita, con l’elaborazione di progetti nazio- nali e internazionali ambiziosi e ricchi di risultati e potenzialità ine- stimabili. La rivoluzione più significativa che ha permesso il fiorire di un grande numero di progetti di linguistica dei corpora, anche a livello sovra-nazionale, è stata la diffusione delle tecnologie informatiche, che nel giro di pochissimi anni – a volte persino mesi – hanno incre- mentato enormemente il potere di trattamento dei dati testuali, sia dal punto di vista qualitativo che da quello quantitativo. Nei para- grafi che seguono si mostreranno brevemente quali sono i presup- posti teorici di questa disciplina, i concetti base, i metodi e i princi- pali strumenti di analisi. 40

3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

  • Upload
    others

  • View
    34

  • Download
    1

Embed Size (px)

Citation preview

Page 1: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

3.

La linguistica dei corpora

La linguistica dei corpora non può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio, una seriedi metodi e un insieme di strumenti di indagine linguistica. La lin-guistica dei corpora ha avuto controversa fortuna nella storia dellediscipline glottologiche e linguistiche. Il metodo di raccolta di testi-monianze linguistiche ha avuto un discreto successo in diverse for-me fino agli anni Cinquanta, quando il linguista americano NoamChomsky l’ha esplicitamente rifiutato come metodo inadeguato al-la ricerca linguistica (§ 2.2). Negli anni Sessanta e Settanta si è avu-ta una battuta di arresto nello sviluppo della disciplina, che ha coin-ciso con la diffusione della produzione di lavori di stampo genera-tivo-trasformazionale soprattutto negli Stati Uniti. Dopo tale pe-riodo di latenza, proprio in risposta alle critiche chomskyane, si èavuta un’esplosione opposta che ha fatto sì che la disciplina pren-desse una forma più definita, con l’elaborazione di progetti nazio-nali e internazionali ambiziosi e ricchi di risultati e potenzialità ine-stimabili.

La rivoluzione più significativa che ha permesso il fiorire di ungrande numero di progetti di linguistica dei corpora, anche a livellosovra-nazionale, è stata la diffusione delle tecnologie informatiche,che nel giro di pochissimi anni – a volte persino mesi – hanno incre-mentato enormemente il potere di trattamento dei dati testuali, siadal punto di vista qualitativo che da quello quantitativo. Nei para-grafi che seguono si mostreranno brevemente quali sono i presup-posti teorici di questa disciplina, i concetti base, i metodi e i princi-pali strumenti di analisi.

40

Chiari.qxp 21-11-2006 17:39 Pagina 40

Page 2: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

3.1. Lo studio dei testi

La linguistica nel corso dei secoli ha spesso fatto uso di raccolte esten-sive di testi autentici, di esemplificazioni tratte dalla lingua d’uso. Nu-merosi progetti di dizionari e grammatiche di lingue antiche, o di lin-gue con poche attestazioni conservate, hanno fatto uso di corpora (an-che se spesso di dimensioni limitate). Franz Boas ed Edward Sapir perlo studio delle lingue amerindiane, Samuel Johnson e Otto Jespersenper la produzione di dizionari della lingua inglese, e molto tempo pri-ma Gottfried W. Leibniz e Karl Wilhelm von Humboldt sono ricor-si a raccolte e spogli di materiale linguistico autentico nei loro lavori.Il testo, inteso come «occorrenza comunicativa» (Beaugrande e Dres-sler 1994, p. 18), oggetto di specifica indagine in quanto espressionedelle conoscenze linguistiche di una comunità e governato da princi-pi interni ed esterni, assume una rilevanza senza precedenti nella se-conda metà del Novecento, anche grazie a nuove tecniche di tratta-mento informatizzato.

Il ricorso ad approcci empirici basati sulla raccolta di testi, comesi è visto (§ 2.2), è stata una posizione fortemente messa in discus-sione da Chomsky, sulla base dell’argomento della costitutiva fini-tezza dei corpora e della loro incompletezza. Da un certo punto divista, tali critiche sono incontrovertibili, da un altro i dati testualireali, raccolti e organizzati in maniera articolata, per quanto parzia-li, ci permettono tuttavia di estrarre dati preziosissimi sull’uso che ilocutori fanno della propria lingua. Non solamente i corpora, se bencostruiti, rappresentano le lingue nelle loro varietà in maniera ade-rente e non artificiale, ma anche le informazioni sulle frequenze chepossono essere raccolte dai corpora possono svelarci aspetti altri-menti inosservabili delle lingue e soprattutto dell’uso che ne faccia-mo in produzione e ricezione.

L’uso dei corpora può essere integrato con l’analisi linguistica inmodi diversi. Una proposta di Elena Tognini Bonelli (2001) distin-gue tra linguistica basata sui corpora (corpus-based) e linguistica di-retta dai corpora (corpus-driven). La prima fa uso dei corpora per in-tegrare le teorie con dati linguistici reali, naturali, prelevati da testieffettivamente prodotti. Si tratta di un approccio già attestato, peresempio, nella predisposizione di grandi dizionari come il Dictionaryof the English Language (1755-1756) di Samuel Johnson. La lingui-stica corpus-driven, invece, di più recente impianto, fonda esclusiva-

41

Chiari.qxp 21-11-2006 17:39 Pagina 41

Page 3: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

mente sui dati estratti dai corpora la costruzione ed elaborazione diteorie e ipotesi linguistiche generali. L’approccio guidato dai corpo-ra non prevede l’elaborazione di una teoria antecedente all’analisi eallo spoglio di dati testuali e rappresenta in modo più fedele le di-namiche, le variazioni e le tendenze di una lingua parlata e scritta. Inquesta direzione è stata concepita la grammatica dell’inglese Long-man Grammar of Spoken and Written English (Biber et alii 1999), ba-sata su un corpus di inglese britannico e americano di circa 40 mi-lioni di parole.

3.2. Corpora e tipologie

Corpus (plur. corpora) è voce latina che indica, nella definizione diun recente dizionario, una qualsiasi «raccolta completa e ordinata discritti, di uno o più autori, riguardanti una certa materia», oppure,in senso propriamente linguistico, «campione di una lingua preso inesame nella descrizione di una lingua» (De Mauro 1999, p. 346). Inun corpus possono essere raccolte le opere di Alessandro Manzoni,lettere d’amore, atti giudiziari, perizie psichiatriche, testi di telefo-nate, ecc. I corpora contengono testi reali, autentici e non sezioni ri-dotte o alterate di questi. Un corpus linguistico è un campione di lin-gua, poiché, come si è visto, non può mai contenere tutte le possibi-li occorrenze testuali di una data lingua.

Occorre qui brevemente distinguere il significato delle parole«popolazione» e «campione» come si usano in statistica, e, di rifles-so, nella linguistica dei corpora. Una popolazione è un insieme di tut-te le possibili osservazioni di un tipo su un dato campo. Un campio-ne invece è una sezione, una parte della popolazione, che include so-lo alcune delle possibili osservazioni. Se si vuole studiare l’uso cheJane Austen fa del dialogo sarcastico, la popolazione per questa ri-cerca sarà l’opera intera della scrittrice. Un campione, si potrebbepensare, potrebbe invece essere il testo di Orgoglio e Pregiudizio. Dalpunto di vista teorico un campione dovrebbe essere scelto in modoche ogni possibile osservazione (ogni fenomeno linguistico, nel no-stro caso) abbia la stessa probabilità di occorrere nel campione e nel-la popolazione. Il momento più delicato della costruzione di un cam-pione risiede proprio nella scelta del materiale in modo che rappre-senti la popolazione.

42

Chiari.qxp 21-11-2006 17:39 Pagina 42

Page 4: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

Un campione, per essere utile e significativo, deve essere rappre-sentativo, ossia deve presentare alcune caratteristiche simili a quelleche avrebbe l’intera popolazione. Il campione deve, per l’aspetto chesi intende studiare, essere atto a esibire lo stesso tipo di informazio-ni (qualitative) con la stessa probabilità di occorrenza (quantitativa)della popolazione. La qualità e la frequenza di occorrenza dei trattipresenti nella popolazione devono essere rispecchiati in un modo ilpiù fedele possibile nel campione scelto: deve dunque essere co-struita una sorta di omologia tra campione e popolazione. Questaomologia è raggiungibile solamente a patto di selezionare, progetta-re e disegnare il campione in modo adeguato alla popolazione.

Se per esempio si vuole indagare la quantità di prestiti correntinella lingua italiana d’oggi, scegliere come corpus alcuni romanzi delNovecento significa scegliere un corpus evidentemente poco rap-presentativo. È lecito aspettarsi, infatti, molti più forestierismi in te-sti giovanili (push-up, glitter, play station) e tecnico-specialistici (roo-ming, spanglish, cordless, patch). Per costruire un corpus rappresen-tativo bisognerà aggiungere anche altri tipi di testi diversi. Non bi-sogna tuttavia escludere i romanzi del Novecento, perché anche untipo di testo che presenti pochi forestierismi sarà ugualmente signi-ficativo dal punto di vista linguistico. La rappresentatività, che for-se è il problema più importante e delicato nella costruzione di un

43

popolazione

campione

Figura 1. La rappresentatività tra campione e popolazione

Chiari.qxp 21-11-2006 17:39 Pagina 43

Page 5: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

corpus, è una caratteristica che varia secondo l’aspetto linguisticoche si intende studiare: un corpus rappresentativo per caratteristi-che lessicali potrebbe non esserlo per caratteristiche di tipo sintatti-co oppure stilistico. La rappresentatività è dunque un concetto rela-tivo, dinamico e teoricamente sfuggente.

Un’altra caratteristica dei corpora, che bisogna valutare con mol-ta accuratezza, è la sua estensione, ossia la sua ampiezza. Quanti te-sti, di quante parole, dobbiamo utilizzare perché il corpus sia dav-vero rappresentativo di una varietà di lingua? L’estensione è una va-riabile che influenza il grado di rappresentatività di un campione te-stuale. Se per indagare l’uso dell’imperfetto ipotetico negli scritti diAlessandro Manzoni – come in «se Lucia non faceva quel segno, larisposta sarebbe probabilmente stata diversa» – si scegliesse comecorpus il primo capitolo dei Promessi sposi, non si otterrebbe un da-to rappresentativo, né soprattutto un’ampiezza di corpus adeguata.Un corpus accettabile potrebbe essere l’intero testo del romanzo,oppure, meglio ancora, tutta la produzione manzoniana in prosa.

Esistono metodi che permettono di valutare, dati una popolazio-ne e un campione, quanto un campione è rappresentativo, per de-terminati aspetti, dell’intera popolazione. Un campione non è maicomunque «di per sé» rappresentativo, può essere rappresentativoper un dato punto di vista e non per altri. In genere, se si opera un’in-dagine di tipo fonetico o fonologico, il corpus può essere anche mol-to ridotto rispetto al corpus necessario per analisi di tipo lessicale,morfologico o sintattico. Per le analisi di tipo lessicale, di gran lun-ga le più frequenti condotte su corpora, si sono individuate soglie in-dicative minime per determinare un’estensione ragionevole per icorpora. Ma questo dipende più spesso dalle disponibilità di stru-mentazioni tecnologiche che permettano analisi automatizzabili e di-sponibilità di forze umane. La maggior parte delle valutazioni più ac-curate sulla rappresentatività dei corpora si basano sulla ricchezzadel vocabolario, misurata con numero di parole diverse presenti neltesto. Tuttavia un indicatore globale più agevole può essere consi-derato anche il numero di occorrenze (token) di parole grafiche pre-senti nel corpus. Un’indicazione quantitativa di massima per ricer-che di tipo lessicale per le fasce alte di frequenza in corpora di rife-rimento è quella data in Tabella 1.

Un corpus di 500.000 parole, che dagli anni Settanta ai Novantaper molti paesi era l’estensione standard dei corpora di riferimento

44

Chiari.qxp 21-11-2006 17:39 Pagina 44

Page 6: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

(basti pensare per l’italiano a LIF, Lessico di frequenza della linguaitaliana contemporanea, 1971), oggi ci appare insufficiente, non tan-to per descrizioni che riguardano le parole alle frequenze alte, macertamente alle medie e basse frequenze. L’invecchiamento, per co-sì dire, degli standard di estensione, dipende da ragioni puramentestatistiche che tuttavia finiscono per scontrarsi con difficoltà di tipotecnico o tecnologico. Per le lingue maggiormente studiate la mediadell’estensione di un corpus linguistico di riferimento si aggira oggiintorno ai 100 milioni di parole (come il British National Corpus perl’inglese, o per l’italiano il Corpus di italiano scritto contemporaneo(CORIS), ma alcuni corpora raggiungono anche quasi 500 milioni dioccorrenze (la Bank of English) (§ 3.4).

Vi sono due scopi principali nelle ricerche condotte su corpora (dipopolazione o di campione): a) usare le osservazioni condotte su uncorpus campionario per estenderle all’intera popolazione; b) compa-rare le osservazioni condotte su diversi corpora per confrontarle infi-ne con un corpus di riferimento, individuandone le deviazioni. Neiveri e propri corpora testuali i testi sono presi nella loro interezza, co-sì come sono stati prodotti, senza tagli o selezioni. Si possono però an-che costruire i cosiddetti corpora campionari (sample corpora), neiquali compaiono parti selezionate dei testi in modo da ottenere, arti-ficialmente, elementi confrontabili per esempio per lunghezza (tutti itesti del corpus, per esempio, possono essere costituiti da 2000 oc-correnze). L’uso di corpora campionari oggi è piuttosto raro, poichéne traspare un intervento troppo forte da parte del linguista, renden-do i dati estratti da tali corpora poco affidabili.

McEnery e Wilson (1996, p. 29) individuano quattro caratteristi-che che permettono di definire un corpus e compararlo ad altri cor-pora: rappresentatività, estensione finita, formato elettronico e riferi-

45

Tabella 1. Estensione dei corpora per analisi lessicali sulle fasce alte

Corpus non rappresentativo (insuff.) < 15.000 parole grafiche

Corpus piccolo Da circa 15.000 a 100.000 parole

Corpus medio Da circa 100.000 a 1 milione di parole

Corpus medio-grande Da circa 1 milione a 50 milioni di parole

Corpus standard Da circa 50 milioni a 100 milioni di parole

Corpus grande Oltre i 100 milioni di parole

Chiari.qxp 21-11-2006 17:39 Pagina 45

Page 7: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

mento standard. La campionatura e rappresentatività riguardano ilmetodo di raccolta e la tipologia dei testi scelti come esponenti di unadata varietà di lingua. L’estensione finita concerne il numero di testi(e di parole) di cui è costituito un corpus. Tale estensione è solita-mente circoscritta e statica. Il British National Corpus, per esempio, ècostituito da circa 100 milioni di parole, tratte da testi raccolti intor-no al 1991. Costituito il corpus, i dati che da questo si estraggono so-no considerati rappresentativi della lingua del periodo nel quale i te-sti sono stati raccolti. La maggior parte dei corpora è dunque statica.Ovviamente avere un corpus statico ha i suoi vantaggi: le analisi con-dotte si fanno una volta per tutte, in un lasso di tempo limitato, e lostesso corpus è utilizzabile in maniera standardizzata per estrarre ecomparare diverse analisi linguistiche sullo stesso materiale, il corpuspuò facilmente essere distribuito, usato e comparato ad altri corporastatistici costruiti con criteri simili e tutte le analisi sono ripetibili.

Esistono nondimeno anche corpora dinamici, che, a differenza deicorpora statici, non sono in partenza chiusi in estensione, ma preve-dono una periodica raccolta e analisi di nuovo materiale che va ad ag-giungersi alla base iniziale. Si tratta del monitor corpus. Un corpus diquesto tipo permette di condurre anche analisi di tipo diacronico, maovviamente richiede un lavoro continuo e una maggiore difficoltà ditrattamento, distribuzione e comparazione. Un esempio di corpuscon monitor è la Bank of English diretta da John Sinclair, all’originedi molti dei lavori lessicografici connessi ai dizionari Collins Cobuild.Per l’italiano, un progetto analogo a quello di Sinclair è il CODIS(Corpus dinamico dell’italiano scritto), elaborato e coordinato da Re-ma Rossini Favretti all’Università di Bologna e aggiornato nella partedinamica ogni due anni con nuovo materiale di controllo.

Il formato elettronico (machine-readable form) indica il tratta-mento informatizzato dei dati testuali, giovandosi della possibilità diarchiviare i testi in forma digitale, consultabile attraverso semplicisoftware di interrogazione. I primi corpora venivano conservati informa cartacea oppure con schede perforate, oggi un corpus è in-servibile se non può essere messo a disposizione e soprattutto con-servato in forma elettronica. La nozione di corpus si identifica oggitotalmente con quella di corpus elettronico. Disporre di una versio-ne machine-readable dei testi permette innanzitutto la conservazionedi una quantità sempre maggiore di dati e in secondo luogo l’acces-so ai testi mediante ricerche linguistiche complesse. Oltre all’esten-

46

Chiari.qxp 21-11-2006 17:39 Pagina 46

Page 8: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

sione, anche il trattamento e l’elaborazione dei dati diviene pratica-bile su un qualsiasi computer da casa propria.

Il riferimento standard segnala la possibilità per i grandi corporadi diventare dei punti di riferimento per lo studio della varietà cherappresentano, attraverso l’esplicitazione delle metodologie di ana-lisi, facilitando la comparazione tra corpora diversi ed evitando lanecessità di ripetere i computi per ogni analisi successiva.

3.3. La costruzione di un corpus elettronico

L’utilità di un corpus si misura in base alle possibilità che ci forniscedi accedere a informazioni linguistiche in modo sintetico e rapido.Queste possibilità dipendono da diversi fattori tra i quali centrale èil trattamento cui il materiale testuale è stato sottoposto per permet-tere l’interrogazione agli utenti. Per interrogare un corpus è neces-sario procedere secondo una successione di tappe (Figura 2). Le tap-pe illustrate valgono in certa misura sia per la costruzione di corpo-ra in grandi équipe che nel caso della costruzione di piccoli corporaad hoc per una ricerca specifica gestita da un solo ricercatore.

Il primo passo per la costruzione di un corpus è la pianificazionedella sua struttura in modo che possa essere rappresentativa della va-

47

Risultati e analisi del corpus Interrogazioneavanzata

Interrogazioni elementari:liste di frequenza concordanze Etichettatura

Preparazione del corpus Segmentazione

Raccolta/acquisizione corpus

Figura 2. Le tappe dell’analisi testuale su corpus

Chiari.qxp 21-11-2006 17:39 Pagina 47

Page 9: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

rietà di lingua che si intende illustrare. Il secondo passo sarà la con-creta acquisizione del materiale per il corpus. Prendiamo come esem-pio la situazione più semplice, ossia che si intenda costruire un cor-pus di testi scritti, per analisi stilo-statistiche. Il primo passo saràquello di determinare se il materiale è già disponibile in forma elet-tronica. Esistono numerose biblioteche digitali di testi letterari escientifici in prosa o poesia da cui si possono prelevare i testi gratui-tamente; se invece si desidera considerare la prosa giornalistica, nu-merosi periodici e quotidiani hanno molto materiale online, oppurepossiedono archivi delle annate acquistabili su CD-ROM. Se il ma-teriale non è già disponibile, sarà necessario digitarlo, dettarlo a unprogramma di riconoscimento vocale, oppure scannerizzarlo e poicorreggere gli errori di lettura. In ogni caso sarà necessario assicu-rarsi che il materiale sia fuori dal copyright, oppure richiedere se ènecessario un permesso per utilizzare i testi. Nel caso di corpora diparlato sarà necessario digitalizzare il materiale audio e stabilire unostandard di trascrizione delle registrazioni, o rifarsi agli standardpredisposti per progetti già avviati.

Sia che si usi materiale già preparato da altri, sia che si provve-da da soli all’acquisizione, è necessario tener presente che il testoelettronico contiene sempre una certa quantità di errori (sviste, er-rori di battitura, disomogeneità nelle norme editoriali, ecc.). L’eli-minazione dell’errore avverrà sempre in modo manuale o semi-au-tomatico.

I testi elettronici sono costituiti essenzialmente da sequenze di ca-ratteri (lettere, numeri, segni di interpunzione, e caratteri di con-trollo come il segno di ‘a capo’, ø, ¶), codificati con diversi sistemi(ASCII, Unicode) a seconda delle necessità. È essenziale che, primadi predisporre il testo per l’etichettatura, si stabiliscano delle regolesu come vanno trattati questi caratteri (se per esempio l’apostrofo faparte della parola o funge da delimitatore di parola, ecc.), indivi-duando un insieme di simboli come alfabeto (a, b, c, 5, 8) e un insie-me di separatori (.,;:/?!). È necessario, inoltre, che ci si assicuri cheogni simbolo (il punto, la virgola, la barra, ecc.) sia non ambiguo, os-sia non venga utilizzato in modi diversi nello stesso corpus. Il pun-to, per esempio, dovrà indicare il confine di frase o il passaggio deidecimali, o separare le lettere di una sigla.

La procedura di segmentazione dei confini delle unità linguisti-che fa emergere il problema della individuazione di che cosa si deb-

48

Chiari.qxp 21-11-2006 17:39 Pagina 48

Page 10: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

ba considerare parola. Il termine parola è, infatti, molto complessodal punto di vista teorico: ne sono state date numerose definizionidiverse utili a fini diversi. Dal punto di vista del trattamento elettro-nico dei testi si è da tempo stabilizzata una definizione «pratica»: unaparola è una sequenza qualsiasi di caratteri delimitata da due spazi oda separatori (segni di interpunzione). In questo senso l’unità di ana-lisi linguistica è detta parola grafica, o parola testuale.

Al fine del trattamento linguistico vanno inoltre distinti i lessemi,i tipi di parola (type) e le occorrenze di parole testuali (token). Le pa-role nella loro forma astratta sono i lessemi, cioè le classi astratte del-le parole (amare, fare, bello, cavallo, ecc.), che includono tutte le pos-sibili forme flesse di una data parola. La forma di citazione dei les-semi nei dizionari è detta invece lemma. Dai lessemi si distinguonole parole che, nelle varie forme flesse, possono ripetersi anche più diuna volta nello stesso testo, ossia le occorrenze di parole testuali (wordtoken). Le parole testuali sono le forme diverse che le parole posso-no assumere all’interno dei testi concreti (per esempio, amò, mi, ca-valli, belle, ecc.). Ogni occorrenza delle parole testuali è detta ap-punto token. Un testo è costituito da un certo numero di word token,ossia da un certo numero di parole, costituito dalla somma di tuttele occorrenze di qualunque tipo di parola nel testo. Le forme delleparole diverse sono invece i tipi di parole (word type).

Per osservare in concreto queste distinzioni guardiamo un para-grafo del primo capitolo dei Promessi sposi, che contiene 116 paro-le (token) e 76 tipi di parole (type): la congiunzione e occorre 10 vol-te (1 type e 10 token), la preposizione a occorre 6 volte, il sostantivolago 3 volte, ecc. Per il type lago, dunque, avremo 3 token.

49

Quel ramo del lago di Como, che volge a mezzogiorno, tra due cate-ne non interrotte di monti, tutto a seni e a golfi, a seconda dello spor-gere e del rientrare di quelli, vien, quasi a un tratto, a ristringersi, e aprender corso e figura di fiume, tra un promontorio a destra, e un’am-pia costiera dall’altra parte; e il ponte, che ivi congiunge le due rive,par che renda ancor più sensibile all’occhio questa trasformazione, esegni il punto in cui il lago cessa, e l’Adda rincomincia, per ripigliarpoi nome di lago dove le rive, allontanandosi di nuovo, lascian l’acquadistendersi e rallentarsi in nuovi golfi e in nuovi seni.

Chiari.qxp 21-11-2006 17:39 Pagina 49

Page 11: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

Il rapporto tra i tipi di parole e le occorrenze testuali (type/tokenratio) ci dà una approssimazione della varietà o ricchezza del vocabo-lario del testo esaminato: quanto maggiore è il valore di questo rap-porto, maggiore è la varietà del vocabolario presente nel testo. Sel’estensione del corpus, ossia l’insieme dei token, è uguale a N, e ilnumero dei type uguale a V (vocabolario del testo), allora la ric-chezza del vocabolario è costituita dalla formula:

Type/token Ratio: VN

Se, per esempio, in un testo ci sono 1000 occorrenze (N), e i tipidi parole sono solo 50 (V), il rapporto type/token sarà uguale a 0,05.L’autore usa quindi tendenzialmente sempre le stesse parole, ha po-ca varietà nella scelta dei termini. Se invece, su 1000 occorrenze, i ti-pi sono molti, per esempio 750, il rapporto type/token sarà 0,75, eciò significherà che nel testo vi è una maggiore varietà nella sceltadelle parole. La validità della misura della ricchezza del vocabolariodipende dalla lunghezza del testo preso in esame. Il rapporto tra ti-pi e occorrenze è solo un indicatore della ricchezza lessicale, in realtàvi sono numerosi altri modi per osservare e misurare tale caratteri-stica testuale, per esempio tenendo conto non dei type ma dei lesse-mi. Per fare ciò è però necessario svolgere un trattamento moltocomplesso sui testi, detto lemmatizzazione (§ 4.3). La formula origi-nariamente proposta da Pierre Guiraud vorrebbe infatti V come nu-mero dei diversi lemmi (e la radice di N al denominatore). La ragio-ne del successo della formula semplice e intuitiva riportata poco so-pra, nonostante una certa povertà da un punto di vista linguistico piùprofondo, è la sua immediata praticità e la possibilità di ottenerla inmodo automatico senza particolare trattamento per lingue diverse,anche a noi sconosciute.

Abbiamo visto come la definizione più usata di parola nel tratta-mento dei corpora sia quella di parola grafica. Tuttavia anche que-sta nozione semplificata e «di servizio» di parola non risolve tutti iproblemi concernenti l’analisi di un testo. Esistono espressioni co-me lotta di classe, andare per la maggiore, libro di testo che non pos-sono essere considerate propriamente come sequenze di più parole,ma che si comportano come un tutt’uno sia dal punto di vista se-mantico (il significato della locuzione non è composizionale) sia dal

50

Chiari.qxp 21-11-2006 17:39 Pagina 50

Page 12: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

punto di vista morfo-sintattico (alcune parti possono essere flesse,altre no). Allo stesso modo le forme composte dei verbi (sono statoferito, ho parlato), pur essendo separate dall’ortografia, non sono oc-correnze casualmente congiunte di sono, stato e ferito. Esistono inol-tre espressioni che graficamente costituiscono un’unità (come di-glielo, sbrigarsela, ecc.) che invece sono composte da diversi tipi dielementi, fusi dal punto di vista grafico, ma non semantico e morfo-sintattico. In tutti questi casi può essere utile (a volte necessario) te-nere conto di queste differenze nel comportamento delle parole, almomento del pre-trattamento del testo e dell’annotazione.

3.4. I corpora di riferimento delle lingue europee

Un corpus che intenda registrare tutte le principali varietà di una lin-gua, e quindi essere rappresentativo della lingua stessa, è definitocorpus di riferimento (reference corpus). Tale tipo di corpus dovràdunque raccogliere testi appartenenti a diverse varietà sociolingui-stiche, diafasiche e diatopiche. Particolarmente delicata in questocaso sarà la selezione e la quantificazione delle proporzioni di ognitipologia testuale nel bilanciamento generale del disegno del corpus.In genere, un corpus di riferimento dovrà essere molto esteso. Lostandard fino agli anni Novanta si aggirava intorno a circa 500.000parole, oggi, con la disponibilità di maggiori risorse tecnologiche econ il web come deposito immenso di materiali, i corpora di riferi-mento più diffusi possiedono un’estensione di 100 milioni di parole.

Storicamente i primi corpora di riferimento sono nati in ambitoanglosassone. Il corpus che ha fatto da modello alla prima generazio-ne di reference corpora è stato il Brown Corpus of Standard AmericanEnglish (Brown Corpus), creato da Winthrop N. Francis e HenryKucera, della Brown University negli anni Sessanta, composto da cir-ca 1 milione di occorrenze testuali (500 testi di 2000 parole ciascuno),distribuite in 15 categorie diverse (tra cui stampa, religione, narrati-va, linguaggio amministrativo). Per le sue caratteristiche di progetta-zione e per la sua epoca di costruzione è il corpus più studiato, ana-lizzato e preso a modello, nonostante oggi, soprattutto per la suaestensione, sia considerato insufficiente. Per la lingua inglese, neglianni a seguire, sono stati elaborati numerosi altri progetti di corporadi riferimento tra cui il British National Corpus e l’American National

51

Chiari.qxp 21-11-2006 17:39 Pagina 51

Page 13: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

Corpus (entrambi 100 milioni di parole) e la Bank of English (450 mi-lioni di parole), quest’ultima nata con il preciso fine di fornire mate-riale per successive elaborazioni lessicografiche (§ 5.5).

Per l’italiano, come per le altre lingue moderne, lo sviluppo dicorpora di riferimento è giunto più tardi. I corpora di lingue diver-se dall’inglese hanno generalmente goduto di finanziamenti inferio-ri, dovuti all’impatto più modesto nel business, nelle nuove tecnolo-gie e non ultimo nella didattica e nelle applicazioni da queste di-pendenti. Il primo corpus di riferimento per l’italiano scritto è statoil corpus raccolto per l’elaborazione del LIF (Lessico di frequenzadella lingua italiana contemporanea, 1971), elaborato al Centro na-zionale universitario di calcolo elettronico (CNUCE) di Pisa (cfr.Bortolini et alii 1971), e costruito in modo simile al Brown Corpus suuna base di 500.000 occorrenze testuali. Sulla falsariga del LIF neglianni Novanta è nato il corpus del LIP (Lessico di frequenza dell’ita-liano parlato, 1993). Negli anni a seguire sono sorti numerosi altriprogetti di corpora per l’italiano, tra cui emergono il Corpus e lessi-co di frequenza dell’italiano scritto (CoLFIS), il già citato Corpus diitaliano scritto contemporaneo (CORIS/CODIS), i vari corpora dilingua parlata di LABLITA (http://lablita.dit.unifi.it/), e soprattut-to il CLIPS (Corpora linguistici per l’italiano parlato e scritto,http://www.clips.unina.it), diretto da Federico Albano Leoni, checontiene anche una puntuale annotazione fonetica dei testi parlati.Accanto ai corpora di riferimento esistono inoltre tutta una serie dicorpora specificatamente costruiti per rappresentare particolari ti-pologie testuali come il linguaggio dei media, la terminologia legale,i diversi generi della narrativa.

Anche per le altre lingue europee moderne esistono diversi cor-pora di riferimento, più o meno diffusi: per il francese il più ampioe conosciuto è FRANTEXT, fondato dall’American and French Re-search on the Treasury of the French Language (ARTFL) che oggiconta 150 milioni di parole raccolte da testi scritti che vanno dal di-ciassettesimo secolo a oggi. La lingua spagnola conta due grandi cor-pora: il Corpus de Referencia de la Lengua Española Contemporánea(CREA) della Real Academia Española, che conta 100 milioni di pa-role tratte da testi scritti e parlati, e il più recente Corpus del español(http://www.corpusdelespanol.org/), ideato e gestito da Mark Da-vies, contenente 100 milioni di occorrenze di parole di lingua spa-gnola scritta e orale dal 1200 a oggi, interamente consultabile onli-

52

Chiari.qxp 21-11-2006 17:39 Pagina 52

Page 14: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

ne. Diversi corpora di lingua tedesca sono invece raccolti all’IDS (In-stitut für Deutsche Sprache) di Mannheim, per circa 1080 milioni dioccorrenze di parole.

3.5. I corpora multilingui e paralleli

Un settore di grande interesse della linguistica dei corpora è quelloche si occupa della produzione di corpora multilingui per diversiscopi: facilitare la costruzione di risorse didattiche, sistemi di tradu-zione, basi dati terminologiche, dizionari elettronici, ecc. I corporache riuniscono lingue diverse possono essere di due tipi: corpora pa-ralleli e corpora multilingui. I corpora paralleli sono costituiti da te-sti originali in una lingua (SL, source language) e da traduzioni diquesti testi in una o più altre lingue (TL, target language). I testi ori-ginali e tradotti sono dunque allineati, ossia dotati di una serie di cor-rispondenze tra le porzioni di testo tradotte frase per frase. I corpo-ra paralleli sono diffusi soprattutto negli organismi internazionaliche riconoscono diverse lingue ufficiali, come Onu, Unione euro-pea, e sono di utilità eccezionale per la predisposizione di strumen-ti di traduzione e per la didattica delle lingue straniere. Tra i corpo-ra paralleli più noti si può citare il BAF (French-English ParallelCorpus), composto da circa 400.000 parole in inglese e numerouguale in francese in mutua traduzione, e il REAL Parallel Corpus(German-English Translation Corpus) che raccoglie traduzioni da eper inglese e tedesco.

Sono detti invece multilingui i corpora in cui i testi raccolti sonoin lingue diverse, non sono in traduzioni reciproche, ma vertono suambiti disciplinari corrispondenti permettendo così la costituzionedi banche dati terminologiche (sui linguaggi settoriali come linguag-gio giuridico, economico, commerciale, ecc.). Non vi sono dunqueesatte corrispondenze di contenuto, né tanto meno superficialmen-te di lessico o sintassi.

La predisposizione di corpora multilingui e paralleli ha un’enor-me importanza oggi soprattutto per la creazione di banche dati set-toriali, utilissime per esempio negli scambi internazionali (un esem-pio ne è l’attenzione costante ai temi del multilinguismo dell’Unio-ne europea), per la individuazione dei traducenti specifici delle col-locazioni in lingue diverse e soprattutto per la costruzione di effica-

53

Chiari.qxp 21-11-2006 17:39 Pagina 53

Page 15: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

ci strumenti di traduzione automatica. In quest’ultimo settore, in-fatti, l’apporto dei corpora multilingui ha consentito di realizzare leprime applicazioni di traduzione automatica basata su esempi e ditraduzione automatica statistica o probabilistica (cap. 7). Tra i gran-di progetti di corpora multilingui ricordiamo il progetto MULTEX(Multilingual Text Tools and Corpora) prodotto sotto il patrociniodella Commissione europea, dell’U.S. National Science Fundation,il CNRS (Centre National de la Recherche Scientifique) e dall’Uni-versité de Provence, corpus multilingue che comprende tra le altrelingue anche italiano, inglese, francese, tedesco, spagnolo, e il pro-getto CHILDES (Child Language Data Exchange System), finaliz-zato alla composizione di un corpus del parlato dei bambini, delleconversazioni con bambini e di alcune patologie del linguaggio,comprende più di una ventina di lingue differenti tra cui italiano, in-glese, francese, tedesco, spagnolo, russo e giapponese. Il progetto èdiventato con il tempo (dal 1984 a oggi) un vero punto di riferimentoper lo studio dell’apprendimento linguistico (L1 e ora L2).

3.6. Il web come corpus

Il world wide web può essere considerato un enorme deposito dimateriale testuale, facilmente accessibile, gratuito, variato negli stili,nelle tipologie e nei contenuti linguistici rappresentati. Chi desidericondurre ricerche di impianto linguistico vi trova una risorsa dispo-nibile e di rapida consultazione. Ma il web può essere consideratoun enorme corpus linguistico di riferimento? Quali sono i limiti e lepossibilità dell’uso di materiale fornito da internet come base perstudi di linguistica dei corpora? Il web come corpus è rappresenta-tivo delle lingue ivi presenti?

La prima domanda da porsi è dunque se il web è un corpus. Nel-le definizioni che si sono incontrate nelle pagine precedenti si è vi-sto come un corpus sia una raccolta di testi usata come campione diuna lingua. In questa accezione ampia certamente il web può essereconsiderato un corpus, poiché raccoglie testi in varie lingue e tali te-sti sono una selezione di occorrenze comunicative appartenenti a di-verse tipologie testuali (manuali, notizie, blog, dialoghi in forum,ecc.). Dal punto di vista dell’estensione certamente il web è forseuno dei corpora più grandi mai raccolti, anche se l’esatta composi-

54

Chiari.qxp 21-11-2006 17:39 Pagina 54

Page 16: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

zione in termini quantitativi è ancora indeterminata. Le lingue di-verse vi sono rappresentate inoltre in modo ineguale: l’inglese si sti-ma copra il 70% circa delle pagine, seguito da giapponese, tedesco,francese e cinese.

Dal punto di vista della rappresentatività il web è un corpus di ri-ferimento? La rappresentatività dei corpora di riferimento, come siè visto, è determinata dalla presenza bilanciata di diverse tipologietestuali che presentino le diverse situazioni comunicative e le diver-se varietà della lingua in analisi. Il web, tuttavia, non presenta le di-verse varietà della lingua. Vi sono privilegiati (quantitativamente) al-cuni domini come quelli delle nuove tecnologie stesse, delle news edelle pubbliche amministrazioni, assieme a materiali più vicini alparlato come i forum e le chat su argomenti disparati. Ne sono qua-si del tutto assenti, almeno a oggi, materiali di parlato spontaneo intraccia permanente (in registrazione per esempio), varietà regionali.

Inoltre l’accesso ai materiali forniti dal web avviene attraversol’interrogazione di motori di ricerca (come Google o Altavista) cheutilizzano algoritmi di selezione che privilegiano determinati tratti(come il numero di accessi degli utenti e il numero di citazioni e ri-ferimenti esterni al sito) per ordinare e selezionare i documenti. I cri-teri dei principali motori di ricerca non permettono una selezione ditesti che per esempio sia bilanciata tra testi formali e informali. Si pri-vilegiano, a parità di condizioni, i siti più autorevoli, ad esempio, chespesso tendono ad avere un linguaggio più controllato e formale. Lapresenza/assenza del materiale sul web, le frequenti duplicazioni delmateriale stesso, le capacità di recupero dei documenti e delle infor-mazioni costituiscono un limite alla rappresentatività del web comecorpus. Pertanto il web può essere considerato un corpus, ma nonun corpus di riferimento rappresentativo.

Nel web, inoltre, il tasso di errori è significativamente più alto ri-spetto ad altri testi che possono essere raccolti e controllati. L’erro-re sul web, tra l’altro, non è solo l’errore di battitura o di scanneriz-zazione che si ritrova in qualunque testo elettronico. La presenzamassiccia di pagine amatoriali, spesso scritte da utenti che non go-vernano bene la lingua perché costituisce una lingua seconda (spe-cialmente per l’inglese), finisce per costituire una rappresentazionemolto sbilanciata delle caratteristiche linguistiche dei testi. Sarà ca-pitato a tutti di commettere un errore di battitura in una mascheradi ricerca di Google e di trovare una quantità di pagine che riporta-

55

Chiari.qxp 21-11-2006 17:39 Pagina 55

Page 17: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

no la stessa grafia errata. Se digito information retreival (invece di re-trieval) ottengo da Google 15.900 risultati, e ben 181.000 per il soloretreival. Questo non solo significa che con l’interrogazione scorret-ta si ottengono risultati fuorvianti, ma anche che con l’interrogazio-ne corretta perdo una quantità di risultati utilizzabili.

Dal punto di vista metodologico, inoltre, il web pone un proble-ma connesso con la sua dinamicità incontrollata. Le pagine spari-scono, ma soprattutto aumentano vertiginosamente. La dimensionedel web non solamente è indeterminata, è anche in certo modo in-determinabile. Da questa prospettiva non si tratta né di un corpusstatico (come il British National Corpus), né di un corpus dinamicocontrollato (come la Bank of English). L’estrazione, comparazione,ripetibilità dell’analisi dei dati linguistici estratti risulta dunque par-ticolarmente aleatoria.

Detto ciò, è però innegabile che il web costituisca un corpus nonsolamente frequentato e usato come tale per studi individuali e diambizioni contenute curati da singoli ricercatori, ma anche per ri-cerche scientifiche di più ampio respiro collegate ad altri ambiti del-la linguistica computazionale come la traduzione automatica, la di-sambiguazione dei sensi e il Natural Language Processing.

Vi sono tuttavia numerosi limiti all’uso dei motori di ricerca co-muni (come Google e Altavista, ma anche del più sofisticato Al-ltheWeb, che permette filtri cronologici, stop list, filtri di diversi tipi)come sistemi di estrazione di informazione, per tutta una serie di mo-tivi. Killgarriff e Greffenstette (2003, pp. 12-13) sottolineano alcuniaspetti di inadeguatezza come: l’insufficienza dei risultati visualizzatirispetto a quelli individuati dal motore; l’insufficienza del cotesto pre-sentato; la selezione viene fatta sulla base di algoritmi di rilevanza chenon usano criteri di tipo linguistico; non è possibile condurre ricer-che con requisiti linguistici (come la categoria grammaticale, peresempio); le statistiche di frequenza presentate non sono valide dalpunto di vista linguistico per via dei criteri di rilevanza degli algorit-mi usati. A ciò va aggiunto che la mancanza di criteri linguistici nonpermette di estrarre lessemi, ma solo forme grafiche, non permette ladisambiguazione degli omografi (testuali e assoluti), non permettel’ordinamento per rilevanza esclusivamente linguistica.

Per aggirare questo problema sono nati alcuni progetti che so-vrappongono ai motori di ricerca tradizionali estensioni che permet-tono ricerche linguistiche più fini e ad hoc. Un esempio di questo tipo

56

Chiari.qxp 21-11-2006 17:39 Pagina 56

Page 18: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

è WebCorp (http://www.webcorp.org.uk/), ideato da Andrei Kehoee Antoinette Renouf dell’Università di Liverpool. WebCorp, peresempio, adoperando le capacità di cattura delle informazioni dei si-ti fornite dai principali motori di ricerca (Google, Altavista, Meta-crawler), aggiunge la possibilità di selezionare criteri linguistici gene-rali (scelta del dominio testuale, applicazione di filtri, selezione cro-nologica), di generare concordanze, di aggiungere ricerche avanzatecon caratteri jolly, consentendo all’utente di ottenere risultati quali-tativamente più aderenti a criteri linguistici (anche se quantitativa-mente meno affidabili). Altri progetti simili sono per esempio KWiC-Finder (http://miniappolis.com/), Gsearch (http://www.hcrc.ed.ac.uk/gsearch/), The Linguist’s Search Engine (http://lse.umiacs.umd.edu:8080/) di Philip Resnik e Aaron Elkiss, Wacky project (http://wacky.sslmit.unibo.it/). Ancora più promettente è il progetto di Goo-gleLing, curato da Joseph Smarr e Tim Grow, che prevede un softwa-re che trasforma i motori di ricerca in strumenti di estrazione di datilinguistici. Oltre all’uso di ricerche avanzate tradizionali, GoogleLingpermette l’inserimento di restrizioni sulla categoria grammaticale.

Di natura diversa è invece il progetto che mira a estrarre con cri-teri personalizzabili insiemi di testi dal web in modo da costruirecorpora testuali bilanciati secondo le esigenze dell’utente. Un esem-pio è WebBootCat, elaborato da Marco Baroni, Adam Kilgarriff, JanPomikálek, Pavel Rychl, motore basato sul web (sulle capacità di re-trieval di Google), che mediante l’inserimento di parole-chiave (estop words) fornisce in tempo reale corpora raffinabili con la possi-bilità per alcune lingue, tra cui l’italiano, di ottenere una versionecon l’etichettatura grammaticale di TreeTagger.

Attualmente, il dibattito sulla costruzione di architetture che per-mettano l’uso del web nella ricerca linguistica è molto acceso. In par-ticolare sono discusse le questioni relative ai sistemi di selezione deirisultati (che filtrano gli algoritmi dei motori di ricerca, i quali tutta-via sono fortemente orientati a scopi diversi da quelli della ricercalinguistica) in modo che appaiano bilanciati, la accuratezza e validitàdei risultati ottenuti, la possibilità di vedere realizzati motori chepossano trattare lingue diverse dall’inglese, la possibilità di operarericerche avanzate su categorie linguistiche di vario genere. Al mo-mento, l’uso del web come corpus in senso tecnico è una realtà. Que-sta pratica richiede tuttavia, almeno con i mezzi attuali, molta cau-tela e grande consapevolezza nell’interpretazione dei risultati.

57

Chiari.qxp 21-11-2006 17:39 Pagina 57

Page 19: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

3.7. La codifica e l’etichettatura dei corpora

Raccolto il corpus, per poterne sfruttare la ricchezza come fonte didati linguistici, può essere necessario dotarlo di una serie di infor-mazioni aggiuntive. Per esempio può essere utile avere informazio-ni sulla categoria grammaticale delle varie parole che occorrono neitesti del corpus per poterne in seguito studiare diversi aspetti, op-pure classificare le varie porzioni di un testo come le sezioni, i versi,i paragrafi. Potrebbe essere utile indicare la divisione in capitoli, inparagrafi, segnalare il titolo di un testo, l’autore, informazioni che illettore conosce e interpreta automaticamente leggendo un testo informato cartaceo, e che tuttavia devono essere rese esplicite nella co-difica, se si desidera che siano riconosciute e possano essere oggettodi una successiva specifica interrogazione.

L’aggiunta al testo di informazioni di tipo linguistico si dice anno-tazione o etichettatura linguistica. L’annotazione è dunque una formadi codifica linguistica. Essa consiste nell’associazione di un’etichetta(tag o markup) a una porzione specifica e ben delimitata di testo. Il si-stema usato per costruire e attribuire le etichette si dice linguaggio dimarcatura (markup language). Linguaggi di marcatura sono, peresempio, l’SGML (Standard Generalized Markup Language), oppu-re la più recente versione ridotta XML (Extensible Markup Langua-ge), o l’HTML (HyperText Markup Language), anch’esso versionedell’SGML, usato per fornire la codifica della struttura e della pre-sentazione grafica delle pagine web.

L’etichettatura linguistica può riguardare qualunque aspetto deltesto: indicazioni fonetiche, morfologiche, sintattiche, semantiche.L’annotazione di un corpus serve principalmente per poter estrarrein seguito in modo agile e veloce una gran quantità di dati linguisti-ci e non linguistici sul testo. Un esempio tipico di annotazione è l’an-notazione morfo-sintattica, detta anche grammatical tagging o spessoPOS (part-of-speech) tagging. In questo caso a ogni word token vieneassociata la relativa categoria grammaticale (nome, verbo, aggettivo,ecc.). Vi sono inoltre forme di annotazione specificatamente sintat-tiche, che consistono nell’indicazione della struttura della frase e del-la gerarchia delle dipendenze; annotazioni semantiche, attraverso lequali si possono indicare diverse caratteristiche del contenuto deltoken, come per esempio l’accezione di riferimento della parola; an-notazioni testuali, che possono fornire indicazioni sulla coerenza e

58

Chiari.qxp 21-11-2006 17:39 Pagina 58

Page 20: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

coesione del testo. Per i corpora di parlato si potranno avere anno-tazioni fonetiche, fonologiche e prosodiche e pragmatiche.

Affrontare l’annotazione non è un’operazione priva di insidie. Inparticolare è necessario trovare sistemi di disambiguazione per tuttiquei casi in espressioni linguistiche che sono passibili di diverse let-ture (morfologiche, morfo-sintattiche, sintattiche e lessicali, ecc.).Ad esempio la parola folle, in italiano, può essere un aggettivo ma-schile singolare (l’uomo folle) oppure un sostantivo femminile plu-rale (le grandi folle). In ogni lingua esistono numerosissime forme diquesti omografi. De Mauro (1994) riferisce per l’italiano un tasso diomografi che varia dal 38% al 46%, rispettivamente in testi econo-mico-finanziari e nella lingua parlata, ma stime diverse giungono peralcuni tipi testuali sino a circa 57%. Quando un corpus è sottopostoa etichettatura, per esempio, per segnalare la categoria grammatica-le di ciascun elemento lessicale, è necessario che l’annotatore sappiaindividuare e distinguere le occorrenze ambigue.

Un corpus annotato è incredibilmente più potente di un corpusnon annotato, poiché tutte le informazioni aggiunte potranno in unsecondo momento essere usate per estrarre dati linguistici dal mate-riale raccolto. Se si è eseguito un tagging grammaticale si potrannoosservare le distribuzioni delle parti del discorso nei testi, il rappor-to tra nomi e verbi, estrapolare tutti gli aggettivi o i pronomi e os-servarne il comportamento.

L’annotazione linguistica può essere condotta in modo automa-tico, semi-automatico o manuale. L’annotazione manuale di tipo tra-dizionale è svolta da persone che appongono le specifiche etichettealle porzioni di testo sulla base di valutazioni metalinguistiche più omeno condivise e standardizzate. L’annotazione automatica, invece,procede senza l’intervento umano, attraverso applicazioni del Natu-ral Language Processing basate su regole (rule-based parsing) oppuresu sistemi probabilistici (statistical parsing) (cap. 6). In genere sonosottoposti ad annotazione automatica i grandi corpora di riferimen-to delle lingue europee per quanto riguarda l’etichettatura gramma-ticale; piccoli corpora possono invece essere annotati in modo ma-nuale da gruppi di esperti, ottenendo una grande accuratezza e pre-cisione di analisi. È noto che entrambi i metodi di annotazione, ma-nuale e automatico, producono una serie significativa, seppur diver-sa, di errori nell’accuratezza dell’etichettatura. Per questo motivo ingenere l’annotazione combina i due metodi (annotazione semi-auto-

59

Chiari.qxp 21-11-2006 17:39 Pagina 59

Page 21: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

matica) e procede attraverso una scrematura automatica seguita dauna fase di controllo manuale.

3.8. Gli standard di codifica e annotazione linguistica

Per lungo tempo chi realizzava e progettava grandi corpora definivae predisponeva la codifica e l’annotazione dei testi in modo indivi-duale e indipendente. Tuttavia gli usi dei corpora in ambito scienti-fico e commerciale e la necessità e l’utilità della comparazione di cor-pora diversi hanno prodotto negli ultimi anni l’esigenza di definiredegli standard di codifica. Alcuni dei requisiti più generali comuniai diversi sistemi di standardizzazione riguardano la separazione eautonomia del materiale grezzo del corpus (insieme di testi digita-lizzato) dalle codifiche e annotazioni linguistiche; l’esplicitazione ditutte le fasi di predisposizione, standardizzazione e annotazione delcorpus in un file di documentazione accessibile insieme al corpus;una forma standard per la codifica e l’annotazione; l’indicazioneesplicita dei criteri di annotazione (regole di attribuzione di un’eti-chetta a un token); la neutralità e condivisione generale dei criterilinguistici alla base dell’annotazione; la possibilità di eseguire speci-fiche ricerche sulle annotazioni; l’indipendenza della fruibilità delcorpus e dell’annotazione dagli specifici sistemi operativi e da co-strizioni sulle caratteristiche dell’hardware.

Tra gli standard di codifica il più noto, comprensivo e diffuso èquello elaborato dalla Text Encoding Initiative (TEI). La TEI è unconsorzio nato ufficialmente nel 2000 (anche se già operante a tuttigli effetti dal 1987) dall’esigenza dello sviluppo di standard di codi-fica e promosso dalle più importanti associazioni di linguistica com-putazionale (ACL – Association for Computational Linguistics, AL-LC – Association for Literary and Linguistic Computing, ACH – As-sociation for Computers and the Humanities). L’iniziativa è ancorain progresso e ha definito linee guida per i principali problemi con-nessi alla codifica e all’annotazione di corpora. Le TEI Guidelinessono il principale prodotto del consorzio. Si tratta di manuale nelquale sono definite le norme per la produzione di documenti perscopi diversi. Tra gli obiettivi principali del consorzio c’è la defini-zione di uno standard per lo scambio e la codifica dei dati, indipen-dente dal tipo di testo, in un formato indipendente da software spe-

60

Chiari.qxp 21-11-2006 17:39 Pagina 60

Page 22: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

cifici. A questo scopo la TEI suggerisce il formato di marcatura deidocumenti SGML, oppure il più recente XML, e le codifiche di ca-ratteri ISO 646 (a 7-bit), e Unicode (che permette la codifica di unnumero altissimo di caratteri diversi). Le direttive dalla TEI sono in-dipendenti dal contenuto dei documenti da analizzare e si applica-no «a testi di ogni lingua, ogni tempo, ogni genere letterario o tipo-logia testuale, senza restrizioni su forma o contenuto» (Sperberg-McQueen e Burnard 2002, § 1).

Ogni tipologia di documento deve essere suddivisa in unità te-stuali. La marcatura XML consiste materialmente nell’indicazionedell’inizio e della fine di un elemento da marcare. Sono dunque de-finite due marche o etichette, la marca d’inizio (start-tag) e la marcadi fine elemento (end-tag). La start-tag viene indicata con un nometra parentesi uncinate <name1>, la end-tag con lo stesso nome pre-ceduto da una barra </name>. In un paragrafo sono contenute peresempio frasi e parole, dunque dentro la porzione di testo etichetta-ta come <p> vi saranno altre etichette per indicare dove iniziano efiniscono anche frasi e parole prima della comparsa di </p>.Nell’esempio di marcatura per un’antologia di poesie riportato quisotto, osserviamo che viene marcato l’inizio dell’antologia <antho-logy>, entro il quale troviamo annidate le marcature per la poesia<poem>, il titolo <title>, la stanza <stanza> e la riga <line> (da Sper-berg-McQueen e Burnard 2002, § 2.3.2).

<anthology><poem><title>The SICK ROSE</title><stanza>

<line>O Rose thou art sick.</line><line>The invisible worm,</line><line>That flies in the night</line><line>In the howling storm:</line>

</stanza><stanza>

<line>Has found out thy bed</line><line>Of crimson joy:</line><line>And his dark secret love</line><line>Does thy life destroy.</line>

</stanza></poem>

61

Chiari.qxp 21-11-2006 17:39 Pagina 61

Page 23: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

Obiettivo del consorzio è la definizione di diversi insiemi di eti-chette standard, da usare per le concrete fasi di annotazione, predi-sposte per i settori di ricerca più vari. Oltre alle etichette, la TEI pre-dispone diversi livelli di codifica ed etichettatura secondo una ge-rarchia che va dalle codifiche obbligatorie, a quelle raccomandate, fi-no alle codifiche opzionali. Ogni concreto documento conforme de-ve essere accompagnato da un tipo di documento, o DTD (SGMLDocument Type Definitions). Una DTD contiene le informazioni chedescrivono la struttura di un documento appartenente a una data ti-pologia (la tipologia lettera conterrà data, intestazione, mittente, de-stinatario, ecc., la tipologia romanzo conterrà autore, titolo, ecc.). Laclassificazione delle DTD permette di trattare uniformemente tutti idocumenti che soddisfano i criteri di definizione di un tipo. La de-finizione di una DTD implica l’individuazione di un insieme di eti-chette ammesse e di regole di attribuzione delle etichette ai fenome-ni testuali. Ogni documento del corpus dovrà inoltre contenere unospecifico riferimento alla DTD a cui si conforma. Devono essere pre-senti due tipi di informazioni: definizioni per il corpo del testo (co-re) e definizioni per l’intestazione (TEI header). Per ogni documen-to è necessario scegliere un insieme di etichette di base (base tag-set)scelto tra: prosa, versi, teatro, parlato, dizionari, terminologie, gene-rale e misto. Ogni insieme contiene una serie di indicazioni sui sot-toinsiemi di etichette e di valori che si possono attribuire agli ele-menti presenti nel documento. È inoltre possibile per l’utente ag-giungere una serie di etichette o modifiche alle etichette presenti peranalizzare in modo personale il documento.

L’intestazione (TEI header) contiene informazioni importantissi-me sul documento, come la descrizione bibliografica del documen-to elettronico, edizione, tipo ed estensione del file, dettagli di pub-blicazione, note, dati sulla fonte specifica da cui è tratto il testo elet-tronico. L’intestazione deve recare anche la descrizione della codifi-ca: a questo punto saranno indicati il tipo di progetto per il quale laarchiviazione viene fatta, il metodo di campionamento del materia-le, informazioni sulle eventuali correzioni, normalizzazioni, segmen-tazioni e interpretazioni operate sul testo. Vi è poi una terza sezionedell’intestazione che include informazioni non bibliografiche comel’ambiente, i partecipanti e la situazione nella quale il testo è statoprodotto e anche il registro o varietà linguistica del testo.

Per i testi in prosa, ad esempio, il primo livello di codifica richie-

62

Chiari.qxp 21-11-2006 17:39 Pagina 62

Page 24: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

de la divisione del testo in paragrafi, compresi tra le etichette <p> e</p>. All’interno di un paragrafo vanno in seguito marcate alcuneporzioni di testo che svolgono determinate funzioni come messa inrilievo <hi>, prestiti da altre lingue <foreign>, varianti linguisticherispetto alla dimensione diacronica <distinct time>, diastratica <di-stinct social>, diafasica <distinct type> e diatopica <distinct space>.Un esempio di etichettatura per i forestierismi <foreign> (da Sper-berg-McQueen e Burnard 2002, § 6.3.2):

<q>Aren’t you confusing <foreign lang="la">post hoc</foreign> with<foreign lang="la">propter hoc</foreign>?</q> said the Bee Master.<q>Wax-moth only succeed when weak bees let them in.</q>

Particolare attenzione è dedicata alle norme per la codifica di tra-scrizioni del parlato. Il parlato, infatti, per numerosissimi aspetti pre-senta aspetti molto complessi da tenere in considerazione, quali lapresa di turno, le sovrapposizioni, la velocità di eloquio e il tempo,pause, inserzioni di porzioni vocali non linguistiche e interazioni coni gesti, peculiarità fonetiche e prosodiche. Una occorrenza di testoparlato viene etichettata come <text> quando è caratterizzata da unacerta coerenza e coesione, ed è ininterrotta. Ovviamente la determi-nazione dei confini di un testo parlato (come per alcuni versi anchedi certi testi scritti) può essere piuttosto problematica, ed è affidataal buon senso dell’annotatore. All’interno di un testo parlato trovia-mo la presenza di diversi enunciati, etichettati con <u> (utterance),costituiti da sequenze di testo delimitate da silenzi o da passaggi diturno. Negli enunciati si trovano pause <pause>, elementi vocali nonlinguistici (come le pause piene, tipo ehm) <vocal>, elementi gestualianche non linguistici <kinesic>, eventi esterni, come rumori acci-dentali, <event>, elementi scritti mostrati durante la conversazione<writing>, passaggi a eventi paralinguistici <shift>.

Mentre il consorzio TEI, come si è visto, si occupa soprattutto del-le norme generali per la codifica di qualunque tipo di testi, vi sono al-tre iniziative che hanno cominciato a trattare più specificatamente leannotazioni linguistiche, ossia la codifica di informazioni che riguar-dano per esempio l’analisi fonologica, morfologica, sintattica o se-mantica. Uno di questi progetti è EAGLES, acronimo dell’ExpertAdvisory Group on Language Engineering Standards (http://www.ilc.cnr.it/EAGLES96/home.html), progetto della Unione europea

63

Chiari.qxp 21-11-2006 17:39 Pagina 63

Page 25: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

specificatamente interessato alla codifica delle annotazioni linguisti-che per la descrizione di tutte le lingue appartenenti alla Ue. EAGLESsi occupa dei principali temi per il trattamento informatico dei datilinguistici: codifica dei testi, annotazione linguistica, elaborazione de-gli strumenti di analisi (software) e, con particolare attenzione, pro-gettazione di corpora di parlato. Lo scopo di questo progetto è quel-lo di individuare standard per la codifica al fine di ottenere riusabilità,interscambiabilità ed estensibilità per corpora differenti.

L’annotazione procede per 3 livelli (cfr. EAGLES 1996): 1) L’eti-chettatura morfo-sintattica obbligatoria è quella per le categorie sin-tattiche (nome, verbo, avverbio, aggettivo, congiunzione), applica-bile in modo uniforme al di là della lingua specifica del corpus (bi-sogna tenere tuttavia presente che EAGLES si occupa specificata-mente delle lingue dei paesi dell’Unione europea). L’insieme delleetichette è chiuso e definito, e costituito da 13 categorie. 2) Vi è poiun livello di etichettatura raccomandata che riguarda le principalispecificazioni grammaticali che dipendono in gran misura dalla lin-gua analizzata (come genere, persona, ecc.). Anche in questo casol’insieme delle etichette è chiuso, ampio e distinto a seconda delleetichette obbligatorie di riferimento (e.g. per la categoria «nome»,avremo 4 attributi ciascuno con una serie di valori: tipo, genere, nu-mero e caso). 3) Un terzo livello è quello delle estensioni speciali cheindica specifiche grammaticali tipiche di un numero ridotto di lin-gue europee oppure annotazioni particolari introdotte a fini specifi-ci. Ovviamente in questo caso la classe delle etichette è aperta (edestensibile a seconda dei bisogni di annotazione) e va dall’indicazio-ne dell’aspetto verbale alla riflessività, ecc.

Il Corpus Encoding Standard (CES) è invece un progetto di stan-dardizzazione della codifica dei corpora ideato da diverse strutturee associazioni per le applicazioni di ingegneria linguistica. CES è unaapplicazione SGML conforme alle direttive TEI e EAGLES. Lostandard CES si applica a corpora mono- e multilingui. Si tratta diuno standard pensato appositamente per le elaborazioni del NaturalLanguage Processing, della lessicografia e della traduzione automati-ca. Vengono distinte norme di codifica per i cosiddetti dati primari,ossia i corpora elettronici non annotati, e la vera e propria annota-zione linguistica. Come viene detto nell’introduzione allo standardCorpus Encoding Standard (http://www.cs.vassar.edu/CES/CES1-0.html), quattro sono i suoi scopi principali: 1) raccomandazioni di

64

Chiari.qxp 21-11-2006 17:39 Pagina 64

Page 26: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

livello metalinguistico; 2) etichette e raccomandazioni per la docu-mentazione dei corpus; 3) etichette e raccomandazioni per l’annota-zione dei dati primari; 4) etichette e raccomandazioni per l’annota-zione linguistica (a livello testuale, morfo-sintattico e per il tratta-mento di corpora paralleli).

La forma sintattica delle etichette linguistiche ben formate costi-tuisce un cosiddetto metalinguaggio di annotazione (markup meta-language). A questo livello sono fornite delle regole per determinarese una sequenza di etichette si può considerare ben formata, oppu-re no, escludendo dunque da questa fase l’indicazione specificasull’insieme delle etichette che concretamente appariranno nella co-difica. A livello di metalinguaggio si adopera lo standard SGML chedefinisce essenzialmente l’insieme dei caratteri dell’inventario e laforma delle etichette. Il secondo livello consiste nella determinazio-ne delle etichette vere e proprie (tag names) e le regole sintattiche perl’uso delle etichette. Si tratta di quello che è definito il livello sintat-tico. Questo livello per essere considerato standard deve seguire unostesso protocollo SGML Document Type Definition (DTD). Il terzopasso è la standardizzazione del livello semantico. Si tratta dell’indi-viduazione di precise e univoche procedure di applicazione di unadeterminata etichetta a diversi fenomeni linguistici. Il valore e il si-stema di etichettatura devono essere sempre costanti e prevedereuna certa condivisione su cosa possa essere chiamato <parola> <fra-se> <nome> <autore>, ecc.

È ipotizzabile, in futuro, la presenza di grandi corpora di riferi-mento accompagnati da separate annotazioni standardizzate su piùlivelli, che possano rendere conto delle interrelazioni tra le diverseentità linguistiche. Data la separazione dei dati grezzi dalle varie an-notazioni, è anche possibile pensare che la capacità predittiva e dianalisi di diverse teorie a uno stesso livello linguistico possano esse-re testate e paragonate sullo stesso corpus mediante il confronto del-le diverse annotazioni che possono produrre.

Letture

Introduzioni alla linguistica dei corpora in lingua inglese sono oramaimolto diffuse. Tra le più recenti segnaliamo: G. Barnbrook, Language andComputers: A Practical Introduction to the Computer Analysis of Langua-ge, Edinburgh University Press, Edinburgh 1996, che propone un’intro-

65

Chiari.qxp 21-11-2006 17:39 Pagina 65

Page 27: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

duzione da zero alla costruzione, elaborazione e analisi elettronica di cor-pora linguistici; T. McEnery e A. Wilson, Corpus Linguistics, EdinburghUniversity Press, Edinburgh 1996, è l’introduzione più completa alla sto-ria, agli strumenti e ai progressi della linguistica dei corpora; J. Sinclair,Corpus, Concordance, Collocation, Oxford University Press, Oxford1991, espone le nozioni fondamentali della linguistica dei corpora, sullabase dell’esperienza dell’autore al Cobuild e alla costruzione della Bankof English. Sull’uso di corpora della lingua parlata, per l’inglese si segnala:G. Leech et alii (a cura di), Spoken English on Computer, Longman, Lon-don 1995. Per una panoramica sulla linguistica dei corpora in Italia si ve-da I. Chiari, Linguistica e informatica: la linguistica dei corpora in Italia,in «Bollettino di Italianistica», 4, 2005, pp. 101-118, e sugli aspetti legatiall’insegnamento e apprendimento linguistico R. Rossini Favretti (a curadi), Linguistica e informatica. Multimedialità, corpora e percorsi di appren-dimento, Bulzoni, Roma 2000. Sui problemi relativi al web come corpussi può vedere A. Kilgarriff e G. Greffenstette, Introduction to the specialissue on web as corpus, in «Computational Linguistics», 29, 2003, 3, pp.1-15 e A. Lüdeling et alii, Using Web Data for Linguistic Purposes, in CorpusLinguistics and the Web, a cura di M. Hundt, C. Biewer e N. Nesselhauf,Rodopi, Amsterdam (in corso di stampa).

Per approfondire la questione degli standard di codifica e annotazio-ne si può vedere in italiano Il manuale TEI Lite. Introduzione alla codifi-ca dei testi letterari, a cura di F. Ciotti, Edizioni Sylvestre Bonnard, Mila-no 2005, oppure la versione completa del testo delle Guidelines della TEIche si trova al sito: http://www.tei-c.org/P5/.

Chiari.qxp 21-11-2006 17:39 Pagina 66

Page 28: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

4.

L’esplorazione e l’analisi dei corpora

Nel capitolo precedente si sono osservate alcune caratteristiche peril disegno e la costruzione di un corpus. In questo capitolo sarannoinvece illustrate alcune possibilità di esplorazione e interrogazionedei corpora per la ricerca linguistica. I corpora, come si vedrà nei ca-pitoli successivi, non sono solamente di utilità diretta per il linguista,ma sono spesso integrati anche in altre applicazioni della linguisticacomputazionale che si servono di materiale autentico, spesso in for-ma già etichettata, per migliorare le prestazioni dell’applicazione oper «addestrarla» al trattamento di nuovi materiali.

Un corpus può essere esplorato, in una prima fase, anche senzache vi sia condotta alcuna etichettatura. Tuttavia l’interrogazione dicorpora etichettati fornisce precisi risultati linguistici che rispondo-no a criteri esatti, mentre l’esplorazione di corpora non etichettati hapiù un carattere introduttivo ed euristico e serve per farsi un’ideadelle caratteristiche del testo. In questo paragrafo saranno descrittealcune forme di interrogazione, ossia di estrazione di informazionelinguistica dal materiale.

4.1. Caratteristiche del testo e liste di frequenza

I testi possono essere osservati da molti punti di vista. Uno di questipermette di mettere in luce le caratteristiche linguistiche attraversol’osservazione della struttura statistica del lessico, dominio della sta-tistica linguistica (§ 2.4). Una prima forma di raccolta di informa-zioni sul corpus può essere ricavata producendo una lista di fre-quenza, ossia un elenco di tutte le forme (type, tipi di parole) checompaiono nel corpus, ciascuna con l’indicazione di quante volte es-sa compare nel corpus. La lista di frequenza solitamente si presenta

67

Chiari.qxp 21-11-2006 17:39 Pagina 67

Page 29: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

su due colonne: nella prima appaiono le forme di parola, nella se-conda gli indici di frequenza (ossia il numero di occorrenze nel te-sto). A queste informazioni solitamente è aggiunto un valore, dettofrequenza relativa, (Fw/N), che corrisponde al rapporto tra le occor-renze della singola parola (Fw) e il numero di parole testuali del cor-pus (N). La frequenza relativa spesso è espressa in percentuale(quando il valore della frequenza relativa viene moltiplicato per100), ottenendo la frequenza relativa normalizzata (Fwx100/N seespressa in percentuale, ma esprimibile x1000, x1.000.000, ecc. a se-conda della lunghezza del testo).

In genere l’ordine di presentazione è per frequenza decrescente.Al primo posto compare la parola testuale più frequente, all’ultimola meno frequente. La forma che ha frequenza maggiore, e che si tro-va al primo posto, si dice di primo rango. A un rango più basso cor-rispondono quindi frequenze più alte, a un rango alto frequenze bas-se. Se prendiamo, ad esempio, il primo capitolo dei Promessi sposi(costituito da 6181 occorrenze di parole), e produciamo una lista difrequenza, otteniamo il risultato seguente:

255 4,1255% e 41 0,6633% come195 3,1548% di 39 0,6310% una162 2,6209% che 38 0,6148% ma146 2,3621% a 38 0,6148% più109 1,7635% il 34 0,5501% o100 1,6179% in 31 0,5015% gli100 1,6179% un 28 0,4530% don97 1,5693% non 28 0,4530% da80 1,2943% la 26 0,4206% due78 1,2619% per 25 0,4045% se55 0,8898% le 24 0,3883% poi53 0,8575% con 24 0,3883% della47 0,7604% si 24 0,3883% era44 0,7119% del 23 0,3721% al42 0,6795% i 22 0,3559% abbondio

Figura 1. Una lista in ordine di frequenza decrescente

Nella prima colonna si può vedere la frequenza grezza (il nume-ro di occorrenze della forma nel testo, e occorre 255 volte), nella se-

68

Chiari.qxp 21-11-2006 17:39 Pagina 68

Page 30: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

conda la frequenza relativa della forma (il 4,12% delle occorrenzedel testo è costituito da e), e nella terza colonna la forma di riferi-mento. Come si può vedere, ai primi posti, cioè al rango indicato daivalori più piccoli, troviamo le parole grammaticali (e, di, che, a, il,in). Queste parole sono sempre ai primi posti di una lista di fre-quenza, indipendentemente dal contenuto del testo, giacché sonoindotti dalla grammatica della lingua. Le parole grammaticali, comele preposizioni, gli articoli, le congiunzioni, sono spesso dette paro-le vuote, dato che hanno un contenuto semantico difficilmente defi-nibile, e hanno soprattutto la funzione di mettere in relazione tra lo-ro altre parole (con, per, gli, tuttavia). Si chiamano invece parole pie-ne i sostantivi, i verbi, gli aggettivi, gli avverbi, che veicolano un con-tenuto semantico relativamente più autonomo (sedia, buio, dolce, ze-bra, amministrarono). Le parole piene incominciano ad apparire nel-la lista di frequenza più avanti. La prima parola piena dell’esempioè don (“titolo onorifico degli ecclesiastici”) e arriva al ventiduesimoposto dell’elenco.

In genere, tuttavia, l’osservazione di una lista di frequenza ordi-nata per tipi di parole, detta anche formario, è solo un primo passo,cui naturalmente segue il processo di lemmatizzazione (§ 4.2)

Per capire l’impatto diverso che hanno le parole piene e quellevuote possiamo confrontarne il numero dei lemmi nel vocabolario dibase (VDB, costituito dalle prime 6688 parole più frequenti, cono-sciute complessivamente da persone che abbiano un’istruzione parialle medie inferiori) e nel vocabolario comune, composto da 39.700parole (da cui sono escluse le parole del VDB, «usati e compresi in-dipendentemente dalla professione o mestiere che esercitiamo o dal-la collocazione regionale e che sono generalmente noti a chiunqueabbia un livello mediosuperiore di istruzione», De Mauro 1999a, p.XX). Estraiamo i dati dal repertorio del Dizionario della lingua ita-liana a cura di Tullio De Mauro (2000) e osserviamo che del voca-bolario di base il 98,4% (6581 parole) è costituito da parole piene,mentre del vocabolario comune il 98,90% (39.265 parole) sono pa-role piene. Nel vocabolario in generale il numero di parole vuote ènettamente inferiore a quello delle parole piene, che coprono sem-pre più del 98% dei lemmi. Proviamo ora a vedere cosa succede seguardiamo il rapporto tra parole vuote e parole piene in un testo, in-vece che nel vocabolario. Prendiamo, per esempio, l’intero testo deiPromessi sposi di Alessandro Manzoni. Secondo le elaborazioni sta-

69

Chiari.qxp 21-11-2006 17:39 Pagina 69

Page 31: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

tistiche fornite da Intratext (Èulogos, http://www.intratext.com/), ilnumero dei token è 223.854, di questi le occorrenze di parole vuotesono 130.187, ossia il 58%. Quantitativamente, dunque, in un testo,le parole vuote sono moltissime, più della metà.

Pur potendo ordinare una lista di frequenza in diversi modi (al-fabetico, alfabetico inverso, per lunghezza delle parole, ecc.), l’ordi-namento più utile resta quello per frequenza decrescente, conve-niente soprattutto per individuare la distribuzione delle parole nel-le diverse forme e dunque per determinare diverse fasce di frequen-za. L’individuazione delle diverse fasce, il loro numero, la composi-zione ed estensione di ogni fascia sono questioni di opportunità inrelazione agli scopi specifici della ricerca e alle caratteristiche del te-sto. In genere per avere un’idea delle distribuzioni possono bastaretre fasce: di alta, media e bassa frequenza. La fascia di alta frequen-za contiene un numero relativamente basso di forme, quasi tuttegrammaticali, che occorrono con frequenze alte e distinte. La fasciamedia si fa iniziare convenzionalmente con la prima coppia di paro-le che registrano la stessa frequenza assoluta. Si tratta di una fasciacostituita da un numero di parole superiore alla fascia alta, ma note-volmente inferiore alla fascia bassa. La fascia bassa contiene tutti glihapax (parole che occorrono una sola volta nel testo) e tutte le oc-correnze molto basse. Spesso convenzionalmente il limite della fa-scia bassa è determinato dalla prima parola che, partendo dagli ha-pax, registra un valore di occorrenza che salta la continuità della se-rie. Per esempio, nel caso di occorrenze della serie 1, 2, 3, 4,……22,23, 26, il confine della fascia bassa sarebbe tra la parola con occor-renza 23 e quella con occorrenza 26 (cfr. Bolasco 1999, pp. 202-203).

4.2. La lemmatizzazione dei testi

Se analizziamo i dati del corpus nei modi che si sono appena visti, leliste che otteniamo conterranno separatamente tutte le forme flessedei lessemi del testo. Avremo una entrata lessicale per ogni type. Cisarà una forma di lista della parola trovava, una diversa per trovan, euna distinta di trovano, trovò, ecc. Può essere molto utile e spesso ne-cessario, invece, ridurre le forme flesse di uno stesso lessema a una for-ma di citazione (lemma). Questa complessa operazione è detta lem-matizzazione. Per svolgere una lemmatizzazione un software deve di-

70

Chiari.qxp 21-11-2006 17:39 Pagina 70

Page 32: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

sporre di tutte le possibili forme flesse (i plurali, i diversi generi peraggettivi e nomi; i tempi, modi e persone per i verbi) e saper ricon-durre ogni forma al rispettivo lemma, contandola nell’insieme alla suaclasse (nel caso dell’esempio precedente, per esempio, trovare).

Quando si opera una lemmatizzazione, la lista di frequenza con-terrà solo le diverse forme di citazione come entrate: essere, fare, li-bro, ecc. Si avrà così un’informazione linguistica molto ricca che per-mette di usare come punto di riferimento l’unità linguistica astrattadel lessico, ossia il lessema. Per ottenere una lista lemmatizzata, tut-tavia, è necessario che siano svolte procedure molto complesse co-me la disambiguazione degli omografi. Per eseguire un’analisi appro-priata è necessario, infatti, che nella frase la porta si chiuse si sappiaricondurre la forma porta al lemma appropriato (sostantivo) e non alverbo portare, che nella terza persona singolare del presente indica-tivo produce una forma omografa al nome.

Il risultato dell’operazione è una lista lemmatizzata composta ingenere da: la forma testuale, la categoria grammaticale disambigua-ta, il lemma di riferimento (Tabella 1).

Tabella 1. Lista lemmatizzata verticale

Il DET:def il

dottore NOM dottore

mi PRO:pers mi

raccomandò VER:remo raccomandare

di PRE di

non ADV non

ostinarmi VER:infi ostinarsi

a PRE a

guardare VER:infi guardare

tanto ADV tanto

lontano ADJ lontano

Dalla lista lemmatizzata si può produrre una lista di frequenzalemmatizzata, che, al posto dei valori delle forme flesse, riporta in-vece solamente il lemma di riferimento, con l’occorrenza totale ditutte le sue forme flesse presenti nel testo. Se per esempio lemma-tizziamo il Preambolo della Coscienza di Zeno di Italo Svevo con

71

Chiari.qxp 21-11-2006 17:39 Pagina 71

Page 33: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

TreeTagger, elaborato dall’Università di Stuttgart, otteniamo una li-sta che contiene in cima: il (38 occorrenze), e (21), che (20), essere(18), di (13), mio (12). Il numero delle occorrenze si riferisce però, adifferenza delle liste di frequenza precedenti, a tutte forme flesse dellemma. Dunque il censisce anche occorrenze di la, i, le; essere anchedi sono, è, era; mio di miei, mie, ecc.

La lemmatizzazione è un processo importantissimo dal punto divista linguistico, giacché mette in evidenza la relazione lessicale trale parole e dunque ci fornisce un quadro molto più preciso dell’usoche se ne fa nei testi. È però molto difficile costruire un buon pro-gramma di lemmatizzazione, dato che nelle lingue vi sono tutta unaserie di ostacoli alla semplice ricostruzione del lemma di riferimen-to: omografi, polirematiche e collocazioni, ambiguità sintattiche, trai più evidenti. La linguistica computazionale ha sviluppato diversistrumenti per condurre in automatico almeno una parte della lem-matizzazione, costruendo i cosiddetti lemmatizzatori automatici,strumenti che usano diverse tecniche (disambiguazione sintatticaper regole o statistico-probabilistica) per distinguere le forme omo-grafe e riconoscere la struttura sintattica della frase (cap. 6).

4.3. Analisi degli usi con le concordanze

Le liste di frequenza possono, come abbiamo visto, mostrare alcunecaratteristiche salienti dei testi. Ma le parole non compaiono isolatenei testi, bensì accompagnate da altre parole in un co-testo. Il cote-sto che precede e segue una data parola ci dà una serie di informa-zioni linguistiche essenziali sugli usi della parola, e ci aiuta spesso aindividuare sequenze di parole che occorrono più abitualmente, avolte persino in forme cristallizzate (a guisa di, restare con un palmodi naso, giacenza di cassa, ecc.). Per estrarre da un corpus di testi leparole e, insieme a esse, i rispettivi co-testi si usa uno strumento spe-cifico: la concordanza.

Una concordanza è la presentazione delle parole di un testo, conl’indicazione della frequenza con la quale la parola occorre e il con-testo linguistico precedente e successivo (co-testo). Lo scopo prin-cipale di una concordanza è quello di mostrare l’occorrenza di unaparola centrale di un testo letterario o linguistico (per esempio la pa-rola anima nella Divina Commedia) e soprattutto i suoi usi in un cor-

72

Chiari.qxp 21-11-2006 17:39 Pagina 72

Page 34: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

pus. Nella concordanza presentata qui sotto sono riportate alcunedelle 72 volte in cui compare la parola anima nella Divina Comme-dia. Nella prima colonna sono indicati i luoghi (nel caso specificocantica, canto, verso), nella seconda colonna sono evidenziati i versinei quali compare la parola-chiave sottolineata.

[In.1.122] anima fia a ciò più di me degna:[In.2.45] l’anima tua è da viltade offesa;[In.2.58] O anima cortese mantoana,[In.3.88] E tu che se’ costì, anima viva,[In.3.127] Quinci non passa mai anima buona;[In.5.7] Dico che quando l’anima mal nata[In.6.55] E io anima trista non son sola,[In.10.15] che l’anima col corpo morta fanno. [In.12.74] saettando qual anima si svelle[In.12.90] non è ladron, né io anima fuia.[Pu.4.3] l’anima bene ad essa si raccoglie,[Pu.18.44] e l’anima non va con altro piede,[Pu.19.73] Adhaesit pavimento anima mea’[Pu.19.113] da Dio anima fui, del tutto avara;[Pu.20.34] O anima che tanto ben favelle,

Le concordanze, per la loro semplicità di realizzazione e di inter-rogazione, sono strumenti molto usati in campo linguistico e soprat-tutto letterario. Le principali funzioni delle concordanze sono: a) os-servare i diversi usi di una parola; b) esaminare i diversi contesti (se-mantici, sintattici o testuali) in cui occorre una parola; c) analizzarela regolarità con la quale una parola è accompagnata ad altre nel suocotesto.

Le concordanze hanno una modalità di presentazione per nodo(keyword, o search-word), detto anche parola-chiave, in un senso di-verso rispetto a quello usale della statistica linguistica. Il nodo è laparola di cui desideriamo ottenere la lista di occorrenze e contesti: èla parola che generalmente si trova nella colonna centrale della con-cordanza (‘anima’ è il nodo della concordanza sopra riportata). In-torno al nodo si trova il cotesto. La prassi più tipica di esibizione delcotesto è nella forma del cosiddetto KWIC (keyword-in-context), incui il numero di parole precedenti e successive al nodo può variare:può essere un numero fisso (e.g. 3 parole prima e 3 dopo); può es-sere costituito dal verso (come nell’esempio), può essere la frase in-

73

Chiari.qxp 21-11-2006 17:39 Pagina 73

Page 35: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

tera (da un segno di punteggiatura di frase all’altro). In genere leconcordanze si presentano nell’ordine di occorrenza della parola-chiave nel testo.

Si possono inoltre costruire concordanze complete e concordan-ze specifiche. Le concordanze complete analizzano tutte le parole delcorpus e di tutte forniscono le occorrenze e il KWIC (escludendo avolte le parole vuote). Per fare una concordanza completa è neces-sario più tempo di processamento, il file prodotto è più esteso, ed ènecessario fare un lavoro di preparazione del corpus significativo.Avremo così tutte le informazioni in una volta e potremo interroga-re successivamente in pochi secondi l’intero corpus. Le concordanzespecifiche si realizzano invece per parola-chiave. In questo caso pos-siamo cercare direttamente solo le occorrenze e i co-testi delleespressioni che ci interessano. Le concordanze specifiche possonoessere di diversi tipi: a) per forma specifica (parola testuale, formaflessa) b) con l’uso di caratteri jolly c) con le espressioni regolari.

Le ricerche per forma specifica o parola testuale sono le più sempli-ci. Se si vuole sapere quante volte e in quali contesti compare la paro-la psicologico in un dato corpus, si potrà fare una ricerca con la paro-la-chiave <psicologico>. In questo caso otterremo, dal corpus del Les-sico di frequenza dell’italiano parlato, una concordanza del genere:

... di equilibrio psicologico per cui ...

... passando sul psicologico mi chiede ...

... che sul psicologico cioè a ...

... un conflitto psicologico si trasferisce ...

... F: no psicologico non è ...

... a livello psicologico a favore ...

I caratteri jolly, detti anche wildcards, consentono alcune ricercheflessibili facendo uso di alcuni simboli che definiscono classi di carat-teri. Ogni applicativo definisce in modo indipendente i caratteri jollyutilizzabili per le ricerche. In genere, per esempio, l’asterisco [*] in-dica una sequenza di 1 o più caratteri. Usando questo simbolo potre-mo trovare tutte le forme dell’aggettivo psicologico con la seguentesintassi: psicologic*. Questa ricerca permette di isolare tutte le paroleche iniziano per psicologic-, dunque oltre a trovare le forme psicologi-co, psicologica, psicologici e psicologiche, qui troviamo anche due oc-correnze dell’avverbio psicologicamente che soddisfa i criteri dati.

74

Chiari.qxp 21-11-2006 17:39 Pagina 74

Page 36: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

Basate su un principio simile sono le espressioni regolari (dette an-che regex, da regular expression). Con le espressioni regolari possia-mo, per esempio, direttamente ottenere le forme flesse di psicologicosenza disporre di un lemmatizzatore già programmato, operando unasola ricerca, ed escludendo per esempio parole come psicologicamen-te. La sintassi per le espressioni regolari per isolare solo le forme fles-se sarà < psicologic[aoih]?>. I simboli tra parentesi quadre indicanotermini che devono occorrere disgiuntamente (<a> oppure <o> op-pure <i> oppure <h>) seguiti da 0 o 1 carattere (questo per «cattura-re» psicologiche, ma non psicologicamente). Il risultato è il seguente:

... di equilibrio psicologico per cui ...

... passando sul psicologico mi chiede ...

... che_ sul psicologico cioè a ...

... una cosa psicologica A: bè ...

... bè no psicologica B: ma ...

... com’ha A: psicologica il...

... dicevo quella psicologica io credo ...

La differenza tra le espressioni regolari e i caratteri jolly risiedenel fatto che le espressioni regolari sono standardizzate, sono le stes-se in tutti gli applicativi che le supportano e prevedono una sintassiarticolata e molto flessibile. Sono dunque complessivamente più po-tenti dei caratteri jolly nelle ricerche di pattern matching, ossia di in-dividuazione di sequenze di caratteri che soddisfano determinati cri-teri formali.

4.4. I lessici di frequenza e i vocabolari fondamentali

Le liste di frequenza applicate a corpora testuali o a singoli testi for-niscono informazioni generali sulla distribuzione in fasce dei tipi diparola, mentre le liste lemmatizzate permettono di approfondire losguardo cogliendo la distribuzione dei lessemi in relazione alle for-me testuali che assumono nei testi. Unendo le potenzialità di questidue strumenti si possono costruire i lessici di frequenza. I lessici difrequenza sono delle liste lemmatizzate organizzate in ordine di fre-quenza decrescente. L’utilità dei lessici di frequenza basati su gran-di corpora di riferimento risiede nella possibilità di fornire un qua-dro delle principali fasce di uso dei lessemi e della loro copertura te-

75

Chiari.qxp 21-11-2006 17:39 Pagina 75

Page 37: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

stuale. I lessici di frequenza hanno diversi impieghi: lo sviluppo dirisorse per la didattica delle lingue, la ricerca di lessicologia statisti-ca, la produzione di dizionari-macchina per l’NLP (Natural Lan-guage Processing) e in genere l’integrazione di dati lessicali per di-verse applicazioni di linguistica computazionale.

I primi lessici di frequenza non furono realizzati tuttavia con l’au-silio di strumenti informatici. Il Häufigkeitswörterbuch der deutschenSprache, curato da Friedrich W. Kaeding nel 1897, è frutto di unospoglio manuale di testi e di una elaborazione durata decenni. Conl’avvento dei calcolatori e con lo sviluppo di corpora di riferimentodelle principali lingue del mondo sono iniziati a comparire lessici difrequenza con basi molto ampie, come per l’inglese A Computatio-nal Analysis of Present-day American English di Kucera e Francis(1967) e il più recente Word Frequencies in Written and Spoken En-glish (cfr. Leech et alii 2001), basato sull’analisi del British NationalCorpus. I principali dizionari di frequenza della lingua italiana sono,in ordine cronologico, il Lessico di frequenza della lingua italiana con-temporanea (LIF, cfr. Bortolini et alii 1971), il Frequency Dictionaryof Italian Words (cfr. Juilland e Traversa 1973), il Vocabolario elet-tronico della lingua italiana. Il vocabolario del 2000 (VELI, cfr. DeMauro 1989), il Corpus e lessico di frequenza dell’italiano scritto(CoLFIS, Laudanna et alii 1995) e, per la lingua parlata, il Lessico difrequenza dell’italiano parlato (LIP, cfr. De Mauro et alii 1993).

I dizionari di frequenza sono il naturale antecedente, più spessologico che cronologico, dell’elaborazione dei vocabolari fondamen-tali. I vocabolari fondamentali, infatti, si identificano con la zona dimassimo uso tra le fasce in cui si può suddividere il lessico di una lin-gua. Nella direzione opposta muovono invece gli studi che, a parti-re dagli anni Sessanta, soprattutto nei paesi dell’ex Urss, individua-no le frequenze dei lessemi nei testi specialistici e dei linguaggi set-toriali (giornalismo, fisica, chimica, economia, ecc.; per un esempioitaliano in campo giuridico si veda Elia 1995). I vocabolari fonda-mentali, a loro volta, sono un’elaborazione metodologicamente piùvalida e precisa dei cosiddetti word books, contenenti le parole piùusate in una lingua e costruiti come ausili nella didattica.

Per la lingua italiana, le prime liste delle parole ritenute intuitiva-mente di alta frequenza sono state: An Italian Word List from Lite-rary Sources (cfr. Knease 1931-1933), basata tuttavia esclusivamentesu testi letterari, il Der grundlegende Wortschatz des Italienischen di

76

Chiari.qxp 21-11-2006 17:39 Pagina 76

Page 38: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

Bruno Migliorini (cfr. Migliorini 1943), che tuttavia non ha una so-lida costruzione statistica, e infine i lavori di Tullio De Mauro, ca-ratterizzati da un impianto statistico-linguistico solido e confluitinella costituzione del Vocabolario di base (cfr. De Mauro 1980).

4.5. L’individuazione delle collocazioni e polirematiche

Nelle lingue, come si è visto nel § 1.4, vi sono una serie di locuzioni,costituite da più di una parola, che sono cristallizzate o irrigiditenell’uso: le collocazioni, come prescrivere una ricetta, richiedere un ri-covero ospedaliero, e le polirematiche, come vedere rosso, damigellad’onore, navigazione a vista, piramide ecologica. Quando vogliamocostruire una lista di frequenza, una lista lemmatizzata o una concor-danza potremmo voler contare separatamente il verbo vedere rispet-to alla locuzione vedere rosso, che, come si è detto, ha caratteristichesemantiche e morfo-sintattiche particolari. Per far ciò dovremmo di-sporre di una lista di tutte le polirematiche e delle collocazioni dellalingua che intendiamo analizzare. I confini tra usi regolari, colloca-zioni e polirematiche sono piuttosto sfumati e di fatto nuove locu-zioni appaiono continuamente. Esistono tuttavia alcune caratteristi-che statistiche delle parole che entrano in una locuzione che ne ren-dono più agevole l’individuazione.

In alcuni casi le parole singole possono occorrere con gran fre-quenza in moltissimi contesti diversi, in altri le parole occorrono perlo più nella polirematica o nella collocazione. Vi sono dunque diversigradi di intensità nel legame tra due o più parole che co-occorronoin un testo ed esistono diversi metodi per definire l’intensità di que-sti legami. Le procedure usate per estrarre le collocazioni sono es-senzialmente di tipo statistico e servono appunto per individuare lecollocazioni e le polirematiche automaticamente dai testi, senza ri-correre a liste esterne di riferimento.

I metodi più diffusi per osservare e determinare le collocazionisono misure di associazione statistica, come la mutual information(informazione reciproca) e lo Z-score (punteggio Z). Il primo siste-ma compara la co-occorrenza effettiva di una coppia di parole con ilvalore di co-occorrenza che le due parole avrebbero se il fatto di tro-varsi vicine fosse casuale. Lo Z-score procede grosso modo in ma-niera simile prendendo però come unità di confronto la frequenza

77

Chiari.qxp 21-11-2006 17:39 Pagina 77

Page 39: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

di occorrenza di una parola comparata alla frequenza attesa di co-occorrenza con altre parole, divisa per la deviazione standard dellaparola co-occorrente.

I metodi cui si è accennato sono efficaci tuttavia solamente se itesti sono espressi in lingue con morfologia piuttosto povera. Que-sto perché l’unità che viene presa in considerazione è la parola gra-fica, non il lemma. Per l’inglese, per esempio, questo metodo risultaopportuno, mentre per l’italiano, il francese o il russo appare del tut-to inadeguato. In italiano vi sono, infatti, espressioni completamen-te cristallizzate come a guisa di, in cui tutti gli elementi sono invaria-bili. Moltissime delle polirematiche contengono invece forme a va-riazione grammaticale. L’espressione prigioniero politico è usata an-che al plurale o al femminile (prigionieri politici), virare di bordo (ilcomandante ha virato di bordo) si può trovare con qualunque formaflessa del verbo.

Perché il tema dell’estrazione delle collocazioni e delle polirema-tiche è rilevante nella linguistica computazionale? L’individuazionedelle cristallizzazioni lessicali serve indirettamente a tutti i dominidella linguistica computazionale. In lessicografia computazionaleserve a estrarre espressioni da lemmatizzare come voce autonoma.Nella traduzione automatica serve per individuare traducenti cri-stallizzati e arricchire le banche dati terminologiche. È opportunanel Natural Language Processing per operare corrette analisi sintatti-che e anche nella generazione linguistica. L’estrazione di collocazio-ni è utile inoltre nell’information retrieval, nella disambiguazione deisensi di una parola, nel riconoscimento e nella sintesi del parlato.

4.6. Interrogazione avanzata e analisi dei dati testuali

Vi sono innumerevoli maniere di analizzare, interrogare ed estrarredati dal materiale disponibile nei corpora linguistici. L’utilizzazionepuò avvenire per motivi di ricerca o per successive applicazioni inlinguistica computazionale. Oltre all’esplorazione del materiale con-sentita dalle liste di frequenza e dalle concordanze, i corpora eti-chettati hanno numerosi vantaggi, uno dei quali è la possibilità dicondurre ricerche avanzate. Le ricerche avanzate sono un sistema diestrazione di dati che sfrutta la capacità di combinare diversi criteriin modo da rispondere a interrogazioni che riguardano a un tempo

78

Chiari.qxp 21-11-2006 17:39 Pagina 78

Page 40: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

diversi aspetti delle unità in analisi. La possibilità di interrogare ilcorpus è la vera e propria procedura di scoperta dei fatti linguisticied è dunque il fine della progettazione del corpus stesso.

Una buona interrogazione si fonda, però, su tre aspetti concomi-tanti: una buona e ricca annotazione linguistica del corpus; un softwa-re flessibile che permetta di progettare ricerche complesse e di com-binare diverse variabili; un utente sensibile alle regole di interroga-zione e alla natura dei fatti linguistici che si appresta a studiare.

Altre possibilità di esplorazione dei corpora sono offerte dalla sta-tistica testuale (§ 2.4) che, con metodi statistici descrittivi e probabi-listici, permette di mettere in luce proprietà nascoste dei testi. Tra lenozioni di base cui è imprescindibile riferirsi vi sono la dispersione el’uso dei lessemi. Mentre la frequenza ci indica globalmente quantevolte compare una determinata unità nel corpus, la dispersione ci in-dica se e dove vi sono concentrazioni di occorrenze nel corpus e/o indiverse tipologie testuali. Per individuare la dispersione sarà necessa-rio suddividere il corpus in parti (di dimensioni variabili a secondadell’interesse e del tipo di unità da osservare) e poi calcolare le fre-quenze relative dell’unità per ciascuna parte del corpus. La disper-sione ci fornisce una indicazione molto più precisa sul significato daattribuire alla frequenza proprio perché ne indica le modalità di oc-correnza. Se per esempio l’esotismo target in un determinato corpusha una frequenza piuttosto alta, potremmo però scoprire che le oc-correnze del lessema compaiono solo in una determinata tipologia ditesti e non con una distribuzione omogenea nel corpus generale. Sitratta dunque di una nozione molto interessante per osservare le di-stribuzioni statistiche delle occorrenze dei lessemi e delle forme del-le parole. La scelta delle ripartizioni del corpus è il momento più de-licato del trattamento poiché da questo deriveranno la misura delladispersione e, come si vedrà, l’indicatore dell’uso. Esistono diversemisure della dispersione, la più nota diffusa è il cosiddetto coefficien-te D, elaborato dal linguista francese Juilland (Juilland et alii 1970):

dove v indica il coefficiente di variazione (rapporto tra la deviazio-ne standard della frequenza – – e la frequenza media, dunque

D = 1 – vn – 1

79

Chiari.qxp 21-11-2006 17:39 Pagina 79

Page 41: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

v = /fmedia), mentre n indica il numero di partizioni in cui è statosuddiviso il corpus. La dispersione è dunque sempre un numero in-feriore a 1, ed è tanto maggiore quanto maggiore è il numero di par-tizioni in cui compare la parola.

Una volta individuata la frequenza e la dispersione di una unità èpossibile determinarne l’uso. L’uso specifica il modo con cui l’unitàoccorre nel corpus e viene calcolato moltiplicando la frequenza perla dispersione di ciascun elemento.

U = Df

Dunque maggiore è la dispersione (il valore di D si avvicinerà a1), maggiore diventa la corrispondenza tra uso e frequenza. Il tassodi uso sarà sempre di valore inferiore o al massimo uguale al valoredella frequenza, tanto inferiore quanto più la parola si trova in unnumero basso di partizioni diverse del corpus.

Possiamo illustrare questa caratteristica osservando alcune paro-le del corpus del CODIS (Rossini Favretti 1998). Se si osserva la ta-bella, ordinata per uso decrescente, si può notare come internet, adesempio, abbia una frequenza totale (20.048) molto più alta del suotasso d’uso (6159), che risente del fatto che vi è una evidente con-centrazione di occorrenze nella sola tipologia testuale miscellanea(con 14.215 token, 80% dei casi). Comportamento simile è esibitoda e-mail (frequente nella miscellanea) e da blitz (frequente nellastampa). Come si può vedere il tasso di uso è sempre inferiore allafrequenza grezza.

Tabella 2. Dispersione di alcuni forestierismi nel CODIS

F (tot) D USO STAMPA NARR. PR. ACC. PR. GIUR. MISC. EPHEM.

internet 20.048 0,307 6159 1502 19 1354 1077 14.215 1880fax 2708 0,528 1428 618,0 54,6 180,0 105,0 890,0 860e-mail 2127 0,229 487 152,5 12,3 70,0 67,5 1025,0 800flash 567 0,674 382 235,5 56,2 28,0 0,0 167,5 80jeans 371 0,533 198 100,5 188,5 20,0 5,0 42,5 15relax 290 0,541 157 64,0 20,0 16,0 2,5 87,5 100

La nozione di uso è centrale nella statistica lessicale, poiché ci for-nisce una rappresentazione quantitativa della presenza effettiva

80

Chiari.qxp 21-11-2006 17:39 Pagina 80

Page 42: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

dell’unità lessicale nelle diverse parti del corpus. I risultati dell’ana-lisi delle distribuzioni delle frequenze lessicali in corpora molto este-si ha, oltre al valore specificatamente linguistico, anche un’utilitàpratica, quando questi dati sono usati per individuare le fasce d’usodei lemmi di un dizionario. Un’indicazione generale sull’uso è data,per esempio, nei dizionari italiani curati da Tullio De Mauro (il Di-zionario della lingua italiana e il Grande dizionario italiano dell’uso)in cui vengono indicate le marche d’uso, che corrispondono in mol-ti casi a indicatori statistici.

FO: fondamentale; tra i lemmi principali, sono così marcati 2049 vocabo-li di altissima frequenza, le cui occorrenze costituiscono circa il 90% delleoccorrenze lessicali nell’insieme di tutti i testi scritti o discorsi parlati;AU: di alto uso; sono così marcati 2576 vocaboli di alta frequenza, le cuioccorrenze costituiscono un altro 6% circa delle occorrenze lessicalinell’insieme di tutti i testi scritti o discorsi parlati;AD: di alta disponibilità; sono così marcati 1897 vocaboli, relativamenterari nel parlare o scrivere, ma tutti ben noti perché legati ad atti e ogget-ti di grande rilevanza nella vita quotidiana (alluce, batuffolo, carrozzeria,dogana, ecc.).I vocaboli fondamentali, di alto uso e di alta disponibilità (quest’ultimo èil gruppo più esposto al variare della cultura materiale e richiede aggior-namenti relativamente frequenti) costituiscono nell’insieme il «vocabola-rio di base» (De Mauro 1999a, p. XX).

4.7. Le applicazioni dello studio dei corpora

Oltre agli evidenti notevoli benefici che lo studio dei corpora confe-risce alla linguistica, alla letteratura, alla critica testuale e alla filolo-gia, vi sono applicazioni che possono godere di significativi vantag-gi dall’uso dei corpora. Lo studio e la raccolta di grandi corpora del-le lingue moderne più diffuse e anche di quelle minoritarie è oggi inforte sviluppo. I testi che definiscono i corpora e i dati di tipo lin-guistico e statistico-linguistico da essi desumibili forniscono la baseper il perfezionamento e a volte la costituzione stessa di altre appli-cazioni computazionali. Le applicazioni lessicografiche, come i dizio-nari cartacei ed elettronici, oggi si servono dei dati dei corpora te-stuali e degli strumenti che abbiamo descritto nei paragrafi prece-denti per la predisposizione delle voci lessicografiche, per l’indivi-

81

Chiari.qxp 21-11-2006 17:39 Pagina 81

Page 43: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

duazione dei sensi diversi da attribuire alle accezioni di parola e del-la loro diversa incidenza statistica, per la selezione degli esempid’uso, delle locuzioni polirematiche, delle collocazioni, delle parolecomplesse e delle espressioni idiomatiche (§ 5.5). Anche la proget-tazione di grammatiche può giovarsi dell’integrazione con dati for-niti dai corpora sotto diversi punti di vista, da un lato fornendoesemplificazioni maggiormente aderenti alla realtà linguistica,dall’altro permettendo l’elaborazione vera e propria delle categoriedescrittive da adoperare usando come guida dati testuali reali calatinelle loro fasce d’uso (corpus-driven grammar).

Il trattamento automatico del linguaggio (cap. 6) si è giovato neglianni dell’integrazione di dati estratti da corpora per la costruzionedi parser, tagger, e lemmatizzatori che includessero moduli di tipostatistico, traendone notevole beneficio in termini di accuratezzadella performance. Così anche la traduzione automatica (cap. 7), cor-pus-based, example-based e statistica è alla frontiera della ricerca at-tuale sulla costruzione di programmi di traduzione o di traduzioneassistita dal computer, così come nella predisposizione delle transla-tion memory e delle banche dati terminologiche per i grandi organi-smi internazionali.

Infine, per quanto riguarda la didattica e l’apprendimento dellelingue, lo sfruttamento delle potenzialità e risorse offerte dai corpo-ra è straordinario. Da una parte forniscono a chi voglia predisporrestrumenti didattici (anche multimediali) la possibilità di proporre te-sti autentici, adeguabili alle diverse situazioni comunicative (da quel-le più quotidiane a quelle più formali). L’accesso ai corpora per-mette anche di pianificare e programmare meglio l’ordine con cuiproporre le diverse strutture sintattiche e lessicali in modo da favo-rire l’apprendimento delle strutture maggiormente usate nell’ambi-to specifico che interessa al discente (cap. 9).

Letture

Introduzioni alle prime forme di interrogazione dei corpora si possonotrovare nei volumi di S. Spina, Fare i conti con le parole, Guerra, Perugia2001; M. Lana, Il testo nel computer. Dal web all’analisi dei testi, BollatiBoringhieri, Milano 2004, mentre di stampo più letterario che linguisti-co è il testo di G. Gigliozzi, Il testo e il computer, Mondadori, Milano1997. Centrato sulla codifica, annotazione e trattamento dei testi al com-

82

Chiari.qxp 21-11-2006 17:39 Pagina 82

Page 44: 3. La linguistica dei corpora3. La linguistica dei corpora La linguistica dei corporanon può considerarsi propriamente comeuna branca della scienza linguistica, bensì un approccio,

puter è il volume di A. Lenci et alii, Testo e computer. Elementi di lingui-stica computazionale, Carocci, Roma 2005. Per quanto riguarda l’analisistatistica dei dati testuali, in italiano sono stati pubblicati recentementediversi volumi. Per iniziare dal punto di vista metodologico, una buonapresentazione può essere S. Bolasco, Analisi dei dati testuali, in Id., Ana-lisi multidimensionale dei dati, Carocci, Roma 1999, pp. 179-248; A. Tuz-zi, L’analisi del contenuto, Carocci, Roma 2003; e M. La Torre, Le paroleche contano. Proposte di analisi testuale automatizzata, Franco Angeli, Mi-lano 2005. Centrati su singole applicazioni di analisi dei dati testuali so-no invece E. Aureli Cutillo e S. Bolasco, Applicazioni di analisi statisticadei dati testuali, La Sapienza, Roma 2004; F. Lancia, Strumenti per l’ana-lisi dei testi. Introduzione all’uso di T-Lab, Franco Angeli, Milano 2004;L. Giuliano, L’analisi automatica dei dati testuali, LED, Milano 2004. Inlingua inglese esistono diversi manuali centrati sui metodi statistici in lin-guistica, tra cui vale la pena segnalare M. Oakes, Statistics for Corpus Lin-guistics, Edinburgh University Press, Edinburgh 1998 e A. Woods et alii,Statistics in Language Studies, Cambridge University Press, Cambridge2000.

Chiari.qxp 21-11-2006 17:39 Pagina 83