Upload
viola-guerrini
View
201
Download
1
Embed Size (px)
Citation preview
Un insieme di testi orali o scritti che permettono di arrivare all’uso e alla frequenza di determinati termini o
forme linguistiche.
Poiché era piùdifficile l’analisi
Più piccoli
DOPOla digitalizzazione
I corpora vengonodigitalizzate
Padre Busa pioniere della linguistica italianafonda il centro dell’Automatizzazione
dell’Analisi Linguistica di Gallarate
PRIMA delladigitalizzazione
Aumentano le dimensioni
Preferito il formato.txt
Standard XML si possono condividere i marcatori del testo.
Contenuto delle annotazioni
Formato con cui i file vengono standardizzati
Modalità annotative
Autenticità dei corporacomunicative monitorate
Situazioni
Grandezza dei corpora
Tipo di ricerca chesi vuole fare
etempo a
disposizione
PROBLEMA IN FASE DIINFORMATIZZAZIONE
Insieme di parole divise da interpunzione e spazi
“DELL’ ALTRO” o “QUEST’ULTIMO”
1 o 2 parole?
• È stato selezionato il corpus daWikipedia
• È formato da 100 voci suddivise in 10categorie
• Le voci sono state selezionate tra gennaio esettembre 2014
• È basato sullo studio di Elia (2006)
Scienza sociali e società
Religione
Filosofia e pensieri
Biografia
Matematica e astrazione
Storia ed eventi
Benessere e salute
Geografia e luoghi
Biografia
Arte e cultura
Tecnologia e scienze applicate
ARTE BIOGRAFIA CULTURA SOCIETÀ GEOGRAFIA
Cinemascopio BeatlesDiaspora Alcolismo Barcellona
ColosseoBenjamin Franklin
Fiaba EuroTriangolo delle Bermuda
Graffiti Bill Gates Bandiera FemminismoDeserto del Gobi
OlografiaAlbert Einstein
Geisha OmosessualitàIdrografia
ProscenioFred Astaire Danza Jazz Suffragio delle donne
Himalaya
JazzJames Dean
Pizza Povertà Ischia
MadonnaKarl Marx
Romanticismo Razzismo Londra
PolkaAdam Smith
Superstizione TamilPiccadilly Circus
U2Vittorio Alfieri Tè
TerrorismoSan Josè
Rosa dei venti Cristoforo Colombo Walt DisneyZulu Tempo
STORIA MATEMATICA FILOSOFIA SCIENZE TECNOLOGIA
Anna Frank Boolean algebra Agnostico AIDS Palloncino
Azteco Teoria delle catastrofi Aristotele Big Bang Benzina
S. Berlusconi Crittografia F. Bacone Cuore Internet
Tony Blair Teoria di Graph Epistemologia Neurone Jet Engine
Brit. East. India. C Matrix M. Foucault Bomba nucleare Microprocessore
Rosa dei venti Analisi numerica Scuola di Francoforte Polmonite Microsoft
Ku Klux Klan Teorema di Pitagora Filosofia della mente Royal Astrnautal Society Radar
Garibaldi Numeri Quantum Scetticismo Sars Macchina da scrivere
Rivoluzione Francese Numeri reali Thomas Huxley Energia solare Realtà virtuale
George Bush Vettori Wittgenstein Turchese World Wide Web
Il corpus selezionato è stato ripulito(didascalie, fotografie, indici, citazioni, ecc).
I testi sono stati convertiti da documenti worda .txt unicode (UTF-8)
Tramite il software (T-lab 9.1) sono stati analizzati i contenuti delle voci
Esempio: verbi, sostantivi Esempio: articoli, preposizioni
Hanno un significato anche al di fuoridella struttura della frase.
Termini il cui contenuto semantico si riduce solo alla loro funzione
strutturale all’interno della frase.
PAROLE PIENE PAROLE VUOTE
0,46
Il numero di parole totale della voce è:
2740tokens.
Il numero di parole piene è:
1274.
Applicando la formula avremo
80%
70%
60%
50%
40%
30%
20%
10%
0%
FILOSOFIA MATEMATICA SOCIETA' STORIA GEOGRAFIA BIOGRAFIA TECNOLOGIA ARTE CULTURA SCIENZE
de
nsi
tà le
ssic
ale
Densità lessicale media delle categorie
Densità lessicale Italiano Densità lessicale Inglese
• Densità lessicale italiano
• Valore massimo
58,22 % (TURCHESE)
• Valore minimo
47,07 % (ALGEBRA DI BOOLE)
• Valore medio
52,49 %
• Scostamento massimo
11,15 %
• Densità lessicale inglese
• Valore massimo
74,8 % (PIZZA)
• Valore minimo
23,8 % (EPISTEMOLOGIA)
• Valore medio
43,5 %
• Scostamento massimo
51 %
• Per quanto riguarda la D.L.l’inglese rispettoall’italiano ha una variabilemaggiore.
• Il confronto interno tra le variecategorie ci hanno dimostratoche non c’è una sostanziale differenza tra le categorieumanistiche e quelle scientifiche
• Treccani contrariamente a quello supposto ha una D.L. inferiore rispetto aWikipedia.