CORSO DI LAUREA MAGISTRALE in
INFORMATICA UMANISTICA(EDITORIA ELETTRONICA)
Il web 2.0 e la blogosfera italiana.Metodi statistici applicati
ai corpora dell’italianodei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
CANDIDATA RELATOREDott.ssa Mariagiovanna Scarale Prof. Mirko Tavosanis
CONTRORELATOREProf. Felice Dell’Orletta
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
WEB 2.0
Dinamico e
Democratico
Collaborazione
Integrazione
Partecipazione
Intelligenza Collettiva
UTENTEForum
Chat
Wiki
SocialNetwor
k
Mashups
Podcasting
DI COSA STIAMO PARLANDO?
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
RICERCA E ANALISI:
-FASE 1: Analisi della blogosfera italiana ed evoluzione del fenomeno dei blog nel corso degli anni;
-FASE 2: Analisi statistica dei corpora dei blog giornalistici e letterari mediante il tool Read-It.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
FASE 1:
CHE COSA?Stabilire una panoramica della blogosfera italiana oggi.
COME?Ricerca e analisi campionaria.
PERCHÉ?Per capire se e come si sta evolvendo il fenomeno dei blog in Italia.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
• Motore di ricerca per blog: Twingly;
• 10 chiavi di ricerca appartenenti al lessico di base dell’italiano: (‘questo’, ‘quello’, ‘quindi’, ‘perché’, ‘comunque’, ‘mio’, ‘di’, ‘invece’, ‘loro’, ‘il’);
• Ultimo risultato di ogni SERP*;
• 50 blog per chiave di ricerca**;
• 500 blog in totale;
• Analisi degli ultimi 10 post per ogni blog*** per un totale di 5000 post;
• Suddivisione in macrocategorie.
*Il browser di riferimento forniva un massimo di 50 pagine per risultato;** I risultati ripetuti sono stati sostituiti con quelli immediatamente precedenti;***In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo.
IL CAMPIONE:
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
•DIARISTICI: blog scritti in prima persona che seguono la tipica struttura del diario (narrazione e descrizione di eventi personali in modo costante);
•TEMATICI: comprendono i blog giornalistici (che trattano notizie) e quelli specialistici (che si occupano di tematiche particolari che non sono definite “notizie”)*;
•LETTERARI: blog che presentano scritti in prosa o poesie;
•INCLASSIFICABILI: blog di citazioni, blog fotografici e blog impossibili da classificare;
* Secondo l’accezione di “notizia” presente sul dizionario De Mauro, versione 2015: “Notizia: 1a. informazione su qcs. o qcn.: non ho più sue notizie da una settimana; 1b. comunicazione di un fatto di pubblico interesse, spec. recente, diffusa attraverso i mezzi di informazione: una importante notizia di prima pagina; 1c. informazione, ragguaglio pubblicato su una rivista specialistica: notizie sugli ultimi ritrovamenti archeologici; 1d. nota apposta dall’autore di un testo per fornire indicazioni o chiarimenti su un’opera: notizie bibliografiche; 2. nozione, conoscenza, dato specifico: ricostruire la storia di un popolo in base a notizie certe”.
LE MACROCATEGORIE:
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog diaristici:ht
tps:
//pop
a86.
wor
dpre
ss.c
om/
http
s://i
nfug
aper
lavi
ttor
ia.w
ordp
ress
.com
/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog tematici
http://aquariusreportages.blogspot.it/
http://francescorubiconto.blogspot.it/
https://lpiersantelli.wordpress.com/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog letterari
https://parisigiuseppetesti.wordpress.com/
http
://pa
risi
gius
eppe
test
i.wor
dpre
ss.c
om/
https://anothersea.wordpress.com/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog letterariht
tp://
inch
iost
rofu
saed
ragh
i.blo
gspo
t.it/
http
s://p
aris
igiu
sepp
etes
ti.w
ordp
ress
.com
/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog inclassificabili:ht
tp://
pazz
oper
repu
bblic
a.bl
ogsp
ot.it
/
http
://its
auro
rabl
r.tum
blr.c
om/
http
://fa
llen-
nefil
im.tu
mbl
r.com
/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
DIARISTICI e INCLASSIFICABILI: • unici mezzi di interazione;• scrittura rapida e non revisionata;• espressività grafica (lettura endofasica, abbreviazioni,
variazioni grafiche);
LETTERARI:• community;• scrittura controllata, revisionata, in neostandard;• scrittura rapida e revisionata con espressività grafica;
TEMATICI:• commenti di approfondimento e di chiarimento;• community;• scrittura rapida e non revisionata con espressività grafica;• scrittura revisionata in neostandard;
ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
http
s://p
aris
igiu
sepp
etes
ti.w
ordp
ress
.com
/
BLOG LETTERARI
http
s://s
cint
illed
anim
a.w
ordp
ress
.com
/
ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
BLOG TEMATICI
http://www.helptecnoblog.com/
http://guidami.info/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
COSA È EMERSO DALLA PRIMA ANALISI?
RISULTATI GENERALI
DIARISTICO 30 6%
TEMATICO 323 64,6%
LETTERARIO 100 20%
INCLASSIFICABILE 47 9,4%
TOTALE 500 100%
CATEGORIA N°
BLOG DIARISTICI: 30 Scritti da donne 24 Scritti da uomini 6
BLOG TEMATICI: 323 Blog giornalistici 189 Blog specialistici: 134
- Recensioni 41
- Makeup/ salute/ benessere 13
- Cucina 14
- Spiritualità/ religione 16
- Elettronica (tutorial e altro) 3
- Musica/ teatro (pagine specifiche di gruppi o artisti) 8
- Hobby/ sport 15
- Viaggio/ turismo 7
- Satira 4
- Animali 4
- Sociale/Associazioni/ Enti pubblici 4
- Marketing/ pubblicità/ varie 5 BLOG LETTERARI 100 BLOG INCLASSIFICABILI: 47
Citazione/Fotografici/ Personali/Femminili 26 Citazione/Fotografici/ Personali/Maschili 8 Citazioni (letterarie/ giornalistiche)/Fotografici/Non Personali 13
Le macrocategorie e le sottocategorie nello specifico
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Le ricerche precedenti:• TAVOSANIS (2007): analisi su 100 blog e 100 post;• SCARALE (2013): analisi su 100 blog e 100 post;• SCARALE (2015): analisi su 500 blog e 2000 post;
Prima di procedere è stato necessario normalizzare i dati, che presentano, una diversa numerosità calcolandone le frequenze relative* e trasformandoli in percentuali.
COSA È CAMBIATO NEGLI ANNI?
ANNO ACCADEMICO 2014/2015
Categoria 2007 2013 2015
Diario 31% 23% 6%
Tematici 59% 62% 65%
Letterari 10% 15% 29%
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
FASE 2:
CHE COSA?Analisi statistica dei corpora dei blog giornalistici e letterari.
COME?Mediante il text tool Read-It.
PERCHÉ?Per valutarne la leggibilità, le somiglianze e le differenze dal punto
di vista linguistico.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
• Tratto dai 500 blog analizzati nella Fase 1 della ricerca;
• 100 blog giornalistici (in totale 563.647 parole);
• 100 blog letterari (in totale 302.384 parole);
• Analisi con Read-It degli ultimi 10 post per ogni blog*, per un totale di 2000 post;
• Calcolo della media pesata (il peso è il numero di token di ogni post)** dei risultati di ogni post ;
• Calcolo della media delle medie pesate di ogni post per ogni blog;
• Calcolo della media delle medie di ogni blog per categoria.*In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo.** il text tool non permetteva di analizzare i corpora al completo, perché costituiti da troppe pagine. Per questo motivo si è optato per l’analisi basata sulle medie pesate di ogni post e di ogni blog.
IL CAMPIONE:
ANNO ACCADEMICO 2014/2015
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
READ-IT: ANALISI DELLA LEGGIBILITÀ 2.0
Il primo strumento avanzato per la valutazione della leggibilità di testi in lingua italiana;
Classificazione probabilistica basata su algoritmi di apprendimento supervisionato;
A partire da un corpus di addestramento accuratamente selezionato come rappresentativo dei livelli di leggibilità da considerare (es. “semplice” e “complesso”), il sistema “impara” a riconoscere le caratteristiche linguistiche estratte automaticamente dal risultato dell'annotazione linguistica del testo;Il punteggio di leggibilità di un nuovo testo sarà calcolato sulla base della maggior somiglianza del suo profilo linguistico ad uno dei livelli di leggibilità definiti;Analisi sofisticata delle strutture linguistiche sottostanti al testo;
Identificare i luoghi di complessità del testo;
Fornire un supporto utile per la semplificazione testuale;
Avvicinare anche persone con uno scarso livello di istruzione, stranieri e persone con disabilità linguistico-cognitive, all’informazione.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
I NOSTRI DATI
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Giornalistici ( σ )
Letterari ( σ )
Dylan Base 60,41% 16,94% 0,21 0,18 Dylan Lessicale 72,31% 74,43% 0,18 0,20 Dylan Sintattico 83,67% 39,93% 0,12 0,24 Dylan Globale 88,88% 73,44% 0,12 0,19 Gulpease 51,62 82,09 3,91 26,44
Caratteristiche estratte dal testo:
•DYLAN BASE: Misure tradizionali della leggibilità di un testo: lunghezza della frase (n. medio di parole) e lunghezza delle parole (n. medio caratteri). È un’approssimazione dell’indice Gulpease.
•DYLAN LESSICALE: Caratteristiche lessicali del testo: composizione del vocabolario (V) e ricchezza lessicale (R), numero totale di token (N).
•DYLAN SINTATTICO: Caratteristiche grammaticali: tratti morfosintattici e sintattici.
•DYLAN GLOBALE: Combinazione dei tre modelli precedenti.
•GULPEASE: [61;80] difficoltà per chi ha la licenza elementare; [41;60] difficoltà per chi ha la licenza media; [0;40] difficoltà per chi ha un diploma superiore;
ANNO ACCADEMICO 2014/2015
PROFILO DI BASE Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Numero totale periodi in token: 38,30 25,82 Lunghezza media dei periodi: 26,28 15,30 Lunghezza media delle parole in caratteri: 5,12 4,62
Caratteristiche estratte dal testo: Profilo di base
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
PROFILO LESSICALE Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Giornalistici ( σ )
Letterari ( σ )
Composizione del vocabolario Percentuale di lemmi appartenente al VdB: 68,22% 82,47% 0,05 0,44 Lemmi in base al repertorio del VdB: Fondamentale: 80,15% 81,12% 0,03 0,10 Alto uso: 15,24% 12,50% 0,03 0,08 Alta disponibilità: 4,61% 6,96% 0,01 0,10 Rapporto tipo/ unità: 0,70 0,49 0,04 0,22 Densità Lessicale: 0,57 0,56 0,02 0,05
Caratteristiche estratte dal testo: Profilo Lessicale
•VdB: lessemi che tutti usano in larga misura per costruire qualsiasi tipo di testo. Sono poco meno di 7000 lessemi, suddivisi a loro volta in tre fasce: lessico Fondamentale (2000 lessemi, il 90% di un testo), di Alto Uso (2500-3000 lessemi, con meno frequenza) e di Alta Disponibilità (2300 lessemi con minor frequenza);
•Rapporto Tipo /Unità (TTR): ricchezza lessicale come funzione del numero di parole diverse;
•Densità Lessicale: la proporzione di elementi lessicali - i sostantivi, i verbi e gli aggettivi che sono portatori del significato - rispetto agli elementi grammaticali - le preposizioni, gli avverbi e le congiunzioni che indicano i rapporti sintattici fra gli elementi significativi.
PROFILO SINTATTICO Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Giornalistici ( σ )
Letterari ( σ )
Categorie morfo-sintattiche Sostantivi: 19,53% 20,81% 0,02 0,10 Nomi Propri: 7,18% 2,71% 0,03 0,03 Aggettivi: 6,43% 15,32% 0,01 0,85 Verbi: 13,29% 16,88% 0,02 0,14 Congiunzioni: 4,29% 7,61% 0,01 0,19 Coordinanti: 73,38% 68,38% 0,07 1,14 Subordinanti: 26,26% 30,80% 0,07 0,30 Articolazione interna del periodo: Numero medio di proposizioni per periodo: 2,84 2 0,54 1,32 Proposizioni principali vs subordinate Principali: 65,19% 74,78% 0,07 0,17 Subordinate: 34,81% 25,22% 0,07 0,68 Articolazione interna della proposizione: Numero medio di parole per proposizione: 9,64 7,72 1,57 1,80 Numero medio di dipendenti / testa verbale: 2,03 1,83 0,16 0,78 Profondità dell'albero sintattico: Media delle altezze massime: 6,45 3,95 0,90 1,55 Profondità media strutt. nom. complesse: 1,31 1,14 0,08 0,24 Profondità media catene di subordinazione: 1,19 0,82 0,19 0,42 Lunghezza delle relazioni di dipendenza: Lunghezza media: 2,46 2,20 0,20 0,84 Media delle lunghezze massime: 9,85 9,87 2,03 40,41
Caratteristiche estratte dal testo: Profilo Sintattico
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
CONCLUDENDO
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Come si sono evoluti i blog in Italia?
- La maggior parte dei blog italiani è di tipo tematico;
- Crescita di blog tematici (+6% rispetto al 2007) e letterari (+19% rispetto al 2007);
- Battuta d’arresto dei blog diaristici (- 25% rispetto al 2007) colpa dei social network?
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Che tipo di lingua e di errori emergono?
Espedienti Linguistici
‘nn’ per non
‘x’ per per
GIORNALISTICI 1 su 189 0
LETTERARI (tutti nello stesso blog)
10 su 100
1 su 100
• Un nuovo tipo di giornalismo e di letteratura;• Italiano neostandard (blog tematici)• Errori involontari;• Commenti come chat e forum;• Scrittura rapida e abbastanza revisionata;• Espedienti linguistici e fenomeni di compensazione ridotti (espressività grafica e punteggiatura creativa).
GIORNALISTICI E LETTERARI
ANNO ACCADEMICO 2014/2015
DIFFERENZE
BLOG GIORNALISTICI BLOG LETTERARI
Più curati dal punto di vista grafico, stilistico ed editoriale;
Meno curati dal punto di vista grafico, stilistico ed editoriale;
Coerenza linguistica e tematica tra post diversi (deviazione standard σ minima);
Minore coerenza linguistica e tematica tra post diversi(deviazione standard σ elevata);
Sono più difficili da leggere:- Gulpease 51.62;- Media altezze massime albero sintattico
6.45;- Profondità media catene di
subordinazione 1.19;
Richiedono meno competenze per essere compresi:
- Gulpease 82.09 (σ 26.44);- Media altezze massime albero sintattico
3.95;- Profondità media catene di
subordinazione 0.82;
Post più lunghi:- Lunghezza media periodi 26.28;- Lunghezza media parole in caratteri 5.12;- Num. medio proposizioni per periodo
2.84;- Media altezze massime albero sintattico
6.45;
Hanno post più brevi:- Lunghezza media periodi 15.30 (σ 12.56);- Lunghezza media parole in caratteri 4.62;- Num. medio proposizioni per periodo 2 (σ
1.32);- Media altezze massime albero sintattico
3.95 (σ 1.55);
Nomi propri 7.18%. Sostantivi 20.81%, aggettivi 15.32%, verbi 16.88% e congiunzioni 7.61%;
Lemmi appartenenti al VdB ad Alto Uso: 15.24% Lemmi appartenenti al VdB (Fondamentale 81.12% e ad Alta Disponibilità 6.96%);
Struttura del periodo complessa, con un maggiore incassamento gerarchico delle proposizioni:
- Media altezze massime albero sintattico 6.45;
- Profondità media catene di subordinazione 1.19;
Struttura del periodo più semplice (versi poetici: Read-It considera una frase terminata quando c’è un ritorno a capo o un simbolo di punteggiatura forte):
- Media altezze massime albero sintattico 3.95 (σ 1.55);
- Profondità media catene di subordinazione 0.82;
ANNO ACCADEMICO 2014/2015
SOMIGLIANZE
BLOG GIORNALISTICI E BLOG LETTERARI
• Periodi paratattici;
• Proposizioni principali - giornalistici 65.19%;- letterari 74.78%;
• Congiunzioni Coordinanti - giornalistici 73.38%;- letterari 68.38%;
• Scrittura rapida e revisionata;
• Scrittura progettata per altri tipi di pubblicazione, in alcuni casi;
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Ripetere la ricerca tra qualche anno per stabilire come si sta evolvendo la blogosfera.• I blog diaristici diminuiranno ancora? • I blog letterari aumenteranno?• I blog tematici si stabilizzeranno, diminuiranno o
aumenteranno?
Ripetere la ricerca utilizzando solo i blog letterari, con un nuovo approccio orientato al genere narrativo.
Ripetere lo studio tra qualche anno utilizzando lo stesso campione di blog giornalistici per capire, confermare o confutare l’idea che esista davvero uno standard linguistico coerente nei post dei blog di questa categoria.
Sviluppi futuri?
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Grazie per l’attenzio
ne.Mariagiovanna Scarale