Upload
laura-fujiko-rizzi
View
605
Download
0
Embed Size (px)
DESCRIPTION
tesina di statistica sociale
Citation preview
TESINA DI STATISTICA – PROF. CARRA
A.A. 2011/2012
Analisi statistica relativa a
“L’abitudine al fumo in Italia”
di Rizzi Laura n° matricola 1012326
S C I E N Z E P S I C O L O G I C H E – U N I V E R S I T À D E G L I S T U D I D I B E R G A M O
Analisi statistica relativa a “L’abitudine al fumo in Italia”
2 Università degli studi di Bergamo
INTRODUZIONE
Con questo elaborato ho cercato di mettere in luce aspetti e soprattutto relazioni per quanto
concerne la tematica dell’abitudine al fumo nel territorio italiano.
Dopo aver recuperato i dati ho proceduto ad analizzarli, seguendo tre modelli statistici:
modello Anova: E’ possibile affermare che l’età influisce sul n° di fumatori in Italia?
analisi dei dati categoriali: Esiste una relazione tra il luogo di residenza e la decisione di
fumare?
analisi della regressione e correlazione: E’ possibile affermare che il n° di fumatori
influisce sul n° di soggetti malati di tumore ai polmoni?
Inoltre, ho deciso di calcolare anche i fattori di Media, Moda e Mediana e per concludere ho
inserito delle mie considerazioni ed osservazioni per quanto riguarda il lavoro svolto.
Naturalmente per poter realizzare tutto ciò, ho fatto riferimento al sito dell’Istat, il quale ogni
anno conduce indagini statistiche sul tenore di vita della popolazione italiana, toccando
numerosi ambiti.
Proprio la ricerca sull’abitudine al fumo, rientra nell’indagine campionaria “Aspetti della vita
quotidiana” e fa parte di un sistema integrato di indagini sociali, le indagini multiscopo sulle
famiglie, e rivela le informazioni fondamentali relative alla vita quotidiana degli individui e delle
famiglie.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
3 Università degli studi di Bergamo
LE FONTI
Il materiale da me adoperato per poter svolgere la mia analisi statistica proviene da ricerche
effettuate dall’ISTAT, GEODEMO (una sezione sempre appartenente all’Istat, che mette a
disposizione dati più recenti relativi alla popolazione residente nei Comuni Italiani derivanti
dalle indagini effettuate presso gli uffici di Anagrafe) e l’Associazione Italia dei registri tumori
(AIRTUM) che fornisce statistiche più aggiornate della diffusione dei tumori nelle aree coperte
dai registri. Di seguito vengono riportati gli indirizzi internet dai quali mi è stato possibile
reperire il materiale di ricerca e analisi:
www.istat.it
www.demo.istat.it
www.registro-tumori.it
Analisi statistica relativa a “L’abitudine al fumo in Italia”
4 Università degli studi di Bergamo
DISTRIBUZIONI DI FREQUENZE
Il primo passo da compiere nella costituzione di una distribuzione consiste nel determinare
quante osservazioni rientrano in ciascuna categoria di risposta della variabile analizzata. Il
risultato di questo conteggio ci permette di calcolare una distribuzione di frequenze intesa
come la tavola che riporta le categorie di risposta di una variabile e il numero di volte in cui
ciascuna risposta è stata osservata. Le distribuzioni di frequenze semplici possono essere
trasformate in distribuzioni di frequenze relative (o proporzioni) o in distribuzioni percentuali.
Per calcolare le frequenze relative (o proporzioni) occorre dividere il numero dei casi
appartenente a ciascuna categoria di risposta per il numero totale dei casi; essa viene indicata
con (p) e la somma di tutte le proporzioni che formano una distribuzione di frequenze relative
è sempre uguale a 1. Le frequenze relative ci permettono di effettuare confronti con altre
distribuzioni di frequenza che riguardano al stessa domanda ma sono calcolate su un numero
di casi differenti.
Le distribuzioni percentuali (%) si calcolano moltiplicando per 100 ognuna delle proporzioni; la
somma di tutte le percentuali associate alle possibili categoria di risposta di una data variabile
è sempre uguale a 100%.
Se si ha bisogno di conoscere la posizione relativa di un determinato valore all’interno di una
distribuzione di punteggi continui è possibile calcolare una distribuzione di frequenze cumulate
semplici o percentuali. Le frequenze cumulate (fc) associate ad un determinato valore di
una variabile corrisponde al numero totale di osservazioni che hanno un valore uguale o
inferiore a quello di riferimento. Per calcolare le diverse frequenze cumulate bisogna iniziare
dalla frequenza semplice associata alla categoria più bassa (f1) aggiungerla alla frequenza
semplice associata alla categoria immediatamente superiore (f2) quindi aggiungere alla somma
precedente la frequenza semplice associata alla categoria ancora immediatamente superiore
(f3) e così via. La distribuzione di percentuale cumulate (%c) si ottiene sommando
progressivamente le frequenze percentuali e permette di individuare in modo molto chiaro la
posizione occupata da un dato valore di una variabile relativamente agli altri valori.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
5 Università degli studi di Bergamo
MISURE DI TENDENZA CENTRALE
MODA
La moda è, all’interno di un insieme K di categorie che formano una data distribuzione, la
categoria alla quale è associato il numero di osservazioni più elevato.
Abitudine al fumo per persone maggiori di 14 anni per 100 persone con le stesse
caratteristiche nel corso del 2011
N=10
La categoria modale di questa distribuzione è rappresentata dagli individui che hanno età
compresa tra i 25 e i 34 anni.
MEDIA E MEDIANA
La media aritmetica rappresenta la misura di tendenza centrale più comune. Essa può essere
calcolata solo per variabili continue: si sommano i valori di tutte le osservazioni e il risultato lo
si divide per il numero totale dei casi.
La mediana è applicabile solo alle variabili le cui categorie possono essere ordinate in modo
crescente. Rappresenta quel valore che divide una distribuzione ordinata esattamente in due
metà, in modo tale che metà dei casi osservati abbiano valori inferiori a quello mediano e
l’altra metà abbiano valori superiori. In caso di osservazioni in numero pari, il valore mediano
si ottiene calcolando la media delle due osservazioni centrali.
Classe di età 2011
14-17 anni 8,8
18-19 anni 24,4
20-24 anni 25,8
25-34 anni 30,6
35-44 anni 27,5
45-54 anni 27,6
55-59 anni 25,1
60-64 anni 21,5
65-74 anni 13,9
75 anni e più 5,6
totale 22,3
Analisi statistica relativa a “L’abitudine al fumo in Italia”
6 Università degli studi di Bergamo
Dove:
= media del campione
= i-esima osservazione della variabile X
n = numero di osservazioni del campione
= sommatoria di tutti gli del campione
= 210,8:10 = 21,08
Me= (27,5+27,6):2 = 27,55
MISURE DI DISPERSIONE
L’indice di diversità D misura la probabilità che due osservazioni estratte casualmente da una
popolazione hanno di appartenere a categorie diverse di una data variabile discreta.
Quindi, si eleva al quadrato la proporzione di casi che rientra in ciascuna delle K categorie
discrete della variabile in questione, si sommano questi valori e si sottrae da 1 la cifra
ottenuta:
Maggiore sarà il valore assunto da D più equa è la distribuzione (dispersione) dei casi fra le K
categorie delle variabili oggetto di analisi. Il minimo valore possibile di D è zero, che si ottiene
quando tutti i casi osservati appartengono a una sola categoria. Il massimo valore di D invece
si ottiene quando ogni categoria contiene la stessa proporzione di casi (pi).
Analisi statistica relativa a “L’abitudine al fumo in Italia”
7 Università degli studi di Bergamo
ANALISI DELLA VARIANZA
Il modello ANOVA (O ANALISI DELLA VARIANZA) è una versione particolare del modello lineare
generale, in cui la variabile indipendente (o manipolata) è formata da categorie discrete e la
variabile dipendente è di tipo continuo. Questa tecnica mette a confronto dati di diversi gruppi
categoriali. Con questo modello si sottopone a verifica l’ipotesi secondo la quale le medie
campionarie di J gruppi diversi provengono da una stessa popolazione, anziché da popolazioni
differenti. Il modello ANOVA permette quindi di ragionare sulla varianza per dire qualcosa sulle
medie e può analizzare anche più variabili ma sono richiesti strumenti matematici complessi.
Nel nostro caso applicheremo un’analisi della varianza a una via (o a una dimensione) in
quanto i modelli presi in considerazione sono caratterizzati dal fatto che contengono
osservazioni classificate secondo un’unica variabile discreta.
L’analisi della varianza è dunque finalizzata a determinare quale proporzione della variazione
totale nella variabile dipendente Y è attribuibile alle singole osservazioni i appartenenti al
gruppo j. Formalmente:
Yij=μ+αj+eij
Dove:
Yij= valore dell’osservazione i del gruppo j
μ= media generale, comune a tutte le osservazioni
αj= effetto comune esercitato dal gruppo j, comune a tutte le osservazioni di quel gruppo
eij= errore unico all’osservazione i del gruppo j
Il modello ANOVA generale a una dimensione scompone ogni valore osservato in 3
componenti. Ogni dato i che appartiene ad un gruppo j è quindi formato dalla somma della
media generale comune a tutte le osservazioni, dagli effetti del gruppo j analizzato e
dall’errore proprio del dato i del gruppo j.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
8 Università degli studi di Bergamo
ANALISI DELLA VARIANZA A UNA VIA (Fumo e Classi di età).
La fonte che utilizzeremo ai fini della nostra riflessione considera i dati relativi all’anno 2011.
Il quesito che ci porremo è il seguente:
E’ possibile affermare che l’età influisce sul numero di fumatori?
Classe di età 2011
14-17 anni 8,8
18-19 anni 24,4
20-24 anni 25,8
25-34 anni 30,6
35-44 anni 27,5
45-54 anni 27,6
55-59 anni 25,1
60-64 anni 21,5
65-74 anni 13,9
75 anni e più 5,6
totale 22,3
Suddividiamo in adolescenti, adulti, anziani
N= 10 J = 3 μ= 21,08
Ai nostri dati possiamo applicare il modello ANOVA (Analisi della varianza) in quanto abbiamo
la variabile indipendente formata da un insieme di categorie discrete (fasce d’età) e la variabile
dipendente di tipo continuo (la percentuale di fumatori).
I modelli ANOVA permettono di verificare l’ipotesi nulla secondo la quale tutte le j medie
campionarie provengono dalla stessa popolazione e, quindi, sono uguali una all’altra.
H0: μa= μb= μc
L’ipotesi alternativa invece afferma che almeno una delle medie campionarie proviene da una
popolazione la cui media differisce dalla media delle altre popolazioni.
H1: μa≠ μb≠ μc
Il rifiuto dell’ipotesi nulla implica una fra le diverse possibilità alternative:
- La media di ogni popolazione differisce dalla media di tutte le altre popolazioni (H1: μa≠
μb≠ μc … ≠nj)
- Le medie di alcuni sottoinsiemi di popolazioni differiscono l’una dalle altre ( es μa≠ μb
ma uguale a μc)
- Alcune combinazioni di medie differiscono da una singola media o d un’altra
combinazione di medie (μa differisce dalla media di μb e μc)
Analisi statistica relativa a “L’abitudine al fumo in Italia”
9 Università degli studi di Bergamo
L’analisi della varianza sottopone a verifica l’ipotesi nulla secondo la quale le medie delle
popolazioni sono uguali. Se i risultati del test portano al rifiuto dell’ipotesi nulla, rimane da
stabilire in che modo le medie differiscono.
Impostiamo la nostra ipotesi di ricerca: supponiamo che il numero di fumatori sia
maggiore tra gli adulti.
L’ipotesi nulla (H0) afferma che non ci sia influenza significativa della diversa maturità sulla
decisione di fumare; l’ipotesi alternativa ci dice, invece, che la maturità incide
significativamente sulla decisione di fumare.
Per esaminare l’effetto esercitato da una variabile discreta su una variabile dipendente
continua si considera un’unica popolazione all’interno della quale la media della variabile
dipendente è uguale a μ. Se, come afferma l’ipotesi H0 le medie J dei vari gruppi sono uguali
una all’altra, allora esse sono anche uguali alla media generale della popolazione μ.
Questa relazione rappresenta la base per misurare gli effetti esercitati dalla variabile
indipendente discreta sulla variabile dipendente continua.
L’effetto esercitato dal gruppo J, indicato con il simbolo αj viene definito come la differenza tra
la media di quel gruppo e la media generale:
αj= μj−μ
Se il gruppo J non esercita alcun effetto sulla variabile dipendente, il risultato sarà α=0, cioè
μj= μ. Se il gruppo J esercita un effetto, allora αj assumerà un valore positivo o negativo, a
seconda che la media del gruppo sia maggiore o minore della media generale μ. Nel nostro
caso:
α = μ adolescenti – μ = 19,67 – 21,08 = - 4,11
α = μ adulti – μ = 27,7 – 21,08 = 6,62
α = μ anziani – μ = 13,67 – 21,08 = - 7,41
L’errore quindi è quella parte di valore osservato che non può essere attribuita né alla
componente comune né alla componente di gruppo. Nell’analisi della varianza l’errore può
essere visto come la discrepanza fra i valori osservati e quelli predetti dall’appartenenza a un
dato gruppo; tale errore tiene conto del fatto che i vari casi i appartenenti a un gruppo j non
hanno tutti lo stesso valore osservato Yj
e = Y – μ – α
Analisi statistica relativa a “L’abitudine al fumo in Italia”
10 Università degli studi di Bergamo
Le tavole ANOVA
Per determinare la proporzione della varianza di Yij attribuibile agli effetti di gruppo (αj) e la
proporzione che, invece, è attribuibile all’errore(eij), si parte dal numeratore della varianza
campionaria:
Ma dato che la somma delle osservazioni appartenenti a ciascuno dei j gruppi è uguale a N
(dimensione complessiva del campione), possiamo riscrivere il numeratore della varianza come
segue:
Questa formula corrisponde alla somma dei quadrati totale (SQ TOTALE), cioè la somma delle
deviazioni al quadrato di ciascun valore della media generale di tutti i gruppi.
L’analisi della varianza suddivide SQ TOTALE in SQ INTRAGRUPPO (varianza attribuibile
all’errore) e SQ INTERGRUPPO (varianza attribuibile all’effetto di gruppo), in quanto:
SQ TOTALE = SQ INTRAGRUPPO + SQ INTERGRUPPO
Le formule per calcolarli sono:
SQ INTRAGRUPPO rappresenta la somma delle deviazioni al quadrato delle osservazioni di
ciascun gruppo dalla media generale di quel gruppo
SQ INTERGRUPPO rappresenta la somma delle deviazioni al quadrato di ciascuna media di
gruppo dalla media generale dei gruppi
SQ INTERGRUPPO = (3)( 19,67 – 21,08)2 + (3)( 27,7 – 21,08)2 + (3)( 13,67 – 21,08)2 =
(3)(1,99) + (3)(43,82) + (3)(54,91) = 5,97 + 131,46 + 164,73 = 302,16
SQ INTRAGRUPPO = (8,8 – 19,67)2 + (24,4 – 19,67)2 + (25,8 – 19,67)2 + (30,6 – 27,7)2 +
(27,5 – 27,7)2 + (27,6 – 27,7)2 + (25,1 – 27,7)2 + (21,5 – 13,67)2 + (13,9 – 13,67)2 + (5,6 –
13,67)2 = 439,24
SQ TOTALE = 302,16 + 439,24 = 741,4
L’ultimo passo di questa analisi attorno alla verificazione o al rifiuto dell’ipotesi nulla H0 è il
calcolo dei quadrati medi.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
11 Università degli studi di Bergamo
Di questi ne vanno calcolati ovviamente due: uno corrispondente alla SQINTERGRUPPO
(rappresenta la varianza attribuibile agli effetti di gruppo αj) e un altro corrispondente alla
SQINTRAGRUPPO (rappresenta la varianza attribuibile all’errore eij)
QMintergruppo = SQINTERGRUPPO = 302,16 = 151,08
J – 1 3-1
QMintragruppo = SQINTRAGRUPPO= 439,24 = 67,75
N - J 10–3
A questo punto dobbiamo effettuare una standardizzazione della varianza di ogni osservazione
e per fare ciò si utilizza il Quoziente F:
F2,7= 151,08/67,75 = 2,23
Verificando questo risultato con le tavole statistiche relative ai valori F di Fisher, il valore critico
generato dall’incrocio tra 2 (J -1=3 -1) e 7 (N-J = 10 – 3) con 0,01 è 9,55. Poiché 2,23 < 9,55
possiamo accettare l’ipotesi nulla H0 con un probabilità d’errore pari a 0,01. Possiamo
affermare che la variabile dipendente non genera una significativa influenza sulla variabile
dipendente ovvero l’età non incide sulla decisione di fumare.
Nel caso in cui avessimo rifiutato l’ipotesi nulla avremmo dovuto calcolare la forza delle
relazioni tra le variabili e il quoziente di correlazione.
Facciamo affidamento al coefficiente Eta-quadrato n2 o quoziente di correlazione che ci
permette di stimare la proporzione di varianza della variabile dipendente (la percentuale di
fumatori) attribuibile alla variabile indipendente (la ripartizione in adolescenti, adulti, anziani)
mediante l’uso di questa formula:
E quindi
N2= 302,16 / 741,4 = 0,41 il che significa che il 41% della variazione osservata nel numero di
fumatori dipende dalla ripartizione adolescenti/adulti/anziani a cui una determinata persona
appartiene.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
12 Università degli studi di Bergamo
ANALISI DEI DATI CATEGORIALI
L’analisi dei dati categoriali è un modello di analisi bivariata che serve per misurare la relazione
tra due variabili discrete, categoriali, in particolar modo la loro significatività statistica e la
forza della loro relazione. Questa tecnica si basa sulle tavole di contingenza bivariata (o tavole
di frequenza bivariata), che rappresentano il modo in cui le variabili discrete si manifestano
congiuntamente in un certo insieme di osservazioni. Le categorie di una o di entrambe le
variabili possono essere ordinate o non ordinate. Nel nostro caso vogliamo capire la relazione
che intercorre tra il luogo di residenza e la decisione di fumare. Le nostre frequenze
osservate:
Esiste una relazione tra il luogo di residenza e la decisione di fumare?
ripartizioni geografiche maschi femmine
Italia nord occidentale 42,0 23,3
Italia nord orientale 36,9 19,2
Italia centrale 47,9 28,3
Italia meridionale 45,7 25,5
Italia insulare 55,0 29,9
tot 44,7 24,7
Sapendo che questi dati sono stati rilevati nel 2011 e sapendo che la popolazione italiana in
quell’anno nell’Italia nord occidentale era 15.438.441, trasformiamoli in valori assoluti sapendo
che le frequenze osservate si riferiscono a 100 persone.
Quindi, per i maschi 42,0:100 = x: 7.493.203 7.493.203 x 42 : 100 = 3.147.145,26 che
approssimiamo.
Per le femmine sarà 23,3:100=x: 7.945..238 7.945.238 x 23,3 : 100 = 1.851.240,454 che
approssimiamo.
Italia nord occidentale 15.438.441 totale maschi: 7.493.203 femmine: 7.945..238
Italia nord orientale 11.030.650 totale maschi: 5.380.080 femmine: 5.650.570
Italia centrale 11.245.959 totale maschi: 5.415.770 femmine: 5.830.189
Italia meridionale 14084192 totale maschi: 6.854.041 femmine: 7.230.151
Italia insulare 6.663.133 totale maschi: 3.233.710 femmine: 3.429.423
ripartizioni geografiche maschi femmine
Italia nord occidentale 3.147.145 1.851.240
Italia nord orientale 1.985.249 1.084.909
Italia centrale 2.594.154 1.649.943
Italia meridionale 3.132.297 1.843.688
Italia insulare 1.778.540 1.025.397
tot 12.637.385 7.455.177
Indipendente = maschi/femmine
Analisi statistica relativa a “L’abitudine al fumo in Italia”
13 Università degli studi di Bergamo
Ogni cella della tabella contiene il numero dei casi nei quali si manifesta una particolare
combinazione di valori (categorie) delle due variabili discrete. I totali delle righe si dicono
distribuzioni marginali, mentre i totali delle colonne si chiamano marginali di colonne. La loro
intersezione è il totale generale dei casi (N). Possiamo procede nella nostra indagine
standardizzando i valori, trasformandoli cioè in valori percentuali. Frequenze percentuali:
ripartizioni geografiche maschi femmine
Italia nord occidentale 42,0 % 23,3 %
Italia nord orientale 36,9 % 19,2 %
Italia centrale 47,9 % 28,3 %
Italia meridionale 45,7 % 25,5 %
Italia insulare 55,0 % 29,9 %
Test del chi2
Dopo aver standardizzato i dati possiamo procedere a verificare la significatività statistica
tramite il test chi quadrato, che serve per determinare se le due variabili sono indipendenti
nella popolazione di riferimento sottoponendo a verifica l’ipotesi nulla, secondo la quale nella
popolazione da cui è stato estratto il campione oggetto di analisi, non esiste nessuna
covariazione fra le due variabili prese in esame. L’ipotesi alternativa invece sostiene che le due
variabili sono correlate nella popolazione nello stesso modo in cui lo sono nel campione. Il test
chi2 confronta le frequenze di cella osservate con quelle attese in base all’ipotesi nulla.
Se l’ipotesi nulla venisse scartata si potrebbe confermare l’ipotesi alternativa. Se fra le due
variabili non esiste relazione, esse sono statisticamente indipendenti ovvero se osservassimo
l’intera popolazione la distribuzione percentuale della variabile non varierebbe al variare della
categoria della variabile indipendente.
Per procedere con il test chi2 è necessario dividere i dati tra: frequenze attese, percentuali di
colonna e percentuali di riga.
Le frequenze attese sono le frequenze che ci si aspetterebbe se l’ipotesi nulla fosse
confermata (e quindi le due variabili fossero statisticamente indipendenti):
Dove:
f^ij = frequenza attesa nella cella situata all’incrocio tra la riga i e la colonna j
fi = frequenza totale marginale di riga
fj = frequenza totale marginale di colonna
N = numerosità del campione
Analisi statistica relativa a “L’abitudine al fumo in Italia”
14 Università degli studi di Bergamo
ripartizioni geografiche maschi femmine tot
Italia nord occidentale 3.143.776,07 1.854.608,92 4.998.384,99
Italia nord orientale 1.931.001,56 1.139.156,43 3.070.157,99
Italia centrale 2.669.360,32 1.574.736,67 4.244.096,99
Italia meridionale 3.129.687,40 1.846.297,59 4.975.984,99
Italia insulare 1.763.559,63 1.040.377,36 2.803.936,99
tot 12.637.384,98 7.455.176,97 18.354.661,95
Percentuali di riga:
ripartizioni geografiche maschi femmine tot
Italia nord occidentale 63% 37 % 100 %
Italia nord orientale 63% 37 % 100 %
Italia centrale 63% 37 % 100 %
Italia meridionale 63% 37 % 100 %
Italia insulare 63% 37 % 100 %
tot 63% 37 % 100 %
Percentuali di colonna:
ripartizioni geografiche maschi femmine tot
Italia nord occidentale 25 % 25 % 25 %
Italia nord orientale 15 % 15 % 15 %
Italia centrale 21 % 21 % 21 %
Italia meridionale 25 % 25 % 25 %
Italia insulare 14 % 14 % 14 %
tot 100 % 100 % 100 %
Il primo passo consiste nel calcolare la statistica chi2 che riassume la differenza tra le frequenze
osservate e le frequenze attese di ogni singola osservazione. Per farlo si utilizza la seguente formula:
Dove:
fij circonflesso= frequenza attesa nella cella situata all’incrocio tra riga i e colonna j secondo H0
fij= frequenza osservata nella stessa cella
C = numero di colonne della tavola
R = numero di righe della tavola
Il x2 mi dice se le variabili sono indipendenti o meno, la loro relazione. Maggiore sarà il suo valore più
sarò lontana dall’accettare H0.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
15 Università degli studi di Bergamo
Possiamo così riassumere i dati:
ripartizioni geografiche maschi femmine tot
Italia nord occidentale 3,61 6,11 9,72
Italia nord orientale 1.523,96 2.583,30 4.107,26
Italia centrale 0,02 3.591,70 3.591,72
Italia meridionale 2,17 3,68 5,85
Italia insulare 127,30 215,70 343
tot 1.657,06 6.400,49
I valori riassuntivi riportati in questa tabella devono essere esaminati congiuntamente alle
frequenze osservate e a quelle attese corrispondenti in modo da determinare, oltre all’intensità
della differenza che caratterizza ogni cella, anche la sua direzione (negativa o positiva). I valori
che compaiono nelle diverse celle indicano lo scostamento delle frequenze attese rispetto a
quelle osservate. Lo scostamento può corrispondere contemporaneamente a una sovrastima o
sottostima del campione per ogni cella. Vi è sovrastima quando nella matrice dei valori attesi la
cella presenta un valore superiore a quello osservato. Vi è una sottostima nel caso contrario.
La somma di tutte le componenti riportate nella tabella è uguale a x2 = 16.115,1
Per accettare o rifiutare l’ipotesi nulla bisogna confrontare questo valore con il valore critico
corrispondente, che si trova sull’apposita tabella con α=0,001; a questo scopo andiamo a
calcolare i gradi di libertà tramite la seguente formula:
gl=(R-1)(C-1)= (5-1)(2-1)=4x1=4
dove:
R= numero delle righe
C= numero delle colonne
Il valore critico individuato con l’apposita tavola è 18,46. Dato che 16.115,1 è decisamente
superiore rispetto 18,46 possiamo rifiutare l’ipotesi nulla (secondo la quale nella popolazione
da cui è stato estratto il campione oggetto di analisi, non esiste nessuna covariazione fra le
due variabili prese in considerazione) con una possibilità molto piccola di commettere un errore
e quindi concludere che la relazione osservata nel campione è statisticamente significativa,
cioè è molto probabile che essa esista anche nella popolazione dalla quale è stato estratto il
campione. Quindi vi è una relazione tra la regione di residenza e la decisione di fumare.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
16 Università degli studi di Bergamo
Misura di associazione: Odds
Se il test di significatività (chi-quadrato) indica la relazione tra le variabili, si tratta ora di
misurarne la forza. Lo si può fare attraverso diverse misure di associazione.
Siccome le variabili da noi prese in considerazione non sono variabili ordinate è bene utilizzare
la misura di associazione Odds, la quale definisce il rapporto tra la frequenza di appartenenza
ad una categoria e la frequenza di non appartenenza a quella categoria. L’Odds si differenzia
dalla probabilità, la quale invece indica il rapporto tra la frequenza associata ad una categoria
di interesse e la frequenza associata a tutte le categorie.
Un’altra differenza tra Odds e probabilità riguarda la gamma dei valori che si possono
assumere: le probabilità non possono essere inferiori a 0 (certezza che un dato evento non si
verificherà) né superiori a 1 (certezza che un dato evento di verificherà). Al contrario, poiché
l’Odds equivale al rapporto fra la probabilità che un dato evento si verifichi e la probabilità che
quell’evento non si verifichi, esso può assumere valori che variano tra 0 e infinito positivo.
Quando la probabilità che un dato evento si verifichi supera la probabilità che non si verifichi,
l’Odds assume valori superiori a 1. Quando invece la probabilità che un dato evento si verifichi
è uguale alla probabilità che non si verifichi, l’Odds assume valori 1/1 (leggi: uno a uno). Infine
quando la probabilità che un dato evento si verifichi è minore della probabilità che non si
verifichi, l’Odds assume valori non negativi inferiori a 1.
Odds e probabilità sono così collegati:
Dove p è la proporzione associata alla categoria di interesse.
Nel nostro caso 4.998.384,99/(20.092.561,95-4.998.384,99) = 4.998.384,99/15.094.176,96
= 0.33
Il concetto di Odds semplice può essere esteso al concetto di Odds condizionato. L’Odds
condizionato corrisponde al rapporto tra la probabilità di appartenere alla categoria di una
determinata variabile e la probabilità di appartenere alle rimanenti categorie della stessa
variabile.
A partire dalla nostra tavola si possono calcolare molti Odds condizionati, ad esempio l’Odss
condizionato che confronta il luogo di residenza:
Odds condizionato Italia nord occidentale per i maschi 3.147.145/(12.637.385-3.147.145)=
0,33
Odds condizionato Italia nord occidentale per le femmine 1.084.909/(7.455.177-1.084.909) =
0,17
Quando le variabili che formano una tavola di contingenza bivariata sono correlate, i loro Odds
condizionati non sono uguali. Per confrontare direttamente due Odds condizionati si può fare
ricorso a una singola statistica descrittiva chiamata Odds-ratio (OR). Esso è il rapporto tra due
Odds condizionati. Se due variabili non sono correlate i loro Odds condizionati sono identici,
quindi Odds-ratio=1. Odds-ratio maggiori di 1 indicano l’esistenza di una covariazione positiva
fra le due variabili mentre Odds-ratio minori di 1 indicano una covariazione negativa o inversa:
Analisi statistica relativa a “L’abitudine al fumo in Italia”
17 Università degli studi di Bergamo
ORXY= bc/ad
Poiché l’Odds è indefinito quando il suo denominatore è uguale a zero, ogni volta che una
frequenza di cella è uguale a zero l’OR non può essere calcolato.
Continuiamo ad analizzare: Odds-ratio che confronta la propensione a fumare di un maschio
che vive che vive nell’Italia nord occidentale è: 0,36/0,17= 2,12
Questi calcoli testimoniano che la scelta di fumare di un maschio che vive nell’Italia nord
occidentale è 2,12 volte superiore rispetto alla decisione di iniziare a fumare di una femmina
che vive nel medesimo luogo di residenza.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
18 Università degli studi di Bergamo
ANALISI DELLA REGRESSIONE
L’analisi della regressione è una procedura statistica che ha lo scopo di esaminare se esistono
relazioni fra variabili continue tra loro indipendenti. Per procedere nell’analisi della regressione
bisogna costruire un diagramma di dispersione. Per costruire un diagramma di dispersione
bisogna tracciare un piano cartesiano che rappresenta sull’asse delle ascisse (X) i valori della
variabile indipendente e sull’asse delle ordinate (Y) i valori della variabile dipendente.
In corrispondenza delle variabili X,Y appropriate si traccia nel grafico, sottoforma di punto, la
posizione di tutte le osservazioni disponibili. L’insieme dei punti ricavati indica in che modo le
due variabili covariano.
E’ possibile affermare che il n° di fumatori influisce il n° di soggetti malati di tumore ai
Polmoni?
Fumatori
(X)
Soggetti
con
tumore
ai
polmoni
(Y)
2000 24,1 0,088
2001 23,7 0,083
2002 23,6 0,085
2003 23,8 0,080
2004 22,9 0,079
2005 22,0 0,076
Figura 1. Dati relativi alla (%) di fumatori e soggetti malati di tumore ai polmoni, in Italia nel periodo
2000-2005
0,074
0,076
0,078
0,08
0,082
0,084
0,086
0,088
0,09
21,5 22 22,5 23 23,5 24 24,5
Sogg
ett
i co
n t
um
ore
ai p
olm
on
i (%
)
Fumatori (%)
Valori Y
Analisi statistica relativa a “L’abitudine al fumo in Italia”
19 Università degli studi di Bergamo
RETTA DI REGRESSIONE
Quando stimiamo la relazione lineare fra una variabile dipendente (Y) e una variabile
indipendente (X), “regrediamo” Y rispetto a X, producendo una relazione lineare bi-variata o,
più semplicemente, una regressione bivariata.
Equazione lineare Y=a+bX.
Y equivale alla somma di una costante a (che corrisponde al punto in cui la retta intercetta o
incrocia l’asse verticale) più il prodotto del gradiente b moltiplicato per il valore di X.
I ricercatori sociali normalmente assumono che le variabili siano correlate in modo lineare a
meno che non sia palese l’esistenza di collegamento tra le variabili non lineare come una
funzione esponenziale o logaritmica.
Per stabilire in quale misura una linea retta approssima la covariazione osservata fra due
variabili continue, il punto di partenza è un’equazione predittiva, nella quale ad ogni valore
della variabile indipendente ne corrisponde linearmente uno della dipendente:
Tuttavia i dati analizzati dai ricercatori sociali non sono mai perfette relazioni lineari, bisogna
perciò valutare l’esistenza di un errore ei ( anche detto residuo) che rappresenta la porzione
del valore assunto di Y in corrispondenza dell’osservazione i non predetta dalla sua relazione
lineare con X, perciò abbiamo un modello di regressione lineare:
L’errore di regressione è anche detto residuo in quanto rappresenta la quantità che rimane
dopo aver sottratto l’equazione predittiva dal modello di regressione lineare.
COEFFICIENTE DI REGRESSIONE
L’analisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello è
minimizzare i residui.
Il criterio dei minimi quadrati → → permette di stimare l’equazione;
La somma degli errori è sempre uguale a zero perché i valori positivi e negativi si
controbilanciano esattamente. Gli stimatori dei due coefficienti di regressione (a;bxy) devo
soddisfare questo criterio. Dato che la somma degli errori è sempre uguale a zero, elevandoli
al quadrato vengono eliminati i segni negativi in modo che la somma degli errori risulti sempre
maggiore di zero. Sommando poi le differenze tra ogni valore osservato e il corrispondente
valore predetto ciò che si deve ottenere è il minimo valore possibile.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
20 Università degli studi di Bergamo
La stima dei minimi quadrati (OLS Ordinary Least Squares) per il coefficiente di regressione
bivariata bxy è calcolata come:
L’intercetta si può ricavare dall’equazione predittiva dopo aver trovato bYX :
Mantenendo lo stesso numeratore e mettendo al denominatore N-1 si ottiene la formula della
covarianza
Se, invece, si divide il denominatore della formula bYX per N-1 si ottiene la formula della
varianza campionaria
Siccome le due formule hanno gli stessi denominatori, un altro modo per calcolare bYX può
essere espresso dalla formula
Per facilitare il calcolo esiste la formula computazionale di b
Per poter effettuare tutti i calcoli si può costruire una tabella, come quella che segue, che
contiene tutte le informazioni necessarie per calcolare bYX e a.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
21 Università degli studi di Bergamo
età Fumatori
(X)
Soggetti con
tumore ai
polmoni (Y)
X2 Y2 X*Y
2000 24,1 0,088 580,81 0,0077 2,1208
2001 23,7 0,083 561,69 0,0068 1,9671
2002 23,6 0,085 556,96 0,0072 2,006
2003 23,8 0,080 566,44 0,0064 1,904
2004 22,9 0,079 524,41 0,0062 1,8091
2005 22,0 0,076 484 0,0057 1,672
Tot 140,1 0,491 3.274,31 0,04 11,479
= 140,1/6=23,35
= 0,491/6=0,08
Syx = 6(11,479) – (140,1)(0,491) = 68,874 – 68,7891 = 0,0024
6(6-1) 35
S2x= 6(3.274,31) – (140,1)2 = 19.645,86 – 19.628,01 = 0,51
6(6-1) 35
bxy = syx/s2x = 0,0024/0,51 = 0,0047
La nostra stima del parametro bxy ci dice ci dice che ad ogni aumento dello 0,51% dei soggetti fumatori
corrisponde un aumento (atteso) dello 0,0047 di soggetti malati di tumore ai polmoni.
Calcoliamo l’intercetta:
α= 0,08 – 0,0047(23,35) = - 0,0297
Ora abbiamo tutti i dati per scrivere l’equazione di regressione bivariata completa:
Y^i = -0,0297+ 0,0047 Xi
Analisi statistica relativa a “L’abitudine al fumo in Italia”
22 Università degli studi di Bergamo
Figura 2. Rappresentazione della retta di regressione bivariata
Il prossimo passo consiste nel calcolare la forza della covariazione tra due variabili. Per fare ciò bisogna
misurare il grado di vicinanza fra i valori effettivi e i valori stimati, in quanto se tutti i valori cadessero
sulla linea predittiva il valore dell’errore sarebbe uguale a zero (e ciò sarebbe irrealistico).
Come già detto il valore di y dipende sia dalla variabile indipendente x che dall’errore di predizione.
Elevando questi valori al quadrato possiamo asserire che:
0,074
0,076
0,078
0,08
0,082
0,084
0,086
0,088
0,09
21,5 22 22,5 23 23,5 24 24,5
Sogg
ett
i mal
ati d
i tu
mo
re a
i po
lmo
ni (
%)
Fumatori (%)
Valory Y
Retta di regressione
Analisi statistica relativa a “L’abitudine al fumo in Italia”
23 Università degli studi di Bergamo
Dove:
SQ REGRESSIONE indica la somma dei quadrati della regressione
SQ ERRORE indica la somma dei quadrati dell’errore
SQ TOTALE è uguale al denominatore della varianza
età Fumatori
(X)
α byx Y^i ei Y
2000 24,1 -0,0297 0,0047 -0,711 0,799 0,088
2001 23,7 -0,0297 0,0047 -0,6991 0,7821 0,083
2002 23,6 -0,0297 0,0047 -0,6962 0,7812 0,085
2003 23,8 -0,0297 0,0047 -0,7021 0,7821 0,080
2004 22,9 -0,0297 0,0047 -0,6754 0,7544 0,079
2005 22 -0,0297 0,0047 -0,6487 0,7247 0,076
Calcoliamo i rispettivi valori:
SQ REGRESSIONE: 3,5481
SQ ERRORE: 4,6235
SQ TOTALE: 8,1716
Ora siamo in grado di calcolare il coefficiente di determinazione R2xy che indica la proporzione della
variazione totale di Y che è determinata dalla sua relazione lineare con X.
Il valore R2xy può assumere valori compresi tra 1 e 0, dove 1 si verificherebbe nel caso di una predizione
perfetta, mentre 0 nel caso in cui tutta la variazione osservata sia dovuta all’errore.
R quadrato equivale a uno meno il quoziente del rapporto fra la somma dei quadrati dell’errore e la
somma dei quadrati totali
Nel nostro caso R2xy = 0,43
Il che significa che il 43% della variazione totale di Y è determinata dalla sua relazione lineare con X e
che quindi il n° di fumatori incide sul n° di soggetti malati di tumore ai polmoni.
Analisi statistica relativa a “L’abitudine al fumo in Italia”
24 Università degli studi di Bergamo
Ora possiamo mostrare la direzione della relazione tra le due variabili continue tramite la
radice quadrata di R2xy chiamata coefficiente di correlazione di Pearson. In formula:
Il coefficienti di correlazione di Pearson, non essendo elevato al quadrato, può assumere sia
valori positivi che negativi; per questo motivo è utile per verificare la direzione della
covariazione. Esso può assumere valori che variano fra -1 (corrispondente a una relazione
inversa perfetta) e + 1 (corrispondente a una relazione diretta perfetta). Se fosse uguale a 0,
le due variabili sarebbero indipendenti fra loro.
Nel nostro caso è pari a 0,65 quindi fra x e y c’è una relazione diretta pari a + 0,65.
Ci accingiamo ora a compiere un test di significatività del coefficiente di determinazione.
Il test di significatività statistica per R2xy fa ricorso alla distribuzione F, già utilizzata nel modello
ANOVA. Nell’analisi della regressione la somma dei quadrati totale ha N-1 gradi di libertà
mentre la somma dei totali della regressione, essendo stimata a partire da byx, possiede solo
un grado di libertà.
Poiché:
gl totale = gl regressione + gl errore
N-1 = 1 + gl errore
gl errore = N-2
Il passo successivo consiste nel calcolare i quadrati medi associati a SQ REGRESSIONE e SQ
ERRORE
QM REGRESSIONE = 3,5481
QM ERRORE = 1,1558
Analisi statistica relativa a “L’abitudine al fumo in Italia”
25 Università degli studi di Bergamo
A questo punto cerchiamo il valore del rapporto tramite
F1, 4 = 3,5481/1,1558 = 3,0698
Se poniamo α = 0,01, la tavola di Fisher ci dice che il valore critico di F, con 1 e 4 gradi di
libertà, è 21,20.
Poiché F<21,20, non possiamo convalidare il test di significatività (non possiamo rifiutare
l’ipotesi nulla e non possiamo affermare che nella popolazione il coefficiente di determinazione
è maggiore di zero).
Analisi statistica relativa a “L’abitudine al fumo in Italia”
26 Università degli studi di Bergamo
CONCLUSIONI
Per concludere è possibile ricapitolare le tre domande poste inizialmente per sondare il
fenomeno relativo all’abitudine al fumo in Italia ed enunciare i risultati ottenuti grazie
all'applicazione dei tre modelli di analisi statistica bivariata.
Analisi della varianza (ANOVA): attraverso questo modello, che ho deciso di applicare ad
una via o una dimensione, ho messo in relazione le fasce d’età e la percentuale di fumatori
nell’anno 2011. Ho impostato la mia ipotesi di ricerca, supponendo che il numero di fumatori
fosse maggiore tra gli adulti: l’ipotesi nulla (H0) avrebbe indicato che non vi fosse un’influenza
significativa della diversa maturità dei soggetti sulla decisione di fumare, mentre l’ipotesi
alternativa avrebbe indicato, invece,che la maturità incida significativamente sulla decisione di
fumare. Dai calcoli è quindi emerso che è possibile accettare l’ipotesi nulla (H0) con una
probabilità d’errore dello 0,01. Quindi è possibile affermare che la variabile dipendente non
genera una significativa influenza sulla variabile indipendente ovvero l’età non incide sulla
decisione di fumare. Nel caso in cui avessi rifiutato l’ipotesi nulla (H0) avrei dovuto calcolare la
forza delle relazioni tra le variabili ed il coefficiente di correlazione. Facendo affidamento
proprio su quest’ultimo, che mia ha permesso di stimare la proporzione di varianza della
variabile dipendente (la % di fumatori) e la variabile indipendente (la ripartizione in
adolescenti/adulti/anziani), è emerso che il 41% della variazione osservata nel numero di
fumatori dipende dalla ripartizione adolescenti/adulti/anziani a cui una determinata persona
appartiene.
Analisi dei dati categoriali: attraverso tale analisi, ho voluto comprendere la relazione che
intercorre tra il luogo di residenza e la decisione di fumare. In primis, prendendo ad esempio il
numero della popolazione nell’anno 2011 nell’Italia nord occidentale, che era pari a
15.428.441, ho trasformato i miei dati in valori assoluti sapendo che le frequenze osservate si
riferissero a 100 persone. Svolto ciò, sono passata al calcolo del Chi2, sottoponendo a verifica
l’ipotesi nulla, secondo la quale nella popolazione da cui è stato estratto il campione oggetto di
analisi, non esiste nessuna covariazione fra le due variabili prese in esame. Al contrario,
l’ipotesi alternativa sostiene che le due variabili sono correlate nella popolazione nello stesso
modo in cui lo sono nel campione.
Da ciò ne è risultato che l’ipotesi nulla può essere rifiutata con una possibilità molto piccola di
poter commettere un errore e quindi concludere che la relazione osservata nel campione è
statisticamente significativa, cioè è molto probabile che essa esista anche nella popolazione
dalla quale è stato estratto il campione. Quindi vi è una relazione significativa tra il luogo di
residenza e la decisione di fumare.
In seguito, ho deciso di misurare la forza del test di significatività (Chi2), ovvero della relazione
tra le variabile prese in esame. Siccome le variabili da me prese in considerazione non sono
variabili ordinate è bene utilizzare la misura di associazione Odds, la quale definisce il rapporto
tra la frequenza di appartenenza ad una categoria e la frequenza di non appartenenza a quella
Analisi statistica relativa a “L’abitudine al fumo in Italia”
27 Università degli studi di Bergamo
categoria. L’Odds si differenzia dalla probabilità, la quale invece indica il rapporto tra la
frequenza associata ad una categoria di interesse e la frequenza associata a tutte le categorie.
Il concetto di Odds semplice può essere esteso al concetto di Odds condizionato. L’Odds
condizionato corrisponde al rapporto tra la probabilità di appartenere alla categoria di una
determinata variabile e la probabilità di appartenere alle rimanenti categorie della stessa
variabile. A partire dalla tavola da me presentata, si possono calcolare molti Odds condizionati,
quindi ho deciso di calcolare l’Odss condizionato che confronta il luogo di residenza, nello
specifico prendendo in esame l’Odss condizionato relativo all’Italia nord occidentale per i
maschi e le femmine, e da tali calcoli è emerso che la scelta di fumare di un maschio che vive
nell’Italia nord occidentale è 2,12 volte superiore rispetto alla decisione di fumare di una donna
che vive nello stesso luogo di residenza.
Analisi della regressione: attraverso questo modello, che ha preso in considerazione il
periodo che va dal 2000 al 2005 è stato possibile rilevare che il 43% della variazione dei
soggetti malati di tumore può essere spiegata dal numero di fumatori. È possibile osservare dai
dati a nostra disposizione che, nel periodo preso in esame, il numero di malati è sempre
crescente. Si tratta di un’analisi riduttiva in quanto, per una maggiore predizione, avremmo
dovuto considerare un lasso di tempo più ampio, ma in questa sede mi sono permessa di
portare un calcolo esemplificativo con lo scopo di applicare al meglio il modello statistico in
questione.