L'abitudine al fumo in Italia

TESINA DI STATISTICA – PROF. CARRA

A.A. 2011/2012

Analisi statistica relativa a

“L’abitudine al fumo in Italia”

di Rizzi Laura n° matricola 1012326

S C I E N Z E P S I C O L O G I C H E – U N I V E R S I T À D E G L I S T U D I D I B E R G A M O

Analisi statistica relativa a “L’abitudine al fumo in Italia”

2 Università degli studi di Bergamo

INTRODUZIONE

Con questo elaborato ho cercato di mettere in luce aspetti e soprattutto relazioni per quanto

concerne la tematica dell’abitudine al fumo nel territorio italiano.

Dopo aver recuperato i dati ho proceduto ad analizzarli, seguendo tre modelli statistici:

modello Anova: E’ possibile affermare che l’età influisce sul n° di fumatori in Italia?

analisi dei dati categoriali: Esiste una relazione tra il luogo di residenza e la decisione di

fumare?

analisi della regressione e correlazione: E’ possibile affermare che il n° di fumatori

influisce sul n° di soggetti malati di tumore ai polmoni?

Inoltre, ho deciso di calcolare anche i fattori di Media, Moda e Mediana e per concludere ho

inserito delle mie considerazioni ed osservazioni per quanto riguarda il lavoro svolto.

Naturalmente per poter realizzare tutto ciò, ho fatto riferimento al sito dell’Istat, il quale ogni

anno conduce indagini statistiche sul tenore di vita della popolazione italiana, toccando

numerosi ambiti.

Proprio la ricerca sull’abitudine al fumo, rientra nell’indagine campionaria “Aspetti della vita

quotidiana” e fa parte di un sistema integrato di indagini sociali, le indagini multiscopo sulle

famiglie, e rivela le informazioni fondamentali relative alla vita quotidiana degli individui e delle

famiglie.



LE FONTI

Il materiale da me adoperato per poter svolgere la mia analisi statistica proviene da ricerche

effettuate dall’ISTAT, GEODEMO (una sezione sempre appartenente all’Istat, che mette a

disposizione dati più recenti relativi alla popolazione residente nei Comuni Italiani derivanti

dalle indagini effettuate presso gli uffici di Anagrafe) e l’Associazione Italia dei registri tumori

(AIRTUM) che fornisce statistiche più aggiornate della diffusione dei tumori nelle aree coperte

dai registri. Di seguito vengono riportati gli indirizzi internet dai quali mi è stato possibile

reperire il materiale di ricerca e analisi:

www.istat.it

www.demo.istat.it

www.registro-tumori.it

http://www.istat.it/

http://www.demo.istat.it/

http://www.registro-tumori.it/



DISTRIBUZIONI DI FREQUENZE

Il primo passo da compiere nella costituzione di una distribuzione consiste nel determinare

quante osservazioni rientrano in ciascuna categoria di risposta della variabile analizzata. Il

risultato di questo conteggio ci permette di calcolare una distribuzione di frequenze intesa

come la tavola che riporta le categorie di risposta di una variabile e il numero di volte in cui

ciascuna risposta è stata osservata. Le distribuzioni di frequenze semplici possono essere

trasformate in distribuzioni di frequenze relative (o proporzioni) o in distribuzioni percentuali.

Per calcolare le frequenze relative (o proporzioni) occorre dividere il numero dei casi

appartenente a ciascuna categoria di risposta per il numero totale dei casi; essa viene indicata

con (p) e la somma di tutte le proporzioni che formano una distribuzione di frequenze relative

è sempre uguale a 1. Le frequenze relative ci permettono di effettuare confronti con altre

distribuzioni di frequenza che riguardano al stessa domanda ma sono calcolate su un numero

di casi differenti.

Le distribuzioni percentuali (%) si calcolano moltiplicando per 100 ognuna delle proporzioni; la

somma di tutte le percentuali associate alle possibili categoria di risposta di una data variabile

è sempre uguale a 100%.

Se si ha bisogno di conoscere la posizione relativa di un determinato valore all’interno di una

distribuzione di punteggi continui è possibile calcolare una distribuzione di frequenze cumulate

semplici o percentuali. Le frequenze cumulate (fc) associate ad un determinato valore di

una variabile corrisponde al numero totale di osservazioni che hanno un valore uguale o

inferiore a quello di riferimento. Per calcolare le diverse frequenze cumulate bisogna iniziare

dalla frequenza semplice associata alla categoria più bassa (f1) aggiungerla alla frequenza

semplice associata alla categoria immediatamente superiore (f2) quindi aggiungere alla somma

precedente la frequenza semplice associata alla categoria ancora immediatamente superiore

(f3) e così via. La distribuzione di percentuale cumulate (%c) si ottiene sommando

progressivamente le frequenze percentuali e permette di individuare in modo molto chiaro la

posizione occupata da un dato valore di una variabile relativamente agli altri valori.



MISURE DI TENDENZA CENTRALE

MODA

La moda è, all’interno di un insieme K di categorie che formano una data distribuzione, la

categoria alla quale è associato il numero di osservazioni più elevato.

Abitudine al fumo per persone maggiori di 14 anni per 100 persone con le stesse

caratteristiche nel corso del 2011

N=10

La categoria modale di questa distribuzione è rappresentata dagli individui che hanno età

compresa tra i 25 e i 34 anni.

MEDIA E MEDIANA

La media aritmetica rappresenta la misura di tendenza centrale più comune. Essa può essere

calcolata solo per variabili continue: si sommano i valori di tutte le osservazioni e il risultato lo

si divide per il numero totale dei casi.

La mediana è applicabile solo alle variabili le cui categorie possono essere ordinate in modo

crescente. Rappresenta quel valore che divide una distribuzione ordinata esattamente in due

metà, in modo tale che metà dei casi osservati abbiano valori inferiori a quello mediano e

l’altra metà abbiano valori superiori. In caso di osservazioni in numero pari, il valore mediano

si ottiene calcolando la media delle due osservazioni centrali.

Classe di età 2011

14-17 anni 8,8

18-19 anni 24,4

20-24 anni 25,8

25-34 anni 30,6

35-44 anni 27,5

45-54 anni 27,6

55-59 anni 25,1

60-64 anni 21,5

65-74 anni 13,9

75 anni e più 5,6

totale 22,3



Dove:

= media del campione

= i-esima osservazione della variabile X

n = numero di osservazioni del campione

= sommatoria di tutti gli del campione

= 210,8:10 = 21,08

Me= (27,5+27,6):2 = 27,55

MISURE DI DISPERSIONE

L’indice di diversità D misura la probabilità che due osservazioni estratte casualmente da una

popolazione hanno di appartenere a categorie diverse di una data variabile discreta.

Quindi, si eleva al quadrato la proporzione di casi che rientra in ciascuna delle K categorie

discrete della variabile in questione, si sommano questi valori e si sottrae da 1 la cifra

ottenuta:

Maggiore sarà il valore assunto da D più equa è la distribuzione (dispersione) dei casi fra le K

categorie delle variabili oggetto di analisi. Il minimo valore possibile di D è zero, che si ottiene

quando tutti i casi osservati appartengono a una sola categoria. Il massimo valore di D invece

si ottiene quando ogni categoria contiene la stessa proporzione di casi (pi).



ANALISI DELLA VARIANZA

Il modello ANOVA (O ANALISI DELLA VARIANZA) è una versione particolare del modello lineare

generale, in cui la variabile indipendente (o manipolata) è formata da categorie discrete e la

variabile dipendente è di tipo continuo. Questa tecnica mette a confronto dati di diversi gruppi

categoriali. Con questo modello si sottopone a verifica l’ipotesi secondo la quale le medie

campionarie di J gruppi diversi provengono da una stessa popolazione, anziché da popolazioni

differenti. Il modello ANOVA permette quindi di ragionare sulla varianza per dire qualcosa sulle

medie e può analizzare anche più variabili ma sono richiesti strumenti matematici complessi.

Nel nostro caso applicheremo un’analisi della varianza a una via (o a una dimensione) in

quanto i modelli presi in considerazione sono caratterizzati dal fatto che contengono

osservazioni classificate secondo un’unica variabile discreta.

L’analisi della varianza è dunque finalizzata a determinare quale proporzione della variazione

totale nella variabile dipendente Y è attribuibile alle singole osservazioni i appartenenti al

gruppo j. Formalmente:

Yij=μ+αj+eij

Dove:

Yij= valore dell’osservazione i del gruppo j

μ= media generale, comune a tutte le osservazioni

αj= effetto comune esercitato dal gruppo j, comune a tutte le osservazioni di quel gruppo

eij= errore unico all’osservazione i del gruppo j

Il modello ANOVA generale a una dimensione scompone ogni valore osservato in 3

componenti. Ogni dato i che appartiene ad un gruppo j è quindi formato dalla somma della

media generale comune a tutte le osservazioni, dagli effetti del gruppo j analizzato e

dall’errore proprio del dato i del gruppo j.



ANALISI DELLA VARIANZA A UNA VIA (Fumo e Classi di età).

La fonte che utilizzeremo ai fini della nostra riflessione considera i dati relativi all’anno 2011.

Il quesito che ci porremo è il seguente:

E’ possibile affermare che l’età influisce sul numero di fumatori?

Classe di età 2011

14-17 anni 8,8

18-19 anni 24,4

20-24 anni 25,8

25-34 anni 30,6

35-44 anni 27,5

45-54 anni 27,6

55-59 anni 25,1

60-64 anni 21,5

65-74 anni 13,9

75 anni e più 5,6

totale 22,3

Suddividiamo in adolescenti, adulti, anziani

N= 10 J = 3 μ= 21,08

Ai nostri dati possiamo applicare il modello ANOVA (Analisi della varianza) in quanto abbiamo

la variabile indipendente formata da un insieme di categorie discrete (fasce d’età) e la variabile

dipendente di tipo continuo (la percentuale di fumatori).

I modelli ANOVA permettono di verificare l’ipotesi nulla secondo la quale tutte le j medie

campionarie provengono dalla stessa popolazione e, quindi, sono uguali una all’altra.

H0: μa= μb= μc

L’ipotesi alternativa invece afferma che almeno una delle medie campionarie proviene da una

popolazione la cui media differisce dalla media delle altre popolazioni.

H1: μa≠ μb≠ μc

Il rifiuto dell’ipotesi nulla implica una fra le diverse possibilità alternative:

- La media di ogni popolazione differisce dalla media di tutte le altre popolazioni (H1: μa≠

μb≠ μc … ≠nj)

- Le medie di alcuni sottoinsiemi di popolazioni differiscono l’una dalle altre ( es μa≠ μb

ma uguale a μc)

- Alcune combinazioni di medie differiscono da una singola media o d un’altra

combinazione di medie (μa differisce dalla media di μb e μc)



L’analisi della varianza sottopone a verifica l’ipotesi nulla secondo la quale le medie delle

popolazioni sono uguali. Se i risultati del test portano al rifiuto dell’ipotesi nulla, rimane da

stabilire in che modo le medie differiscono.

Impostiamo la nostra ipotesi di ricerca: supponiamo che il numero di fumatori sia

maggiore tra gli adulti.

L’ipotesi nulla (H0) afferma che non ci sia influenza significativa della diversa maturità sulla

decisione di fumare; l’ipotesi alternativa ci dice, invece, che la maturità incide

significativamente sulla decisione di fumare.

Per esaminare l’effetto esercitato da una variabile discreta su una variabile dipendente

continua si considera un’unica popolazione all’interno della quale la media della variabile

dipendente è uguale a μ. Se, come afferma l’ipotesi H0 le medie J dei vari gruppi sono uguali

una all’altra, allora esse sono anche uguali alla media generale della popolazione μ.

Questa relazione rappresenta la base per misurare gli effetti esercitati dalla variabile

indipendente discreta sulla variabile dipendente continua.

L’effetto esercitato dal gruppo J, indicato con il simbolo αj viene definito come la differenza tra

la media di quel gruppo e la media generale:

αj= μj−μ

Se il gruppo J non esercita alcun effetto sulla variabile dipendente, il risultato sarà α=0, cioè

μj= μ. Se il gruppo J esercita un effetto, allora αj assumerà un valore positivo o negativo, a

seconda che la media del gruppo sia maggiore o minore della media generale μ. Nel nostro

caso:

α = μ adolescenti – μ = 19,67 – 21,08 = - 4,11

α = μ adulti – μ = 27,7 – 21,08 = 6,62

α = μ anziani – μ = 13,67 – 21,08 = - 7,41

L’errore quindi è quella parte di valore osservato che non può essere attribuita né alla

componente comune né alla componente di gruppo. Nell’analisi della varianza l’errore può

essere visto come la discrepanza fra i valori osservati e quelli predetti dall’appartenenza a un

dato gruppo; tale errore tiene conto del fatto che i vari casi i appartenenti a un gruppo j non

hanno tutti lo stesso valore osservato Yj

e = Y – μ – α



Le tavole ANOVA

Per determinare la proporzione della varianza di Yij attribuibile agli effetti di gruppo (αj) e la

proporzione che, invece, è attribuibile all’errore(eij), si parte dal numeratore della varianza

campionaria:

Ma dato che la somma delle osservazioni appartenenti a ciascuno dei j gruppi è uguale a N

(dimensione complessiva del campione), possiamo riscrivere il numeratore della varianza come

segue:

Questa formula corrisponde alla somma dei quadrati totale (SQ TOTALE), cioè la somma delle

deviazioni al quadrato di ciascun valore della media generale di tutti i gruppi.

L’analisi della varianza suddivide SQ TOTALE in SQ INTRAGRUPPO (varianza attribuibile

all’errore) e SQ INTERGRUPPO (varianza attribuibile all’effetto di gruppo), in quanto:

SQ TOTALE = SQ INTRAGRUPPO + SQ INTERGRUPPO

Le formule per calcolarli sono:

SQ INTRAGRUPPO rappresenta la somma delle deviazioni al quadrato delle osservazioni di

ciascun gruppo dalla media generale di quel gruppo

SQ INTERGRUPPO rappresenta la somma delle deviazioni al quadrato di ciascuna media di

gruppo dalla media generale dei gruppi

SQ INTERGRUPPO = (3)( 19,67 – 21,08)2 + (3)( 27,7 – 21,08)2 + (3)( 13,67 – 21,08)2 =

(3)(1,99) + (3)(43,82) + (3)(54,91) = 5,97 + 131,46 + 164,73 = 302,16

SQ INTRAGRUPPO = (8,8 – 19,67)2 + (24,4 – 19,67)2 + (25,8 – 19,67)2 + (30,6 – 27,7)2 +

(27,5 – 27,7)2 + (27,6 – 27,7)2 + (25,1 – 27,7)2 + (21,5 – 13,67)2 + (13,9 – 13,67)2 + (5,6 –

13,67)2 = 439,24

SQ TOTALE = 302,16 + 439,24 = 741,4

L’ultimo passo di questa analisi attorno alla verificazione o al rifiuto dell’ipotesi nulla H0 è il

calcolo dei quadrati medi.



Di questi ne vanno calcolati ovviamente due: uno corrispondente alla SQINTERGRUPPO

(rappresenta la varianza attribuibile agli effetti di gruppo αj) e un altro corrispondente alla

SQINTRAGRUPPO (rappresenta la varianza attribuibile all’errore eij)

QMintergruppo = SQINTERGRUPPO = 302,16 = 151,08

J – 1 3-1

QMintragruppo = SQINTRAGRUPPO= 439,24 = 67,75

N - J 10–3

A questo punto dobbiamo effettuare una standardizzazione della varianza di ogni osservazione

e per fare ciò si utilizza il Quoziente F:

F2,7= 151,08/67,75 = 2,23

Verificando questo risultato con le tavole statistiche relative ai valori F di Fisher, il valore critico

generato dall’incrocio tra 2 (J -1=3 -1) e 7 (N-J = 10 – 3) con 0,01 è 9,55. Poiché 2,23 < 9,55

possiamo accettare l’ipotesi nulla H0 con un probabilità d’errore pari a 0,01. Possiamo

affermare che la variabile dipendente non genera una significativa influenza sulla variabile

dipendente ovvero l’età non incide sulla decisione di fumare.

Nel caso in cui avessimo rifiutato l’ipotesi nulla avremmo dovuto calcolare la forza delle

relazioni tra le variabili e il quoziente di correlazione.

Facciamo affidamento al coefficiente Eta-quadrato n2 o quoziente di correlazione che ci

permette di stimare la proporzione di varianza della variabile dipendente (la percentuale di

fumatori) attribuibile alla variabile indipendente (la ripartizione in adolescenti, adulti, anziani)

mediante l’uso di questa formula:

E quindi

N2= 302,16 / 741,4 = 0,41 il che significa che il 41% della variazione osservata nel numero di

fumatori dipende dalla ripartizione adolescenti/adulti/anziani a cui una determinata persona

appartiene.



ANALISI DEI DATI CATEGORIALI

L’analisi dei dati categoriali è un modello di analisi bivariata che serve per misurare la relazione

tra due variabili discrete, categoriali, in particolar modo la loro significatività statistica e la

forza della loro relazione. Questa tecnica si basa sulle tavole di contingenza bivariata (o tavole

di frequenza bivariata), che rappresentano il modo in cui le variabili discrete si manifestano

congiuntamente in un certo insieme di osservazioni. Le categorie di una o di entrambe le

variabili possono essere ordinate o non ordinate. Nel nostro caso vogliamo capire la relazione

che intercorre tra il luogo di residenza e la decisione di fumare. Le nostre frequenze

osservate:

Esiste una relazione tra il luogo di residenza e la decisione di fumare?

ripartizioni geografiche maschi femmine

Italia nord occidentale 42,0 23,3

Italia nord orientale 36,9 19,2

Italia centrale 47,9 28,3

Italia meridionale 45,7 25,5

Italia insulare 55,0 29,9

tot 44,7 24,7

Sapendo che questi dati sono stati rilevati nel 2011 e sapendo che la popolazione italiana in

quell’anno nell’Italia nord occidentale era 15.438.441, trasformiamoli in valori assoluti sapendo

che le frequenze osservate si riferiscono a 100 persone.

Quindi, per i maschi 42,0:100 = x: 7.493.203 7.493.203 x 42 : 100 = 3.147.145,26 che

approssimiamo.

Per le femmine sarà 23,3:100=x: 7.945..238 7.945.238 x 23,3 : 100 = 1.851.240,454 che

approssimiamo.

Italia nord occidentale 15.438.441 totale maschi: 7.493.203 femmine: 7.945..238

Italia nord orientale 11.030.650 totale maschi: 5.380.080 femmine: 5.650.570

Italia centrale 11.245.959 totale maschi: 5.415.770 femmine: 5.830.189

Italia meridionale 14084192 totale maschi: 6.854.041 femmine: 7.230.151

Italia insulare 6.663.133 totale maschi: 3.233.710 femmine: 3.429.423


Italia nord occidentale 3.147.145 1.851.240

Italia nord orientale 1.985.249 1.084.909

Italia centrale 2.594.154 1.649.943

Italia meridionale 3.132.297 1.843.688

Italia insulare 1.778.540 1.025.397

tot 12.637.385 7.455.177

Indipendente = maschi/femmine



Ogni cella della tabella contiene il numero dei casi nei quali si manifesta una particolare

combinazione di valori (categorie) delle due variabili discrete. I totali delle righe si dicono

distribuzioni marginali, mentre i totali delle colonne si chiamano marginali di colonne. La loro

intersezione è il totale generale dei casi (N). Possiamo procede nella nostra indagine

standardizzando i valori, trasformandoli cioè in valori percentuali. Frequenze percentuali:


Italia nord occidentale 42,0 % 23,3 %

Italia nord orientale 36,9 % 19,2 %

Italia centrale 47,9 % 28,3 %

Italia meridionale 45,7 % 25,5 %

Italia insulare 55,0 % 29,9 %

Test del chi2

Dopo aver standardizzato i dati possiamo procedere a verificare la significatività statistica

tramite il test chi quadrato, che serve per determinare se le due variabili sono indipendenti

nella popolazione di riferimento sottoponendo a verifica l’ipotesi nulla, secondo la quale nella

popolazione da cui è stato estratto il campione oggetto di analisi, non esiste nessuna

covariazione fra le due variabili prese in esame. L’ipotesi alternativa invece sostiene che le due

variabili sono correlate nella popolazione nello stesso modo in cui lo sono nel campione. Il test

chi2 confronta le frequenze di cella osservate con quelle attese in base all’ipotesi nulla.

Se l’ipotesi nulla venisse scartata si potrebbe confermare l’ipotesi alternativa. Se fra le due

variabili non esiste relazione, esse sono statisticamente indipendenti ovvero se osservassimo

l’intera popolazione la distribuzione percentuale della variabile non varierebbe al variare della

categoria della variabile indipendente.

Per procedere con il test chi2 è necessario dividere i dati tra: frequenze attese, percentuali di

colonna e percentuali di riga.

Le frequenze attese sono le frequenze che ci si aspetterebbe se l’ipotesi nulla fosse

confermata (e quindi le due variabili fossero statisticamente indipendenti):

Dove:

fîj = frequenza attesa nella cella situata all’incrocio tra la riga i e la colonna j

fi = frequenza totale marginale di riga

fj = frequenza totale marginale di colonna

N = numerosità del campione



ripartizioni geografiche maschi femmine tot

Italia nord occidentale 3.143.776,07 1.854.608,92 4.998.384,99

Italia nord orientale 1.931.001,56 1.139.156,43 3.070.157,99

Italia centrale 2.669.360,32 1.574.736,67 4.244.096,99

Italia meridionale 3.129.687,40 1.846.297,59 4.975.984,99

Italia insulare 1.763.559,63 1.040.377,36 2.803.936,99

tot 12.637.384,98 7.455.176,97 18.354.661,95

Percentuali di riga:


Italia nord occidentale 63% 37 % 100 %

Italia nord orientale 63% 37 % 100 %

Italia centrale 63% 37 % 100 %

Italia meridionale 63% 37 % 100 %

Italia insulare 63% 37 % 100 %

tot 63% 37 % 100 %

Percentuali di colonna:


Italia nord occidentale 25 % 25 % 25 %

Italia nord orientale 15 % 15 % 15 %

Italia centrale 21 % 21 % 21 %

Italia meridionale 25 % 25 % 25 %

Italia insulare 14 % 14 % 14 %

tot 100 % 100 % 100 %

Il primo passo consiste nel calcolare la statistica chi2 che riassume la differenza tra le frequenze

osservate e le frequenze attese di ogni singola osservazione. Per farlo si utilizza la seguente formula:

Dove:

fij circonflesso= frequenza attesa nella cella situata all’incrocio tra riga i e colonna j secondo H0

fij= frequenza osservata nella stessa cella

C = numero di colonne della tavola

R = numero di righe della tavola

Il x2 mi dice se le variabili sono indipendenti o meno, la loro relazione. Maggiore sarà il suo valore più

sarò lontana dall’accettare H0.



Possiamo così riassumere i dati:


Italia nord occidentale 3,61 6,11 9,72

Italia nord orientale 1.523,96 2.583,30 4.107,26

Italia centrale 0,02 3.591,70 3.591,72

Italia meridionale 2,17 3,68 5,85

Italia insulare 127,30 215,70 343

tot 1.657,06 6.400,49

I valori riassuntivi riportati in questa tabella devono essere esaminati congiuntamente alle

frequenze osservate e a quelle attese corrispondenti in modo da determinare, oltre all’intensità

della differenza che caratterizza ogni cella, anche la sua direzione (negativa o positiva). I valori

che compaiono nelle diverse celle indicano lo scostamento delle frequenze attese rispetto a

quelle osservate. Lo scostamento può corrispondere contemporaneamente a una sovrastima o

sottostima del campione per ogni cella. Vi è sovrastima quando nella matrice dei valori attesi la

cella presenta un valore superiore a quello osservato. Vi è una sottostima nel caso contrario.

La somma di tutte le componenti riportate nella tabella è uguale a x2 = 16.115,1

Per accettare o rifiutare l’ipotesi nulla bisogna confrontare questo valore con il valore critico

corrispondente, che si trova sull’apposita tabella con α=0,001; a questo scopo andiamo a

calcolare i gradi di libertà tramite la seguente formula:

gl=(R-1)(C-1)= (5-1)(2-1)=4x1=4

dove:

R= numero delle righe

C= numero delle colonne

Il valore critico individuato con l’apposita tavola è 18,46. Dato che 16.115,1 è decisamente

superiore rispetto 18,46 possiamo rifiutare l’ipotesi nulla (secondo la quale nella popolazione

da cui è stato estratto il campione oggetto di analisi, non esiste nessuna covariazione fra le

due variabili prese in considerazione) con una possibilità molto piccola di commettere un errore

e quindi concludere che la relazione osservata nel campione è statisticamente significativa,

cioè è molto probabile che essa esista anche nella popolazione dalla quale è stato estratto il

campione. Quindi vi è una relazione tra la regione di residenza e la decisione di fumare.



Misura di associazione: Odds

Se il test di significatività (chi-quadrato) indica la relazione tra le variabili, si tratta ora di

misurarne la forza. Lo si può fare attraverso diverse misure di associazione.

Siccome le variabili da noi prese in considerazione non sono variabili ordinate è bene utilizzare

la misura di associazione Odds, la quale definisce il rapporto tra la frequenza di appartenenza

ad una categoria e la frequenza di non appartenenza a quella categoria. L’Odds si differenzia

dalla probabilità, la quale invece indica il rapporto tra la frequenza associata ad una categoria

di interesse e la frequenza associata a tutte le categorie.

Un’altra differenza tra Odds e probabilità riguarda la gamma dei valori che si possono

assumere: le probabilità non possono essere inferiori a 0 (certezza che un dato evento non si

verificherà) né superiori a 1 (certezza che un dato evento di verificherà). Al contrario, poiché

l’Odds equivale al rapporto fra la probabilità che un dato evento si verifichi e la probabilità che

quell’evento non si verifichi, esso può assumere valori che variano tra 0 e infinito positivo.

Quando la probabilità che un dato evento si verifichi supera la probabilità che non si verifichi,

l’Odds assume valori superiori a 1. Quando invece la probabilità che un dato evento si verifichi

è uguale alla probabilità che non si verifichi, l’Odds assume valori 1/1 (leggi: uno a uno). Infine

quando la probabilità che un dato evento si verifichi è minore della probabilità che non si

verifichi, l’Odds assume valori non negativi inferiori a 1.

Odds e probabilità sono così collegati:

Dove p è la proporzione associata alla categoria di interesse.

Nel nostro caso 4.998.384,99/(20.092.561,95-4.998.384,99) = 4.998.384,99/15.094.176,96

= 0.33

Il concetto di Odds semplice può essere esteso al concetto di Odds condizionato. L’Odds

condizionato corrisponde al rapporto tra la probabilità di appartenere alla categoria di una

determinata variabile e la probabilità di appartenere alle rimanenti categorie della stessa

variabile.

A partire dalla nostra tavola si possono calcolare molti Odds condizionati, ad esempio l’Odss

condizionato che confronta il luogo di residenza:

Odds condizionato Italia nord occidentale per i maschi 3.147.145/(12.637.385-3.147.145)=

0,33

Odds condizionato Italia nord occidentale per le femmine 1.084.909/(7.455.177-1.084.909) =

0,17

Quando le variabili che formano una tavola di contingenza bivariata sono correlate, i loro Odds

condizionati non sono uguali. Per confrontare direttamente due Odds condizionati si può fare

ricorso a una singola statistica descrittiva chiamata Odds-ratio (OR). Esso è il rapporto tra due

Odds condizionati. Se due variabili non sono correlate i loro Odds condizionati sono identici,

quindi Odds-ratio=1. Odds-ratio maggiori di 1 indicano l’esistenza di una covariazione positiva

fra le due variabili mentre Odds-ratio minori di 1 indicano una covariazione negativa o inversa:



ORXY= bc/ad

Poiché l’Odds è indefinito quando il suo denominatore è uguale a zero, ogni volta che una

frequenza di cella è uguale a zero l’OR non può essere calcolato.

Continuiamo ad analizzare: Odds-ratio che confronta la propensione a fumare di un maschio

che vive che vive nell’Italia nord occidentale è: 0,36/0,17= 2,12

Questi calcoli testimoniano che la scelta di fumare di un maschio che vive nell’Italia nord

occidentale è 2,12 volte superiore rispetto alla decisione di iniziare a fumare di una femmina

che vive nel medesimo luogo di residenza.



ANALISI DELLA REGRESSIONE

L’analisi della regressione è una procedura statistica che ha lo scopo di esaminare se esistono

relazioni fra variabili continue tra loro indipendenti. Per procedere nell’analisi della regressione

bisogna costruire un diagramma di dispersione. Per costruire un diagramma di dispersione

bisogna tracciare un piano cartesiano che rappresenta sull’asse delle ascisse (X) i valori della

variabile indipendente e sull’asse delle ordinate (Y) i valori della variabile dipendente.

In corrispondenza delle variabili X,Y appropriate si traccia nel grafico, sottoforma di punto, la

posizione di tutte le osservazioni disponibili. L’insieme dei punti ricavati indica in che modo le

due variabili covariano.

E’ possibile affermare che il n° di fumatori influisce il n° di soggetti malati di tumore ai

Polmoni?

Fumatori

(X)

Soggetti

con

tumore

ai

polmoni

(Y)

2000 24,1 0,088

2001 23,7 0,083

2002 23,6 0,085

2003 23,8 0,080

2004 22,9 0,079

2005 22,0 0,076

Figura 1. Dati relativi alla (%) di fumatori e soggetti malati di tumore ai polmoni, in Italia nel periodo

2000-2005

0,074

0,076

0,078

0,08

0,082

0,084

0,086

0,088

0,09

21,5 22 22,5 23 23,5 24 24,5

Sogg

ett

i co

n t

um

ore

ai p

olm

on

i (%

)

Fumatori (%)

Valori Y



RETTA DI REGRESSIONE

Quando stimiamo la relazione lineare fra una variabile dipendente (Y) e una variabile

indipendente (X), “regrediamo” Y rispetto a X, producendo una relazione lineare bi-variata o,

più semplicemente, una regressione bivariata.

Equazione lineare Y=a+bX.

Y equivale alla somma di una costante a (che corrisponde al punto in cui la retta intercetta o

incrocia l’asse verticale) più il prodotto del gradiente b moltiplicato per il valore di X.

I ricercatori sociali normalmente assumono che le variabili siano correlate in modo lineare a

meno che non sia palese l’esistenza di collegamento tra le variabili non lineare come una

funzione esponenziale o logaritmica.

Per stabilire in quale misura una linea retta approssima la covariazione osservata fra due

variabili continue, il punto di partenza è un’equazione predittiva, nella quale ad ogni valore

della variabile indipendente ne corrisponde linearmente uno della dipendente:

Tuttavia i dati analizzati dai ricercatori sociali non sono mai perfette relazioni lineari, bisogna

perciò valutare l’esistenza di un errore ei ( anche detto residuo) che rappresenta la porzione

del valore assunto di Y in corrispondenza dell’osservazione i non predetta dalla sua relazione

lineare con X, perciò abbiamo un modello di regressione lineare:

L’errore di regressione è anche detto residuo in quanto rappresenta la quantità che rimane

dopo aver sottratto l’equazione predittiva dal modello di regressione lineare.

COEFFICIENTE DI REGRESSIONE

L’analisi di regressione stima i valori di a e b utilizzando i dati osservati. Compito del modello è

minimizzare i residui.

Il criterio dei minimi quadrati → → permette di stimare l’equazione;

La somma degli errori è sempre uguale a zero perché i valori positivi e negativi si

controbilanciano esattamente. Gli stimatori dei due coefficienti di regressione (a;bxy) devo

soddisfare questo criterio. Dato che la somma degli errori è sempre uguale a zero, elevandoli

al quadrato vengono eliminati i segni negativi in modo che la somma degli errori risulti sempre

maggiore di zero. Sommando poi le differenze tra ogni valore osservato e il corrispondente

valore predetto ciò che si deve ottenere è il minimo valore possibile.



La stima dei minimi quadrati (OLS Ordinary Least Squares) per il coefficiente di regressione

bivariata bxy è calcolata come:

L’intercetta si può ricavare dall’equazione predittiva dopo aver trovato bYX :

Mantenendo lo stesso numeratore e mettendo al denominatore N-1 si ottiene la formula della

covarianza

Se, invece, si divide il denominatore della formula bYX per N-1 si ottiene la formula della

varianza campionaria

Siccome le due formule hanno gli stessi denominatori, un altro modo per calcolare bYX può

essere espresso dalla formula

Per facilitare il calcolo esiste la formula computazionale di b

Per poter effettuare tutti i calcoli si può costruire una tabella, come quella che segue, che

contiene tutte le informazioni necessarie per calcolare bYX e a.



età Fumatori

(X)

Soggetti con

tumore ai

polmoni (Y)

X2 Y2 X*Y

2000 24,1 0,088 580,81 0,0077 2,1208

2001 23,7 0,083 561,69 0,0068 1,9671

2002 23,6 0,085 556,96 0,0072 2,006

2003 23,8 0,080 566,44 0,0064 1,904

2004 22,9 0,079 524,41 0,0062 1,8091

2005 22,0 0,076 484 0,0057 1,672

Tot 140,1 0,491 3.274,31 0,04 11,479

= 140,1/6=23,35

= 0,491/6=0,08

Syx = 6(11,479) – (140,1)(0,491) = 68,874 – 68,7891 = 0,0024

6(6-1) 35

S2x= 6(3.274,31) – (140,1)2 = 19.645,86 – 19.628,01 = 0,51

6(6-1) 35

bxy = syx/s2x = 0,0024/0,51 = 0,0047

La nostra stima del parametro bxy ci dice ci dice che ad ogni aumento dello 0,51% dei soggetti fumatori

corrisponde un aumento (atteso) dello 0,0047 di soggetti malati di tumore ai polmoni.

Calcoliamo l’intercetta:

α= 0,08 – 0,0047(23,35) = - 0,0297

Ora abbiamo tutti i dati per scrivere l’equazione di regressione bivariata completa:

Yî = -0,0297+ 0,0047 Xi



Figura 2. Rappresentazione della retta di regressione bivariata

Il prossimo passo consiste nel calcolare la forza della covariazione tra due variabili. Per fare ciò bisogna

misurare il grado di vicinanza fra i valori effettivi e i valori stimati, in quanto se tutti i valori cadessero

sulla linea predittiva il valore dell’errore sarebbe uguale a zero (e ciò sarebbe irrealistico).

Come già detto il valore di y dipende sia dalla variabile indipendente x che dall’errore di predizione.

Elevando questi valori al quadrato possiamo asserire che:

0,074

0,076

0,078

0,08

0,082

0,084

0,086

0,088

0,09

21,5 22 22,5 23 23,5 24 24,5

Sogg

ett

i mal

ati d

i tu

mo

re a

i po

lmo

ni (

%)

Fumatori (%)

Valory Y

Retta di regressione



Dove:

SQ REGRESSIONE indica la somma dei quadrati della regressione

SQ ERRORE indica la somma dei quadrati dell’errore

SQ TOTALE è uguale al denominatore della varianza

età Fumatori

(X)

α byx Yî ei Y

2000 24,1 -0,0297 0,0047 -0,711 0,799 0,088

2001 23,7 -0,0297 0,0047 -0,6991 0,7821 0,083

2002 23,6 -0,0297 0,0047 -0,6962 0,7812 0,085

2003 23,8 -0,0297 0,0047 -0,7021 0,7821 0,080

2004 22,9 -0,0297 0,0047 -0,6754 0,7544 0,079

2005 22 -0,0297 0,0047 -0,6487 0,7247 0,076

Calcoliamo i rispettivi valori:

SQ REGRESSIONE: 3,5481

SQ ERRORE: 4,6235

SQ TOTALE: 8,1716

Ora siamo in grado di calcolare il coefficiente di determinazione R2xy che indica la proporzione della

variazione totale di Y che è determinata dalla sua relazione lineare con X.

Il valore R2xy può assumere valori compresi tra 1 e 0, dove 1 si verificherebbe nel caso di una predizione

perfetta, mentre 0 nel caso in cui tutta la variazione osservata sia dovuta all’errore.

R quadrato equivale a uno meno il quoziente del rapporto fra la somma dei quadrati dell’errore e la

somma dei quadrati totali

Nel nostro caso R2xy = 0,43

Il che significa che il 43% della variazione totale di Y è determinata dalla sua relazione lineare con X e

che quindi il n° di fumatori incide sul n° di soggetti malati di tumore ai polmoni.



Ora possiamo mostrare la direzione della relazione tra le due variabili continue tramite la

radice quadrata di R2xy chiamata coefficiente di correlazione di Pearson. In formula:

Il coefficienti di correlazione di Pearson, non essendo elevato al quadrato, può assumere sia

valori positivi che negativi; per questo motivo è utile per verificare la direzione della

covariazione. Esso può assumere valori che variano fra -1 (corrispondente a una relazione

inversa perfetta) e + 1 (corrispondente a una relazione diretta perfetta). Se fosse uguale a 0,

le due variabili sarebbero indipendenti fra loro.

Nel nostro caso è pari a 0,65 quindi fra x e y c’è una relazione diretta pari a + 0,65.

Ci accingiamo ora a compiere un test di significatività del coefficiente di determinazione.

Il test di significatività statistica per R2xy fa ricorso alla distribuzione F, già utilizzata nel modello

ANOVA. Nell’analisi della regressione la somma dei quadrati totale ha N-1 gradi di libertà

mentre la somma dei totali della regressione, essendo stimata a partire da byx, possiede solo

un grado di libertà.

Poiché:

gl totale = gl regressione + gl errore

N-1 = 1 + gl errore

gl errore = N-2

Il passo successivo consiste nel calcolare i quadrati medi associati a SQ REGRESSIONE e SQ

ERRORE

QM REGRESSIONE = 3,5481

QM ERRORE = 1,1558



A questo punto cerchiamo il valore del rapporto tramite

F1, 4 = 3,5481/1,1558 = 3,0698

Se poniamo α = 0,01, la tavola di Fisher ci dice che il valore critico di F, con 1 e 4 gradi di

libertà, è 21,20.

Poiché F<21,20, non possiamo convalidare il test di significatività (non possiamo rifiutare

l’ipotesi nulla e non possiamo affermare che nella popolazione il coefficiente di determinazione

è maggiore di zero).



CONCLUSIONI

Per concludere è possibile ricapitolare le tre domande poste inizialmente per sondare il

fenomeno relativo all’abitudine al fumo in Italia ed enunciare i risultati ottenuti grazie

all'applicazione dei tre modelli di analisi statistica bivariata.

Analisi della varianza (ANOVA): attraverso questo modello, che ho deciso di applicare ad

una via o una dimensione, ho messo in relazione le fasce d’età e la percentuale di fumatori

nell’anno 2011. Ho impostato la mia ipotesi di ricerca, supponendo che il numero di fumatori

fosse maggiore tra gli adulti: l’ipotesi nulla (H0) avrebbe indicato che non vi fosse un’influenza

significativa della diversa maturità dei soggetti sulla decisione di fumare, mentre l’ipotesi

alternativa avrebbe indicato, invece,che la maturità incida significativamente sulla decisione di

fumare. Dai calcoli è quindi emerso che è possibile accettare l’ipotesi nulla (H0) con una

probabilità d’errore dello 0,01. Quindi è possibile affermare che la variabile dipendente non

genera una significativa influenza sulla variabile indipendente ovvero l’età non incide sulla

decisione di fumare. Nel caso in cui avessi rifiutato l’ipotesi nulla (H0) avrei dovuto calcolare la

forza delle relazioni tra le variabili ed il coefficiente di correlazione. Facendo affidamento

proprio su quest’ultimo, che mia ha permesso di stimare la proporzione di varianza della

variabile dipendente (la % di fumatori) e la variabile indipendente (la ripartizione in

adolescenti/adulti/anziani), è emerso che il 41% della variazione osservata nel numero di

fumatori dipende dalla ripartizione adolescenti/adulti/anziani a cui una determinata persona

appartiene.

Analisi dei dati categoriali: attraverso tale analisi, ho voluto comprendere la relazione che

intercorre tra il luogo di residenza e la decisione di fumare. In primis, prendendo ad esempio il

numero della popolazione nell’anno 2011 nell’Italia nord occidentale, che era pari a

15.428.441, ho trasformato i miei dati in valori assoluti sapendo che le frequenze osservate si

riferissero a 100 persone. Svolto ciò, sono passata al calcolo del Chi2, sottoponendo a verifica

l’ipotesi nulla, secondo la quale nella popolazione da cui è stato estratto il campione oggetto di

analisi, non esiste nessuna covariazione fra le due variabili prese in esame. Al contrario,

l’ipotesi alternativa sostiene che le due variabili sono correlate nella popolazione nello stesso

modo in cui lo sono nel campione.

Da ciò ne è risultato che l’ipotesi nulla può essere rifiutata con una possibilità molto piccola di

poter commettere un errore e quindi concludere che la relazione osservata nel campione è

statisticamente significativa, cioè è molto probabile che essa esista anche nella popolazione

dalla quale è stato estratto il campione. Quindi vi è una relazione significativa tra il luogo di

residenza e la decisione di fumare.

In seguito, ho deciso di misurare la forza del test di significatività (Chi2), ovvero della relazione

tra le variabile prese in esame. Siccome le variabili da me prese in considerazione non sono

variabili ordinate è bene utilizzare la misura di associazione Odds, la quale definisce il rapporto

tra la frequenza di appartenenza ad una categoria e la frequenza di non appartenenza a quella



categoria. L’Odds si differenzia dalla probabilità, la quale invece indica il rapporto tra la

frequenza associata ad una categoria di interesse e la frequenza associata a tutte le categorie.

Il concetto di Odds semplice può essere esteso al concetto di Odds condizionato. L’Odds

condizionato corrisponde al rapporto tra la probabilità di appartenere alla categoria di una

determinata variabile e la probabilità di appartenere alle rimanenti categorie della stessa

variabile. A partire dalla tavola da me presentata, si possono calcolare molti Odds condizionati,

quindi ho deciso di calcolare l’Odss condizionato che confronta il luogo di residenza, nello

specifico prendendo in esame l’Odss condizionato relativo all’Italia nord occidentale per i

maschi e le femmine, e da tali calcoli è emerso che la scelta di fumare di un maschio che vive

nell’Italia nord occidentale è 2,12 volte superiore rispetto alla decisione di fumare di una donna

che vive nello stesso luogo di residenza.

Analisi della regressione: attraverso questo modello, che ha preso in considerazione il

periodo che va dal 2000 al 2005 è stato possibile rilevare che il 43% della variazione dei

soggetti malati di tumore può essere spiegata dal numero di fumatori. È possibile osservare dai

dati a nostra disposizione che, nel periodo preso in esame, il numero di malati è sempre

crescente. Si tratta di un’analisi riduttiva in quanto, per una maggiore predizione, avremmo

dovuto considerare un lasso di tempo più ampio, ma in questa sede mi sono permessa di

portare un calcolo esemplificativo con lo scopo di applicare al meglio il modello statistico in

questione.

Documents

L'abitudine al fumo in Italia