Author
tim
View
51
Download
0
Embed Size (px)
DESCRIPTION
Statistica chemiometrica Corso di Laurea: Biologia della Salute A.A. 2011-2012 ANOVA Analysis Of VAriance Introduzione all’Analisi della Varianza. Bologna: Ist . Anatomia Umana (Via Irnerio ) Aula B 24-11-2011 ore 14-16. Dr. Antonio Gnes. - PowerPoint PPT Presentation
Statistica chemiometricaCorso di Laurea: Biologia della Salute
A.A. 2011-2012
ANOVAAnalysis Of VAriance
Introduzione all’Analisi della Varianza
Dr. Antonio Gnes
Bologna: Ist. Anatomia Umana (Via Irnerio) Aula B24-11-2011 ore 14-16
IL CONFRONTO TRA LE MEDIE DI DUE O PIU' GRUPPI
Nella ricerca sperimentale, il caso più frequente è il confronto simultaneo tra le medie di due o più gruppi formati da soggetti sottoposti a k trattamenti differenti o con dati raccolti in k condizioni diverse.Al fine di verificare la diversità fra medie (almeno due differiscano tra di loro) è stata sviluppata una metodologia chiamata analisi della varianza e indicata con ANOVA dall’acronimo dell'inglese ANalysis Of Variance. Per tale metodica si usa la distribuzione F.L’ANOVA, che costituisce la base della statistica moderna, permette anche di scomporre e misurare l'incidenza delle diverse fonti di variazione sui valori osservati di due o piùgruppi.Da essa sono derivate le analisi più complesse, con le quali si considerano contemporaneamente molti fattori sia indipendenti che correlati.La grande rivoluzione concettuale introdotta dall’analisi della varianza rispetto al test tconsiste nel differente approccio alla programmazione dell’esperimento. Tale approccio consente una grande combinazione delle condizioni sperimentali.
Misure effettuate dagli studenti del corso di Chimica Analitica in aula B dell’Istituto di Anatomia Umana di Bologna il 15-11-2011.È stato misurato il lato di un parallelepipedo di plastica con calibro digitale avente accuracy di +/-0.02 mm e ripetibilità di 0.01 mm
Misure effettuate dagli studenti del corso di Chimica Analitica in aula B dell’Istituto di Anatomia Umana di Bologna il 15-11-2011.È stato misurato il lato di un parallelepipedo di plastica con calibro digitale avente accuracy di +/-0.02 mm e ripetibilità di 0.01 mm
13,81f -0,03785714 0,001433
13,99m 0,142142857 0,020205
13,81f -0,03785714 0,001433
13,77m -0,07785714 0,006062
13,79f -0,05785714 0,003347
13,79m -0,05785714 0,003347
13,81f -0,03785714 0,001433
14,33f 0,482142857 0,232462
13,84m -0,00785714 6,17E-05
13,65f -0,19785714 0,039147
13,84m -0,00785714 6,17E-05
13,75m -0,09785714 0,009576
13,87f 0,022142857 0,00049
13,82f -0,02785714 0,000776
13,85 3E-14 0,024603
13.85 range
0,68
varianza 0,024603
13,6513,7513,7713,7913,7913,8113,8113,8113,8213,8413,8413,8713,9914,33
SnapStat: One Sample Analysis
Data variable: Col_1Count = 14Average = 13,8479Standard deviation = 0,156853Coeff. of variation = 1,13269%Minimum = 13,65Maximum = 14,33Range = 0,68Stnd. skewness = 3,73833Stnd. kurtosis = 5,73494
Histogram
13,6 13,8 14 14,2 14,4Col_1
0
2
4
6
8
10
fre
qu
en
cy
Box-and-Whisker Plot
13,6 13,8 14 14,2 14,4Col_1
95% confidence intervalsMean: 13,8479 +/- 0,0905642 [13,7573; 13,9384]Sigma: [0,113711; 0,252696]
DiagnosticsShapiro-Wilks P-value = 0,0003Lag 1 autocorrelation = -0,0585265 +/- 0,523823
0 3 6 9 12 15Row
13,6
13,8
14
14,2
14,4
Co
l_1
Time Sequence Plot Normal Probability Plot
13,6 13,8 14 14,2 14,4Col_1
0,1
1
5
20
50
80
95
99
99,9
pe
rce
nta
ge
SnapStat: One Sample Analysis
Data variable: Col_1Count = 11Average = 13,8091Standard deviation = 0,0338982Coeff. of variation = 0,245478%Minimum = 13,75Maximum = 13,87Range = 0,12Stnd. skewness = 0,0269659Stnd. kurtosis = 0,0363567
Histogram
13,7 13,7313,7613,7913,8213,8513,88Col_1
0
1
2
3
4
5
6
fre
qu
en
cy
Box-and-Whisker Plot
13,7 13,7313,7613,7913,8213,8513,88Col_1
95% confidence intervalsMean: 13,8091 +/- 0,0227732 [13,7863; 13,8319]Sigma: [0,0236853; 0,0594891]
DiagnosticsShapiro-Wilks P-value = 0,9425Lag 1 autocorrelation = 0,573504 +/- 0,590953
0 2 4 6 8 10 12Row
13,7
13,73
13,76
13,79
13,82
13,85
13,88
Co
l_1
Time Sequence Plot Normal Probability Plot
13,7 13,7313,7613,7913,8213,8513,88Col_1
0,1
1
5
20
50
80
95
99
99,9
pe
rce
nta
ge
13,7513,7713,7913,7913,8113,8113,8113,8213,8413,8413,87
Test Q di Dixon per outlier (vedi Miller. Statistics for Analytical Chemistry 3° Edition pagg. 63-64)
Q = ABS (valore sospetto – valore più prossimo )/ (valore maggiore – valore minore)
Q = ABS (14.33-13.99)/(14.33-13.65) = 0.5 (per N=10 Qcrit=0.464 )
La distribuzione non è normale in quanto Q calcolato (0.5) è superiore al tabulato (0.464 Tab. A4 pag. 224 del Miller)
Ad analogo risultato si è arrivati con il test di Shapiro-Wilks
Esempio pag 46 di Skoog & West (Editore Piccin, 1970)È stata determinata la percentuale di ossido di calcio in un campione di calcite mediante 6 repliche in % : 55.95-56.00-56.04-56.08-56.23-56.06Si sospetta che il valore 56.23 sia un outlierQ = ABS (56.23-56.08)/(56.23-55.95)= 0.536 (Per N=6 Q crit = 0.621Il valore 56.23 non è un outlier
SnapStat: One Sample Analysis
Data variable: Col_1Count = 6Average = 56,06Standard deviation = 0,095289Coeff. of variation = 0,169977%Minimum = 55,95Maximum = 56,23Range = 0,28Stnd. skewness = 1,1671Stnd. kurtosis = 1,09853
Histogram
55,9 56 56,1 56,2 56,3Col_1
0
0,5
1
1,5
2
2,5
3
fre
qu
en
cy
Box-and-Whisker Plot
55,9 56 56,1 56,2 56,3Col_1
95% confidence intervalsMean: 56,06 +/- 0,1 [55,96; 56,16]Sigma: [0,0594802; 0,233707]
DiagnosticsShapiro-Wilks P-value = 0,4891Lag 1 autocorrelation = 0,237885 +/- 0,800153
0 1 2 3 4 5 6Row
55,9
56
56,1
56,2
56,3C
ol_
1
Time Sequence Plot Normal Probability Plot
55,9 56 56,1 56,2 56,3Col_1
0,1
1
5
20
50
80
95
99
99,9
pe
rce
nta
ge
55,9556,0056,0456,0856,2356,06
One Way ANOVAANalysis Ov VAriance
Questo è lo schema tabulare dell’ ANOVA one way
Per i calcoli vedi Excel a parte e Miller pag. 66-69
SnapStat: One Sample Analysis
Data variable: SkoogCount = 6Average = 4,29Standard deviation = 0,052915Coeff. of variation = 1,23345%Minimum = 4,21Maximum = 4,36Range = 0,15Stnd. skewness = -0,267275Stnd. kurtosis = -0,0732143
Histogram
4,2 4,24 4,28 4,32 4,36 4,4Skoog
0
0,4
0,8
1,2
1,6
2
fre
qu
en
cy
Box-and-Whisker Plot
4,2 4,24 4,28 4,32 4,36Skoog
95% confidence intervalsMean: 4,29 +/- 0,0555311 [4,23447; 4,34553]Sigma: [0,03303; 0,12978]
DiagnosticsShapiro-Wilks P-value = 0,9928Lag 1 autocorrelation = -0,185714 +/- 0,800153
0 1 2 3 4 5 6Row
4,2
4,24
4,28
4,32
4,36
Sko
og
Time Sequence Plot Normal Probability Plot
4,2 4,24 4,28 4,32 4,36Skoog
0,1
1
5
20
50
80
95
99
99,9
pe
rce
nta
ge
4,284,214,304,364,264,33
Femm Masch13,81 13,9913,81 13,7713,79 13,7913,81 13,8414,33 13,8413,65 13,7513,8713,82
ANOVA sui due gruppi di studenti che hanno effettuato le misure
CONDIZIONI DI VALIDITA’ DELL’ANOVAPrima dell’applicazione di questo test parametrico, occorre verificare se esistono le seguenti condizioni.Gli errori devono:a) essere tra loro indipendenti,b) essere distribuiti normalmente;c) avere varianze dei diversi gruppi tra loro omogenee.
CALCOLO DELLE DEVIANZE E DEI GRADI DI LIBERTA’Dopo aver verificato le condizioni di cui sopra si calcolano:
- la devianza totale, con i suoi gdl;- la devianza tra trattamenti o between, con i suoi gdl e la varianza relativa;- la devianza entro trattamenti o within od errore, con i suoi gdl e la varianza relativa.Si noti che:1 - la devianza tra trattamenti più quella entro trattamenti è uguale alla devianza totale;2 - identica proprietà additiva hanno i rispettivi gradi di libertà.
Le formule per il calcolo deiparametri di cui sopra sono:Devianza totale = (vedi oltre)Gradi di libertà totali gdl = n – 1 (n = num. Dati) Nel caso di cui sopra: (4+3+3)-1=9Devianza tra trattamenti = (vedi oltre)Gradi di libertà tra trattamenti gdl = p – 1 (p = num. gruppi) in questo caso 3-1=2
Dividendo la devianza tra e la devianza entro per i rispettivi gradi di libertà, si ottengono- la varianza tra e la varianza entro.Dividendo la varianza tra per la varianza entro, si calcola il rapporto F,che deve essere riportato con i rispettivi gradi di libertà F(2,12)
F = 0,251468/0,0990753 = 2,538Il valore critico di F- con gdl 2 per il numeratore e 12 per il denominatoredalla tabella per la probabilità a = 0.05 è F = 3,89.Il valore calcolato (2,538) è inferiore a quello tabulato (3,89):- la probabilità che l'ipotesi nulla sia vera è superiore al 5%.Di conseguenza, si accetta l'ipotesi nulla: i tre campioni sono stati estratti dalla stessa popolazione;non esiste una differenza significativa tra le 3 medie campionarie.
ESEMPIO DI ANOVA AD UN CRITERIO, CON DISCUSSIONE SULLE CONDIZIONI DI VALIDITA’
Si valuti l’effetto di quattro diete sul tempo di coagulazione del sangue, mediante assegnazione casuale (analisi totalmente randomizzata). 24 cavie sono state sottoposte a 4 tipi di dieta differenti. Successivamente a ognuna delle 24 cavie, prelevate in ordine casuale, è stato misurato il tempo di coagulazione (in secondi) su un campione di sangue.
Diete (Trattamenti)A B C D62 63 68 5660 67 66 6263 71 71 6059 65 68 64
66 68 6359
Media di trattamento
61 66 68 61
Media di tutti i dati
63 68 56med generale
56-8,0
67 66 6264,0
59-5,0
71 71 60numero dati
59-5,0
64 67 6124
60-4,0
65 68 63 60-4,0
66 68 64 61-3,0
63 62
-2,0
59 62
-2,0
66 68 61
medie per trattam
63
-1,063
-1,063 66 56 63
-1,064 67 59 63
-1,065 68 60 64
0,066 68 61 64
0,067 68 62 65
1,071 71 63 66
2,0
63 66
2,0
64 67
3,067
3,0-3 -2 -5 68
4,0-2 -1 -2 68
4,0-1 0 -1 68
4,00 0 0 71
7,01 0 1 71
7,05 3 2
2
3
La devianza totale SQTOT (in inglese chiamata Total Sum of Squares, meno frequentementeCrude Sum of Squares)
Con i dati dell’esempio,Sqtot = (62-64)2 + (60-64)2 ... (62-64)2 = 340
Per comprendere come si stimano i gradi di libertà della devianza totale, è utile riprendere la formula euristica
Essa chiarisce che, per il calcolo della devianza totale, la somma deve essere fatta-per tutti gli n dati (xi ), ma che prima è necessario ricavare da essi la media generale.-ad essi occorre sottrarre l’informazione della media.
Pertanto, i gradi di libertà (degree of freedom df) della devianza totale sono n -1Con i dati dell’esempio, df = 24 -1 = 23
2 - La devianza tra trattamenti SQTRA (between treatment sum of squares) e i suoi gradi di libertà.Per stimare quanto della variabilità complessiva è dovuto alla differenza tra le medie dei gruppi, si ipotizza che i dati di ogni gruppo siano tutti uguali alla loro media (media di gruppo).Con k gruppi e con t n dati entro gruppo,la formula è (vedi oltre)
E’ una devianza pesata, nella quale forniscono un contributo maggiore i gruppi- con una media di gruppoche dista maggiormente dalla media generale- e che hanno un numero maggiore di dati per gruppo.
Con i dati dell’esempio(61 64) 4 (66 64) 6 (68 64) 6 (61 64) 8 228 = - 2 × + - 2 × + - 2 × + - 2 × = TRA SQAnche in questo caso, esiste il problema delle medie con più decimali e dell’elevamento al quadratodelle loro differenze.
Per stimare quanto della variabilità complessiva è dovuto alle differenze presenti entro ogni gruppo,si utilizza la formulaCon i dati dell’esempio(62 61) (60 61) (63 61) (59 61) 10 = - 2 + - 2 + - 2 + - 2 = A SQ(63 66) (67 66) (71 66) (64 66) (65 66) (66 66) 40 = - 2 + - 2 + - 2 + - 2 + - 2 + - 2 = B SQ(68 68) (66 68) (71 68) (67 68) (68 68) (68 68) 14 = - 2 + - 2 + - 2 + - 2 + - 2 + - 2 = C SQ(56 61) (62 61) ... (63 61) (59 61) 48 = - 2 + - 2 + + - 2 + - 2 = D SQda cui= 10 + 40 +14 + 48 = 112 E SQPoiché tra le tre devianze esiste la proprietà additiva
= 340 - 228 = 112 E SQ
In altri termini, servono le n informazioni complessive, dalle quali occorre sottrarre le kinformazioni rappresentate dalla media di ogni gruppo.Pertanto, i gradi di libertà (degree of freedom) della devianza totale sono n - kCon i dati dell’esempio, df = 24 - 4 = 20La proprietà additiva delle tre devianze esiste anche tra i rispettivi gradi di libertà:n - k = (n -1)- (k -1)Con i dati dell’esempio20 = 23 - 3Per una visione complessiva dei calcoli effettuati e per meglio comprendere i passaggi successivi, èsempre utile riportare i risultati in una tabella
-2
-1
1
2
-3
-2
-1
0
1
5
-2
-1
0
0
0
3
-5
-2
-1
0
1
2
2
3
Analisi dei residui
Vedi grafico Excel a parte
Per evidenziare la presenza di anomalie nei dati campionari, è preferibile il grafico (il dot plot) :- sull’asse delle ascisse sono riportate le medie dei campioni-sull’asse delle ordinate sono riportati i valori delle singole osservazioni.
Dalla osservazione, che dovrebbe essere poi confermata con test, emerge con chiarezza che- all’aumentare dei valori medi aumenta la variabilità dei gruppi.Ne deriva anche una diversa interpretazione della presenza dell’outlier:- nell’ultimo gruppo, l’outlier forse non è reale ma forse solo apparente, poiché appartiene a un gruppo che tende ad avere una varianza maggiorePer decidere in modo corretto, se si tratta di un outlier oppure di un gruppo con varianza maggiore, bisogna fare il test ( Q di Dixon o Shapiro Wilks)
Bartlett 19 17 16 11
17 17 18 13
20 15 19 16
16 20 16 11
19 19 14 11
Gdl 4 4 4 4 16
Devianza 10,8 15,2 15,2 19,2 60,4
Varianza 2,7 3,8 3,8 4,8 76,4
log10s2i 0,431364 0,579784 0,579784 0,681241
nilog10s2i 1,725455 2,319134 2,319134 2,724965 9,088689
s2 3,775
log10s2 0,576917
A= 2.3026nilogs2 -i(ni-1)log10s2i 0,326929 0,442099
B= 1+(1-1/16)/3*(4-1) 1,104167
X23= A/B 0,296
ANOVA a due criteri di classificazione senza repliche ocon repliche
1- la devianza totale, con 19 gdl, ottenuta come scarto al quadrato di ogni valore dalla media generale(28- 28,5)2 + (34 - 28,5)2 + (22 - 28,5)2 + ...+ (29 - 28,5)2 = 683,02 - la devianza tra trattamenti o tra zone, con 4 gdl, ottenuta come scarto quadratico di ognunadelle 5 medie di colonna dalla media generale, moltiplicato per il numero di dati di colonna(30,00 - 28,5)2 + 4 ×(27,25- 28,5)2 +...+ 4×(26,00 - 28,5)2 = 128,53 - la devianza tra blocchi o tra ore, con 3 gdl, ottenuta come scarto quadratico di ognuna delle 4medie di riga dalla media generale, moltiplicato per il numero di dati su cui è calcolata la media5×(26,2 - 28,5)2 + 5×(32,8- 28,5)2 +...+ 5×(33,8- 28,5)2 = 525,84 - la devianza d'errore e i suoi gdl possono essere calcolati in modo rapido per differenza:683,0 - 128,5 - 525,8 = 28,7 I gdl della devianza d'errore sono pure calcolati per differenza 19 - 4 - 3 = 12
La significatività della differenza tra zone è verificata con F4,12 =32,125/2,39= 13, 44La significatività delle differenze tra ore è verificata con F3,12 =175,266/2,39= 73,33I valori critici corrispondenti- alla probabilità = 0.05 per Gdl=4-12 è uguale a 3,26 e per Gdl=3-12 è 3,49- alla probabilità = 0.01 per Gdl=4-12 è uguale 5,41 e per Gdl=3-12 è 5,95.Con probabilità inferiore a 0.01 si rifiuta l’ipotesi nulla, sia per le medie delle zone che per le medie delleore. La differenza tra ore risulta maggiore di quella tra zone.
Per una presentazione sintetica dei dati raccolti al fine di verificare rapidamente i calcoli e per la successiva stima delle tre varianze necessarie ai due test F, con gli 8 valori stimati (4 devianze e relativi gdl) è utile costruire la tabella:
La devianza d'errore è stata calcolata per differenza, sottraendo alla devianza totale quella tratrattamenti e quella tra blocchi. Per comprenderne più esattamente il significato, è necessario vedere quanto del valore di ogni osservazione è imputabile agli effetti congiunti della media generale, del fattore A e del fattore B (considerati nelle devianze relative) e quanto ai rimanenti fattori raggruppati nel residuo o devianza d’errore.Con i primi 3 fattori, per ogni valore Xpk osservato è possibile calcolare un valore X pk atteso, definitocomeX pk = X + ( X p - X ) + ( X k - X )Dopo semplificazione, risulta che può essere stimato medianteX pk = X p + X k – X
Con i dati dell’esercizio, dopo aver calcolato le medie marginali e quella totale, è possibile stimare in ogni casella, all’intersezione tra ogni riga e ogni colonna, quale è il valore atteso qualora agissero solamente i tre effetti considerati.La tabella sottostante riporta questi valori attesi X pk:
Esplicitiamo il calcolo solo per il primo valore: 30.00+26.20-28.50=27.70
Bibliografia:“Statistics for Analytical Chemistry” J.C. Miller and J.N. Miller,
Second Edition, 1992, Ellis Horwood Limited
“Fundamentals of Analytical Chemistry”Skoog, West and Holler, 7th Ed., 1996
(Saunders College Publishing)
Chimica Analitica, Harris (Zanichelli)
Soliani, Fondamenti di Statistica Applicata, (UNIPR)