Upload
vuhanh
View
216
Download
1
Embed Size (px)
Citation preview
Test d’ipotesi sulle proporzioni per un campione
L’ipotesi nulla di un test d’ipotesi a due code (bidirezionale) é
H0: p = p0
mentre l’ipotesi alternativa é
H1: p 6= p0
dovep é il valore della proporzione nella popolazionep0 é il valore ipotizzato della proporzione nella popolazione
Test d’ipotesi su una proporzione: test z
Se la distribuzione della proporzione é approssimativamentenormale*, é possibile utilizzare la statistica z:
z =p̄ − p0√p0(1−p0)
n
dovep̄ é la proporzione nel campionep0 é il valore ipotizzato della proporzione nella popolazionen é la numerositá campionaria
*La distribuzione é normale se np0 ≥ 5 e n(1− p0) ≥ 5
Esercizio 1Supponiamo di lanciare una moneta 20 volte e di ottenere 12volte testa. Possiamo ipotizzare che la moneta sia truccata?
H0: p = p0 = 0.5
H1: p 6= 0.5
α = 0.05
Devo verificare se np0 ≥ 5 e n(1− p0) ≥ 5
np0 ≥ 5 n ≥ 50.5 quindi n ≥ 10
n(1− p0) ≥ 5 n ≥ 50.5 quindi n ≥ 10
In questo caso n > 10, quindi la distribuzione campionaria dellaproporzione é normale. Possiamo svolgere un test zbidirezionale.
Risoluzione con il test z
Inseriamo i dati e calcoliamo z
pbar = 12/20p0 = 0.5n = 20z = (pbar - p0) / sqrt(p0*(1-p0)/n)z
[1] 0.8944272
Calcoliamo lo z critico (α = 0.05)
z_cr = qnorm(1-0.05/2)z_cr
[1] 1.959964
Risoluzione con il test z
x = seq(-5, 5, by=0.1)plot(x, dnorm(x), xlab="z distribution", ylab="" , type="l")abline(v=z, lty=2, col="blue")abline(v=c(-z_cr, z_cr), col="red")
Siamo nella regione di accettazione: non rifiutiamo l’ipotesinulla. La moneta non é truccata.
Soluzione alternativa
La statistica test z non é implementata in R, ma é sostituitadalla statistica chi-quadro.
Mentre la statistica z puó essere usata soltanto se i datiseguono una distribuzione normale, la statistica chi-quadro puóessere utilizzata anche quando la distribuzione non é normale.
Quando la distribuzione é normale, posso quindi usare sia lastatistica z sia la statistica chi-quadro.
Risoluzione usando la statistica chi-quadro
prop.test(12, 20, p=0.5, correct=FALSE)
1-sample proportions test without continuity correction
data: 12 out of 20, null probability 0.5X-squared = 0.8, df = 1, p-value = 0.3711alternative hypothesis: true p is not equal to 0.595 percent confidence interval:
0.3865815 0.7811935sample estimates:
p0.6
Pvalue ≥ 0.05: non rifiuto l’ipotesi nulla e concludo che lamoneta non é truccata.
Nel caso di campioni piccoli, si deve specificare correct = TRUE(default): si ottiene una variante del test che usa unacorrezione detta correzione di Yates.
I due metodi in questo caso si equivalgono.Infatti z2 che si ottiene dal primo test z é esattamente pari a X 2
calcolato dalla funzione prop.test senza la correzione di Yates
z^2
[1] 0.8
Inoltre anche il Pvalue é lo stesso
pval = 2*pnorm(z, lower.tail=FALSE) # calcola l’area a destrapval
[1] 0.3710934
Esercizio 2
In un esperimento di percezione extrasensoriale un soggettoviene posto in una stanza e gli viene chiesto di dire il colore(rosso o blu) di una carta scelta da un mazzo di carte da unsoggetto posto in un’ altra stanza (il mazzo ha 25 carte blu e 25rosse). Ogni carta estratta viene poi reimmessa nel mazzo. Ilsoggetto indovina il colore di 32 carte su 50; determinare se ilrisultato é significativo a livello dello 0.05 e dello 0.01.
Test per il confronto fra proporzioni
Consideriamo due campioni di ampiezza n1 e n2 su cuiabbiamo rilevato una proporzione p1 = x1/n1 e p2 = x2/n2. Cichiediamo se l’eventuale differenza riscontrata tra p1 e p2 siadovuta al caso oppure no.Nel caso di un test bidirezionale, l’ipotesi nulla e l’ipotesialternativa saranno:
H0: p1 = p2 ovvero p1 − p2 = 0
H1: p1 6= p2 ovvero p1 − p2 6= 0
Esercizio 3
E’ stato condotto uno studio prospettico per valutare l’efficaciadell’aspirina nella prevenzione dell’infarto. Un gruppo di 200volontari é stato seguito per 5 anni. Alcuni di loro hannoquotidianamente assunto l’aspirina, altri invece un placebo.Allo scadere dei 5 anni sono stati contati i decessi per infartomiocardico.
Verificare l’ipotesi nulla che la proporzione dei colpiti da infartosia uguale nei due gruppi contro l’alternativa che sia maggiorenel gruppo di controllo (porre α = 0.05).
Esercizio 3
Formuliamo le ipotesi statistiche
H0: pp ≤ pa
H1: pp > pa
dovepp é la proporzione di infartuati con placebo
pa é la proporzione di infartuati con aspirina
Importiamo in R i dati presenti nel file aspirina.xls, dopo averloconvertito in .csv
setwd("X:/")aspirina = read.table("aspirina.csv",
header=TRUE,sep=",",dec=".")
str(aspirina)
’data.frame’: 200 obs. of 2 variables:$ Farmaco : Factor w/ 2 levels "Aspirina","Placebo": 1 2 2 1 2 2 1 1 ...$ Malattia: Factor w/ 2 levels "Infarto","Sano": 1 2 1 2 1 2 1 2 1 1 ...
Dobbiamo svolgere un test unidirezionale. Ordiniamo lavariabile Farmaco in modo tale da avere prima Placebo e poiAspirina.
aspirina$Farmaco = factor(aspirina$Farmaco,levels=c("Placebo","Aspirina"))
str(aspirina$Farmaco)
Factor w/ 2 levels "Placebo","Aspirina": 2 1 1 2 1 1 2 2 2 2 ...
table(aspirina$Farmaco, aspirina$Malattia)
Infarto SanoPlacebo 56 47Aspirina 39 58
Funzione prop.test
prop.test(table(aspirina$Farmaco, aspirina$Malattia),correct=FALSE,alternative="greater") # infatti H1: pp > pa
2-sample test for equality of proportions without continuitycorrection
data: table(aspirina$Farmaco, aspirina$Malattia)X-squared = 4.0181, df = 1, p-value = 0.02251alternative hypothesis: greater95 percent confidence interval:
0.02663952 1.00000000sample estimates:
prop 1 prop 20.5436893 0.4020619
Pvalue < 0.05: rifiuto l’ipotesi nulla. L’aspirina é efficace nelprevenire l’infarto.
Verifica d’ipotesi di indipendenza
Test del chi-quadro
Il test chi-quadro di indipendenza si utilizza quando si hannodue variabili qualitative, ciascuna con due o piú valori.Spesso i dataset come questo sono riassunti in tabelle dicontingenza righe x colonne.
H0: le proporzioni di due variabili sono indipendenti
H1: le proporzioni non sono indipendenti.
Esercizio 4
(Modificato da McDonald, 2008)
Gardemann e collaboratori hanno studiato un polimorfismo diinserzione/delezione nel gene che codifica l’apolipoproteina Bin 2259 uomini con/senza malattia coronarica. I ricercatorihanno ottenuto i seguenti risultati:
I soggetti sani: 268 ins/ins - 199 ins/del - 42 del/delI soggetti malati: 807 ins/ins - 759 ins/del - 184 del/del
L’ipotesi nulla é che la proporzione di uomini con la malattia siala stessa per ciascuno dei tre genotipi.
Test del chi-quadro
Inseriamo i dati in R
sani = c(268, 199, 42)malati = c(807, 759, 184)dati = data.frame(sani, malati,
row.names = c("ii","id","dd"))dati
sani malatiii 268 807
id 199 759dd 42 184
Test del chi-quadro
Effettuiamo il test del chi-quadro usando la funzione chisq.test
chisq.test(dati, correct =F)
Pearson’s Chi-squared testdata: datiX-squared = 7.2594, df = 2, p-value = 0.02652
Il Pvalue < 0.05. Rifiutiamo l’ipotesi nulla. I tre genotipi hannoproporzioni significativamente diverse di malati. Quindi questopolimorfismo influenza il rischio di malattia cardiovascolare.
Esercizio 5
(Modificato da McDonald, 2008)
Young e Winn (2003) hanno studiato la distribuzione dellespecie di murena G. moringa e G. vicinus lungo la scogliera delBelize. Hanno classificato la localizzazione in: erba, sabbia,prossimitá del bordo. I ricercatori hanno ottenuto i seguentirisultati:
G. moringa: erba(127), sabbia(99), bordo(264)G. vicinus: erba(116), sabbia(67), bordo(161)
C’é una differenza significativa nell’habitat delle due specie?
Test non parametrici
Test U di Mann-Whitney
Quando i dati non sono distribuiti normalmente non si puóricorrere al test t per confrontare due gruppi, ma si puóutilizzare il test U di Mann-Whitney.Nel caso di un test bidirezionale, le ipotesi statistiche sono:
H0: le due popolazioni da cui sono estratti i campioni hannomediana uguale.
H1: le due popolazioni da cui sono estratti i campioni hannomediana diversa.
Esercizio 6E’ stata misurata l’altezza in cm di due gruppi di piante.Valutare se i due gruppi hanno altezze simili.
I dati sono presenti nel file piante.txt
setwd("Y:/STATISTICA")piante = read.table("piante.txt", header=TRUE,
sep=" ", dec=".")head(piante)
altezza tipo1 630.1312 p12 181.0193 p13 185.2785 p14 245.4308 p15 379.3123 p16 301.8692 p1
Valutiamo graficamente la normalitá dei dati
par(mfrow=(c(1,2))) # piu’ grafici nella stessa finestrahist(piante$altezza[piante$tipo=="p1"],
main="p1", xlab="altezza")hist(piante$altezza[piante$tipo=="p2"],
main="p2", xlab="altezza")
p1
altezza
Fre
quen
cy
0 2000 4000 6000 8000
020
4060
8010
012
0
p2
altezza
Fre
quen
cy
0 1000 2000 3000 4000
020
4060
80
Test di normalitáIl test di Shapiro-Wilk serve per verificare che una variabileabbia una distribuzione normale.
shapiro.test(piante$altezza[piante$tipo=="p1"])
Shapiro-Wilk normality testdata: piante$altezza[piante$tipo == "p1"]W = 0.4931, p-value < 2.2e-16
shapiro.test(piante$altezza[piante$tipo=="p2"])
Shapiro-Wilk normality testdata: piante$altezza[piante$tipo == "p2"]W = 0.6666, p-value < 2.2e-16
In entrambi i casi, Pvalue < 0.05. Rifiuto l’ipotesi nulla che ivalori campionari siano distribuiti normalmente.
Test U di Mann-Whitney
Effettuiamo il test U di Mann-Whitney
wilcox.test(piante$altezza~piante$tipo)
Wilcoxon rank sum test with continuity correction
data: piante$altezza by piante$tipoW = 6592.5, p-value = 1.014e-06alternative hypothesis: true location shift is not equal to 0
Pvalue < 0.05. Rifiuto l’ipotesi nulla e concludo che lepopolazioni da cui sono stati estratti i due campioni hannodiversa mediana.