Upload
vumien
View
229
Download
1
Embed Size (px)
Citation preview
11Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
COMPRENDERE:– Significato di intervallo di confidenza– Uso degli stimatori come quantità di pivot per stime intervallari
IMPARARE:– popolazioni normali: come determinare intervalli di confidenza
per media, varianza, differenza tra due medie– campioni di taglia grande: come determinare intervalli di
confidenza per la media– proporzioni e differenze tra proporzioni: come determinare
intervalli di confidenza
DISTINGUERE:– precisione da affidabilità
ELABORARE:– tramite esercizi di interesse applicativo
Schema lezione 5Intervalli di confidenza
Non centrerò quella barca, nesono convinto al95%
22Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità di un intervallo/intervallo di confidenza 1
Modello teorico: il vero valore di µ è compresonell’intervallo con probabilità 0.95
Attenzione: qui si parla diconfidenza e non di probabilità! Ilvero valore di µ può o menoessere compreso nell’intervallotrovato, però se calcolassi tantiintervalli di confidenza, nel 95%di essi il vero valore di µcadrebbe all’interno dell’intervallo
Esempio :Livello di confidenza
Coefficiente di affidabilità
Con confidenza al 95% possiamo affermare:
33Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Probabilità di un intervallo/intervallo di confidenza 2
Ogni intervallo può omeno contenere il verovalore di µ però per il95% degli intervalli ilvero valore di µ ècompreso.
E’ un vero lavoro dadetective: raduniamo leinformazionidisponibili per scoprirela verità: il vero valoredi µ !
x1
36
x2
24
x3
39
x10
20
x15
27
Vera distribuzione;µ=30, però
l’investigatore nonpuò saperlo.
Un ricercatore vuole determinare il livello di un certoenzima in una popolazione umana. Considera 10individui e determina il livello dell’enzima per ciascunodi essi, ottenendo una media campionaria uguale a 28.Sappiamo che la variabile di interesse è N(µ,45).Vogliamo stimare µ.Soluzione:
44Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervalli di confidenza:precisione della stima
L’unico modo per ottenere un’alta probabilità perl’intervallo e un’alta precisione è di aumentare la tagliadel campione. Diversamente se aumenta la precisionedella stima diminuisce la confidenza dell’intervallo.
Per avere un intervallo di confidenza piccolo(molto preciso) devo correre il rischio che il verovalore non sia compreso in esso. E’ come centrareun bersaglio in un tiro a segno. Se il bersaglio èpiccolo la probabilità di non centrarlo è alta.
Posso avere più intervalli con
lo stesso livello diconfidenza: sceglierò
quello più preciso
55Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervalli di confidenza: definizione
Definizione: Intervallo di confidenza di livello 1-α per τ(θ)
66Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Tecnica per determinare un intervallo di confidenza:
1. Determiniamo una variabile aleatoria, tale che nella sua espressione siacoinvolto il parametro da stimare ma di cui sia nota la distribuzione, chenon coinvolge il parametro da stimare
Esempio: X±1.96 σ/Ïn
2. Sostituisco alle variabili aleatorie il valore stimato.
Nota: nel momento in cui sostituisco la stima alle variabili aleatorie nonposso più parlare di probabilità. L’intervallo sarà verificato con una certa
CONFIDENZA.
Devo scegliere queste variabili in un modo “furbo”: laloro distribuzione non deve coinvolgere il parametro dastimare!
Probabilità di un intervallointervallo di confidenza
77Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio
Perché l’intervallo al 99% è
più grande di quello al 95%?E’ ragionevole o hai sbagliato
i calcoli?
88Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per la media
Popolazione normale σσσσ sconosciuta
Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α:
T di Studentcon n-1 gradi di
libertà
L’intervallo ha lunghezza minima se è simmetrico
Popolazione normale o campione di taglia grande, σσσσ notaVariabile casuale da utilizzare: Intervallo di confidenza di livello 1-α:
Se n è grandela T di
Student tendea una normalee ricadiamo
nel casoprecedente
Gli scienziati sonosicuri al 99% che il
rientro nell’atmosferaavverrà lì: è un’area
grande senza pericoli,posso sentirmi
tranquillo
99Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per la mediascelta della statistica corretta
z
t z
n < 30
La varianza èNOTA ?
z t
La varianza èNOTA ?
Il campione èGRANDE ?
z t z
La varianza èNOTA ?
metodinon parametrici
metodinon parametrici
La varianza èNOTA ?
Il campione èGRANDE ?
La Popolazione èNORMALE ?
sì no
sì no sì no
sì no sì no sì no sì no
sì no
1010Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Semiampiezza dell’intervallo
Determinazione della taglia del campioneper ottenere intervalli con confidenza prefissata
Popolazione grandeCampionamento CON reinserimento
Popolazione piccolaCampionamento SENZA reinserimento
2
1111Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per la varianza
Attenzione: il Chi quadroè una variabile sempre positiva
Probability Density Functiony=chi2(x;6)
0,000
0,044
0,087
0,131
0,175
0,00 6,25 12,50 18,75 25,00
Popolazioni normali
Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α:
Segue la distribuzione del Chiquadro con n-1 gradi di libertà
1212Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per differenze tra due medie
Variabile casuale da utilizzare:
Popolazioni normali o campioni di taglia grande, σσσσ1111 e σσσσ2222 note
Intervallo di confidenza di livello 1-α:
(1-α/2) (1-α/2)-
Popolazioni normali σσσσ1111 e σσσσ2222 sconosciute ma uguali
Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α:
(1-α/2)
Dove:
+t-(1-α/2)-t
1313Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per differenze tra due medie
Popolazioni normali σσσσ1111 e σσσσ2222 sconosciute e diverse
Non segue più la distribuzione di Student con n1+n2-2gradi di libertà
Variabile casuale da utilizzare:
Dove: con:
Intervallo di confidenza approssimato di livello 1-α:
1414Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per proporzioni
Campioni di taglia grandeVariabile casuale da utilizzare: Intervallo di confidenza di livello 1-α:
Ho un problema:la varianzadipendedal parametro dastimare p
E’ vero, però possiamostimare la varianza tramiteSn/n Ovviamente cosìintroduciamo una nuovaapprossimazione ma ètrascurabile
1515Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per proporzioni
Se il campione è di taglia piccolal’intervallo di confidenza non puòutilizzare l’approssimazionenormale. I calcoli vanno fattiusando la binomiale: sono calcolidifficili! Per fortuna esistono deigrafici che possono venir utilizzatiin questi casi.
Taglia del campione per intervalli diampiezza prefissata
Popolazione infinitaconreimbussolamento
Popolazione finita, senza reimbussolamento
1616Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per differenze traproporzioni con n1 e n2 GRANDI
2
Esempio: Dei ricercatori vogliono confrontare gli effetti di due diverse cure sul tempo diricovero di pazienti con una certa malattia. Si scelgono 200 pazienti a caso e si dividono in duegruppi uguali. Nel primo gruppo i pazienti ricevono il trattamento standard e 78 vengonodimessi entro 3 giorni. Degli altri 100, che hanno sperimentato il nuovo metodo, 90 sonodimessi entro 3 giorni. I medici vogliono stimare la differenza tra le due proporzioni di malatiche vengono dimessi entro 3 giorni usando un livello opportuno (p.es. 95%).Soluzione:
1717Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Intervallo di confidenza per il rapporto tra levarianze di due popolazioni normali
Popolazioni normali
Variabile casuale da utilizzare: Intervallo di confidenza di livello 1-α:
Segue la distribuzione di Fisher con(n1-1, n2-1) gradi di libertà
Attenzione: la variabile di Fisher è sempre positiva
ed è tabulata (5,5)(10,5)(10,50)
Distribuzione di Fisher
0.000
0.375
0.750
1.125
1.500
0 1 2 3 4
1818Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Come faccio a determinare F0.025 con n1 en2gradi di libertà? Sulle tavole non c’è!
1919Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esempio: Dei ricercatori selezionano un campione di 21 adulti apparentemente sani(campione 1). Indipendentemente selezionano un campione di taglia 16 da una popolazionedi pazienti con il morbo di Parkison (campione 2). La variabile che li interessa è il tempo direazione a un certo stimolo. Le varianze campionarie risultano 1600, per il primo campione,e 1225 per il secondo. Per confrontarle i ricercatori vogliono un intervallo di confidenza al95% per il rapporto
Soluzione
Dati del problema
Dalle tavole della distribuzione di Fishercon (20,15) gradi di libertà
2020Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
Esercizi
• Si sono effettuate 40 misure del tempo di caduta (in centesimi di secondo)di un sasso da una certa altezza al suolo
63 58 74 78 70 74 75 82 68 6976 62 72 88 65 81 79 77 66 7686 72 79 77 60 70 65 69 73 7772 79 65 66 70 74 84 76 80 69
a. Stimare la deviazione standard delle 40 misureb. Calcolare la media delle 4 misure di ciascuna della colonne. Si può pensare aquesti dati come risultanti da 10 esperimenti, in ciascuno dei quali si è trovata lamedia di 4 tempi. Dato il risultato della parte a., cosa vi aspettate per ladeviazione standard delle 10 medie?c. Determinare un intervallo di confidenza al 99% per il tempo medio di cadutadel sasso.
2121Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
• Cinque persone si sono fatte misurare la capacità respiratoria prima edopo un certo trattamento, dando luogo ai seguenti risultati:
Individuo Prima (X) Dopo (Y) VariazioneA 2750 2850 +100B 2360 2380 +20C 2950 2800 -150D 2830 2300 +30E 2250 2300 +50Si costruisca un intervallo di confidenza al 95% per µX - µΨ. Supponendo di aver
campionato da popolazioni normali caratterizzate dalla stessa varianza.
2222Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
• Sedici stazioni meteorologiche, localizzate a caso in uno stato dalclima uniforme, misurano la caduta di pioggia. Nel 1999 registraronouna media di 10 pollici ed una deviazione standard di 1.5 pollici.Costruite, per la caduta media di pioggia nello stato:
– un intervallo di confidenza al 95%– un intervallo di confidenza al 99%
• Date le seguenti caratteristiche di due campioni casuali estratti da duepopolazioni
n1 =25 X1 =60.0 s1 =12n2 =15 X2 =68.0 s2 =10supponendo σ1= σ2 si determini un intervallo di confidenza al 95% per µ1- µ2
2323Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino
•
•