Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
AARHUS
UNIVERSITET
AARHUS UNIVERSITET
Maja Tarp
HVEM ER JEG?Maja Tarp, 24 år
• Folkeskole i Ulsted i Nordjylland
• Student år 2005 fra Dronninglund Gymnasium
• Efter gymnasiet:
• Militæret • Australien
• Startede på matematik på Aarhus Universitet i 2007
• Sommeren 2010: BSc i matematik
• Nu: Stud.cand.scient i statistik
STUDIERNES OPBYGNING
Her er jeg
HVORDAN SER EN UGE UD?
JOBMULIGHEDER
Private erhvervsliv – et hav afmuligheder:• Handel• Banker• Konsulent- og rådgivningsvirksomhed• Medicinalindustri• Sundhed
Forskning:• Universiteter• Interesseorganisationer• Private virksomheder
Undervisning:• Gymnasier• Handelsskoler• Seminarer
Ikke Gallup!
Hvorfor statistik?
• Kan ”forudsige” fremtiden
• Kan bruges som beslutningsgrundlag:
• Politik
• Aktiekurser
• Medicinske forsøg
• Risikovurdering
• Spilteori
Statistik og virkeligheden
• I perioden 1960-1970 faldt antallet af fødsler samtidig med at antallet af storkepar i Danmark faldt.
• Drukneulykker og issalg hænger sammen: Når der sælges mange is, er der mange der drukner!
• Bør der investeres mere i rynkecreme? Der er en overdødelighed blandt folk med rynker!
Normalfordeling
Normalfordeling
• Måske den vigtigste fordeling overhovedet.
• Har toppunkt i sin middelværdi, og er symmetrisk fordelt her omkring.
• Model for hvordan et stort antal statistiske elementer fordeler sig omkring deres middelværdi.
Eksempler
• Højde, vægt
• Kvalitetstest
• Blodtryksændring
• IQ
En normalfordelt observation
);(~ σµNX
Vi vil nu betragte en normalfordelt stokastisk variabel:
Hvor µ er middelværdien og σ er standardafvigelsen. Gælder der:
)1;0(~ NX
siges X at være standardnormalfordelt.
En normalfordelt observation
);(~ σµNX
x
σ
Vi betragter altså
Vi beregner ofte som er det bedste gæt på den sande værdi af .
Og som er det bedste gæt man kan komme på den sande værdi af
.
2s
µ
Normalfordelingen, grafisk
• Den normerede normalfordeling, dvs.
• Grafen viser tæthedsfunktionen.
• Areal = 1
)1;0(~ NX
Normalfordelingen, grafisk
• En tilsvarende graf kan laves for enhver normalfordeling
• Samme form som før, blot anden placering.
• Arealet stadig 1.
);(~ σµNX
Fordelingsfunktionen
Lad X være en standardnormalfordelt stokastisk variabel.Fordelingsfunktionen Φ(x) angiver sandsynligheden for, at X er mindreend et tal x, dvs
Φ(x) = Sandsynlighed for X≤x
Dvs. at Φ(x) er en voksende funktion, med værdier mellem 0 og 1.
Eksempler: Fordelingsfunktionen
Vi betragter
altså hvor middelværdien er 30 og spredningen 4.
Bestem fordelingsfunktinen. Dvs.
find sandsynligheden for at ≤ x
To metoder: Antag x=33.
• Bestem sandsynligheden som arealet under grafen for tæthedsfunktionen fra
- til 33.
• Bestem fordelingsfunktionens værdi i 33.
)4;30(~ NX
∞
Eksempel: Fluer og gift
16 fluer udsættes for nervegift, der måles hvor lang tid der går, førfluerne besvimer.
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Flue nummer i
1.864.9140
1.324.158
1.013.846
0.783.843
0.583.534
0.403.224
0.243.224
0.083.020
-0.082.512
-0.242.310
-0.402.29
-0.582.29
-0.781.97
-1.011.65
-1.321.65
-1.861.13
Φ^(-1) ((i-0.5)/16)Ln(tid)Tid
0 20 40 60 80 100 120 140
-2-1
01
2
tid
N(0,1)-fraktil
Hvis vores målinger er normalfordelte forventer vi at kunne indtegne dem
som en ret linje i fraktilplottet. Dette er ikke tilfældet, men målingerne ser ud
til at de kunne være logaritme fordelt. Derfor tages logaritmen til tiden og vi
indtegner igen.
Målingerne ligger om en pæn ret linje, hvorfor vi kan antage, at logaritmen til
tiden er normalfordelt. Dvs. vi betragter modellen:
1 2 3 4 5
-2-1
01
2
lntid
N(0,1)-fraktil
);(~ σµNX
Vi beregner efterfølgende skøn for standardafvigelsen og middelværdien vha.formlerne:
05.1)16
9.446.142(
15
1)(
1
1
6.1429.4...6.11.1
81.29.4416
11
9.44)9.4...6.11.1(
22
222
1
2
1
=−=−−
=
=+++==
===
=+++==
∑
∑
=
=
n
SUSS
ns
xUSS
Sn
x
xS
n
i
i
n
i
i
En lille gåde…
4 mexicanere har stjålet en ged, og er derfor blevet dømt til døden, ogskal skydes. De får dog en chance for at redde deres liv. De er hverblevet udstyret med en mexicaner hat, og der er 2 hvide og 2 sortehatte. De skal nu blot besvare følgende spørgsmål:
Hvilken farve hat har du selv på?
Hvilke(n) af de 4 mexicanere kan fortælle hvilken farve hat han selv har på???
Gåden…
Situationer:1.
2.
3.
Eksempel: LæseevnerDer betragtes to 3. klasser. Den ene klasse modtager ekstralæsetræning, mens den anden klasse er en kontrolklasse medalmindelig læseundervisning. Efter 8 uger får eleverne en læsetest.
42 43 55 26 62 37 33 41 19 54 20 85 46 10 17 60 53 42 37 42 55 28 48
Kontrol
24 43 71 58 43 49 61 44 67 49 53 56 59 52 62 54 57 33 46 43 57
Træning
TestresultatKlasse
Fraktilplots viser at målinger i hver klasse kan beskrives med ennormalfordeling, dvs:
);(~
);(~
kontrolkontrolkontrol
træningtræningtræning
NX
NX
σµ
σµ
.
Vi ønsker nu at finde estimater for middelværdi og standardafvigelse i hver
af de to klasser.
Først beregnes:
4612348...4342
5806957...4324
955)48...4342(
1081)57...4324(
222
1
2
222
1
2
1
1
=+++==
=+++==
=+++==
=+++==
∑
∑
∑
∑
=
=
=
=
n
i
ikontrol
n
i
itræning
n
i
ikontrol
n
i
itræning
xUSS
xUSS
xS
xS
4612395523Kontrol
58069108121Træning
USSSnKlasse
1.17)23
95546123(
22
1)(
1
1
0.11)21
108158069(
20
1)(
1
1
5.4195523
11
5.51108121
11
22
22
=−=−−
=
=−=−−
=
===
===
n
SUSS
ns
n
SUSS
ns
Sn
x
Sn
x
kontrol
træning
kontrol
træning
Vi ønsker nu at teste hypotesen
kontroltræningH σσ =:
altså et test for samme standardafvigelse i de to klasser.
Dette gøres ved teststørrelsen:
057.0))41.0(1(2))(1(2)(
)22,20()123,121(),(~41.01.17
0.11
)22,20(),(
212
2
2
2
21=−=−=
=−−====
FffFobs
kontrol
træning
FFFxP
FFffFs
sF
Da p-værdien er større end 5 % accepterer vi hypotesen, dvs vi har modellen:
);(~
);(~
σµ
σµ
kontrolkontrol
træningtræning
NX
NX
Den fælles standardafvigelse kan estimeres ved:
6.142220
1.172211020 22
22
=+
⋅+⋅=
+
+=
kontroltræning
kontrolkontroltræningtræning
ff
sfsfs
Vi ønsker nu at teste hypotesen
kontroltræningH µµ =:
altså et test for samme middelværdi i de to klasser. Dvs. et test for om den
ekstra læsetræning har en effekt.
Dette gøres ved teststørrelsen:
027.0))27.2(1(2)))((1(2)(
)42()2()(~
27.2
)23
1
21
1(6.14
5.415.51
)11
(
)(
)42()(
22
=−=−=
=−+=
=
+
−=
+
−=
tftobs
kontroltræning
kontroltræning
kontroltræning
FxtFxP
tnntft
nns
xxxt
);(~
);(~
kontrolkontrolkontrol
træningtræningtræning
NX
NX
σµ
σµ
Da p-værdien er mindre end 5 % forkaster vi hypotesen om ens
middelværdier. Dvs den ekstra læsetræning har en effekt.
Da vi kun lige nøjagtig fik accept af hypotesen om ens standardafvigelser,
ønsker vi også at teste hypotesen om ens middelværdier i modellen med
forskellige standardafvigelser:
9.37
)123/()23
1.17()121/()
21
110(
)23
1.17
21
110(
)1/()()1/()(
)(~
)~(~31.2
23
1.17
21
110
5.415.51)(
:
22
22
222
2
2
2
2
2
22
2222
=
−+−
+=
−+−
+
=
=
+
−=
+
−=
=
kontrol
kontrol
kontroltræning
træning
træning
kontrol
kontrol
træning
træning
kontrol
kontrol
træning
træning
kontroltræning
kontroltræning
nn
sn
n
s
n
s
n
s
f
ft
n
s
n
s
xxxt
H µµ
Dvs. vi tester hypotesen:
026.0))31.2(1(2)))((1(2)( )9.37()~(
=−=−= tftobs FxtFxP
Dvs. vi også får forkastelse af hypotesen om ens middelværdier i denne
model.
Konklusionen bliver altså i dette tilfælde det samme, men vi bemærker at
idet vi får to forskellige testværdier, kunne vi godt have fået accept i den
ene model frem for den anden.
Eksempel: Allergiske reaktioner
17.25.427Placebo
27.319.523Modgift
snGruppe x
Der betragtes 50 personer med pollenallergi. 23 behandles med enmodgift man vil teste effekten af, mens de resterende 27 får etmedikament, man ved ikke har nogen effekt (placebo). Vi betragtermodellen:
);(~
);(~ modmodmod
placeboplaceboplacebo
giftgiftgift
NX
NX
σµ
σµ
Det oplyses at:
024.0))54.2(1(2
))(1(2)(
)26,22()127,123(),(~
54.21.17
3.27
:
)26,22(
),(
21
2
2
2
2
mod
mod
21
=−=
−=
=−−=
===
=
F
ffFobs
placebo
gift
placebogift
F
FFxP
FFffF
s
sF
H σσ
Vi vil først teste hypotesen om ens standardafvigelse:
Dvs vi får forkastelse af hypotesen om ens standardafvigelse.
)()11
()()11
( 975.0
21
2
2121975.0
21
2
21 ftnn
sxxftnn
sxx ++−≤−≤+−− µµ
Havde vi fået accept af hypotesen om ens standardafvigelser ville vi et 95%
konfidensinterval for forskellen mellem middelværdierne være:
Når standardafvigelserne ikke er ens bliver konfidensintervallet i stedet:
)~(
)~(
975.0
2
mod
2
modmod
mod975.0
2
mod
2
modmod
ftn
s
n
sxx
ftn
s
n
sxx
placebo
placebo
gift
giftplacebogift
placebogift
placebo
placebo
gift
giftplacebogift
++−≤
−≤+−− µµ
8.35
)127/()27
1.17()123/()
23
3.27(
)27
1.17
23
3.27(
)1/()()1/()(
)(~
22
22
222
2
2
mod
2
mod
2
mod
2
2
mod
2
mod
=
−+−
+=
−+−
+
=
placebo
placebo
placebo
gift
gift
gift
placebo
placebo
gift
gift
nn
sn
n
s
n
s
n
s
f
Vi bestemmer først:
5.2777.0
03.227
1.17
23
3.271.173.2703.2
27
1.17
23
3.271.173.27
mod
22
mod
22
≤−≤⇒
+−−≤−≤+−−
placebogift
placebogift
µµ
µµ
Hvormed et 95% konfidensinterval for forskellen mellem middelværdierne
er givet ved:
Vi bemærker, at 0 ikke ligger i konfidensintervallet.
038.0))14.2(1(2)))((1(2)(
)8.35()~(~
14.2
27
1.17
23
3.27
4.55.19)(
:
)8.35()~(
222
mod
2
mod
mod
mod
=−=−=
=
=
+
−=
+
−=
=
tftobs
placebo
placebo
gift
gift
placebogift
placebogift
FxtFxP
tft
n
s
n
s
xxxt
H µµ
Vi ønsker til slut at teste om de to middelværdier kan antages at være ens:
Det vil sige vi forkaster hypotesen. Det er i overensstemmelse med 0 ikke
er i konfidensintervallet fra før og betyder behandlingen har en effekt.
Hvorfor er det godt at kunne
sin statistik???
TV-quiz
Antag, at du medvirker i et tv-program, og du får givet muligheden for at vælge mellem tre døre:
Bag en af dørene er der en bil; bag de to andre en ged.
Du vælger en dør, lad os sige nr. 1, og tv-værten, som ved, hvad der er bag dørene, åbner en anden dør, lad os sige nr. 3, bag hvilken der befinder sig en ged.
Han spørger dig nu:
"Vil du hellere vælge dør nr. 2?"
Er det nu en fordel af vælge om?
Sandsynligheden for at man vælger døren med bilen ved det første valg er
1/3, hvilket også vil være chancen for at vinde bilen, hvis man holder fast
på sit første valg.
På den anden side er sandsynligheden for at vælge en dør, som skjuler en
ged 2/3, og en spiller, som oprindeligt har valgt en ged, vinder bilen ved at
vælge om.
Vi har altså 3 mulige udfald
1.
2.
3.
I to ud af tre tilfælde kan det betale sig at skifte dør, og i et ud af tre
tilfælde kan det ikke betale sig.
Ens chance for at vinde fordobles altså ved at vælge om, når spilstyreren
tilbyder det.
Løsningen ville være anderledes, hvis tv-værten ikke vidste, hvad der var
gemt bag de forskellige døre, eller hvis tv-værten havde muligheden for
ikke at tilbyde spilleren at vælge om.
Er mænd klogere end kvinder?
Professor i psykologi ved Aarhus Universitet, Helmuth Nyborg påstod at
have opdaget mænd gennemsnitligt er 27 % klogere end kvinder.
Senere opdagede han en regnefejl, så forskellen kun var 5 %...
Men kan dette resultat være rigtigt?
Problemer med Nyborgs resultat:
- Lille datamateriale (52 personer)
- Hvordan er disse udvalgt
- Hvordan måles intelligensen?
- Statistisk metode
Nyborg modellerede hvert køns intelligens ved en normalfordeling.
Han anvendte et test, der ikke gav mulighed for kvinder kunne være
klogere end mænd.
Havde han i stedet anvendt et ganske almindeligt t-test for at
middelværdien var den samme i de to grupper (de to køn), ville han have
fået accept.
Men der er flere problemer…
Nyborg hævdede:
”for hver kvinde med en IQ på over 145 vil der være 122 mænd”
Er Nyborgs 52 testpersoner repræsentative (og ellers giver undersøgelsen
ingen mening!) må de fleste ligge nær middelværdien.
Et så lille datasæt kan derfor ikke sige noget om hvordan fordelingen er i de
mere ekstreme tilfælde.
”Statistiker på prøve”• Ansat ved Klinisk Epidemiologisk Afdeling (KEA)
• Undersøge patient-populationers prognose
• Adgang til:• CPR-registret
• Receptdatabase
• Operationsdatabase
• Cancerregister
• Fødsels- og dødsregister
”Statistiker på prøve”
•Immunforsvarets rolle i forbindelse med brystkræft-recidiv
•Herpes Zoster og kræft?
•Spørgsmål og kommentarer
•Tak for i dag