AARHUS UNIVERSITET · AARHUS UNIVERSITET AARHUS UNIVERSITET Maja Tarp. HVEM ER JEG? Maja Tarp, 24 år •Folkeskole i Ulsted i Nordjylland •Student år 2005 fra Dronninglund Gymnasium

AARHUS

UNIVERSITET

AARHUS UNIVERSITET

Maja Tarp

HVEM ER JEG?Maja Tarp, 24 år

• Folkeskole i Ulsted i Nordjylland

• Student år 2005 fra Dronninglund Gymnasium

• Efter gymnasiet:

• Militæret • Australien

• Startede på matematik på Aarhus Universitet i 2007

• Sommeren 2010: BSc i matematik

• Nu: Stud.cand.scient i statistik

STUDIERNES OPBYGNING

Her er jeg

HVORDAN SER EN UGE UD?

JOBMULIGHEDER

Private erhvervsliv – et hav afmuligheder:• Handel• Banker• Konsulent- og rådgivningsvirksomhed• Medicinalindustri• Sundhed

Forskning:• Universiteter• Interesseorganisationer• Private virksomheder

Undervisning:• Gymnasier• Handelsskoler• Seminarer

Ikke Gallup!

Hvorfor statistik?

• Kan ”forudsige” fremtiden

• Kan bruges som beslutningsgrundlag:

• Politik

• Aktiekurser

• Medicinske forsøg

• Risikovurdering

• Spilteori

Statistik og virkeligheden

• I perioden 1960-1970 faldt antallet af fødsler samtidig med at antallet af storkepar i Danmark faldt.

• Drukneulykker og issalg hænger sammen: Når der sælges mange is, er der mange der drukner!

• Bør der investeres mere i rynkecreme? Der er en overdødelighed blandt folk med rynker!

Normalfordeling

Normalfordeling

• Måske den vigtigste fordeling overhovedet.

• Har toppunkt i sin middelværdi, og er symmetrisk fordelt her omkring.

• Model for hvordan et stort antal statistiske elementer fordeler sig omkring deres middelværdi.

Eksempler

• Højde, vægt

• Kvalitetstest

• Blodtryksændring

• IQ

En normalfordelt observation

);(~ σµNX

Vi vil nu betragte en normalfordelt stokastisk variabel:

Hvor µ er middelværdien og σ er standardafvigelsen. Gælder der:

)1;0(~ NX

siges X at være standardnormalfordelt.

En normalfordelt observation

);(~ σµNX

x

σ

Vi betragter altså

Vi beregner ofte som er det bedste gæt på den sande værdi af .

Og som er det bedste gæt man kan komme på den sande værdi af

.

2s

µ

Normalfordelingen, grafisk

• Den normerede normalfordeling, dvs.

• Grafen viser tæthedsfunktionen.

• Areal = 1

)1;0(~ NX

Normalfordelingen, grafisk

• En tilsvarende graf kan laves for enhver normalfordeling

• Samme form som før, blot anden placering.

• Arealet stadig 1.

);(~ σµNX

Fordelingsfunktionen

Lad X være en standardnormalfordelt stokastisk variabel.Fordelingsfunktionen Φ(x) angiver sandsynligheden for, at X er mindreend et tal x, dvs

Φ(x) = Sandsynlighed for X≤x

Dvs. at Φ(x) er en voksende funktion, med værdier mellem 0 og 1.

Eksempler: Fordelingsfunktionen

Vi betragter

altså hvor middelværdien er 30 og spredningen 4.

Bestem fordelingsfunktinen. Dvs.

find sandsynligheden for at ≤ x

To metoder: Antag x=33.

• Bestem sandsynligheden som arealet under grafen for tæthedsfunktionen fra

- til 33.

• Bestem fordelingsfunktionens værdi i 33.

)4;30(~ NX

∞

Eksempel: Fluer og gift

16 fluer udsættes for nervegift, der måles hvor lang tid der går, førfluerne besvimer.

16

15

14

13

12

11

10

9

8

7

6

5

4

3

2

1

Flue nummer i

1.864.9140

1.324.158

1.013.846

0.783.843

0.583.534

0.403.224

0.243.224

0.083.020

-0.082.512

-0.242.310

-0.402.29

-0.582.29

-0.781.97

-1.011.65

-1.321.65

-1.861.13

Φ^(-1) ((i-0.5)/16)Ln(tid)Tid

0 20 40 60 80 100 120 140

-2-1

01

2

tid

N(0,1)-fraktil

Hvis vores målinger er normalfordelte forventer vi at kunne indtegne dem

som en ret linje i fraktilplottet. Dette er ikke tilfældet, men målingerne ser ud

til at de kunne være logaritme fordelt. Derfor tages logaritmen til tiden og vi

indtegner igen.

Målingerne ligger om en pæn ret linje, hvorfor vi kan antage, at logaritmen til

tiden er normalfordelt. Dvs. vi betragter modellen:

1 2 3 4 5

-2-1

01

2

lntid

N(0,1)-fraktil

);(~ σµNX

Vi beregner efterfølgende skøn for standardafvigelsen og middelværdien vha.formlerne:

05.1)16

9.446.142(

15

1)(

1

1

6.1429.4...6.11.1

81.29.4416

11

9.44)9.4...6.11.1(

22

222

1

2

1

=−=−−

=

=+++==

===

=+++==

∑

∑

=

=

n

SUSS

ns

xUSS

Sn

x

xS

n

i

i

n

i

i

En lille gåde…

4 mexicanere har stjålet en ged, og er derfor blevet dømt til døden, ogskal skydes. De får dog en chance for at redde deres liv. De er hverblevet udstyret med en mexicaner hat, og der er 2 hvide og 2 sortehatte. De skal nu blot besvare følgende spørgsmål:

Hvilken farve hat har du selv på?

Hvilke(n) af de 4 mexicanere kan fortælle hvilken farve hat han selv har på???

Gåden…

Situationer:1.

2.

3.

Eksempel: LæseevnerDer betragtes to 3. klasser. Den ene klasse modtager ekstralæsetræning, mens den anden klasse er en kontrolklasse medalmindelig læseundervisning. Efter 8 uger får eleverne en læsetest.

42 43 55 26 62 37 33 41 19 54 20 85 46 10 17 60 53 42 37 42 55 28 48

Kontrol

24 43 71 58 43 49 61 44 67 49 53 56 59 52 62 54 57 33 46 43 57

Træning

TestresultatKlasse

Fraktilplots viser at målinger i hver klasse kan beskrives med ennormalfordeling, dvs:

);(~

);(~

kontrolkontrolkontrol

træningtræningtræning

NX

NX

σµ

σµ

.

Vi ønsker nu at finde estimater for middelværdi og standardafvigelse i hver

af de to klasser.

Først beregnes:

4612348...4342

5806957...4324

955)48...4342(

1081)57...4324(

222

1

2

222

1

2

1

1

=+++==

=+++==

=+++==

=+++==

∑

∑

∑

∑

=

=

=

=

n

i

ikontrol

n

i

itræning

n

i

ikontrol

n

i

itræning

xUSS

xUSS

xS

xS

4612395523Kontrol

58069108121Træning

USSSnKlasse

1.17)23

95546123(

22

1)(

1

1

0.11)21

108158069(

20

1)(

1

1

5.4195523

11

5.51108121

11

22

22

=−=−−

=

=−=−−

=

===

===

n

SUSS

ns

n

SUSS

ns

Sn

x

Sn

x

kontrol

træning

kontrol

træning

Vi ønsker nu at teste hypotesen

kontroltræningH σσ =:

altså et test for samme standardafvigelse i de to klasser.

Dette gøres ved teststørrelsen:

057.0))41.0(1(2))(1(2)(

)22,20()123,121(),(~41.01.17

0.11

)22,20(),(

212

2

2

2

21=−=−=

=−−====

FffFobs

kontrol

træning

FFFxP

FFffFs

sF

Da p-værdien er større end 5 % accepterer vi hypotesen, dvs vi har modellen:

);(~

);(~

σµ

σµ

kontrolkontrol

træningtræning

NX

NX

Den fælles standardafvigelse kan estimeres ved:

6.142220

1.172211020 22

22

=+

⋅+⋅=

+

+=

kontroltræning

kontrolkontroltræningtræning

ff

sfsfs

Vi ønsker nu at teste hypotesen

kontroltræningH µµ =:

altså et test for samme middelværdi i de to klasser. Dvs. et test for om den

ekstra læsetræning har en effekt.

Dette gøres ved teststørrelsen:

027.0))27.2(1(2)))((1(2)(

)42()2()(~

27.2

)23

1

21

1(6.14

5.415.51

)11

(

)(

)42()(

22

=−=−=

=−+=

=

+

−=

+

−=

tftobs

kontroltræning

kontroltræning

kontroltræning

FxtFxP

tnntft

nns

xxxt

);(~

);(~

kontrolkontrolkontrol

træningtræningtræning

NX

NX

σµ

σµ

Da p-værdien er mindre end 5 % forkaster vi hypotesen om ens

middelværdier. Dvs den ekstra læsetræning har en effekt.

Da vi kun lige nøjagtig fik accept af hypotesen om ens standardafvigelser,

ønsker vi også at teste hypotesen om ens middelværdier i modellen med

forskellige standardafvigelser:

9.37

)123/()23

1.17()121/()

21

110(

)23

1.17

21

110(

)1/()()1/()(

)(~

)~(~31.2

23

1.17

21

110

5.415.51)(

:

22

22

222

2

2

2

2

2

22

2222

=

−+−

+=

−+−

+

=

=

+

−=

+

−=

=

kontrol

kontrol

kontroltræning

træning

træning

kontrol

kontrol

træning

træning

kontrol

kontrol

træning

træning

kontroltræning

kontroltræning

nn

sn

n

s

n

s

n

s

f

ft

n

s

n

s

xxxt

H µµ

Dvs. vi tester hypotesen:

026.0))31.2(1(2)))((1(2)( )9.37()~(

=−=−= tftobs FxtFxP

Dvs. vi også får forkastelse af hypotesen om ens middelværdier i denne

model.

Konklusionen bliver altså i dette tilfælde det samme, men vi bemærker at

idet vi får to forskellige testværdier, kunne vi godt have fået accept i den

ene model frem for den anden.

Eksempel: Allergiske reaktioner

17.25.427Placebo

27.319.523Modgift

snGruppe x

Der betragtes 50 personer med pollenallergi. 23 behandles med enmodgift man vil teste effekten af, mens de resterende 27 får etmedikament, man ved ikke har nogen effekt (placebo). Vi betragtermodellen:

);(~

);(~ modmodmod

placeboplaceboplacebo

giftgiftgift

NX

NX

σµ

σµ

Det oplyses at:

024.0))54.2(1(2

))(1(2)(

)26,22()127,123(),(~

54.21.17

3.27

:

)26,22(

),(

21

2

2

2

2

mod

mod

21

=−=

−=

=−−=

===

=

F

ffFobs

placebo

gift

placebogift

F

FFxP

FFffF

s

sF

H σσ

Vi vil først teste hypotesen om ens standardafvigelse:

Dvs vi får forkastelse af hypotesen om ens standardafvigelse.

)()11

()()11

( 975.0

21

2

2121975.0

21

2

21 ftnn

sxxftnn

sxx ++−≤−≤+−− µµ

Havde vi fået accept af hypotesen om ens standardafvigelser ville vi et 95%

konfidensinterval for forskellen mellem middelværdierne være:

Når standardafvigelserne ikke er ens bliver konfidensintervallet i stedet:

)~(

)~(

975.0

2

mod

2

modmod

mod975.0

2

mod

2

modmod

ftn

s

n

sxx

ftn

s

n

sxx

placebo

placebo

gift

giftplacebogift

placebogift

placebo

placebo

gift

giftplacebogift

++−≤

−≤+−− µµ

8.35

)127/()27

1.17()123/()

23

3.27(

)27

1.17

23

3.27(

)1/()()1/()(

)(~

22

22

222

2

2

mod

2

mod

2

mod

2

2

mod

2

mod

=

−+−

+=

−+−

+

=

placebo

placebo

placebo

gift

gift

gift

placebo

placebo

gift

gift

nn

sn

n

s

n

s

n

s

f

Vi bestemmer først:

5.2777.0

03.227

1.17

23

3.271.173.2703.2

27

1.17

23

3.271.173.27

mod

22

mod

22

≤−≤⇒

+−−≤−≤+−−

placebogift

placebogift

µµ

µµ

Hvormed et 95% konfidensinterval for forskellen mellem middelværdierne

er givet ved:

Vi bemærker, at 0 ikke ligger i konfidensintervallet.

038.0))14.2(1(2)))((1(2)(

)8.35()~(~

14.2

27

1.17

23

3.27

4.55.19)(

:

)8.35()~(

222

mod

2

mod

mod

mod

=−=−=

=

=

+

−=

+

−=

=

tftobs

placebo

placebo

gift

gift

placebogift

placebogift

FxtFxP

tft

n

s

n

s

xxxt

H µµ

Vi ønsker til slut at teste om de to middelværdier kan antages at være ens:

Det vil sige vi forkaster hypotesen. Det er i overensstemmelse med 0 ikke

er i konfidensintervallet fra før og betyder behandlingen har en effekt.

Hvorfor er det godt at kunne

sin statistik???

TV-quiz

Antag, at du medvirker i et tv-program, og du får givet muligheden for at vælge mellem tre døre:

Bag en af dørene er der en bil; bag de to andre en ged.

Du vælger en dør, lad os sige nr. 1, og tv-værten, som ved, hvad der er bag dørene, åbner en anden dør, lad os sige nr. 3, bag hvilken der befinder sig en ged.

Han spørger dig nu:

"Vil du hellere vælge dør nr. 2?"

Er det nu en fordel af vælge om?

Sandsynligheden for at man vælger døren med bilen ved det første valg er

1/3, hvilket også vil være chancen for at vinde bilen, hvis man holder fast

på sit første valg.

På den anden side er sandsynligheden for at vælge en dør, som skjuler en

ged 2/3, og en spiller, som oprindeligt har valgt en ged, vinder bilen ved at

vælge om.

Vi har altså 3 mulige udfald

1.

2.

3.

I to ud af tre tilfælde kan det betale sig at skifte dør, og i et ud af tre

tilfælde kan det ikke betale sig.

Ens chance for at vinde fordobles altså ved at vælge om, når spilstyreren

tilbyder det.

Løsningen ville være anderledes, hvis tv-værten ikke vidste, hvad der var

gemt bag de forskellige døre, eller hvis tv-værten havde muligheden for

ikke at tilbyde spilleren at vælge om.

Er mænd klogere end kvinder?

Professor i psykologi ved Aarhus Universitet, Helmuth Nyborg påstod at

have opdaget mænd gennemsnitligt er 27 % klogere end kvinder.

Senere opdagede han en regnefejl, så forskellen kun var 5 %...

Men kan dette resultat være rigtigt?

Problemer med Nyborgs resultat:

- Lille datamateriale (52 personer)

- Hvordan er disse udvalgt

- Hvordan måles intelligensen?

- Statistisk metode

Nyborg modellerede hvert køns intelligens ved en normalfordeling.

Han anvendte et test, der ikke gav mulighed for kvinder kunne være

klogere end mænd.

Havde han i stedet anvendt et ganske almindeligt t-test for at

middelværdien var den samme i de to grupper (de to køn), ville han have

fået accept.

Men der er flere problemer…

Nyborg hævdede:

”for hver kvinde med en IQ på over 145 vil der være 122 mænd”

Er Nyborgs 52 testpersoner repræsentative (og ellers giver undersøgelsen

ingen mening!) må de fleste ligge nær middelværdien.

Et så lille datasæt kan derfor ikke sige noget om hvordan fordelingen er i de

mere ekstreme tilfælde.

”Statistiker på prøve”• Ansat ved Klinisk Epidemiologisk Afdeling (KEA)

• Undersøge patient-populationers prognose

• Adgang til:• CPR-registret

• Receptdatabase

• Operationsdatabase

• Cancerregister

• Fødsels- og dødsregister

”Statistiker på prøve”

•Immunforsvarets rolle i forbindelse med brystkræft-recidiv

•Herpes Zoster og kræft?

•Spørgsmål og kommentarer

•Tak for i dag

Documents

AARHUS UNIVERSITET · AARHUS UNIVERSITET AARHUS UNIVERSITET Maja Tarp. HVEM ER JEG? Maja Tarp, 24 år •Folkeskole i Ulsted i Nordjylland •Student år 2005 fra Dronninglund Gymnasium