Transcript
Page 1: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

Introduksjon til dataanalyseDeskriptiv statistikk

www.ntnu.no , Introduksjon til dataanalyse

Page 2: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

2

Kapittel 1

Denne timen og delvis forrige time er inspirert av Kapittel 1, men vikommer ikke til å gå igjennom alt fra dette kapittelet i forelesning.Siden Kapittel 1 er pensum er det viktig at dere leser resten selv.

Denne forelesningen vil bruke slides, men forelesningen i morgenog de etterfølgende forelesningene vil for det meste væretavleforelesninger.

www.ntnu.no , Introduksjon til dataanalyse

Page 3: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

3

Datasett

Vi skal se på to datasett frahttp://www.math.hope.edu/swanson/statlabs/data.html:

1. Høyde til 50 mannlige og 50 kvinnlige studenter gitt i meter2. Kroppstemperatur for 65 menn og 65 kvinner gitt i grader

Celsius

Vi ønsker å finne ut om det er en forskjell mellom høyden ogkroppstemperaturen til kvinner og menn

www.ntnu.no , Introduksjon til dataanalyse

Page 4: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

3

Datasett

Vi skal se på to datasett frahttp://www.math.hope.edu/swanson/statlabs/data.html:

1. Høyde til 50 mannlige og 50 kvinnlige studenter gitt i meter2. Kroppstemperatur for 65 menn og 65 kvinner gitt i grader

Celsius

Vi ønsker å finne ut om det er en forskjell mellom høyden ogkroppstemperaturen til kvinner og menn

www.ntnu.no , Introduksjon til dataanalyse

Page 5: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

4

Hvor begynner man?

Datasettene er for store til å bare skrive ut tallene for menn og forkvinner og sammenligne dem, men vi kan— Regne ut tall som beskriver sentrene til de observerte

verdiene for menn og kvinner— Regne ut tall som beskriver spredningene til de observerte

verdiene for menn og kvinner— Lage plott som viser hvordan de observerte verdiene er spredt

i forhold til hverandre

Dette er metoder for å beskrive de observerte verdiene og bruk avdisse kalles deskriptiv statistikk

www.ntnu.no , Introduksjon til dataanalyse

Page 6: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

4

Hvor begynner man?

Datasettene er for store til å bare skrive ut tallene for menn og forkvinner og sammenligne dem, men vi kan— Regne ut tall som beskriver sentrene til de observerte

verdiene for menn og kvinner— Regne ut tall som beskriver spredningene til de observerte

verdiene for menn og kvinner— Lage plott som viser hvordan de observerte verdiene er spredt

i forhold til hverandre

Dette er metoder for å beskrive de observerte verdiene og bruk avdisse kalles deskriptiv statistikk

www.ntnu.no , Introduksjon til dataanalyse

Page 7: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

5

Deskriptiv statistikk

Deskriptiv statistikk er metoder for å beskrive eller oppsummere deobserverte verdiene på en slik måte at man kan se mønstre. Typiskgjennom enkle grafiske presentasjoner eller ved utregning av tallsom oppsummerer de observerte verdiene slik som middelverdi ogspredning.

www.ntnu.no , Introduksjon til dataanalyse

Page 8: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

6

KryssplottEt enkelt startpunkt er å plotte verdiene for hvert av kjønnene ogsammenligne

Kjønn0.5 1 1.5 2 2.5

Høyd

e (

m)

1.5

1.6

1.7

1.8

1.9

2

2.1Kryssplott for høyde

Kjønn0.5 1 1.5 2 2.5

Kro

pp

ste

mp

era

tur

(C)

35.5

36

36.5

37

37.5

38

38.5Kryssplott for kroppstemperatur

www.ntnu.no , Introduksjon til dataanalyse

Page 9: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

7

Sentralmål

Den vanligste måten å oppgi senteret til de observerte verdiene erå regne ut den empiriske middelverdien

Definisjon (Empirisk middelverdi)

Den empiriske middelverdien (utfallsmiddelverdien) tilobservasjonene x1, x2, . . . , xn

, betegnet med x̄ , er gitt ved

x̄ =x1 + x2 + . . .+ x

n

n

=nX

i=1

x

i

n

www.ntnu.no , Introduksjon til dataanalyse

Page 10: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

8

Eksempler

— Empirisk middelverdi til 1, 2, 3, 4, 5 er 3— Empirisk middelverdi til 1, 1, 1, 2, 2, 2 er 1.5— Empirisk middelverdi til 1, 2, 3, 4, 20 er 6

www.ntnu.no , Introduksjon til dataanalyse

Page 11: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

9

Sentralmål som unngår ekstremeobservasjoner

Hvis det er ekstreme observasjoner som har sterk påvirkning påden empiriske middelverdien er empirisk median et bedre mål påsenteret av de observerte verdiene

Definisjon (Empirisk median)

Den empiriske medianen (utfallsmedianen) til observasjonenex1, x2, . . . , xn

, betegnet med x̃ , er gitt ved

x̃ =

(x(n+1)/2, for n odde,12

�x

n/2 + x

n/2+1�, for n like,

www.ntnu.no , Introduksjon til dataanalyse

Page 12: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

10

Eksempler

— Empirisk median til 1, 2, 3, 4, 5 er 3— Empirisk median til 1, 1, 1, 2, 2, 2 er 1.5— Empirisk median til 1, 2, 3, 4, 20 er 3

www.ntnu.no , Introduksjon til dataanalyse

Page 13: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

11

Sammenligning av sentrene

Høyde KroppstemperaturSentralmål Kvinne Mann Kvinne MannEmpirisk middelverdi 1.687 1.840 36.72 36.89Empirisk median 1.702 1.842 36.72 36.89

Empirisk middelverdi er høyre for menn enn for kvinner for bådehøyde og kroppstemperatur, men er det nok til å hevde at detfaktisk er en forskjell?

www.ntnu.no , Introduksjon til dataanalyse

Page 14: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

11

Sammenligning av sentrene

Høyde KroppstemperaturSentralmål Kvinne Mann Kvinne MannEmpirisk middelverdi 1.687 1.840 36.72 36.89Empirisk median 1.702 1.842 36.72 36.89

Empirisk middelverdi er høyre for menn enn for kvinner for bådehøyde og kroppstemperatur, men er det nok til å hevde at detfaktisk er en forskjell?

www.ntnu.no , Introduksjon til dataanalyse

Page 15: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

12

Middelverdi og median forteller ikke helehistorien

Kjønn0.5 1 1.5 2 2.5

Høyd

e (

m)

1.5

1.6

1.7

1.8

1.9

2

2.1Kryssplott for høyde

Kjønn0.5 1 1.5 2 2.5

Kro

pp

ste

mp

era

tur

(C)

35.5

36

36.5

37

37.5

38

38.5Kryssplott for kroppstemperatur

Empiriske middelverdier er markerte med horisontale streker

www.ntnu.no , Introduksjon til dataanalyse

Page 16: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

13

Variabilitet om middelverdien

Vi må også vurdere variabilitetene til de observerte verdiene for åkunne trekke konklusjoner om forskjeller for menn og kvinner

For høyde ser forskjellen ut til å være stor sammenlignet medvariabiliten, men for kroppstemperatur ser forskjellen ut til å væreliten sammenlignet med variabiliteten

Men vi er nødt til å tallfeste forskjellene!

www.ntnu.no , Introduksjon til dataanalyse

Page 17: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

13

Variabilitet om middelverdien

Vi må også vurdere variabilitetene til de observerte verdiene for åkunne trekke konklusjoner om forskjeller for menn og kvinner

For høyde ser forskjellen ut til å være stor sammenlignet medvariabiliten, men for kroppstemperatur ser forskjellen ut til å væreliten sammenlignet med variabiliteten

Men vi er nødt til å tallfeste forskjellene!

www.ntnu.no , Introduksjon til dataanalyse

Page 18: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

13

Variabilitet om middelverdien

Vi må også vurdere variabilitetene til de observerte verdiene for åkunne trekke konklusjoner om forskjeller for menn og kvinner

For høyde ser forskjellen ut til å være stor sammenlignet medvariabiliten, men for kroppstemperatur ser forskjellen ut til å væreliten sammenlignet med variabiliteten

Men vi er nødt til å tallfeste forskjellene!

www.ntnu.no , Introduksjon til dataanalyse

Page 19: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

14

Mål på variabilitet

Det mest vanlige målet på variabilitet er empirisk varians

Definisjon (Empirisk varians)

Den empiriske variansen (utfallsvariansen) til observasjonenex1, x2, . . . , xn

, betegnet med s

2, er gitt ved

s

2 =1

n � 1[(x1� x̄)2+(x2� x̄)2+. . .+(x

n

� x̄)2] =1

n � 1

nX

i=1

(xi

� x̄)2

www.ntnu.no , Introduksjon til dataanalyse

Page 20: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

15

Eksempler

— Empirisk varians til 1, 2, 3, 4, 5 er 2.5— Empirisk varians til 1, 1, 1, 2, 2, 2 er 0.3— Empirisk varians til 1, 2, 3, 4, 20 er 62.5

www.ntnu.no , Introduksjon til dataanalyse

Page 21: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

16

Mål på variasjon

Empirisk varians kan være vanskelig å tolke fordi den er uttrykt ikvadratiske enheter. Empirisk standardavvik er uttrykt i sammeenheter som dataene.

Definisjon (Empirisk standardavvik)

Det empiriske standardavviket (utfallsstandardavviket) tilobservasjonene x1, x2, . . . , xn

, betegnet med s, er gitt ved

s =p

s

2 =

vuut 1n � 1

nX

i=1

(xi

� x̄)2

www.ntnu.no , Introduksjon til dataanalyse

Page 22: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

17

Eksempler

— Empirisk standardavvik til 1, 2, 3, 4, 5 er 1.58— Empirisk standardavvik til 1, 1, 1, 2, 2, 2 er 0.548— Empirisk standardavvik til 1, 2, 3, 4, 20 er 7.91

www.ntnu.no , Introduksjon til dataanalyse

Page 23: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

18

Sammenligning av menn og kvinner

Høyde KroppstemperaturKvinne Mann Kvinne Mann

Empirisk middelverdi 1.687 1.840 36.72 36.89Empirisk standardavvik 0.074 0.068 0.39 0.41

Forskjellen i kroppstemperatur er mindre enn ett standardavvik,men forskjellen i høyde er større enn to standardavvik

www.ntnu.no , Introduksjon til dataanalyse

Page 24: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

18

Sammenligning av menn og kvinner

Høyde KroppstemperaturKvinne Mann Kvinne Mann

Empirisk middelverdi 1.687 1.840 36.72 36.89Empirisk standardavvik 0.074 0.068 0.39 0.41

Forskjellen i kroppstemperatur er mindre enn ett standardavvik,men forskjellen i høyde er større enn to standardavvik

www.ntnu.no , Introduksjon til dataanalyse

Page 25: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

19

Sentrum og variabilitet

Kjønn0.5 1 1.5 2 2.5

Høyd

e (

m)

1.5

1.6

1.7

1.8

1.9

2

2.1Kryssplott for høyde

Kjønn0.5 1 1.5 2 2.5

Kro

pp

ste

mp

era

tur

(C)

35.5

36

36.5

37

37.5

38

38.5Kryssplott for kroppstemperatur

Empiriske middelverdier er markerte med horisontale streker og ±ett empirisk standardavvik er markerte med stiplede horisontalelinjer

www.ntnu.no , Introduksjon til dataanalyse

Page 26: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

20

Boksplott

Denne sammenligningen gjøres bedre i et boksplott

Kjønn1 2

Høyd

e (

m)

1.5

1.6

1.7

1.8

1.9

2

Boksplott for høyde

Kjønn1 2

Kro

ppst

em

pera

tur

(C)

36

36.5

37

37.5

38

Boksplott for kroppstemperatur

www.ntnu.no , Introduksjon til dataanalyse

Page 27: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

21

HistogramHvis man ønsker å se hvordan de observerte verdiene er spredtrundt middelverdien for en av kategoriene er det vanlige å bruke ethistogram

Høyde (m)1.7 1.8 1.9 2

Rela

tiv fre

kvens

0

0.05

0.1

0.15

0.2

0.25

0.3Høyde av menn

www.ntnu.no , Introduksjon til dataanalyse

Page 28: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

22

Mangler ved deskriptiv statistikk

— Ingen bruk av sannsynlighet. Vi har ingen tall på hvor sikker vier på at menn er høyere enn kvinner.

— Veldig subjektivt om man anser det for å være en forskjell ellerikke

— Deskriptiv statistikk egner seg best som et startpunkt for åutforske de observerte verdiene

I morgen begynner vi reisen mot statistisk inferens hvor vigjennom sannsynlighetsteori kan tallfeste vår sikkerhet tilkonklusjonene vi gjør

www.ntnu.no , Introduksjon til dataanalyse

Page 29: Introduksjon til dataanalyse · 5 Deskriptiv statistikk Deskriptiv statistikk er metoder for å beskrive eller oppsummere de observerte verdiene på en slik måte at man kan se mønstre

22

Mangler ved deskriptiv statistikk

— Ingen bruk av sannsynlighet. Vi har ingen tall på hvor sikker vier på at menn er høyere enn kvinner.

— Veldig subjektivt om man anser det for å være en forskjell ellerikke

— Deskriptiv statistikk egner seg best som et startpunkt for åutforske de observerte verdiene

I morgen begynner vi reisen mot statistisk inferens hvor vigjennom sannsynlighetsteori kan tallfeste vår sikkerhet tilkonklusjonene vi gjør

www.ntnu.no , Introduksjon til dataanalyse