Varför statistik -...

Preview:

Citation preview

Varför statistik

Vi vill sammanfatta stora mängder av data i syfte att:

• Kvantitativt beskriva fenomen• Undersöka samband mellan variabler• Undersöka skillnader mellan grupper i något

avseende• Undersöka skillnader inom gruppen

Population

Stickprov

Observationsenhet

Variabel Värden

Ålder 37 år

Kön Kvinna

Blodtryck 120/80

Diskret

Kvantitativ

KontinuerligVariabel

KvalitativDikotom

Polykotom

Olika skalor

• Nominalskala = kategorisering• Ordinalskala = rangordning• Intervallskala = rangordning + lika långa

intervall• Kvotskala = rangordning + lika långa

intervall + absolut nollpunkt

Nominalskala (nomen = namn)

Markera det rätta alternativet nedan.1. Kvinna 2. Man

Vilket nationalitet du är?• . svensk• . finsk• . norsk• . dansk

Ordinalskala

Hur uppfattar du din hälsa? Ringa in siffran framför det påstående som stämmer bäst med din uppfattning om din hälsa.

1. Min hälsa är mycket dålig2. Min hälsa är ganska dålig3. Min hälsa är ganska bra4. Min hälsa är mycket bra

Intervallskala, kvotskala

Längden på 10 personer var:

134.4, 125.6, 156.3, 173.9, 182.8, 183.9, 185.7, 188.5, 189.2, 199.9

Beskrivande statistik

Överskådlig sammanfattning av data

• Frekvenser• Centralmått - var tyngdpunkten ligger• Spridningsmått - hur stor variationen är• Diagram

Frekvenstabell

Värde Frekvens Procent Kumulativ procent110-119 10 IIIIIIIIII 33 33120-129 12 IIIIIIIIIIII 40 73130-139 5 IIIII 17 90140-149 2 II 7 97150-159 1 I 3 100

30

Centralmått Spridningsmått

Typvärde (T) Variationsvidd (r)

Median (Md) Kvartilavstånd (Q)

Medelvärde (M) Standardavvikelse (s)

37, 37, 40, 39, 38, 41, 43, 44, 36, 37

36, 37, 37, 37, 38, 39, 40, 41, 43, 44

Q1=37 Q3=41Md=38.5

M=∑ Xn = 39.2

T=37, r= 36-44 (r=8)

∑(x-M)2 M=39.2n-1

36, 37, 37, 37, 38, 39, 40, 41, 43, 44x x-M (x-M)2

36 -3.2 10.237 -2.2 4.837 -2.2 4.837 -2.2 4.838 -1.2 1.439 -0.2 0.0440 0.8 0.641 1.8 3.243 3.8 14.444 4.8 23__

67.2

S=

S =67.2

9

S= 2.7

68.3%95.4%

99.7%

0

200

400

600

800

1000

1200

1400

1600

1 2 3 4 5 6 7 8 9 10 11

0

100

200

300

400

500

600

700

800

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Stapeldiagram

Hälsa

Grundskola Gymn.skola Högskola

Man Kvinna

Box & Whisker plot

MaxMax

75%

Median

25%

Min

75%

Md

25%

Min

Cirkeldiagram 17%Olika utbildningar

46%

37%

Statistisk inferens

Att dra slutsatser om egenskaperna hos en

population på basis av egenskaperna hos ett

urval

Mätningsfel

Population

Stickprov

Urvalsfel

Mätfelet

Standard error

Statistisk inferens

Med hjälp av mätfelet kan vi uppskatta sannolikheten för att våra resultat beror på slumpfaktorer i urvals-och mätprocedurer.

SSE

n

Nollhypotes (H0)Ett antagande om ingen skillnad eller inget samband

Alternativhypotes (H1)Ett antagande om att det finns skillnad eller samband

Signifikansnivå

sannolikheten att få medelvärdet som vi fått i vår resultat under förutsättning att nollhypotesen är sann: p < 0.05, p < 0.01, p < 0.001

Typ I-fel

Ett falskt positivt resultat

Typ II-fel

Ett falskt negativt resultat

Enkelsidig - dubbelsidig prövning

Analysområden

• Skillnader mellan grupper

• Skillnader inom samma grupp över tid

• Samband mellan variabler

Statistisk analys(analysverktyg)

Parametrisk statistikMedelvärden och standardavvikelser

Bakomliggande normalfördelningIntervall-, kvotskala (ev. ordinalskala)

Icke parametrisk statistikTypvärde, median, variationsvidd, kvartilavstånd

RangordningOkänd bakomliggande fördelning

Litet antal personerAlla typer av skalor

Statistiska analyserParametriska Icke-parametriska

Skillnader mellan grupper vid samma tidpunktOberoende / oparat t-test Mann Whitney UIndependent / unpaired t-test Willcoxon rank sum test

Willcoxon’s rangsummetest

Skillnader inom samma grupp över tidBeroende / parat t-test Wilcoxon’s teckenrangtestDependent / paired t-test Wilcoxon signed rank test

Samband mellan variablerPearson’s produktmomentkorrelation Spearman’s rangkorrelation

Chi 2 test

Group Statistics

51 157,92 37,37424 5,2 3344

32 125,53 40,17300 7,1 0165

GRUPP1,00

2,00

SESTREMN Mea n

Std.Deviat ion

Std. ErrorMea n

Independent Samples Test

,57 5 ,450 3,734 81 ,000 32, 3903 8,67550 15, 129 49,652

3,672 62, 403 ,001 32, 3903 8,82170 14, 758 50,022

Equal variancesassumedEqual variancesnot assumed

SESTREMF Sig.

Levene's Test forEquality ofVariances

t dfSig.

(2- tailed)Mean

DifferenceStd. Er rorDifference Lower Uppe r

95% ConfidenceInterval of the

Difference

t- test for Eq uality of Means

Independent samples t-test

Ranks

51 49,32 2515,5

32 30,33 970,50

83

GRUPP1,00

2,00

Total

SESTREMN Mean Rank

Sum ofRanks

Mann-Whitney Test

Test Statis ticsa

442,500

970,500

- 3,497

,00 0

Mann -Whitney U

Wilcoxon W

Z

Asymp. Sig. (2- tailed)

SESTREM

Grouping Variable: GRUPPa.

Median (SES) Grupp 1: 157

Grupp 2: 125

T-test

Paired Samples Statistics

145,2561 82 41,6164 4,5958148,1220 82 45,9859 5,0783

SESTREMSESETTÅR

Pair 1Mean N Std. Deviation Std. Error Mean

Paired Samples Test

-2,8659 32,5405 3,5935 -10,0158 4,2841 -,798 81 ,427SESTREM - SESEPair 1Mean Std. DeviatioStd. Error Mea Lower Upper

95% Confidence Inteof the Difference

Paired Differences

t df Sig. (2-tailed

Descriptive Statistics

83 145,4337 41,3935 53,00 200,00 115,0000 158,0000 177,000085 148,8588 46,0743 37,00 200,00 106,5000 165,0000 191,0000

SESTREMSESETTÅR

N Mean Std. Deviation Minimum Maximum 25th 50th (Median) 75thPercentiles

Ranks

27 a 39,41 1064,0045 b 34,76 1564,0010 c

82

Negative RanksPositive RanksTiesTotal

SESETTÅR - SESTREMN Mean Rank Sum of Ranks

SESETTÅR < SESTREMa.

SESETTÅR > SESTREMb.

SESTREM = SESETTÅRc.

Test Statistics b

-1,403 a

,161ZAsymp. Sig. (2-tailed)

SESETTÅR -SESTREM

Based on negative ranks.a.

Wilcoxon Signed Ranks Testb.

Willcoxon Signed Rank Test

Samband (korrelation) mellan variabler

• Parvisa observationer x - och y

• Samvariation, inte orsaksförhållande

• Samband kan vara positiva eller negativa

• Graden av linjärt samband beräknas med den så kallade korrelationskoefficienten, r, som kan variera mellan -1 och +1

r=1 r=0 r=0

r=- 0.97 r= -0.79r= 0.63

Correlations

1,000 -,665 **, ,000

83 82-,665 ** 1,000,000 ,

82 82

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

SESTREM

VASTREM

SESTREM VASTREM

Correlation is significant at the 0.01 level (2-tailed).**.

Correlations

Descriptive Statistics

145,4337 41,3935 833,0180 2,2083 82

SESTREMVASTREM

Mean Std. Deviation N

Correlations

1,000 -,713 **, ,000

83 82-,713 ** 1,000,000 ,

82 82

Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)N

SESTREM

VASTREM

Spearman's rhoSESTREM VASTREM

Correlation is significant at the .01 level (2-tailed).**.

Statistiska analyser kvalitativa variabler

• För nominal- / kategoridata används analyser som är baserade på chi-två x2 fördelningen.

• Räknemässigt används samma analys vare sig man undersöker

1. Skillnad mellan grupper2. Samband mellan variablerFör 1 gäller två eller flera stickprov och en variabelFör 2 gäller ett stickprov och två variabler

Konfidensintervall• Punktskattning av en variabels medelvärde i

populationen är alltid osäker eftersom den gjorts utifrån enbart en del av populationen -stickprovet.

• Därför bildas ofta ett intervall inom vilket det sanna medlevärdet med viss sannolikhet ligger.

• Ett sådant intervall kallas konfidensintervall.• Konfidensintervall kan bildas för enstaka

medelvärde eller för medelvärdesskillnad.• Konfidensintervall anges med sannolikheterna

95%, 99% eller 99.9%.