Upload
barbara-baert
View
224
Download
0
Embed Size (px)
Citation preview
Inleiding in de statistiek voor de gedragswetenschappenMet ondersteuning van SPSS
Guido Valkeneers
Inleiding in de statistiek voor de gedragswetenschappenHoofdstuk V Centrummaten & SPSS Descriptives
Doelstellingen hoofdstuk V
De student kent de diverse begrippen over de centrummaten;
De student kent de impact van de aard van de schaal op de bepaling van de centrale tendens;
De student kan – handmatig - de centrale tendens berekenen voor een (beperkte) verdeling van uitslagen;
Via SPSS kan de student de centrale tendens van een reeks gegevens bepalen.
De modus Is de waarde met de hoogste frequentie
Bijvoorbeeld scores op een Likertschaal (1-5)Ik vind de opwarming van de aarde een groot probleem (helemaal akk….. helemaal niet akk)score frequentie1 helemaal akk 132 akkoord 123 weet niet 35 helemaal niet akk 1Welk is de modus? Score 1 ‘helemaal akkoord’
Voorbeeld van nominale gegevens
Burgerlijke stand Absolute Relatieve
Frequentie Frequentie
Gehuwd 957 62,2%Weduwe/weduwnaar 98 6,4%Wettelijk gescheiden 100 6,5%Feitelijk gescheiden 28 1,8%Ongehuwd 355 23,1%TOTAAL 1538 100,0%
APS-SURVEY 2004: Burgerlijke stand
Modus = ‘GEHUWD’
De modus Zal vooral gebruikt worden voor
nominale waarden; maar kan in principe altijd bepaald worden. Is meteen duidelijk in de frequentietabel
Meer dan één modus is mogelijk, bij een bimodale verdeling zijn er twee modi.
Gebruikt weinig informatie uit de gegevens.
De mediaan De mediaan is de middelste waarde
wanneer de observaties in volgorde van laag naar hoog zijn gezet. (niet mogelijk voor nominale waarden)
Bij een oneven aantal observaties precies de middelste, en bij een even aantal observaties het midden tussen de twee middelste scores;
Komt dus overeen met percentiel 50.
De mediaan
Welk is de mediaanwaarde van 2, 4, 6, 8, 10? De mediaanwaarde is 6, als middelste waarde
Welk is de mediaanwaarde van2, 4, 6, 7, 8, 10?De mediaan is 6,5 zijnde het midden tussen 6 en7.
Welk is de impact van een wijzing van de laatste observatie 10 in 20? Verandert hierdoor de mediaan?
Diploma Absolute Relatieve
Frequentie Frequentie
Geen/LO 365 23,6%Lager secundair 324 21,0%Hoger secundair 506 32,7%Niet universitair HO 262 16,9%Universitair HO 89 5,8%TOTAAL 1546 100,0%
APS-SURVEY 2004: Hoogste diploma
Mediaan = ‘HOGER SECUNDAIR ONDERWIJS’
Voorbeeld van ordinaal meetniveau
Mediaan = ‘Grens van slecht en neutraal’
Oordeel Absolute frequentie
Zeer slecht 15
Slecht 20
Neutraal 18
Goed 10
Zeer goed 07
TOTAAL 70
Voorbeeld van ordinaal meetniveau
n 1
2
n n1
2 2
Mediaan X (n oneven)
X + X
Mediaan (n even) 2
18 13 17 16 10 09 15
09 10 13 15 16 17 18
18 13 17 16 10 09 15 12
09 10 12 13 15 16 17 18
Mediaan 15 13 15Mediaan 14
2
Voorbeeld voor interval niveau
Score f
12 1
13 3
14 1
15 2
16 2
17 1
Bepaal de mediaan uit een tabel
is hetzelfde als :
12 13 13 13 14 15 15 16 16 1714 15
Mediaan 14,52
De mediaan
Kan niet gebruikt worden bij nominale waarden;
Is niet afhankelijk van extreem hoge of lage uitslagen.Gebruikt weinig info uit de gegevens;
Kan gezien worden in vergelijking met het rekenkundig gemiddelde;
Is gemakkelijk te begrijpen/uit te leggen/grafisch voor te stellen.
De mediaan
Kan grafisch voorgesteld worden via een boxplot. SPSS kan een verdeling van uitslagen voorstellen middels een boxplot. In dergelijke boxplot worden PC25, PC50 en PC75 grafisch voorgesteld middels een ‘doos’
Opdracht Maak uitgaande van het bestand
busters.sav een boxplot voor de levensstijl variabelen gezondheidsbesef, internetgebruik, materialisme, modebesef waaruit de verschillen kunnen blijken tussen de groepen met verschillend diploma.
Wat blijkt?
Het gemiddelde
Het gemiddelde is de som van alle scores gedeeld door het aantal scores.
Is enkel mogelijk voor interval en ratio meetniveaus, bv. IQ, schooluitslagen, testuitslagen, leeftijd,…
n 1 2 nii 1
X X ... X1X X
n n
Zeer belangrijk
Het gemiddelde
Voorstelling van gemiddelde: _in de steekproef: X
in de populatie: µ
Het gemiddelde: een voorbeeld I Score Frequentie
4 96 158 21
gemiddelde: (9*4 + 15*6 + 21*8)/45 = 6,53
Het gemiddelde bij een samengestelde steekproef
Veronderstel je beschikt over twee steekproeven n1 en n2 met een respectievelijk gemiddelde X1 en X2, welk is dan het zgn. gewogen gemiddelde?
1 1 2 2
1 2
n X n XX
n n
Het gemiddelde bij een samengestelde steekproef, een voorbeeld
Tien jongens kijken gemiddeld 3 uur per dag tv en vijf meisjes kijken gemiddeld 2 uur per dag tv. Wat is dan het gemiddelde van de gezamenlijke proefgroep?
Oplossingde jongens kijken 30 uur tvde meisjes kijken 10 uur tvtotaal: 40 uur;dit is gemiddeld 40/15 = 2,67 (=gewogen gemiddelde)1 1 2 2
1 2
n X n X 10 3 5 2 40X 2,67
n n 10 5 15
Het gemiddelde bij een samengestelde steekproef
Een analoge eigenschap voor de mediaan bestaat niet. Om de mediaan van de samengestelde steekproef te kennen, moet je alle metingen kennen
Het getrimde gemiddelde
Het rekenkundig gemiddelde van het deel van de waarnemingsgetallen dat overblijft na weglating van de P% kleinste en P% grootste.
Voorbeeld1
3
6
7
8
9
10
14
15
16
17
19
21
23
25
28
30
33
39
40
X 18,2
1
3
6
7
8
9
10
14
15
16
17
19
21
23
25
28
30
33
39
40
P 5%n 20
getrimdX 17,94
Eigenschappen van het rekenkundig gemiddelde
Som van de afwijkingen van de waarnemingsgetal-len tot het rekenkundig gemiddelde is gelijk aan 0.
N
ii 1X X 0
Xi
18 18-14=4
13 13-14=-1
17 17-14=3
16 16-14=2
10 10-14=-4
09 9-14=-5
15 15-14=1
SOM=0X 14
iX X
Bij een lineaire transformatie van de scores, wordt het rekenkundig gemiddelde op dezelfde wijze getransformeerd, d.w.z. als je alle waarnemingsgetallen met b vermenigvuldigt en daar een constante a bijtelt, dan wordt het rekenkundig gemiddelde op dezelfde manier getransformeerd.
Eigenschappen van het rekenkundig gemiddelde
i iY a b X i 1,2,..., n Y a b X
Voorbeeld
Je meet de volgende temperaturen met de schaal van Celsius:
Y a b X Y 32 1,8 14 57,2
18°C 13°C 17°C 16°C 10°C 09°C 15°C X 14 C
Via een eenvoudige transformatie kan je de waarden
overbrengen naar de schaal van Fahrenheit:
F 32 1,8 C 64,4F 55,4F 62,6F 60,8F 50F 48,2F 59F Y 57,2F
Eigenschappen van het rekenkundig gemiddelde
Het rekenkundig gemiddelde van een aselecte steekproef is een zuivere schatter van het populatiegemiddelde (µ). D.w.z. dat wanneer we van een oneindig aantal steekproeven (met hetzelfde aantal n) steeds het steekproefgemiddelde berekenen, het rekenkundig gemiddelde van alle steekproefgemiddelden gelijk is aan het populatiegemiddelde.
d.i.Centrale limietstelling
Eigenschappen van het rekenkundig gemiddelde
Het rekenkundig gemiddelde
Snel te berekenen en eenvoudig te begrijpenIn dezelfde meeteenheid als de waardenAlle waarden worden bij de berekening betrokken
Gevoelig voor extreme waarden
Steeds berekenen bij interval en ratio waardenEventueel vergelijken met mediaan
Gebruik van centrummaten Modus: bij nominale, ordinale,
interval en ratio waarden;
Mediaan: bij ordinale, interval en ratio waarden;
Gemiddelde: bij interval en ratio waarden.
Gebruik van centrummaten
Modus vooral bij nominale waarden Gemiddelde versus mediaan?
- Gemiddelde gebruikt meer informatie dan de mediaan; de mediaan gebruikt enkel de rangorde van de getallen, dus bij interval waarden….
- Invloed van ‘uitbijters’/’’outliers’? Uitbijters hebben geen invloed op de mediaan, wel op het gemiddelde.
Bij de mogelijkheid van extreme waarden kan getrimde gemiddelde een oplossing bieden. Getrimde gemiddelden worden berekend zonder rekening te houden met bv. de 5% hoogste en 5% laagste waarden.
Gebruik van centrummaten
Gemiddelde versus mediaan:Het gemiddelde varieert minder van steekproef tot steekproef t.o.v. de mediaan. Dus het gemiddelde wordt meer gebruikt in de toetsende statistiek om het centrum van de populatie te schatten.
Gemiddelde is algebraïsch aardiger. We kunnen gegevens van subgroepen samenvoegen om gewogen gemiddelde te berekenen, … dit kan niet bij een mediaan.
Het gemiddelde verdient de voorkeur bij interval/ratio schalen.
Onderlinge positie van gemiddelde en mediaan zegt iets over de mate van scheefheid van de verdeling.
Vergelijking van centrummaten Voor symmetrische verdelingen
Bij een normaalachtige verdeling is MO=Me=Gem.bv. verdelingvan de IQ’s
Vergelijking van centrummaten Voor symmetrische verdelingen
bij een uniforme verdelingMe=gemid.Modus?
Bv. verdelingvan leeftijd,van 20 t/m 50 jaar
Vergelijking van centrummaten Bij asymmetrische verdelingen
voor een rechts scheve verdeling (scheefheid pos.)Mo<Me<gemid
bv. verdelingvan inkomens
Vergelijking van centrummaten Bij asymmetrische verdelingen
voor een links scheve verdeling(neg. scheefheid)Mo>Me>gemid
bv. eengemakkelijketoets
Vergelijking van centrummaten Besluit:
1. De vorm van de verdeling heeft invloed op de onderlinge positie van de centrummaten. 2. Indien mogelijk maak gebruik van het rekenkundig gemiddelde als maat van centrale tendens.
SPSS en de centrummaten
SPSS en de centrummaten
SPSS en de centrummaten
SPSS output van de centrummaten
SPSS en het rekenkundig gemiddelden
Om subgroepen te vergelijken maken we vaak gebruik van het rekenkundig gemiddelde.
Maak uitgaande van het bestand busters.sav een vergelijking tussen de beide leeftijdsgroepen voor wat betreft de levensstijl variabelen (op grond van de gemiddelden)
SPSS Maak een vergelijking tussen subgroepen
SPSS vergelijking van subgroepen
Output compare means
Report
modetot
3,6082 142 1,23673
4,5744 260 1,12907
4,2331 402 1,25498
Geslachtman
vrouw
Total
Mean N Std. Deviation
Kan dit verschil toevallig zijn? Verwijst het naar een verschil tussen de populaties? Zie inductieve statistiek: jaar II
Opgaven
Bijkomende opgave
Bereken alle zinvolle centrummaten op de volgende tabel
Categorie Code ProportieZeer slecht 1 5%Slecht 2 10%Neutraal 3 45%Goed 4 25%Zeer goed 5 15%
Statistiek deel IInleiding in de statistiek Met ondersteuning van SPSS
Guido Valkeneers