Upload
pekket
View
55
Download
9
Embed Size (px)
DESCRIPTION
Toegepaste informatica UCLL
Citation preview
Academiejaar 2009-2010
1
Studiewijzer
Cursusfiche
Academiejaar 2009-2010
Opleiding Bachelor in de toegepaste informatica
Afstudeerrichting
Naam : Wiskunde – deel 2 Opleidingsonderdeel
ECTS-code : TI 3.6
Naam : Statistiek Deel van het
opleidingsonderdeel ECTS-code : TI 3.6.2
Activiteit
Beschrijving van het (deel van) het opleidingsonderdeel of van de activiteit
Studiepunten 2
Contacturen 17,5 (1 keer 1,5 uur en 1 keer 1 uur theorie en oefeningen per week
gedurende 7 lesweken)
Verplicht / keuze Verplicht
Semester 3
SBU per studiepunt 25
Lectoren Roby Roels, Wim Bertels
Beoogde
competenties
De student verwerft in het opleidingsonderdeel volgende kerncompetenties:
• De student is vertrouwd met de basisbegrippen van de
kansrekening en de beschrijvende en verklarende statistiek.
• De student kent de basisredeneringen uit de statistiek en kan
statistische technieken gebruiken voor het verzamelen, verwerken
en interpreteren van gegevens.
• De student begrijpt welke plaats statistiek inneemt in de wereld van
de informatica.
• De student heeft een goede basis waarop hij kan voortbouwen om,
naargelang de noden, zelf nieuwe en moeilijkere statistische
technieken te leren.
• De student kan nauwgezet en op een logische manier werken.
• De student gaat kritisch om met nieuw cijfermateriaal en kan hieruit eigen correcte conclusies trekken.
Leerinhoud
• Kansrekenen: basisbegrippen als theoretisch, wiskundige basis
voor statistiek
• Beschrijvende statistiek: stochastische veranderlijken,
belangrijkste kengetallen, frequentietabellen, grafieken, belangrijke
verdelingen (binomiaalverdeling, normaalverdeling), enkelvoudige
lineaire regressie
• Verklarende statistiek: populatie en steekproef, verdeling van het
steekproefgemiddelde, puntschattingen, intervalschattingen
Werkvormen
• Overdracht
o onderwijsleergesprek - in groep: de docent stelt gerichte
vragen waardoor de theorie met de actieve hulp van de
studenten op een systematische manier tot stand komt.
• Inoefenend
o oefensessies - individueel en in groep: de studenten maken
zelf oefeningen en opdrachten om de statistische concepten
in te oefenen. Nadien worden de oefeningen klassikaal
verbeterd.
Studiemateriaal • Cursus (verplicht):
ROELS, R., Wiskunde – deel 2 - Statistiek (Leuven,
KHLeuven departement G&T, 2009)
• Rekenmachine
Academiejaar 2009-2010
2
Evaluatie
In de studiegids, bijlage D, vind je de aanduidingen van examentijdstippen,
vorm van het examen, aandeel van de examenonderdelen (zoals
permanente evaluatie, opdrachten en contactexamen).
Dit deel van het opleidingsonderdeel ‘Wiskunde – deel 2’ worden
geëxamineerd samen met het deel ‘Wiskunde voor informatici’.
Het eindcijfer voor het opleidingsonderdeel ‘Wiskunde – deel 2’ is het
gewogen gemiddelde van de eindcijfers van de delen (‘Wiskunde voor
informatici’ en ‘Statistiek’) van het opleidingsonderdeel, met als
wegingsfactoren de studiepunten.
Academiejaar 2009-2010
3
Cursusbeschrijving
Situering
Een basiskennis Statistiek is een must voor de dagelijkse taken van een informaticus. Als
informaticus word je immers constant geconfronteerd met data.
In het deel Statistiek maak je kennis met enkele statistische technieken om verzamelde
gegevens en mogelijke verbanden uit te drukken in getallen en grafieken. Dat is het
domein van de beschrijvende statistiek. Je wordt ook ingeleid in de kansrekening
zodat je met behulp van verklarende statistiek op een wetenschappelijk correcte
manier conclusies kan afleiden uit de verkregen data.
Dit deel Statistiek is eerder inleidend en laat je vooral kennismaken met de statistische
basisconcepten. Tijdens het vierde semester worden deze kennis en vaardigheden
toegepast en vaak verdiept in de diverse keuzetrajecten. We geven graag een (niet
beperkende) lijst van de mogelijkheden:
Softwareontwikkeling: ongeveer elke moderne website voorziet een plekje
met uitgebreide statistieken over de bezoekers en het gebruik van de website.
Een basiskennis van statistische kengetallen, grafieken en technieken om
verbanden te zoeken is nuttig om dit deel van een website op een professionele
en wetenschappelijk verantwoorde manier te ontwerpen.
Systeem- en netwerkbeheer: het gedrag van een nieuw of bestaand
netwerk wordt vaak afgeleid uit een reeks simulaties. Om zinvolle conclusies te
trekken uit de verzamelde data ben je best op de hoogte van topics als
statistische kengetallen en betrouwbaarheidsintervallen. Als systeembeheerder
krijg je ook af te rekenen met het filteren van spam mails. Je kan daarbij gebruik
maken van Bayesiaanse spam filters die gebaseerd zijn op een belangrijke wet
uit de kansrekening.
Management informatiesystemen: veel ondernemingen beschikken over
een massa data van transacties en klanten. Met Data Mining kan je op een semi-
geautomatiseerde manier interessante relaties ontdekken in dit ondoorzichtig
kluwen van gegevens. Data Mining bevindt zich op het grensvlak tussen
statistiek, informatica en economie. Een basiskennis Statistiek is dus meer dan
welkom.
Statistiek kan dus een krachtig hulpmiddel zijn bij het uitvoeren van je functie als
informaticus.
Op het einde van dit opleidingsonderdeel heb je een goede basis verworven waarop je
kan voortbouwen om zelf nieuwe en moeilijkere statistische technieken te leren en toe te
passen.
Organisatie van de lessen
De lessen vinden plaats in het derde semester van je opleiding (1 keer 1,5 uur en 1
keer 1 uur theorie en oefeningen per week gedurende 7 lesweken).
Er wordt geen strikt onderscheid gemaakt tussen theorielessen en oefensessies.
Statistiek leer je vooral door ermee aan de slag te gaan. Uiteraard heb je een zekere
basiskennis nodig om de oefeningen tot een goed einde te brengen. Toch wordt de
theorie tijdens de lessen zoveel mogelijk beperkt. De lector stelt bovendien regelmatig
gerichte vragen zodat de theorie met de actieve hulp van de studenten tot stand komt.
Een groot deel van de lessen wordt besteed aan oefeningen die onder begeleiding van de
lector individueel gemaakt worden. Belangrijk is dat je actief meewerkt en probeert te
antwoorden op de deelproblemen en vragen die de lector aanbiedt. Nog tijdens de les
worden die oefeningen klassikaal verbeterd. Tijdens de oefeningen gebruik je een (al dan
niet) grafisch rekentoestel en een formularium dat bij de cursustekst zit.
Academiejaar 2009-2010
4
Structuur van de cursus
In de cursus wordt de theorie zoveel mogelijk beperkt. Er staan weinig of geen
bewijzen in en formules worden geïllustreerd met voorbeelden. De theorie wordt zoveel
mogelijk aangebracht vanuit concrete probleemsituaties. In de cursustekst ligt de
nadruk vooral op inzicht in de basisbegrippen en –technieken en de praktische toepassing
ervan in concrete situaties.
De cursustekst omvat 6 hoofdstukken (= Kansrekenen, Beschrijvende Statistiek,
Kansverdelingen, Samenhang tussen variabelen, Populatie, Steekproef en schatten,
Betrouwbaarheidsintervallen).
Na elk hoofdstuk zijn er voldoende oefeningen. Een aantal van die oefeningen worden
tijdens de lessen gemaakt (zie hoger, Organisatie van de lessen). De overige oefeningen
kan (moet) je thuis maken. Je kan je oplossingen steeds indienen en door de lector laten
nakijken. Ook als een oefening die je thuis probeert niet lukt, kan je steeds bij de lector
terecht voor extra uitleg.
Elk hoofdstuk wordt afgesloten met verwijzingen naar een (Nederlandstalige) website, nl.
http://www.kennisbasisstatistiek.net. Daar kan je de behandelde topics uit het hoofdstuk
nog eens nalezen. Het gebruik van de website is aanbevolen maar niet verplicht (zie
verder, Studiemateriaal).
Tenslotte bevat de cursustekst ook een formularium. Het formularium zal tijdens de
lessen veelvuldig gebruikt worden, dus breng het steeds mee. Ook tijdens het examen
krijg je een kopie van dit formularium. Het heeft dus weinig zin om deze formules van
buiten te leren, je moet ze correct kunnen toepassen.
Studiemateriaal
Verplicht:
ROELS, R., Statistiek (Leuven, KHLeuven departement G&T, 2009)
Aanbevolen:
Naast de cursus bevelen we volgende boeken aan die je kan raadplegen in de
mediatheek:
MOORE, D. en McCABE, G., Statistiek in de Praktijk (Schoonhoven, Academic
Service, 1994)
GONNICK, L. en SMITH, W., The Cartoon Guide to Statistics (s.l.,
HarperCollins, 1993) 223 p.
Voor meer achtergrond bij de behandelde topics suggereren we na elk hoofdstuk van de
cursustekst ook nog een aantal pagina’s van volgende (Nederlandstalige) website:
http://www.kennisbasisstatistiek.net
Evaluatie
In de studiegids, bijlage D, vind je de aanduidingen van examentijdstippen, vorm van het
examen, aandeel van de examenonderdelen (zoals permanente evaluatie, opdrachten en
contactexamen).
Bijkomende toelichting:
Het deel Statistiek wordt volledig geëvalueerd aan de hand van een contactexamen.
Tijdens het examen Statistiek krijg je twee vragen onder de vorm van
oefeningen. De eerste vraag heeft betrekking op de hoofdstukken 1 tot
en met 3, de tweede vraag op de hoofdstukken 4 tot en met 6 (zie
Inhoudstafel).
Academiejaar 2009-2010
5
Het contactexamen is schriftelijk en mondeling (S+M). Je komt de
oefeningen mondeling toelichten na een schriftelijke voorbereiding. Je
kan tijdens het mondeling vragen stellen. De lector geeft indien nodig
(een) hint(s) waarna je je antwoord nog verder kan afwerken. Tijdens
het mondeling zullen ook enkele kleine theorievraagjes gesteld
worden die aansluiten bij het onderwerp van de oefeningen.
Op het contactexamen krijg je een kopie van het formularium uit de
cursustekst. Je mag ook een rekenmachine gebruiken en een
rekenblad.
Het deel Statistiek wordt samen met het deel Wiskunde voor informatici
geëxamineerd. De duur van het examen Statistiek is daarom beperkt
tot 1 uur en 45 minuten.
FormulariumTabellen
1
1Kansrekenen
Zij A, B en C gebeurtenissen van het universum Ω.
Kansregel van Laplace
P (A) =#A#Ω
Algemene Somregel
P (A ∪B) = P (A) + P (B)− P (A ∩B)
Somregel voor elkaar uitsluitende gebeurtenissen.
P (A ∪B) = P (A) + P (B)
Kans van het complementP (Ac) = 1− P (A)
Voorwaardelijke kans
P (A|B) =P (A ∩B)P (B)
als P (B) 6= 0
Algemene productregel
P (A ∩B) = P (A) · P (B|A) = P (B) · P (A|B)
P (A ∩B ∩ C) = P (A) · P (B|A) · P (C|A ∩B)
Productregel voor onafhankelijke gebeurtenissen
P (A ∩B) = P (A) · P (B)
P (A ∩B ∩ C) = P (A) · P (B) · P (C)
Zij X en Y twee stochastische veranderlijken.
Marginale kansen
P (X = x′i) = P (X = x′i, Y = y′1) + P (X = x′i, Y = y′2) + . . .+ P (X = x′i, Y = y′m)
P (Y = y′j) = P (X = x′1, Y = y′j) + P (X = x′2, Y = y′j) + . . .+ P (X = x′n, Y = y′j)
Onafhankelijke stochastische veranderlijkenX en Y zijn onafhankelijk als en slechts als voor elke waarde van i en j:
P (X = x′i, Y = y′j) = P (X = x′i) · P (Y = y′j)
1
2Beschrijvende statistiek
Centrum en spreiding(Discrete gegevens)
Ruwe gegevens Gegroepeerde gegevens
GemiddeldeµX of µ
µ =∑ni=1 xin µ =
∑qi=1 x
′i·fi
n
=∑qi=1 x
′i · ri
Variantieσ2X of σ2
Definitieformule
σ2 =∑ni=1(xi−µ)2
n σ2 =∑qi=1(x
′i−µ)2·fin
=∑qi=1(x
′i − µ)2 · ri
Korte formule
σ2 =∑ni=1 xi
2
n −µ2 σ2 =∑qi=1 x
′i2·fi
n −µ2
=(∑q
i=1 x′i2 · ri
)− µ2
n = aantal gegevens x′i = i-de mogelijke gegevenq = aantal verschillende gegevens fi = absolute frequentie van x′ixi = i-de waarneming ri = relatieve frequentie van x′i
Sommatieteken∑
n∑i=1
xi = x1 + x2 + . . .+ xn
2
x
Centrum en spreiding(Continue gegevens)
Ruwe gegevens Geclassificeerde gegevens
GemiddeldeµX of µ
Zie discrete verdelingen Zie discrete verdelingen
Variantieσ2X of σ2
DefinitieformuleZie discrete verdelingen Zie discrete verdelingen
Korte formuleZie discrete verdelingen Zie discrete verdelingen
n = aantal gegevens x′i = klassemidden i-de klasseq = aantal klassen fi = absolute frequentie i-de klassexi = i-de waarneming ri = relatieve frequentie i-de klasse
3
3Kansverdelingen
Discrete verdelingen
Verwachtingswaarden
Gemiddelde: E[X] = µX =∑x′i
x′i · P (X = x′i)
Variantie: Var[X] = σ2X = (
∑x′i
x′i2 · P (X = x′i))− µ2
X
De binomiale verdeling
X ∼ B(n, p) P (X = k) =
(nk
)pkqn−k met 0 ≤ k ≤ n, 0 ≤ p ≤ 1
E[X] = µX = n · p
Var[X] = σ2X = n · p · q
Continue verdelingen
De normale verdeling
X ∼ N(µ, σ2) f(x) =1
σ ·√
2π· e−
12·(x−µσ )2
De standaard normale verdeling
Z ∼ N(0, 1) f(z) =1√2πe−1
2· z2
Als X ∼ N(µ, σ2), dan is Z =X−µσ ∼ N(0, 1).
4
4Samenhang tussen variabelen
Associatiematen
Gegeven een gezamenlijke verdeling van de vorm:
a b
c dN
Chikwdaraat =N · (ad− bc)2
(a+ b) · (c+ d) · (a+ c) · (b+ d)
Phi =
√Chikwadraat
N
Pearson’s correlatiecoefficient
ρ ( of r ) =
∑[(xi −X) · (yi − Y )
]√∑
(xi −X)2 ·√∑
(yi − Y )2
Lineaire regressiemodel
y = β0 + β · x+ ε
Regressiecoefficienten
b =
∑[(xi −X) · (yi − Y )
]∑
(xi −X)2
b0 = Y − b ·X
5
5Populatie en steekproef
Gegeven een populatieveranderlijke X met gemiddelde µX en variantie σ2X .
Steekproefgemiddelde
X =
n∑i=1
xi
n
X ∼ N(µX ,σ2
X
n) voor n voldoende groot.
Steekproefvariantie
Vertekende steekproefvariantie S2n
S2n =
n∑i=1
(xi −X)2
n
Onvertekende (= zuivere) steekproefvariantie S2n−1
S2n−1 =
n∑i=1
(xi −X)2
n− 1
Gegeven een eigenschap die met een proportie π in de populatie voorkomt.
Steekproefproportie
p =aantal successen
totaal aantal elementen in de steekproef
p ∼ N(π,π · (1− π)
n
)voor n voldoende groot.
6
x
De standaardnormale verdeling
0.41
1.338 104.
f z( )
44 z
1 2 3 4 0 -1 -2 -3 -4
0.4
0.2
oppervlakte rechts van z0 = P(Z > z0)
z0
tweede decimaal
z0 0 1 2 3 4 5 6 7 8 90 0.5 0.496 0.492 0.488 0.484 0.4801 0.4761 0.4721 0.4681 0.46410.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.42470.2 0.4207 0.4168 0.4129 0.409 0.4052 0.4013 0.3974 0.3936 0.3897 0.38590.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.352 0.34830.4 0.3446 0.3409 0.3372 0.3336 0.33 0.3264 0.3228 0.3192 0.3156 0.31210.5 0.3085 0.305 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.281 0.27760.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.24510.7 0.242 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.21480.8 0.2119 0.209 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.18670.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.166 0.1635 0.16111 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.13791.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.123 0.121 0.119 0.1171.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.102 0.1003 0.09851.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.08231.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.06811.5 0.0668 0.0655 0.0643 0.063 0.0618 0.0606 0.0594 0.0582 0.0571 0.05591.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.04551.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.03671.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.02941.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.025 0.0244 0.0239 0.02332 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.01832.1 0.0179 0.0174 0.017 0.0166 0.0162 0.0158 0.0154 0.015 0.0146 0.01432.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0112.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.00842.4 0.0082 0.008 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.00642.5 0.0062 0.006 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.00482.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.004 0.0039 0.0038 0.0037 0.00362.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.003 0.0029 0.0028 0.0027 0.00262.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.002 0.00192.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.00143 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.001 0.001
7
Inhoudsopgave
1 Kansrekenen 41 Opstellen van een kansmodel . . . . . . . . . . . . . . . . . . 5
1.1 Definities . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Kansbegrip . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Eigenschappen van kansen . . . . . . . . . . . . . . . . 71.4 Samenvatting . . . . . . . . . . . . . . . . . . . . . . . 8
2 Kansen van gecombineerde gebeurtenissen . . . . . . . . . . . 92.1 Kans van de unie - de somregel . . . . . . . . . . . . . 92.2 Kans van het complement . . . . . . . . . . . . . . . . 112.3 Voorwaardelijke kansen . . . . . . . . . . . . . . . . . 122.4 Onafhankelijkheid . . . . . . . . . . . . . . . . . . . . 142.5 Kans van de doorsnede - de productregel . . . . . . . 14
3 De kansboom . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Stochastische veranderlijken en hun kansverdeling . . . . . . 21
4.1 Kansverdeling van 1 stochastische veranderlijke . . . . 214.2 De gezamenlijke kansverdeling van 2 stochastische
veranderlijken . . . . . . . . . . . . . . . . . . . . . . . 215 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 30
2 Beschrijvende statistiek 311 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.1 Soorten veranderlijken . . . . . . . . . . . . . . . . . . 322 Discrete gegevens . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1 De frequentietabel . . . . . . . . . . . . . . . . . . . . 342.2 Grafische voorstellingen . . . . . . . . . . . . . . . . . 362.3 Het centrum van de gegevens . . . . . . . . . . . . . . 382.4 De spreiding van de gegevens . . . . . . . . . . . . . . 40
3 Continue gegevens . . . . . . . . . . . . . . . . . . . . . . . . 433.1 Frequentietabellen en grafieken . . . . . . . . . . . . . 433.2 Het centrum van de gegevens zoeken . . . . . . . . . . 463.3 De spreiding van de gegevens zoeken . . . . . . . . . . 47
4 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 52
1
INHOUDSOPGAVE INHOUDSOPGAVE
3 Kansverdelingen 541 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.1 Theoretische kansverdelingen . . . . . . . . . . . . . . 551.2 Verwachtingswaarden . . . . . . . . . . . . . . . . . . 55
2 Discrete kansverdelingen . . . . . . . . . . . . . . . . . . . . . 572.1 Binomiale verdeling . . . . . . . . . . . . . . . . . . . 572.2 Andere discrete verdelingen . . . . . . . . . . . . . . . 61
3 Continue kansverdelingen . . . . . . . . . . . . . . . . . . . . 623.1 Kansen berekenen bij continue verdelingen . . . . . . 623.2 De normale verdeling . . . . . . . . . . . . . . . . . . . 653.3 De standaardnormale verdeling . . . . . . . . . . . . . 673.4 Kansen berekenen met de normale verdeling . . . . . . 693.5 Andere continue verdelingen . . . . . . . . . . . . . . . 70
4 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 76
4 Samenhang tussen variabelen 781 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 792 Associatie (discrete veranderlijken) . . . . . . . . . . . . . . . 803 Correlatie (continue veranderlijken) . . . . . . . . . . . . . . . 83
3.1 Pearson’s correlatiecoefficient . . . . . . . . . . . . . . 843.2 Regeressierechte . . . . . . . . . . . . . . . . . . . . . 863.3 Lineaire regressie - statistische interpretatie . . . . . . 87
4 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 95
5 Populatie, steekproef en schatten 961 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 972 Steekproeven . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.1 Steekproefveranderlijken . . . . . . . . . . . . . . . . . 982.2 ’Goede’ steekproeven . . . . . . . . . . . . . . . . . . . 982.3 Steekproefgrootheden, schatters . . . . . . . . . . . . . 99
3 Het steekproefgemiddelde . . . . . . . . . . . . . . . . . . . . 1003.1 Formule . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.2 Centrale limiestelling . . . . . . . . . . . . . . . . . . . 1003.3 Het steekproefgemiddelde als schatter voor het popu-
latiegemiddelde . . . . . . . . . . . . . . . . . . . . . . 1044 De steekproefvariantie . . . . . . . . . . . . . . . . . . . . . . 106
4.1 Formule . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2 De steekproefvariantie als schatter voor de populatie-
variantie . . . . . . . . . . . . . . . . . . . . . . . . . . 1065 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1076 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 108
Academiejaar 2009-2010 2
INHOUDSOPGAVE INHOUDSOPGAVE
6 Betrouwbaarheidsintervallen (B.I) 1101 BI voor het populatiegemiddelde . . . . . . . . . . . . . . . . 1112 Oefeningen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1143 Kennisbasis Statistiek . . . . . . . . . . . . . . . . . . . . . . 115
Academiejaar 2009-2010 3
1Kansrekenen
4
Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL
1 Opstellen van een kansmodel
Beschouw het volgende (eenvoudige) vraagstuk:
Het drankprobleemOp een regenachtige zondagmiddag drinken Frans en Fons, tweemannen op leeftijd, een respectabel aantal pintjes bier in hun stam-cafe. Op een bepaald ogenblik ontstaat er onenigheid over wie derekening zal betalen. De cafebaas bedenkt daarom het volgende een-voudige spel: hij neemt een blauwe dobbelsteen met rode ogen engooit deze op. Er wordt afgesproken dat als er 1 wordt geworpen,Frans de rekening betaalt. In de andere gevallen zal Fons betalen.Bereken voor beide mannen de kans dat ze het drinkgelach moetenbetalen.
Kansrekening bestudeert situtaties die aan het toeval onderhevig zijn. Dezesituaties ontstaan bij het uitvoeren van experimenten zoals het werpenvan een dobbelsteen of het trekken van een kaart. Als we een vraagstukuit de kansrekening voorgeschoteld krijgen, moeten we in eerste instantiede essentie van het verhaal proberen te vatten. Dit kan gebeuren doorhet experiment beknopt, maar volledig en ondubbelzinnig neer te schrijven.Voor het drankprobleem kan dit bijvoorbeeld als volgt:
”Gooi met een (onvervalste) dobbelsteen en tel het aantal ogen”.
Eens het experiment omschreven is, moeten we proberen om het gestel-de probleem wiskundig correct te formuleren. Dit kan gebeuren door hetopstellen van een kansmodel. Een kansmodel bevat altijd dezelfde ingre-dienten: een uitkomstenverzameling, gebeurtenissen en kansen.
1.1 Definities
Bij het uitvoeren van een experiment zijn de resultaten onvoorspelbaar.Meestal kunnen we echter wel de verzameling van alle mogelijke uitkomstenopschrijven. We bekomen dan de uitkomstenverzameling of het univer-sum Ω.Voor ”het drankprobleem” wordt dit Ω = 1, 2, 3, 4, 5, 6.We zullen ons voorlopig beperken tot problemen met een eindig universum.
”2 of meer gooien met een dobbelsteen”, met andere woorden”2, 3, 4, 5of 6 gooien” is een voorbeeld van een (samengestelde) gebeurtenis. Eengebeurtenis is dus een deelverzameling van het universum en bevat 1 of meeruitkomsten van het experiment.Een gebeurtenis met slechts 1 uitkomst noemt men een elementaire ge-beurtenis of elementaire uitkomst. In ”het drankprobleem” is ”1 gooi-en” een voorbeeld van een elementaire gebeurtenis.
Academiejaar 2009-2010 5
Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL
Gebeurtenissen zullen we meestal noteren met hoofdletters, zoals A, B, C.Voorbeeld: A = ”twee of meer gooien” = 2, 3, 4, 5, 6 ⊆ Ω.
Twee gebeurtenissen verdienen speciale aandacht:
De zekere gebeurtenis valt samen met het universum Ω. Zo is hetzeker dat men met een dobbelsteen steeds minder dan 7 gooit.
De onmogelijke gebeurtenis is de lege verzameling ∅. Met eendobbelsteen 7 gooien is een onmogelijke gebeurtenis.
1.2 Kansbegrip
Om het kansmodel te vervolledigen moeten we nog kansen toekennen aande uitkomsten en gebeurtenissen van het experiment. Eerst voeren we degebruikte notatie in:
Notatie
Als A een gebeurtenis is, dan noteren we met P (A) de kans dat gebeurtenisA zich voordoet. Het symbool P staat voor ”Probability”.
Kansregel van Laplace
Om kansen toe te kennen aan de uitkomsten van een experiment kunnen weop verschillende manieren te werk gaan. Als we ons echter beperken tot kans-modellen met een eindig universum waarbij alle uitkomsten even waarschijnlijkzijn, dan mogen we de kansregel van Laplace gebruiken.Bij het gooien met een (onvervalste) dobbelsteen, zoals in ”het drankpro-bleem” is elke uitkomst even waarschijnlijk, dit wil zeggen dat elke uitkomstevenveel kans heeft om op te treden. Omdat het universum Ω bovendien6 uitkomsten bevat, ligt het voor de hand dat de kans van elke uitkomst 1
6bedraagt. Dus:
P (1) = P (2) = P (3) = P (4) = P (5) = P (6) =16.
Bekijk nu de gebeurtenis A = ”2 of meer gooien”. Omdat A zich bij 5 vande 6 uitkomsten voordoet en alle uitkomsten even waarschijnlijk zijn, is:
P (A) =#A#Ω
=56.
We kunnen dit veralgemenen tot de Kansregel van Laplace.
Academiejaar 2009-2010 6
Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL
Als het universum Ω eindig is en als alle uitkomsten even waar-schijnlijk zijn, dan is
P (A) =aantal gunstige uitkomstenaantal mogelijke uitkomsten
=#A#Ω
.
voor elke gebeurtenis A ⊆ Ω.
Om aan te duiden dat alle uitkomsten even waarschijnlijk zijn gebruiktmen het woord ”lukraak”.
Relatieve frequenties
In veel reele situaties is het universum niet eindig of zijn niet alle uitkomsteneven waarschijnlijk. In die gevallen mag de regel van Laplace niet gebruiktworden. Een andere manier om kansen in te voeren is het gebruik vanrelatieve frequenties. Hierbij wordt het experiment een groot aantal keerherhaald en telt men het aantal experimenten waarbij de gebeurtenis Aopduikt. De relatieve frequentie
aantal experimenten waarin A opduiktaantal herhalingen van het experiment
geeft dan een goede benadering voor de werkelijke kans P (A). Hoe groterhet aantal herhalingen, hoe beter de benadering. Omdat het in de praktijkvaak onmogelijk is om een experiment een groot aantal keer uit te voeren,worden computers ingeschakeld om de situatie te simuleren.
1.3 Eigenschappen van kansen
In elk kansmodel volgen de kansen dezelfde wetten. We sommen ze op zonderbewijs.
1. De kans van een gebeurtenis is nooit negatief en nooit groterdan 1.
0 ≤ P (A) ≤ 1 voor elke gebeurtenis A.
2. De som van de kansen van alle elementaire uitkomsten is 1.
P (ω1) + P (ω2) + . . .+ P (ωm) = 1 met Ω = ω1, ω2, . . . ωm.
3. De kans van een gebeurtenis is de som van de kansen vanhaar elementaire gebeurtenissen.
P (A) = P (ω1) + P (ω2) + . . .+ P (ωa) met A = ω1, ω2, . . . , ωa ⊆ Ω.
Academiejaar 2009-2010 7
Hoofdstuk 1. 1. OPSTELLEN VAN EEN KANSMODEL
4. De zekere gebeurtenis heeft als kans 1.
P (Ω) = 1.
5. De onmogelijke gebeurtenis heeft als kans 0.
P (∅) = 0.
1.4 Samenvatting
Bij het oplossen van een vraagstuk uit de kansrekening stellen we eerst eenkansmodel op. Dit model omvat altijd het universum Ω, de relevante ge-beurtenissen en kansen.In het voorbeeld van ”het drankprobleem” wordt dit
Ω = 1, 2, 3, 4, 5, 6
P (1) = P (2) = P (3) = P (4) = P (5) = P (6) =16
A = ”1 gooien” = 1B = ”2 of meer gooien” = 2, 3, 4, 5, 6
P (A) = P (1) =16
P (B) = P (2) + P (3) + P (4) + P (5) + P (6) =56
=#B#Ω
Academiejaar 2009-2010 8
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
2 Kansen van gecombineerde gebeurtenissen
Door het invoeren van een kansmodel zijn we in staat om vraagstukken uitde kansrekening te formuleren met behulp van verzamelingen. Daardoorkunnen ook combinaties van gebeurtenissen zoals ”A of B”, ”A en B” en”niet A” vertaald worden naar de verzamelingenleer. Er duiken dan be-kende begrippen op zoals unie, doorsnede en complement. In wat volgtzullen we dan ook gebruik maken van Venndiagrammen. Het universum Ωwordt daarbij voorgesteld als een rechthoek met oppervlakte 1. Gebeur-tenissen worden als figuren binnen deze rechthoek getekend en overlappenelkaar als ze gemeenschappelijke uitkomsten hebben.
A
ΩΩΩΩ B
C
Figuur 1.1: Het universum Ω en 3 gebeurtenissen A, B en C
2.1 Kans van de unie - de somregel
Voorbeeld:
Neem als experiment: gooi een (onvervalste) dobbelsteen op.Het universum is Ω = 1, 2, 3, 4, 5, 6 en P (1) = P (2) = P (3) = P (4) =P (5) = P (6) = 1
6 .Stel A is de gebeurtenis ”oneven gooien”, dan is A = 1, 3, 5 en P (A) = 3
6 .Stel B is de gebeurtenis ”minstens 4 gooien”, dan is B = 4, 5, 6 enP (B) = 3
6 .
De unie van A en B is de gebeurtenis ”oneven gooien of minstens 4 gooi-en”.
A ∪B = 1, 3, 4, 5, 6
P (A ∪B) =566=1 =
36
+36
= P (A) + P (B)
Als we naar het Venndiagram kijken, kunnen we ontdekken waarom P (A ∪B) 6= P (A)+P (B). Bij het optellen van de kansen P (A) en P (B) worden de
Academiejaar 2009-2010 9
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
uitkomsten in de doorsnede van A en B dubbel geteld. Deze dubbele tellingdient dus in de formule voor P (A ∪ B) gecompenseerd te worden door ereen keer de kans P (A ∩B) van af te trekken. We vinden inderdaad:
P (A ∪B) =56
=36
+36− 1
6= P (A) + P (B)− P (A ∩B)
Dit is de somregel:
B A
A en B ΩΩΩΩ
Figuur 1.2: Venndiagram met elkaar overlappende gebeurtenissen
P(A ∪B) = P(A) + P(B)−P(A ∩B).
Bijzonder geval:
Als A ∩B = ∅, dan zal P (A ∪B) = P (A) + P (B).
Als de doorsnede van A en B leeg is, dan kunnen de gebeurtenissen niet
B A
ΩΩΩΩ
Figuur 1.3: Venndiagram met elkaar uitsluitende gebeurtenissen
gelijktijdig optreden (zie figuur). Men spreekt dan over elkaar uitsluiten-de gebeurtenissen.
Academiejaar 2009-2010 10
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
Besluit:Alleen bij elkaar uitsluitende gebeurtenissen mag men voor dekans van de unie de kansen bij elkaar optellen.
2.2 Kans van het complement
Voorbeeld:
Neem als experiment: gooi een (onvervalste) dobbelsteen op.Dan is Ω = 1, 2, 3, 4, 5, 6 en P (1) = P (2) = P (3) = P (4) = P (5) = P (6) =16 .Stel A is de gebeurtenis ”zes gooien”, dan is A = 6Het complement van A is het verschil tussen het universum Ω en A. Wevinden dus:
Ac = Ω \A = ”geen zes gooien” = 1, 2, 3, 4, 5.
Op de figuur kunnen we duidelijk zien dat
A ∪Ac = Ω en A ∩Ac = ∅.
Toepassing van de somregel voor elkaar uitsluitende gebeurtenissen geeftdan
1 = P (Ω) = P (A ∪Ac) = P (A) + P (Ac)
zodatP (Ac) = 1− P (A) = 1− 1
6=
56.
In het algemeen geldt:P(Ac) = 1−P(A).
Ac
A
ΩΩΩΩ
Figuur 1.4: Een gebeurtenis A en haar complement Ac
Academiejaar 2009-2010 11
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
Het oplossen van heel wat oefeningen wordt eenvoudiger dankzijde complementregel. Wanneer het berekenen van de kans vanP(A) van een gebeurtenis A moeilijk verloopt, loont het de moeiteom de kans P(Ac) van het complement proberen uit te rekenen.Vaak is dat rekenwerk heel wat lichter en door de complementregelkan men heel eenvoudig overgaan van P(Ac) naar P(A).
2.3 Voorwaardelijke kansen
Kansen kunnen veranderen naarmate men meer voorkennis heeft of naar-mate bepaalde voorwaarden voldaan zijn. We hebben dan te maken metvoorwaardelijke kansen.
Notatie
AlsA enB gebeurtenissen zijn, dan noteren we met P (A | B) de (voorwaarde-lijke) kans dat A zich voordoet als B reeds is opgetreden.
Voorbeelden:
De kans dat het regent wordt groter als het bewolkt is.
De kans om met een dobbelsteen 6 te gooien verandert als men weetdat men even gegooid heeft. Immers, met een dobbelsteen kan je1,2,3,4,5 of 6 gooien, maar als men weet dat men even gegooid heeft,betekent dit dat men 2,4 of 6 gegooid heeft. De kans om, als je evengegooid hebt, met de dobbelsteen 6 te gooien verandert van 1
6 in 13 .
Uitgewerkt voorbeeld:
Stel dat in een zak 3 witte broodjes respectieveljk met ham, kaas en salamien 2 bruine broodjes respectievelijk met ham en kaas zitten. Kies lukraakeen broodje. Bereken de kans dat het een broodje is met kaas. Bereken ookde kans dat het een broodje is met kaas, als je in een glimp zag dat het eenwit broodje was.We stellen het volgende kansmodel op:Ω = broodjes #Ω = 5A = broodjes met kaas #A = 2B = witte broodjes #B = 3A ∩B = witte broodjes met kaas #(A ∩B) = 1Omdat je lukraak een broodje trekt hebben alle broodjes dezelfde kans. Dekansregel van Laplace geeft dus:
P (broodje met kaas) = P (A) =#A#Ω
=25
Academiejaar 2009-2010 12
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
Als je in een glimp ziet dat het broodje wit is, dan is er maar een broodjemet kaas dat in aanmerking komt, zodat
P (broodje met kaas | wit broodje) = P (A | B) =13
=#(A ∩B)
#B=
#(A∩B)#Ω#B#Ω
=P (A ∩B)P (B)
B A
A en B ΩΩΩΩ
B A
A en B ΩΩΩΩ
Figuur 1.5: Voorwaardelijke kansen met Venndiagrammen
Definitie
Als de kansen van A en B niet 0 zijn, dan definieert men de voorwaarde-lijke kansen
P(A | B) =P(A ∩B)
P(B)=
de kans van de doorsnedede kans van de voorwaarde
enP(B | A) =
P(A ∩B)P(A)
=de kans van de doorsnede
de kans van de voorwaarde
Academiejaar 2009-2010 13
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
2.4 Onafhankelijkheid
Voorbeelden:
In het voorbeeld van de broodjes verandert de kans naarmate we meervoorkennis hebben. Immers,
P (A) = P (broodje met kaas) =25
terwijl
P (A | B) = P (broodje met kaas | wit broodje) =13.
Het al dan niet voorkomen van gebeurtenis B beınvloedt dus de kansvan gebeurtenis A. We zeggen dat A en B afhankelijke gebeurtenis-sen zijn.
De kans om 6 te gooien met een dobbelsteen verandert niet als meneerst kop gooit met een muntstuk. We zeggen dat de gebeurtenissen”6 gooien” en ”kop gooien” onafhankelijk zijn.
Definitie
Stel dat de kansen van A en B niet nul zijn. Dan is B onafhankelijk vanA als en slechts als
P(B | A) = P(B).
Men kan aantonen dat als B onafhankelijk is van A, dan ook A onafhankelijkis van B zodat dan ook
P(A | B) = P(A).
Onafhankelijke gebeurtenissen zijn dus gebeurtenissen waarbij hetal dan niet voorkomen van de ene gebeurtenis de kans van hetoptreden van de andere gebeurtenis niet beınvloedt.
2.5 Kans van de doorsnede - de productregel
Als A en B gebeurtenissen zijn dan kan men de gebeurtenis A en B weer-geven door de verzameling A ∩B.Uit de definitieformules voor voorwaardelijke kansen
P (B | A) =P (A ∩B)P (A)
en P (A | B) =P (A ∩B)P (B)
bekomen we door eenvoudig rekenwerk formules voor de kans van de door-snede:
P(A ∩B) = P(A) ·P(B | A) = P(B) ·P(A | B).
Academiejaar 2009-2010 14
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
Men noemt dit de productregel omdat de kans van de doorsnede hierbijwordt uitgedrukt als een product van twee kansen.
Bijzonder geval:Als de gebeurtenissen A en B onafhankelijk zijn, dan is
P (A | B) = P (A) en P (B | A) = P (B)
en herleidt de productregel zich tot
P(A ∩B) = P(A) ·P(B).
Onthoud dat we deze eenvoudige formule alleen mogen gebruiken als A enB onafhankelijk zijn !
Voorbeelden:
Veronderstel dat men na elkaar een muntstuk en een dobbelsteen op-gooit. Wat is de kans dat men met het muntstuk kop gooit en met dedobbelsteen 4?Stel A = ”kop gooien” en B = ”4 gooien”. Omdat een muntstuk eneen dobbelsteen elkaar niet beınvloeden zijn de gebeurtenissen onaf-hankelijk. Het bijzonder geval van de productregel geeft dus:
P (kop,4) = P (A ∩B) = P (A) · P (B) =12· 1
6=
112.
Trek lukraak twee speelkaarten uit een boek (zonder teruglegging).Wat is de kans dat je eerst schoppen heer en daarna klaveren dametrekt?Stel
A = eerste kaart is schoppen heer
enB = tweede kaart is klaveren dame .
Als men de kaarten niet teruglegt is de uitslag van de tweede trekkingafhankelijk van de uitslag van de eerste trekking. De gebeurtenissenA en B zijn dus afhankelijk. We gebruiken dus de algemene vorm vande productregel:
P (A ∩B) = P (A) · P (B | A).
Bij de eerste trekking zijn er 52 kaarten waaronder schoppen heer.Omdat men lukraak trekt zijn alle kaarten even waarschijnlijk zodatP (A) = 1
52 .
Academiejaar 2009-2010 15
Hoofdstuk 1.2. KANSEN VAN GECOMBINEERDE GEBEURTENISSEN
Als men de eerste keer schoppen heer trekt, zijn er bij de tweede trek-king nog 51 kaarten over waaronder klaveren dame. Omdat men op-nieuw lukraak trekt zijn de 51 kaarten weer even waarschijnlijk. Wevinden dus dat P (B | A) = 1
51 .Dus is
P (A ∩B) = P (A) · P (B | A) =152· 1
51≈ 0.000377
Opmerking:De productregel kan eenvoudig worden uitgebreid worden voor 3 gebeurte-nissen.
Productregel voor 3 onafhankelijke gebeurtenissen A,B en C:
P (A ∩B ∩ C) = P (A) · P (B) · P (C).
Productregel voor 3 niet onafhankelijke gebeurtenissen A,B enC:
P (A ∩B ∩ C) = P (A) · P (B | A) · P (C | A ∩B).
Voorbeeld:Van 480 studenten is 75 % man. Van deze mannen rookt 25 % en van dezemannelijke rokers is 40 % op kot. Als je lukraak een student kiest, danbedraagt de kans dat het een mannelijke roker is die op kot zit 0.75 · 0.25 ·0.40 = 0.075.
Academiejaar 2009-2010 16
Hoofdstuk 1. 3. DE KANSBOOM
3 De kansboom
Het tekenen van een kansboom is een eenvoudig en interessant hulpmiddelom vlot oefeningen op te lossen.
Voorbeeld 1: kansboom van een dobbelsteenIn de kansboom vinden we 6 takken die allen even waarschijnlijk zijn. Jekan met de dobbelsteen 1,2,3,4,5 of 6 gooien telkens met een kans van 1 op6. We schrijven deze (gewone) kansen bij de takken van de kansboom.
1
2
5
3
6
4
1/6
1/6
1/6
1/6
1/6
1/6
OF
Hoe kan je nu de kans zoeken om even te gooien?Even gooien komt overeen met 2 gooien of 4 gooien of 6 gooien. Volgensde somregel is:
P (even gooien) = P (2) + P (4) + P (6) =36
Besluit:Als vanuit het startpunt verschillende takken goed zijn (OF), danmoet je de kansen van deze takken optellen.
Opmerking:Zeg nooit dat ”even gooien” gelijk is aan 2 gooien en 4 gooien en 6 gooi-en. En betekent wiskundig terzelfdertijd. Als je de dobbelsteen 1 keeropgooit, kan je onmogelijk terzelfdertijd 2,4 en 6 gooien.
Voorbeeld 2:In een zak zitten 2 rode en 3 blauwe knikkers. Kies lukraak een knikker uitde zak. De kansboom van dit experiment is:
Academiejaar 2009-2010 17
Hoofdstuk 1. 3. DE KANSBOOM
rode knikker
blauwe knikker
2/5
3/5
Voorbeeld 3:Stel dat in een zak 3 witte broodjes respectievelijk met ham, kaas en salamien 2 bruine broodjes respectievelijk met ham en kaas zitten. Kies lukraakeen broodje. Hier maken we het onderscheid tussen de broodsoort en hetbeleg.
met ham
met kaas 3/5
1/3
met salami
met kaas
met ham bruin brood
wit brood 1/3
1/3
1/2
1/2
2/5
Bij de eerste takken staan gewone kansen maar bij de volgende takken wor-den voorwaardelijke kansen ingevuld volgens de formule van Laplace.Bij het tekenen van een kansboom speelt dikwijls een tijdsverloop: eerst kijkje of het broodje wit of bruin is en daarna doe je het open om het beleg tezien.Merk op dat als je weet dat het een bruin broodje is, er geen salami op kanzijn.
Academiejaar 2009-2010 18
Hoofdstuk 1. 3. DE KANSBOOM
Hoe kan de kansboom ons helpen om oefeningen op te lossen?Neem vorige kansboom en maak het product van 2 opeenvolgende takken.Wat is de betekenis van het resultaat? Vermits de eerste kans een gewonekans is en de volgende een voorwaardelijke kans, maken we volgend product:P (A) · P (B | A). Volgens de productregel is dit gelijk aan P (A ∩ B). Hetproduct van de kansen bij opeenvolgende takken van een kansboom geeft dekans van hun doorsnede.
De kansboom kan uitgebreid worden: bij de eerste tak van de kansboomkomt een gewone kans, bij de volgende takken komen voorwaarde-lijke kansen.
B C A P(CA∩∩∩∩B) P(BA) P(A)
P (A) · P (B | A) · P (C | A ∩B) = P (A ∩B ∩ C)
Als je de kansen van opeenvolgende takken van een kansboom ver-menigvuldigt dan krijg je automatisch de kans van hun doorsnede.Zo kan je het opschrijven van ingewikkelde, lange formules ver-mijden.
Je moet niet altijd de volledige kansboom tekenen. Het deel dat je no-dig hebt, volstaat. Als je enkel geınteresseerd bent in de kans van A ∩ B,dan teken je:
B A P(BA) P(A)
P (A) · P (B | A) = P (A ∩B)
In de kansboom geeft onafhankelijkheid:
B A P(B) P(A)
P (A) · P (B) = P (A ∩B)
Vooral bij het herhalen van experimenten kan de kansboom inzicht geven inde formules. Hierbij zullen wij slechts de takken van de kansboomtekenen die wij nodig hebben.
Academiejaar 2009-2010 19
Hoofdstuk 1. 3. DE KANSBOOM
Pas op voor volgende oefening:Trek lukraak 2 kaarten uit een gewoon kaartspel. Wat is de kans dat deeerste kaart een aas is en de tweede kaart rood? (Veronderstel dat we dekaarten niet terugleggen).
de tweede kaart is rood de eerste kaart is een aas ? 4/52
De voorwaardelijke kans kan je niet invullen omdat je niet weet of de eerstekaart een zwarte of een rode aas was. Toch kan je de oefening oplossendoor volgende 2 gebeurtenissen die elkaar niet overlappen te bekijken:(de eerste kaart is een rode aas en de tweede kaart is rood) ofwel (de eerstekaart is een zwarte aas en de tweede kaart is rood).
de tweede kaart is rood de eerste kaart is een rode aas 25/51
de tweede kaart is rood de eerste kaart is een zwarte aas 26/51 2/52
2/52
De gevraagde kans is
252· 25
51+
252· 26
51=
252
=126.
Academiejaar 2009-2010 20
Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN
KANSVERDELING
4 Stochastische veranderlijken en hun kansverde-ling
Stochastishe veranderlijken zijn toevalsveranderlijken.
Voorbeeld:Experiment: gooi een dobbelsteen op.Het aantal ogen dat je gooit wordt door het toeval bepaald. Als X dit aantalogen voorstelt, dan wordt X een toevalsveranderlijke genoemd.
4.1 Kansverdeling van 1 stochastische veranderlijke
De kansverdeling van X geeft de kans voor elke waarde van detoevalsveranderlijke X.Het begrip kansverdeling van X is zeer belangrijk:
1. Zoek welke waarden X kan aannemen.
2. Zoek hoe de kansen verdeeld zijn over deze X-waarden.
Voorbeeld:Bij het experiment ”gooi en dobbelsteen op” is de kansverdeling:
k P (X = k)1 1/62 1/63 1/64 1/65 1/66 1/6
1
Opmerking:In hoofdstuk 3 komen twee belangrijke kansverdelingen aan bodnamelijk de binomiale verdeling en de normale verdeling.
4.2 De gezamenlijke kansverdeling van 2 stochastische ver-anderlijken
Voorbeeld:Veronderstel dat er een enquete wordt afgenomen onder 51 studenten van2TI, waarbij gevraagd wordt naar een aantal persoonlijke gegevens. Kieslukraak een student uit 2TI die deelgenomen heeft aan de enquete.X is het antwoord op de vraag ”Is de student op kot?” en Y het antwoordop de vraag ”Rookt de student?”.De 51 ruwe gegevens zijn (slechts enkele gegevens vind je hier terug):
Academiejaar 2009-2010 21
Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN
KANSVERDELING
De eerste student is noch kotstudent noch roker dus:(x1, y1) = (niet kot, niet roker)(x2, y2) = (niet kot, roker)· · ·(x51, y51) = (kot, niet roker).
X kan slechts 2 waarden aannemen x′1 = kotstudent of x′2 = geen kot-student.Y kan slechts 2 waarden aannemen y′1 = roker of y′2 = geen roker.
P (X = x′1, Y = y′1) stelt de kans voor dat de student kotstudent en ro-ker is. Dergelijke kans wordt een gezamenlijke kans genoemd.
De tabel die alle gezamenlijke kansen bevat, wordt de gezamenlijke kans-verdeling van X en Y genoemd.Zoek hiervoor P (X = x′i, Y = y′i) waarbij i = 1, 2 en j = 1, 2. Dit geeftconcreet:
P (X = x′i, Y = y′j) y′j roker geen rokerx′i
kotstudent 5/51 16/51geen kotstudent 8/51 22/51
Betekenis: 5 op de 51 studenten zijn op kot en roken m.a.w. de kans dateen lukraak gekozen student op kot is en rookt is ongeveer 10%.
De kansverdeling van X en Y afzonderlijk vind je door aan de randhorizontaal en verticaal de sommen te maken. Deze verdelingen wordendaarom de marginale verdelingen genoemd.
P (X = x′i, Y = y′j) y′j roker geen roker P (X = x′i)x′i
kotstudent 5/51 16/51 21/51geen kotstudent 8/51 22/51 30/51P (Y = y′j) 13/51 38/51 51/51
Betekenis: de kans dat een lukraak gekozen student op kot woont, is 21 op51 of ongeveer 41% van de studenten is op kot.
Algemeen:
P (X = x′i) = P (X = x′i, Y = y′1)+P (X = x′i, Y = y′2)+. . .+P (X = x′i, Y = y′m)
P (Y = y′j) = P (X = x′1, Y = y′j)+P (X = x′2, Y = y′j)+. . .+P (X = x′n, Y = y′j)
Academiejaar 2009-2010 22
Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN
KANSVERDELING
Berekenen van voorwaardelijke kansen
De kans dat een lukraak gekozen student rookt als deze student op kot is, isgelijk aan 5/21 ≈ 24%. Er zijn 2 mogelijkheden om deze kans te berekenen:
1. De eenvoudigste werkwijze gebruikt de regel van Laplace maar je moetdan wel beschikken over de aantallen.
aantal gunstigeaantal mogelijke
=aantal kotstudenten die roken
aantal kotstudenten=
521
2. Beschik je over de kansen dan gebruik je
kans van de doorsnedekans van de voorwaarde
=5512151
=521
Onafhankelijke stochastische veranderlijken
Bij onafhankelijke gebeurtenissen is volgens de productregel:
P (A ∩B) = P (A) · P (B)
Vandaar dat X en Y onafhankelijk zijn als voor alle x′i en y′j de gezamenlijkekans van X en Y gelijk is aan het product van de marginale kansen. Dus:
X en Y zijn onafhankelijkm
P (X = x′i, Y = y′j) = P (X = x′i) · P (Y = y′j) voor elke i en j.
Enkele uitgewerkte gezamenlijke kansverdelingen
Voorbeeld 1:Kies lukraak een student 2TI die meegedaan heeft aan de enquete. Stel X =”het aantal ongevallen als fietser” en Y = ”het geslacht”. Zijn de meisjesvan 2TI voorzichtiger op de fiets dan de jongens?
De gezamenlijke kansverdeling van X en Y en de marginale verdeling krijgje in de volgende tabel.
P (X = x′i, Y = y′j) y′j man vrouw P (X = x′i)x′i
0 ongevallen 6/51 29/51 35/511 ongeval 5/51 6/51 11/51
2 ongevallen 1/51 3/51 4/513 ongevallen 1/51 0 1/51P (Y = y′j) 13/51 38/51 51/51
Academiejaar 2009-2010 23
Hoofdstuk 1.4. STOCHASTISCHE VERANDERLIJKEN EN HUN
KANSVERDELING
Als de student een jongen is, is de kans dat hij als fietser nog geen ongevalgehad heeft gelijk aan 6 op 13 (= 46%). Betreft het een meisje dan is dekans dat zij als fietser nog geen ongeval gehad heeft gelijk aan 29 op 38 (=76%).Een ongeval vinden we terug bij 5 jongens en 6 meisjes. Staar je niet blindop deze aantallen. Bekijk het relatief: 5 van de 13 jongens (= 38.5%) had 1ongeval als fietser tegen 6 van de 38 meisjes (= 15.8%).
Opmerking:1 meer of minder verandert het percentage bij de jongens met 1 op 13 dusbijna 8 procent. Bij de meisjes is dit slechts 1 op 38 dus 3 procent.
Voorbeeld 2:Zijn meisjesstudenten van 2TI meer gemotiveerd dan hun mannelijke colle-ga’s?
Stel X = ”motivatie” (in de enquete vragen we ”Studeer je omdat dit voorje toekomst nu eenmaal moet of omdat je het graag doet?”)Stel Y = ”geslacht”.De gezamenlijke kansverdeling is:
P (X = x′i, Y = y′j) y′j man vrouw P (X = x′i)x′i
moet 8/51 4/51 12/51graag 5/51 34/51 39/51
P (Y = y′j) 13/51 38/51 51/51
Als de student een jongen is, is de kans dat hij ’graag’ heeft geantwoordgelijk aan 5 op 13 (≈ 38%). Betreft het een meisje, dan is de kans dat zij’graag’ heeft geantwoord gelijk aan 34 op 38 (≈ 92%).
Academiejaar 2009-2010 24
Hoofdstuk 1. 5. OEFENINGEN
5 Oefeningen
Reeks 1
1. Drie studenten Jan, Piet en Tom zijn de enige deelnemers aan eenwedstrijd. De kans dat Jan wint is het dubbele van de kans dat Tomwint en Jan en Piet hebben dezelfde kans om te winnen. Er kan slechts1 persoon de wedstrijd winnen. Zoek de kans dat Tom de wedstrijdwint.
2. Een dobbelsteen is zo gewogen dat de kans om een zeker aantal ogente gooien, evenredig is met dit aantal. Zoek de kans om 5 te gooienmet deze dobbelsteen.
3. Op 10 meisjes van een klas zijn er 3 op kot. Men kiest lukraak 2meisjes.
Zoek de kans dat ze beiden op kot zijn.
Zoek de kans dat minstens een van beiden op kot is.
4. In een stad hebben 80 % van de inwoners een TV, 90 % heeft een radioen 75 % heeft een radio en een TV.
Wat is de kans dat als een persoon een radio bezit, deze ook eenTV bezit?
Wat is de kans dat als een persoon een TV bezit, deze geen radiobezit?
5. De kans dat een gehuwde man naar TV kijkt is 0,5 terwijl die kansvoor zijn vrouw 0,7 is. De kans dat een man kijkt als zijn vrouw kijktis 0,6.
Zoek de kans dat beiden naar TV kijken.
Zoek de kans dat alleen de man kijkt.
Zoek de kans dat geen van beiden kijken.
Zoek de kans dat minstens 1 van beiden kijkt.
6. Een doos bevat vier witte en drie zwarte bollen en een tweede doosbevat drie witte en vijf zwarte bollen. Men neemt lukraak een boluit de eerste doos en plaatst deze zonder te zien in de tweede doos.Daarna trekt men lukraak een bol uit de tweede doos.
Teken de kansboom.
Wat is de kans dat deze tweede bol wit is?
Wat is de kans dat beide bollen van verschillende kleur zijn?
Academiejaar 2009-2010 25
Hoofdstuk 1. 5. OEFENINGEN
7. Een rode doos bevat vier witte en drie zwarte bollen en een blauwedoos bevat drie witte en vijf zwarte bollen. Men kiest lukraak een doosen neemt uit deze doos lukraak een bol.
Wat is de kans dat de getrokken bol wit is?
Wat is de kans dat je de blauwe doos kiest en hieruit een wittebol neemt.
Wat is de kans dat je een witte bol trekt als je de blauwe dooskoos?
8. Gooi een dobbelsteen op. Als je meer dan 5 gooit, moet je lukraak eenbal trekken uit een bak die 3 groene en 7 rode ballen bevat. Andersmoet je lukraak een bal trekken uit een bak die 6 groene en 4 rodeballen bevat. Wat is de kans dat je een rode bal trekt?
9. Een bak bevat 5 zwarte en 2 rode ballen. Men trekt lukraak 3 ballen.Hoe groot is de kans om van iedere kleur minstens 1 bal te trekken?
10. Stel: voor elk kind van een gezin met 3 kinderen is de kans op eenjongen gelijk aan de kans op een meisje.
Wat is de kans dat minstens 1 kind uit een gezin met 3 kindereneen meisje is?
Als minstens een kind uit zo’n gezin een meisje is, wat is de kansdat ze allen meisjes zijn?
Wat is de kans dat er precies 2 jongens zijn in zo’n gezin?
11. In een doos zitten 5 rode, 4 witte en 1 zwart briefje. Trek lukraak 3briefjes.
Wat is de kans dat alle briefjes dezelfde kleur hebben?
Wat is de kans dat minstens 1 briefje wit is?
Wat is de kans dat je van elke kleur een briefje trekt?
Wat is de kans dat het eerste briefje wit is en de 2 volgende rood?
Wat is de kans dat het eerste briefje wit is en de anderen niet?
12. Werp 2 dobbelstenen op.
Wat is de kans dat de som der ogen van 8 of 12 is?
Wat is de kans dat je 2 zessen gooit als de som der ogen meerdan 9 is?
13. Een doos bevat 5 radiolampen waarvan er 2 defect zijn. Neem lukraak3 lampen. Wat is de kans dat alleen de derde lamp defect is?
Academiejaar 2009-2010 26
Hoofdstuk 1. 5. OEFENINGEN
14. Trek lukraak 2 kaarten uit een gewoon kaartspel. Wat is de kans datde eerste kaart een heer is en de tweede kaart rood?
15. Gooi 3 keer een muntstuk op. Wat is de kans om minstens 1 keer kruiste gooien?
16. Twee machines produceren respectievelijk 70 % en 30 % van de totaleproductie. Bij deze machines zijn respectievelijk 2 % en 3 % vande geproduceerde stukken defect. Neem lukraak een stuk uit dezeproductie
Wat is de kans dat het defect is? Wat is de kans dat als het stuk defect is, het door de eerst machine
is gemaakt?
17. Hoe groot is de kans dat
in een reeks van 25 studenten iedereen een verschillende verjaar-dag heeft?
minstens 2 studenten op dezelfde dag jarig zijn?
18. Wordt in volgende gezamenlijke kansverdeling de motivatie van eenstudent beınvloed door het al dan niet op kot zijn?
P (Xx′i, Y = y′j) y′j op kot niet op kot P (X = x′i)x′i
moet 13 % 36 % 49 %graag 21 % 30 % 51 %
P (Y = y′j) 34 % 66 % 100 %
Bereken P(graag indien kotstudent). Bereken P(graag indien geen kotstudent).
19. De gezamenlijke kansverdeling van X en Y is:
P (X = x′i, Y = y′j) y′j 1 2 3 4x′i2 0.06 0.06 0.04 0.045 0.15 0.12 0.10 0.137 0.09 0.12 0.06 0.03
Zijn X en Y onafhankelijk?
20. Geef een verdeling voor X en een verdeling voor Y . Stel daarna eengezamenlijke kansverdeling op, waarbij X en Y onafhankelijk zijn.
21. Gooi 2 dobbelstenen op en stel de gezamenlijke kansverdeling op vanhun aantal ogen.
Academiejaar 2009-2010 27
Hoofdstuk 1. 5. OEFENINGEN
Reeks 2
1. Stel dat er drie deuren A,B en C opgesteld staan. Achter een vande deuren zit een fantastische computer, achter de andere twee zitniks. Zonder verdere informatie mag je een van de drie deuren kiezen.Nadat je je keuze gemaakt hebt, wordt ee van de twee overige deurengeopend en het blijkt dat daar de computer niet zit. Je krijgt nu demogelijkheid om eventueel een andere keuze te maken.Als je bij je eerste keuze blijft, wat is dan de kans dat je de computerwint?Als je je keuze verandert, wat is dan de kans dat je de computer wint?
2. Examenvraag juni 2006Twee dozen zijn gevuld met ballen: in doos 1 zitten 3 witte en 7 zwarteballen, in doos 2 zitten 6 witte en 4 zwarte. Iemand neemt een bal uitdoos 1 en legt hem in doos 2 zonder op de kleur te letten. Vervolgenstrekt hij lukraak een bal uit doos 2.Als deze bal wit is, wat is dan de kans dat hij een witte bal van doos1 in doos 2 had gelegd?
3. We beschouwen een dobbelspel met de volgende regels: een spelergooit twee dobbelstenen. Is het aantal ogen 4, 7 of 11, dan wint hij;is het aantal ogen 2, 3, 5, 6, 9, 10 of 12, dan verliest hij. Gooit hij 8dan moet hij de dobbelstenen voortgooien totdat hij ofwel opnieuw 8gooit, in welk geval hij wint, ofwel 7 gooit, in welk geval hij verliest.Wat is de kans op winst in dit dobbelspel?
4. In een school met 77 personeelsleden wordt een griepvaccinatie geor-ganiseerd. Enkele dagen later houdt men een kleine enqute waarinmen naar het geslacht vraagt en naar eventuele bijwerkingen van degriepvaccinatie. Stel dat de antwoorden als volgt verdeeld zijn:
mannen vrouwenbijwerkingen 15 6
geen bijwerkingen 40 16
(a) Als de veranderlijke X het geslacht voorstelt en de veranderlijkeY het antwoord op de vraag ’bijwerkingen of niet?’, zijn X en Ydan onafhankelijk? Argumenteer je antwoord.
(b) Als je lukraak een van de 77 personeelsleden kiest en het blijktiemand met bijwerkingen te zijn , wat is dan de kans dat het omeen vrouw gaat?
5. Je werkt in een ziekenhuis op de dienst ’Hematologie’. Op zekere dagarriveert er een container met bloedstalen. 35% van die bloedstalen
Academiejaar 2009-2010 28
Hoofdstuk 1. 5. OEFENINGEN
is van bloedgroep A, 65% van bloedgroep B. In een omslag zitten 15etiketten met een ’A’, 20 etiketten met een ’B’ en 25 etiketten meteen ’O’. Je kiest een willekeurig bloedstaal uit de container en nadientrek je lukraak een etiket uit de omslag.
(a) Teken de (volledige) kansboom van dit experiment.
(b) Als je eerst lukraak een bloedstaal kiest en dan lukraak een etiket,wat is dan de kans dat het bloestaal een verkeerd etiket krijgt?
Academiejaar 2009-2010 29
Hoofdstuk 1. 6. KENNISBASIS STATISTIEK
6 Kennisbasis Statistiek
De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.
Kansrekening
Kansrekening > Uitkomst en uitkomstruimte
Kansrekening > Uitkomst en uitkomstruimte > Complement
Kansrekening > Uitkomst en uitkomstruimte > Doorsnede
Kansrekening > Uitkomst en uitkomstruimte > Vereniging
Kansrekening > Kans en kansruimte
Kansrekening > Kans en kansexperiment > Kansdefinitie
Kansrekening > Kans en kansexperiment > Kansexperimenten
Kansrekening > Kans en kansexperiment > Kansvariabelen
Kansrekening > Kans en kansexperiment > Frequentistische kans-model
Kansrekening > Kansregels
Kansrekening > Kansregels > Somregel
Kansrekening > Kansregels > Complementaire kansen
Kansrekening > Kansregels > Algemene somregel
Kansrekening > Kansregels > Productregels
Kansrekening>Kansregels> Productregels>Voorwaardelijke kans
Kansrekening>Kansregels> Productregels> Simultane en voorwaarde-lijke kansen
Kansrekening > Kansregels > Productregels > Algemene product-regel
Kansrekening > Kansregels > Productregels > Productregel vooronafhankelijke gebeurtenissen
Kansrekening > Kansregels > Productregels > Onafhankelijkheid
Academiejaar 2009-2010 30
2Beschrijvende statistiek
31
Hoofdstuk 2. 1. INLEIDING
1 Inleiding
Van een verzameling personen, dieren of voorwerpen willen wij een eigen-schap observeren. Meestal beschikken wij slechts over de observaties vaneen deelverzameling. Een fabriek is bijvoorbeeld geınteresseerd in de le-vensduur van een productie lampen. Om nog zoveel mogelijk lampen tekunnen verkopen, observeert men de levensduur van een beperkt aantal -lukraak gekozen - lampen van deze productie. De volledige verzamelingnoemt men de populatie en de deelverzameling hiervan een steekproef. Debeschrijvende statistiek probeert de geobserveerde gegevens van de populatieof de steekproef te verwerken.
De beschrijvende statistiek
zal de gegevens samenvatten in een frequentietabel,
zal tekeningen maken om een snelle interpretatie van de gegevensmogelijk te maken,
zal het centrum van de gegevens zoeken,
zal de spreiding van de gegevens bekijken.
1.1 Soorten veranderlijken
Nemen we als populatie “de studenten 2TI die meegedaan hebben aan eenenquete”. In deze enquete vroegen we naar het geboortejaar, het geslacht, delengte, de bloedgroep, ... De observaties veranderen van persoon tot persoon.Geboortejaar, geslacht, lengte en bloedgroep zijn dus veranderlijken. Wijkunnen het onderscheid maken tussen:
De kwantitatieve en de kwalitatieve veranderlijke
Het geboortejaar en de lengte zijn kwantitatieve veranderlijken omdat hetcijfergegevens zijn.Het geslacht (man of vrouw) en de bloedgroep (A,B, AB of O) zijn kwalita-tieve veranderlijken omdat het geen cijfergegevens zijn.
De discrete en continue veranderlijke
Zowel de kwalitatieve als de kwantitatieve veranderlijke kan discreet of conti-nu zijn. Bij een discrete variabale zijn er hiaten tussen de mogelijke waarden.Bij een continue variabele zitten er tussen elke twee willekeurige waardennog mogelijkheden.Bij de kwalitatieve variabelen is de bloedgroep een discrete variabele omdater slechts vier mogelijke bloedgroepen zijn. De haarkleur is een continue
Academiejaar 2009-2010 32
Hoofdstuk 2. 1. INLEIDING
kwalitatieve variabele omdat er oneindig veel tussenschakeringen zijn.Bij de kwantitatieve variabelen zijn het geboortejaar en het aantal jongensdiscrete variabelen. De lengte daarentegen is een continue kwantitatieve va-riabele, maar door haar af te ronden geven wij haar een discreet uitzicht.Tellingen zullen altijd discrete variabelen geven. Metingen zijn continu enworden steeds afgerond.
Academiejaar 2009-2010 33
Hoofdstuk 2. 2. DISCRETE GEGEVENS
2 Discrete gegevens
Nemen we als populatie “de studenten die meegedaan hebben aan de sep-temberzittijd van het tweede jaar informatica in het jaar ...”. Wij observerende punten voor statistiek van deze studenten. “De punten voor statistiek” iseen discrete kwantitatieve variabele. Wij noteren de naam van deze veran-derlijke met de hoofdletter X, wat inhoudt dat men overal X mag vervangendoor de tekst “de punten voor statistiek”. De ruwe fictieve gegevens zijn:
17 13 14 9 4 17 12 14 13 811 15 12 17 13 15 12 16 12 1510 3 15 10 8 13 13 9 2 135 10 5 9 11 10 17 16 8 14
Tabel 2.1: Ruwe gegevens: punten voor statistiek.
Voor de concrete waarnemingsgetallen van de variabele X gebruiken wij dekleine letter x.
x1 = 17, x2 = 13, x3 = 14, x4 = 9, x5 = 4...
De grootte van de populatie noteren wij met m. De populatiegrootte m isgelijk aan 40 studenten.
2.1 De frequentietabel
De eerste opdracht van de beschrijvende statistiek bestaat erin de gegevenssamen te vatten in een tabel: de frequentietabel. Voor de ruwe gegevens uittabel 2.1 wordt de frequentietabel afgebeeld in tabel 2.2.
De verschillende mogelijkheden en hun rangnummer
Als wij de ruwe gegevens bekijken, stellen wij vast dat alleen 2, 3, 4, 5, 8, 9,10, 11, 12, 13, 14, 15, 16 en 17 als punten voor statistiek voorkomen. Vande 40 gegevens zijn er slechts 14 verschillend. Het aantal verschillende voor-komende gegevens noteren we door q. Dus hier is q = 14. Het rangnummeri kan bijgevolg nooit groter zijn dan q.x′i stelt de i-de voorkomende mogelijkheid voor. In dit voorbeeld wordt dit:
x′1 = 2, x′2 = 3, x′3 = 4, ...
De frequentie en de cumulatieve frequentie
Indien we de voorkomende gegevens turven, bekomen we het aantal keer datx′i voorkomt. Dit aantal wordt de absolute frequentie van x′i genoemd. Wijnoteren dit met het symbool fi. Zo vertelt de absolute frequentie dat vierstudenten 17 op 20 behalen.
Academiejaar 2009-2010 34
Hoofdstuk 2. 2. DISCRETE GEGEVENS
i x′i Turven fi Fi ri (%) Ri (%)1 2 | 1 1 2,5 2,52 3 | 1 2 2,5 5,03 4 | 1 3 2,5 7,54 5 || 2 5 5,0 12,55 8 ||| 3 8 7,5 20,06 9 ||| 3 11 7,5 27,57 10 |||| 4 15 10,0 37,58 11 || 2 17 5,0 42,59 12 |||| 4 21 10,0 52,5
10 13 |||||| 6 27 15,0 67,511 14 ||| 3 30 7,5 75,012 15 |||| 4 34 10,0 85,013 16 || 2 36 5,0 90,014 17 |||| 4 40 10,0 100,0
40 100,0
Tabel 2.2: Frequentietabel: punten voor statistiek
Om vlug fouten te detecteren (zoals een gegeven ontbreekt of werd 2 keergeturfd), controleren we dat:
f1 + f2 + . . .+ fq = m
m.a.w. de som van de absolute frequenties van alle verschillende mogelijk-heden moet gelijk zijn aan de populatiegrootte.Per definitie is de i-de cumulatieve frequentie de som van de i-de frequentieen alle voorgaande frequenties:
Fi = f1 + f2 + . . .+ fi
Zo vertelt F6 dat 11 studenten een onvoldoende hebben voor statistiek.Aangezien Fq de som is van alle frequenties, moet Fq = m.
De relatieve en de cumulatieve relatieve frequentie
Vragen zoals “Hebben veel studenten 17 op 20?” en “Zijn er veel studentengebuisd?”, hangen af van de populatiegrootte. Daarvoor definieren we enkelegrootheden die onafhankelijk zijn van de populatiegrootte.De relatieve frequentie, ri, bekomen wij door de absolute frequentie te delendoor de populatiegrootte.
ri =fim
Meestal drukt men de relatieve frequentie uit in procenten. Via de relatievefrequentie vinden wij dat 4 op de 40 studenten 17 op 20 heeft, m.a.w. 10%van de studenten behaalt 17 op 20 voor statistiek.
Academiejaar 2009-2010 35
Hoofdstuk 2. 2. DISCRETE GEGEVENS
De som van alle relatieve frequenties is gelijk aan 1 (of 100%). Omwille vanafrondingsfouten zal het resultaat meestal ongeveer gelijk aan 1 zijn.De cumulatieve relatieve frequentie bekomen we door de absolute cumula-tieve frequentie te delen door het totaal aantal gegevens. Zij wordt ook inprocenten uitgedrukt. Zo heeft 27,5% van de studenten een onvoldoendevoor statistiek.
2.2 Grafische voorstellingen
De frequentietabel is een goed hulpmiddel om de onoverzichtelijkheid vande ruwe gegevens te ordenen. Een tweede mogelijkheid om de gegevens tekunnen bestuderen is de gegevens grafisch voor te stellen. Met de grafischevoorstelling kan de lezer in een oogopslag belangrijke conclusies trekken uitde beschikbare gegevens. We bespreken kort enkele veel gebruikte soortendiagrammen.
Het staafdiagram
Het meest voorkomend diagram is het staafdiagram. Er zijn verschillendestaafdiagrammen: verticaal, horizontaal, geclusterd of gestapeld.Bij dit type grafiek worden de verschillende gegevens uitgezet op de x-as,bijeen vertikaal staafdiagram, of op de y-as, bij een horizontaal staafdiagram.De lengte van de staaf komt overeen met het aantal keer dat het gegevenvoorkomt, m.a.w. de absolute frequentie.
Figuur 2.1: Een staafdiagram van de punten voor statistiek
In figuur 2.1 valt onmiddelijk op dat 13 punten het meest voorkomt en datniemand meer dan 17 op 20 heeft. Ook abnormaliteiten vallen onmiddelijkop. Zo heeft niemand een 6 of 7 gescoord.
Academiejaar 2009-2010 36
Hoofdstuk 2. 2. DISCRETE GEGEVENS
Het taartdiagram
Een ander populaire voorstelling is het taartdiagram zoals in figuur 2.2 weer-gegeven. De totale oppervlakte van de taart is 100%. De taart wordt ver-deeld in een aantal sectoren dat overeenkomt met het aantal verschillendegegevens. De oppervlakte van elk taartstuk is evenredig met de relatievefrequentie.
1
2
3
4
5
6
7
1024x7681280x1024
800x600
ongekend
1152x8641600x1200
640x480
Figuur 2.2: De verdeling van de resoluties bij de surfers voor augustus 2006(bron: http://www.thecounter.com)
Het pictogram
Een derde voorstelling is het pictogram. Bij een pictogram worden figurengebruikt om het aantal aan te duiden. In figuur 2.3 komt een figuur overeenmet vijf studenten. Om minder dan vijf studenten weer te geven, wordt defiguur afgesneden.
Figuur 2.3: Wijze waarop een student naar de universiteit gaat (bron:http://www.cll.coventry.ac.uk/Volume/Vol0/stacpic.htm)
Academiejaar 2009-2010 37
Hoofdstuk 2. 2. DISCRETE GEGEVENS
Een pictogram wordt vooral gebruikt in situaties waar men ook het staaf-diagram kan gebruiken. Een pictogram fleurt de boel wat extra op.
Het spreidingsdiagram
In een spreidingsdiagram wordt gezocht naar de samenhang tussen tweevariabelen. Voor een spreidingsdiagram verzamelt men de gegevens vantwee variabelen. De gegevens vormen dus steeds koppels. Een variabelewordt op de x-as aangeduid, de andere op de y-as. Op het belang van hetspreidingsdiagram en de samenhang tussen twee variabelen komen we laternog terug.
Figuur 2.4: Het verband tussen de lengte en het gewicht van de studenten2 TI.
2.3 Het centrum van de gegevens
Een derde taak van de beschrijvende statistiek is kenmerkende getallen voorhet centrum van de gegevens zoeken.
De modus
De modus is het gegeven met de grootste frequentie. Het kan gebeuren dater 2 modussen zijn; Men spreekt dan van een bimodaal. Komen alle gegevensevenveel voor, dan is er geen modus.De modus is vooral geschikt voor kwalitatieve gegevens.Voor de punten vanstatistiek is de modus gelijk aan 13 omdat 13 op 20 het meest voorkomt. Inhet staafdiagram in figuur 2.1 valt de modus onmiddellijk op.
De mediaan
De mediaan is het middelste gegeven wanneer de gegevens geordend zijn vanklein naar groot. Bij een even aantal gegevens zijn er 2 middelsten en de
Academiejaar 2009-2010 38
Hoofdstuk 2. 2. DISCRETE GEGEVENS
mediaan is dan de helft van de som van de 2 middelste gegevens.Voor de punten statistiek is de mediaan (12 + 12)/2 = 12. Bij het zoekennaar de mediaan is het noodzakelijk de gegevens te ordenen. In een tabelzijn de gegevens geordend en de cumulatieve frequentie geeft snel de waardevan de middelste gegevens.De mediaan gebruikt alleen de middelste gegevens en laat dus veel informatieverloren gaan. Daar tegenover staat dat de mediaan geen last heeft vanextreme gegevens.
Het rekenkundig gemiddelde
Het rekenkundig gemiddelde is de som van alle gegevens gedeeld door hetaantal gegevens.De notatie voor het rekenkundig gemiddelde is:
µX voor de gegevens van de populatie.
X voor de gegevens van een steekproef.
Het gebruik van Griekse letters geeft steeds aan dat wij met de gegevensvan een populatie te doen hebben. Als er slechts sprake is van een variabeleschrijven wij meestal µ in plaats van µX
Het rekenkundig gemiddelde bij ruwe gegevens xi
De ruwe gegevens zijn de gegevens zoals ze zich voordoen, m.a.w. de gege-vens zijn dan nog niet gerangschikt in een tabel.Voor de eenvoud nemen wij een kleine populatie met als ruwe gegevens: 5,2, 4, 6, 4, 6, 6 en 7. Het rekenkundig gemiddelde is:
µ =5 + 2 + 4 + 6 + 4 + 6 + 6 + 7
8=
408
= 5
Algemeen kunnen we zeggen:
µ =x1 + x2 + . . .+ xm
m(2.1)
Het rekenkundig gemiddelde van getabelleerde gegevens
Wij kunnen bovenstaande gegevens rangschikken van klein naar groot. Ditverandert het gemiddelde niet want de optelling is commutatief. We krijgen:2, 4, 4, 5, 6, 6, 6, 7. Nu zijn 2, 4, 5, 6 en 7 de verschillende voorkomendegegevens. Zij komen respectievelijk 1, 2, 1, 3 en 1 keervoor.
µ =2 + 4 + 4 + 5 + 6 + 6 + 6 + 7
8
=2 · 1 + 4 · 2 + 5 · 1 + 6 · 3 + 7 · 1
8
Academiejaar 2009-2010 39
Hoofdstuk 2. 2. DISCRETE GEGEVENS
=408
= 5
Algemeen kunnen we zeggen:
µ =x′1 · f1 + x′2 · f2 + . . .+ x′q · fq
m(2.2)
waarbij q het aantal verschillende gegevens, x′i het i-de voorkomende gege-ven, fi de frequentie van x′i en m het totaal aantal gegevens is.We kunnen de formule herschrijven met de relatieve frequentie ri(= fi/m):
µ = x′1 · r1 + x′2 · r2 + . . .+ x′q · rq (2.3)
In kansrekening is ri = P (X = x′i) en wordt het gemiddelde:
µ = x′1 · P (X = x′1) + x′2 · P (X = x′2) + . . .+ x′q · P (X = x′q)
In ons voorbeeld van de punten voor statistiek uit tabel 2.1 zijn de kentallenvoor het centrum van de gegevens:
modus 13mediaan 12gemiddelde 11,5
We merken op dat de drie kentallen hier even geschikt zijn om het centrumvan de gegevens weer te geven. Dit is niet altijd het geval: als je het centrumvan de gegevens zoekt moet je controleren of het kental wel degelijk hetcentrum van de gegevens aanduidt.
2.4 De spreiding van de gegevens
Naast het centrum van de gegevens zoekt de beschrijvende statistiek ooknaar de spreiding van de gegevens t.o.v. het rekenkundig gemiddelde.
Het bereik van de gegevens
Bij de punten voor statistiek vinden wij lage en hoge scores. Om de spreidingvan de gegevens gemakkelijk weer te geven kunnen wij het bereik van degegevens berekenen. Het bereik (de range) is het grootste gegeven min hetkleinste gegeven en is dus zeer eenvoudig te berekenen.Het bereik wordt alleen bepaald door de 2 uiterste gegevens. Het kan echterzijn dat de gegevens dicht bij mekaar liggen en de spreiding dus klein isterwijl de uiterste waarden toevallig ver van mekaar liggen.
Academiejaar 2009-2010 40
Hoofdstuk 2. 2. DISCRETE GEGEVENS
De variantie
Een ander kental voor de spreiding dat alle gegevens gebruikt is de variantie.Zij onderzoekt of de gegevens al dan niet dichtbij het gemiddelde liggen. Devariantie bekijkt de gemiddelde kwadratische afwijking van de gegevens tenopzichte van het rekenkundig gemiddelde.Voor de populatie noteren wij σ2
X (de gekwadrateerde Griekse letter sigma)en voor een steekproef s2
X . Als er slechts 1 variabele is, wordt de index Xweggelaten.Om de spreiding weer te geven, gebruiken we de gemiddelde kwadratischeafwijking daar de gemiddelde afwijking ten opzichte van het rekenkundiggemiddelde onbruikbaar is omdat zij altijd gelijk is aan 0.
De variantie voor ruwe gegevens xi
De variantie kan berekend worden door twee formules:
de definitieformule
σ2 =(x1 − µ)2 + (x2 − µ)2 + . . .+ (xm − µ)2
m(2.4)
de korte formule
σ2 =x2
1 + x22 + . . .+ x2
m
m− µ2 (2.5)
Men kan aantonen dat beide formules aan elkaar gelijk zijn. In de korteformule is de variantie gelijk aan het gemiddelde van de kwadraten van degegevens verminderd met het kwadraat van het gemiddelde van de gegevens.Het voordeel van de korte formule is dat wij gelijktijdig het gemiddelde vande gegevens en het gemiddelde van de kwadraten van de gegevens kunnenzoeken. Dit geeft tijdsbesparing ten opzichte van de definitieformule van devariantie, waar wij eerst het rekenkundig gemiddelde van de gegevens moetenzoeken voor wij de afwijkingen kunnen berekenen t.o.v. het rekenkundiggemiddelde. Bij de definitieformule moeten wij de gegevens twee keer inlezenen daarom is de korte formule erg handig.Het nadeel van de korte formule voor de variantie is dat ze aanleiding kangeven tot substraction cancellation, het verlies aan correcte betekenisvollecijfers bij het uitrekenen van het verschil. We verwijzen hiervoor naar deoefeningen.
De variantie voor getabelleerde gegevens
Stel, de gerangschikte ruwe gegevens zijn: 2 4 4 5 6 6 6 7. De tabel met devoorkomende gegevens en hun bijkomende frequentie is:
Academiejaar 2009-2010 41
Hoofdstuk 2. 2. DISCRETE GEGEVENS
x′i fi2 14 25 16 37 1
Vertrekkende van de formule voor de ruwe gegevens vinden wij:
σ2 = 2, 25
Bij getabelleerde gegevens is x′i het i-de voorkomende gegeven en fi de bij-horende frequentie.
definitieformule
σ2 =(x′1 − µ)2 · f1 + (x′2 − µ)2 · f2 + . . .+ (x′q − µ)2 · fq
m(2.6)
σ2 = (x′1 − µ)2 · r1 + (x′2 − µ)2 · r2 + . . .+ (x′q − µ)2 · rq (2.7)
korte formule
σ2 =x′1
2 · f1 + x′22 · f2 + . . .+ x′q
2 · fqm
− µ2 (2.8)
σ2 = (x′12 · r1 + x′2
2 · r2 + . . .+ x′q2 · rq)− µ2 (2.9)
De standaardafwijking
Wij noteren σ voor de populatie en s voor de steekproef. Voor de populatieis
σ = +√σ2 (2.10)
en voor de steekproef iss = +
√s2 (2.11)
Het grootste voordeel van de standaardafwijking is dat deze dezelfde eenhe-den heeft als de gegevens.
De variatiecoefficient
De variatiecoefficient V bekijkt de standaardafwijking relatief t.o.v. hetgemiddelde. Een afwijking van 3 cm op een gemiddelde van 10 cm is heelwat meer dan 3 cm op een gemiddelde van 100 cm. De variatiecoefficientwordt meestal in % uitgedrukt, is eenheidsloos maar wordt onbruikbaar alsde noemer ongeveer 0 is.
V =σ
µ(2.12)
Academiejaar 2009-2010 42
Hoofdstuk 2. 3. CONTINUE GEGEVENS
3 Continue gegevens
De continue kwantitatieve veranderlijke kan theoretisch elke waarde aan-nemen binnen bepaalde grenzen. In de praktijk echter worden de gegevensafgerond en krijgen ze een discreet uitzicht. Typische voorbeelden van conti-nue veranderlijken zijn ”de lengte” en ”het gewicht”. We geven een concreetvoorbeeld.Als populatie beschouwen we de studenten die meegedaan hebben aan deenquete in het schooljaar 2004-2005. De lengte van deze studenten is eencontinue veranderlijke X.De symmetrisch afgeronde1 ruwe gegevens zijn:
167 173 169 170 173 190 184 196 173 180 194 179 174 173183 189 174 177 180 182 181 187 182 182 195 174 180 195193 185 182 185 185 186 172 193 179 180 191 192 179 187174 175 188 180 181 190 180 175 170 191 177 184 180 177177 185 175 187 174 180 191 170 187 172 174 186 175 175193 162 159 155 156 159 163 165 163 172 162 174 156 169168 158 160 165 167 182 167 173 174 163 172 160 156 164168 176 160 181
3.1 Frequentietabellen en grafieken
Wij lezen alle gegevens en schrijven telkens het eindcijfer op de juiste rij:
15 956968616 79235329805773048017 30339434742994550777540245524342618 403902172205255607801040570763119 0645533120113
Vorige tekening wordt een bladstamdiagram genoemd met links de stamen rechts de blaadjes als cijfers. Uitschieters, die eventueel kunnen wijzen opfouten, vallen in een bladstamdiagram onmiddellijk op en bij het kantelenvan het bladstamdiagram zie je of de verdeling symmetrisch of scheef is.De kleinste student is 155 cm en de grootste 196 cm. Het bereik van degegevens is 196 cm - 155 cm = 41 cm. Een tabel die alle mogelijke voorko-mende gegevens bevat met hun bijhorende frequentie zou ongeveer 40 lijnenbevatten. Omdat een tabel de gegevens beknopt moet voorstellen, brengenwij de gegevens onder in klassen van 5 cm.
eerste klasse: [155,160[tweede klasse: [160, 165[
1gegevens symmetrisch afronden geeft kleinere fouten dan wegkappen
Academiejaar 2009-2010 43
Hoofdstuk 2. 3. CONTINUE GEGEVENS
Door deze keuze is een lengte van 160 cm eenduidig onder te brengen. Hetis essentieel dat elk gegeven maar in 1 klasse kan geturfd worden.In dit voorbeeld is het aangewezen klassen van 5 cm te gebruiken maar jekan ook het aantal gewenste klassen op voorhand vastleggen. Daarna deel jehet bereik van de gegevens door dit aantal. De uitkomst, altijd naar bovenafgerond, wordt dan de klassebreedte. Wil je bijvoorbeeld 9 klassen, dan is:
41/9 = 4, 55⇒ klassebreedte = 5 cm.
De klassebreedte krijgt altijd evenveel cijfers na de komma als de gegevens.Je mag niet te veel klassen kiezen want dan worden toevallige onregelma-tigheden te fel benadrukt wat ten nadele is van de overzichtelijkheid. Teweinig klassen is ook niet goed want hoe minder klassen, hoe groter het ver-lies aan informatie. Bij de bevolkingspiramide vind je bij te weinig klassende gevolgen van de wereldoorlog niet terug.Omdat de gegevens tot stand kwamen door symmetrische afronding van demetingen, zijn de werkelijke klassegrenzen van de eerste klasse: [154, 5; 159, 5[.Nadat de gegevens ingedeeld zijn in klassen kan je een frequentietabel hier-van maken door:
de gegevens te turfen en met de frequentie fi het aantal gegevens inde i-de klasse te tellen.
de cumulatieve frequentie Fi te berekenen met de formule:
Fi = f1 + f2 + . . .+ fi
de relatieve frequentie ri te berekenen met de formule:
ri =fim
de relatieve cumulatieve frequentie Ri te berekenen met de formule:
Ri =Fim
De tabel van de (relatieve) frequentieverdeling wordt:
nr klasse klasse met fi Fi ri(in%)klasse werkelijke grenzen
1 [155, 160[ [154, 5; 159, 5[ 7 7 6, 92 [160, 165[ [159, 5; 164, 5[ 9 16 8, 83 [165, 170[ [164, 5; 169, 5[ 9 25 8, 84 [170, 175[ [169, 5; 174, 5[ 20 45 19, 65 [175, 180[ [174, 5; 179, 5[ 13 58 12, 76 [180, 185[ [179, 5; 184, 5[ 19 77 18, 67 [185, 190[ [184, 5; 189, 5[ 12 89 11, 88 [190, 195[ [189, 5; 194, 5[ 10 99 9, 89 [195, 200[ [194, 5; 199, 5[ 3 102 2, 9
102 ≈ 100
Academiejaar 2009-2010 44
Hoofdstuk 2. 3. CONTINUE GEGEVENS
De relatieve cumulatieve frequentie kan een antwoord geven op de vraag:hoeveel procent van de studenten is kleiner dan 170 cm?
Opmerkingen:
De eerste klasse mag beginnen vanaf de eerste waarneming.
Ook als de gegevens discreet zijn wordt bij een groot aantal moge-lijke gegevens voor de overzichtelijkheid toch een indeling in klassengemaakt.
Het histogram
Het histogram moet tonen hoe de frequenties verdeeld zijn over de verschil-lende klassen. Een histogram is een verzameling van rechthoeken. Voor elkerechthoek wordt de basis aangebracht op de X-as. De breedte van de basiskomt overeen met de klassebreedte. De oppervlakte van de rechthoek moetevenredig zijn met de frequentie. Bij gelijke klassebreedte zal de hoogte vande rechthoek evenredig zijn met de frequentie.In volgend voorbeeld komt de oppervlakte van elke rechthoek overeen metde relatieve frequentie.
150 155 160 165 170 175 180 185 190 195 200 205
0.01
0.02
0.03
0.04
1
Figuur 2.5: Een histogram voor de lengte met een klassebreedte van 5 cm.
Toen wij in het begin de gegevens rangschikten in een bladstamdiagramkregen wij een gekanteld histogram met een klassebreedte van 10 cm.
Academiejaar 2009-2010 45
Hoofdstuk 2. 3. CONTINUE GEGEVENS
Wij tekenen de frequentiepolygoon die ontstaat door de middelpunten van debovenzijde van opeenvolgende rechthoeken te verbinden. Wij maken links enrechts een uitbreiding naar de middelpunten van de bovenzijden van fictieverechthoeken met frequentie 0.De totale oppervlakte van de rechthoeken van het histogram is gelijk aan deoppervlakte tussen de frequentiepolygoon en de X-as. Het bewijs steunt opde gelijkvormigheid van driehoeken.
3.2 Het centrum van de gegevens zoeken
De modale klasse
Bij continue gegevens heeft het weinig zin te zoeken naar het gegeven dathet meest voorkomt. Een modale klasse is zinvoller. De modale klasse isde klasse met de grootste frequentie. Voor de lengte van de studenten isde modale klasse [170, 175[. Beschikt men over de frequentiepolygoon, dannoemt men de top van de frequentiepolygoon toch de modus.
De mediaanklasse
De mediaan is het middelste geordende gegeven. Er zijn evenveel studentenkleiner als groter dan de mediaan.De mediaanklasse is de klasse die het middelste geordende gegeven bevat.De kolom van de cumulatieve relatieve frequentie kan helpen om de klasse,die het middelste geordende gegeven bevat, te vinden. De mediaanklassevoor de lengte is [175, 180[.Bij een histogram verwijst de oppervlakte van een rechthoek naar de (rela-tieve) frequentie. Het middelste geordende gegeven verdeelt de totale op-pervlakte in 2 gelijke delen. Als je enkel over een tabel beschikt en je gaatervan uit dat alle gegevens gelijk verdeeld zijn binnen een klasse, dan kan jedeze 50 % grens van de oppervlakte zoeken met lineaire interpolatie.Interessant is dat de mediaan geen last heeft van extreme gegevens.
Opmerking:Als men de oppervlakte in 4 gelijke delen verdeelt, verkrijgt men quar-tielen Q1, Q2, Q3. Het tweede quartiel valt samen met de mediaan. Alsje de oppervlakte in 10 gelijke delen verdeelt, spreekt men over decielenD1, D2, D3, . . . , D9. Het vijfde deciel komt overeen met de mediaan.
Het rekenkundig gemiddelde
De beste berekening van het rekenkundig gemiddelde is de som van al deruwe gegevens gedeeld door het aantal gegevens. Dit geeft µ = 176, 45. Hetkan gebeuren dat je alleen over een tabel beschikt. Zonder kennis van deruwe gegevens kunnen wij toch een schatting maken van het rekenkundig
Academiejaar 2009-2010 46
Hoofdstuk 2. 3. CONTINUE GEGEVENS
gemiddelde: doe alsof alle gegevens in een klasse op het midden van dieklasse terecht komen. Natuurlijk maken wij hierdoor fouten. Wij hopenechter dat positieve en negatieve fouten elkaar zullen opheffen.Stel de klassemiddelpunten voor door x′i. Het klassemiddelpunt van de eer-ste klasse is de helft van de som van de werkelijke grenzen van die klasse.Tel je hierbij de klassebreedte, dan bekom je het volgende klassemiddelpunt.Voor de nauwkeurigheid is het ideaal dat de klassemiddelpunten kunnen sa-menvallen met de gegevens, maar dit kan alleen bij een oneven klassebreedte.
x′i fi x′ifi x′2i fi157 7 1099 172543162 9 1458 236196167 9 1503 251001172 20 3440 591680177 13 2301 407277182 19 3458 629356187 12 2244 419628192 10 1920 368640197 3 591 116427
18014 3192748µ ≈
∑x′ifi/m
µ ≈ 18014/102µ ≈ 176, 6
Controleer steeds of het gemiddelde wel mogelijk is. Als je een gemiddeldelengte vindt van 1735 cm, dan heb je zeker fouten gemaakt.
Opmerking:Bij een symmetrische verdeling zijn modus, mediaan en gemiddelde gelijk.Maar dit is niet altijd het geval. Daarom bestaan er ook kentallen voor descheefheid van een verdeling. Bovendien bestaan er ook kentallen voor despitsheid of afgeplatheid van een verdeling.
3.3 De spreiding van de gegevens zoeken
De variantie
De variantie drukt de spreiding van de gegevens uit ten opzichte van hetrekenkundige gemiddelde.Als je over de ruwe gegevens beschikt is σ2 = 107, 5. Beschik je over een tabelen niet meer over de ruwe gegevens dan nemen wij voor x′i het middelpuntvan de i-de klasse en gebruiken wij een van de volgende formules:
De definitieformule
σ2 =(x′1 − µ)2 + (x′2 − µ)2 + . . .+ (x′q − µ)2
m(2.13)
Academiejaar 2009-2010 47
Hoofdstuk 2. 3. CONTINUE GEGEVENS
De korte formule
σ2 =x′1
2 + x′22 + . . .+ x′q
2
m− µ2 (2.14)
Voor eenvoudiger berekeningen gebruiken wij de transformatie:
Y = (X − 177)/5.
Immers de gegevens voor Y zijn veel eenvoudiger dan de gegevens van X. Jekrijgt altijd eenvoudige gegevens door van de oorspronkelijke gegevens eencentraal gelegen middelpunt af te trekken en dit verschil te delen door deklassebreedte. Bij deze transformatie wordt X = 5 · Y + 177.Het gemiddelde volgt dezelfde transformatie als de gegevens:
µX = 5 · µY + 177
De standaarddeviatie ondergaat alleen de schaalverandering:
σX = 5 · σY of σ2X = 25 · σ2
Y
Dit geeft:
y′i fi y′i · fi y′i2 · fi
-4 7 -28 112-3 9 -27 81-2 9 -18 36-1 20 -20 200 13 0 01 19 19 192 12 24 483 10 30 904 3 12 48
102 -8 454
µY = −8/102 = −0, 078µX ≈ 5 · µY + 177 = 176, 6
De standaarddeviatie ondergaat alleen de schaalverandering:
σ2Y = 454/102− (−0, 078)2 = 4, 44σ2X = 25 · σ2
Y = 111, 1
Academiejaar 2009-2010 48
Hoofdstuk 2. 3. CONTINUE GEGEVENS
De variatiecoefficient
V =σXµX
=10, 541176, 6
≈ 6%
Wij hernemen de oefening waarbij wij de klassebreedte verdubbelen tot 10cm. Wij maken de tabel en de tekening en benaderen het rekenkundiggemiddelde en de variantie.
De tabel voor een klassebreedte van 10 cm is:
nr klasse klasse met fi Fi ri in %klasse werkelijke grenzen
1 [150, 160[ [149,5; 159,5[ 7 7 6,92 [160, 170[ [159,5; 169,5[ 18 25 17,63 [170, 180[ [169,5; 179,5[ 33 58 32,44 [180, 190[ [179,5; 189,5[ 31 89 30,45 [190, 200[ [189,5; 199,5[ 13 102 12,7
102 100
Het middelpunt van de derde klasse is (169,5 + 179,5)/2 = 174,5.
Wij berekenen gemiddelde van standaardddeviatie met behulp van
Y =X − 174, 5
10X = 10 · Y + 174, 5µX = 10 · µY + 174, 5σX = 10 · σYσ2X = 102 · σ2
Y
Dit geeft:
y′i fi y′i · fi y′i2 · fi
-2 7 -14 28-1 18 -18 180 33 0 01 31 31 312 13 26 52
102 +25 129
µY =25102
µX ≈ 10 · 25102
+ 174, 5 = 176, 95
σ2Y =
129102−(
25102
)2
= 1, 2
σ2X ≈ 102 · 1, 2 = 120
Academiejaar 2009-2010 49
Hoofdstuk 2. 3. CONTINUE GEGEVENS
Het histogram voor een klassebreedte van 10 cm wordt op volgendepagina in het grijs voorgesteld. Op dezelfde tekening vind je ook hethistogram met een klassebreedte van 5 cm.
– De oppervlakte van een rechthoek stelt de relatieve frequentievoor.
– De oppervlakte van een rechthoek met basis 10 is de som van deoppervlakten van 2 rechthoeken met basis 5.
150 155 160 165 170 175 180 185 190 195 200 205
0.01
0.02
0.03
0.04
1
Opmerking :Als je bij de tekening van een histogram als hoogte van de rechthoekende relatieve frequentie gedeeld door de klassebreedte uitzet dan komt deoppervlakte van elke rechthoek overeen met de relatieve frequentie. Detotale oppervlakte van het histogram is dan gelijk aan 100%. Deze keuze isbijzonder interessant om 2 histogrammen te kunnen vergelijken waarbij hetaantal waarnemingen erg verschilt.
Academiejaar 2009-2010 50
Hoofdstuk 2. 4. OEFENINGEN
4 Oefeningen
1. Zoek de frequentietabel, teken het staafdiagram, bereken het gemid-delde, de modus en de mediaan voor de punten van ’organisatie enstructuur van de vrije tijd’ van de volgende 40 studenten. De ruwegegevens zijn:
11 13 14 13 9 14 12 10 12 1212 11 11 11 10 13 12 11 11 1311 9 12 9 10 10 12 11 10 1212 13 12 14 11 9 10 13 12 13
(a) Vergelijk het gemiddeld aantal punten voor ’statistiek’ (zie p.34) met het gemiddeld aantal punten voor ’organisatie’. Watstelt je vast? Bekijk de punten voor ’statistiek’ en de puntenvoor ’organisatie’ en vergelijk. Is er een verschil? Bereken devariantie.
(b) Wat is de kans dat je meer dan 12 hebt?
(c) Hoeveel punten hebben de meeste studenten?
(d) Als je weet dat iemand meer dan 12 heeft, wat is dan de kans datdie persoon 13 heeft?
2. Gegeven is volgende frequentietabel:
i x′i fi1 5100100 62 5100200 73 5100300 124 5100400 205 5100500 5
(a) Bereken modus, mediaan en gemiddelde zo eenvoudig mogelijk.
(b) Bereken de variantie en de standaardafwijking zo eenvoudig mo-gelijk.
Academiejaar 2009-2010 51
Hoofdstuk 2. 5. KENNISBASIS STATISTIEK
5 Kennisbasis Statistiek
De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’Wetenschap-pelijk onderzoek’.
Waarnemen > Typen variabelen
Waarnemen > Typen variabelen > Continue variabelen
Waarnemen > Typen variabelen > Discrete variabelen
Frequentieverdeling
Frequentieverdeling > Frequentietabel
Frequentieverdeling > Classificeren
Frequentieverdeling > Centrum en spreiding
Centrummaten
Centrummaten > Modus
Centrummaten > Mediaan
Centrummaten > Gemiddelde
Centrummaten > Gemiddelde > Gemiddelde, gegroepeerde uit-komsten
Centrummaten>Gemiddelde>Gemiddelde, geclassificeerde uit-komsten
Spreidingsmaten
Spreidingsmaten > Deviatie
Spreidingsmaten > Variantie
Spreidingsmaten > Standaardafwijking
Spreidingsmaten > Standaardafwijking > Standaardafwijking, ge-groepeerde uitkomsten
Spreidingsmaten > Standaardafwijking > Standaardafwijking, ge-classificeerde uitkomsten
Spreidingsmaten > Variatiebreedte
Spreidingsmaten > Variatiecoefficient
Academiejaar 2009-2010 52
Hoofdstuk 2. 5. KENNISBASIS STATISTIEK
Grafieken
Grafieken > Staafdiagram
Grafieken > Cirkeldiagram
Grafieken > Histogram
Grafieken > Histogram > Frequentiepolygoon
Academiejaar 2009-2010 53
3Kansverdelingen
54
Hoofdstuk 3. 1. INLEIDING
1 Inleiding
1.1 Theoretische kansverdelingen
In de beschrijvende statistiek verzamelden we gegevens die we vervolgenssamenvatten in frequentietabellen, grafieken en kengetallen. Vaak kan defrequentieverdeling van verzamelde gegevens benaderd worden door een the-oretische kansverdeling. Zo’n theoretische kansverdeling laat ons toe omkansen te berekenen aan de hand van formules. Net zoals je bij het ver-zamelen van data een onderscheid kan maken tussen discrete en continuegegevens, kunnen we spreken over discrete en continue kansverdelingen. El-ke kansverdeling wordt gekarakteriseerd door een of meer getalletjes die naargelang de context een concrete waarde aannemen. We noemen deze getallende parameters van de kansverdeling.
1.2 Verwachtingswaarden
De begrippen gemiddelde (voor het centrum van de gegevens) en variantie(voor de spreiding van de gegevens t.o.v. het centrum) die we in beschrij-vende statistiek ontmoetten, kunnen ook gebruikt worden voor theoretischekansverdelingen. In het geval van kansverdelingen spreken we van verwach-tingswaarden. Ze drukken uit wat je als gemiddelde en variantie kan ver-wachten als je het experiment ’tot in het oneindige’ zou uitvoeren. We geveneen voorbeeld, waarbij we ons beperken tot een discrete kansverdeling.
Voorbeeld
Beschouw een kansspel waarbij je e 2 moet inzetten om te kunnen deelne-men. Vervolgens mag je lukraak een kaart kiezen uit een gewoon kaartspel.Als het een rode kaart is, dan verlies je 1 euro. Als het een zwarte heer ofzwarte dame is, dan win je 15 euro. In de andere gevallen ben je gewoon jeinzet kwijt zonder dat je nog iets extra wint of verliest. Stel X = ’de nettowinst (= bedrag dat je wint of verliest - de inzet)’. Dan is X een discreteveranderlijke. We schrijven de (theoretische) kansverdeling van X uit:
x′i P (X = x′i)−3 1/2−2 11/26+13 1/13
Het gemiddelde en de variantie van een (discrete) kansverdeling kunneneenvoudig berekend worden door in de formules uit beschrijvende statistiekde relatieve frequenties ri te vervangen door de kansen P (X = x′i).
Academiejaar 2009-2010 55
Hoofdstuk 3. 1. INLEIDING
Gemiddelde
Zo vinden we voor het gemiddelde
µX = x′1 · P (X = x′1) + x′2 · P (X = x′2) + . . .
= −3 · 12
+ (−2) · 1126
+ 13 · 113
=−3526≈ −1.35
Als je dit kansspel heel vaak zou spelen (’tot in het oneindige’), dan zal jesoms winnen en soms verliezen. Maar je mag verwachten dat je gemiddeldongeveer e 1.19 per spel zal verliezen.Het gemiddelde van een kansverdeling wordt genoteerd met µX of E[X]. DeE staat daarbij voor ’expectation’.
Variantie
Voor de variantie (met de korte formule) vinden we
σ2X =
(x′1
2 · P (X = x′1) + x′22 · P (X = x′2) + . . .
)− µ2
X
=(
(−3)2 · 12
+ (−2)2 · 1126
+ 132 · 113
)−(−35
26
)2
=11749676
≈ 17.38
Als je dit kansspel heel vaak zou spelen (’tot in het oneindige’) en telkens jenetto winst zou opschrijven, dan kan je verwachten dat de variantie (sprei-ding t.o.v. het gemiddelde) 28.46 zal bedragen.De variantie van een kasverdeling wordt genoteerd met σ2
X of V ar[X].
Academiejaar 2009-2010 56
Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN
2 Discrete kansverdelingen
2.1 Binomiale verdeling
Veronderstel dat we volgende vragen willen oplossen:
Voorbeeld 1:Een multiple choice examen bestaat uit 5 vragen. Er zijn 3 mogelijke ant-woorden per vraag waarvan 1 juist. Je antwoordt lukraak op alle vragen.Wat is de kans dat je minstens 3 vragen juist beantwoordt?
Voorbeeld 2:Neem als populatie alle Vlaamse gezinnen met 3 kinderen. Stel dat voorelk kind, de kans op een jongen gelijk is aan de kans op een meisje. Zoekde kansverdeling van het aantal meisjes, het gemiddeld aantal meisjes en devariantie.
Beide vragen zijn op het eerste zicht erg verschillend van elkaar. Ze kun-nen echter opgelost worden met dezelfde achterliggende theoretische kans-verdeling, namelijk de binomiale verdeling. De binomiale verdeling is hettheoretisch model voor verdelingen die in de praktijk veel voorkomen. Wewerken deze verdeling eerst theoretisch uit.
Ingredienten voor het gebruik van de binomiale verdeling
De volgende punten zijn vereist voor het gebruik van een binomiale verdeling:(controleer of je ze terugvindt in voorbeeld 1 en 2) :
1. Een Bernoulli-experiment. Dit is een experiment met 2 mogelijke uit-slagen succes en mislukking. Je kan gemakkelijk Bernoulli-experimentenopstellen. bv. gooi een dobbelsteen op waarbij een 6 gooien succes isen geen 6 gooien een mislukking is. We stellen de kans op succes gelijkaan p en de kans op mislukking gelijk aan q. Dan is:
0 ≤ p ≤ 1; 0 ≤ q ≤ 1 en q = 1− p
2. Je moet het Bernoulli-experiment n keer herhalen bvb. je gooit dedobbelsteen n keer op.
3. De herhalingen van het Bernoulli-experiment moeten onafhankelijkvan mekaar gebeuren. Onafhankelijkheid houdt in dat de kans opsucces constant blijft bij alle herhalingen van het experiment. Bij eendobbelsteen is wat je de tweede keer gooit onafhankelijk van wat je deeerste keer gooide. Bij een kaartspel is er enkel onafhankelijkheid alsje de kaart teruglegt voor je lukraak een andere kaart trekt.
Academiejaar 2009-2010 57
Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN
4. Tel nu het aantal successen bij n onafhankelijke herhalingen van hetexperiment. Het aantal successen X varieert van nooit (0) tot altijd(n).
Opstellen van de formule
Zoek de kans op k successen (en dus op n−k mislukkingen) bij n herhalingen.Of nog, zoek de kans P (X = k). De kans dat de k eerste experimentensuccesvol zijn en de volgende n − k experimenten mislukkingen is omwillevan de onafhankelijkheid pk · qn−k. Maar niet de eerste k experimentenmoeten succesvol zijn. Er zijn nog een heleboel andere mogelijkheden metdezelfde kans zoals: alleen de k laatste experimenten zijn succesvol. In totaalzijn er (
nk
)=
n!k! · (n− k)!
mogelijke manieren om bij n herhalingen k keer succes te hebben en n − kkeer mislukking. De kans van elk van die mogelijkheden bedraagt telkenspk · qn−k. De kans op k successen bij n herhalingen is dus:
P (X = k) =n!
k! · (n− k)!· pk · qn−k
De binomiale verdeling van het aantal successen krijg je door in deze formulek = 0 tot n te stellen.
Samengevat
Stel n het totaal aantal herhalingen van het experiment, X het aantal suc-cessen, p de kans op succes en q (q = 1−p) gelijk aan de kans op mislukking,dan zal bij n onafhankelijke herhalingen van het experiment het aantal suc-cessen een binomiale verdeling volgen waarbij:
P (X = k) =
(nk
)· pk · qn−k voor k = 0, 1, 2..., n (3.1)
Omdat n en p volstaan om een binomiale verdeling vast te leggen zegt mendat X een binomiale verdeling volgt met parameters n en p. Korte notatie:X ∼ B(n, p).
Opmerkingen:
De coefficient (nk
)=
n!k! · (n− k)!
wordt de binomiaalcoefficient genoemd. Deze coefficient duikt ook opin het ’Binomium van Newton’. De binomiaalcoefficient drukt uit op
Academiejaar 2009-2010 58
Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN
hoeveel manieren je een groepje van k kan kiezen uit een totaal van nals de volgorde waarin de keuzes gemaakt worden niet van belang is.In de context van de binomiale verdeling gebruiken we het getal omhet aantal manieren te berekenen waarop je precies k successen kanhebben in een rij van n herhalingen.
Wanneer de kans op succes nagenoeg constant is bij n herhalingen vanhet experiment, spreken we over quasi-onafhankelijkheid. De binomialeverdeling is dan een goede benadering voor de werkelijke kansverdeling.
We werken de voorbeelden nu verder uit door gebruik te maken van debinomiale verdeling.
Voorbeeld 1
Een multiple choice examen bestaat uit 5 vragen. Er zijn 3 mogelijke ant-woorden per vraag waarvan 1 juist. Je antwoordt lukraak op alle vragen.Zoek de kansverdeling van het aantal juiste antwoorden.
1. Het Bernoulli-experiment is het beantwoorden van een meerkeuzevraagwaarbij succes overeenstemt met een juist antwoord. De kans op succesp is 1/3 en de kans op mislukking q is 2/3.
2. Het examen bestaat uit 5 meerkeuzevragen dus n = 5.
3. Omdat je de 5 vragen lukraak beantwoordt zijn er 5 onafhankelijkeherhalingen van het Bernoulli-experiment.
4. X telt het aantal juiste antwoorden. Dit aantal varieert van niets juist(0) tot alles juist (5).
Wij zoeken bvb. de kans om 2 vragen juist te hebben. De kans dat alleen de
2 eerste vragen juist zijn is(
13
)2·(
23
)3Maar het is niet nodig dat de eerste
2 vragen juist zijn. Belangrijk is dat 2 van de 5 vragen correct zijn. Zo zijner 5!
2!·3! = 10 situaties te vinden in de kansboom.
P (2 juiste antwoorden) =5!
2! · 3!·(
13
)2
·(
23
)3
P (X = 2) =
(52
)·(
13
)2
·(
23
)3
Academiejaar 2009-2010 59
Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN
De kansverdeling van het aantal juiste antwoorden is:
k P (X = k)
0
(50
)·(
13
)0·(
23
)5= 13, 17%
1
(51
)·(
13
)1·(
23
)4= 32, 92%
2
(52
)·(
13
)2·(
23
)3= 32, 92%
3
(53
)·(
13
)3·(
23
)2= 16, 46%
4
(54
)·(
13
)4·(
23
)1= 4, 12%
5
(55
)·(
13
)5·(
23
)0= 0, 41%
Voorbeeld 2
Neem als populatie alle Vlaamse gezinnen met 3 kinderen. Stel dat voor elkkind, de kans op een jongen gelijk is aan de kans op een meisje.Zoek de kansverdeling van het aantal meisjes, het gemiddeld aantal meisjesen de variantie.
1. Het aantal meisjes (X) volgt een binomiale verdeling met parametersn = 3 en p = 1/2. De tabel van deze kansverdeling is:
k P (X = k)0 1/8 = 12, 5%1 3/8 = 37, 5%2 3/8 = 37, 5%3 1/8 = 12, 5%
Omdat P (X = 3) = 12, 5% , zijn er in 12,5 % van de Vlaamse gezinnen3 meisjes.
2. Onderstaande tabel geeft de berekeningen weer voor het gemiddeldeen de variantie. Deze laatste wordt uitgerekend met de korte formule.
k P (X = k) k · P (X = k) k2 · P (X = k)0 1/8 0 01 3/8 3/8 3/82 3/8 6/8 12/83 1/8 3/8 9/8
We bekomen zo:µ = 3/2 en σ2 = 3/4
Academiejaar 2009-2010 60
Hoofdstuk 3. 2. DISCRETE KANSVERDELINGEN
Gemiddelde en variantie van de binomiale verdeling
In het voorbeeld hierboven hebben we het gemiddelde en de variantie be-rekend aan de hand van de kansverdeling. Men kan bewijzen dat bij debinomiale verdeling:
µ = n · p (3.2)σ2 = n · p · q (3.3)
Voor een binomiale verdeling zijn de formules voor gemiddelde en variantiedus zeer eenvoudig.
2.2 Andere discrete verdelingen
Er zijn nog heel wat andere discrete verdelingen, zoals de Poissonverdelingdie belangrijk is in ’Wachtrijtheorie’. We gaan er in deze tekst niet verderop in.
Academiejaar 2009-2010 61
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
3 Continue kansverdelingen
Bij discrete veranderlijken kan je gemakkelijk kansen berekenen aan de handvan de kansverdeling. Eens de tabel met mogelijke waarden en bijhorendekansen is opgesteld, kan je elke vraag naar kansen beantwoorden door eenof meerdere kansen uit de tabel bij elkaar op te tellen.
Omwille van het groot aantal mogelijke waarden is het bij continue ver-anderlijken niet mogelijk om kansen te vinden door de kansen van individu-ele waarden bij elkaar op te tellen. Voor het berekenen van kansen moetenwe in dat geval gebruik maken van oppervlaktes onder een grafiek.
3.1 Kansen berekenen bij continue verdelingen
Veronderstel dat X een eigenschap voorstelt bij een grote populatie. Bekijkde histogrammen, die ontstaan door de klassebreedte te halveren en waarbijde oppervlakte van een rechthoek overeenkomt met de relatieve frequentie(in % ).
Figuur 3.1: Histogram voor klassebreedte = 20
Figuur 3.2: Histogram voor klassebreedte = 10
De oppervlakte van een rechthoek met basis 20 is de som van de oppervlaktenvan 2 rechthoeken met basis 10.
Academiejaar 2009-2010 62
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
Figuur 3.3: Histogram voor klassebreedte = 5
Figuur 3.4: Histogram voor klassebreedte = 2.5
Academiejaar 2009-2010 63
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
Figuur 3.5: Histogram voor klassebreedte = 1.25
Figuur 3.6: Histogram voor klassebreedte = 0.625
Academiejaar 2009-2010 64
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
Figuur 3.7: Histogram voor klassebreedte = 0.3125
Na vele halveringen worden de bovenzijden van de rechthoeken zo smal, datwij de indruk krijgen dat zij een vloeiende lijn vormen. Deze kurve noemenwij de dichtheidsfunctie f(x). De relatieve frequentie voor de klasse [a, b[,voorgesteld door de oppervlakte van een rechthoek van het histogram, gaatover in de oppervlakte onder de dichtheidsfunctie
P (a ≤ X < b) =∫ b
af(x) · dx.
∫+∞−∞ f(x) · dx = 1 omdat de totale relatieve frequentie 100 % is.
3.2 De normale verdeling
Definitie en formule
De meest voorkomende dichtheidsfunctie is de normale verdeling met ver-gelijking:
f(x) =1√2πσ
· e−(x−µ)2
2σ2 waarbij σ > 0.
In deze formule stellen µ en σ2 het gemiddelde en de variantie van de ver-deling voor. Omdat ze de normale verdeling volledig vastleggen, worden zede parameters van de verdeling genoemd. Dat X een normale verdeling volgtmet parameters µ en σ2 wordt kort genoteerd als volgt:
X ∼ N(µ, σ2)
Elke waarde voor µ en σ2 geeft een nieuwe normale verdeling.
Academiejaar 2009-2010 65
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
Tekening
Elke nieuwe waarde voor µ en/of σ2 geeft een nieuwe tekening. Bekijk detekeningen van normale verdelingen en vergelijk ze met elkaar.
10 8 6 4 2 0 2 4 6 8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.80.82
0
f1 x( )
f z( )
f2 x( )
f3 x( )
1010 x z, x, x,
De belangrijkste tekening is de standaardnormale verdeling waarbij µ =0 en σ2 = 1. Bij x gelijk aan nul, bereikt de dichtheidsfunctie van destandaardnormale verdeling een maximale waarde nl. 0,4.Zoek de normale verdeling waarbij het gemiddelde ook nul is terwijl despreiding kleiner is (σ2 = 0, 25 < 1). Omdat de totale oppervlakte onder dedichtheidsfunctie 100 % is, moet de top hoger liggen dan bij de standaard-normale verdeling.Zoek de normale verdeling met gemiddelde 0 waarbij de spreiding σ2 = 16,groter is dan bij de standaardnormale verdeling. Ligt de top hoger of lagerdan bij de standaardnormale verdeling?Zoek de normale verdeling waarbij µ = 5 en σ2 = 1. Vergelijk deze kurvemet de standaardnormale verdeling. Wat stelt je vast?We kunnen aantonen dat bij al deze normale verdelingen:
1. de X-as een horizontale asymptoot is
2. de dichtheidsfunctie een maximale waarde bereikt voor x = µ
3. er symmetrie optreedt ten opzichte van de rechte x = µ
4. voor al deze tekeningen bijna 100 % van de oppervlakte onder dedichtheidsfunctie tussen 3 standaardafwijkingen links en rechts rondhet gemiddelde ligt. Ongeveer 95% van de gegevens ligt hoogstens 2standaardafwijkingen verwijderd van het gemiddelde. Zie oefeningen.
Academiejaar 2009-2010 66
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
3.3 De standaardnormale verdeling
De belangrijkste normale verdeling noemt men de standaardnormale ver-deling. De standaardnormale verdeling heeft een gemiddelde µ = 0 en eenvariantie σ2 = 1. Haar standaarddeviatie σ is dus gelijk aan 1.Voor de standaardnormale verdeling reserveert men de letter Z. Wij noteren:
Z ∼ N(0, 1)
Als Z een standaardnormale verdeling volgt, dan is de dichtheidsfunctie:
f(z) =1√2π· e−
z2
2
Voor enkele z-waarden berekenen wij f(z):z . . . -3 -2 -1 0 1 2 3 . . .
f(z) 0,004 0,05 0,24 0,4 0,24 0,05 0,004
Tekening
De tekening van de standaardnormale verdeling is:
3 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 3
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.42
3.267 103.
f z( )
3.13.1 z
Bij welke Z-waarde ligt de top? Tussen welke grenzen voor Z ligt bijna detotale oppervlakte?We bestuderen nu de tekening van de standaardnormale verdeling.
De Z-as is horizontale asymptoot.
f(z) verloopt symmetrisch t.o.v. de Y-as.
f(z) bereikt een maximale waarde voor z=0.
µ = 0 omwille van de symmetrie rond de Y-as.
Academiejaar 2009-2010 67
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
Berekening van kansen
P (Z ≥ b) berekent het percentage van de populatie waarvoor Z ≥ b is. Dezerelatieve frequentie of kans vinden wij terug als een oppervlakte onder dedichtheidsfunctie:
P (Z ≥ b) =∫ ∞b
f(z) · dz =∫ ∞b
1√2π· e−
z2
2 · dz
0.42
3.267 103.
f z( )
3.13.1 z 0 b
Oppervlakte = P(Z > b)
z
Deze integraal is moeilijk uit te rekenen. Gelukkig is er een tabel om deoppervlakte te vinden. De tabel geeft echter enkel de oppervlakte waarbijZ ≥ b en b ≥ 0 (m.a.w. de oppervlakte van een rechterstaart).Deze tabel volstaat echter. Voor de oppervlakte van een linkerstaart doenwij beroep op de symmetrie, waardoor:
P (Z ≤ −b) = P (Z ≥ b)
0.42
3.267 103.
f z( )
3.13.1 z 0 b
Oppervlakte = P(Z > b)
z -b
Wij weten dat de totale oppervlakte 100 % of 1 is:
P (−∞ ≤ Z ≤ +∞) = 100% = 1
Omwille van de symmetrie rond de Y-as is:
P (Z ≤ 0) = P (Z ≥ 0) = 50% = 0, 5
Academiejaar 2009-2010 68
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
Berekenen van c als de kans dat Z ≥ c gegeven is
We geven twee voorbeelden.
1. Zoek c als P (Z ≥ c) = 2, 5%.Oplossing:
P (Z ≥ c) = 2, 5%P (Z ≥ 1, 96) = 2, 5%
c = 1, 96
c wordt de terugzoekwaarde genoemd bij 2,5 % in de rechterstaart.Wij noteren: c = z2,5% = 1, 96.
2. Zoek c als P (−c < Z < c) = 95%.Oplossing:Zoek de oppervlakte van de rechterstaart. Deze is:
P (Z ≥ c) = (100%− 95%)/2 = 2, 5%.
c = z2,5% = 1, 96.
3.4 Kansen berekenen met de normale verdeling
Voor het berekenen van de relatieve frequentie of de kans dat X ≥ b, wat eenoppervlakte onder de dichtheidsfunctie voorstelt en vervelende integraalre-kening inhoudt, zouden wij evenveel tabellen nodig hebben als tekeningen.Wij kunnen deze oppervlakte terugbrengen tot de oppervlakte onder destandaardnormale verdeling. Immers:
Als Z =X − µσ
dan Z ∼ N(0, 1) en P (X ≥ b) = P (Z ≥ b− µσ
)
Besluiten:
Als X een normale verdeling volgt met gemiddelde µ en variantie σ2
dan zal Z = (X − µ)/σ een standaardnormale verdeling volgen.
Door de transformatie Z = (X − µ)/σ gaat elke oppervlakte onder denormale verdeling over in een oppervlakte onder de standaardnormaleverdeling.
De standaardnormale verdeling is de belangrijkste van de normale ver-delingen, omdat alle integralen bij de normale verdeling terug te bren-gen zijn tot integralen bij de standaardnormale verdeling.
Academiejaar 2009-2010 69
Hoofdstuk 3. 3. CONTINUE KANSVERDELINGEN
Samengevat:
Als X ∼ N(µ, σ2), dan zal
Z =X − µσ
∼ N(0, 1)
enP (X ≥ b) = P (
X − µσ
≥ b− µσ
) = P (Z ≥ b− µσ
)
3.5 Andere continue verdelingen
Naast de normale verdeling zijn er nog een hele reeks andere continue ver-delingen, zoals de uniforme verdeling (belangrijk voor random generators)en de exponentiele verdeling (belangrijk in ’Wachtrijtheorie’). We gaan erin deze tekst niet verder op in.
Academiejaar 2009-2010 70
Hoofdstuk 3. 4. OEFENINGEN
4 Oefeningen
1. Een multiple choice examen bestaat uit 4 vragen. Er zijn 3 mogelijkeantwoorden per vraag waarvan 1 juist. Je antwoordt lukraak op allevragen. Stel X = ’het aantal juiste antwoorden’.
(a) Zoek de kansverdeling van X, het gemiddeld aantal juiste ant-woorden en de variantie.
(b) Hoeveel procent van de studenten heeft alle vragen juist?
(c) Hoeveel procent van de studenten heeft geen enkele vraag juist?
(d) Hoeveel procent van de studenten heeft minstens 2 vragen juist?
2. Zoek de kansverdeling van het aantal keer dat je zes gooit bij 4 worpenmet een teerling. Wat is de kans om meer dan 2 zessen te krijgen in 4worpen met een teerling?
3. Wat is de kans om minstens 4 keer zes te gooien bij 6 worpen met eenteerling?
4. Gooi 6 keer een muntstuk op. Wat is de kans om 4 keer kruis te gooien?Wat is de kans om minstens 4 keer kruis te gooien?
5. Van 5 meerkeuzevragen weet je het antwoord niet. Er zijn 3 mogelijkeantwoorden per vraag waarvan 1 juist. Je duidt lukraak 1 antwoordaan. Wat is de kans om
(a) minstens 2 vragen juist te hebben?
(b) hoogstens 1 vraag fout te hebben?
(c) Wat is het gemiddeld aantal juiste antwoorden?
(d) Wat is de variantie van ’het aantal juiste antwoorden’?
6. Elke persoon heeft 40 % kans om bloedgroep O te hebben. Berekende kans dat van 7 lukraak uitgekozen personen er 3 tot bloedgroep Obehoren.
7. Een computer vormt een binair getal van 8 cijfers. De kans op eenvergissing in een willekeurig cijfer is 0.01. Hoe groot is de kans op eenverkeerd getal in de veronderstelling dat de fouten in de verschillendecijfers onafhankelijk zijn?
8. Stel 70 % is de kans dat een patient positief is voor een bepaalde test.Zoek de kans dat van 5 patienten
(a) ze allen positief zijn
(b) er 2 positief zijn
Academiejaar 2009-2010 71
Hoofdstuk 3. 4. OEFENINGEN
(c) minstens 3 patienten positief zijn.
9. In een stad staan de verkeerslichten 40 % van de tijd op rood. (geensynchronisatie) Je moet 5 verkeerslichten voorbijrijden. Zoek de kansom hoogstens 1 keer voor het rood licht te staan.
10. Stel 1 % van de autobanden voldoet niet aan de kwaliteitsnormen. Eenpersonenwagen krijgt 4 nieuwe banden.
(a) Zoek de kansverdeling van het aantal slechte banden.
(b) Hoe groot is de kans op een perfect stel?
11. Aan een productieband worden gemiddeld per 1.000 afgewerkte pro-ducten 5 defecte stukken gemaakt. Het uittesten kost te duur en menverpakt goede en slechte stukken in kisten van 200. Bereken de kansdat een kist minstens 3 slechte stukken bevat.
12. Een machine wordt elke dag gestart. De kans dat dit mislukt is voorelke dag 1 op 100. Dit betekent dan een verloren werkdag. Hoe grootis de kans om gedurende een jaar juist 2 werkdagen te verliezen.
13. Examenvraag januari 2007Van een bloembollensoort is geweten dat 5 % van de bollen niet uit-komt. De bollen worden willekeurig verpakt in dozen van 9 stuks metde garantie dat ten minste 8 van de 9 bollen zullen uitkomen. Het aldan niet uitkomen van de bollen gebeurt onafhankelijk van elkaar.
(a) Als je lukraak een doos bloembollen kiest, wat is dan de kans datdie doos de gegarandeerde eigenschap niet heeft?
(b) Een winkelier koopt bij de groothandelaar 100 dozen van dezebollen. Wat is de kans dat precies 2 van deze dozen de gegaran-deerde eigenschap niet hebben?
14. Stel dat Z een standaardnormale verdeling volgt. Gegeven: 0 ≤ a ≤ b,P (Z ≥ a) en P (Z ≥ b). Zoek:
(a) P (a ≤ Z < b)
(b) P (−a < Z < b)
(c) P (−b < Z ≤ −a)
15. Stel dat Z een standaardnormale verdeling volgt, voor hoeveel procentvan de populatie zal:
(a) Z ≥ 1, 96
(b) Z ≤ −1, 96
(c) 0 ≤ Z < 1, 96
Academiejaar 2009-2010 72
Hoofdstuk 3. 4. OEFENINGEN
(d) −1, 96 < Z ≤ 0
(e) Z < 2, 15
(f) −2, 15 < Z < 2, 15
(g) −2, 15 < Z
(h) 1 ≤ Z < 2
(i) −1 < Z < 2
(j) −2 < Z ≤ −1
16. Stel dat Z een standaardnormale verdeling volgt en
(a) voor 95 % van de populatie is −c < Z < c. Zoek c.
(b) voor 99 % van de populatie is −c < Z < c. Zoek c.
(c) voor 90 % van de populatie is −c < Z < c. Zoek c.
(d) voor 5 % van de populatie is Z ≤ c. Zoek c.
(e) voor 1 % van de populatie is Z ≥ c. Zoek c.
(f) voor 1 % van de populatie is Z ≤ c. Zoek c.
17. Stel X volgt een normale verdeling met gemiddelde 1,5 en variantie 4.Zoek
(a) P (X < 2)
(b) P (1, 8 ≤ X < 2, 8)
(c) P (1, 2 < X < 2)
18. Als X een normale verdeling volgt met gemiddelde 150 en variantie400, voor hoeveel procent van de populatie is:
(a) X ≤ 110
(b) 135 ≤ X(c) 190 ≤ X(d) 115 < X < 155
(e) X < 200
(f) 160 ≤ X < 195
19. De lichaamslengte van de rekruten in het Belgisch Leger is normaalverdeeld met gemiddelde 1,75 m en σ2 gelijk aan 0,122 m2. Hoeveelprocent van de rekruten heeft een lichaamslengte tussen 1,60 en 1,80meter?
20. De uitslag op statistiek (punten op 100) is normaal verdeeld met pa-rameters 60 en 92.
Academiejaar 2009-2010 73
Hoofdstuk 3. 4. OEFENINGEN
Hoeveel procent van de populatie is geslaagd?
Zoek de uitslag waarboven 10% van de hoogste punten vallen?
21. De hoeveelheid vitamine in een tablet vitaminex is normaal verdeeldmet parameters 10,1 g en 0,22 g2. De verpakking vermeldt dat 1tablet 10 g vitamine bevat. Hoeveel procent van de productie bevatte weinig?
22. De kogellagers vervaardigd door een machine hebben een diameter dienormaal verdeeld is met parameters 14,04 en 0,102. De speling rondhet gemiddelde mag maximaal 0,18 bedragen. Hoeveel procent van deproductie is slecht?
23. Verifieer dat, bij een willekeurige normale verdeling, X voor bijna 100% van de populatie tussen 3 standaarddeviaties links en rechts rondhet gemiddelde ligt?Zoek dus P (µ− 3σ < X < µ+ 3σ).Zoek ook P (µ− 2σ < X < µ+ 2σ) en P (µ− σ < X < µ+ σ).
24. Stel dat de levensduur van een bepaald motortype een normale ver-deling volgt met een gemiddelde levensduur van 7 jaar en een stan-daardafwijking van 2 jaar.De fabrikant vervangt gratis alle motoren die defect geraken tijdens degarantieperiode. Indien hij bereid is slechts 3% van de motoren, diedefect geraken, te vervangen, hoe lang moet de garantieperiode danzijn?
25. Examenvraag januari 2007Onderstel dat het IQ normaal verdeeld is met gemiddelde 100 en va-riantie 500.
Hoeveel % van de bevolking heeft een IQ van meer dan 109?
Onder welk IQ vallen de 20 % minst begaafden?
Onderstel dat je het gemiddelde niet kent en de 7 % minst be-gaafden onder IQ 89 vallen, hoe groot is dan het gemiddelde inde veronderstelling dat de variantie 500 blijft?
26. Benadering van binomiale verdeling met normale verdelingVan de programmeurs die afstuderen vindt 70 % binnen de 6 maandenwerk.
Wat is de kans dat, van 9 willekeurig gekozen afgestudeerde pro-grammeurs, er minstens 8 binnen de 6 maanden werk vinden?(binomiale verdeling)
Academiejaar 2009-2010 74
Hoofdstuk 3. 4. OEFENINGEN
Wat is de kans dat, van 100 willekeurige gekozen afgestudeerdeprogrammeurs, er minstens 80 binnen de 6 maanden werk vin-den?Met de binomiale verdeling is dit onbegonnen rekenwerk. Alsn · p ≥ 5 n · q ≥ 5, mag men beroep doen op een normale ver-deling, die het gemiddelde en de variantie van de binomiale ver-deling krijgt. Omdat de normale verdeling, in tegenstelling totde binomiale verdeling, een continue verdeling is, gebruiken wijeen continuıteitscorrectie t.t.z. X ≥ 80 bij de binomiale verdelingwordt X ≥ 79, 5 voor de normale.
27. Examenvraag januari 2006Stel dat de inhoud van flessen normaal verdeeld is, dat de vulmachineingesteld is op µ = 750 ml. De standaardafwijking bedraagt 10 ml.
Hoeveel procent van de afgeleverde flessen bevat minder dan 735ml?
Hoeveel procent van de flessen bevat meer dan 765 ml?
Stel dat de gemiddelde instelling 750 ml blijft. Hoe groot moetde standaardafwijking van de vulmachine zijn opdat 95 % van deflessen een inhoud zou hebben tussen 740 en 760 ml?
Academiejaar 2009-2010 75
Hoofdstuk 3. 5. KENNISBASIS STATISTIEK
5 Kennisbasis Statistiek
De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.
Kansverdelingen
Kansverdelingen > Empirische kansverdelingen
Kansverdelingen > Theoretische kansverdelingen
Kansverdelingen > Kansverdeling als model
Kansverdelingen > Overschrijdingskansen
Kansverdelingen > Verwachtingswaarden
Kansverdelingen > Discrete kansverdelingen
Kansverdelingen > Discrete kansverdelingen > Overschrijdingskan-sen van discrete verdelingen
Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling
Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Binomiaalcoefficient
Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Overschrijdingskansen van de binomiale verdeling
Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Afleiding van de binomiale verdeling
Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Voorbeeld van de binomiale verdeling
Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Parameters van de binomiale verdeling
Kansverdelingen > Discrete kansverdelingen > Binomiale verdeling >Verwachtingen van de binomiale verdeling
Kansverdelingen > Continue kansverdelingen
Kansverdelingen > Continue kansverdelingen > Kansdichtheid
Kansverdelingen > Continue kansverdelingen > Overschrijdings-kansen van continue verdelingen
Kansverdelingen > Continue kansverdelingen > Normale verdeling
Academiejaar 2009-2010 76
Hoofdstuk 3. 5. KENNISBASIS STATISTIEK
Kansverdelingen > Continue kansverdelingen > Normale verdeling >Overschrijdingskansen van de normale verdeling
Kansverdelingen > Continue kansverdelingen > Normale verdeling >Standaard normale verdeling
Kansverdelingen > Continue kansverdelingen > Normale verdeling >Normale benadering van discrete verdelingen
Kansverdelingen > Continue kansverdelingen > Normale verdeling >Normale benadering van discrete verdelingen>Continuıteitscorrectie
Academiejaar 2009-2010 77
4Samenhang tussen variabelen
78
Hoofdstuk 4. 1. INLEIDING
1 Inleiding
Tijdens een onderzoek gaat een statisticus vaak op zoek naar mogelijke ver-banden tussen de stochastische veranderlijken.
Voorbeeld 1Het bestuur van de hogeschool wil een sensibiliseringsactie voeren rond degevolgen van roken. Ze vragen zich daarbij of het rookgedrag bij de studen-ten beınvloed wordt door het al dan niet op kot zitten.
Voorbeeld 2Een bedrijfsdokter wil de medische controles van zijn werknemers snellerlaten verlopen door het aantal metingen te beperken. Hij vermoedt dat hetgewicht op een lineaire (= rechtlijnige) manier afhangt van de lengte. Opbasis van het gewicht en de lengte van een aantal lukraak gekozen patientenwil hij zijn vermoeden statistisch staven. Tenslotte wil hij het gevondenverband gebruiken om op basis van de lengte van een werknemer een be-trouwbare voorspelling te maken van het gewicht.
Statistiek biedt ons een aantal getallen die uitdrukken in welke mate eenvooropgesteld verband al dan niet aanwezig is. Zowel bij discrete als bijcontinue veranderlijken kunnen we op zoek gaan naar verbanden. In hetgeval van discrete veranderlijken (voorbeeld 1) spreken we van ’associatie’.Bij continue veranderlijken (voorbeeld 2) spreken we van ’correlatie’.
Academiejaar 2009-2010 79
Hoofdstuk 4. 2. ASSOCIATIE (DISCRETE VERANDERLIJKEN)
2 Associatie (discrete veranderlijken)
Veronderstel dat we willen onderzoeken of het rookgedrag bij de studentenafhangt van het al dan niet op kot zitten (voorbeeld 1). We vragen aan 51lukraak gekozen studenten of ze op kot zitten of niet en of ze roken of niet.Stel
X = ’op kot of niet’,
Y = ’roker of niet’.
De gezamenlijke verdeling van de 51 studenten zou er dan als volg kunnenuitzien:
y′j roker geen rokerx′i
kotstudent 5 16geen kotstudent 8 22
51
Op basis van deze cijfers kunnen we nu volgende vragen proberen te beant-woorden:
1. Zijn de veranderlijken X en Y geassocieerd? Dit wil zeggen, hangtde veranderlijke X af van de veranderlijke Y en omgekeerd? Of nog,wordt de veranderlijke X beıvloedt door de veranderlijke Y ?
2. Als er sprake is van associatie tussen X en Y , hoe sterk is die dan?
Om deze vragen te beantwoorden, kunnen we het getal Φ (lees: ’fie’) be-rekenen. Het drukt uit in welke mate twee discrete veranderlijken X en Ymet elkaar geassocieerd zijn.Als X en Y beiden twee mogelijke waarden hebben, dan is de gezamenlijkeverdeling een tabel van 2 bij 2:
y′1 y′2x′1 a bx′2 c d
N
met N = a+ b+ c+ d.De formule voor de berekenig van Φ is dan
Φ =
√(ad− bc)2
(a+ b) · (c+ d) · (a+ c) · (b+ d)
De waarde van Φ ligt altijd tussen 0 en 1. Afhankelijk van de ligging van Φbinnen het interval [0, 1], zijn X en Y in meer of mindere mate geassocieerdmet elkaar. We geven enkele voorbeelden.
Academiejaar 2009-2010 80
Hoofdstuk 4. 2. ASSOCIATIE (DISCRETE VERANDERLIJKEN)
Voorbeeld 1Veronderstel dat de gezamenlijke verdeling van X en Y gegeven wordtdoor
y′j roker geen rokerx′i
kotstudent 13 0geen kotstudent 0 38
51
Dan is Φ = 1. X en Y zijn dan maximaal geassocieerd. De tweeveranderlijken zijn dan inderdaad zeer sterk afhankelijk van elkaar. Indit geval impliceert op kot zitten immers automatisch dat je roker benten omgekeerd.
Voorbeeld 2Veronderstel dat de gezamenlijke verdeling van X en Y gegeven wordtdoor
y′j roker geen rokerx′i
kotstudent 7 10geen kotstudent 14 20
51
Dan is Φ = 0. X en Y zijn dan helemaal niet geassocieerd met elkaar.De twee veranderlijken zijn dan onafhankelijk van elkaar. Dit betekentondermeer dat de verhouding rokers/niet rokers niet afhangt van hetal dan niet op kot zitten. Immers, zowel binnen de groep van dekotstudenten als binnen de groep van de niet-kotstudenten (als binnende volledige groep) is de verhouding rokers/niet rokers gelijk aan 7/10.
Voorbeeld 3Veronderstel dat de gezamenlijke verdeling van X en Y gegeven wordtdoor
y′j roker geen rokerx′i
kotstudent 5 17geen kotstudent 25 4
51
Dan is Φ = 0.64. In dit geval kunnen we zeggen dat X en Y matigmet elkaar geassocieerd zijn. Dit is een soort tussensituatie.
Academiejaar 2009-2010 81
Hoofdstuk 4. 2. ASSOCIATIE (DISCRETE VERANDERLIJKEN)
Opmerking:We moeten voorzichtig omspringen met uitspraken over het al dan niet geas-socieerd zijn van twee veranderlijken X en Y . Het is belangrijk om te wetenof je je uitspraken baseert op de gegevens van de volledige populatie of opdie van een steekproef. We lichten dit toe aan de hand van het voorbeeldover het verband tussen roken en op kot zitten bij studenten.
Als de studentenpopulatie bestaat uit 51 studenten en we vinden voordie 51 studenten dat Φ = 0.9 dan kunnen we terecht zeggen dat hetrookgedrag bij de studenten sterk beınvloedt wordt door het al danniet op kot zitten.
Als de studentenpopulatie echter bestaat uit 5213 studenten en eensteekproef van 51 lukraak gekozen studenten levert Φ = 0.9 op, danmoeten we voorzichtig zijn met onze uitspraken. Het is best mogelijkdat het rookgedrag en het al dan niet op kot zitten voor de 51 studen-ten uit die ene steekproef toevallig sterk geassocieerd is. Maar ditbetekent niet noodzakelijk dat dit ook zo is voor de volledig populatie.Omdat je je bij een steekproef slechts baseert op een beperkt deel vande populatie kan de steekproef toevallig een foutief beeld geven. Erbestaan statistische tabellen om na te gaan of de associatie die je vindtin een steekproef ook nog van belang is voor de volledige populatie.We gaan er hier niet verder op in.
Academiejaar 2009-2010 82
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
3 Correlatie (continue veranderlijken)
Veronderstel dat we willen onderzoeken of er een verband bestaat tussende lengte en het gewicht van personen (voorbeeld 2). We vragen aan 29personen om hun lengte (in cm) en hun gewicht (in kg) op te geven. Stel
X = ’lengte (in cm)’,
Y = ’gewicht (in kg)’.
Merk op dat X en Y continue veranderlijken zijn. Om een eerste idee tekrijgen van de samenhang van de 2 reeksen gegevens, zetten we ze uit in eenspreidingsdiagram.
Het spreidingsdiagram laat ons toe om reeds een aantal kwalitatieve uit-spraken te doen over
het soort verband (lineair of niet-lineair),
de richting (positieve of negatieve samenhang),
de sterkte van het verband.
In deze tekst beperken we ons tot het onderzoeken van lineaire (= recht-lijnige) verbanden. We zoeken dus een antwoord op de volgende vragen:
1. Is er een lineair verband tussen de veranderlijken X en Y ? Met anderewoorden, kan je op het spreidingsdiagram een rechte tekenen die goedaansluit bij de punten op de grafiek?
2. Indien er sprake is van een lineair verband, hoe sterk is het? Of nog,hoe goed sluiten de punten op de grafiek aan bij een rechte?
Academiejaar 2009-2010 83
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
3.1 Pearson’s correlatiecoefficient
Om bovenstaande vragen te beantwoorden, kunnen we de correlatiecoefficientvan Pearson berekenen. Notatie: ρ (lees: ’roo’) of ’r’ als het over de gegevensvan een steekproef gaat. Als we de verzamelde gegevens voor X voorstellendoor x1, x2, . . . en de verzamelde gegevens voor Y door y1, y2, . . . dan wordtρ als volgt berekend
ρ =∑
(xi −X) · (yi − Y )√∑(xi −X)2 ·
√∑(yi − Y )2
De correlatiecoefficient ligt altijd tussen -1 en 1. Het getal geeft aan in welkemate er een lineair verband bestaat tussen de veranderlijken X en Y . Wegeven enkele voorbeelden.
Voorbeeld 1: verband tussen Fahrenheit en Celsius
Figuur 4.1: r = +1
We spreken in dit geval van een perfect positieve correlatie. Er is daneen perfect lineair verband tussen X (graden Celsius) en Y (gradenFahrenheit). Je kan dan op het spreidingsdiagram een rechte tekenendie precies door alle punten gaat. Het plusteken geeft bovendien aandat de rechte stijgend is.
Voorbeeld 2: verband tussen gewicht en lengte
Figuur 4.2: r = +0.56
Er is in dit geval een matig positieve correlatie. Dit wil zeggen dat er
Academiejaar 2009-2010 84
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
slechts een matig stijgend lineair verband is tussen X (lengte) en Y(gewicht). Elke rechte die je probeert te tekenen op het spreidingsdi-agram zal slechts matig bij de punten op de grafiek aansluiten.
Voorbeeld 3: verband tussen inkomen en gewicht
Figuur 4.3: r = +0.022
De veranderlijken X (gewicht) en Y (inkomen) zijn niet gecorreleerd.Er is dus geen lineair verband tussen X en Y . De punten op hetspreidingsdiagram liggen willekeurig verspreid op de grafiek en sluitenniet aan bij een rechte.
Voorbeeld 4: verband tussen kwaliteit ogen en leeftijd
Figuur 4.4: r = -0.87
Er is in dit geval een sterke negatieve correlatie. Dit wil zeggen dat ereen sterk lineair verband is tussenX (leeftijd) en Y (kwaliteit ogen). Jekan op het spreidingsdiagram een rechte tekenen die nagenoeg perfectaansluit bij de punten op de grafiek. Het minteken geeft bovendienaan dat de rechte dalend is.
Opmerkingen:
De correlatiecoefficient van Pearson drukt alleen uit in welke mate ereen lineair verband bestaat tussen 2 veranderlijkenX en Y . Dat ρ = 0impliceert daarom niet noodzakelijk dat er geen verband is tussen Xen Y , of nog dat X en Y onafhankelijk zijn. Het is best mogelijkdat ρ = 0 is, maar dat er toch een sterk niet-lineair verband bestaat
Academiejaar 2009-2010 85
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
tussen X en Y . Een voorbeeld daarvan vind je in onderstaande figuur.
Figuur 4.5: r = 0
De waarde van de correlatiecoefficient van Pearson is onafhankelijk vande gebruikte eenheden. Of je een lengte uitdrukt in cm of m, of je eengewicht uitdrukt in g of in kg, zolang je dezelfde gegevens gebruiktverandert de waarde van de correlatiecoefficient niet.
Dat twee veranderlijken volgens de correlatiecoefficient van Pearsongecorreleerd zijn, betekent niet noodzakelijk dat er ook een causaalverband bestaat tussen die twee. Het is best mogelijk dat er een der-de veranderlijke is die beide veranderlijken beınvloedt. Zo zullen deveranderlijken X = ’dagomzet ijsventer’ en Y = ’percentage patientenmet zonnebrand’ tijdens de zomermaanden misschien sterk gecorre-leerd zijn. Maar dat wil niet zeggen dat er ook een rechtstreeks cau-saal verband is tussen die twee. Beide veranderlijken worden beınvloeddoor een derde veranderlijke zoals Z = ’maximale dagtemperatuur’.
3.2 Regeressierechte
Als de waarde van de correlatiecoefficient ρ wijst op een sterk lineair verband(ρ in de buurt van -1 of +1), dan is het zinvol om op zoek te gaan naar derechte die het best bij de punten op de grafiek aansluit. We noemen dezerechte de regressierechte. Het bepalen van het functievoorschrift van dezerechte kan gebeuren met de kleinste kwadratenmethode. Daarbij wordt derechte gezocht waarvan de kwadraten van de verticale afstanden van derechte tot de punten samen zo klein mogelijk zijn. Het is dus de rechte diein verticale zin het best aansluit bij de punten op het spreidingsdiagram. Devergelijking van de regressierechte is van de vorm
Y = b0 + b ·X
waarbij
b =∑
(xi −X) · (yi − Y )∑(xi −X)2
en b0 = Y − b ·X
Academiejaar 2009-2010 86
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
3.3 Lineaire regressie - statistische interpretatie
De correlatiecoefficient kan berekend worden om na te gaan in welke mate deverzamelde gegevens een lineair verloop vertonen. Indien het lineair verbandvoldoende sterk is, kunnen we de regressierechte berekenen als de rechte diehet best bij de gegevens aansluit. Indien we daarbij beschikken over allegegevens van een populatie is het probleem daarmee opgelost. Statistiekwordt echter typisch ingeschakeld wanneer je uitspraken wil doen over eenvolledige populatie , maar slechts beschikt over gegevens van een beperktdeel (= steekproef). In dat geval berekenen we de correlatiecoefficient en deregressierechte aan de hand van de steekproefgegevens. De conclusies die webekomen op basis van de steekproef kunnen echter niet zomaar doorgetrok-ken worden naar de volledige populatie. Enige voorzichtigheid is geboden.Zo is het perfect mogelijk dat een steekproef toevallig een sterk lineair ver-band vertoont terwijl dat in de populatie misschien in minder mate of zelfshelemaal niet aanwezig is. We illustreren dit met onderstaande figuren.
Steekproef r = 0.79 Populatie = 0.56
Statistische tabellen kunnen ons helpen om de overgang van steekproef naarpopulatie te maken. De tabel laat ons toe om met een vrij grote zekerheidte bepalen of een correlatie die waargenomen wordt in een steekproef vol-doende groot (significant) is om te kunnen zeggen dat er ook in de populatiesprake is van correlatie. Het gebruik van de tabel is echter gebonden aaneen aantal voorwaarden. Dit brengt ons bij het lineaire regressiemodel.
Lineaire regressiemodel
Beschouw een populatie met 2 eigenschappen die worden uitgedrukt door 2veranderlijken X en Y . Veronderstel dat bij elke waarde van X meerdereY -waarden mogelijk zijn. Bij elke waarde van X hoort dus een volledigeverdeling van Y -waarden met een gemiddelde en een standaardafwijking (=spreiding). In het lineaire regressiemodel vertrekken we van de idee dat ereen lineair verband bestaat tussen X en het gemiddelde van de verdelingvan Y -waarden.
Academiejaar 2009-2010 87
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
In het lineaire regressiemodel gaan we uit van volgende voorwaarden:
voor elke waarde van X volgen de bijhorende Y -waarden een normaleverdeling met telkens dezelfde standaardafwijking σ,
de waarden van Y bij verschillende waarden van X zijn onafhankelijkvan elkaar.
VoorbeeldVeronderstel dat we willen onderzoeken of er een lineair verband is tussende lengte (in cm) en het gewicht (in kg) van personen. Stel
X = ’lengte (in cm)’,
Y = ’gewicht (in kg)’.
Als de populatie voldoende groot is, dan zullen bij iedere lengte meerderemensen horen die niet allemaal hetzelfde gewicht hebben. De voorwaar-de betekent dan dat de gewichten van alle mensen met een bepaalde lengtenormaal verdeeld zijn met telkens dezelfde standaardafwijking (dus onafhan-kelijk van de lengte). Dus, dat bijvoorbeeld de gewichten van alle mensenmet een lengte van 170 cm normaal verdeeld zijn met gemiddelde 72 kgen standaardafwijking σ = 3 kg, dat de gewichten van alle mensen met eenlengte van 182 cm normaal verdeeld zijn met gemiddelde 80 kg en standaard-afwijking σ = 3 kg, enz...
Gewichten bij lengte = 170 cm Gewichten bij lengte = 182 cm
Gemiddelde = 72 kgStandaardafwijking = 3 kg
Gemiddelde = 80 kgStandaardafwijking = 3 kg
Symbolisch kunnen de aannames van het lineaire regressiemodel als volgtgeformuleerd worden:
Y = β0 + β ·X + ε
met ε ∼ N(0, σ2). ε is de spreiding van de Y -waarden rond de gemiddeldewaarde van Y .
Academiejaar 2009-2010 88
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
Globaal krijg we dan het volgende beeld van het lineaire regressiemodel:
Conditional probability distribution and population regression function
X
Y
f(u)
X2
X3
X1
Van steekproef naar populatie: praktisch stappenplan
Om vanuit een steekproef uitspraken te doen over de mogelijke lineaire sa-menhang van twee variabelen X en Y in de populatie doorlopen we devolgende stappen:
1. Bereken de correlatiecoefficient r van de steekproef.
2. Overgang van steekproef naar populatie Dat de correlatiecoefficient rverschillend van 0 is, betekent niet noodzakelijk dat er ook sprake isvan correlatie in de populatie. Zelfs wanneer er geen correlatie is in depopulatie kan er in de steekproef toevallig wel een correlatie te vindenzijn. Om na te gaan of de waargenomen correlatie in de steekproef ookstatistisch relevant is en impliceert dat er correlatie in de populatie isgebruiken we een tabel. Deze tabel heeft het volgende uitzicht
N 0.1 0.05 0.01 0.001
4 0.900 0.950 0.990 0.9995 0.805 0.878 0.959 0.9916 0.729 0.811 0.917 0.9747 0.669 0.754 0.875 0.9518 0.621 0.707 0.834 0.925. . . . . . . . . . . . . . .
Academiejaar 2009-2010 89
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
In de tabel staat N voor het aantal elementen in de steekproef. Degetallen in de eerste rij (0.1, 0.05, 0.01, . . .) geven de ’onzekerheid’ vanonze beslissing weer. Zo geeft 0.1 aan dat er een kans is van 10% datje per toeval in een steekproef een correlatie verschillend van nul hebtals er in de populatie geen correlatie is.
Gebruiksaanwijzing van de tabel:
Bepaal het aantal elementen van de steekproef N .
Kies een ’onzekerheidsniveau’.
Vergelijk de berekende waarde van r met de waarde in de tabel.
Conclusie:
(a) als r groter is dan de waarde in de tabel, dan concluderen wedat de correlatie in de populatie verschillend van 0 is,
(b) als r kleiner is dan de waarde in de tabel, dan concluderenwe dat we op basis van deze steekproef niet kunnen sprekenover correlatie in de populatie.
3. Bepaal de regressierechte voor de gegevens van de steekproef:
Y = b0 + b ·X
De coefficienten b0 en b die we bekomen op basis van de steekproefleveren een schatting op voor de overeenkomstige coefficienten β0 en βuit het populatiemodel. De gevonden regressierechte is dus een schat-ting voor het populatiemodel Y = β0 + β ·X.
Gebruik van de regressierechte
De regressierechte die we op basis van een steekproef gevonden hebben, kangebruikt worden om voorspellingen te doen. Voor een gegeven waarde vanX kunnen we de regressierechte gebruiken om een voorspelling te doen voorde bijhorende (gemiddelde) Y -waarde. Om een kwaliteitsvolle voorspellingte bekomen, moeten een aantal voorwaarden voldaan zijn:
de correlatie moet voldoende groot zijn. Wat we precies moeten ver-staan onder ’voldoende’ groot, hangt af van de context.
we beperken onze voorspellingen best tot X-waarden die binnen degegevens van de steekproef vallen. We spreken in dat geval van in-terpolatie. Als we een voorspelling zouden doen voor een X-waardebuiten het bereik van de gegevens van de steekproef dan spreken weover extrapolatie.
Academiejaar 2009-2010 90
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
Opmerkingen
Of een concreet populatiemodel al dan niet voldoet aan de voorwaar-den die we vooropstellen (zie hoger), kan grafisch geverifieerd wordenaan de hand van een grafiek van de residuen. Als yi de i-de waarde isuit de steekproef voor de veranderlijke Y en yi = b0 + b · xi de voor-spelde waarde volgens de regressierechte dan is ei = yi − yi het i-deresidu.
De waarde van σ (spreiding in de Y -waarden) in het populatiemodelkan vanuit de steekproef geschat worden aan de hand van de volgendeformule:
s =
√∑(yi − yi)2
n− 2
Academiejaar 2009-2010 91
Hoofdstuk 4. 3. CORRELATIE (CONTINUE VERANDERLIJKEN)
Voorbeeld
Antropologen onderzoeken het verband tussen de lengte van de mens ende lengte van een van zijn beenderen. Volgende gegevens komen uit TheEstimation of Adult Stature from Metacarpal Bone Length (Amer. J. Phys.Anthro. (1978) 113-120).
lengte bot 45 51 39 41 52 48 49 46 43 47lengte lichaam 171 178 157 163 183 172 183 172 175 173
Berekeningen:
X Y X −X Y − Y (X −X) (X −X)2 (Y − Y )2
·(Y − Y )45 171 -1,1 -1,7 1,87 1,21 2,8951 178 4,9 5,3 25,97 24,01 28,0939 157 -7,1 -15,7 111,47 50,41 246,4941 163 -5,1 -9,7 49,47 26,01 94,0952 183 5,9 10,3 60,77 34,81 106,0948 172 1,9 -0,7 -1,33 3,61 0,4949 183 2,9 10,3 29,87 8,41 106,0946 172 -0,1 -0,7 0,07 0,01 0,4943 175 -3,1 2,3 -7,13 9,61 5,2947 173 0,9 0,3 0,27 0,81 0,09
som 461 1727 271,3 158,9 590,1gem. 46.1 172.7
Pearson’s correlatiecoefficientr = 0.8859822
Opzoeken in tabel (v.b. ’onzekerheid’ = 1%)N = 100.8859822 > 0.765
Regressierechte
b = 1.71b0 = 93.87Y = 93.87 + 1.71 ·X
Academiejaar 2009-2010 92
Hoofdstuk 4. 4. OEFENINGEN
4 Oefeningen
1. Examenvraag - januari 2007FranZ Bauer wil onderzoeken of er een verband bestaat tussen de duurvan een liedje en de grootte van het MP3-bestand. Uit een speellijstworden lukraak 15 liedjes gekozen. Dit zijn de resultaten:
Naam Tijd Grootte(min:sec) bestand (kB)
Concord dawn - morning light 5:09 7247Dom&Roland - dynamo 3:32 4988Bad company - blind 7:30 10566Bad company - mass hysteria 6:58 9800Breakbeat era - bullitproof 4:32 5329Dj krust - guess 7:11 10108Kiko - passport 5:54 8315Kryptic minds - the gift 6:06 8481London elektricity - dancing vip 6:39 9355Peshay - road to San Marino 8:04 11360Nookie - solstice 7:59 11237Nu:tone - jazm 5:55 8339Shogun - together 7:20 10318Makoto - my soul 8:44 12293Johnny L - let’s roll 6:14 8780
(a) Is er een aannemelijk lineair verband tussen de tijdsduur van eenliedje (in seconden) en de grootte (in kB) van het MP3-bestand?
(b) Indien zinvol, bepaal de regressierechte.
(c) Kan je aan de hand van de regressierechte voorspellen of eenkort liedje van 25 seconden op een gewone floppy (1.44 MB) kanworden opgeslagen? Wat kan je hierbij opmerken?
2. Examenvraag - augustus 2007De bekende Wet van Moore stelt dat het aantal transistoren op eenchip elke achttien maanden verdubbelt. Wiskundig betekent dit dat ereen exponentieel verband bestaat tussen de tijd en het aantal transis-toren op een chip. Of nog, dat er een lineair verband bestaat tussen detijd en de logaritme van het aantal transistoren op een chip. Hierondervind je een tabel met informatie over 11 types van processors.
Academiejaar 2009-2010 93
Hoofdstuk 4. 4. OEFENINGEN
Intel- Introductie- # transistoren log(# transistoren)processor jaar8086 1978 29000 4,46286 1982 134000 5,13386 1985 275000 5,44486 1989 1200000 6,08Pentium 1993 3100000 6,49Pentium II 1997 7500000 6,88Pentium III 1999 9500000 6,98Pentium 4 2000 42000000 7,62Itanium 2001 25000000 7,40Itanium 2 2003 220000000 8,34Itanium 2 9M 2004 592000000 8,77
(bron: http://www.computable.nl/artikels/archief5/d16hb5zi.htm)
(a) Lijkt de wet van Moore aannemelijk? Met andere woorden, iser een aannemelijk lineair verband tussen het introductiejaar vande processor en de logaritme van het aantal transistoren op eenchip?
(b) Indien zinvol, bepaal de regressierechte.
(c) Kan je aan de hand van de regressierechte het aantal transistorenop een chip voorspellen voor een processor die in 2010 op de marktzal gebracht worden? Wat kan je hierbij opmerken?
Academiejaar 2009-2010 94
Hoofdstuk 4. 5. KENNISBASIS STATISTIEK
5 Kennisbasis Statistiek
De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek > Samenhang tussen variabelen’.
Associatie en correlatie
Associatie en correlatie > Asscociatie
Associatie en correlatie > Associatie > Kruistabellen
Associatie en correlatie > Associatie > Kruistabellen > Marginaleverdeling
Associatie en correlatie > Associatie > Kruistabellen > Conditioneleverdeling
Associatie en correlatie > Associatie > Associatiematen >Chikwadraat
Associatie en correlatie > Associatie > Associatiematen > Phi
Associatie en correlatie > Correlatie
Associatie en correlatie > Correlate > Spreidingsdiagram
Associatie en correlatie > Correlate > Correlatie en causaliteit
Associatie en correlatie > Correlate > Correlatiecoefficienten
Associatie en correlatie > Correlatie > Correlatiecoefficienten >Pearson’s correlatiecoefficient
Regressie en variantie-analyse > Regressie-analyse
Regressie en variantie-analyse > Regressie-analyse >Lineaire regressiemodel
Regressie en variantie-analyse> Regressie-analyse>Kleinste kwadraten-methode
Regressie en variantie-analyse> Regressie-analyse>Kleinste kwadraten-methode > Regressiecoefficienten
Regressie en variantie-analyse> Regressie-analyse>Kleinste kwadraten-methode > Voorspellen
Academiejaar 2009-2010 95
5Populatie, steekproef en schatten
96
Hoofdstuk 5. 1. INLEIDING
1 Inleiding
Als we een statistisch onderzoek willen doen dan hebben we altijd een be-paalde groep van mensen, dieren, voorwerpen in gedachten. De volledigeverzameling van eenheden die we willen onderzoeken noemen we de po-pulatie. Meestal zijn we geınteresseerd in een of meer eigenschappen vande eenheden van een populatie. Elke eigenschap kan uitgedrukt worden ineen populatieveranderlijke. Zoals elke veranderlijke heeft ook een populatie-veranderlijke een bepaalde verdeling, met een gemiddelde en een variantie.We spreken dan over het populatiegemiddelde en de populatievariantie. Dezegetallen noemen we parameters van de populatie.
VoorbeeldBeschouw als populatie ’alle Vlamingen’. Als we geınteresseerd zijn in delengte van de Vlamingen dan is X = ’lengte (in cm)’ een populatieveran-derlijke. Deze X zou bijvoorbeeld normaal verdeeld kunnen zijn met popu-latiegemiddelde µX = 172 cm en populatievariantie σ2
X = 100 cm2.
Vaak is het onmogelijk om de volledige populatie te onderzoeken omdat
de populatie te groot is,
een dergelijk uitgebreid onderzoek te duur is,
het onderzoek destructief is (bijvoorbeeld levensduur gloeilampen),
. . .
We onderzoeken daarom in de meeste gevallen slechts een beperkt deel vande populatie en spreken dan van het nemen van (een) steekproef(ven). Hetaantal elementen in een steekproef noemen we de lengte van de steekproefof ook wel steekproefgrootte.
VoorbeeldVeronderstel dat we in het onderzoek naar de lengte van de Vlamingen be-sluiten om slechts 10 Vlamingen te bevragen. Dan krijgen we een steekproefvan lengte 10 die er als volgt zou kunnen uitzien:
(172, 159, 150, 184, 179, 202, 194, 181, 172, 163)
Academiejaar 2009-2010 97
Hoofdstuk 5. 2. STEEKPROEVEN
2 Steekproeven
2.1 Steekproefveranderlijken
Het nemen van een concrete steekproef van lengte 5 levert een rijtje met 5getallen op. Wanneer we deze procedure een paar keer herhalen, zullen wezelden exact dezelfde steekproeven krijgen.Veronderstel bijvoorbeeld dat we in het onderzoek naar de lengte van alleVlamingen meerdere steekproeven van lengte 5 nemen. Dan zou het resul-taat er als volgt kunnen uitzien:
steekproef 1: (156, 172, 184, 172, 188)steekproef 2: (173, 181, 158, 173, 192)steekproef 3: (171, 167, 181, 173, 195). . .
↑ ↑ ↑ ↑ ↑X1 X2 X3 X4 X5
Als we in elke steekproef kijken naar het eerste element dan merken we datdit verschilt van steekproef tot steekproef. Over alle mogelijke steekproevenvan lengte 5 gezien, kan ’het eerste element van de steekproef’ daarom ge-zien worden als een veranderlijke waarvan de waarde verandert naargelangde steekproef. Dit geldt ook voor de andere elementen van de steekproef.De steekproeven van lengte 5 geven dus aanleiding tot een rijtje van 5 ver-anderlijken
(X1, X2, X4, X4, X5)
met de volgende betekenis
X1 = ’eerste element van de steekproef’,
X2 = ’tweede element van de steekproef’,
. . .
X5 = ’vijfde element van de steekproef’,
In het algemeen geven de steekproeven van een bepaalde lengte n dus aan-leiding tot een rij (X1, X2, . . . , Xn) van n veranderlijken. We noemen dezeveranderlijken de steekproefveranderlijken.
2.2 ’Goede’ steekproeven
Om zinvolle uitspraken te kunnen doen aan de hand van een of meerderesteekproeven, moeten de steekproeven de juiste kwaliteiten bezitten. Zonderin detail te treden, kunnen we zeggen dat een steekproef ’goed’ is als ze
Academiejaar 2009-2010 98
Hoofdstuk 5. 2. STEEKPROEVEN
betrouwbaar is, d.w.z. dat wanneer je meerdere steekproeven vandezelfde lengte neemt dat er kleine verschillen mogelijk zijn, maar datje globaal toch dezelfde resultaten vindt,
representatief is voor de populatie, d.w.z. dat de kenmerken vande populatie ook weerspiegeld worden in de steekproef. Dit probeertmen over het algemeen te bekomen door aselecte steekproeven tenemen. Daarbij heeft iedere eenheid van de populatie evenveel kans omtoevallig in de steekproef terecht te komen. Bij een eindige populatiekan dit gerealiseerd worden door alleen eenheden van de populatie eennummer te geven en vervolgens at random nummers te selecteren. Wezeggen dan vaak dat de elementen van de steekproef lukraak gekozenworden.
Wanneer we op een correcte manier steekproeven nemen, kunnen we ver-wachten dat de resultaten uit de steekproef veralgemeend kunnen wordennaar de populatie. Dit betekent echter niet dat we de resultaten uit desteekproef zomaar kunnen overnemen voor de hele populatie, maar wel datwe aan de hand van de steekproef zinvolle uitspraken kunnen doen over depopulatie.
2.3 Steekproefgrootheden, schatters
Na het nemen van een steekproef worden de elementen ervan vaak onder-worpen aan allerlei bewerkingen om de juiste informatie te bekomen. Zokunnen we bijvoorbeeld de elementen van een steekproef gebruiken om hetsteekproefgemiddelde of de steekproefvariantie te berekenen. We sprekendan van steekproefgrootheden. Omdat er verschillen kunnen opduikentussen de steekproeven van eenzelfde lengte, varieert de waarde van diesteekproefgrootheden van steekproef tot steekproef. Steekproefgroothedenzijn daarom veranderlijken waarvan de waarde kan veranderen naar gelangde concrete steekproef die getrokken wordt.
Vaak worden steekproefgrootheden gebruikt om ongekende parameters vande populatie te schatten vanuit een steekproef. We spreken in dat geval vanschatters.
VoorbeeldBeschouw opnieuw het onderzoek naar de lengte van alle Vlamingen. Alshet populatiegemiddelde µX en/of de populatievariantie σ2
X ongekend zijn,kunnen we deze parameters vanuit een steekproef proberen te schatten methet steekproefgemiddelde en/of de steekproevariantie.
Academiejaar 2009-2010 99
Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE
3 Het steekproefgemiddelde
3.1 Formule
Wanneer we de formule voor een gemiddelde van een rijtje getallen toe-passen op de elementen van een steekproef van lengte n bekomen we hetsteekproefgemiddelde X:
X =X1 +X2 + . . .+Xn
n
3.2 Centrale limiestelling
Stel dat we altijd nieuwe steekproeven maken en daarvan telkens het steekproef-gemiddelde berekenen. Dan kunnen we ons de volgende vragen stellen:
Waar komt het steekproefgemiddelde terecht?
Komt het ver van of dicht bij µX terecht?
Waar komt het meestal terecht?
Waar komt het gemiddeld terecht?
We kunnen dit soorten vragen wiskundig vertalen als volgt:
Welke verdeling volgt het steekproefgemiddelde?
Wat is het gemiddelde van deze verdeling?
Wat is de variantie van deze verdeling?
We proberen een antwoord te vinden met het volgend voorbeeld. Veron-derstel dat je aan elk lid van een zeer grote populatie een kaartje geeft metdaarop 1 cijfer: 0, 1, 2 of 3. Veronderstel ook dat er van elk cijfer evenveelkaartjes zijn. Veronderstel verder dat X het cijfer op een kaartje voorstelt.
De populatieveranderlijke X
De verdeling van X vind je hieronder.Omwille van de symmetrie zien we dat het gemiddelde µX gelijk is aan 1.5.Je kan µX en σ2
X ook vinden door kolommen toe te voegen aan de tabel vande kansverdeling.
x′i P (X = x′i) x′i · P (X = x′i) x′i2 · P (X = x′i)
0 1/4 0 01 1/4 1/4 1/42 1/4 2/4 4/43 1/4 3/4 9/4
1 E[X] = 6/4 E[X2] = 14/4
Academiejaar 2009-2010 100
Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE
0 1 2 3
1/4 1/4 1/4 1/4
X
We vinden dus:
µX = E[X] =64
= 1.5
σ2X = var[X]
= E[X2]− (E[X])2
=144− 9
4=
54
= 1.25
Steekproeven van lengte 2
We nemen lukraak een eerste kaartje uit de populatie en stellen X1 gelijkaan het nummer op het eerste kaartje. We nemen lukraak een tweede kaartjeuit de populatie en stellen X2 gelijk aan het nummer op het tweede kaartje.Op die manier ontstaan er steekproeven (X1, X2) van lengte 2. Er zijn 16verschillende mogelijke steekproeven:
(0,0) (0,1) (0,2) (0,3) (1,0) (1,1) (1,2) (1,3)(2,0) (2,1) (2,2) (2,3) (3,0) (3,1) (3,2) (3,3)
Elk van deze steekproeven heeft dezelfde kans (1/16) om getrokken te wor-den. We berekenen nu voor elke steekproef het steekproefgemiddelde envinden de volgende mogelijkheden:
Academiejaar 2009-2010 101
Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE
steekproefgemiddelde steekproef0 (0,0)
0.5 (0,1), (1,0)1 (0,2), (1,1), (2,0)
1.5 (0,3), (1,2), (2,1), (3,0)2 (1,3), (2,2), (3,1)
2.5 (2,3), (3,2)3 (3,3)
De gafiek van de verdeling van het steekproefgemiddelde (over alle mogelijkesteekproeven) ziet er als volgt uit:
0 0.5 1 1.5 2 2.5 3
1/16
2/16 2/16
1/16
3/16 3/16
4/16
steekproefgemiddelde
De symmetrie in deze verdeling valt meteen op. Met een tabel kunnen wehet gemiddelde en de variantie van deze kansverdeling van X berekenen(doen!). We vinden dan
E[X] = 1.5 = µX
var[X] = 0.625 =σ2X
2
Steekproeven van lengte 3
Analoog als bij de steekproeven van lengte 2 kunnen we alle mogelijkesteekproeven van lengte 3 opsommen, voor elke steekproef het steekproef-gemiddelde berekenen en tenslotte de verdeling van het steekproefgemiddeldeuittekenen.De kansverdeling van X is opnieuw symmetrisch. Met een tabel berekenenwe het gemiddelde en de variantie van deze verdeling en vinden:
E[X] = 1.5 = µX
var[X] ≈ 0.4167 =σ2X
3
Academiejaar 2009-2010 102
Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE
0.00 0.33 0.67 1.00 1.33 1.67 2.00 2.33 2.67 3.00
1/64 1/64
3/64 3/64
3/32 3/32
5/32 5/32
3/16 3/16
steekproefgemiddelde
Steekproeven van lengte 4
Als we bovenstaande procedure nogmaals doorlopen vinden we volgendekansverdeling voor het steekproefgemiddelde van steekproeven van lengte 4:
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00
11/64 5/32 5/32
31/256 31/256
5/64 5/64
5/128 5/128
1/64 1/64 1/256 1/256
steekproefgemiddelde
Opnieuw springt de symmetrie van deze verdeling in het oog. Berekenenvan het gemiddelde en de variantie van deze verdeling geeft:
E[X] = 1.5 = µX
Var[X] = 0.3125 =σ2X
4
Academiejaar 2009-2010 103
Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE
Steekproeven van lengte n
Naarmate n groter wordt, wordt de kwaliteit van het steekproefgemiddeldenog beter. Omwille van de symmetrie van deze verdeling wordt het al vlugaannemelijk dat het steekproefgemiddelde een normale verdeling gaat volgen.Verder nemen we zonder bewijs aan dat
E[X] = µX
Var[X] =σ2X
n
Besluit: centrale limietstelling
De centrale limietstelling zegt dat, naarmate de steekproef groter wordt,de verdeling van het steekproefgemiddelde van steekproeven van lengte neen normale verdeling benadert, wat ook de verdeling van de populatie sto-chastische veranderlijke is.Verder is het gemiddelde van alle steekproefgemiddelden E[X] gelijk aanhet populatiegemiddelde µX en de varaiantie van alle steekproefgemiddel-den Var[X] gelijk aan de populatievariantie gedeeld door de lengte van desteekproeven σ2
Xn . Dus
X ∼ N(µX ,σ2X
n)
Vanaf steekproeflengte n = 30 mogen we gebruik maken van deze normaleverdeling.Naarmate de verdeling van X zelf symmetrisch is, kan je deze benaderingook gebruiken voor kleinere waarden van n.Als X normaal verdeeld is, geldt deze stelling automatisch.
3.3 Het steekproefgemiddelde als schatter voor het popula-tiegemiddelde
Om een idee te krijgen van het populatiegemiddelde ligt het voor de handdat we iets analoog gebruiken in de steekproef, namelijk het steekproef-gemiddelde. Het steekproefgemiddelde is dus een schatter voor het po-pulatiegemiddelde.Naast het steekproefgemiddelde zijn er andere mogelijkheden om het po-pulatiegemiddelde te schatten. We zouden als schatter ook het gemiddeldekunnen nemen van het kleinste en grootste element van de steekproef.Van een goede schatter verwachten we dat deze
onvertekend is, d.w.z. gemiddeld (over alle mogelijke steekproevenbekeken) terecht komt op wat je zoekt.
Academiejaar 2009-2010 104
Hoofdstuk 5. 3. HET STEEKPROEFGEMIDDELDE
een zo klein mogelijke spreiding heeft rond wat je zoekt.
De kwaliteit van een schatter hangt dus af van haar verdeling. Bekijkenwe als voorbeeld de verdeling van het steekproefgemiddelde X. We zagen
0.125
1.171 105.
f x( )
255 x
µ X
dat het steekproefgemiddelde verandert van steekproef tot steekproef. Hetsteekproefgemiddelde volgt, bij een voldoende grote steekproef, een normaleverdeling met gemiddelde µ en variantie σ2/n. We concluderen:
Het steekproefgemiddelde X is een onvertekende schatter voor hetpopulatiegemiddelde µ.
Omwille van de normale verdeling komen heel veel steekproefgemid-delden dicht bij µ terecht.
Men kan ook bewijzen dat, van alle schatters van µ, het steekproef-gemiddelde X de kleinste variantie (spreiding) heeft. We noemen hetsteekproefgemiddelde daarom de beste schatter voor µ.
Academiejaar 2009-2010 105
Hoofdstuk 5. 4. DE STEEKPROEFVARIANTIE
4 De steekproefvariantie
4.1 Formule
Om een idee te krijgen van de populatievariantie gebruiken wij iets analoogsin de steekproef, namelijk de steekproefvariantie S2
n. (De index n in denotatie geeft aan dat er gedeeld wordt door n).
Definitieformule: S2n =
∑ni=1(Xi −X)2
n
Korte formule: S2n =
∑ni=1X
2i
n−X2
4.2 De steekproefvariantie als schatter voor de populatieva-riantie
Om een goede schatter voor σ2 te zijn, moet S2n onvertekend zijn. We moeten
dus controleren of E[S2n] gelijk is aan σ2. We vinden echter dat
E[S2n
]=n− 1n
σ2 < σ2
zodat S2n een onderschatting is van σ2.
Een onvertekend schatter van σ2 wordt dus gegeven door
n
n− 1· S2
n =n
n− 1
∑ni=1(Xi −X)2
n=∑ni=1(Xi −X)2
n− 1= S2
n−1.
Er wordt dus gedeeld door n− 1 in plaats van door n hetgeen we ook in denotatie aangeven. Op de meeste zakrekenmachines vind je toetsen voor bei-de definities. We zullen voortaan de steekproefvariantie gebruiken waarbijgedeeld wordt door n − 1 om op die manier een onvertekende schatter vanσ2 te krijgen.Net zoals bij de vertekende steekproefvariantie S2
n is er ook voor de onver-tekende steekproefvariantie S2
n−1 een definitieformule en een korte formule.
Definitieformule: S2n−1 =
∑ni=1(Xi −X
2)n− 1
Korte formule: S2n−1 =
∑ni=1X
2i −
(∑n
i=1Xi)2
n
n− 1
Academiejaar 2009-2010 106
Hoofdstuk 5. 5. OEFENINGEN
5 Oefeningen
1. De dikte van de computer chips die wereldwijd geproduceerd wordenis normaal verdeeld met gemiddelde 200 micrometer en standaard-afwijking 5 micrometer.
(a) Als je lukraak 15 computer chips kiest, wat is dan de kans datde gemiddelde dikte van deze chips tussen 197.5 micrometer en203.2 micrometer ligt?
(b) Een fabrikant van computer chips verpakt de chips in dozen van10 stuks. Ter controle wordt de gemiddelde dikte van de chipsin een doos berekend. De kwaliteitsverantwoordelijke beslist datde dozen met de 10% kleinste gemiddeldes niet mogen verkochtworden. Wat is de minimaal gemiddelde dikte in een doos van 10chips die mag verkocht worden?
2. De nationale bank vermoedt dat er een valse muntstukken in omloopzijn. Deze muntstukken zijn zo vervaardigd dat er een kans is van 35%om kop te gooien. De muntstukken worden per 1000 getest: ze wor-den opgegooid en er wordt genoteerd hoe vaak ’munt’ wordt gegooid.Als je deze procedure 30 keer herhaalt, tussen welke waarden zal hetgemiddeld aantal keer munt per 1000 muntstukken dan met een kansvan 95% gelegen zijn?
3. Door een fabricagefout is 40% van een bepaald model laptop binneneen jaar defect. Testaankoop wil dit geval onderzoeken. Verondersteldat Testaankoop lukraak steekproeven neemt van 30 laptops. Na eenjaar wordt gekeken of de laptops nog werken of niet. Voor een werkendelaptop wordt een ’1’ genoteerd, voor een defecte een ’0’. Om eenschatting te maken van de proportie defecte laptops wordt tenslottehet aantal eentjes opgeteld en gedeeld door 30.
(a) Wat is de verdeling van de proportie defecte laptops voor steek-proeven van lengte 30?
(b) Wat is de kans dat de proportie defecte laptops in een steekproefvan lengte 30 groter is dan 0.55 of kleiner 0.30?
Academiejaar 2009-2010 107
Hoofdstuk 5. 6. KENNISBASIS STATISTIEK
6 Kennisbasis Statistiek
De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.
Populatie en steekproef
Populatie en steekproef > Steekproeftrekking
Populatie en steekproef > Steekproeftrekking > Generaliseerbaar-heid
Populatie en steekproef > Steekproeftrekking > Aselectheid
Populatie en steekproef > Steekproefvariabiliteit
Populatie en steekproef > Steekproefvariabiliteit > Steekproefom-vang
Populatie en steekproef > Steekproefgrootheden
Populatie en steekproef > Steekproefgrootheden > Kansverdelingvan steekproefgrootheden
Populatie en steekproef > Steekproefgrootheden > Verwachtingenvan steekproefgrootheden
Populatie en steekproef > Steekproefgrootheden > Centrale limiet-stelling
Schatten en toetsen
Schatten en toetsen > Puntschatters en intervalschatters
Schatten en toetsen > Puntschatters en intervalschatters > Zuivereschatting
Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van het populatiegemiddelde
Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van het populatiegemiddelde >Kansverdeling van het steekproefgemiddelde
Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatievariantie
Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatieproportie
Academiejaar 2009-2010 108
Hoofdstuk 5. 6. KENNISBASIS STATISTIEK
Schatten en toetsen > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatieproportie >Kansverdeling van de steekproefproportie
Academiejaar 2009-2010 109
6Betrouwbaarheidsintervallen (B.I)
110
Hoofdstuk 6. 1. BI VOOR HET POPULATIEGEMIDDELDE
1 BI voor het populatiegemiddelde
VoorbeeldEen drankenfabrikant produceert kleine flesjes met een suikeroplossing alsbasis voor een nieuwe frisdrank. De concentratie aan suiker is normaalverdeeld met ongekend gemiddelde µX en standaardafwijking σX = 20 g/l.Een steekproef van 5 flesjes heeft de volgende concentraties opgeleverd:
(120, 132, 125, 128, 116)
We stellen
Populatie = ’alle flesjes met suikeroplossing’
Populatieveranderlijke X = ’concentratie (in g/l)’
Dan isX ∼ N(µX , σ2
X = 400).
Uit de lessen over het steekproefgemiddelde weten we dan dat voor steek-proeven van lengte 5 het steekproefgemiddelde
X ∼ N(µX ,
4005
).
0.0205
4.363 10 5.
f x( )
7070 xµµX
X ~ (µµX , 400) 5
DEMO VERSION
PDF-XCHANGE
www.docu-track.com
Als we zoals in het voorbeeld een concrete steekproef hebben getrokken, kun-nen we met het steekproefgemiddelde X het ongekende populatiegemiddeldeµX proberen te schatten. In dit voorbeeld vinden we X = 124.2. We noe-men dit een puntschatting omdat we met een enkele waarde de ongekendepopulatieparameter µX proberen te schatten. De verdeling van X toontechter aan dat we met zo’n schatting meestal onder of boven de correctewaarde µX terecht komen. Deze puntschatting leert ons daarom weinig overhet ongekende populatiegemiddelde µX .
In een poging om meer te weten te komen over het ongekende populatie-gemiddelde µX proberen we een interval te construeren rond het steekproef-gemiddeldeX = 124.2 op zo’n manier dat er 95% kans is dat het ongekendepopulatiegemiddelde µX tot dat interval behoort.
Academiejaar 2009-2010 111
Hoofdstuk 6. 1. BI VOOR HET POPULATIEGEMIDDELDE
Om dat doel te bereiken zoeken we eerst een positief getal a zodat op deverdeling van X geldt dat
P (µX − a ≤ X ≤ µX + a) = 0.95.
0.0205
4.363 10 5.
f x( )
7070 xµµX
X ~ (µµX , 400) 5
a a
µµX + aµµX - a
9 5 %
DEMO VERSION
PDF-XCHANGE
www.docu-track.com
De berekening van a maken we verderop, maar laat ons eerst even bekijkenwat we met deze a kunnen doen.Er zijn nu twee situaties mogelijk:
1. Er is 95% kans dat een willekeurig steekproefgemiddelde (van eensteekproef met 5 flesjes) zoals X = 124.2 in het interval [µX−a, µX+a]ligt. In dat geval zal het interval [124.2− a, 124.2 + a] het ongekendepopulatiegemiddelde µX bevatten.
0.0205
4.363 10 5.
f x( )
7070 xµµX
9 5 %
a
124.2 124.2 - a 124.2 + aSituatie 1: interval bevat populatiegemiddelde wel
DEMO VERSION
PDF-XCHANGE
www.docu-track.com
2. Er is 5% kans dat een willekeurig steekproefgemiddelde (van een steek-proef met 5 flesjes) zoals X = 124.2 buiten het interval [µX−aµX +a]valt. In dat geval zal het interval [124.2− a, 124.2 + a] het ongekendepopulatiegemiddelde µX niet bevatten.
0.0205
4.363 10 5.
f x( )
7070 xµµX
9 5 %
a
124.2 124.2 - a 124.2 + aSituatie 2: interval bevat populatiegemiddelde niet
DEMO VERSION
PDF-XCHANGE
www.docu-track.com
Academiejaar 2009-2010 112
Hoofdstuk 6. 1. BI VOOR HET POPULATIEGEMIDDELDE
Samengevat:als je een steekproef van lengte 5 neemt en rond het steekproefgemiddeldeX het interval [X − a, X + a] construeert heb je 95% kans dat dit intervalhet ongekende populatiegemiddelde µX bevat. We noemen dat interval een95%-betrouwbaarheidsinterval voor µX.
We berekenen a:
P (µX − a ≤ X ≤ µX + a) = 0.95
⇔ P
(µX − a)− µX√4005
≤ X − µX√4005
≤ (µX + a)− µX√4005
= 0.95
⇔ P
− a√4005
≤ Z ≤ a√4005
= 0.95
De tabel van de standaard normaalverdeling (kijken bij P (Z ≥ z0) = 0.025)leert ons dat dat
a√4005
= 1.96
zodat
a = 1.96 ·√
4005
= 1.96 · 20√5.
Conclusie:In ons voorbeeld vormt het interval [124.2 − 1.96 ·
√4005 , 124.2 + 1.96 ·√
4005 ] = [106.67, 141.73] een 95%-betrouwbaarheidsinterval voor het on-
gekende populatiegemiddelde µX .
Algemeen: betrouwbaarheidsintervallen voor het populatie-gemiddelde µX
Veronderstel dat zα2
het punt is op de tabel van de standaard normaal-
verdeling waarvoor geldt dat P (Z ≥ zα2) =
α
2%. Dan vormt het interval
[X − zα
2· σX√
n, X + zα
2· σX√
n
]een (100 − α)%-betrouwbaarheidsinterval voor het populatiegemiddelde µX.Het getal (100− α)% noemen we de betrouwbaarheid.
Academiejaar 2009-2010 113
Hoofdstuk 6. 2. OEFENINGEN
2 Oefeningen
1. Een weerstation doet elke dag precies om 12u00 een temperatuurs-meting (in graden Celsius). Veronderstel dat die temperatuursmetin-gen normaal verdeeld zijn met ongekend gemiddelde µX en variantieσ2X = 9. Een steekproef van 10 dagen levert de volgende temperaturen
op:−2, 12, 5, 22, 15, 28, 1, 17, 5 31
(a) Gebruik deze steekproef om een 90%- betrouwbaarheidsinerval teconstrueren voor het ongekende gemiddelde µX .
(b) Hoeveel metingen moet een steekproef minstens bevatten om een90%- betrouwbaarheidsinterval voor µX te bekomen dat maxi-maal 2 graden Celsius breed is?
(c) Als je de betrouwbaarheid laat toenemen, wordt het betrouwbaar-heidsinterval dan korter of langer?
2. De webmasters van een druk bezochte website houden statistieken bijvan het dagelijks aantal bezoekers. Veronderstel dat het aantal be-zoekers normaal verdeeld is met ongekend gemiddelde µX en variantieσ2X = 4000000. Een steekproef van 4 dagen levert volgende resultaten
op:16450, 22325, 12120, 31400
(a) Als je een betrouwbaarheidsinterval wil construeren dat maxi-maal 1500 eenheden breed is, hoe groot kan je de betrouwbaar-heid dan maken?
(b) Construeer een 99%-betrouwbaarheidsinterval voor het ongekendegemiddelde µX .
Academiejaar 2009-2010 114
Hoofdstuk 6. 3. KENNISBASIS STATISTIEK
3 Kennisbasis Statistiek
De onderwerpen uit dit hoofdstuk vind je ook terug in de Kennisbasis Sta-tistiek (http://www.kennisbasisstatistiek.net) onder het deel ’ Waarschijn-lijkheid en statistiek’.
Schatten en toetsen
Schatten en toetsen > Puntschatters en intervalschatters
Schatten en toesten > Puntschatters en intervalschatters >Betrouwbaarheidsinterval
Schatten en toesten > Puntschatters en intervalschatters >Berekening van het betrouwbaarheidsinterval
Schatten en toesten > Puntschatters en intervalschatters > Berekeningvan het betrouwbaarheidsinterval >Eenzijdig betrouwbaarheidsinterval
Schatten en toesten > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van het populatiegemiddelde >Betrouwbaarheidsinterval van het steekproefgemiddelde
Schatten en toesten > Puntschatters en intervalschatters > Overzichtvan de schatters > Schatting van de populatieproportie >Betrouwbaarheidsinterval van het steekproefproportie
Academiejaar 2009-2010 115