Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
1
ÅMA110 Sannsynlighetsregning med statistikk, våren 2011
Kp. 4 Kontinuerlige tilfeldige variable;
Normalfordeling
3
Kontinuerlige tilfeldige variable, intro.
(eller: Kontinuerlige sannsynlighetsfordelinger)
Vi har til nå sett på diskrete fordelinger- mulige verdier er atskilte punkter på tallinjen,f.eks. 0, 1, 2, 3, ...
I mange situasjoner er det naturlig at alle verdier på tallinjen (muligens en del av den) er mulige utfall.
4
Kontinuerlige tilfeldige variable, intro.
Eks.: X=høyde til tilfeldig valgt kvinnelig UiS-student.
I prinsippet er enhver verdi i f.eks. intervallet [1.5m, 2.0m], et mulig utfall.
Vi kan ikke liste opp alle mulige utfall i en slik situasjon og knytte sannsynlighet til hvert av dem !
1.5m 2.0m
0
0,02
0,04
0,06
0,08
0,1
0,12
[153, 155)
[155, 157)
[157, 159)
[159, 161)
[161, 163)
[163, 165)
[165, 167)
[167, 169)
[169, 171)
[171, 173)
[173, 175)
[175, 177)
[177, 179)
[179, 181)
[181, 183)
[183, 185)
[185, 187)
5
Kontinuerlige tilfeldige variable, intro.
For å beskrive fordeling av sannsynlighet på de forskjellige utfallene, brukes en kurve, f(x): 0
0,02
0,04
0,06
0,08
0,1
0,12
155
160
165
170
175
180
185
x
f(x)
Vi sier at X er en kontinuerlig tilfeldig variabel, eller at X har kontinuerlig sannsynlighetsfordeling.
7
Kontinuerlige tilfeldige variable, intro.
Kurven beskriver fordelingen av sannsynlighet på de forskjellige utfallene, ved at:
sannsynligheten er stor for verdier x der f(x) er stor.
Vi kan ikke betrakte enkeltverdier, men et intervall, [a, b], av verdier.
0
0,02
0,04
0,06
0,08
0,1
0,12
155
160
165
170
175
180
185
xf(x)
��
����
b
a
f(x)dx
b)XP(ab])[a,P(X
a b
8
Kontinuerlige tilfeldige variable, intro.
Def.: Kurven f(x) kalles sannsynlighetstetthetsfunksjonen til X.
1dx f(x) )3
dx f(x)b)XP(a
er b,ader b og a tallfor to 2)0 f(x) 1)
:at ha vimå f(x)nen etsfunksjoFor tetth
-
b
a
�
���
��
�
��
�
9
Kontinuerlige tilfeldige variable, intro.
��
���
��
y
-
dx f(x)y)P(YF(y)
så fordelt, igkontinuerler Y Dersom
Y. tilfunksjonenfordelingser y),P(Y F(y) veddefinert
F funksjonenat sier vi Y l variabedigen tilfelFor :Def.
10
Kontinuerlige tilfeldige variable, intro.
Forventning og varians for kontinuerlige variable:
� � 2-
2
-
�XE f(x)dx�)-(x Var(X)
�xf(x)dx E(X)
så f(x),tetthet med variabeltilfeldigigkontinuerlen er XDersom :Def.
��
��
�
�
�
�
�
�
11
Kontinuerlige tilfeldige variable, intro.
Forventning og varians for kontinuerlige variable:
Obs.: har sammefortolkning som for diskrete variable- sentrum, beliggenhet- spredning
� � 2-
2
-
�XE f(x)dx�)-(x Var(X)
�xf(x)dx E(X)
så f(x),tetthet med variabeltilfeldigigkontinuerlen er XDersom :Def.
��
��
�
�
�
�
�
�
12
Kontinuerlige tilfeldige variable
Viktige klasser av kontinuerlige fordelinger som vi skal se på:
• Eksponensialfordelingen (kp. 4.2)• Normalfordelingen (kp. 4.3)
Seinere:• Student’s t-fordeling (kp. 6.6)
14
Eksponensialfordelingen (kp. 4.2)
Skrivemåte: X~eksp.( )
���
��
�
0for x 0, 0for x ,�e
f(x)
:gitt ved f(x)et har tetth X dersom �parameter medalfordelt eksponensier Xsier Vi :Def.
�x
�
15
Eksponensialfordelingen (kp. 4.2)
���
��
�
0for x 0, 0for x ,�e
f(x)
:gitt ved f(x)et har tetth X dersom �parameter medalfordelt eksponensier Xsier Vi :Def.
�x
���
��
�
�
0for x 0, 0for x ,e
f(x)
:1�x
0,0
0,5
1,0
-1 0 1 2 3 4 5 6 7
x
f(x)
2900045Stamp
16
Eksponensialfordelingen
En viktig type (kontin-uerlig) fordeling.
Obs.: 1) kontinuerlig ventetidsfordeling; jf. geometrisk
fordeling;2) svært mye brukt til modellering og analyse av
pålitelighet til systemer
���
��
�
0for x 0, 0for x ,�e
f(x)
:gitt ved f(x)et har tetth X dersom �parameter medalfordelt eksponensier Xsier Vi :Def.
�x
0,0
0,5
1,0
-1 0 1 2 3 4 5 6 7
x
f(x)
17
Eksponensialfordelingen
En viktig type (kontin-uerlig) fordeling.
Eksempel: Modell for nedbørsmengde et døgn.(”Ventetid” til regnet er slutt.)
Histogram over døgnnedbør i februar-måneder årene 1997-2006. (Døgn med
18
Eksponensialfordelingen
���
��
�
0for x 0, 0for x ,�e
f(x)
:gitt ved f(x)et har tetth X dersom �parameter medalfordelt eksponensier Xsier Vi :Def.
�x
�1Var(X) og
�1E(X)
så �, parameter medalfordelt eksponensier X Dersom :Setning
2��
0,0
0,5
1,0
-1 0 1 2 3 4 5 6 7
x
f(x)
19
Eksponensialfordelingen
�1Var(X) og
�1E(X)
så �, parameter medalfordelt eksponensier X Dersom :Setning
2��
For nedbørsdataene: E(X) estimeres med gj.sn. Dvs.: 1/� estimeres til 12.87, og dermed:
� estimeres til 1/12.87 = 0.0777
2900045Stamp
2900045Stamp
2900045Stamp
2900045Stamp
20
Eksponensialfordelingen
Eksp.-tettheter med ulike parametere:
Forv. = 10
0,0
0,5
1,0
-2 3 8 13
Forv. = 1
0,0
0,5
1,0
-2 3 8 131
11E(X)
0for x 0, 0for x ,e
f(x) 1;� Parameter x
��
���
��
��
100.11E(X)
0for x 0, 0for x ,0.1e
f(x) 0.1;� Parameter 0.1x
��
���
��
��
21
Eksponensialfordelingen
Forventningen (og varians) finnes vha. integrasjon. (Det er ikke pensum i dette kurset.)
���
��
�
0for x 0, 0for x ,�e
f(x)
:gitt ved f(x)et har tetth X dersom � parameter medalfordelt eksponensier Xsier Vi :Def.
�x
�1Var(X) og
�1E(X)
så �, parameter medalfordelt eksponensier X Dersom :Setning
2��
�1dxex xf(x)dx E(X) :Obs.
0
x -
-
���� ����
�
���
0,0
0,5
1,0
-1 0 1 2 3 4 5 6 7
x
f(x)
22
Eksponensialfordelingen
Eks.: Vi antar at levetiden til en tilfeldig valgt lyspære er eksponsialfordelt med forventning 2500 timer.
Hva er sannsynligheten for at den svikter før 1000 timer ?
Hva er sannsynligheten for at den virker minst 3000 timer ?
23
Eksponensialfordelingen
Eks.: Vi antar at levetiden til en tilfeldig valgt lyspære er eksponsialfordelt med forventning 2500 timer.
��
���
�
��
�
�
0for 0
0for 2500
1
:tetthet
; 2500
1� parameter med alfordelt eksponensi
er :har Vi lyspæren. tillevetiden La
25001
t ,
t,ef(t)
TT
x
2900045Stamp
24
Eksponensialfordelingen
x-t
x edx�et)P(T �� ��� � 1 :Generelt0
26
Eksponensialfordelingen
33.0111000 5.211000
25001
����� --
ee)P(T
301.0
300013000
30002500
1
��
���
�-e
)P(T)P(T
x-t
x edx�et)P(T �� ��� � 1 :Generelt0
2900045Stamp
27
Kontinuerlige tilfeldige variable, generelt
Obs.: Dersom X er kontinuerlig fordelt, så
a)P(X a)P(X
:Derfor
f(x)dx 0a)P(Xa
a
���
����
����� �
28
Kontinuerlige tilfeldige variable
Obs.: Dersom X er kontinuerlig fordelt, så
0
0,02
0,04
0,06
0,08
0,1
0,12
155
160
165
170
175
180
185
x
f(x)
0 a)XP(aa)P(X �����
: b)XP(a ��0
0,02
0,04
0,06
0,08
0,1
0,12
155
160
165
170
175
180
185
x
f(x)
a b
a
29
Kontinuerlige tilfeldige variable
Viktige klasser av kontinuerlige fordelinger som vi skal se på:
• Eksponensialfordelingen (kp. 4.2)• Normalfordelingen (kp. 4.3)
Seinere:• Student’s t-fordeling (kp. 6.6)
30
Normalfordelingen (kp. 4.3)
Dette er den viktigste fordelingen i den forstand at ingen andre fordelinger er mer brukt i statistiske analyser enn normalfordelingen !
31
Normalfordelingen
Definisjon:
),(~ :Skriver
. variansog gforventnin medelt normalforder at sier vi
, ,2
1)(
: tetthetmed variabeligen tilfelder Dersom
2
2
)(2
1
2
22
��
��
��
��
NX
X
xexf
X
x�����
32
Normalfordelingen
N(0,1)
0,0
0,1
0,2
0,3
0,4
0,5
-4,0 -2,0 0,0 2,0 4,0 6,0 8,0 10,0
N(0,1)
1 og 0 �� ��
2900045Stamp
2900045Stamp
33
Normalfordelingen
0,0
0,1
0,2
0,3
0,4
0,5
-4,0 -2,0 0,0 2,0 4,0 6,0 8,0 10,0
N(0,1)N(5,1)
1 og 0 �� �� 1 og 5 �� ��
34
Normalfordelingen
0,0
0,1
0,2
0,3
0,4
0,5
-5,0 0,0 5,0 10,0
N(0,1)N(5,1)N(0, 2,25)
2.25 og 0 �� ��
35
Normalfordelingen
Normalfordelingen er spesielt viktig fordi
• mange datasett ser ut til ”å være normalfordelte”
• mange analysemetoder bygger på normalfordelingen
36
Normalfordelingen, Standardnormal
Definisjon: Normalfordeling med forventning 0 og varians 1 kalles standardnormalfordelingen.
Tabeller over sannsynligheter i N(0,1)-fordelingen:
2900045Stamp
2900045Stamp
38
Normalfordelingen, sannsynligheter
= 0.8413
��
���1
1
10 La
-
f(x)dx)P(Z
).,Z~N(
-0,1
0,0
0,1
0,2
0,3
0,4
0,5
-4,0 -2,0 0,0 2,0 4,0
39
Normalfordelingen, sannsynligheter
P( Z>0.5 ) =
= 1-P( Z
41
Normalfordelingen
Eks.: La den tilfeldige variabelen X være mengden melk i en tilfeldig valgt 1-literskartong. Vi antar at X~N( 1, 0.022 ) (X er normalfordelt med forventing 1 og varians 0.022.
Hva er sannsynligheten for at det er mindre enn 0.95 liter i en tilfeldig valgt kartong?
Dvs.: vi vil finne P( X
44
Normalfordelingen
Eks.: X~N( 1, 0.022 ). Vi vil finne P( X
46
Normalfordelingen
Obs.: Resultatet i setningen gjelder ikke generelt (for andre typer fordelinger)
• Dersom X1~ekspo.(1) og X2~ekspo.(1), så har vi ikke at X1+X2~ekspo.()
• Dersom X1~B(10, 0.5) og X2~B(10, 0.2), så har vi ikke at X1+X2~B();
Heller ikke er f.eks. 2X1 binomisk fordelt !
47
Normalfordelingen
Setning: Dersom X1,..., Xn er uavhengige, normalfordelte tilfeldige variable (og a0, a1,..., aner konstanter), så er
Y = a0 + a1X1+...+ anXn
en normalfordelt tilfeldig variabel.
Forventning: E(Y) = E(a0 + a1X1+...+ anXn)
= a0 + a1E(X1)+...+ anE( Xn)
Varians: Var(Y) = Var(a0 + a1X1+...+ anXn)
=a12 Var(X1)+...+ an2 Var( Xn)
48
Statistiske egenskaper til gjennomsnittet
”Statistiske egenskaper til gjennomsnittet”
Hvorfor ??
Eks.: Data: 4.8 3.8 4.4 5.2 3.6 5.1 4.5 3.7 4.1 4.3(10 målinger av en persons blodsukkernivå; tatt på
samme tidspunkt.)
Vi vil typisk bruke gjennomsnitt, som her er 4.35, i diverse videre analyser.
49
Statistiske egenskaper til gjennomsnittet
Eks.: Data: 4.8 3.8 4.4 5.2 3.6 5.1 4.5 3.7 4.1 4.3Gjennomsnitt er 4.35;
Prikkdiagram:
Hva er virkelig nivå ? (4.35 eller 3.6 eller 5.2 ...)
Vi trenger å vite noe om den statistiske usikkerheten i anslaget 4.35 !!
3,0 3,5 4,0 4,5 5,0 5,5
51
Statistiske egenskaper til gjennomsnittet
Eks.: Data: 4.8 3.8 4.4 5.2 3.6 5.1 4.5 3.7 4.1 4.3Gjennomsnitt er 4.35;
3,0 3,5 4,0 4,5 5,0 5,5
Statistisk tankegang: Vi oppfatter de 10 målingene som utfall av en(kontinuerlig) fordeling:
Jf. også: resultat av terningkast, 3, 6, 1, ...:
utfall av fordelingen
0,8
3,0 3,5 4,0 4,5 5,0 5,5
y 1 2 3 4 5 6
P(Y=y) 1/6 1/6 1/6 1/6 1/6 1/6
52
Statistiske egenskaper til gjennomsnittet
1021
1021
1021
1021
XXX101 X
: variablege tilfeldi10 de avttet gjennmosni av utfall som oppfattes
xxx101 x målingene, avttet Gjennomsni
n.fordelinge aktuelleden har alle som X,,X,X variablege tilfeldi10
av utfall som x,,x, xmålingene oppfatter vi:Dvs.
����
����
�
�
�
�
53
Statistiske egenskaper til gjennomsnittet
Eks.: Data: 4.8 3.8 4.4 5.2 3.6 5.1 4.5 3.7 4.1 4.3Gjennomsnitt er 4.35;
Prikkdiagram:
Hva er virkelig nivå ? (4.35 eller 3.6 eller 5.2 ...)
Vi trenger å vite noe om den statistiske usikkerheten i anslaget 4.35 !!
3,0 3,5 4,0 4,5 5,0 5,5
!situasjon en typisker Dette
!!en usikkerhet estatistiskden om mye oss fortelle kunne vil
,XXX101 X tileegenskapen estatistisk De 1021 ���� �
3,0 3,5 4,0 4,5 5,0 5,5
54
Statistiske egenskaper til gjennomsnittet
? XXXn1 X tileegenskapen daer Hva
elte.normalford 2)og variable,ge tilfeldifordelteidentisk og uavhengige 1)
er X,,X,Xat anta å rimeligdet er ganger Mange
.X,,X,X variableigen tilfeld av utfall som oppfattes
;x,,x,xmålinger n :Generelt
n21
n21
n21
n21
���� �
�
�
�
55
Statistiske egenskaper til gjennomsnittet
.n� variansog� gforventnin medelt normalford
XXXn1 X
er så ,� variansog� gforventnin med eltenormalforder alle som variabletilfeldige
uavhengigen er X,,X,X Dersom :Setning
2
n21
2
n21
���� �
�
56
Statistiske egenskaper til gjennomsnittet
”Bevis”: ... vha.:
1. Setning: Dersom X1,..., Xn er uavhengige, normalfordeltetilfeldige variable (og a1,..., an er konstanter), så er Y = a1X1+...+ anXn en normalfordelt tilfeldig variabel.
2. Regneregler for forventning og varians.
.n� variansog� gforventnin medelt normalford
XXXn1 X
er så ,� variansog� gforventnin med eltenormalforder alle som variabletilfeldige
uavhengigen er X,,X,X Dersom :Setning
2
n21
2
n21
���� �
�
2900045Stamp
2900045Stamp
2900045Stamp
57
Statistiske egenskaper til gjennomsnittet
.n� variansog� gforventnin medelt normalford
XXXn1 X
er så ,� variansog� gforventnin med eltenormalforder alle som variabletilfeldige
uavhengigen er X,,X,X Dersom :Setning
2
n21
2
n21
���� �
�
� � ����
�������
��� !"
��� ���
�
����
)(1)()(1
)(1)(1)E(
var. tilf.norm.ford. uavh. av lin.komb.
111
1
11
21
�����
��
�
nn
nn
n
nXEXE
n
XXEn
XXn
EX
Xn
Xn
Xn
X
58
Statistiske egenskaper til gjennomsnittet
.n� variansog� gforventnin medelt normalford
XXXn1 X
er så ,� variansog� gforventnin med eltenormalforder alle som variabletilfeldige
uavhengigen er X,,X,X Dersom :Setning
2
n21
2
n21
���� �
�
� � ����
�������
��� !"
��� ���
�
����
)(1)()(1
)(1)(1)E(
var. tilf.norm.ford. uavh. av lin.komb.
111
1
11
21
�����
��
�
nn
nn
n
nXEXE
n
XXEn
XXn
EX
Xn
Xn
Xn
X
� �nn
XVarXVarn
XXVarn
XXn
VarXVar(
n
n
nn
222
212
1
2
1
)(1)()(1
)(1)(1)
2
����
�������
�����
����
!"
��� ���
��
��
��
59
Statistiske egenskaper til gjennomsnittet
En del ganger er det ikke rimelig å bruke normalantakelse (anta at målingene er utfall fra en normalfordeling). (F.eks. dersom dataene har en tydelig flertoppet eller usymmetrisk fordeling.)
Hva kan vi da si om: ”Statistiske egenskaper til gjennomsnittet” ?
60
Sentralgrensesetningen
Bevis: ... ...
stor.er n når ,n� variansog� gforventnin
medelt normalford tilnærmet
XXXn1 X
er så ,� variansog� gforventnin med variablege tilfeldifordelte identisk og uavhengige
n er X,,X,X Dersom :ennsesetningSentralgre
2
n21
2
n21
���� �
�
2900045Stamp
2900045Stamp
2900045Stamp
61
Sentralgrensesetningen
1. variansog 0 gforventnin medelt normalfordmet er tilnær(Y)(Y)-Y
:Videre
stor.er n når ,�n variansog� n gforventnin
medelt normalford tilnærmet XXX Y
er så ,� variansog� gforventnin med
variablege tilfeldifordelte identisk og uavhengigen er X,,X,X Dersom :ennsesetningSentralgre
:Obs
2
n21
2
n21
SDE
��
���� �
�
62
Sentralgrensesetningen
”... når n er stor ...” ??
Tommelfingerregel: n minst 30 for god tilnærming.
Eks.: Y = sum av 30 kast med en terning.
Fordeling til Y ?
P(Y
63
Sentralgrensesetningen
Eks.: Y = sum av 30 kast med en terning.
La Xi = resultat i kast nr i, i=1, 2, ..., 30.Vi kan finne at E(Xi)=3.5 og Var(Xi)=2.92, og vihar her at
Y = X1 + ... + X30
(Alle Xi’ene er uavhengnige og identisk fordelte!)
Y sin fordeling er tilnærmet normal med forventning 30 3.5 = 105 og varians 30 2.92 = 87.6
64
Sentralgrensesetningen
Y sin fordeling er tilnærmet normal med forventning 30 3.5 = 105 og varians 30 2.92 = 87.6
0
0,01
0,02
0,03
0,04
0,05
75 85 95 105 115 125 135
2900045Stamp
2900045Stamp
2900045Stamp
2900045Stamp
65
Sentralgrensesetningen
Y sin fordeling er tilnærmet normal med forventning 30 3.5 = 105 og varians 30 2.92 = 87.6
0
0,01
0,02
0,03
0,04
0,05
75 85 95 105 115 125 135
1) N(0,~er Zher
tabell.fra 0.2981, -0.53)P(Z
87.6105100
87.6105YP100)P(Y
0.53
��#
���
�
�
���
�
�
�
��
���
0
0,01
0,02
0,03
0,04
0,05
75 85 95 105 115 125 135
66
Normaltilnærming, binomisk
Den binomiske fordelingen kan tilnærmes med normalfordeling i en del tilfeller:
Dersom Y~B(n, p) og np(1-p) minst 10, så kan fordelingen til Y tilnærmes med fordelingen til X,
der X er normalfordelt med forventing np og varians np(1-p); X~N( np, np(1-p) )
Gir betydelig forenkling ved utregning av sannsynligheter.
2900045Stamp
2900045Stamp
2900045Stamp
67
Normaltilnærming, binomisk
Altså:
) p)-np(1 np, N(~Xder y),P(Xy)P(Y
:ng tilnærmigod med har vi så 10,p)np(1). p n, B(~Y
�#�
�
68
Normaltilnærming, binomisk
Eks.: Y=ant. kron i 100 kast med et pengestykke~ B( 100, 0.5 )
0.0228-2ZP2550-40
2550-XP40XP
25 0.5)-(10.5100Var(Y) og 50E(Y)
) 25 50, N( ~Xder 40),P(X40)P(Y
�����
���
� ���
�����
�#�
2900045Stamp
2900045Stamp
2900045Stamp
2900045Stamp
69
Normaltilnærming, binomisk
0.0228-2ZP2550-40
2550-XP40XP
40)P(Y
���
��
���
� ���#
�
0,00
0,02
0,04
0,06
0,08
0,10
35 38 41 44 47 50 53 56 59 62 65
B(100, 0.5)
P(Y
71
Normaltilnærming, binomisk
Da får vi:
0.0284) :(eksakt 0.0287-1.9ZP25
50-0.5402550-XP0.540XP
40)P(Y
���
��
���
� �����#
�
0,00
0,02
0,04
0,06
35 36 37 38 39 40 41 42 43 44 45B(100, 0.5)
P(Y
73
Normaltilnærming, heltallskorreksjon
Gjelder altså bl.a. ved normaltilnærming av• binomisk fordeling• Hypergeometrisk fordeling• Poissonfordeling
0.5xYPxXP ��#�
74
Normaltilnærming
• Hypergeometrisk modell– dersom n < 0.1 N, så tilnærming til binomisk
modell, og– dersom binomisk modell kan tilnærmes med
normalfordeling, ...
• Poissonmodell
� � ) , N( ~Xder y),P(Xy)P(Y
så ,10 og )(Poisson ~ Dersom
Var(Y)E(Y)tt
ttY
��
��
�#�
�
Normalfordeling. Oppgaver.
75