VARIABILE ALEATOARE.
DISTRIBUŢII DE PROBABILITATE
1
Definiţie
Distribuţii de probabilitate
- Discrete
- Continue
2
Variabile aleatoare... despre
3
Definiţie Fie X o variabilă cantitativă măsurată sau observată rezultată dintr-un
experiment
Valoarea pe care o ia variabila X în urma experimentului este o
variabilă aleatoare
Exemple:
-Numărul de globule roşii dintr-un frotiu
-Numărul de bacterii de pe mâinile studenţilor
-Procentul de grăsime în lapte
-Temperatura la nivelul solului
Sunt variabile aleatoare:
Media aritmetică a eşantionului
Deviaţia standard
Proporţia
Frecvenţa
4
Variabile aleatoare
5 Tipuri de variabile aleatoare
Discrete: Poate lua un număr finit
măsurabil de valori
Numărul de persoane cu RH-
dintr-un eşantion
Numărul purceilor la o fătare
Numărul animalelor dintr-o
fermă
Pulsul
Continue: Poate lua orice valoare din
nenumăratele valori posibile
într-un interval definit
Variază în mod continuu în
intervalul dat
Temperatura corporală
Concentraţia zahărului în sânge
Tensiunea arterială
În general, mediile sunt variabile aleatoare continue iar frecvenţele sunt discrete. Ex.:
Media procentului de grăsime în lapte a vacilor din ferma x.
Numărul purceilor infectați din ferma y
6
Distribuţii de probabilitate
Discrete
Probabilităţile asociate fiecărei
valori specifice a variabilei
aleatoare
Continue
Probabilităţile asociate unui şir
de valori ale variabilei
aleatoare
7 Distribuţii de probabilitate.
VARIABILA ALEATOARE DISCRETĂ
Fie X numărul de feţe “cap” obţinute la aruncarea de 3 ori a unei
monede
X este o variabilă aleatoare care poate lua una din următoarele
valori {0,1,2,3}
Dintr-un sac care conţine bile albe şi negre sunt extrase 2 bile. La
extragerea unei bile albe se câştigă 1 Ron iar la extragerea unei bile
negre se pierde 1 Ron.
X este o variabilă aleatoare care poate lua una din valorile {-2,0,2}
Spaţiul unui eveniment
Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Probabilitatea distribuţiei lui X: listă de valori ale spaţiului de
evenimente şi probabilităţile asociate acestora
Xi Pri
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
8
Fie X rezultatul aruncării unui zar
X este o variabilă aleatoare care ia una din următoarele valori 1, 2, 3, 4, 5, 6
Probabilitatea distribuţiei lui X listează valorile spaţiului de
evenimente şi probabilităţile asociate
Xi Pri
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
9
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1 2 3 4 5 6
spaţiul de evenimente
pro
bab
ilit
ate
aDistribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Fie X numărul de feţe „cap‟ rezultate la aruncarea a două monezi de două ori. Care este distribuţia de probabilitate?
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
0 1 2
spaţiul de evenimente
pro
bab
ilit
ate
a
Xi Pri
0 1/4
1 2/4
2 1/4
10
Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Legea de probabilitate: simbolistică
Proprietate: probabilităţile care apar în distribuţia unei variabile
aleatoare finite X verifică
11
)xPr(...)xPr()xPr(
X...XX:X
n21
n21
n
1i
i 1)XPr(
Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Media distribuţiei de probabilitate discretă (denumită şi valoare
expectată sau speranţa matematică) este dată de formula
Este media ponderată a valorilor posibile, fiecare valoare fiind
ponderată cu probabilitatea ei de apariţie
12
n
1i
ii )XPr(X)X(M
Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Exemplu:
Fie X o variabilă aleatoare reprezentând numărul de
episoade de otită în primii doi ani de viaţă într-o colectivitate.
Această variabilă aleatoare are distribuţia:
Care este numărul aşteptat (mediu) de episoade de otită în
primii doi ani de viaţă?
13
017.0039.0095.0185.0271.0264.0129.0
6543210:X
Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Care este numărul aşteptat (mediu) de episoade de otită în primii
doi ani de viaţă?
M(X) = 0·0.129 + 1·0.264 + 2·0.271 + 3·0.185 + 4·0.095 +
5·0.039 + 6·0.017
M(X) = 0 + 0.264 + 0.542 + 0.555 + 0.38 + 0.195 + 0.102
M(X) = 2.038
14
017.0039.0095.0185.0271.0264.0129.0
6543210:X
Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Variaţia: media ponderată a pătratului deviaţiei lui X
Abaterea standard sau ecartul tip:
15
n
1i
i
2
i )XPr())X(MX()X(V
n
1i
i
2
i )XPr())X(MX()X(V)X(
Distribuţii de probabilitate. VARIABILA ALEATOARE DISCRETĂ
Variabila aleatoare discretă: V(X),σ(X)
Xi Pr(Xi) Xi*Pr(Xi) Xi-M(X) (Xi-M(X))2 (Xi-M(X))2*Pr(Xi)
0 0.129 0 -2.038 4.153 0.536
1 0.264 0.264 -1.038 1.077 0.284
2 0.271 0.542 -0.038 0.001 0.000
3 0.185 0.555 0.962 0.925 0.171
4 0.095 0.38 1.962 3.849 0.366
5 0.039 0.195 2.962 8.773 0.342
6 0.017 0.102 3.962 15.697 0.267
M(X)=2.038 V(X)=1.967
σ(X)=1.402
16
Bernoulli (cap versus pajură): două rezultate
posibile
Binomială (numărul de „cap‟ în n aruncări):
variabile aleatoare finite
Poisson (numărul de pacienţi care sunt consultaţi
în serviciul de urgenţă într-o zi): variabile aleatoare
discrete infinite
17
Principalele distribuţii de probabilitate: VARIABILE ALEATOARE DISCRETE
Un experiment e alcătuit din repetarea unei încercări
elementare de n ori (n = un număr natural dat)
Rezultatele posibile ale fiecărei încercări elementare sunt
două evenimente numite succes şi eşec
Probabilitatea de succes este notată cu p iar probabilitatea
de eşec este notată cu q (q = 1-p)
Cele n încercări repetate sunt independente
18
Distribuţia Binomială
Numărul X de succese obţinute în cele n încercări
este o variabilă aleatoare de tip binomial care
depinde de parametrii n şi p şi se notează cu
Bi(n,p)
Variabila aleatoare X poate să ia valorile 0,1,2,...n
Probabilitatea ca X să fie egal cu o valoare k este
dată de formula:
19
Distribuţia Binomială
knkk
n qpC)kXPr( )!kn(!k
!nCk
n
20
Distribuţia Binomială
21
Distribuţia Binomială
knkk
n qpC)kXPr(
Care este probabilitatea de
ca din 5 copii 2 să fie băieţi
dacă probabilitatea de a
naşte un băiat este de 0,47
pentru fiecare naştere şi
sexul copiilor născuţi
succesiv în familie este
considerat o variabilă
aleatoare independentă?
p=0.47
q=1-0.47=0.53
n=5
k=2
Pr(X=2)=10·0.472·0.533
Pr(X=2) = 0.33
1012
120
)123(12
12345
)!25(!2
!5C2
5
Variabila aleatoare POISSON ia o infinitate numărabilă de
valori: 0,1,2,...,k,... , care reprezintă numărul de realizări într-
un interval dat de timp sau spaţiu ale unui eveniment:
numărul de intrări pe an într-un spital
numărul de globule albe de pe frotiu
numărul de dezintegrări ale unei substanţe radioactive într-un
interval de timp T dat
22
Distribuţia POISSON
Variabila aleatoare POISSON
Este caracterizată de parametrul teoretic θ (numărul mediu
aşteptat de realizări ale evenimentului în intervalul
considerat)
Simbol: Po(θ)
Legea de distribuţie:
23
Distribuţia POISSON
!k
e)kXPr(
k
!ke
k:X
k
Speranţa matematică:
M(X) = θ
Varianţia:
V(X) = θ
24
Distribuţia POISSON
25
Distribuţia POISSON
Rata de mortalitate pentru a anumită patologie virală este de 7 la 1000 de cazuri. Care este probabilitatea ca într-un grup de 400 persoane această patologie să determine 5 decese?
n=400
p=7/1000=0,007
θ=n·p=400·0,007=2,8
e=2,718281828=2,72
Pr(X=5)
=(2,72-2,8·2,85)/(5·4·3·2·1)
=10,45/120
=0,09
!k
e)kXPr(
k
Vorbim despre probabilităţi pentru un şir de valori NU pentru o
valoarea din şir
Probabilitatea pentru un şir de valori este determinată de aria de sub
curba de distribuţie a probabilităţii
26
Distribuţii de probabilitate
VARIABILA ALEATOARE CONTINUĂ
Legea normala Z (Gauss)
Legea STUDENT (t)
Legea χ2 a lui PEARSON
Legea F a lui FISHER
27
Distribuţii continue de probabilitate
Distributia Normala
Legea distribuţiei normale (distribuţia Gauss sau
Gauss-Laplace) Distribuţia normală reprezintă o lege de distribuţie a unei mărimi aleatoare în
jurul mediei sale.
Cea mai importanta distributie continua
Multe distributii pot fi aproximate printr-o distributie normala.
Distributia normala este piatra de temelie a inferentei statistice.
Expresia analitică a legii lui Gauss
Distribuţia normală este cazul limitat al distribuţiei binomiale discrete pentru eşantioane
de volum mare
Curba funcţiei densitate de
probabilitate
Graficul densităţii de probabilitate pentru legea distribuţiei normale (Gauss-
Laplace)
Distribuţia de probabilitate normală
(pe scurt distribuţia normală)
Este o curbă sub formă de clopot, cu următoarele proprietăţi:
Aria totală de sub curbă este egală cu 1
Este simetrică în jurul mediei
Cozile ei se întind la infinit, nu ating niciodată planul orizontal
Standardizarea variabilelor. Scorul z.
Se folosește pentru a compara două variabile cu unităţi de măsură diferite.
Ex. avem doi indivizi:
– primul înalt de 1,8 m. care face parte dintr-un grup cu o înălţime
medie de 1,7 m. cu o abatere standard de 0,1 m.
– al doilea în greutate de 85 de kg. care face parte dintr-un grup
cu o greutate medie de 70 kg. cu o abatere standard de 10 kg
Întrebare: care dintre cei doi indivizi este mai departe de media
grupului din care face parte
Întrebare: care dintre cei doi indivizi este mai departe de media
grupului din care face parte
Dacă nu avem datele din populaţie, aproximăm cu:
Observaţii:
– se poate calcula un scor z pentru fiecare valoare xi a variabilei
– scorul z corespondent mediei este întotdeauna egal cu 0
– toate variabilele standardizate au exact aceeaşi medie (zero) şi exact aceeaşi
abatere standard (numită generic 1)
Distribuţia normală standard
Este un caz special al distribuţiei normale, unde toate valorile x ale
variabilei au fost înlocuite cu scorurile lor z corespondente.
În consecinţă, este o distribuţie normală cu o medie egală cu zero şi o
abatere standard egală cu 1
Atenţie: a nu se confunda media 0 şi abaterea standard 1, cu
probabilitatea care poate lua valori între 0 şi 1...!!!
Distribuţia normală are media μ şi variaţia σ2
Distribuţia normală standard este o distribuţie normală de medie 0 şi
variaţie 1
36
Distribuţia normală standard
Media ± 1 deviaţie standard: include ~ 68% din cazuri (34% din fiecare parte a distribuţiei)
Media ± 2 deviaţii standard: include ~ 95% din cazuri
Media ± 3 deviaţii standard: include ~ 99.7% din cazuri
37
Distribuţia normală standard
0 1 2 3 -1 -2 -3
aria = 0.3413
Distribuţia normală
Date importante
Distribuţia normală N(m, 2) Caracterizată de:
media teoretică m
varianţa teoretică 2
deviaţia standard teoretică
Calcule în Excel:
NORMDIST(x, m, 2, CUMULATIVE)
39
Criterii de normalitate a unei distribuții:
media > 2 SD, media > SD
comparare cu graficul de
clopot (curba lui Gauss)
media = mediana = modul
testul de normalitate Kolmogorov-Smirnov (p>0.10)
68% dintre valori sunt în intervalul ± 1 deviație standard de medie, iar 95% în intervalul ± 2 deviații standard de medie
0
0,5
1
1,5
2
2,5
-10 -8 -6 -4 -2 0 2 4 6 8 10
0 0,2
0 1
0 2
-3 0,5
Distribuţia normală pentru diferite valori ale mediei şi dispersiei
Distribuţia Student În statistică distribuţia Sudent (cunoscută şi sub denumirea de
distribuţie t) este o distribuţie de probabilitate care apare în probleme de estimare a mediei unei populaţii normal distribuite când volumul eşantionului este mic
42
Distribuţia normală este cazul limitat al distribuţiei
binomiale discrete pentru eşantioane de volum mare
Definiţie : se defineste ca raportul
intre o variabila standard normala si
radacina patrata a unei valori
independente X2 impartita la
numarul de grade de libertate.
Distribuţia Student t(n)
Simetrică
Vârful în 0
Densitatea lui t(10)
Pentru n>30 practic t(n) şi Z coincid
nnn
)()(t
2
Z
Distribuţia Student t(n)
Dacă populaţia este distribuită normal, cu media m, şi
dacă avem un eşantion „mic” de volum n cu media de
eşantion m şi cu abaterea standard de eşantion s, atunci
raportul
are o distribuţie de tipul t(n1) cu n1 grade de libertate.
(student)
Important!
𝑚 − 𝜇
𝑠𝑛
Distribuţia Student t(n)
Dacă avem la dispoziţie două eşantioane din aceeaşi populaţie (distribuită
normal), şi dacă primul eşantion de volum n1 are media de eşantion m1 şi
abaterea standard de eşantion s1, iar al doilea eşantion de volum n2 are
media de eşantion m2 şi
abaterea standard de eşantion s2, atunci raportul
are o distribuţie de tipul t(n1+ n22) cu n1+ n22 grade de libertate.
Aici
Important!
21
21
11
nns
mm
2
)1()1(
21
222
2112
nn
snsns
Distribuţia Student t(n)
Calcul direct în Excel cu funcţia TDIST(x, n, TAILS)
TDIST(x, n, 1) = aria haşurată TDIST(x, n, 2) = aria haşurată
47
Distribuţia t vs Gauss
Frecvent utilizată în testul 2
Compararea unei distribuţii observate cu o distribuţie
teoretică şi a independenţei a două criterii de clasificare a
unor date calitative
48
Distribuţia 2 (PEARSON)
49
Distribuţia 2 a lui PEARSON
Distribuţia hi-pătrat 2(n) Caracterizată de:
numărul de “grade de libertate” n
Calcule în Excel:
CHIDIST(x, n)
ATENŢIE LA INTERPRETARE
(este “invers” ca la NORMDIST)
Date importante:
Distribuţia hi-pătrat 2(n)
Asimetrică
Vârful în
n 2
Media
E(2(n))=n
CHIDIST(x, n) =
aria haşurată
Introdusă de R. A. Fisher, este definită pe [0, + ).
Descrie comportarea câtului a două variabile cu distribuţie 2
fiecare fiind împărţită prin numărul gradelor sale de libertate.
Utilizată în testele de comparaţie a variaţiilor (ANOVA).
52
Distribuţia F (FISHER)
Variabilele aleatoare pot fi discrete sau continue.
Distribuţiile de probabilitate pentru variabile discrete.
Distribuţii de probabilitate pentru variabile continue.
Medii şi variaţii pentru variabile aleatoare.
53
De reţinut!