View
119
Download
3
Category
Preview:
Citation preview
STT6971-Méthodes de Biostatistique 1
Méthodesde
Biostatistique
Chapitre IIIProbabilités: notions générales
STT6971-Méthodes de Biostatistique 2
1.Introduction
Une expérience est un processus dont lequel des mesures sont prises ou des observations sont faites ou toute procédure qui génère des résultats.
Une expérience est dite aléatoire si un des résultats possibles est observé à chaque fois qu’on répète l’expérience. Si c’est le même résultat qu’on observe, l’expérience est dite déterministe.
STT6971-Méthodes de Biostatistique 3
Dans une expérience aléatoire, l’ensemble de tous les résultats possible est appelé espace échantionnale. On le note souvent par S.
Un sous ensemble d’un espace échantionnale est appelé événement. Généralement, on dénote les événements par des lettres majuscules (ex. A,B,C,..).
Un résultat individuel est dit événement simple. En probabilités, on assigne une valeur numérique,
appelée probabilité, à chaque résultat (événement simple) ou à chaque événement (ensemble de résultats) pour expliquer la vraisemblance que le résultat ou l’événement puissent se réaliser.
STT6971-Méthodes de Biostatistique 4
2. Quelques principes de probabilités:
En supposant que tous les résultats d’une expérience aléatoire sont équiprobables, alors
P(résultat)=1/N
où N est le nombre total des résultats de l’expérience. P(A) = (# de tous les résultats)/N
Pour tout événement A, on a
1)(0 AP
STT6971-Méthodes de Biostatistique 5
1.3 Exemple 1.1:
Patient Sexe Age 1 M 40 2 F 42 3 M 51 4 F 58 5 M 67 6 F 70
P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=1/6. P(M)=P(F)=3/6=1/2. Considérant l’événement: A= { âge > 65 } P(A)=P{5,6}=2/6=1/3.
STT6971-Méthodes de Biostatistique 6
Le complémentaire d’un événement est l’ensemble de tous les résultats de l’espace échantionnale qui n’appartiennent pas à l’événement. Le complémentaire de l’événement A est noté par A’.
Dans l’exemple 1, A’={1,2,3,4}=4/6=2/3.
En général, on a:
P(A’) = 1 – P(A) = 1 – 1/3 = 2/3.
P(A’) = 1 - P(A)
STT6971-Méthodes de Biostatistique 7
L’union de deux événements est un événement qui contient les éléments de l’un ou de l’autre événement. On note l’union des événements A et B par:
A [ B L’intersection de deux événements est un événement
qui contient les éléments de l’un et de l’autre événement. On note l’intersection des événements A et B par:
A Å B Exemple: A={45,50,55,60,65} et B={40,55,50,65,70,75}
A [ B = {40,45,50,55,60,65,70,75}
A Å B = { 50,55,65}
STT6971-Méthodes de Biostatistique 8
La loi additive:
P(A [ B) = P(A)+P(B)-P(A Å B) Exemple: Supposons que P(A)=0.7, P(B)=0.2,
P(A Å B)=0.1, alors
P(A [ B) = P(A) + P(B) - P(A \ B)
= 0.7 + 0.2 – 0.1 = 0.8 Deux événements sont dit mutuellement exclusive s’il n y
a pas d’éléments commun entre eux, i.e. A et B sont mutuellement exclusive si
A Å B =
STT6971-Méthodes de Biostatistique 9
Où désigne l’ensemble vide. Alors, P(A Å B) = 0. Probabilité Conditionnelle: Exemple:
Niveau de scolaritéSexe 0-8 ans 9-12 13-16 17+ Total
H 15 20 17 26 78
F 30 42 31 27 130
Total 45 62 48 53 208
On choisit au hasard un patient, en utilisant les principes de probabilités, trouver la probabilité que:
1. Le patient est un homme:
P(H) = 78/208.
STT6971-Méthodes de Biostatistique 10
2. Le patient a entre 9-12 ans de scolarité:
P(9-12 ans de sco.) = 62/208.
3. Le patient est une femme et a entre 9-12 ans de scolarité:
P(F et 9-12 ans de sco.) = 42/208.
4. Le patient a 17 ans et plus de scolarité et c’est un homme:
P(17 ans de sco. Et H) = 26/208.
5. Le patient a au plus 12 ans de scolarité:
P( · 12 ans) = P(0-8 ou 9-12)=107/208.
Question: Quelle est la probabilité de choisir un homme parmi ceux qui ont 17 ans et plus de scolarité?
On peut répondre à la question en utilisant les notions de probabilité conditionnelle. On la note
P( H | 17 ans et + )
= 26/53=0.491.
STT6971-Méthodes de Biostatistique 11
Alors, puisque P(H)=.375 et P(H|17 ans et +)=.49, on remarque que P(H) · P(H | 17 ans et +).
Par définition, si on a deux événements A et B, alorsP(A|B) = P(A Å B) / P(B).
Dans l’exemple, on a: P(H | 17 ans et +) = P(H et 17 ans et +) / P(17ans +)
= (26/208)/(53/208)=26/53=.49. Indépendance: Deux événements sont dits indépendants si la probabilité de l’un ne
change pas par la réalisation ou non de l’autre événement. Mathématiquement, on vérifie l’indépendance par l’une de ces trois
égalités:P(A|B) = P(A)P(B|A) = P(B)P(A Å B) = P(A)P(B).
STT6971-Méthodes de Biostatistique 12
3. Permutations et Combinaisons:
Exemple 3.1:
Supposons qu’on a une population de 4 personnes identifiées par les numéros 1 à 4. Il y a différentes stratégies pour choisir des échantillons à partir de la population. Supposons que nous essayons de générer tous les échantillons possibles de taille n=2.
Stratégie 1: Échantillonnage avec remise, ordre important.
(1,1) (1,2) (1,3) (1,4)(2,1) (2,2) (2,3) (2,4)(3,1) (3,2) (3,3) (3,4)(4,1) (4,2) (4,3) (4,4)
Stratégie 2: Échantillonnage avec remise, ordre n’est pas important.
(1,1) (1,2) (1,3) (1,4)(2,2) (2,3) (2,4)
(3,3) (3,4)(4,4)
STT6971-Méthodes de Biostatistique 13
Stratégie 3: Échantillonnage sans remise, ordre important(1,2) (1,3) (1,4)
(2,1) (2,3) (2,4) (3,1) (3,2) (3,4) (4,1) (4,2) (4,3)
Stratégie 4: Échantillonnage sans remise, ordre n’est pas important(1,2) (1,3) (1,4)
(2,3) (2,4)(3,4)
La stratégie la plus utilisée est celle de l’échantillonnage sans remise. Dans ce cas, quand l’ordre est important, le nombre d’arrangements (distincts) possible, est donné par
PnN = N!/(N - n)!
STT6971-Méthodes de Biostatistique 14
Où N! = n £ (n-1) £ (n-2)…3 £ 2 £ 1. N! est appelé « N factoriel »
PnN est appelé permutation de n individus dans une population de
taille N. P2
4 = 4! / (4-2)! = (4 £ 3 £ 2 £ 1)/(2 £ 1) = 12.
Dans ce cas, quand l’ordre n’est pas important, le nombre d’arrangements (distincts) possible, est donné par
CnN = N! / n!(N - n)!
CnN est appelé combinaison de n individus dans une population de
taille N.
C24 = 4! / 2!(4-2)! = 12 / 2 = 6.
STT6971-Méthodes de Biostatistique 15
4. Loi Binomiale Dans l’exemple 1.1, considérons un échantillon, de taille n=2, sans
remise dont l’ordre n’est pas important et regardons le nombre de femmes choisi dans chaque échantillon possible, qu’on dénote par X.
échantillon X = # femmes échantillon X = # femmes
(1,2) 1 (2,5) 1(1,3) 0 (2,6) 2(1,4) 1 (3,4) 1(1,5) 0 (3,5) 0(1,6) 1 (3,6) 1(2,3) 1 (4,5) 1(2,4) 2 (4,6) 2
(5,6) 1
STT6971-Méthodes de Biostatistique 16
On remarque que X varie selon l’échantillon et elle prend les valeurs 0,1, et 2. X est appelée
variable aléatoire.
X = nombre de femmes choisies dans chaque échantillon.
Dans cette population, 50 % sont des femmes. Et dans les échantillons possibles de taille n=2, on trouve des proportions de 0%, 50% et 100%. 3 échantillons des 15 possibles, n’ont pas de femmes, soit 20%. 9 des 15 échantillons (soit 60% ) ont exactement une femme et 3 des 15 (soit 20% ) ont deux femmes.
Alors, si on choisit un échantillon parmi tous les échantillons possibles, on a plus de chance de choisir un échantillon contenant exactement une femme!
STT6971-Méthodes de Biostatistique 17
Une variable aléatoire génère un modèle de probabilité ou une distribution de probabilité.
Exemple: Loi Binomiale: Lors d’une expérience aléatoire, on obtient une
distribution binomiale si : 1. À chaque essai dans l’expérience aléatoire, on obtient un seul
des deux résultats possibles, qu’on appelle succès ou échec. 2. La probabilité du succès dans chaque essai est constante, qu’on
note par p, avec 0 · p · 1. 3. Les essais sont indépendants.
Loi Binomiale: Si on considère la v.a discrète X qui représente le nombre de succès dans n essais, elle est définie par
P(X = x) = Cxn px (1-p)n-x
Où x = # succès, p=probabilité du succès.
STT6971-Méthodes de Biostatistique 18
Exemple:
Une étude a montré qu’un antibiotique a 70% d’efficacité contre une certaine bactérie.
Supposons qu’on a donné cet antibiotique à 5 patients. Quelle est la probabilité que l’antibiotique soit efficace pour
a. Exactement 3 patients?
b. Pour les 5 patients?
c. Pour aucun des 5 patients?
Solution: X: Le nombre de patients parmi les 5 chez qui l’antibiotique était efficace.
a. P(X=3) = C35(0.7)3(0.3)2 = 0.31.
b. P(X=5) = C55(0.7)5(0.3)0 = 0.17.
c. P(X=0) = C05(0.7)0(0.3)5 = 0.00243.
STT6971-Méthodes de Biostatistique 19
Moyenne et variance d’une Binomiale
Si X suit une loi binomiale de paramètres n et p, alors la moyenne et la variance sont données respectivement par:
= np
et
2 = np(1-p)
STT6971-Méthodes de Biostatistique 20
4. Loi Normale
La distribution d’une loi normale est donnée par:
Où x est un réel. est la moyenne. 2 est la variance.
On la note par
)2
)(exp(
2
1)(
2
2
x
xf
),( 2N
STT6971-Méthodes de Biostatistique 21
Propriétés de la loi normale: La distribution normale est symétrique.
La moyenne = La médiane = Le mode.
La moyenne est et la variance 2.
= l’aire sous la courbe de la loi normale de a à b. Si X suit une loi normale de moyenne et une variance 2 , on écrit
alors X » N(, 2).
5.0)()( XPXP
68.0)( XP
95.0)22( XP
99.0)33( XP)( bXaP
STT6971-Méthodes de Biostatistique 22
Loi Normale Standardisée:
Si X » N( , 2) alors
» N(0,1)
Pour calculer les probabilités pour toute distribution normale de moyenne et de variance 2, on la standardise pour utiliser la table des probabilités de la loi normale standardisée de moyenne 0 et de variance 1.
X
STT6971-Méthodes de Biostatistique 23
Approximation d’une loi Binomiale par une loi Normale:
Si X » B(n,p) et np ¸ 5 et n(1-p) ¸ 5, alors
» N(0,1)
Théorème Central Limite:Pour une population de moyenne et de variance 2. Si on choisit aléatoirement de la population des échantillons de taille n avec remise, alors pour n grand, la distribution échantillonnale des moyennes échantillonnales est approximativement une normale avec
et
Où, en général, n ¸ 30 est suffisamment grand.
)1( pnp
npXZ
X nX
22
STT6971-Méthodes de Biostatistique 24
-4 -2 0 2 4
0.0
00
.05
0.1
00
.15
0.2
00
.25
0.3
0
density.default(x = z, width = 3)
N = 100 Bandwidth = 0.75
De
nsi
ty
STT6971-Méthodes de Biostatistique 25
-5 0 5 10
0.0
00
.05
0.1
00
.15
density.default(x = x, width = 4.5)
N = 100 Bandwidth = 1.125
De
nsi
ty
N(5,4)
STT6971-Méthodes de Biostatistique 26
0 2 4 6 8 10
0.0
00
.10
0.2
00
.30
density.default(x = 1 * rnorm(100) + 5, width = 3)
N = 100 Bandwidth = 0.75
De
nsi
ty
0 5 10
0.0
00
.10
density.default(x = 2 * rnorm(100) + 5, width = 5)
N = 100 Bandwidth = 1.25
De
nsi
ty
Recommended