26
STT6971-Méthodes de Biostat istique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

Embed Size (px)

Citation preview

Page 1: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 1

Méthodesde

Biostatistique

Chapitre IIIProbabilités: notions générales

Page 2: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 2

1.Introduction

Une expérience est un processus dont lequel des mesures sont prises ou des observations sont faites ou toute procédure qui génère des résultats.

Une expérience est dite aléatoire si un des résultats possibles est observé à chaque fois qu’on répète l’expérience. Si c’est le même résultat qu’on observe, l’expérience est dite déterministe.

Page 3: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 3

Dans une expérience aléatoire, l’ensemble de tous les résultats possible est appelé espace échantionnale. On le note souvent par S.

Un sous ensemble d’un espace échantionnale est appelé événement. Généralement, on dénote les événements par des lettres majuscules (ex. A,B,C,..).

Un résultat individuel est dit événement simple. En probabilités, on assigne une valeur numérique,

appelée probabilité, à chaque résultat (événement simple) ou à chaque événement (ensemble de résultats) pour expliquer la vraisemblance que le résultat ou l’événement puissent se réaliser.

Page 4: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 4

2. Quelques principes de probabilités:

En supposant que tous les résultats d’une expérience aléatoire sont équiprobables, alors

P(résultat)=1/N

où N est le nombre total des résultats de l’expérience. P(A) = (# de tous les résultats)/N

Pour tout événement A, on a

1)(0 AP

Page 5: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 5

1.3 Exemple 1.1:

Patient Sexe Age 1 M 40 2 F 42 3 M 51 4 F 58 5 M 67 6 F 70

P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=1/6. P(M)=P(F)=3/6=1/2. Considérant l’événement: A= { âge > 65 } P(A)=P{5,6}=2/6=1/3.

Page 6: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 6

Le complémentaire d’un événement est l’ensemble de tous les résultats de l’espace échantionnale qui n’appartiennent pas à l’événement. Le complémentaire de l’événement A est noté par A’.

Dans l’exemple 1, A’={1,2,3,4}=4/6=2/3.

En général, on a:

P(A’) = 1 – P(A) = 1 – 1/3 = 2/3.

P(A’) = 1 - P(A)

Page 7: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 7

L’union de deux événements est un événement qui contient les éléments de l’un ou de l’autre événement. On note l’union des événements A et B par:

A [ B L’intersection de deux événements est un événement

qui contient les éléments de l’un et de l’autre événement. On note l’intersection des événements A et B par:

A Å B Exemple: A={45,50,55,60,65} et B={40,55,50,65,70,75}

A [ B = {40,45,50,55,60,65,70,75}

A Å B = { 50,55,65}

Page 8: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 8

La loi additive:

P(A [ B) = P(A)+P(B)-P(A Å B) Exemple: Supposons que P(A)=0.7, P(B)=0.2,

P(A Å B)=0.1, alors

P(A [ B) = P(A) + P(B) - P(A \ B)

= 0.7 + 0.2 – 0.1 = 0.8 Deux événements sont dit mutuellement exclusive s’il n y

a pas d’éléments commun entre eux, i.e. A et B sont mutuellement exclusive si

A Å B =

Page 9: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 9

Où désigne l’ensemble vide. Alors, P(A Å B) = 0. Probabilité Conditionnelle: Exemple:

Niveau de scolaritéSexe 0-8 ans 9-12 13-16 17+ Total

H 15 20 17 26 78

F 30 42 31 27 130

Total 45 62 48 53 208

On choisit au hasard un patient, en utilisant les principes de probabilités, trouver la probabilité que:

1. Le patient est un homme:

P(H) = 78/208.

Page 10: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 10

2. Le patient a entre 9-12 ans de scolarité:

P(9-12 ans de sco.) = 62/208.

3. Le patient est une femme et a entre 9-12 ans de scolarité:

P(F et 9-12 ans de sco.) = 42/208.

4. Le patient a 17 ans et plus de scolarité et c’est un homme:

P(17 ans de sco. Et H) = 26/208.

5. Le patient a au plus 12 ans de scolarité:

P( · 12 ans) = P(0-8 ou 9-12)=107/208.

Question: Quelle est la probabilité de choisir un homme parmi ceux qui ont 17 ans et plus de scolarité?

On peut répondre à la question en utilisant les notions de probabilité conditionnelle. On la note

P( H | 17 ans et + )

= 26/53=0.491.

Page 11: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 11

Alors, puisque P(H)=.375 et P(H|17 ans et +)=.49, on remarque que P(H) · P(H | 17 ans et +).

Par définition, si on a deux événements A et B, alorsP(A|B) = P(A Å B) / P(B).

Dans l’exemple, on a: P(H | 17 ans et +) = P(H et 17 ans et +) / P(17ans +)

= (26/208)/(53/208)=26/53=.49. Indépendance: Deux événements sont dits indépendants si la probabilité de l’un ne

change pas par la réalisation ou non de l’autre événement. Mathématiquement, on vérifie l’indépendance par l’une de ces trois

égalités:P(A|B) = P(A)P(B|A) = P(B)P(A Å B) = P(A)P(B).

Page 12: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 12

3. Permutations et Combinaisons:

Exemple 3.1:

Supposons qu’on a une population de 4 personnes identifiées par les numéros 1 à 4. Il y a différentes stratégies pour choisir des échantillons à partir de la population. Supposons que nous essayons de générer tous les échantillons possibles de taille n=2.

Stratégie 1: Échantillonnage avec remise, ordre important.

(1,1) (1,2) (1,3) (1,4)(2,1) (2,2) (2,3) (2,4)(3,1) (3,2) (3,3) (3,4)(4,1) (4,2) (4,3) (4,4)

Stratégie 2: Échantillonnage avec remise, ordre n’est pas important.

(1,1) (1,2) (1,3) (1,4)(2,2) (2,3) (2,4)

(3,3) (3,4)(4,4)

Page 13: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 13

Stratégie 3: Échantillonnage sans remise, ordre important(1,2) (1,3) (1,4)

(2,1) (2,3) (2,4) (3,1) (3,2) (3,4) (4,1) (4,2) (4,3)

Stratégie 4: Échantillonnage sans remise, ordre n’est pas important(1,2) (1,3) (1,4)

(2,3) (2,4)(3,4)

La stratégie la plus utilisée est celle de l’échantillonnage sans remise. Dans ce cas, quand l’ordre est important, le nombre d’arrangements (distincts) possible, est donné par

PnN = N!/(N - n)!

Page 14: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 14

Où N! = n £ (n-1) £ (n-2)…3 £ 2 £ 1. N! est appelé « N factoriel »

PnN est appelé permutation de n individus dans une population de

taille N. P2

4 = 4! / (4-2)! = (4 £ 3 £ 2 £ 1)/(2 £ 1) = 12.

Dans ce cas, quand l’ordre n’est pas important, le nombre d’arrangements (distincts) possible, est donné par

CnN = N! / n!(N - n)!

CnN est appelé combinaison de n individus dans une population de

taille N.

C24 = 4! / 2!(4-2)! = 12 / 2 = 6.

Page 15: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 15

4. Loi Binomiale Dans l’exemple 1.1, considérons un échantillon, de taille n=2, sans

remise dont l’ordre n’est pas important et regardons le nombre de femmes choisi dans chaque échantillon possible, qu’on dénote par X.

échantillon X = # femmes échantillon X = # femmes

(1,2) 1 (2,5) 1(1,3) 0 (2,6) 2(1,4) 1 (3,4) 1(1,5) 0 (3,5) 0(1,6) 1 (3,6) 1(2,3) 1 (4,5) 1(2,4) 2 (4,6) 2

(5,6) 1

Page 16: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 16

On remarque que X varie selon l’échantillon et elle prend les valeurs 0,1, et 2. X est appelée

variable aléatoire.

X = nombre de femmes choisies dans chaque échantillon.

Dans cette population, 50 % sont des femmes. Et dans les échantillons possibles de taille n=2, on trouve des proportions de 0%, 50% et 100%. 3 échantillons des 15 possibles, n’ont pas de femmes, soit 20%. 9 des 15 échantillons (soit 60% ) ont exactement une femme et 3 des 15 (soit 20% ) ont deux femmes.

Alors, si on choisit un échantillon parmi tous les échantillons possibles, on a plus de chance de choisir un échantillon contenant exactement une femme!

Page 17: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 17

Une variable aléatoire génère un modèle de probabilité ou une distribution de probabilité.

Exemple: Loi Binomiale: Lors d’une expérience aléatoire, on obtient une

distribution binomiale si : 1. À chaque essai dans l’expérience aléatoire, on obtient un seul

des deux résultats possibles, qu’on appelle succès ou échec. 2. La probabilité du succès dans chaque essai est constante, qu’on

note par p, avec 0 · p · 1. 3. Les essais sont indépendants.

Loi Binomiale: Si on considère la v.a discrète X qui représente le nombre de succès dans n essais, elle est définie par

P(X = x) = Cxn px (1-p)n-x

Où x = # succès, p=probabilité du succès.

Page 18: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 18

Exemple:

Une étude a montré qu’un antibiotique a 70% d’efficacité contre une certaine bactérie.

Supposons qu’on a donné cet antibiotique à 5 patients. Quelle est la probabilité que l’antibiotique soit efficace pour

a. Exactement 3 patients?

b. Pour les 5 patients?

c. Pour aucun des 5 patients?

Solution: X: Le nombre de patients parmi les 5 chez qui l’antibiotique était efficace.

a. P(X=3) = C35(0.7)3(0.3)2 = 0.31.

b. P(X=5) = C55(0.7)5(0.3)0 = 0.17.

c. P(X=0) = C05(0.7)0(0.3)5 = 0.00243.

Page 19: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 19

Moyenne et variance d’une Binomiale

Si X suit une loi binomiale de paramètres n et p, alors la moyenne et la variance sont données respectivement par:

= np

et

2 = np(1-p)

Page 20: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 20

4. Loi Normale

La distribution d’une loi normale est donnée par:

Où x est un réel. est la moyenne. 2 est la variance.

On la note par

)2

)(exp(

2

1)(

2

2

x

xf

),( 2N

Page 21: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 21

Propriétés de la loi normale: La distribution normale est symétrique.

La moyenne = La médiane = Le mode.

La moyenne est et la variance 2.

= l’aire sous la courbe de la loi normale de a à b. Si X suit une loi normale de moyenne et une variance 2 , on écrit

alors X » N(, 2).

5.0)()( XPXP

68.0)( XP

95.0)22( XP

99.0)33( XP)( bXaP

Page 22: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 22

Loi Normale Standardisée:

Si X » N( , 2) alors

» N(0,1)

Pour calculer les probabilités pour toute distribution normale de moyenne et de variance 2, on la standardise pour utiliser la table des probabilités de la loi normale standardisée de moyenne 0 et de variance 1.

X

Page 23: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 23

Approximation d’une loi Binomiale par une loi Normale:

Si X » B(n,p) et np ¸ 5 et n(1-p) ¸ 5, alors

» N(0,1)

Théorème Central Limite:Pour une population de moyenne et de variance 2. Si on choisit aléatoirement de la population des échantillons de taille n avec remise, alors pour n grand, la distribution échantillonnale des moyennes échantillonnales est approximativement une normale avec

et

Où, en général, n ¸ 30 est suffisamment grand.

)1( pnp

npXZ

X nX

22

Page 24: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 24

-4 -2 0 2 4

0.0

00

.05

0.1

00

.15

0.2

00

.25

0.3

0

density.default(x = z, width = 3)

N = 100 Bandwidth = 0.75

De

nsi

ty

Page 25: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 25

-5 0 5 10

0.0

00

.05

0.1

00

.15

density.default(x = x, width = 4.5)

N = 100 Bandwidth = 1.125

De

nsi

ty

N(5,4)

Page 26: STT6971-Méthodes de Biostatistique 1 Méthodes de Biostatistique Chapitre III Probabilités: notions générales

STT6971-Méthodes de Biostatistique 26

0 2 4 6 8 10

0.0

00

.10

0.2

00

.30

density.default(x = 1 * rnorm(100) + 5, width = 3)

N = 100 Bandwidth = 0.75

De

nsi

ty

0 5 10

0.0

00

.10

density.default(x = 2 * rnorm(100) + 5, width = 5)

N = 100 Bandwidth = 1.25

De

nsi

ty