51
19-09-16 1 Biostatistique – partie I F. Farnir – E. Moyse – L. Massart Faculté de Médecine Vétérinaire Université de Liège Vue synoptique du cours 1. Récolte de données Quoi ? Combien ? Comment ? 2. Représentation des données Tables, graphiques, paramètres synthétiques 3. Calcul de probabilités Simples, conjointes, conditionnelles, marginales 4. Distributions Bernoulli, binomiale, hypergéométrique, Poisson, uniforme, normale, χ² Vue synoptique du cours 5. Tests d’hypothèse Principes Tests de χ². 6. Résumé et exercices Pour démarrer… Dans le cadre de vos mémoires, il est fort probable qu’on va vous demander de tester des hypothèses sur un jeu de données que vous devrez constituer. Les hypothèses prendront la forme d’assertions à vérifier (ou à rejeter) « Le sexe a un effet sur la taille dans une espèce donnée », « Le régime a une influence sur la présence de parasites »,

Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

1

Biostatistique – partie I

F. Farnir – E. Moyse – L. Massart

Faculté de Médecine Vétérinaire

Université de Liège

Vue synoptique du cours

1. Récolte de données� Quoi ? Combien ? Comment ?

2. Représentation des données� Tables, graphiques, paramètres synthétiques

3. Calcul de probabilités� Simples, conjointes, conditionnelles,

marginales

4. Distributions� Bernoulli, binomiale, hypergéométrique,

Poisson, uniforme, normale, χ²

Vue synoptique du cours

5. Tests d’hypothèse

� Principes

� Tests de χ².

6. Résumé et exercices

Pour démarrer…

� Dans le cadre de vos mémoires, il est fort probable qu’on va vous demander de tester des hypothèses sur un jeu de données que vous devrez constituer.

� Les hypothèses prendront la forme d’assertions à vérifier (ou à rejeter)◦ « Le sexe a un effet sur la taille dans une espèce

donnée », « Le régime a une influence sur la présence de parasites »,…

Page 2: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

2

Pour démarrer…

� L’objet de ce cours est de contribuer à vous permettre d’effectuer ce travail, en:

◦ expliquant certains principes régissant la récolte des données,

◦ détaillant différents modes de représentations de ces variables,

◦ explicitant la méthodologie qui permet d’accepter ou rejeter les propositions qui ont été faites.

Un exemple de jeu de données

� Pour expliquer la plupart des notions qui seront vues, nous utiliserons un exemple qui devrait ressembler mutatis mutandis

à ce que vous aurez à manipuler

� Il s’agit de données fictives sur 300poissons

Un exemple de jeu de données

Mesure Aquarium Régime Jour Poids Taille Espèce CouleurEtat

sanitaireSexe Parasite ?

1 A Sous-Vit 14/01/2012 212 20 Carpe Brun Moyen Mâle Non

2 A Normal 25/10/2012 195 28 Tilapia Brun Mauvais Femelle Non

3 A Normal 26/12/2012 105 22 Tilapia Gris Moyen Femelle Non

4 A Normal 30/12/2012 194 27 Tilapia Brun Mauvais Femelle Non

297 A Normal 14/12/2012 173 25 Carpe Brun Moyen Femelle Non

298 A Normal 7/01/2012 134 25 Tilapia Brun Mauvais Femelle Non

299 A Normal 23/01/2012 233 23 Carpe Brun Bon Mâle Oui

300 A Sous-Vit 1/11/2012 153 23 Carpe Brun Bon Femelle Non

Disponible via: http://www.biostat.ulg.ac.be (utiliser VPN)Fichier: donnees.txt

Un exemple de jeu de données

� En parallèle, nous utiliserons un logicielpour faire les manipulations nécessaires (calculs et traitements des données, représentations, etc…

� Le logiciel utilisé est R◦ disponible gratuitement sur internet à

http://www.r-project.org/

◦ abondante documentation disponible

◦ puissant aux niveaux graphique et statistique.

Page 3: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

3

Quelques mots sur le logiciel

� Il s’agit d’un logiciel où les opérations sont effectuées en réponses à des lignes de commandes. Par exemple:

◦ 1) Le logiciel attend. Il affiche « > »

◦ 2) Je tape une commande. Par exemple

>

> 10+20

Quelques mots sur le logiciel

◦ 3) Après validation (ENTER), le logiciel effectue l’opération, affiche le résultat, puis attend à nouveau:

◦ 4) Il peut aussi mémoriser des valeurs pour les utiliser plus tard:

> 10+20[1] 30>

> x<-100> x+10[1] 110

Quelques mots sur le logiciel

◦ 5) Il peut aussi stocker plusieurs valeurs dans une variable, alors appelée « vecteur »:

◦ 4) Il peut manipuler les vecteurs:

> poids<-c(212,195,105)> poids[1] 212 195 105

> 2*poids[1] 424 390 210> sum(poids)[1] 512> mean(poids)[1] 170.667

Quelques mots sur le logiciel

◦ 5) Il peut être programmé (si nécessaire…):

◦ 6) Les fonctions élémentaires nécessaires pour ce cours sont simples…

> sum<-0> for (i in 1:10) {+ sum<-sum+i*i+ }> sum[1] 385> v<-1:10> sum(v*v)[1] 385

Page 4: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

4

Un premier exemple…

� Pour manipuler les données de l’exemple proposé, il faut:

◦ « dire » à R où le fichier se trouve,

◦ lui faire « lire » les données dans la mémoire de l’ordinateur

◦ faire les manipulations désirées

� exemple: calculer le poids moyen des poissons de l’expérience

Un premier exemple…

1. « dire » à R où le fichier se trouve:

2. « lire » les données en mémoire

> setwd(«d:/docsusers/cours/2016-2017/MC_GRAA»)>

> t<-+ read.table(file=«donnees.txt»,head=T,sep=«\t»)>

Fichier Options:- séparateur = tabulation

- présence d’une ligne d’en-tête

Un premier exemple…

3. Voir les noms des variables de la table:

4. Calculer la moyenne des Poids de t:

[1] "Mesure" "Aquarium" "Régime" [4] "Jour" "Poids" "Taille"

> names(t)[1] "Mesure" "Aquarium" "Régime" [4] "Jour" "Poids" "Taille" [7] "Espèce" "Couleur" "Etat.sanitai re"

[10] "Sexe" "Parasite..«>

> mean(t$Poids)[1] 176.8767>

Vue synoptique du cours

1. Récolte de données� Quoi ? Combien ? Comment ?

2. Représentation des données� Tables, graphiques, paramètres synthétiques

3. Calcul de probabilités� Simples, conjointes, conditionnelles,

marginales

4. Distributions� Bernoulli, binomiale, hypergéométrique,

Poisson, uniforme, normale, χ²

Page 5: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

5

La récolte des données

� Plusieurs questions précèdent la récolte des données:

◦ Quelle est précisément la question à laquelle on souhaite apporter une réponse ?

◦ Comment faut-il s’y prendre pour récolter les données ?

◦ Quelles données récolter ?

◦ Combien de données faut-il récolter ?

Quelle est la question posée ?

� Essentiel de répondre de manière précise à cette question

� Le design expérimental et les données à collecter (lesquelles ? en quelles quantités ?) dépendent évidemment de la réponse à cette question.

◦ Cfr démarche scientifique

Quelle est la question posée ?

� Schéma du raisonnement scientifique

Comment récolter les données ?

� On va effectuer une série de « mesures »:

�Poids, tailles, ages, … des poissons

�Espèce

�Sexe

�Couleur

�Régime

�Etat sanitaire, statut parasitaire

�…

Page 6: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

6

Comment récolter les données ?

� Problème: en général, il n’est pas possible de récolter toutes les mesures…

�L’ensemble de toutes les mesures possibles constitue la « population » (des mesures)

�Exemple: population des poids des tilapias de plus de 6 mois (≠ population des tilapias de plus de 6 mois)

�L’ensemble des mesures récoltées constitue un « échantillon » de la population (des mesures). Ce dernier est un sous-ensemble de la population (des mesures).

Comment récolter les données ?

� Pour être en situation de tirer des conclusions sur la population (cfr plus loin sur la manière de procéder), l’échantillon doit être représentatif de la population dont il n’est qu’un sous-ensemble.

� Dans le cas contraire, l’échantillon est dit « biaisé »

� Exemple de « biais »: comparaison de deux régimes alimentaires

Comment récolter les données ?

♂ ♂

♀ ♀

♂♂

♀ ♀

Ech. 1: régime AEch. 2: régime

B≠

Différence due:au régime ?au sexe ?aux deux ?

Comment récolter les données ?

♂♂

♀ ♀

♂♂

Ech. 1: régime AEch. 2: régime

B≠

Différence due:au régime ?au sexe ?aux deux ?

Page 7: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

7

Comment récolter les données ?

� Dans certaines expériences, l’échantillon n’est pas représentatif de la population par choix de l’expérimentateur

◦ Exemple: expérience cas – contrôles

� Il faudra alors tenir compte du biais introduit dans les conclusions qu’on tirera des résultats de l’expérience.

Comment récolter les données ?

� Le souci de représentativité induit de nouvelles questions. Par exemple◦ Dans une expérience sur le poids, si le sexe a un

impact sur le poids des individus, comment s’assurer que ce facteur est bien géré ?

◦ L’âge des individus influence-t-il le caractère d’intérêt ? Et si oui, est-il bien géré ?

◦ D’autres facteurs sont-ils également potentiellement importants (statut sanitaire, parasitisme, …) ? Comment les prendre en compte ?

◦ …

Comment récolter les données ?

� En conclusion:

◦ les sources de biais potentiels devront être identifiées

◦ l’échantillonnage devra être planifié soit pour éviter les biais, soit pour les contrôler

◦ l’expérience sera conduite en tenant compte de ces facteurs externes.

� On parlera de « design expérimental »

Comment récolter les données ?

� Un exemple de planification d’expérience◦ 30 poissons vont être utilisés dans une

expériences où 5 traitements sont comparés. Les poissons sont répartis de manière aléatoireen 5 groupes, chaque groupe recevant un traitement différent. Comme le poids des poissons utilisés pourrait avoir une influence sur le résultat final de l’expérience, on souhaite répartir les poissons de manière homogène (en termes de poids) dans les 5 groupes. Comment procéder ?

Page 8: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

8

Comment récolter les données ?

� Un exemple de planification d’expérience

◦ Méthode des chapeaux (cfr )

� On trie les données

� On place les 5 données les plus élevées dans le chapeau 1, les 5 suivantes dans le chapeau 2, … les 5 dernières dans le chapeau 6

� On constitue les 5 groupes avec 1 poisson de chaque chapeau

P1

P2P5

P4

P3

P6

P7P10

P9

P8

P26

P27P30

P29

P28

Chapeau 1 Chapeau 2 Chapeau 6

Comment récolter les données ?

� Un exemple de planification d’expérience

◦ Méthode des chapeaux (cfr ): avec R

� 0) simulation d’un échantillon de poids (cfr plus loin)

> poids<-rnorm(30,300,30)> poids

[1] 262.1906 309.7403 289.0952 332.9251 323.9750[6] 337.1998 284.6548 242.8943 274.0197 296.0563

[11] 333.4073 319.0403 308.1504 269.3197 286.3857 [16] 342.1476 267.2370 271.8043 263.5643 285.0965[21] 316.7099 357.4324 263.4154 302.2212 282.2204[26] 323.9595 286.7036 323.3901 278.8314 265.4176>

Comment récolter les données ?

� Un exemple de planification d’expérience

◦ Méthode des chapeaux (cfr ): avec R

� 1) Tri des poids

> poids.tries<-sort(poids)> poids.tries

[1] 242.8943 262.1906 263.4154 263.5643 265.4176[6] 267.2370 269.3197 271.8043 274.0197 278.8314

[11] 282.2204 284.6548 285.0965 286.3857 286.7036[16] 289.0952 296.0563 302.2212 308.1504 309.7403[21] 316.7099 319.0403 323.3901 323.9595 323.9750[26] 332.9251 333.4073 337.1998 342.1476 357.4324>

Comment récolter les données ?

� Un exemple de planification d’expérience

◦ Méthode des chapeaux (cfr ): avec R

� 2) Mélange dans les chapeaux

> gr<-1:5> melange<-c(sample(gr,5),sample(gr,5),sample(gr,5),+ sample(gr,5),sample(gr,5),sample(gr,5))> melange

[1] 1 3 2 5 4 5 2 3 4 1 4 1 2 5 3 4 1 5 2 3 1 3 4[24] 5 2 5 4 3 1 2>

Page 9: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

9

Comment récolter les données ?

� Un exemple de planification d’expérience

◦ Méthode des chapeaux (cfr ): avec R

� 3) Constitution des groupes

> groupe1<-poids.tries[melange==1]> groupe2<-poids.tries[melange==2]> groupe3<-poids.tries[melange==3]> groupe4<-poids.tries[melange==4]> groupe5<-poids.tries[melange==5]> groupe1[1] 242.8943 278.8314 284.6548 296.0563 316.7099[6] 342.1476>

Comment récolter les données ?

� Un exemple de planification d’expérience

◦ Méthode des chapeaux (cfr ): avec R

� 4) Vérification des moyennes

> mean(groupe1)[1] 293.549> mean(groupe2)[1] 301.2316> mean(groupe3)[1] 297.7798> mean(groupe4)[1] 294.5917> mean(groupe5)[1] 296.0488>

Comment récolter les données ?

� Remarques sur la planification

◦ Représentation non-biaisée de la population

� Etudes « transversales » (« cross-sectional »)

◦ Représentation biaisée de la population

� Etudes « rétrospectives » (p.e. « case – control »)

� Etudes « prospectives » (p.e. « cohorts »)

◦ Rappel: l’interprétation des résultats de l’étude dépendra du type d’étude choisi.

Vue synoptique du cours

1. Récolte de données� Quoi ? Combien ? Comment ?

2. Représentation des données� Tables, graphiques, paramètres synthétiques

3. Calcul de probabilités� Simples, conjointes, conditionnelles,

marginales

4. Distributions� Bernoulli, binomiale, hypergéométrique,

Poisson, uniforme, normale, χ²

Page 10: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

10

Comment représenter les données ?

Mesure Aquarium Régime Jour Poids Taille Espèce CouleurEtat

sanitaireSexe Parasite ?

1 A Sous-Vit 14/01/2012 212 20 Carpe Brun Moyen Mâle Non

2 A Normal 25/10/2012 195 28 Tilapia Brun Mauvais Femelle Non

3 A Normal 26/12/2012 105 22 Tilapia Gris Moyen Femelle Non

4 A Normal 30/12/2012 194 27 Tilapia Brun Mauvais Femelle Non

� Dans une même colonne, les données:

◦ sont de même type (continu, discret nominal ou ordinal)

◦ varient, de manière imprévisible (« aléatoire »)=> variables aléatoires

Comment représenter les données ?

Mesure Aquarium Régime Jour Poids Taille Espèce CouleurEtat

sanitaireSexe Parasite ?

1 A Sous-Vit 14/01/2012 212 20 Carpe Brun Moyen Mâle Non

2 A Normal 25/10/2012 195 28 Tilapia Brun Mauvais Femelle Non

3 A Normal 26/12/2012 105 22 Tilapia Gris Moyen Femelle Non

4 A Normal 30/12/2012 194 27 Tilapia Brun Mauvais Femelle Non

…� Un ensemble de données peut donc être représenté

par un ensemble de variables aléatoires (VA). Certaines de ces variables seront discrètes, nominales (p.e. Aquarium, Régime, Espèce, Couleur, Sexe, Parasite) ou ordinales (p.e. Jour, Etat sanitaire), et d’autres seront continues (p.e. Poids, Taille)

Comment représenter les données ?

� Remarque: faire la distinction entre les différents types de variables est important, car le type de méthode mis en route pour analyser les variables dépendra du type de la variable considérée.

◦ Exemple: étude des dépendances

Tests de χ²Tests de tANOVA

Régressionlogistique

Régressionslin. et multiple

D

C

D CInd ↓ \ Dép →

Représentation des VA

� Variables discrètes

◦ Utilisation de tables de fréquences

� Pour 1 variable

> # attach(t) permet d’éviter de taper t$ > attach(t)> table(Régime)

Normal Sous-Vit Sur-Vit150 75 75

> detach(t)

Page 11: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

11

Représentation des VA

� Variables discrètes

◦ Utilisation de tables de fréquences

� Pour 2 variables

> # attach(t) permet d’éviter de taper t$ > attach(t)> table(Régime,Espèce)

Carpe TilapiaNormal 66 84Sous-Vit 36 39Sur-Vit 35 40

> detach(t)

Représentation des VA

� Variables discrètes

◦ Utilisation de tables de fréquences

� Pour 3 variables

> # attach(t) permet d’éviter de taper t$ > attach(t)> table(Couleur,Régime,Espèce), , = Carpe

Normal Sous-Vit Sur-VitBlanc 16 10 11Brun 34 17 16Gris 16 9 8

, , = Tilapia

Normal Sous-Vit Sur-VitBlanc 12 5 10Brun 44 19 19Gris 28 15 11

> detach(t)

Représentation des VA

� Variables discrètes

◦ Utilisation de tables de fréquences

� Les tables de fréquences peuvent être affichées (cfrci-dessus) et peuvent être manipulées:

Page 12: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

12

> tf<-table(Régime,Espèce)> tf

Carpe TilapiaNormal 66 84Sous-Vit 36 39Sur-Vit 35 40

> # Additionne les 3 valeurs de la première colonne> sum(tf[1:3,1])[1] 137> sum(tf[,«Carpe»])[1] 137> # Additionne les 2 valeurs de la deuxième ligne> sum(tf[2,1:2])[1] 75> sum(tf[«Sous-Vit»,])[1] 75

Représentation des VA

� Variables discrètes

◦ Graphiques: diagrammes à « bâtons »

> jpeg(«plot1.jpg»)> plot(Régime,main=+ «Diagramme à bâtons des+ régimes »)> dev.off()

Représentation des VA

� Variables discrètes

◦ Graphiques: diagrammes à « bâtons »

> jpeg(«plot2.jpg»)> plot(Espèce,main=+ «Diagramme à bâtons des+ espèces »)> dev.off()

Représentation des VA

� Variables discrètes

◦ Graphiques: diagrammes à « bâtons »

> jpeg(«plot3.jpg»)> plot(Régime,Espèce,+ main=«Diagramme à bâtons+ des espèces dans les+ régimes»)> dev.off()

Page 13: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

13

Représentation des VA

� Variables discrètes

◦ Graphiques: diagrammes en « tarte »

> pie(table(Couleur),main=«Tous»)> pie(table(Couleur[Espèce==«Tilapia»]),main=«Tilapia »)> pie(table(Couleur[Espèce==«Carpe»]),main=«Carpe»)

Représentation des VA

� Variables discrètes

◦ Graphiques:

� Beaucoup d’autres (voir doc R)

� Les différents aspects des graphiques sont paramétrables (voir la fonction « par() » de R)

� Différents formats de sortie sont possibles (jpeg, pdf, …)

Représentation des VA

� Variables continues

◦ L’utilisation de tables de fréquences n’est plus possible

� Potentiellement, chaque valeur a une fréquence de 1

◦ Une alternative: discrétiser la variable continue et représenter la variable discrète

Représentation des VA

> # Calcul des limites: on fera (p.e.) 10 classes> # entre ces limites> min(Poids)[1] 101> max(Poids)[1] 250> # On fera donc des classes de largeur 15:> # ]100;115],]115;130],...,]235;250]> classe<-rep(300,0)> for (i in 1:length(Poids)) {+ classe[i]<-floor((Poids[i]-101)/15)+1+ }> plot(table(classe),main=«Classe de poids (15g)»)

Page 14: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

14

Représentation des VA

� Variables continues

◦ Une alternative plus simple: utiliser la fonction hist (pour « histogramme ») de R

> hist(Poids,breaks=100+(0:10)*15,col=«lightblue»,+ main=«Histogramme de poids (15g)»)

Représentation des VA

� Variables continues

◦ On peut aussi représenter un polygone des effectifs

> plot(table(classe),main=«Polygone»,type=«l»)

Représentation des VA

� Variables continues

◦ On peut travailler avec les fréquences cumulées: polygone des effectifs cumulés

> freq<-table(classe)> cumul<-rep(0,10)> cumul[1]<-freq[1]> for (i in 2:10) { cumul[i]<-cumul[i-1]+freq[i] }> plot(cumul,main=«Polygone cumulé»,type=«l»,col=«red »)

Représentation des VA

� Variables continues

◦ On peut travailler avec les fréquences cumulées: polygone des effectifs cumulés

Page 15: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

15

Représentation des VA

� Variables continues

◦ Diagrammes « stem-leaves » ou comment récupérer une partie de l’info perdue en discrétisant ?

Représentation des VA> stem(t$Poids)

The decimal point is 1 digit(s) to the right of the |

10 | 112224456677778911 | 11223344456677999912 | 01112223334566613 | 00000111112233455577888914 | 033444567777889999915 | 000012233344557778816 | 111122333345666677778899917 | 0111123345556679918 | 001224466777799919 | 00111122224445555566677788899920 | 222333334445555566788999921 | 022333455677888922 | 00001222445566678923 | 002223344555677778889924 | 01114556677888999925 | 00

Vue synoptique du cours

1. Récolte de données� Quoi ? Combien ? Comment ?

2. Représentation des données� Tables, graphiques, paramètres synthétiques

3. Calcul de probabilités� Simples, conjointes, conditionnelles,

marginales

4. Distributions� Bernoulli, binomiale, hypergéométrique,

Poisson, uniforme, normale, χ²

Des fréquences aux probabilités

• Les fréquences relatives mesurées sur l’échantillon sont censées donner une idée (estimer) des fréquences relatives (probabilités) de cette classe dans la population (dont l’échantillon provient).

• Remarque: si l’échantillon a été prélevé d’une manière telle qu’il ne donne pas une idée correcte de la population visée, il est dit biaisé.

Page 16: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

16

Des fréquences aux probabilités

� Les tables de fréquences évoquées plus haut permettent de passer facilement aux « probabilités empiriques »: il suffit de diviser les effectifs par l’effectif total.

> t<-table(Régime,Espèce)> t<-t/sum(t)> tEspèceRégime Carpe Tilapia

Normal 0.2200000 0.2800000Sous-Vit 0.1200000 0.1300000Sur-Vit 0.1166667 0.1333333

>

Définition des probabilités� La probabilité d’un événement aléatoire

est définie comme la limite de la fréquence relative associée à cet événement quand le nombre de réalisations de l’expérience aléatoire tend vers l ’infini.

◦ Exemple d’expérience aléatoire: jet de dé

◦ Exemple d’événement aléatoire: obtenir 3

◦ La probabilité « d’obtenir 3 » lors du « jet d’un dé » est donc la fréquence relative du nombre de 3 sur le nombre de jets N quand N → ∞

Définition des probabilités

� Une simulation informatique:

> proba<-rep(0,1000)> jets<-floor(runif(1000,min=1,max=7))> table(jets)jets

1 2 3 4 5 6 174 164 171 166 171 154 > nb3<-0> for i in 1:1000 {+ if (jets[i]==3) { nb3<-nb3+1 }+ proba[i]<-1.0*nb3/i+ }> plot(proba,type=«l») >

Définition des probabilités

� Une simulation informatique: résultat

Page 17: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

17

Probabilités conjointes� Reprenons l’exemple donné plus haut avec la

table de fréquences à 2 entrées (régime et espèce):

0.22 est la probabilité conjointe d’être une carpe et d’être soumise au régime normal dans cet échantillon: P(Carpe et Normal)

> t<-table(Régime,Espèce)> t<-t/sum(t)> tEspèceRégime Carpe Tilapia

Normal 0.2200000 0.2800000Sous-Vit 0.1200000 0.1300000Sur-Vit 0.1166667 0.1333333

>

Probabilités marginales� Dans le même exemple:

0.4566667 est la probabilité marginale d’être une carpe dans cet échantillon: P(Carpe)Evidemment (?):

P(Carpe) = Σi P(Carpe, Régimei)

> t<-table(Régime,Espèce)> t<-t/sum(t)> t

EspèceRégime Carpe Tilapia

Normal 0.2200000 0.2800000Sous-Vit 0.1200000 0.1300000Sur-Vit 0.1166667 0.1333333

>

> t<-table(Espèce)> t<-t/sum(t)> t

EspèceCarpe Tilapia

0.4566667 0.5433333 >

Probabilités conditionnelles� Toujours le même exemple:

0.2627737 est la probabilité conditionnelle de recevoir le régime « Sous-Vit » pour une carpe dans cet échantillon: P(Sous-Vit | Carpe)

Cette probabilité s’obtient en comptabilisant, parmi les (137) carpes, la proportion (36/137) recevant le régime « Sous-Vit »

> t<-table(Régime,Espèce)> t(«Sous-Vit»,«Carpe»)/sum(t[,«Carpe»])[1] 0.2627737>

Calcul de probabilités

� Deux axiomes permettent de calculer les probabilités de situations « complexes »:

◦ Axiome des probabilités composéesP(A et B) = P(A)*P(B|A)

� si P(B|A) = P(B) (événements indépendants)P(A et B) = P(A) * P(B)

◦ Axiome des probabilités totalesP(A ou B) = P(A) + P(B) – P(A et B)

� si P(A et B) = 0 (événements mutuellement exclusifs)P(A ou B) = P(A) + P(B)

Page 18: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

18

Exemples de calcul de probabilités

� Utilisons la table suivante:

> table(Régime,Couleur)CouleurRégime Blanc Brun Gris

Normal 28 78 44Sous-Vit 15 36 24Sur-Vit 21 35 19

> table(Régime,Couleur)/300.0Couleur

Régime Blanc Brun GrisNormal 0.09333333 0.26000000 0.14666667Sous-Vit 0.05000000 0.12000000 0.08000000Sur-Vit 0.07000000 0.11666667 0.06333333

Exemples de calcul de probabilités

� Calculons les probabilités suivantes:

◦ P(Brun et Sous-Vit) =

◦ P(Gris) =

◦ P(Normal ou Sous-Vit) =

◦ P(Normal ou Brun) =

◦ P(Normal | Brun) =

◦ P(Brun|Normal) =

◦ P(Normal ou Sous-Vit|Blanc ou Brun) =

0.1200

0.2900

0.7500

0.7367

0.5235

0.5200

0.7371

Un exemple théorique

� Théorème de Bayes

P(A,B) = P(A)*P(B|A)= P(B)*P(A|B)

=> P(B|A) = [P(B)/P(A)]*P(A|B)

Un exemple théorique

� Une application du théorème de BayesEn épidémiologie, la recherche de la

valeur prédictive positive d’un test:

� P(M) = Prévalence de la maladie (m = sain)

� P(+) = Probabilité qu’un test diagnostic soit +

� P(+ | M) = Taux de vrais positifs = Sensibilité

� P(- | M) = Taux de faux négatifs

� P(+ | m) = Taux de faux positifs

� P(- | m) = Taux de vrais négatifs = Spécificité

� P(M | +) = Valeur prédictive positive d’un test.

Page 19: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

19

Un exemple théorique

� Exercice: comment exprimer la valeur prédictive positive du test en fonction des caractéristiques du test ?

� Solution:

VPP = P(M|+) = [P(M)/P(+)] * P(+|M)mais P(+) = P(S,+) + P(M,+)1. P(M,+) = P(M)*P(+|M)2. P(S,+) = P(S)*P(+|S) = [1-P(M)]*[1-P(-|S)]

Un exemple théorique

� Solution (suite):

VPP = P(M|+) = [P(M)/P(+)] * P(+|M)mais P(+) = P(S,+) + P(M,+)1. P(M,+) = P(M)*P(+|M)2. P(S,+) = P(S)*P(+|S) = [1-P(M)]*[1-P(-|S)]

Nous ne pouvons pas afficher l’image.

( ) ( )PrSpPrSe

PrSeVPP

−−+=

1*1*

*

Un exemple théorique

� Solution: exemple d’utilisation

� Faut-il préférer un test (Se = 0.95 et Sp = 0.85) à un test (Se = 0.92 et Sp = 0.87) ?

Nous ne pouvons pas afficher l’image.

Un exemple théoriqueNous ne pouvons pas afficher l’image.

> Pr<-seq(0,1,0.05)> n<-length(Pr)# Test 1> Se<-0.95> Sp<-0.85> VPP1<-rep(0,n)> for (i in 1:n) {+ VPP1[i]<-Se*Pr[i]/(Se*Pr[i]+(1-Sp)*(1-Pr[i]))+ }> plot(Pr,VPP1,type="l",col="red")# Test 2> Se<-0.92> Sp<-0.87> VPP2<-rep(0,n)> for (i in 1:n) {+ VPP2[i]<-Se*Pr[i]/(Se*Pr[i]+(1-Sp)*(1-Pr[i]))+ }> lines(Pr,VPP2,type="l",col="blue")

Page 20: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

20

Vue synoptique du cours

1. Récolte de données� Quoi ? Combien ? Comment ?

2. Représentation des données� Tables, graphiques, paramètres synthétiques

3. Calcul de probabilités� Simples, conjointes, conditionnelles,

marginales

4. Distributions� Bernoulli, binomiale, hypergéométrique,

Poisson, uniforme, normale, χ²

Paramètres synthétiques

1. Paramètres de « position »

2. Paramètres de « dispersion »

3. Autres paramètres

1. Asymétrie

2. Aplatissement

3. …

Paramètres de position

• La moyenne arithmétique

• se calcule sur un échantillon de taille N

• estime la moyenne de la population µ(espérance mathématique)

• est une somme des valeurs présentes dans l’échantillon, pondérée par la probabilité de ces valeurs dans l’échantillon

NNX

ii

ii

XX 1

*∑∑

==

Paramètres de position

• L’espérance mathématique

• se calcule sur la population

• est une somme des valeurs présentes dans la population, pondérée par la probabilité de ces valeurs dans la population

πµi

iiX *∑=

Page 21: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

21

Paramètres de position

• Il est crucial de réaliser qu’en général:

• Par conséquent, si on cherche à montrer que deux populations ont des moyennes µ1

et µ2 identiques (différentes), il ne suffit pas de montrer que 2 échantillons issus de ces populations ont des moyennes et identiques (différentes) !

X≠µ

X 1 X 2

Paramètres de position

• Une illustration

• La prévalence d’une maladie dans une population est de 10%. Si je prélève des échantillons (de taille 100) de cette population, j’obtiens des estimateurs de cette moyenne.

• On répètera 1000 fois cet échantillonnage et on représentera les 1000 prévalences obtenues graphiquement.

Paramètres de position

• Code et résultat:> prev<-rep(0,1000)> for (rep in 1:1000) {+ echant<-runif(100)+ prev[rep]<-length(echant[echant<0.1])/100.0+ }> hist(prev,main="Prévalences dans les + échantillons",col="red",xlab="Prévalence")

Paramètres de position

• Autre paramètre: le mode

• Mode = valeur la plus fréquente dans la distribution

• Classe modale = classe ayant la fréquence la plus élevée

Page 22: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

22

Paramètres de position

• Autre paramètre: la médiane

• Médiane = valeur pour laquelle 50% des observations lui sont inférieures (et 50 % lui sont supérieures).

> ps<-sort(prev)> med<-(ps[500]+ps[501])/2> med[1] 0.1> median(prev)[1] 0.1

Paramètres de position

• Utilités des différents paramètres de position

• Mesure d’asymétrie• Moy < Mode < Médiane => droite

• Sensibilité moins forte de la médiane aux outliers

• Tests de plurimodalité

X

f(X)

médiane

50%50%

mode

Paramètres de dispersion

• La variance

• se calcule sur un échantillon de taille N

• estime la variance de la population σ²(espérance mathématique)

• est une somme des écarts au carré des valeurs présentes dans l’échantillon par rapport à la moyenne, pondérée par la probabilité de ces valeurs dans l’échantillon

( ) ( ) 1

1*2

1

22

−=

−= ∑ −∑ −

NiNi

i

i

XXXX

s

Paramètres de dispersion

• La variance de la population

• se calcule sur la population

• est une somme des écarts au carré des valeurs présentes dans la population par rapport à la moyenne de la population, pondérée par la probabilité de ces valeurs dans la population

( ) πµσ *22

ii

X i∑ −=

Page 23: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

23

Paramètres de dispersion

� Remarques sur la variance

� La division par (n-1) est liée au fait qu’on ne calcule pas les écarts par rapport à µ mais par rapport à X.

� L’expression de cette mesure dans la même unité que les valeurs de X se fait en prenant la racine carrée de s², (ou σ²) soit s (ou σ), appelée déviation standard.

� s² est un estimateur de la vraie variance, qui est l’espérance mathématique de (X-µ)², notée E(X-µ)²

Paramètres de dispersion

� La covariance

� Il s’agit d’une mesure permettant de savoir dans quelles proportions deux variables aléatoires évoluent conjointement.

� La définition de la covariance entre X et Y au sein de la population est:

Cov(X,Y) = σXY = E[(X-µX)(Y-µY)]

� La version standardisée (ramenée entre -1 et 1) de la covariance s’appelle la corrélation ρXY.

Paramètres de dispersion

� Covariance et corrélation dans un échantillon

� La mesure de la covariance au sein d’un échantillon est:

� La mesure de la corrélation au sein d’un échantillon est:

( )( )1−

−−=∑

n

YYXXS i

ii

XY

( )( )( ) ( )∑∑

−−

−−=

ii

ii

iii

XY

YYXX

YYXXr

22

Paramètres de dispersion

� Interprétation de la covariance (corrélation)

XX

YY

-

-+

+

YY

XX

=> Covariance > 0 => Y ↑ quand X ↑

Page 24: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

24

Paramètres de dispersion

� Interprétation de la covariance (corrélation)

XX

YY

-

-+

+

=> Covariance < 0 => Y ↓ quand X ↑

YY

XX

Paramètres de dispersion

� Interprétation de la covariance (corrélation)

YY

-

-+

+

=> Covariance ≈ 0 => Y stable quand X↑

YY

XX

Paramètres de dispersion

� Interprétation de la covariance (corrélation)

� La covariance entre 2 variables indépendantes est donc nulle (σXY = 0)

� Rappelons que: σXY = 0 ≠> sXY = 0 et: sXY ≠ 0 ≠ > σXY ≠ 0

� Exemple: r(Taille,Poids)

> cor(Taille,Poids)[1] 0.1050519> pp<-Poids-mean(Poids)> tt<-Taille-mean(Taille)> r<-sum(pp*tt)/sqrt(sum(pp*pp)*sum(tt*tt))> r[1] 0.1050519

Paramètres de dispersion

� Propriétés de la variance

� V(k*X) = k²*V(X)

� V(X + Y) = V(X) + V(Y) + 2*Cov(X,Y)

� Si X et Y indépendants: V(X + Y) = V(X) + V(Y)

� V(X) = V(X)/n

� La racine carrée de la variance des moyennes s’appelle l’erreur standard, à ne pas confondre avec la racine carrée de la variance des données individuelles, qui s’appelle la déviation standard

Page 25: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

25

Paramètres de dispersion

� Illustration sur la variance des moyennes

> means<-rep(0,1000)> # Paramètres de la population> mu<-100> sigma_d<-20> # Paramètre de l'échantillon> n<-10> # Boucle> for (i in 1:1000) {+ means[i]<-mean(rnorm(n,mu,sigma_d))+ }> var(means)[1] 39.54724>

Paramètres de dispersion

� Autres paramètres

� L’étendue: max(X) – min(X)

� Les quartiles, déciles, percentiles, qui découpent la distribution en 4 parties (de 25% chacune), en 10 parties (de 10% chacune) ou en 100 parties (de 1% chacune) respectivement.

� Exemple: « boxplot »

> boxplot(Poids)

Paramètres de dispersion

� Résultat:

> boxplot(Poids)

Q4 = Max

Q0 = Min

Q3

Q2 = Médiane

Q1

Paramètres de dispersion

� Remarque:

� L’«écart interquartile» = (Q3-Q2) – (Q2-Q1) est une mesure d’asymétrie

Q4 = Max

Q0 = Min

Q3

Q2 = Médiane

Q1

Page 26: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

26

Paramètres de dispersion

� Quantiles dans R:

> quantile(Poids)0% 25% 50% 75% 100%

101.0 143.0 176.5 210.5 250.0 > # Pour obtenir les déciles:> quantile(Poids,seq(0,1,0.1))

0% 10% 20% 30% 40% 101.0 118.8 132.0 149.0 163.0

50% 60% 70% 80% 90% 176.5 194.0 204.3 219.2 235.1

100% 250.0 >

Existe-t-il des calculs théoriques de distributions ?

� Partons d’une situation simple: un événement pour lequel seules deux issues sont possibles.

� Exemples: mâle (0) ou femelle (1), mort (0) ou vivant (1), malade (0) ou sain (1).

� Une variable aléatoire X, représentant un tel événement, ne peut prendre que deuxvaleurs, 0 ou 1. On parle de variable de Bernoulli.

Quelle est la distribution d’une variable de Bernoulli ?

� La distribution d’une variable de Bernoulli peut s’écrire:

� θ est un paramètre, représentant la proba que X = 1

� Exemple: si la prévalence d’une maladie est 0.2, X représente l’expérience aléatoire consistant à prélever un individu dans la population. L’événement aléatoire « choix d’un individu sain (malade) » correspond à X = 0 (1).

( ) XXX −−= 11)Pr( θθ

Et si on répète l’expérience aléatoire ?

� Si on fait n fois l’expérience aléatoire, une question est: combien de fois l’événement aléatoire a-t-il eu lieu ?

� Exemple: si je prélève n=5 individus, combien d’individus malades vais-je avoir ?

� Théoriquement, je peux avoir entre 0 et n fois l’événement qui m’intéresse, chaque valeur possible ayant une certaine probabilité (à déterminer). On représente ce nombre de réalisations par une variable aléatoire, notée r.

Page 27: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

27

Comment calculer la distribution de r ?

� Repartons de l’exemple des n = 5 individus prélevés dans une population où la prévalence d’une maladie est p = 0.2

� On peut représenter tous les cas de figure pouvant se présenter lors d’une expérience de ce type (soit, prélever 5 individus dans une population binaire)

Quels sont tous les cas possibles dans l’expérience ?

Sain Malade

Comment calculer la probabilité d’avoir 0 malade ?

( ) 328.08.01)0Pr( 5 ==−== npr

� On a fait les hypothèses que:

� Les tirages successifs sont indépendants

� La prévalence reste constante de tirage en tirage (on parle de tirage avec remise).

Comment calculer la probabilité d’avoir 1 malade ?

( ) 410.08.0*2.0*51**5)1Pr( 41 ==−== −nppr

108Cours de statistique - Partim 1 -Année académique 2010-2011

Page 28: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

28

Comment calculer la probabilité d’avoir 2 malades ?

( ) 205.08.0*2.0*101**10)2Pr( 32 ==−== −rnr ppr

Comment calculer la probabilité d’avoir r malades ?

� Dans chaque situation, il y aura r malades et (n - r) sains. La probabilité de chaque situation est donc:

� Combien de situations (mutuellement exclusives) y a-t-il ?

( ) rnr pp −−1*

)!(!

!

rnr

nC r

n −=

Comment calculer la probabilité d’avoir r malades ?

� En sommant (probabilités totales), on obtient la probabilité globale d’avoir r malades:

� Cette distribution de r comporte donc deux paramètres n et p. Elle s’appelle « distribution binomiale »

( ) rnrrn ppCnpr −−= 1*),|Pr(

Représentation graphique d’une distribution binomiale.

� Fonctions binomiales de R

� dbinom(x,size=n,prob=p)

� donne la probabilité de B(r = x | n,p)

� pbinom(x,size=n,prob=p)

� donne la probabilité cumulée B(r <= x | n,p)

� qbinom(q,size=n,prob=p)

� donne la valeur de x: B(r <= x | n,p) = q

� rbinom(v,size=n,prob=p)

� tire v valeurs de x dans B(r | n,p)

Page 29: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

29

Représentation graphique d’une distribution binomiale.

� Représentons la distribution binomiale ayant pour paramètres n = 50 et p = 0.3 (par exemple)

> r<-0:50> pr<-dbinom(r,size=50,prob=0.3)> plot(r,pr,main=«Binomiale(r=50,p=0.3)»,+ type=«h»)

Représentation graphique d’une distribution binomiale.

� Représentons la distribution binomiale ayant pour paramètres n = 50 et p = 0.3 (par exemple)

Utilisation d’une distribution binomiale.

� Exemple : si la probabilité d ’une affection est de 0.2, quelle est la probabilité d ’avoir (exactement) 2 atteints parmi 10 animaux ?

> dbinom(2,size=10,prob=0.2)[1] 0.3019899

Utilisation d’une distribution binomiale.

� Exemple : si une affection est présente dans une population avec une fréquence de 0.02, combien d ’animaux dois-je examiner pour être sûr à 99% de détecter l ’affection ?

> log(1-0.99)/log(1-0.02)[1] 227.9482

Page 30: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

30

Paramètres d’une distribution binomiale.

� Rappel :

� µ = E[r] = Σ r*B(r|n,p)

� Résultat général: µ = n*p

> # Exemple avec n=50 et p=0.3> p<-0.3> n<-50> r<-0:n> pr<-dbinom(r,size=n,prob=p)> mu<-sum(r*pr)> mu[1] 15> # De manière générale: µ = n*p

Paramètres d’une distribution binomiale.

� Rappel :

� σ² = E[r - µ]² = Σ (r – n*p)²*B(r|n,p)

� Résultat général: σ² = n*p*(1-p)

> # Exemple avec n=50 et p=0.3> p<-0.3> n<-50> r<-0:n> pr<-dbinom(r,size=n,prob=p)> sigma2<-sum(((r-n*p)**2)*pr)> sigma2[1] 10.5> # De manière générale: µ = n*p*(1-p)

� La distribution binomiale se généralise à des situations avec k issues (distribution polynomiale)

Que faire si j’ai plus de deux issues dans mon expérience ?

krk

r

kkk pp

rr

nnppprrr ⋯

⋯⋯1

11

2121 !!

!),,,,|,,,Pr( =

∑=

=k

ikrn

1∑

=

=k

ikp

1

1

� Exemple: des animaux peuvent être indemnes (-), atteints légèrement (+) ou gravement (++) d’une pathologie. Calculer la probabilité d’avoir 1 atteint léger et un atteint grave dans un échantillon de taille 10. On sait que, en outre, que:

� P(-) = 0.8, P(+) = 0.15, P(++) = 0.05

Un exemple ?

Page 31: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

31

� Solution:

� En utilisant R:

Un exemple ?

113.08.0*05.0*15.0!8!1!1

!10)10,8.0,05.0,15.0|8,1,1Pr( 8 ==

> r<-c(1,1,8)> p<-c(0.15,0.05,0.80)> dmultinom(r,size=10,prob=p)[1] 0.1132462

� Exemple: lors de comptages bactériens, le nombre de bactéries qui peut apparaître par unité de volume dépend de la concentration initiale et de la dilution. A priori, n est inconnu, mais supposé potentiellement très grand. Stricto sensu, il s’agit d’un événement binomial, et µ = np

� Si n est très grand, mais que µ n’est pas trop grand (ce qui implique que p est petit), on peut faciliter le calcul en utilisant la loi de Poisson

Que faire quand n n’est pas limité ?

!)(

k

memkP

km−

=

m)k(E ==µµ)µk(E 22 =−=σ

Quelles sont les propriétés principales de cette loi ?

� Il s’agit d’une loi avec un seul paramètre (m). La variable aléatoire k peut prendre n’importe quelle valeur entière positive ou nulle.

� Exemple: la rage a une fréquence de 0.001 en Belgique. Quelle est la probabilité d’avoir plus de 10 atteints dans une région comptant 20000 chiens ?

� Solution:

� p est très petit, et n très grand => loi de Poisson

� µ = np = 20

� Pr = 1 – P(0|20) – P(1|20) – … - P(10|20)= 1 – e-20* (200/0! + 201/1! + … + 2010/10!) = 0.9892

Un exemple ?

Page 32: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

32

� Solution avec R:

Un exemple ?

> # En employant ‘dpois’> p<-1> for (i in 0:10) {> p<-p-dpois(i,lambda=20)> }> p[1] 0.9891883> # Plus facilement, en employant ‘ppois’> ppois(10,lambda=20,lower.tail=F)[1] 0.9891883

� Exemple: après ensemencement de 20 tubes avec 0.1 ml d’une solution, 3 sont restés stériles. Quelle est la concentration moyenne de ce liquide en bactéries ?

� Solution:

� µ est inconnue

� Pr (0 | µ) = 3 / 20 = 0.15 = exp(-µ)

� µ = -ln (0.15) = 1.897 (bactéries par 0.1 ml)

Un autre exemple ?

Que faire si la probabilité entre tirages successifs varie ?

� On parle toujours d’événements binaires (malade ou pas, mâle ou femelle, vivant ou mort, …), répétés n fois, mais sans remise (ce qui revient à dire que p varie de tirage en tirage)

� Exemple: quelle est la probabilité de tirer deux individus malades en tirant deux individus au hasard dans une exploitation de 10 individus dont 2 sont malades ?

Que faire si la probabilité entre tirages successifs varie ?

� Exemple:

P( E1 = ) = 0.2

P( E1 = et E2 = ) = 0.2 * 0.111 = 0.0222

P( E2 = | E1 = ) = 0.111

128Cours de statistique - Partim 1 -Année académique 2010-2011

Page 33: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

33

Et pour une situation plus compliquée ?

� Exemple: Un lot de 30 poissons en contient 5 qui sont contaminés. Quelle est la probabilité de prélever 2 de ces 5 poissons contaminés en prélevant 10 poissons du lot ?

� Idée: compter le nombre de choix possibles de 10 poissons parmi 30 (nombre de cas possibles N). Ensuite, compter le nombre cas n parmi ceux-là qui répondent à la question. La probabilité cherchée est le rapport n/N

Distribution hypergéométrique: exemple

� Exemple :

25 5

8 2

Lot:

Prélevé:

ContaminéSain

1030CN = 8

2525CCn =

36.030045015

10815750

C

CCPr

1030

825

25 ===

cC

bB

aA

C

CC)C;c;A;a(H =

CBA

cba

=+=+

Quelle est la forme de la distribution hypergéométrique ?

Distribution hypergéométrique: un autre exemple

� Exemple : Un lot de 30 poissons en contient 10% qui sont contaminés. Quelle est la probabilité de détecter la pathologie en prélevant 10 poissons ?

� Solution : Avec remise (!?)

Sans remise

651.09.01)0(B1Pr 10 =−=−=

719.0)30;10;3;0(H1Pr =−=

Page 34: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

34

Distribution hypergéométrique: encore un autre exemple

� Exemple : Un lot de 30 poissons en contient 20% qui sont contaminés. Quelle est la probabilité d’avoir plus de 4 poissons contaminés en prélevant 10 poissons ?

� Solution avec R:

> # En employant ‘dhyper’> dhyper(5,6,24,10)+dhyper(6,6,24,10)[1] 0.008841733> # En employant ‘phyper’> phyper(4,6,24,10,lower.tail=F)[1] 0.008841733> p<-0> for (i in 5:6) { p<-p+dhyper(i,6,24,10) }> p[1] 0.008841733

Comment fait-on avec une variable continue ?

� Problème : Il n’est pas possible d’attribuer une probabilité à chaque valeur de la variable aléatoire X (il y en a une infinité !).

� Solution : on définit une fonction f(X) appelée « densité de probabilité ». La probabilité d’être entre X1 et X2 se calcule par la surface sous la courbe entre ces deux valeurs

Comment fait-on avec une variable continue ?

X

f (X)

a b QP

∫ =Q

PdXXf 1)(

∫ ≤≤=b

abXaPdXXf )()(

Peut on avoir un premier exemple d’une telle distribution ?

� La distribution la plus simple est la distribution uniforme:

◦ Si X < P, f(X) = 0

◦ Si P ≤ X ≤ Q, f(X) = 1/(Q-P)

◦ Si Q < X, f(X) = 0

f (X)

P QX

1/(Q-P)

Page 35: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

35

Peut on avoir un premier exemple d’une telle distribution ?

� L’utilisation est très simple, le calcul de la surface (rectangulaire) étant trivial !

◦ P[a ≤ X ≤ b] = (b-a)/(Q-P)

f (X)

P QX

a b

1/(Q-P)

Peut on avoir un premier exemple d’une telle distribution ?

� Exemple: dans une distribution uniforme entre 0 et 10, quelle est la probabilité de tomber entre 3 et 5 ?

� Réponse: P = (5-3)/(10-0) = 0.2

� Réponse avec R:

> punif(5,min=0,max=10)-punif(3,min=0,max=10)[1] 0.2

Peut on avoir un exemple d’une autre distribution continue ?

� La distribution probablement (!) la plus utilisée est la distribution normale

◦ Une justification théorique: le « théorème de la limite centrale »

πσ=

σµ−−

2

e)X(f

2

2

2

)X(

2Variance

Moyenne

σ=

µ=

Quelle est la forme de cette distribution ?

Distributions normales

0

0,2

0,4

0,6

0,8

1

-4 -2 0 2 4

X

f(X

)

s = 1

s > 1

s < 1

Page 36: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

36

Comment calculer une probabilité avec cette f(X) ?

� Il faut calculer une intégrale…

� Heureusement, il y a R !

> proba<-pnorm(x,mu,sigma)

> sample<-rnorm(1,mu,sigma)

> fx<-dnorm(x,mu,sigma)

Des exemples ?

� Exemple 1: Sachant qu ’en moyenne, une espèce pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, quelle est la probabilité:- qu ’un individu pèse entre 4 et 4.3 kgs ?

- qu ’un individu pèse plus de 4.5 kgs ?

> pnorm(4.3,mean=4,sd=0.3)-pnorm(4,mean=4,sd=0.3)[1] 0.3413

> 1-pnorm(4.5,mean=4,sd=0.3)[1] 0.0478

Une autre utilisation de la distribution normale…

� Représentons (par exemple) la distribution binomiale suivante: n=100, p=0.4.

Histogrammede B(r|n=100,p=0.4)

Diagrammede N(r|µ=40,σ²=24)

� A toutes fins utiles, les deux distributions B(n,p)et N(µ=n*p, σ2=npq) coïncident.

� On passe de l ’une à l ’autre par le changement de variable:

� En général, si n augmente, et p est « proche » de 0.5, une binomiale peut être approchée par une distribution normale.

( )1,0Nnpq

nprz ∝−=

Une autre utilisation de la distribution normale…

Page 37: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

37

Un exemple d’utilisation de l’approximation normale ?

� Exemple 1: sachant qu ’en moyenne, une espèce de poissons pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, combien de poissons dois-je prélever pour être sûr à 95% d ’avoir au moins 20 poissons de plus de 4.5 kgs ?

Approximation normale: exemple

� Solution 1: si on suppose le poids réparti normalement, la probabilité de peser plus de 4.5 kgs pour un poisson prélevé au hasard est :

> 1-pnorm(4.5,mean=4,sd=0.3)[1] 0.0478

Approximation normale: exemple (suite)

� Solution 1A: Approche binomiale

� Choisir n tel que B(0) + B(1) + … + B(19) <= 0.05

� Équation non linéaire en n…

� On peut résoudre le problème avec un logiciel.

> p<-1-pnorm(4.5,mean=4,sd=0.3)> n<-1:1000> pr<-pbinom(19,size=n,prob=p)> for (i in 2:1000) {+ if ((pr[i-1]>0.05) && (pr[i]<0.05)) {+ print(i)+ }+ }[1] 579

Approximation normale: exemple (suite)

� Solution 1B: Approche normale

� Choisir n tel que: -1.64 < z

� z = (20 - n*p) / (n*p*q)1/2

=> (n*p*q) z2 = (20 -n*p)2

=> n = 601

� L ’approximation n ’est pas très bonne (p << 0.5) dans ce problème.

Page 38: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

38

Distribution normale: autre utilisation

� Divisant le numérateur et le dénominateur par n dans le changement de variable donné plus haut, on obtient:

� Distribution d ’une proportion (r/n estime p, et la racine est la déviation standard)

npq

pnr

z−

=

Distribution d’une proportion: exemple

� Exemple 2: dans un échantillon de 100 poissons, 68 sont des mâles. Peut on conclure à une distorsion de la proportion des sexes ?

� Solution 2: on répond à cette question en calculant la probabilité d ’avoir 68% des mâles si la vraie proportion (p) est 50%.

6.3

1005.0*5.0

5.068.0

npq

pnr

z =−

=−

=

Distribution d’une proportion: exemple

� Solution 2 (suite): le calcul est le suivant:

� La probabilité d ’avoir une telle valeur de z (ou une plus grande encore) est 1.6E-4, et donc très peu probable. On en déduit que p=0.5 n ’est pas la valeur correcte.

Peut-on appliquer cette démarche à d’autres situations ?

� Oui. Il s’agit de la démarche classique dans les tests

d’hypothèses.

� Choisir l’hypothèse de départ, appelée hypothèse nulle (H0): p = 0.5

� Choisir une hypothèse alternative H1 (qui sera vraie si H0 est considérée fausse): p ≠ 0.5

� Récolter des données permettant de corroborer ou de rejeter H0.

Page 39: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

39

Peut-on appliquer cette démarche à d’autres situations ? (suite)

� (Suite de la démarche)

� Calculer la probabilité des observations si H0 est vraie: Pr (z > 3.6) = 0.00016

� Si la probabilité est inférieure à un seuil α, décider que l’hypothèse nulle est incorrecte et la rejeter:0.00016 <<< α = 0.05 => rejet de H0.

Ne court-on pas le risque de se tromper ?

� Si. Deux erreurs sont envisageables:

OK !Erreur type I

α

H0 acceptée H0 rejetée

H0 vraie

H0 fausse OK !Erreur type II

β

Ne court-on pas le risque de se tromper ?

� Graphiquement:

f(X|H0) f(X|H1)

αβ

Existe-t-il un test d’hypothèse pour des effectifs tombant dans des classes ?

� Exemples

◦ x morts - (n-x) vivants

◦ x mâles - (n-x) femelles

◦ a conformations ‘ ++ ’b conformations ‘ + ’c conformations ‘ - ’n-(a+b+c) conformations ‘ -- ’

◦ etc...

Page 40: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

40

Exemple illustratif

� A un âge donné, 20% des poissons d ’une espèce ont un poids supérieur à 4 kgs. 1000 poissons de cette espèce sont soumis à un régime spécial, et on constate que 230 d ’entre dépassent 4 kgsà l ’âge de référence. Le régime modifie-t-il le poids de manière significative ?

Où sont les classes ?

Poids

f(Poids)

P < 4kgs P > 4kgs

0.8 0.2

Méthodologie (1)

� Poser l’hypothèse nulle (H0) que l’on souhaite tester:

� H0: le régime n’a pas d’effet sur le poids

� Poser l’hypothèse alternative (H1), qui sera supposée vraie si H0 est rejetée:

� H1: le régime augmente le poids

� Test unilatéral droit (si le régime diminue le poids, H0 sera acceptée…)

� Récolter des données pour tester H0

� 230 poissons sur 1000 dépassent le poids qui ne devrait, si H0 est vraie, qu’être dépassé par 200 poissons

� Choisir une statistique qui permette de calculer la probabilité des observations si l ’hypothèse nulle est vraie.

� Exemple: on pourrait choisir de représenter le problème sous forme d ’une distribution binomiale, avec p=0.20 et n=1000.

Méthodologie (2)

Page 41: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

41

Méthodologie (3)

� Extrait de la distribution

230

� Calculer la probabilité d’avoir 230 poissons ou plus qui pèsent plus de 4 kilos:

� Choisir un seuil de signification

� Exemple: α = 0.05

� Comparer la proba obtenue au seuil et décider le rejet si P < α, ou l’acceptation si P > α� Exemple: P < 0.05 => rejet de H0

Méthodologie (4)

> pbinom(229,size=1000,prob=0.2,lower.tail=F)[1] 0.01073586

� Conclure: on décide donc que la différence entre le nombre de poissons « lourds » observés (230) et attendus (200) est significative: l’hypothèse d’absence d’effet du régime est rejetée, il y a donc un effet du régime sur le poids.

� Taux de faux positifs ? 0.01073586

Méthodologie (5) Une autre méthodologie

� Il existe une autre approche pour calculer la probabilité

� Exprimer l ’hypothèse nulle sous forme d’effectif attendu

� H0: le régime n ’a pas d ’effet sur le poids=> on attend alors les mêmes fréquences dans l ’échantillon de 1000 que dans la population, soit 200 poissons > 4kgs et 800 poissons < 4kgs.

Page 42: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

42

=> χ² = (200-230)²/200+(800-770)²/800

Ecart Positif Normalisé

Une autre méthodologie

� Calculer la mesure suivante de l’écartement entre ce qui est attendu et ce qui est observé.

� Plus on s’écarte de H0, plus χ² est grand.

� On peut calculer la probabilité que χ² dépasse la valeur observée en utilisant la distribution de χ² avec 1 degré de liberté (# de groupes – 1)

=> χ² = (200-230)²/200+(800-770)²/800 = 5.625

Une autre méthodologie

� Calculons χ² :

� On peut obtenir la probabilité avec R:

� Même conclusion que plus haut !

> obs<-c(230,770)> att<-c(200,800)> chi2<-sum((obs-att)**2/att)> chi2[1] 5.625> pchisq(chi2,df=1,lower.tail=F)[1] 0.01770607

Remarques

� χ² est un test « approximatif » (le test binomial est un test « exact »). Des conditions d’application de cette approximation sont donc à considérer:

� Effectifs attendus Ai > 10

� Correction possible si 5 < Ai < 10 (Yates)

� Tests exacts si Ai < 5

� Effectifs attendus Ai et observés Oi sont des fréquences, indépendantes

Remarques

� Les effectifs des deux classes sont dépendants: si l’effectif total (n) est connu, la connaissance de l’effectif d’une classe (r) fixe l’effectif de l’autre classe (n-r): on dit qu’il n’y a qu’un seul degré de liberté (i.e. un seul effectif qu’on peut fixer librement)

� S’il y avait k classes, on pourrait fixer librement (k-1) effectifs, le dernier étant automatiquement fixé: il y aurait donc (k-1) degrés de liberté)

Page 43: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

43

Graphique de χ² à un ddl Quel est l’avantage du χ² ?

� Généralisation à plus de deux classes

« χ² avec (k-1) degrés de liberté »

( )∑=

−=χk

1i i

2ii2

A

AO

Graphiques de χ²

1 ddl

2 ddl3 ddl

4 ddl5 ddl

Un exemple de calcul de χ²

� Dans une espèce particulière, la taille des individus a été mesurée, et une distribution a été établie. En particulier, on a établi les percentiles 20, 40, 60 et 80, ce qui permet de classifier les poissons dans une des 5 classes [0 à 20[, [20 à 40[, [40 à 60[,[60 à 80[ et [80 à 100]. Un lot de 200 poissons de cette espèce a reçuun traitement spécial, dont on veutsavoir l’effet sur la taille.

Page 44: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

44

Un exemple de calcul de χ²

� Hypothèse nulle (H0): le traitement n’a aucun effet

� Hypothèse alternative (H1): le traitement modifie la taille des individus traités.

� Collecte des données: cfr page suivante

Un exemple de calcul de χ²

� 5 catégories de fréquences 20%

� Valeurs observées (n = 200)Catégorie I => 52 (OI)Catégorie II => 46 (OII) Catégorie III => 38 (OIII) Catégorie IV => 26 (OIV) Catégorie V => 38 (OV)

� Valeurs attendues (si H0 est vraie):EI = EII = EIII = EIV = EV = 40

� Calcul de la statistique χ²:

� Calcul de la probabilité associée à χ²:

Un exemple de calcul de χ²

> obs<-c(52,46,38,26,38)> att<-rep(40,5)> chi2<-sum((obs-att)**2/att)> chi2[1] 9.6

> pchisq(chi2,df=4,lower.tail=F)[1] 0.04773253

� Ou, d’un seul coup:

Un exemple de calcul de χ²

> obs<-c(52,46,38,26,38)> table<-matrix(obs,nr=1)> chisq.test(table,correct=F)

Chi-squared test for given probabilities

data: table X-squared = 9.6, df = 4, p-value = 0.04773

Page 45: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

45

� Conclusion: la valeur de χ² obtenue est (légèrement) significative (càd. inférieure) au seuil α = 5%. L’hypothèse nulle est donc rejetée, ce qui signifie que le traitement semble avoir un effet sur la taille (« le traitement modifie la taille de manière significative »)

Un exemple de calcul de χ² Un autre exemple

�Un sondage donne 60 « pour » - 40 « contre »Peut-on conclure à une majorité de « pour » ?

�Solution

�H0: pas de majorité => Attendus: 50 – 50

�H1: majorité de « pour »

�Récolte des données: 60 – 40

�χ² = 1/50*[( 60 - 50 )²+( 40 - 50 ) ²] = 4

�p(> χ²) = pchisq(4,df=1,lower.tail=F) = 0.0455

�Conclusion: majorité significative de « pour »

Exercice

� L’OMS (Organisation Mondiale pour la Santé) précise que le SIDA touche 10% de personnes dans une région donnée. Un nouveau sondage sur 1000 personnes dans cette région fait état de 130 personnes infectées. Est-ce en accord avec l’annonce de l’OMS ?

Tests d’indépendance entre 2caractères de classification

� Problème (exemple)« La prise d ’un médicament a-t-elle une influence sur la mortalité associée à une pathologie particulière ? »

� Caractère 1: Mortalité (O - N)

� Caractère 2: Médicament (O - N)

Page 46: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

46

Tests d’indépendance entre 2caractères de classification

� Hypothèse nulle: pas d’effet du médicament sur la mortalité

� Hypothèse alternative: le médicament a un effet sur la mortalité (test bilatéral)

� Collecte de données: cfr dia suivante

Représentation des données

300 100

250 50

550 150

Morts Vivants

400

300

Avec méd.

Sans méd.

700

Observés

� Données collectées:

� Ce tableau est appelé table de contingence

Calcul de la statistique χ²

� Calcul des effectifs attendus

◦ Globalement, sur l ’échantillon, la mortalité est de 550 / 700

◦ Si le médicament n’a pas d’effet (H0), la mortalité devrait être la même chez ceux qui ont reçu le médicament et ceux qui ne l’ont pas reçu:

� On attend donc 550/700*400 morts avec médic.

� On attend donc 550/700*300 morts sans médic.

314,29 85,71

235,71 64,29

550 150

Morts Vivants

400

300

Avec méd.

Sans méd.

700

Attendus

314,29 400

550 700=

*/

Calcul de la statistique χ²

Page 47: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

47

� χ² = (300-314,29)²/314,29+ (100-85,71)²/85,71+ (250-235,71)²/235,71+ (50-64,29)²/64,29= 7,070707

Calcul de la statistique χ²

> obs<-c(300,100,250,50)> att<-c(400*550/700,400*150/700,+ 300*550/700,300*150/700)> chi2<-sum((obs-att)**2/att)> chi2[1] 7.070707

�Règle permettant de trouver le nombre de degrés de liberté:« Le nombre de degrés de liberté est le nombre de classes dont les fréquences peuvent varier indépendamment, sans modifier les totaux, sous-totaux, … qui peuvent avoir été utilisés dans le calcul des espérances ».

Calcul de p(> χ²)

Calcul des degrés de liberté

300 400-300

550- 300 150-(400-300)

550 150

Morts Vivants

400

300

Avec méd.

Sans méd.

700

Observés

Avec 300, on peut reconstituer les effectifs desautres cases par différences avec les totaux=> 1 degré de liberté (et non 3…)

� En général, pour une table avec m lignes et n colonnes, (n-1) valeurs sont nécessaires dans les (m-1) premières lignes => (m-1)*(n-1) degrés de liberté

� Exemple : table 10*4=> 27 degrés de liberté

Calcul des degrés de liberté

Page 48: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

48

�On peut à présent calculer la valeur de cette probabilité:

�Conclusion: le médicament a un effet significatif (au seuil α = 1%) sur la mortalité. L’examen des données indique que l’effet du médicament est de diminuer la mortalité

Calcul de p(> χ²)

> pchisq(7.070707,df=1,lower.tail=F)[1] 0.007835433

Calcul direct avec R…

> # Construction de la table de contingence> table<-matrix(c(300,100,250,50),byrow=T,nr=2)> # Calcul de chi-carré et de la valeur p> chisq.test(table,correct=F)

Pearson's Chi-squared test

data: table X-squared = 7.0707, df = 1, p-value = 0.007835

Questions supplémentaires

� Que faire quand les effectifs sont trop petits (Ai < 5) ?

◦ Exemple

0 3

2 2

2 5

Morts Vivants

3

4

Avec méd.

Sans méd.

7

Observés

Questions supplémentaires

� Test exact de Fisher

� Exemple: trois tables possibles avec les mêmes totaux

0 3

2 2

2 5

Morts Vivants

3

4

Avec m.

Sans m.

7

Observés

1 2

1 3

2 5

Morts Vivants

3

4

7

Observés

2 1

0 4

2 5

Morts Vivants

3

4

7

Observés

La table observée est la plus extrême dans le sens de l ’effet

Avec m.

Sans m.

Avec m.

Sans m.

Page 49: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

49

Questions supplémentaires

� Test exact de Fisher

� Exemple: probabilités calculées via la loi hypergéométrique

0 3

2 2

2 5

Morts Vivants

3

4

7

Observés

1 2

1 3

2 5

Morts Vivants

3

4

7

Observés

2 1

0 4

2 5

Morts Vivants

3

4

7

Observés

7

2

C

CC37

35

02 =

7

4

C

CC37

25

12 =

7

1

C

CC37

15

22 =

Avec m.

Sans m.

Avec m.

Sans m.

Avec m.

Sans m.

Questions supplémentaires

� Test exact de Fisher

� Exemple: la table observée (et les tables plus extrêmes, le cas échéant) ont une probabilité globale de 0,2856 > a (5%)=> l ’hypothèse nulle H0 est

acceptée=> pas d ’effet significatif du vaccin

démontré dans cetteexpérience

0 3

2 2

2 5

Morts Vivants

3

4

7

Observés

Avec m.

Sans m.

7

2

C

CC37

35

02 =

Questions supplémentaires

� Test exact de Fisher avec R

0 3

2 2

2 5

Morts Vivants

3

4

7

Observés

Avec m.

Sans m.

7

2

C

CC37

35

02 =

> table<-matrix(c(0,3,2,2),nr=2)> fisher.test(table)

Fisher's Exact Test for Count Data

data: table p-value = 0.2857alternative hypothesis: true odds ratio is less than 1 95 percent confidence interval:

0.000000 4.480868 sample estimates:odds ratio

0

Questions supplémentaires

� Données « pairées »: le même caractère est testé deux fois sur les mêmes individus

� Exemple: parasites « avant-après »

30 30

20 20

50 50

+ -

60

40

+

-

100

Observés

1

2

Page 50: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

50

Données pairées

� Si H0 est vraie, on attend le même nombre d’évolutions « + → - » que « - → + »

� On observe 30 * « + → - » et 20 * « - → + »

� On attendait donc (30+20)/2 changements dans chaque direction

� On peut comparer ces observés et attendus via un test de c² (appelé, dans ce contexte, test de Mac-Nemar)

Données pairées: calculs

� Manuellement:

� χ² = (30-25)²/25 + (20-25)²/25 = 2

� p(> χ²) = ?

� Avec R > table<-matrix(c(30,30,20,20),byrow=T,nr=2)> mcnemar.test(table,correct=F)

McNemar's Chi-squared test

data: table McNemar's chi-squared = 2, df = 1, p-value = 0.1573

Annexe:

1. Petit lexique des commandes de R

Pour plus de détails sur les commandes, il faut taper:

help (<command>)

où <command> est la commande pour laquelle on désire de l’aide.

Petit lexique de R

� A:B: crée un vecteur de valeurs allant de A à B (qui sont des entiers)

� attach(<dataframe>): attache le nom d’un dataframe aux noms des variables (ce qui permet de simplifier l’écriture)

� boxplot(X): produit un « box-plot » de la variable X

� c(A,B,…): crée un vecteur avec les éléments A, B, …

� chisq.test(<matrix>): effectue un test de chi carré sur la matrice.

� cor(X,Y): calcule la corrélation simple entre les variables X et Y

� detach(<dataframe>): arrête d’attacher le nom d’un dataframe aux noms des variables

� dev.off(): arrête l’envoi des commandes graphiques vers un « device » (fichier graphique, typiquement)

� distributions: d|p|q|r <nom>(<arguments>) donne la densité (probabilité pour une var discrète), la proba cumulée, la valeur de la var correspondant à une proba, ou une valeur au hasard dans la distribution respectivement, pour les distributions binom, multinom, pois, hyper, unif, norm, chisq…

� fisher.test(<matrix>): effectue un test exact de Fisher sur la matrice.

� floor(X): arrondi inférieur de X

� hist(X): produit un histogramme de X

� jpeg(<fichier>): ouvre un fichier graphique en format graphique jpeg. Les instructions graphiques suivantes seront dirigées vers ce fichier (jusqu’à ce que dev.off() soit tapé).

� length(V): retourne la longueur du vecteur V

� lines(X,Y): ajoute des lignes dans un graphique

Page 51: Vue synoptique du cours Biostatistique–partie I 2. 3. · 2016-09-19 · 19-09-16 1 Biostatistique–partie I F. Farnir –E. Moyse–L. Massart Faculté de Médecine Vétérinaire

19-09-16

51

Petit lexique de R

� max(V): retourne l’élément maximal du vecteur V

� mcnemar.test(<matrix>): effectue un test de Mac-Nemar sur la matrice.

� mean(<vecteur>): calcule la moyenne

� median(<vecteur>): calcule la médiane

� min(V): retourne l’élément minimal du vecteur V

� names(table): donne les noms des variables contenues dans la table

� pie(<X>): fait un diagramme en tarte de X

� plot(<x>,[<y>]): fait un diagramme de X (ou de Y en fonction de X)

� quantile(X,q): fournit le quartile q (entre 0 et 1) pour la variable X

� read.table(fichier[,options]): lit un fichier en mémoire (les éventuelles options permettent une lecture correcte, voir l’aide et l’exemple pour cette fonction)

� rep(X,n): crée un vecteur de n répétitions de X

� sample(<vecteur>,N): mélange un vecteur de longueur N

� seq(A,B,STEP): crée un vecteur constitué de valeurs allant de A à B par pas de STEP.

� setwd(«répertoire»): établit un répertoire de travail.

� sort(<vecteur>): trie le vecteur

� stem(X): produit un diagramme « stem-leaves » de X

� sum(<vecteur>): calcule la somme

� table(var1,var2,…): crée des tables de fréquences avec autant d’entrées que de variables fournies

� var(X): calcule la variance de la variable X