1 Étude dun caractère Présentation des résultats Calcul des indicateurs Interprétation Étude...

Preview:

Citation preview

1

Étude d’un caractère

Présentation des résultats

Calcul des indicateurs

InterprétationÉtude simultanée de deux caractères

Tableau de contingence

Conditionnement

Ajustement

Statistique

2

1. Tri des données

Utilisation des outils

Diagramme en tiges et feuilles

Étude d’un caractère

3

Tige Feuilles

10 5 1

11 1

12 0 5 6 6 5

13 0 2 3 4 5 8 8 12

14 1 4 6 8 8 8 9 19

150 0 0 1 1 3 3 4 4 5 6 6 8

32

16 0 0 3 4 4 5 6 8 8 41

17 0 2 2 9 45

Soit une série de 45 valeurs de taux d’hémoglobine (en g.L1)

105, 120, 125, 126, 126, 130, 132, 133, 134, 135, 138, 138, 141, 144, 146, 148, 148, 148, 149, 150, 150, 150, 151, 151, 153, 153, 154, 154, 155, 156, 156, 158, 160, 160, ….., 179

Quartiles : 1er quartile : la plus petite valeur observée telle que, au moins 25% des données lui soient inférieures ou égales.Site Euler : Lexique et Fiches n° 470

Médiane

4

Indicateur de centralité

Indicateur de dispersion

MédianeQuantiles, intervalle

interquartile…..

Moyenne Écart type

2. Caractérisation d’une série statistique

5

Tige Feuilles

10 5 1

11 1

12 0 5 6 6 5

13 0 2 3 4 5 8 8 12

14 1 4 6 8 8 8 9 19

150 0 0 1 1 3 3 4 4 5 6 6 8

32

16 0 0 3 4 4 5 6 8 8 41

17 0 2 2 9 45

Diagramme en boîte

Q1 Q3 maxD1 D9memin

Fiches Euler :

470 – 1460 – 1461

6

Comparaison de 2 séries

7

effectifs O A B AB Total

R 3 566 3 968 753 385 8672

R– 576 578 110 64 1328

Total 4142 4546 863 449 10 000

Groupe sanguin et facteur Rhésus(10 000 naissances dans des maternités de France)

fréquences

O A B AB Total

R 0,3566 0,3968 0,0753 0,0385 0,8672

R– 0,0576 0,0578 0,0110 0,0064 0,1328

Total 0,4142 0,4546 0,0863 0,0449 1Fréquences marginales : f (O) = 0,4142 f (R+) = 0,8672

Fréquences partielles ou conjointes : f (O R) = 0,3566

Fréquences par rapport à la population totale

Séries statistiques à deux variables 1. Deux variables qualitatives : étude fréquentielle

8

fréquences O A B AB Total

R 0,3566

0,3968 0,0753 0,0385 0,8672

R– 0,0576

0,0578 0,011 0,0064 0,1328

Total 0,414

20,4546 0,0863 0,0449 1Fréquence de R+ sachant O :

0,4142

0,3566

O

ROR O

f

ff

ORORO fff

Fréquence de O sachant R+:

Fréquences conditionnellesFréquences par rapport à une sous - population

Conséquence :

0,8672

0,3566

R

ROOR

f

ff

RORRO fff

9

Arbre de répartition des fréquences

f (O)

f (OR+) =f O(R+)f (O)

R+

R-

R+

R+

R+

R-

R-

R-

A

O

B

AB

ROf

10

Ajustement

Sur chaque individu d’une population de n individus, on mesure deux variables, x et y.

Les valeurs prises par x et y pour un individu donné sont notées xi et yi.

On cherche s’il existe une relation simple entre x et y.

2. Deux variables quantitatives

Nuage de points, point moyen

Exemple

11

Probabilités

Introduction : simulation d’épreuves aléatoires et fluctuation d’échantillonnage

Existence d’un modèle théorique, loi de probabilité

Conditionnement et indépendance

12

familles de 4 enfants :

nombre de filles FG

F

F

F

F

F

FG

G

G

G

G

Nombre

de Filles

F ............................ 4

G ............................ 3

F ............................ 3

G ............................ 2

F ............................ 3

G ............................ 2

F ............................ 2

G ............................ 1

F ............................ 3

G ............................ 2

F ............................ 2

G ............................ 1

F ............................ 2

G ............................ 1

F ............................ 1

G ............................ 0

G

Valeurs possibles

0 1 2 3 4

probabilités 0,254

1 0,375

8

3

Simulation

0,062516

1

1. Existence d’un modèle théorique

0,254

1 0,0625

16

1

13

2. Probabilités conditionnelles

Groupes sanguins et facteur rhésus

Choix d’une personne au hasard dans la population

P(O) = 0,4142

P(R) = 0,8672 P(O R) = 0,3566

Probabilité de R+ sachant O : 0,4142

0,3566

OP

ROPROP

OPROPROP

Propriété : La probabilité sachant O est une nouvelle probabilité sur le même univers.

O A B AB Total

R 3566 3968 753 384 8672

R– 576 578 110 64 1328

Total 4142 4546 863 449 10 000

Conséquence :

Fiches Euler : 326 - 436

14

fréquences

O A B AB Total

R 0,3566 0,3968 0,0753 0,0385 0,8672

R– 0,0576 0,0578 0,011 0,0064 0,1328

Total 0,4142 0,4546 0,0863 0,0449 1

O A B AB Total

fRH+(...) 0,411

0,458

0,087

0,044

1

fRH–(...)0,43

40,43

50,08

30,04

81

fO(...) fA(...) fB(...) fAB(...)

RH+ 0,861 0,873 0,873 0,857

RH– 0,139 0,127 0,127 0,143

Total 1 1 1 1

Fréquences conjointes et fréquences marginales

Fréquences conditionnelles, selon le groupe sanguin

Fréquences conditionnelles, selon le facteur rhésus

3. Indépendance

f RH+ (O) f (O) f O (RH+) f (RH+)

15

Deux événements A et B, tels que P(A) 0 et P(B) 0 sont indépendants si et seulement si PB(A) = P(A).

La réalisation de B ne modifie pas la valeur de la probabilité de A.

Soit deux événements A et B, tels que P(A) 0 et P(B) 0.

APBP

BAPAPABP

BPAPBAPAPABP

AP

BAPBPBPAPBAP

BPBAPAPABP

Deux événements A et B, tels que P(A) 0 et P(B) 0 sont indépendants si et seulement si P (AB) =

P(A)P(B).

Définition de l’indépendance

Fiche Euler : 446

16

B : « la famille compte exactement deux filles »

A : « l’ainé est une fille »

8

3BAP

8

7CAP

BPBAP

CPCAP

2

1AP

16

11CP

8

3BP

Nombre de filles dans une famille de 4 enfants

Les événements A et B sont indépendants.

Les événements A et C ne sont pas indépendants

C : « la famille compte au moins deux filles »

17

Arbre de probabilité

Deux tirages successifs dans une urne contenant 3 boules blanches et deux boules noires.

5

3

5

2

2

1

4

3

4

1

1er cas : Tirages sans remise 2B121 BPBPBBP

1

N1

B2

B1

B2

N2

N2

5

30,6BP

BNPBBPBP

2

21212

0,32

1

5

3BBP 21

2

1

18

5

3

5

2

2ème cas : Tirages avec remise

N1

B2

B1

B2

N2

N2

0,6BNPBBPBP 21212

Tirages indépendants

0,65

3BP 2

1B

5

3

5

3

5

2

5

2

Deux tirages successifs dans une urne contenant 3 boules blanches et deux boules noires.

19

On dispose d’un test de dépistage pour une maladie qui peut affecter les individus d’une certaine population.

Application : Test de dépistage

Événements :

M : « être malade »

T + : « présenter un test positif »

T – : « présenter un test négatif »

MaladesNon

MaladesTotal

Test PositifVrais

PositifsFaux

Positifs

Test Négatif

Faux Négatifs

Vrais Négatifs

Total

20

Étalonnage : données statistiques et définition d’un modèle

Comment interpréter le résultat d’un test qui aurait été pratiqué sur un individu appartenant à la population considérée ?

Quelle est la probabilité, sachant que le test est positif, d’être malade ?

Utilisation du test et calcul de probabilités

Prévalence : p = P(M)

Quelle est la probabilité, sachant que le test est négatif, de n’être pas malade ?

TPMSensibilité :

Valeur Prédictive Positive :

Valeur Prédictive négative :

Spécificité : TPM

MPT

MPT

21

Un exemple

Prévalence : p = P(M)

Sensibilité :

Spécificité : TPS Mp

Valeur Prédictive Positive :

Valeur Prédictive Négative :

MPT

MPT

TP

TMPMTPVPP

ppe

e

SSS

SVPP

p

p

ppe

pp

SSS

SSVPN

p

p

p VPP(p) est croissantep VPN(p) est décroissante

TPMeS

p

1 p

eS

eS1

pS

pS1

M

M

T

T

T

T

pe

e

S1 1S

SVPP

pp

p

22

Dépendance ou causalité

L’indépendance :

une propriété numérique du modèle probabiliste choisi.Lancer d’un dé à 6 faces.

Les faces 1 et 2 sont blanches, les faces 3, 4, 5 et 6 sont rougesA: « numéro pair » et B : « face blanche »

1er cas : modèle équiprobable

P(A) = , P(B) = , P(AB) = 2

1

31

61

2ième cas

p1 = p2 = p3 = p4 = p5 = 0,165 et p6 = 0,175

P(A) = 0,33 + 0,175 = 0,505

P(B) = 0,33 , P(AB) = 0,165

P(A)P(B) = 0,16665

P(AB) = P(A)P(B)

A et B sont indépendants

P(AB) P(A)P(B)

A et B ne sont pas indépendants

Recommended