Upload
arluin-bardin
View
123
Download
5
Embed Size (px)
Citation preview
Proportions mendéliennes
A A
A AA AA
A AA AAGènes autosomiquesGénotypes
100% AA
Lignée pure A : AA x AA
B B
B BB BB
B BB BBGènes autosomiquesGénotypes
100% BB
Lignée pure B : BB x BB
A A
B AB AB
B AB ABGènes autosomiquesGénotypes
100% AB
Croisement parental : AA x BB
A A
A AA AA
B AB ABGènes autosomiquesGénotypes
50% AA50% AB
Rétrocroisement de la F1 à A : AA x AB
B B
A AB AB
B BB BBGènes autosomiquesGénotypes
50% AB50% BB
Rétrocroisement de la F1 à B : BB x AB
A B
A AA AB
B AB BBGènes autosomiquesGénotypes
25% AA50% AB25% BB
Croisement des F1 : AB x AB
PHENOTYPE A dominant
A AA A
100% A
B BB B
100% B
A AA A
100% A
A AA A
100% A
A AB B
50% A50% B
A AA B
75% A25% B
Lignées pures A
A A
A AA AA
A AA AA
100% AA
Lignées pures B
B B
B BB BB
B BB BB
100% BB
Cst parental
A A
B AB AB
B AB AB
100% AB
Rétrocst F1 à A
A A
A AA AA
B AB AB
50% AA50% AB
Rétrocst F1 à B
B B
A AB AB
B BB BB
50% AB50% BB
Cst des F1
A B
A AA AB
B AB BB
25% AA50% AB25% BB
PHENOTYPE B dominant
A AA A
100% A
B BB B
100% B
B BB B
100% B 100% B
B BB B
A AB B
50% A50% B
A BB B
25% A75% B
PHENOTYPE A dominant
A AA A
100% A
B BB B
100% B
A AA A
100% A
A AA A
100% A
A AB B
50% A50% B
A AA B
75% A25% B
Lignées pures A
A A
A AA AA
A AA AA
100% AA
Lignées pures B
B B
B BB BB
B BB BB
100% BB
Cst parental
A A
B AB AB
B AB AB
100% AB
Rétrocst F1 à A
A A
A AA AA
B AB AB
50% AA50% AB
Rétrocst F1 à B
B B
A AB AB
B BB BB
50% AB50% BB
Cst des F1
A B
A AA AB
B AB BB
25% AA50% AB25% BB
PHENOTYPE en dominance intermédiaire
A AA A
100% A
B BB B
100% B
I II I
100% I 50% I50% B
I IB B
A AI I
50% A50% I
A II B
25% A50% I25% BPHENOTYPE létal récessif
A AA A
100% A
Impossibleles deux sexes
létaux
A AA A
100% A
A AA
100% A
Impossibleun sexe
létal
Impossibleun sexe
létal
PHENOTYPE létal dominant
A AA A
100% A
Impossibleles deux sexes
létaux
A AB B
50% A50% B
A BB
33% A66% B
Impossibleun sexe
létal
Impossibleun sexe
létal
Lignée pure A
A A
A AA AA
A A
100% AA 100% A
Lignée pure B
B B
B BB BB
B B
CST réciproques
A A
B AB AB
A A
100% AB 100% A
B B
A AB AB
B B
Rétrocroisements
A B
A AA AB
A B
A B
B AB BB
A B
Génotypes gènes liés à l ’X
100% BB 100% B
100% AB 100% B
50% AA 50% AB 50% A 50% B
50% AB 50% BB 50% A 50% B
PHENOTYPE A dominant
A AA A
100% A
B BB B
100% B
A AA A
100% A
A AB B
100% B
A AA B
50% A50% B
A BA B
50% A50% B
100% A 100% B 100% A 100% A 100% A
PHENOTYPE B dominant
A AA A
100% A
B BB B
100% B
B BA A
100% A
B BB B
100% B
A BA B
50% A50% B
B BA B
50% A50% B
100% A 100% B 100% B 100% B 100% B
Gènes liés à l ’Y
AB 100% B
100% A
Gènes cytoplasmiques
100% A
AA A
100% B
BB B
100% A
AB A
100% B
BA A
Analyse de la transmission familiale d ’un caractère monogénique (maladie)
Fréquence de ségrégation
• Phénotype (Y) : M(alade), N(ormal)
• 1 gène / 2allèles : A (morbide), B (normal)
Relation entre le Génotype et le Phénotype
Maladie récessive :1 enfant malade et en général 2 parents sains : intercross (ABxAB)
Maladie dominante : 1 enfant malade et en général 1 des parents malade : backcross (ABxBB)
Le modèle de transmission ne dépend que du seul paramètre « p » fréquence de ségrégation
p = P(Ye = M / Yp, Ym)
• Dans les couples dont on connaît la probabilité mendélienne p d ’observer un enfant malade, quelle est la probabilité d ’observer r enfants atteints dans une fratrie de s enfants ?: Loi Binomiale de paramètres p et s
s = 3, Pr : probabilité d ’avoir 0, 1, 2, 3 enfants atteints, maladie récessive donc p= 0,25
Fr F0 F1 F2 F3Pr P(r=0/s=3) P(r=1/s=3) P(r=2/s=3) P(r=3/s=3)
(1-p)3 3p(1-p)2 3p2(1-p) p3
p=0,25 0,4219 0,4219 0,1406 0,0156
P(r/s) =(sr )pr(1-p)s-r
• La fréquence de ségrégation n ’est pas connue. Elle peut être estimée à partir de la proportion observée du nombre des enfants atteints dans les fratries de s enfants :
• Soit un échantillon de 100 familles de 3 enfants
Fr F0 F1 F2 F3N 42 42 14 2
• Le nombre total d ’enfants S est de 300
• Le nombre observé des enfants malades est de : – R (0 x 42) + (1 x 42) + (2 x 14) + (3 x 2) = 76
• la valeur de p dans cet échantillon est R/S = 76/300 0,25
On montre dans ce cas que R/S est bien l ’estimateur du maximum de vraisemblance du paramètre p
Vraisemblance et information
• Le modèle ne dépend que du paramètre p• La vraisemblance d ’une hypothèse H sur la valeur de p (p=est la probabilité
des observations de n familles de s enfants sous cette hypothèse H.
• La vraisemblance L de H pour une famille Fi est donnée par la vraisemblance de connaissant Fi :
– L(/Fi) = P(Fi/) = (si) i(1- )s-i
• Pour un échantillon de plusieurs familles, la vraisemblance est le produit des vraisemblances de chaque famille soit pour n familles de s enfants :
– L(/Fn) = i L ( / Fi) i = 1,…,n
• Le logarithme de la vraisemblance ln L est
– ln L(/Fn)= i i ln+ i (s-i) ln(1-+ K = K + R ln + Oln(1-)
– ou K = i ln(si), R= ii, O=i(s-i)
– R et O sont le nombre d ’enfants malades et non malades, le nombre total d ’enfants étant S = R+O
La vraisemblance résume l ’information que contient l ’échantillon par rapport au modèle
Vraisemblance et information
• L ’estimation de p est obtenue par la méthode du maximum de vraisemblance
– soit max la valeur de pour laquelle la vraisemblance est maximale (max =
– la dérivée de la vraisemblance par rapport àest nulle
– lnL(Fn) = [R/] - [O/1-]
– lnL(Fn) = 0 quand R- (R + O) = 0
– soit max = R/(R + O)= R/S
R/S est l ’estimateur de vraisemblance de p. L ’inférence statistique consiste dons à estimer dans un échantillon defamilles et à tester si son estimation s ’écarte ou non des proportions mendéliennes attendues, sous l ’hypothèse d ’une transmission mendéliennede la maladie
Sélection des familles
• Sélection « représentative »
• Sélection non aléatoire à partir d ’un individu malade : 57,81 % des familles de 3 enfants
Fr F1 F2 F3Pr P(r=1/s=3) P(r=2/s=3) P(r=3/s=3)
p=0,25 0,4219 / 0,5781 0,1406 / 0,5781 0,0156/ 0,578172,98 % 24,32 % 2,7 %
• Dans un échantillon de n = 100 familles (S = 300) on trouve 73 familles F1, 24 familles F2 et, 3 familles F3
Fr F1 F2 F3N 73 24 3
• Le nombre des enfants atteints R (1 x 73) + (2 x 24) + (3 x 3) = 130
• R/S (estimateur de p) : = 130/300 0,43
L ’identification de ce biais de recrutement permet l ’introductiond ’une correction de recensement adaptée au critèred ’échantillonage. La vraisemblance génétique dépendant alorsde la méthode d ’échantillonage, l ’inférence statistique n ’est valideque si les hypothèses en du modèle d ’analyse sont vérifiées et en particulier celle du modèle d ’échantillonage
Correction du recensement des familles nucléaires
• Différentes méthodes (méthode de Morton, programme POINTER (Lalouel & yee 1981)
• Les proposants sont des parents
• La probabilité corrigée pour la sélection, est laprobabilité des enfants conditionnelle au phénotype des parents
– ce mode de sélection est appelé sélection complète
• Exemple : – Maladie supposée dominante d ’après la répartition familliale
• dans les familles, un des deux conjoints est malade et on examine TOUS les enfants
• L ’hypothèse de la trasmission dominante (H0: p=0,50) est testée :
2(1ddl) = (60-56)2/56 + (52-56)2/56 = 0,57• niveau de signification = 0,45
• Dans l ’échantillon, l ’estimation de la fréquence de ségrégation R/S= 52/112 = 0,46 qui n ’est pas significativement différente de 0,50.
• Ensélection complète, R/S est l ’estimateur sans biais du maximum de vraisemblance du paramètre p
Correction du recensement des familles nucléaires
• Les proposants sont des enfants– la sélection des familles se fait sans tenir compte du phénotype des parents,
– la famille analysée est constituée du proposant, de ses germains et de ses parents.
• La correction de la vraisemblance pour la sélection doit faire intervenir la probabilité de recenser un individu malade (la sélection est incomplète).
– La famille a d’autant plus de chances d ’être recrutée que le nombre des enfants atteints est élevé et, le biais est de surestimer dans les fratries la proportion des enfants atteints
• La correction est basée sur la connaissance de la probabilité de recruter un enfant malade dans la population étudiée
• Estimation de – A = nb de proposants dans l ’échantillon
– N = taille de la population
– I = prévalence de la maladie dans la population
• = A / I N
• Si I n ’est pas connu il faut inférer de l ’échantillon en se basant sur la structure des familles recrutées
• Sélection incomplète et probabilité de recensement– recensement d ’individus malades
– probabilité de recensement identique pour tous les malades• les recensements de plusieurs individus atteints de la même fratrie sont considérés comme
indépendants et possédant la même probabilité – la probabilité de détecter une fratrie est la même pour toutes les familles de même
structure
• L ’ensemble des observations pour chaque famille nucléaire est basé sur les constatations suivantes :
– s nombre d ’enfants de la fratrie
– r nombre d ’enfants atteints parmi les s de la fratrie
– a le nombre des proposants recrutés indépendamment les uns des autres
• P(a/r) = (ra) a (1 - )r-a
– a 1
– la classe a = 0 de probabilité (1- )r n ’existe pas donc (r
a) a (1 - )r-a
P(a/r) = ———————[1 - (1- )r]
• Sélection incomplète et probabilité d ’échantillonner une famille nucléaire– recensement si a 1 parmi r atteints de la fratrie
• P(a 1 /r) = 1 - (1 - )r
• La probabilité pour une famille de taille s d ’appartenir à l ’échantillon est
– P (a1/s,p,) = r P(r/s) P(a1/r) pour r = 0 à s
– P (a1/s,p,) = 1 - (1 - p)s
• La probabilité des phénotypes des enfants conditionnellement au recensement est
– la distribution des r enfants atteints parmi les s de la fratrie pondérée par la probabilité qu ’au moins un d ’entre eux soit un proposant divisée par la probabilité qu ’une famille de taille s fasse partie de l ’échantillon
– p est la probabilité qu ’un enfant soit atteint et recensé
– (1 - p )s est la probabilité qu ’aucun enfant de la famille ne soit atteint ni recensé
– 1 - (1 - p )s est la probabilité pour qu ’au moins un enfant de la famille soit atteint et recensé
P(r/s, a1) = P(r/s) P(a1/ r) / P (a 1/s, p, ) =
(sr)pr(1-p)s-r[1 - (1 - )r]
[1 - (1 - p)s]
• Cas particuliers de sélection incomplète
– 0 < <1 : sélection incomplète multiple (cas général) 0 : sélection unique
• un proposant par famille détectée
• la probabilité que la famille appartienne à l ’échantillon est directement proportionnelle au nombre des germains malades
= 1 : sélection tronquée• tous les enfants malades sont proposants et seules les familles sans enfants
atteints n ’appartiennent pas à l ’échantillon
• la probabilité de détection des familles est indépendante du nombre des enfants atteints
• En sélection incomplète R/S n ’est pas l ’estimateur du maximum de vraisemblance du paramètre p . La vraisemblance lnL(/Fn) n ’est pas maximale et l ’estimateur non biaisé est max
• en sélection unique p = (R-n)/(S-n)
• en sélection tronquée p = R[1 - (1- max)S]/S
Exemple d ’une maladie récessive (p = 0,25) et familles de 3 enfants sélectionnée par l’intermédiaire d ’un enfant malade
P(a1/s, p, ) = 1 - (1-p)3
= 1 = 0,5 = 0,0010,5781 0,3301 0,0007
PSr = probabilité de recenser une famille Fr
PCr = probabilité d ’une famille Fr dans l ’échantillon
• Soit un échantillon de n = 100 familles et R le nombre total observé des enfants malades : = R/S est un estimateur biaisé qui surestime la fréquence de ségrégation. L ’estimateur du maximum de vraisemblance de p qui prend en compte le recrutement max est l ’estimateur correct.
• Si = 1, max = [R/300]P(a1/s, p, )
• Si = 0, max = (R-100)/200
= 1, on cherche à tester si les fratries recensées démontrent un transmission compatible avec le modèle mendélien AR (p = 0,25 = hypothèse nulle H0)
• On recueille 44 familles selon la distribution suivante par taille de fratrie s et par nombre d ’enfants malades (Ns = nb de famille de s enfants, Rs nb total d ’enfants malades parmi s, Ms = nb d ’enfants non malades parmi s, S = nb total d ’enfants, Rs + Ms = 172.
• La distribution attendue sous H0 est en l ’absence de correction de recensement :
• RS= s
2= (43-63)2/43 + (129-109)2/129 = 12,40 [ = 0,0004]– On rejette l ’hypothèse de la transmission autosomique récessive, s est estimé à
63/172 = 0,366 ce qui est significativement >à 0,25.
• La distribution attendue sous H0 est en appliquant la correction de recensement d ’une sélection tronquée :
• RS= s/ 1 - (1 - )S
2= (64,1-63)2/64,1 + (107,9-109)2/107,9 = 0,0101 [ = 0,92]– On ne rejette l ’hypothèse de la transmission autosomique récessive
Modèle monogénique général
• La distribution du nombre des atteints dans les familles est spécifié par les paramètres précédents
• Le modèle est précisé par– la fréquence q de l ’allèle délétère A dans la population
– et par f, le vecteur des pénétrances
• Distribution des génotypes dans la population• mode de croisement des individus
• taux de mutation
• valeur sélective de certains génotypes
– Sous l ’hypothèse de panmixie les fréquences génotypiques P(Gi) diffèrent peu de la distribution donnée par la loi de Hardy-Weinberg pour un locus biallélique :
– P(Gi) = [q + (1-q)]2
• Distribution du phénotype conditionnellement au génotype, pénétrances
• Le phénotype Y est le caractère effectivement exprimé par l ’individu
• on associe à chaque génotype une probabilité d ’exprimer un certain phénotype
• dans le cas du trait malade/non-malade on parle de pénétrance f
• la probabilité pour qu ’un individu de génotype Gi soit malade est : – fi = P(Y = malade/Gi)
• la prévalence I d ’une maladie dans la population est reliée à la fréquence q et aux pénétrances par la relation :
– I = iP(Y=malade/Gi)P(Gi)
Distribution du phénotype conditionnellement au génotype
• Distribution des génotypes des enfants conditionnellement aux génotypes parentaux
– pour un locus diallélique le taux de transmission est de :
A,AA= 1 ; A,AB= 0,5 ; A,BB= 0
• à k allèles les paramètres sont– k-1 fréquence allèliques
– k(k+1)/2 pénétrances
• Vraisemblance du modèle pour une famille nucléaire– L ’individu est un parent :
• la probabilité de son phénotype est celle d ’un individu de la population à laquelle appartient cet individu, elle dépend de la probabilité de son génotype (PGi)et de la probabilité que ce génotype réalise le phénotype (P(Yi/Gi)
– L ’individu est un enfant : • la probabilité de son phénotype dépend du génotype de ses parents donc des taux de
transmission– si les génotypes parentaux sont connus la probabilité du phénotype de l ’enfant est simple à
décrire
– si les génotypes sont inconnus, la vraisemblance du modèle monogénique pour une famille nucléaire s ’écrit en fonction des paramètres : q ; fi avec pour un modèle biallèlique3 possibilité de génotype pour un des parents auquel sont associée les trois possibilités de génotype de l ’autre
Modèle monogénique général
P(Yp, Ym, Ye) = q2(1-fAA){q2(1- fAA) fAA(1- fAA)+2q(1-q)(1- fAB)(fAA/2+ fAB/2[(1- fAA)/2+(1- fAB)/2)]+(1-q2)