Coalescence : principe et bases théoriques

Preview:

Citation preview

Coalescence : principe et bases theoriques

Simon Boitard

INRA, GenPhySE, Toulouse

M2 BBS, Atelier Genetique Statistique, 2017-2018

1 / 31

Genetique des populations

Reconstruction de l’histoire evolutive a une echelle de tempscourte (intra-espece) a partir de donnees genomiques.

2 / 31

Genetique des populations

Reconstruction de l’histoire evolutive a une echelle de tempscourte (intra-espece) a partir de donnees genomiques.

2 / 31

Genetique des populations

Reconstruction de l’histoire evolutive a une echelle de tempscourte (intra-espece) a partir de donnees genomiques.

2 / 31

Le coalescent

Modele mathematique permettant de decrire / simuler lagenealogie d’un echantillon de sequences d’ADN (ou individushaploıdes).

Outil pour comprendre l’influence du processus evolutif sur ladiversite genetique.

On remonte le temps au lieu de le descendre.

Article fondateur de Kingman en 1982, tres utilise depuis.

3 / 31

Modele de Wright-Fisher pour un locus sans recombinaison

4 / 31

Modele de Wright-Fisher pour un locus sans recombinaison

4 / 31

Modele de Wright-Fisher pour un locus sans recombinaison

4 / 31

Modele de Wright-Fisher pour un locus sans recombinaison

4 / 31

Modele de Wright-Fisher pour un locus sans recombinaison

4 / 31

Modele de Wright-Fisher pour un locus sans recombinaison

4 / 31

Genealogie et taille efficace

5 / 31

Genealogie et taille efficace

5 / 31

Plan du cours

1 Modele de base : une population de taille constante, un locussans recombinaison

2 Population de taille variable au cours du temps

3 Population structuree

4 Modele avec recombinaison

5 Conclusions

6 / 31

Plan du cours

1 Modele de base : une population de taille constante, un locussans recombinaison

2 Population de taille variable au cours du temps

3 Population structuree

4 Modele avec recombinaison

5 Conclusions

7 / 31

Temps de coalescence

Proba qu’il n’y ait pas de coalescence a une generation donnee

qN(n) =n−1∏i=1

(1− i

N) = 1− n(n − 1)

2N+ O(

1

N2)

TNn suit une loi geometrique

P(TNn > t) = (qN(n))t

Changement d’echelle τ = tN

P(TNn > Nτ) = (qN(n))Nτ ≈ (1− n(n − 1)

2N)Nτ → e−

n(n−1)2

τ

quand N → +∞.→ TN

n tend vers Tn, de loi exponentielle de parametre n(n−1)2 .

8 / 31

Evenements de coalescence

La proba que trois individus ou plus coalescent a la memegeneration est en O( 1

N2 )→ negligeable quand N → +∞.

En pratique, une coalescence consiste toujours a regrouperexactement deux lignees.

9 / 31

Esperance du TMRCA

TMRCA =n∑

k=2

Tk

E[TMRCA] =n∑

k=2

E[Tk ]

=n∑

k=2

2

k(k − 1)

= 2n∑

k=2

(1

k − 1− 1

k)

= 2(1− 1

n) ≈ 2

10 / 31

Mutations

Proba µ de mutation par site et par meiose.

M(t) nombre de mutations pour une branche de longueurt = Nτ et un locus de taille L.

E[M(t)] = µLNτ =θ

2Lτ

en posant θ = 2Nµ.

M(τ) loi de Poisson d’intensite θ2Lτ .

On peut choisir ensuite le modele qu’on veut pour decrire cequi se passe quand une mutation se produit.

11 / 31

Mutations

12 / 31

Mutations

12 / 31

Infinite site model

13 / 31

Simulation

1 Pour k allant de n a 2 :

1 Simuler une loi exponentielle Tk de parametre k(k−1)2 .

2 Choisir uniformement celui des k(k−1)2 couples d’haplotypes qui

coalesce.

2 Placer les mutations independamment sur chaque brancheselon un processus de Poisson d’intensite θ

2L.

Beaucoup plus rapide que de simuler la population en forward!

14 / 31

Population diploıde

N taille de la population, 2N alleles.

Remplacer N par 2N dans tout ce qui precede.

En particulier : unite de temps 2N generations, θ = 4Nµ.

15 / 31

Plan du cours

1 Modele de base : une population de taille constante, un locussans recombinaison

2 Population de taille variable au cours du temps

3 Population structuree

4 Modele avec recombinaison

5 Conclusions

16 / 31

Principe

La taille de la population change selon une fonctiondeterministe du temps :

Croissance exponentielle : N(t) = N0 ∗ e−αt , α > 0Decroissance exponentielle : N(t) = N0 ∗ eαt , α > 0Decroissance lineaire : N(t) = N0 + αt, α > 0Goulot d’etranglement (”bottleneck”) : N(t) = N0 si t < t∗,N1 si t ≥ t∗

La probabilite de coalescence depend de la taille de populationet donc varie au cours du temps.

L’unite de temps est τ = tN0

.

En un temps τ , on a a peu pres:

Tn(τ) ∼ N(τ)

N0exp(

n(n − 1)

2)

17 / 31

Simulation (approchee)

τ = 0

1 Pour k allant de n a 2 :

1 Simuler une loi exponentielle Tk de parametre k(k−1)2 .

2 Tk = Tk ∗ N(τ)N0

.3 τ = τ + Tk .4 Choisir uniformement celui des k(k−1)

2 couples d’haplotypes quicoalesce.

2 Placer les mutations independamment sur chaque brancheselon un processus de Poisson d’intensite θ

2L.

18 / 31

Application

Population croissante → temps de coalescence plus longs enbas de l’arbre → plus de frequences alleliques extremes.Population decroissante → temps de coalescence plus longs enhaut de l’arbre → plus de frequences alleliques intermediaires.

19 / 31

Plan du cours

1 Modele de base : une population de taille constante, un locussans recombinaison

2 Population de taille variable au cours du temps

3 Population structuree

4 Modele avec recombinaison

5 Conclusions

20 / 31

Principe

Pour chaque noeud de l’arbre, une etiquette indique sapopulation d’origine.

Coalescences intra population. Par ex, pour deux pops 1 et 2,2 evenements possibles : coalescence dans 1 et coalescencedans 2.

Taille relative des pops importante car determine la vitesse desevenements.

Si migrations entre populations avec une proba par generationen O( 1

N ), evenements ”migration de 1 vers 2” et ”migrationde 2 vers 1” possibles.

21 / 31

Exemple

22 / 31

Plan du cours

1 Modele de base : une population de taille constante, un locussans recombinaison

2 Population de taille variable au cours du temps

3 Population structuree

4 Modele avec recombinaison

5 Conclusions

23 / 31

Principe

Un haplotype cree par recombinaison n’a plus un seul maisdeux parents.

En remontant dans le temps, une branche peut donc se diviseren deux. Cela se produit avec une proba c par generation, ctaux de recombinaison entre les locus.

A l’echelle τ = tN , et en posant ρ = 2Nc , le temps au bout

duquel une branche se divise en deux suit une loi exponentiellede parametre ρ

2 .

La genealogie joite des deux locus est appellee ”AncestralRecombination Graph”. On peut en deduire les arbres decoalescence marginaux pour chacun des locus (qui sontcorreles).

24 / 31

Exemple

25 / 31

Simulation

k = n. Tant que k > 1 :

1 Simuler U, une loi exponentielle de parametre k(k−1)2 .

2 Simuler V , une loi exponentielle de parametre kρ2 .

3 Si U ≤ V , choisir au hasard celui des k(k−1)2 couples

d’haplotypes qui coalesce.Si U > V , choisir au hasard celle des k lignees qui se separe.

Remarque : le stade k = 1 finit toujours par etre atteint, mais celapeut etre long.

26 / 31

Plan du cours

1 Modele de base : une population de taille constante, un locussans recombinaison

2 Population de taille variable au cours du temps

3 Population structuree

4 Modele avec recombinaison

5 Conclusions

27 / 31

Le coalescent en genetique des populations

Modele theorique permettant de faire le lien entre des donneesgenetiques observees et des modeles demographiques.

Outil de simulation tres performant.

Logiciels de simulation : ms, msprime, scrm . . .

En pratique, tous les aspects du modeles (demographie,structure, recombinaison) sont melanges.

28 / 31

Quelques refs

Simon Tavare (2001), Ancestral inference in molecularbiology. Ecole de Probabilites de Saint-Flour.

Handbook of statistical genetics, Wiley. Chapitres 22.6, 25,26, 27.3.

29 / 31

Recommended