38
Classification naturelle = phylogénie

Classification naturelle = phylogénie

  • Upload
    raoul

  • View
    93

  • Download
    0

Embed Size (px)

DESCRIPTION

Classification naturelle = phylogénie. Quelques définitions. Arbre = réseau connexe non cyclique. noeud. branche. Réseau connexe non cyclique. Réseau connexe cyclique. Réseau non connexe non cyclique. Plusieurs graphismes pour les phylogénies. A. B. C. A. B. C. D. D. B. A. A. D. - PowerPoint PPT Presentation

Citation preview

Page 1: Classification naturelle = phylogénie

Classification naturelle = phylogénie

Page 2: Classification naturelle = phylogénie

Quelques définitions

Arbre = réseau connexe non cyclique

Réseau non connexe non

cyclique

Réseau connexe cyclique

Réseau connexe non cyclique

branche

noeud

Page 3: Classification naturelle = phylogénie

Plusieurs graphismes pour les phylogénies

ABC

DA B C D

BAD

C

A

B

C

D

A

B

C

D

A

B

C

D

Page 4: Classification naturelle = phylogénie

ARBRE NON RACINÉ et ARBRE RACINÉ

Oiseaux

Monotrèmes Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

1 2

3 4

Oiseaux

Monotrèmes

Marsupiaux

Placentaires5

1 4

2 35

Page 5: Classification naturelle = phylogénie

Racine et groupe extérieur

Oiseaux

Monotrèmes Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires1

1

Un groupe extérieur (outgroup) est presque toujours utilisé pour raciner les phylogénies

moléculaires

Page 6: Classification naturelle = phylogénie

AAAAAAAAAAA

CAAAAAAAAAA

1

CAGGAAAAAAA

2

CUAAAAAAAAA

1

AAAAAAAAAAC

1

AAAAGGCUAAC

4

AAAAAAAAUGC

2

Espèce 1 Espèce 2 Espèce 3 Espèce 4

Cas idéal

Espèce 1 CUAAAAAAAAAEspèce 2 CAGGAAAAAAAEspèce 3 AAAAAAAAUGCEspèce 4 AAAAGGCUAAC

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Page 7: Classification naturelle = phylogénie

Combien existe-t-il d’arbres ?

Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés

3 espèces : 1 arbre

A

CB

D

D D

4 espèces : 3 * 1 arbresA

B

C

D

A

C

B

D

A

D

B

CE

E

AB

C

DE

5 espèces : 5 * 3 * 1 arbres7 (2*6-5) branches

6 espèces : 7 * 5 * 3 * 1 arbres

Page 8: Classification naturelle = phylogénie

#espèces #arbres 4 3 5 15 6 105 7 945

10 2 106

20 8 1021

50 2.8 1074

135 2 10267

n (2n – 5) (2n – 7) … (3) (1)

Le nombre d’arbres possibles

Augmentation exponentielle du nombre d’arbres possibles :

problème NP-complet (Non-Polynomial)

Page 9: Classification naturelle = phylogénie

AAAAAAAAAAA

CAAAAAAAAAA

1

CAGGAAAAAAA

2

CUAAAAAAAAA

1

AAAAAAAAAAC

1

AAAAGGCUAAC

4

AAAAAAAAUGC

2

Espèce 1 Espèce 2 Espèce 3 Espèce 4

Arbre #1

Arbre #2

Arbre #3

1

2

3

4 4

1 2

34

1 2

3

Cas idéal

Espèce 1 CUAAAAAAAAAEspèce 2 CAGGAAAAAAAEspèce 3 AAAAAAAAUGCEspèce 4 AAAAGGCUAAC

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Page 10: Classification naturelle = phylogénie

Arbre #1

Arbre #2

Arbre #3

Site 2

1 A

2 U A 4

A 3A A

1 A U 2

3 A A 4

A A

1 A U 2

A 34 A

A A

1 changemen

t

1 changement

1 changement

Site 1

A 3

A 42 C

1 CAC

A 43 A

C 21 CA A

4 A A 3

C 21 CA A

1 changement

2 changements

2 changements

Site informatif : un site avec au moins deux nucléotides différents (états de caractère) présents au moins deux fois

L’information phylogénétique

Page 11: Classification naturelle = phylogénie

Arbre #1 :

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Choisir l’arbre nécessitant le plus petit nombre de substitutions (changements)

Principe du “rasoir d’Occam” : la meilleure explication des données est la plus simple, celle qui nécessite le plus petit

nombre d’hypothèses ad hoc

Le nombre total de changements évolutifs sur une phylogénie (longueur de l’arbre) is simplement la somme du nombre de changements à chaque site

L=1+1+1+1+1+1+1+1+1+1+1=11

Parcimonie maximale

Page 12: Classification naturelle = phylogénie

Cas idéalAAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAUGC AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Arbre #1

Arbre #2

Arbre #3

1

2

3

4 4

1 2

34

1 2

3

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

L=11 L=13 L=13

Sites informatifs

Page 13: Classification naturelle = phylogénie

Un peu de vocabulaireAAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAUGC AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Synapomorphie : Caractéristique nouvelle et distinctive partagée par un groupe d'organismes (C à la position 1)

Symplésiomorphie : similitude due au partage d’un état ancestral de caractère (A à la position 1)

Autapomorphie : état dérivé non partagé (U à la position 2)

Page 14: Classification naturelle = phylogénie

Une substitution multiple

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAAGU AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C

Page 15: Classification naturelle = phylogénie

Arbre #1

Arbre #2

Arbre #3

Site 2

1 A

2 A C 4

U 3A A

1 A A 2

3 U C 4

A A

1 A A 2

U 34 C

A A

2 changement

s

2 changement

s

2 changement

s

Trop d’information tue l’information

Les symplésiomorphies ne sont pas informatives (groupe paraphylétique)

Page 16: Classification naturelle = phylogénie

Arbre #1

Arbre #2

Arbre #3

1

2

3

4 4

1 2

34

1 2

3L=11 L=12 L=12

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAAGU AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C

Une substitution multiple

Page 17: Classification naturelle = phylogénie

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAGAAAAAGC AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-G-----GCEspèce 4 AA--GGCU--C

Arbre #1

Arbre #2

Arbre #31

2

3

4 4

1 2

34

1 2

3

L=11 L=13 L=12

1+1+1+2+1+1+1+1+0+1+1 2+1+1+1+1+1+1+1+0+1+2

Une substitution multiple : une convergence

Page 18: Classification naturelle = phylogénie

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-G-------Espèce 4 AA--GGCU--C

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAGAAAAAAA AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Arbre 1 Arbre 2 Arbre 31

2

3

4 4

1 2

34

1 2

3

L=10 L=11 L=10

Deux substitutions multiples : convergence et réversion

Page 19: Classification naturelle = phylogénie

Trois substitutions multiples

Espèce 1 CUAAAAAAAAAEspèce 2 GA-G-------Espèce 3 AA-G-------Espèce 4 AA--GGCU--C

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA GAAGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAGAAAAAAA AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Arbre 1 Arbre 2 Arbre 31

2

3

4 4

1 2

34

1 2

3

L=10 L=10 L=9

Page 20: Classification naturelle = phylogénie

Homoplasie

homoplasie : toute caractéristique présente chez deux espèces (ou plus) qui n'est pas présente chez leur ancêtre commun immédiat.

Arbre 1 Arbre 2 Arbre 31

2

3

4 4

1 2

34

1 2

3

L=10 L=10 L=9

Les substitutions multiples impliquent une sous-estimation de la longueur de l’arbre

Vrai nombre de substitutions : 11

Page 21: Classification naturelle = phylogénie

Mesure de l’homoplasie

Pour un site, IC = m/sm : nombre minimum de changements (= nombre d’états de caractères – 1)s : nombre de changements observés dans l’arbre le plus parcimonieux

Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969)

1 A2 C3 C4 C5 A6 T7 T8 T9 C

C

CA

CA

CT

TC

s = 49 C2 C3 C4 C6 T7 T8 T1 A 5 A

C

TA

CT

m = 2

IC = 0.5

Page 22: Classification naturelle = phylogénie

Mesure de l’homoplasie

Pour un arbre, IC = M/SM : nombre minimum de changements pour tous les sitesS : nombre total de changements dans l’arbre le plus parcimonieux

Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969)

Pour un site non informatif, m = s donc IC = 1

ICi = Mi/Si

Mi : nombre minimum de changements pour tous les sites informatifsSi : nombre total de changements dans l’arbre le plus parcimonieux pour les sites informatifs

Indice de Cohérence excluant les sites non informatifs ICi

Page 23: Classification naturelle = phylogénie

Algorithme récursif de Fitch

1) Passage de bas en haut :x et y les fils du noeud n et X, Y, N les ensembles de nucléotides correpondant à ces noeuds

sinon

Ø si

YX

YXYXN

C G A A C

C G A A C

{C,G}

C G A A C

{A,C}

{C,G}

C G A A C

{A,C}

{A}{C,G

}

C G A A C

{A,C}

{A}{C,G

}

{A,C,G}

Une substitution pour chaque

union

Page 24: Classification naturelle = phylogénie

Algorithme récursif de Fitch

2) Passage de haut en bas :a) Choix arbitraire d’un nucléotide à la racineb) On assigne au fils x du noeud n :

• a X si a N• n’importe quel nucléotide de X sinon

C G A A C

A

AC

C

C G A A C

A

AC

A

C G A A C

A

AG

G

Page 25: Classification naturelle = phylogénie

Agglomération progressive des espèces

Heuristiques de recherche de topologies

1. Insertion sur toutes les branches2. Calcul du nombre de changements3. Choix de l’arbre le plus

parcimonieuxNombre d’opérations : 3+5+7=15

(pour 105 arbres possibles)

Pour 10 espèces : 63 versus 2 millions

Page 26: Classification naturelle = phylogénie

Ordre d’agglomération des espèces

A

BC

D

E

A

B C

D

E

A

B C

D

AB

CF

D

FE

C

B

D

F E

C

B

D

F E

C

DF

EA

1. Ajouter les espèces de manière aléatoire2. Répéter l’opération un grand nombre de

fois3. Choisir l’arbre le plus parcimonieux

Page 27: Classification naturelle = phylogénie

Algorithme de réarrangements

Réarrangement local ou Nearest Neighbor Interchange (NNI)

YX

WZ

Subtree Pruning and Regrafting (SPR)

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6 4(n-3)(n-2) possibilités

WX

YZ

ZX

WY

2(n-3) possibilités

Page 28: Classification naturelle = phylogénie

Algorithme de réarrangements

Tree Bisection and Reconnection (TBR)

2

13 4

5

6

(2n1-3)(2n2-2) possibilités/coupure

2

13 4

5

6

1) Une branche est coupée

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6

2) Toutes les reconnexions

possibles sont testées

Etc.

Page 29: Classification naturelle = phylogénie

Algorithme exact du branch and bound

Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982

Page 30: Classification naturelle = phylogénie

Utilisation de contraintes a priori

G7

G10G6G8

G4G2

G9

G3

G11

G1

G5

11 espèces : 24 106

45 espèces : 5 1064

Page 31: Classification naturelle = phylogénie

Maximum de parcimonie

Deux étapes de minimisation :

1) Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement

2) Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements

Page 32: Classification naturelle = phylogénie

Robustesse des phylogénies : le test du bootstrap

1) Tirage avec remise de n positions parmi n positions

2) Construire l’arbre phylogénétique

3) Répéter 1) et 2) un grand nombre de fois (1000)

4) Analyser tous les arbres obtenus (en particulier via un arbre consensus)

Page 33: Classification naturelle = phylogénie

L’arbre de consensus majoritaire

1) On calcule la fréquence d’apparition des différents groupements d’espèces

E et F : 100%D, E et F : 93%A et B : 52%A et C : 48%C, E et F : 7%

2) Construire l’arbre consensus

B

AC D

E

F C

AD B

E

F B

AD C

E

FEtc.

B

A

C D

E

F52%

93%

100%

Page 34: Classification naturelle = phylogénie

Problèmes

• Très couteux en temps calcul

• Seuil de significativité (70%, 95%)

Robustesse des phylogénies : le test du bootstrap

Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions

Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0

(à chaque tirage, un tiers des positions ne sont pas considérés)

Le but du bootstrap est de “rejouer” l’évolution des sites. Il estime la robustesse d’un noeud pour un jeu de données et d’après une méthode de reconstruction

Page 35: Classification naturelle = phylogénie

Attraction des longues branches

A

DB

C

p

q q p<q2

A

DB

C

Si A est un groupe extérieur éloigné

A

D

BC

A

DBC

Felsenstein, 1978

Page 36: Classification naturelle = phylogénie

Inconsistence de l’inférence phylogénétique

Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux

quand il y a de plus en plus de données

ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré

est correct

Page 37: Classification naturelle = phylogénie

• (1-10-2) * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 0.98

• 10-2 * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 10-2

• etc.

A 1 0 1 0 1 0 B 1 0 0 1 0 1 C 0 1 1 0 0 1 D 0 1 0 1 1 0

10-2*10-6 10-6 10-2*10-2 10-6*10-6 10-2*10-6 10-6*10-2

A 0 1 0 0 0 B 0 0 1 0 0 C 0 0 0 1 0 D 0 0 0 0 1

0.98 10-2 10-6 10-2 10-6

~10-6 ~10-4 ~2*10-8

A

DB

C

10-

2

10-

2

10-

6

0

Attraction des longues branches

Page 38: Classification naturelle = phylogénie

Echantillonnage taxonomique

C

AA

C

A

C

AA

C

A

A

AA

C

Ajouter des espèces à l’analyse permet de mieux détecter les substitutions

multiples

Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des

longues branches

(Hendy et Penny, 1989)