Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
FILOGENETYKA
Bioinformatyka, wykBioinformatyka, wykłład ad 8 8 ––
c.d.c.d. ((77.X.XIIII.20.20110)0)
Filogenetyka
Cel
–
rekonstrukcja historii ewolucji wszystkich organizmów.
Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań
cech morfologicznych i fizjologicznych
badanych organizmów.
•
zadaniem filogenetyki molekularnej
jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami
sekwencje przodka mutujsekwencje przodka mutująą w sekwencje potomkw sekwencje potomkóóww
podobne gatunki spodobne gatunki sąą genetycznie blisko spokrewnionegenetycznie blisko spokrewnione
••
podstawowe zapodstawowe załłoożżenia w filogenetyce molekularnej:enia w filogenetyce molekularnej:
•
wyrazem analiz filogenetycznych są drzewa filogenetyczne
Tree of life (Darwin)
eukarionty
archea
bakterie
Tree of life (dziś)
kręgowce grzyby
rośliny
Tree of life?
Biology Direct 2009, 4:33
Genome Biology 2006, 7:116
Taksony mono- i polifiletyczne
gatunek Agatunek A
gatunek Bgatunek B
gatunek Cgatunek C
gatunek Dgatunek D
gatunek Egatunek E
gagałąźłąź
wwęęzezełł
korzekorzeńń
przykładowe nieukorzenione drzewo filogenetyczne
przykładowe ukorzenione drzewo filogenetyczne
GaGałąźłąź
--
obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi.
DDłługougośćść
gagałęłęzi zi --
zazwyczaj reprezentuje liczbę
zmian, które się
zdarzyły w danej linii ewolucyjnej.
KorzeKorzeńń
--
wspólny przodek dla wszystkich taksonów.
ddłługougośćść
gagałęłęzizi
LiLiśćść
--
reprezentuje aktualnie analizowaną
jednostkę
taksonomiczną. WWęęzezełł
--
reprezentuje jednostkę
taksonomiczną
(populację, organizm, gen). Może przedstawiać
współcześnie istniejący takson, jak i jego przodka.
gatunek Agatunek A
gatunek Bgatunek B
gatunek Cgatunek C
wwęęzezełł
gagałąźłąź
ddłługougośćść
gagałęłęzizi
liliśćśćliliśćść
Mechanizmy ewolucji
-
Mutacje w genach. Mutacje są
rozprzestrzeniane w populacji
poprzez dryf genetyczny lub/i
selekcję
naturalną
-
Duplikacja i rekombinacja genów.
Etapy analizy filogenetycznej
Dobór i dopasowane sekwencji
Wybór modelu substytucji
Wybór metody oceny odległości ewolucyjnej
Konstrukcja drzewka
Ocena i analiza skonstruowanego drzewka
16S 16S rRNArRNA
Dopasowanie wielu sekwencji Dopasowanie wielu sekwencji ––MMultiple
sequence alignment (MSA)
E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGATh. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA
B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGAAncyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA
Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGAmatch ** *** * ** ** * **
Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA
Grupa sekwencji homologicznych
Dopasowanie wielu sekwencji
Silne podobieństwo
sekwencji?
Metoda maksymalnej parsymoni
-
MP
Rozpoznawalne podobieństwo
sekwencji?
Metody oparte na
odległościach (dystansowe)
Metoda maksymalnej wiarygodności
-ML
Sprawdzanie poprawności rekonstrukcji
taktak
nienie
taktak
nienie
Metody tworzenia drzewek filogenetycznych
Metoda maksymalnej Metoda maksymalnej parsymoniiparsymonii
--
MPMP
Drzewko filogenetyczne skonstruowane
metodą
MP
to takie, które wymaga
najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych
sekwencjach
Metoda Metoda MPMP
Seq1Seq1 AA A G A G A G A G TT G G CC AA
Seq2Seq2 AA G C C G G C C G TT G G CC GG
Seq3Seq3 AA G A T A G A T A TT C C CC AA
Seq4Seq4 AA G A G A G A G A TT C C CC GG
11 11 1122
22
22
33
33
3344 44 44
Miejsce „informatywne”
dla sekwencji nukleotydowych to takie, w którym obserwuje się
przynajmniej dwa różne nukleotydy i są
one
prezentowane przynajmniej w dwóch sekwencjach.
1 21 2
3 43 4
1 31 3
2 4 2 4
1 21 2
4 3 4 3
Position 2Position 2
Position 3Position 3
Position 4Position 4
Position 5Position 5
Position 7Position 7
Position 8Position 8
Seq1Seq1 AA A G A G A G A G TT G G CC AA
Seq2Seq2 AA G C C G G C C G TT G G CC GG
Seq3Seq3 AA G A T A G A T A TT C C CC AA
Seq4Seq4 AA G A G A G A G A TT C C CC GG
Sum Sum 11 11 10 10 1212
Position of Position of sequences on the sequences on the treetree
mutacja
Metoda maksymalnej wiarygodności –
Maksimum likelihood
(ML)
Drzewko filogenetyczne skonstruowane metodą
ML
to takie,
które z największym prawdopodobieństwem odtwarza obserwowane dane
Maximum
likelihood
method
(ML)1. Wyliczana jest wiarygodność
(prawdopodobieństwo -
L) dla każdego informatywnego
miejsca
2. Następnie sumowane są wszystkie wartości L dla
każdego możliwego drzewa
3. Porównywane są
ze sobą
wartości L dla
każdego możliwego drzewa i wybierane jest to, które ma najwyższą
wartość
L -
całościoweczyliWybierane jest to drzewo, które przy danym modelu najbardziej pasuje do analizowanych danych
Sekwencja 1: ACGCGTTGGG
Sekwencja 2: ACGCGTTGGG
Sekwencja 3: ACGCAATGAA
Sekwencja 4: AGACAGGGAA
1 2 3 4 T T A G
? ATGC ? ATGC
? ATGC
T T A G
T G
T
Rekonstrukcja drzewa metodRekonstrukcja drzewa metodąą MLML
Analizujemy kolumnę
Proponujemy układ drzewa
Proponujemy układ nukleotydów
Przydzielenie nukleotydów
Prawd = P(T) * P(T
G) * P(G A) = 0.25*10-6*10-6
Likelihood
konkretnej pozycji jest sumą
prawdopodobieństw wszystkich możliwych rekonstrukcji przodków dla wybranego modelu .
p–dystans
* * * * * * ** ** **Taxa i: AGGGCTGGTTCGGAGTCGTTAAG-GGAT--AAATaxa j: AAGG-TGGCTCTGAATTGTTCGG-GCTT-CGAA
123456789......................33Taxa a: AgggCTggTTCGgAGTCgTTAAg-ggAT--AAATaxa b: AAgg-TggCTCTgAATTgTTCgg-gCTT-CgAATaxa b: AAggCTgACTTTgAATTgTTCAgCgCTTACgAgTaxa b: AAgg-TTgCTCTgAACTgTTCggCgCTTACgAA
Długość
dopasowania: n = 33Całkowita liczba różnic: nd = 12
Dij
= = 0.3636...ndn
zaobserwowane
1233
=
1 2 3 41 -2 -3 -4 -
3/20 = 0,153/20 = 0,15 7/20 = 0,357/20 = 0,35 8/20 = 0,48/20 = 0,4
6/20 = 0,36/20 = 0,3 7/20 = 0,357/20 = 0,35
3/20 = 0,153/20 = 0,15
2020
11
22
33
44
a = 0,1a = 0,1
b = 0,05
b = 0,05
d = 0,1d = 0,1
c = 0,
05
c = 0,
05
e = 0,2e = 0,2
seksek..11
A A G G DD
A A E E R R G G K K K K L L F F E E S S R R A A A A Q Q CC
SS
AA
seksek..22
A A G G D D A A E E RR
GG
KK
KK
LL
FF
E E SS
S S A A A A RR
C C S S CC
seksek..33
A A G G D D A A NN
RR
GG
K K II
II
M EM E
S S R R AA
N N RR
CC
SS
CC
seksek..44
A A GG
N N A A NN
RR
GG
K K II
L ML M
EE
SS
R R SS
NN
RR
CC
SS
CC
Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął
od momentu gdy oba
gatunki miały wspólnego przodka.
Hipoteza zegara molekularnego (MC)Hipoteza zegara molekularnego (MC)Zaproponowana przez Zuckerkandla
i Paulinga
w
roku 1962.
Opiera się
na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej
jest w
przybliżeniu stałe.
•• momożżliwoliwośćść
wystwystąąpienia wielokrotnych podstawiepienia wielokrotnych podstawieńń
•• rewersjarewersja
••
rzadko obserwuje sirzadko obserwuje sięę
podstawienia mipodstawienia mięędzy adzy aminokwasami peminokwasami pełłniniąącymi cymi waważżne role w biane role w białłkach, jakkach, jak: : cysteinacysteina
(C)(C)
czy czy tryptofantryptofan
(W)(W)
••
czczęśęściej obserwuje siciej obserwuje sięę
podstawienia mipodstawienia mięędzy adzy aminokwasami podobnymi do minokwasami podobnymi do siebie, ze wzglsiebie, ze wzglęędu na swoje wdu na swoje włłaaśściwociwośści biochemiczne, ci biochemiczne, biofizyczne biofizyczne np.np.::
izoleucyna izoleucyna (I)(I) leucyna leucyna (L),(L),valinavalina (V)(V) izoleucyna izoleucyna (I),(I),kwas asparaginowy kwas asparaginowy (D)(D) kwas glutaminowy kwas glutaminowy ((E),E),
••
rzadko obserwuje sirzadko obserwuje sięę
podstawienia mipodstawienia mięędzy aminokwasami bardzo dzy aminokwasami bardzo rróóżżniniąącymi sicymi sięę
swoimi wswoimi włłasnoasnośściamiciami
tryptofan tryptofan (W)(W) izoleucyna izoleucyna (I)(I)
••
niektniektóóre aminokwasy, takie jak: re aminokwasy, takie jak: asparagina asparagina (N)(N), kwas asparaginowy , kwas asparaginowy (D)(D), , seryna seryna (S)(S)
mutujmutująą
czczęśęściej niciej niżż
inneinne
•• czczęśęściej obserwuje siciej obserwuje sięę
podstawienia typu podstawienia typu tranzycjitranzycji
niniżż
transwersjitranswersji
•• czczęśęściej obserwuje siciej obserwuje sięę
podstawienia w III pozycjach kodonpodstawienia w III pozycjach kodonóóww
•• tempo mutacji zaletempo mutacji zależży od regionu w genomie, genie, rodzaju genu, y od regionu w genomie, genie, rodzaju genu,
Protein Rate (mean replacements per siteper 10 9 years)
Fibrinopeptides 8.3Insulin C 2.4Ribonuclease 2.1Haemoglobins 1.0Cytochrome C 0.3Histone H4 0.01
przodek
rzeczywista liczba podstawierzeczywista liczba podstawieńń
zaobserwowana zaobserwowana liczba rliczba róóżżnicnic
MELSKLTGDPARQKELSMLWKLSKLTGDRAPFVYRVLKRL
MELSKLTGDPARQKELSMLMKLSKLTGDPAPFVYRVGKRL
MELSKTTGDPARQKELSMLMKLSKLTGDPAPFYYRVGKRL
MELSKTTGDPARRKELSMLMKLSKLTGDPAPFVYRVGKRL
MELSKTTGDPARRKELKMLMELSKLTGDPAPFVYRVLKRL
MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL
potomek
3 zmiany
3 zmiany
2 zmiany
2 zmiana
2 zmiany
= 12 zmian
2 zmiany w stosunku do przodka
5 zmian w stosunku do przodka
6 zmian w stosunku do przodka
4 zmian w stosunku do przodka
5 zmian w stosunku do przodka
czas ewolucjiczas ewolucji
rr óóżż n
ice
mi
nice
mi ęę
dzy
sekw
encj
ami
dzy
sekw
encj
ami
niedoszacowanieniedoszacowanie
tranzycje
i transwersje
Juckes-CantorK80
–
(Kimura)
TN93 –
rozróżnia tranzycje
i transwersje,
oraz typ tranzycji:
czy zaszła ona między purynami czy pirymidynami
TN93
(Tamura-Nei, 93)
Macierze Macierze substutucjisubstutucji
nukleotydnukleotydóóww
Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr ValA R N D C Q E G H I L K M F P S T W Y V
Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1Asn N 4 1 9822 36 0 4 6 6 21 3 1 13 0 1 2 20 9 1 4 1Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1Cys C 1 1 0 0 9973 0 0 0 1 1 0 0 0 0 1 5 1 0 3 2Gln Q 3 9 4 5 0 9876 27 1 23 1 3 6 4 0 6 2 2 0 0 1Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2Gly G 21 1 12 11 1 3 7 9935 1 0 1 2 1 1 3 21 3 0 0 5His H 1 8 18 3 1 20 1 0 9912 0 1 1 0 2 3 1 1 1 4 1Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15Lys K 2 37 25 6 0 12 7 2 2 4 1 9926 20 0 3 8 11 0 1 1Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 1 9926 12 4 0 0 2Ser S 28 11 34 7 11 4 6 16 2 2 1 7 4 3 17 9840 38 5 2 2Thr T 22 2 13 4 1 3 2 2 1 11 2 8 6 1 5 32 9871 0 2 9Trp W 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 9976 1 0Tyr T 1 0 3 0 3 0 1 0 4 1 1 0 0 21 0 1 1 2 9945 1Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 2 9901
Elementy pomnożone zostały przez 10 000
Percent
Accepted
Mutation
PAM1 -
M. M. DayhoffDayhoff
1978r.1978r.
element MIJ
tej macierzy reprezentuje prawdopodobieństwo z jakim aminokwas w kolumnie
j
zostanie podstawiony przez
aminokwas z wiersza
i
w czasie ewolucyjnym 1 PAM
element diagonalny Mii określa prawdopodobieństwo, że dany aminokwas nie ulegnie substytucji w tym czasie
JEDNOSTKA PAMJEDNOSTKA PAM
((PPercentercent
AAcceptedccepted
MMutationutation) ) ––
miara odlegmiara odległłoośści ewolucyjnej mici ewolucyjnej mięędzy sekwencjamidzy sekwencjami..
M. M. DayhoffDayhoff
i wspi wspóółłpracownicy pracownicy ––
1978r.1978r.
1 PAM1 PAM
––
odpowiada takiemu czasowi ewolucyjnemu, odpowiada takiemu czasowi ewolucyjnemu, podczas ktpodczas któórego, w porrego, w poróównywanych sekwencjach, wnywanych sekwencjach, zmianie ulegnie 1 aminokwas na 100 (ok. 1 zmianie ulegnie 1 aminokwas na 100 (ok. 1 mlnmln
lat)lat)
MELSKLTGDPAPFVYRVLKR ..... SKLTGDPAP ..... KVVFRISESPMIFKAYPLDI ..... MELSKLTGDPA ... REKELKMLMELSKLTGDPAPFVYRVLKRL ..... LDIVLSSLIHEREKELKML
MELSKLTDDPAPFVYRYLKR ..... SKLTQDPAP ..... KVVFRISRSPWIFKAVPLDI ..... MELSKTTGDPA ... REKELDMLMELSKLTGDPAPFVYRVFKRL ..... LDIVLSSLIHERRKELKML
1000 aminokwasów
10
zmienionych aminokwasów
Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1%
Ewolucyjna macierz PAMEwolucyjna macierz PAM
Macierz PAM Macierz PAM --
PercentPercent
AcceptedAccepted
MutationsMutations
((DayhoffDayhoff
i i wspwspóółłprpr. 1978). 1978)
Utworzona przez porUtworzona przez poróównanie blisko spokrewnionych sekwencji biawnanie blisko spokrewnionych sekwencji białłek (ponad ek (ponad 85% identyczno85% identycznośści) o znanych powici) o znanych powiąązaniach filogenetycznych; naliczenie 1572 zaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcjzmian zaakceptowanych (przez selekcjęę) w 71 grupach bia) w 71 grupach białłek.ek.
UwzglUwzglęędnia dnia mutabilnomutabilnośścici
poszczegposzczegóólnych aminokwaslnych aminokwasóóww
MWTMWTVVSALVSALVGGQQ
MWTMWTAASALVSALVGGQQ
MWTMWTVVSALVSALVLLQQ
MWTMWTVVSALVSALVGGQQ MWTMWTAASALVSALVGGQQ MWTMWTVVSALVSALVLLQQ
VV --> > AA GG --> > LL
Macierz PAM Macierz PAM ––
log log oddsodds
jejeżżelieli
log log oddsodds << 00::
dana substytucja zachodzi rzadziej nidana substytucja zachodzi rzadziej niżż
nalenależżaałło sio sięę
spodziewaspodziewaććjejeżżelieli
log log oddsodds >> 00::
dana substytucja zachodzi czdana substytucja zachodzi częśęściej niciej niżż
nalenależżaałło sio sięę
spodziewaspodziewaćć(np. +1 oznacza, (np. +1 oznacza, żże dana substytucja jest obserwowana 10 razy cze dana substytucja jest obserwowana 10 razy częśęściej niciej niżż
nalenależżaałło sio sięę
spodziewaspodziewaćć))jejeżżelieli
log log oddsodds == 00::
dana substytucja zachodzi z takdana substytucja zachodzi z takąą
samsamąą
czczęęstostośściciąą
jak w sekwencji jak w sekwencji losowejlosowej
Wyliczenie wartoWyliczenie wartośści log ci log oddsodds::
PPoo ––
obserwowana czobserwowana częęstotliwostotliwośćść
wystwystęępowania mutacji powania mutacji
PPee ––
oczekiwana czoczekiwana częęstotliwostotliwośćść
wystwystęępowania mutacji powania mutacji (losow(losowaa))
log log oddsodds = log (P= log (Po/o/PPee))
A R N D C Q E G H I L K M F P S T W Y VA R N D C Q E G H I L K M F P S T W Y V
A A 2 2
R R --2 6 2 6
N 0 0 2 N 0 0 2
D 0 D 0 --1 2 4 1 2 4
C C --2 2 --4 4 --4 4 --5 12 5 12
Q 0 1 1 2 Q 0 1 1 2 --5 4 5 4
E 0 E 0 --1 1 3 1 1 3 --5 2 4 5 2 4
G 1 G 1 --3 0 1 3 0 1 --3 3 --1 0 5 1 0 5
H H --1 2 2 1 1 2 2 1 --3 3 1 3 3 1 --2 6 2 6
I I --1 1 --2 2 --2 2 --2 2 --2 2 --2 2 --2 2 --3 3 --2 5 2 5
L L --2 2 --3 3 --3 3 --4 4 --6 6 --2 2 --3 3 --4 4 --2 2 62 2 6
K K --1 3 1 0 1 3 1 0 --5 1 0 5 1 0 --2 0 2 0 --2 2 --3 53 5
M M --1 0 1 0 --2 2 --3 3 --5 5 --1 1 --2 2 --3 3 --2 2 4 0 62 2 4 0 6
F F --4 4 --4 4 --4 4 --6 6 --4 4 --5 5 --5 5 --5 5 --2 1 2 2 1 2 --5 0 95 0 9
P 1 0 P 1 0 --1 1 --1 1 --3 0 3 0 --1 1 --1 0 1 0 --2 2 --3 3 --1 1 --2 2 --5 65 6
S 1 0 1 0 0 S 1 0 1 0 0 --1 0 1 1 0 1 --1 1 --1 1 --3 0 3 0 --2 2 --3 1 23 1 2
T 1 T 1 --1 0 0 1 0 0 --2 2 --1 0 0 1 0 0 --1 0 1 0 --2 0 2 0 --1 1 --3 0 1 3 3 0 1 3
W W --6 2 6 2 --4 4 --7 7 --8 8 --5 5 --7 7 --7 7 --3 3 --5 5 --2 2 --3 3 --4 0 4 0 --6 6 --2 2 --5 17 5 17
Y Y --3 3 --4 4 --2 2 --4 0 4 0 --4 4 --4 4 --5 0 5 0 --1 1 --1 1 --4 4 --2 7 2 7 --5 5 --3 3 --3 0 10 3 0 10
V 0 V 0 --2 2 --2 2 --2 2 --2 2 --2 2 --2 2 --1 1 --2 4 2 2 4 2 --2 2 2 2 --1 1 --1 1 --1 0 1 0 --66 --2 4 2 4
Rzadkie aminokwasy majRzadkie aminokwasy mająą
dudużże wagie wagi
PospolitePospolite
aminokwasy majaminokwasy mająą
mamałłe wagie wagi
Ujemne wartoUjemne wartośści dla rzadkich ci dla rzadkich podstawiepodstawieńń
Dodatnie wartoDodatnie wartośści dla czci dla częęstszych stszych podstawiepodstawieńń
Ewolucyjna macierz PAMEwolucyjna macierz PAM
Ekstrapolowanie czEkstrapolowanie częęstostośści ci podstawiepodstawieńń
zaobserwowanych na krzaobserwowanych na króótkich tkich dystansach na ddystansach na dłłuużższe dystansy ewolucyjne sze dystansy ewolucyjne ––
mnomnożżenie macierzy przez siebie enie macierzy przez siebie ––
uzyskanie serii tablic PAM:uzyskanie serii tablic PAM:
PAM1 PAM1 --> PAM60, PAM80, PAM120, > PAM60, PAM80, PAM120, PAM250PAM250PodobiePodobieńństwo: stwo: 99%99%
60%60%
50%50%
40%40%
20%20%
Liczba podstawieLiczba podstawieńń
na miejsce:na miejsce: 0.010.01
0.60.6
0.80.8
1.21.2
2.52.5