Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr

FILOGENETYKA

Bioinformatyka, wykBioinformatyka, wykłład ad 8 8 ––

c.d.c.d. ((77.X.XIIII.20.20110)0)

[email protected][email protected]

Filogenetyka

Cel

–

rekonstrukcja historii ewolucji wszystkich organizmów.

Klasyczne podejście: historia ewolucji jest odtwarzana na podstawie porównań

cech morfologicznych i fizjologicznych

badanych organizmów.

•

zadaniem filogenetyki molekularnej

jest zrekonstruowanie związków filogenetycznych między badanymi sekwencjami

sekwencje przodka mutujsekwencje przodka mutująą w sekwencje potomkw sekwencje potomkóóww

podobne gatunki spodobne gatunki sąą genetycznie blisko spokrewnionegenetycznie blisko spokrewnione

••

podstawowe zapodstawowe załłoożżenia w filogenetyce molekularnej:enia w filogenetyce molekularnej:

•

wyrazem analiz filogenetycznych są drzewa filogenetyczne

Tree of life (Darwin)

eukarionty

archea

bakterie

Tree of life (dziś)

kręgowce grzyby

rośliny

Tree of life?

Biology Direct 2009, 4:33

Genome Biology 2006, 7:116

Taksony mono- i polifiletyczne

gatunek Agatunek A

gatunek Bgatunek B

gatunek Cgatunek C

gatunek Dgatunek D

gatunek Egatunek E

gagałąźłąź

wwęęzezełł

korzekorzeńń

przykładowe nieukorzenione drzewo filogenetyczne

przykładowe ukorzenione drzewo filogenetyczne

GaGałąźłąź

--

obrazuje związki ewolucyjne między porównywanymi jednostkami taksonomicznymi.

DDłługougośćść

gagałęłęzi zi --

zazwyczaj reprezentuje liczbę

zmian, które się

zdarzyły w danej linii ewolucyjnej.

KorzeKorzeńń

--

wspólny przodek dla wszystkich taksonów.

ddłługougośćść

gagałęłęzizi

LiLiśćść

--

reprezentuje aktualnie analizowaną

jednostkę

taksonomiczną. WWęęzezełł

--

reprezentuje jednostkę

taksonomiczną

(populację, organizm, gen). Może przedstawiać

współcześnie istniejący takson, jak i jego przodka.

gatunek Agatunek A

gatunek Bgatunek B

gatunek Cgatunek C

wwęęzezełł

gagałąźłąź

ddłługougośćść

gagałęłęzizi

liliśćśćliliśćść

Mechanizmy ewolucji

-

Mutacje w genach. Mutacje są

rozprzestrzeniane w populacji

poprzez dryf genetyczny lub/i

selekcję

naturalną

-

Duplikacja i rekombinacja genów.

Etapy analizy filogenetycznej

Dobór i dopasowane sekwencji

Wybór modelu substytucji

Wybór metody oceny odległości ewolucyjnej

Konstrukcja drzewka

Ocena i analiza skonstruowanego drzewka

16S 16S rRNArRNA

Dopasowanie wielu sekwencji Dopasowanie wielu sekwencji ––MMultiple

sequence alignment (MSA)

E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGATh. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA

B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGAAncyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA

Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGAmatch ** *** * ** ** * **

Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA

Grupa sekwencji homologicznych

Dopasowanie wielu sekwencji

Silne podobieństwo

sekwencji?

Metoda maksymalnej parsymoni

-

MP

Rozpoznawalne podobieństwo

sekwencji?

Metody oparte na

odległościach (dystansowe)

Metoda maksymalnej wiarygodności

-ML

Sprawdzanie poprawności rekonstrukcji

taktak

nienie

taktak

nienie

Metody tworzenia drzewek filogenetycznych

Metoda maksymalnej Metoda maksymalnej parsymoniiparsymonii

--

MPMP

Drzewko filogenetyczne skonstruowane

metodą

MP

to takie, które wymaga

najmniejszej liczby zmian aby wyjaśnić obserwowane różnice w analizowanych

sekwencjach

Metoda Metoda MPMP

Seq1Seq1 AA A G A G A G A G TT G G CC AA

Seq2Seq2 AA G C C G G C C G TT G G CC GG

Seq3Seq3 AA G A T A G A T A TT C C CC AA

Seq4Seq4 AA G A G A G A G A TT C C CC GG

11 11 1122

22

22

33

33

3344 44 44

Miejsce „informatywne”

dla sekwencji nukleotydowych to takie, w którym obserwuje się

przynajmniej dwa różne nukleotydy i są

one

prezentowane przynajmniej w dwóch sekwencjach.

1 21 2

3 43 4

1 31 3

2 4 2 4

1 21 2

4 3 4 3

Position 2Position 2






Seq1Seq1 AA A G A G A G A G TT G G CC AA

Seq2Seq2 AA G C C G G C C G TT G G CC GG

Seq3Seq3 AA G A T A G A T A TT C C CC AA

Seq4Seq4 AA G A G A G A G A TT C C CC GG

Sum Sum 11 11 10 10 1212

Position of Position of sequences on the sequences on the treetree

mutacja

Metoda maksymalnej wiarygodności –

Maksimum likelihood

(ML)

Drzewko filogenetyczne skonstruowane metodą

ML

to takie,

które z największym prawdopodobieństwem odtwarza obserwowane dane

Maximum

likelihood

method

(ML)1. Wyliczana jest wiarygodność

(prawdopodobieństwo -

L) dla każdego informatywnego

miejsca

2. Następnie sumowane są wszystkie wartości L dla

każdego możliwego drzewa

3. Porównywane są

ze sobą

wartości L dla

każdego możliwego drzewa i wybierane jest to, które ma najwyższą

wartość

L -

całościoweczyliWybierane jest to drzewo, które przy danym modelu najbardziej pasuje do analizowanych danych

Sekwencja 1: ACGCGTTGGG

Sekwencja 2: ACGCGTTGGG

Sekwencja 3: ACGCAATGAA

Sekwencja 4: AGACAGGGAA

1 2 3 4 T T A G

? ATGC ? ATGC

? ATGC

T T A G

T G

T

Rekonstrukcja drzewa metodRekonstrukcja drzewa metodąą MLML

Analizujemy kolumnę

Proponujemy układ drzewa

Proponujemy układ nukleotydów

Przydzielenie nukleotydów

Prawd = P(T) * P(T

G) * P(G A) = 0.25*10-6*10-6

Likelihood

konkretnej pozycji jest sumą

prawdopodobieństw wszystkich możliwych rekonstrukcji przodków dla wybranego modelu .

p–dystans

* * * * * * ** ** **Taxa i: AGGGCTGGTTCGGAGTCGTTAAG-GGAT--AAATaxa j: AAGG-TGGCTCTGAATTGTTCGG-GCTT-CGAA

123456789......................33Taxa a: AgggCTggTTCGgAGTCgTTAAg-ggAT--AAATaxa b: AAgg-TggCTCTgAATTgTTCgg-gCTT-CgAATaxa b: AAggCTgACTTTgAATTgTTCAgCgCTTACgAgTaxa b: AAgg-TTgCTCTgAACTgTTCggCgCTTACgAA

Długość

dopasowania: n = 33Całkowita liczba różnic: nd = 12

Dij

= = 0.3636...ndn

zaobserwowane

1233

=

1 2 3 41 -2 -3 -4 -

3/20 = 0,153/20 = 0,15 7/20 = 0,357/20 = 0,35 8/20 = 0,48/20 = 0,4

6/20 = 0,36/20 = 0,3 7/20 = 0,357/20 = 0,35

3/20 = 0,153/20 = 0,15

2020

11

22

33

44

a = 0,1a = 0,1

b = 0,05

b = 0,05

d = 0,1d = 0,1

c = 0,

05

c = 0,

05

e = 0,2e = 0,2

seksek..11

A A G G DD

A A E E R R G G K K K K L L F F E E S S R R A A A A Q Q CC

SS

AA

seksek..22

A A G G D D A A E E RR

GG

KK

KK

LL

FF

E E SS

S S A A A A RR

C C S S CC

seksek..33

A A G G D D A A NN

RR

GG

K K II

II

M EM E

S S R R AA

N N RR

CC

SS

CC

seksek..44

A A GG

N N A A NN

RR

GG

K K II

L ML M

EE

SS

R R SS

NN

RR

CC

SS

CC

Czyli różnice między sekwencjami dwóch gatunków są proporcjonalne do czasu jaki upłynął

od momentu gdy oba

gatunki miały wspólnego przodka.

Hipoteza zegara molekularnego (MC)Hipoteza zegara molekularnego (MC)Zaproponowana przez Zuckerkandla

i Paulinga

w

roku 1962.

Opiera się

na założeniu, że tempo ewolucji (akumulacja mutacji) sekwencji nukleotydowej czy aminokwasowej

jest w

przybliżeniu stałe.

•• momożżliwoliwośćść

wystwystąąpienia wielokrotnych podstawiepienia wielokrotnych podstawieńń

•• rewersjarewersja

••

rzadko obserwuje sirzadko obserwuje sięę

podstawienia mipodstawienia mięędzy adzy aminokwasami peminokwasami pełłniniąącymi cymi waważżne role w biane role w białłkach, jakkach, jak: : cysteinacysteina

(C)(C)

czy czy tryptofantryptofan

(W)(W)

••

czczęśęściej obserwuje siciej obserwuje sięę

podstawienia mipodstawienia mięędzy adzy aminokwasami podobnymi do minokwasami podobnymi do siebie, ze wzglsiebie, ze wzglęędu na swoje wdu na swoje włłaaśściwociwośści biochemiczne, ci biochemiczne, biofizyczne biofizyczne np.np.::

izoleucyna izoleucyna (I)(I) leucyna leucyna (L),(L),valinavalina (V)(V) izoleucyna izoleucyna (I),(I),kwas asparaginowy kwas asparaginowy (D)(D) kwas glutaminowy kwas glutaminowy ((E),E),

••

rzadko obserwuje sirzadko obserwuje sięę

podstawienia mipodstawienia mięędzy aminokwasami bardzo dzy aminokwasami bardzo rróóżżniniąącymi sicymi sięę

swoimi wswoimi włłasnoasnośściamiciami

tryptofan tryptofan (W)(W) izoleucyna izoleucyna (I)(I)

••

niektniektóóre aminokwasy, takie jak: re aminokwasy, takie jak: asparagina asparagina (N)(N), kwas asparaginowy , kwas asparaginowy (D)(D), , seryna seryna (S)(S)

mutujmutująą

czczęśęściej niciej niżż

inneinne

•• czczęśęściej obserwuje siciej obserwuje sięę

podstawienia typu podstawienia typu tranzycjitranzycji

niniżż

transwersjitranswersji

•• czczęśęściej obserwuje siciej obserwuje sięę

podstawienia w III pozycjach kodonpodstawienia w III pozycjach kodonóóww

•• tempo mutacji zaletempo mutacji zależży od regionu w genomie, genie, rodzaju genu, y od regionu w genomie, genie, rodzaju genu,

Protein Rate (mean replacements per siteper 10 9 years)

Fibrinopeptides 8.3Insulin C 2.4Ribonuclease 2.1Haemoglobins 1.0Cytochrome C 0.3Histone H4 0.01

przodek

rzeczywista liczba podstawierzeczywista liczba podstawieńń

zaobserwowana zaobserwowana liczba rliczba róóżżnicnic

MELSKLTGDPARQKELSMLWKLSKLTGDRAPFVYRVLKRL

MELSKLTGDPARQKELSMLMKLSKLTGDPAPFVYRVGKRL

MELSKTTGDPARQKELSMLMKLSKLTGDPAPFYYRVGKRL

MELSKTTGDPARRKELSMLMKLSKLTGDPAPFVYRVGKRL

MELSKTTGDPARRKELKMLMELSKLTGDPAPFVYRVLKRL

MELSKLTGDPAREKELKMLMELSKLTGDPAPFVYRVLKRL

potomek

3 zmiany

3 zmiany

2 zmiany

2 zmiana

2 zmiany

= 12 zmian

2 zmiany w stosunku do przodka

5 zmian w stosunku do przodka




czas ewolucjiczas ewolucji

rr óóżż n

ice

mi

nice

mi ęę

dzy

sekw

encj

ami

dzy

sekw

encj

ami

niedoszacowanieniedoszacowanie

tranzycje

i transwersje

Juckes-CantorK80

–

(Kimura)

TN93 –

rozróżnia tranzycje

i transwersje,

oraz typ tranzycji:

czy zaszła ona między purynami czy pirymidynami

TN93

(Tamura-Nei, 93)

Macierze Macierze substutucjisubstutucji

nukleotydnukleotydóóww

Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr ValA R N D C Q E G H I L K M F P S T W Y V

Ala A 9867 2 9 10 3 8 17 21 2 6 4 2 6 2 22 35 32 0 2 18Arg R 1 9913 1 0 1 10 0 0 10 3 1 19 4 1 4 6 1 8 0 1Asn N 4 1 9822 36 0 4 6 6 21 3 1 13 0 1 2 20 9 1 4 1Asp D 6 0 42 9859 0 6 53 6 4 1 0 3 0 0 1 5 3 0 0 1Cys C 1 1 0 0 9973 0 0 0 1 1 0 0 0 0 1 5 1 0 3 2Gln Q 3 9 4 5 0 9876 27 1 23 1 3 6 4 0 6 2 2 0 0 1Glu E 10 0 7 56 0 35 9865 4 2 3 1 4 1 0 3 4 2 0 1 2Gly G 21 1 12 11 1 3 7 9935 1 0 1 2 1 1 3 21 3 0 0 5His H 1 8 18 3 1 20 1 0 9912 0 1 1 0 2 3 1 1 1 4 1Ile I 2 2 3 1 2 1 2 0 0 9872 9 2 12 7 0 1 7 0 1 33Leu L 3 1 3 0 0 6 1 1 4 22 9947 2 45 13 3 1 3 4 2 15Lys K 2 37 25 6 0 12 7 2 2 4 1 9926 20 0 3 8 11 0 1 1Met M 1 1 0 0 0 2 0 0 0 5 8 4 9874 1 0 1 2 0 0 4Phe F 1 1 1 0 0 0 0 1 2 8 6 0 4 9946 0 2 1 3 28 0Pro P 13 5 2 1 1 8 3 2 5 1 2 2 1 1 9926 12 4 0 0 2Ser S 28 11 34 7 11 4 6 16 2 2 1 7 4 3 17 9840 38 5 2 2Thr T 22 2 13 4 1 3 2 2 1 11 2 8 6 1 5 32 9871 0 2 9Trp W 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 9976 1 0Tyr T 1 0 3 0 3 0 1 0 4 1 1 0 0 21 0 1 1 2 9945 1Val V 13 2 1 1 3 2 2 3 3 57 11 1 17 1 3 2 10 0 2 9901

Elementy pomnożone zostały przez 10 000

Percent

Accepted

Mutation

PAM1 -

M. M. DayhoffDayhoff

1978r.1978r.

element MIJ

tej macierzy reprezentuje prawdopodobieństwo z jakim aminokwas w kolumnie

j

zostanie podstawiony przez

aminokwas z wiersza

i

w czasie ewolucyjnym 1 PAM

element diagonalny Mii określa prawdopodobieństwo, że dany aminokwas nie ulegnie substytucji w tym czasie

JEDNOSTKA PAMJEDNOSTKA PAM

((PPercentercent

AAcceptedccepted

MMutationutation) ) ––

miara odlegmiara odległłoośści ewolucyjnej mici ewolucyjnej mięędzy sekwencjamidzy sekwencjami..

M. M. DayhoffDayhoff

i wspi wspóółłpracownicy pracownicy ––

1978r.1978r.

1 PAM1 PAM

––

odpowiada takiemu czasowi ewolucyjnemu, odpowiada takiemu czasowi ewolucyjnemu, podczas ktpodczas któórego, w porrego, w poróównywanych sekwencjach, wnywanych sekwencjach, zmianie ulegnie 1 aminokwas na 100 (ok. 1 zmianie ulegnie 1 aminokwas na 100 (ok. 1 mlnmln

lat)lat)

MELSKLTGDPAPFVYRVLKR ..... SKLTGDPAP ..... KVVFRISESPMIFKAYPLDI ..... MELSKLTGDPA ... REKELKMLMELSKLTGDPAPFVYRVLKRL ..... LDIVLSSLIHEREKELKML

MELSKLTDDPAPFVYRYLKR ..... SKLTQDPAP ..... KVVFRISRSPWIFKAVPLDI ..... MELSKTTGDPA ... REKELDMLMELSKLTGDPAPFVYRVFKRL ..... LDIVLSSLIHERRKELKML

1000 aminokwasów

10

zmienionych aminokwasów

Zmianie uległo 10/1000 = 1/100 aminokwasów, czyli 1%

Ewolucyjna macierz PAMEwolucyjna macierz PAM

Macierz PAM Macierz PAM --

PercentPercent

AcceptedAccepted

MutationsMutations

((DayhoffDayhoff

i i wspwspóółłprpr. 1978). 1978)

Utworzona przez porUtworzona przez poróównanie blisko spokrewnionych sekwencji biawnanie blisko spokrewnionych sekwencji białłek (ponad ek (ponad 85% identyczno85% identycznośści) o znanych powici) o znanych powiąązaniach filogenetycznych; naliczenie 1572 zaniach filogenetycznych; naliczenie 1572 zmian zaakceptowanych (przez selekcjzmian zaakceptowanych (przez selekcjęę) w 71 grupach bia) w 71 grupach białłek.ek.

UwzglUwzglęędnia dnia mutabilnomutabilnośścici

poszczegposzczegóólnych aminokwaslnych aminokwasóóww

MWTMWTVVSALVSALVGGQQ

MWTMWTAASALVSALVGGQQ

MWTMWTVVSALVSALVLLQQ

MWTMWTVVSALVSALVGGQQ MWTMWTAASALVSALVGGQQ MWTMWTVVSALVSALVLLQQ

VV --> > AA GG --> > LL

Macierz PAM Macierz PAM ––

log log oddsodds

jejeżżelieli

log log oddsodds << 00::

dana substytucja zachodzi rzadziej nidana substytucja zachodzi rzadziej niżż

nalenależżaałło sio sięę

spodziewaspodziewaććjejeżżelieli

log log oddsodds >> 00::

dana substytucja zachodzi czdana substytucja zachodzi częśęściej niciej niżż


spodziewaspodziewaćć(np. +1 oznacza, (np. +1 oznacza, żże dana substytucja jest obserwowana 10 razy cze dana substytucja jest obserwowana 10 razy częśęściej niciej niżż


spodziewaspodziewaćć))jejeżżelieli

log log oddsodds == 00::

dana substytucja zachodzi z takdana substytucja zachodzi z takąą

samsamąą

czczęęstostośściciąą

jak w sekwencji jak w sekwencji losowejlosowej

Wyliczenie wartoWyliczenie wartośści log ci log oddsodds::

PPoo ––

obserwowana czobserwowana częęstotliwostotliwośćść

wystwystęępowania mutacji powania mutacji

PPee ––

oczekiwana czoczekiwana częęstotliwostotliwośćść

wystwystęępowania mutacji powania mutacji (losow(losowaa))

log log oddsodds = log (P= log (Po/o/PPee))

A R N D C Q E G H I L K M F P S T W Y VA R N D C Q E G H I L K M F P S T W Y V

A A 2 2

R R --2 6 2 6

N 0 0 2 N 0 0 2

D 0 D 0 --1 2 4 1 2 4

C C --2 2 --4 4 --4 4 --5 12 5 12

Q 0 1 1 2 Q 0 1 1 2 --5 4 5 4

E 0 E 0 --1 1 3 1 1 3 --5 2 4 5 2 4

G 1 G 1 --3 0 1 3 0 1 --3 3 --1 0 5 1 0 5

H H --1 2 2 1 1 2 2 1 --3 3 1 3 3 1 --2 6 2 6

I I --1 1 --2 2 --2 2 --2 2 --2 2 --2 2 --2 2 --3 3 --2 5 2 5

L L --2 2 --3 3 --3 3 --4 4 --6 6 --2 2 --3 3 --4 4 --2 2 62 2 6

K K --1 3 1 0 1 3 1 0 --5 1 0 5 1 0 --2 0 2 0 --2 2 --3 53 5

M M --1 0 1 0 --2 2 --3 3 --5 5 --1 1 --2 2 --3 3 --2 2 4 0 62 2 4 0 6

F F --4 4 --4 4 --4 4 --6 6 --4 4 --5 5 --5 5 --5 5 --2 1 2 2 1 2 --5 0 95 0 9

P 1 0 P 1 0 --1 1 --1 1 --3 0 3 0 --1 1 --1 0 1 0 --2 2 --3 3 --1 1 --2 2 --5 65 6

S 1 0 1 0 0 S 1 0 1 0 0 --1 0 1 1 0 1 --1 1 --1 1 --3 0 3 0 --2 2 --3 1 23 1 2

T 1 T 1 --1 0 0 1 0 0 --2 2 --1 0 0 1 0 0 --1 0 1 0 --2 0 2 0 --1 1 --3 0 1 3 3 0 1 3

W W --6 2 6 2 --4 4 --7 7 --8 8 --5 5 --7 7 --7 7 --3 3 --5 5 --2 2 --3 3 --4 0 4 0 --6 6 --2 2 --5 17 5 17

Y Y --3 3 --4 4 --2 2 --4 0 4 0 --4 4 --4 4 --5 0 5 0 --1 1 --1 1 --4 4 --2 7 2 7 --5 5 --3 3 --3 0 10 3 0 10

V 0 V 0 --2 2 --2 2 --2 2 --2 2 --2 2 --2 2 --1 1 --2 4 2 2 4 2 --2 2 2 2 --1 1 --1 1 --1 0 1 0 --66 --2 4 2 4

Rzadkie aminokwasy majRzadkie aminokwasy mająą

dudużże wagie wagi

PospolitePospolite

aminokwasy majaminokwasy mająą

mamałłe wagie wagi

Ujemne wartoUjemne wartośści dla rzadkich ci dla rzadkich podstawiepodstawieńń

Dodatnie wartoDodatnie wartośści dla czci dla częęstszych stszych podstawiepodstawieńń

Ewolucyjna macierz PAMEwolucyjna macierz PAM

Ekstrapolowanie czEkstrapolowanie częęstostośści ci podstawiepodstawieńń

zaobserwowanych na krzaobserwowanych na króótkich tkich dystansach na ddystansach na dłłuużższe dystansy ewolucyjne sze dystansy ewolucyjne ––

mnomnożżenie macierzy przez siebie enie macierzy przez siebie ––

uzyskanie serii tablic PAM:uzyskanie serii tablic PAM:

PAM1 PAM1 --> PAM60, PAM80, PAM120, > PAM60, PAM80, PAM120, PAM250PAM250PodobiePodobieńństwo: stwo: 99%99%

60%60%

50%50%

40%40%

20%20%

Liczba podstawieLiczba podstawieńń

na miejsce:na miejsce: 0.010.01

0.60.6

0.80.8

1.21.2

2.52.5

Documents

Prezentacja programu PowerPoint - SGGWagrobiol.sggw.waw.pl › biometria › media › › pawlowski › ... · Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr