47
metóda typ dát tvorby DNA sekvencie stromov vzdialenosti (alebo iné znaky) zhlukovací UPGMA algoritmus neighbor-joining tree optimalizačné minimum parsimónia kritérium evolution tree maximum likelihood Bayesova analýza Metódy tvorby evolučných stromov

metóda t yp dát tvorby DNA sekvencie stromov vzdialenosti (alebo iné znaky)

  • Upload
    alyn

  • View
    61

  • Download
    0

Embed Size (px)

DESCRIPTION

Metódy tvorby evolučných stromov. metóda t yp dát tvorby DNA sekvencie stromov vzdialenosti (alebo iné znaky) zhlukovací UPGMA algoritmus neighbor-joining tree optimalizačné minimumparsimónia kritérium evolution treemaximum likelihood - PowerPoint PPT Presentation

Citation preview

Page 1: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

metóda typ dáttvorby DNA sekvenciestromov vzdialenosti (alebo iné znaky)

zhlukovací UPGMA algoritmus

neighbor-joining tree

optimalizačné minimum parsimóniakritérium evolution

tree maximum likelihood

Bayesova analýza

Metódy tvorby evolučných stromov

Page 2: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Vierohodnosť evolučného stromu (L) je pravdepodobnosť, že sa vyvinú pozorované sekvencie DNA pri danej topológii stromu a pri danom evolučnom modeli. Cieľom metódy najväčšej vierohodnosti je nájsť strom s čo najväčšou hodnotou L.Pri tejto metóde sa zostrojí východiskový strom parsimonickou metódou alebo metódou najbližšieho suseda a potom sa prehľadávajú blízke stromy a hľadá sa pravdepodobnejší strom než ten, ktorý máme k dispozícii.Je možné aj prehľadanie všetkých možných stromov ale to, podobne ako pri parsimonických stromoch je časove náročné a realistické lenpri menšom počte sekvencií.Metóda je časovo náročná.Chybný evolučný model môže viesť k chybným výsledkom.

Page 3: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

Modely zmeny (evolúcie) sekvencií DNA

Parametre, ktoré vplývajú na evolúciu sekvencií:

- frekvencie báz

- typy substitúcie (tranzície, tranzverzie)

- heterogenita rýchlosti substitúcií

Klasické substitučné modely:

Jukes-Cantor (1969)

Kimura 2 parameter (1980)

Felsenstein (1981)

Hasegawa, Kishino & Yano (1985)

General time-reversible model (Lavane et al. 1984)

Každý model vychádza z iných predpokladov

A

CT

G puríny

pyrimidíny

Page 4: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

Substitučné modely

JC – rovnaké rýchlosti substitúcie; rovnaké frekvencie báz

A

CT

G

a

aa

a

a

a

A

CT

G

a

aa

a

a

a

A

CT

G

a

aa

b

b

a

A

CT

G

a

aa

b

b

a

A

CT

G

d

ce

f

a

b

K2P – dve rôzne rýchlosti substitúcie; rovnaké frekvencie báz

F81 – rovnaké rýchlosti substitúcie;nerovnaké frekvencie báz

HKY – dve rôzne rýchlosti substitúcie; nerovnaké frekvencie báz

GTR – 6 rôznych rýchlostí substitúcie; nerovnaké frekvencie báz

Zvy

šujú

ci s

a p

oče

t p

aram

etro

v m

od

elu

ti

tv

Page 5: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

Funkcia gama distribúcie ( ) f(r) rýchlosti substitúcie na pozíciách sekvencie DNA

– parameter tvaru, 1 – funkcia má tvar L, 1 – funkcia má zvonovitý tvar

– parameter škály

rýchlosť substitúcií (r)

pro

po

rcia

po

zíc

ií f(r)

Yang, Z., 1996, TrendsEcol. Evol. 11: 367-372.

Page 6: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

Sekvencia W: A C G C G T T G G G Sekvencia X: A C G C G T T G G G Sekvencia Y: A C G C A A T G A A Sekvencia Z: A C A C A G G G A A

W X Y Z

strom 1

W Y X Z

strom 2

W Z X Y

strom 3

Niektoré z možných stromov

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 7: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

T T A G

strom 1

T A T G

strom 2

T G T A

strom 3

Sekvencia W: A C G C G T T G G G Sekvencia X: A C G C G T T G G G Sekvencia Y: A C G C A A T G A A Sekvencia Z: A C A C A G G G A A

Niektoré z možných stromov

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 8: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

T T A G

T T A G

GT

G

T T A G

CA

G

T T A G

AT

T

T T A G

AT

A

Niektoré z možných evolučných ciest k jednému zo stromov (rôzne topológie)

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 9: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

T T A GATGC

ATGC

ATGC

počet evol. ciest k jednému stromu / 1 pozícia:

(počet stavov)(počet uzlov)

= (počet stavov)(počet taxónov -1)

= 43 = 64

Možné evolučné cesty k jednému zo stromov

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 10: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

T T A G

GT

G

L = L(koreň/root) x L(konáre/branches)

Vierohodnosť (likelihood) jednej evolučnej cesty

závisí od konkrétneho modelu

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 11: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

T T A G

L(strom z jednej pozície) = L(všetky evolučné cesty k stromu z jednej pozície)

= L(strom 1) + L(strom 2) + L(strom 3) + … + L(strom 64)

- stromy rovnakej topológie čo do taxónov na koncoch vetiev ale s inými nukleotidmi v uzloch

Vierohodnosť (likelihood) jedného stromu z jednej pozície DNA sekvencie

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 12: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

W X Y Z

L(strom za celú sekvenciu)

= L(strom za určitú pozíciu)

Vierohodnosť (likelihood) jedného stromu z celej DNA sekvencie

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 13: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

ML analýza začína stromom vytvoreným napr. NJ a potom sa prehľadávajú blízke stromy a hľadajú sa tie, ktoré majú vyššiu vierohodnosť.

Pre väčšie dátové súbory heuristická analýza ML je počítačovo veľmi náročná, navyše podpora jednotlivých clades by mala byť overená metódou bootstrapu, čo násobí potrebný čas na analýzu.

Pokiaľ ML analýza nájde lokálne optimum, ešte to neznamená,že ide zároveň aj o globálne optimum v stromovom priestore.

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Page 14: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

- program na porovnanie log likelihood scores testovaných modelov, výber vhodného evolučného modelu pre daný dátový súbor- príručka: modeltest3.6.pdf

Posada D and Crandall KA 1998. Modeltest: testing the model of DNA substitution. Bioinformatics 14 (9): 817-818.

Posada D and Buckley TR. 2004. Model selection and model averaging in phylogenetics: advantages of the AIC and Bayesian approaches over likelihood ratio tests. Systematic Biology 53: 793-808

MODELTEST (http://darwin.uvigo.es/software/modeltest.html)

Metóda najväčšej vierohodnosti (maximum likelihood, ML)

ML analýza zahŕňa:- testovanie evolučných modelov pre daný dátový súbor, výpočet skóre (log likelihood scores) vzhľadom na model a dáta - PAUP- výber vhodného modelu na základe log likelihood scores podľa určitých testovacích

kritérií - MODELTEST- výpočet (hľadanie) najpravdepodobnejšieho stromu podľa vybraného modelu – PAUP

podrobné a jednoduché inštrukcie pre výpočet: http://www.rhizobia.co.nz/phylogenetics/modeltest.html

Page 15: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

MODELTESThttp://darwin.uvigo.es/software/modeltest.html

Page 16: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

modely sú vyjadrené parametrami: - frekvencia báz, - typy substitúcie a ich rýchlosti, - homogenita/heterogenita mutačných rýchlostí na rôznych pozíciách, - podiel invariabilnýchpozícií

rýchlosti mutácií a(A-C), b(A-G), c(A-T), d(C-G), e(C-T), f(G-T)

Page 17: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)
Page 18: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)
Page 19: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

1. nexus súbor s pridaným textovým blokom (príkazmi) na hodnotenie 56 evolučných modelova výpočet skóre (výpočet v PAUP-e)

Page 20: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

1. nexus súbor s pridaným textovým blokom (príkazmi) na hodnotenie 56 evolučných modelova výpočet skóre (výpočet v PAUP-e)

výpočet počiatočného stromu (NJ)

Page 21: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

1. nexus súbor s pridaným textovým blokom (príkazmi) na hodnotenie 56 evolučných modelova výpočet skóre (výpočet v PAUP-e)

výpočet log likelihood scores pre NJ strom vzhľadom na dáta a model

Page 22: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

Lscores 1... výpočet log likelihood scorepre NJ strom pre daný model, vyjadrený: nst...number of substitution types (1-6)base...frekvencia bázrates...heterogenita mutačnej rýchlosti na rôznych pozíciáchshape...alfa parameter funkcie gamma distribúciepinv...proporcia invariabilných pozícií

Page 23: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)
Page 24: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

2. načítanie nexus súboru v programe PAUP a výpočet skóre (log likelihood scores) pre jednotlivé modely

Page 25: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

2. výpočet likelihood skóre (log likelihood scores) pre jednotlivé modely -> model.scores

Page 26: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

2. výpočet likelihood skóre (log likelihood scores) pre jednotlivé modely -> model.scores

Page 27: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

2. model.scores

Page 28: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

3. načítanie súboru model.scores v programe MODELTEST vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií

Page 29: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

3. načítanie súboru model.scores v programe MODELTEST

-> výstup v súbore *.outfile

- definovanie cesty a adresára, kde je uložený spúšťací súbor Modeltest3.6.exe(cd – change directory)

- príkaz na spustenie programu MODELTEST a výpočet

Page 30: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

4. súbor *.outfileobsahuje vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií – AIC (Akaike information criterion), hLRT (hierarchical likelihood ratio test)

hLRT – vzájomné porovnávanie dvoch modelovAIC – simultánne porovnanievšetkých modelov

nie model s najvyšším skóre, ale s najoptimálnejším (t.j. ak pridanie parametrov, zvýšenie komplexity len nepatrne zvýši skóre, vyberá sa menej komplexný model)

niekedy navrhnú odlišné modely,

je na užívateľovi, ktorý si vyberie, preferované AIC

Page 31: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

4. súbor *.outfileobsahuje vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií – AIC, hLRT

Page 32: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)
Page 33: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

4. súbor *.outfile

špecifikované parametre vybraného modelu pre ML výpočet

lset...špecifikácia vybraného modeluBase...frekvencia báz A, C, G (T)Nst... počet typov substitúciíRmat... rýchlosti mutácií a(A-C), b(A-G), c(A-T), d(C-G), e(C-T), f(G-T)Rates...funkcia gama distribúcie (rýchlosť mutácií na nukleotidových pozíciách)Shape...parameter tvaru fumkciePinvar...proporcia invariabilných pozícií

Page 34: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

5. nexus súbor s pridanou špecifikáciou vybraného modelu a príkazmi na ML výpočet

Page 35: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

6. výpočet samotnej ML analýzy v programe PAUP

Page 36: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

6. výpočet samotnej ML analýzy v programe PAUP

Page 37: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

6. výpočet samotnej ML analýzy v programe PAUP

Page 38: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

MrMTgui

http://www.genedrift.org/mtgui.php

Page 39: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

http://www.bio.utexas.edu/faculty/antisense/garli/Garli.htmlhttp://www.nescent.org/informatics/download.php?software_id=4

Page 40: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

program TCShttp://darwin.uvigo.es/software/tcs.html

Clement M, Posada D and Crandall K. 2000. TCS: a computer program to estimate gene genealogies. Molecular Ecology 9(10): 1657-1660

tvorba siete haplotypov (cpDNA dáta)- štatistická parsimónia

Templeton, A.R., Crandall, K.A., Sing, C.F., 1992. A cladistic analysis of the phenotypic associations with haplotypes inferred from restriction endonuclease mapping and DNA sequence data. III. Cladogram estimation.

Genetics 132, 619–633Templeton, A.R., 1998. Nested clade analyses of phylogeographic data: testing hypotheses about gene flow and population history. Mol. Ecol. 7, 381–397.

Page 41: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

program TCS

Page 42: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

TCS

Connection limit: percentuálne 90-95%počet mutačných krokov

Gaps = missingGaps = 5th state

Page 43: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

TCS

Page 44: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

TCS

Page 45: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

TCS

Page 46: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

TCSuloženie siete haplotypov ako - *.gml súborako - *.ai súbor

Page 47: metóda t yp  dát tvorby  DNA sekvencie stromov vzdialenosti (alebo iné znaky)

TCSlog súbor: