20
Metody molekulární biologie v ekologii a systematice rostlin 5. Sekvenování DNA – 3. část Petr Koutecký & Jiří Košnar, 2011

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 3. část

  • Upload
    loyal

  • View
    67

  • Download
    0

Embed Size (px)

DESCRIPTION

Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 3. část. Petr Koutecký & Jiří Košnar, 2011. Fylogenetická analýza – konstrukce stromů. MrBayes. vlastní průběh analýzy: .nex alignment, např. na jeho konec vložíme definici substitučního modelu - PowerPoint PPT Presentation

Citation preview

Page 1: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Metody molekulární biologie v ekologii a systematice

rostlin

5. Sekvenování DNA – 3. část

Petr Koutecký & Jiří Košnar, 2011

Page 2: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

vlastní průběh analýzy: .nex alignment, např. na jeho konec vložíme definici substitučního modelu

jiné než pro Paup! - např. pro GTR+G+INV:BEGIN MRBAYES;

Lset nst=6 rates=invgamma;END;

.nex nakopírujeme do složky s programem a otevřeme execute [název souboru.nex]

spustíme analýzu a zadáme počet generací - stovky tisíc až několik milionů, mcmc ngen=[hodnota], program (defaultně po každé 1000. generaci) vypíše hodnotu S.D.:

Fylogenetická analýza – konstrukce stromů

run 1 run 2

Page 3: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

vlastní průběh analýzy: po uskutečnění zadaného počtu generací se zeptá, zda chceme pokračovat

přidáním dalších generací – rozhodneme se podle hodnoty S.D.

(<0.01 → ok, ukončíme hledání stromů: n; >0.01 → nutno přidat generace: y)

Fylogenetická analýza – konstrukce stromů

Page 4: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

vlastní průběh analýzy: good mixing: řetězy daného runu se náhodně a ± často mění z hot

( na [ cold (předpoklad úspěšné analýzy)

Fylogenetická analýza – konstrukce stromů

run 1 run 2

Page 5: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

Fylogenetická analýza – konstrukce stromů

sumarizace výsledků analýzy: chain swap: zda se navzájem přepínají hot a cold chains

◄ čísla nad diagonálami by se u obou běhů měla pohybovat v rozmezí ~0.1-0.7

Page 6: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

sumarizace výsledků analýzy: vizualizace nárůstu likelihoodu stromů během runu: sump

Fylogenetická analýza – konstrukce stromů

◄ burn-in phase: začátek analýzy, velké rozdíly mezi runy = sampluje horší stromy s nižším likelihoodem

Page 7: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

sumarizace výsledků analýzy: odstranění dat z burn-in phase: sump burnin=[hodnota]

Fylogenetická analýza – konstrukce stromů

jak určit hodnotu burn-in: např. vyhodit první ¼ samplovaných stromů, tj.: ngen/100/4 (100 = protože se nesampluje v každé generaci, ale jen v každé 100. generaci!)

má to logiku, protože S.D. program počítá právě s vyřazením první ¼ samplovaných stromů

ale údajně na to není konzistentní názor...

◄ likelihoody runu 1 a 2 by měly být srovnatelné = promíchané, bez zřetelného trendu

Page 8: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

poté už jen vlastní sumarizace stromu: sumt burnin=[hodnota]

Fylogenetická analýza – konstrukce stromů

◄ fylogram s délkou větví

◄ kladogram s hodnotami podpory větví (CC)

strom uložen s koncovkou .con → stačí přepsat na .tre a dál zpracovat

Page 9: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

MrBayes

nevýhody Bayesian Inference:

• výpočetně náročné – zejména pro velké datasety, nebo pro datasety se slabým signálem

• kritika použití substitučních modelů (viz ML)

• gapy možné použít jedině s binárním kódováním (0/1 = absent/present)

Fylogenetická analýza – konstrukce stromů

když je S.D. stále vysoké, může pomoci:

• přidání dalších generací

• pustit novou analýzu se změněnou teplotou cold chain mcmc ngen=[hodnota] temp=[hodnota]

• pustit novou analýzu a zvýšit celkový počet chains mcmc ngen=[hodnota] temp=[hodnota] nchains=[hodnota]

• celkově vzato to značí, že máme složitý dataset, nebo dataset s malou fylogenetickou informací...

Page 10: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Vizualizace fylogenetických stromů

Fylogenetická analýza – konstrukce stromů

programy: TreeView, Dendroscope aj. – pracují s .tre formátem na větve namapovat hodnoty BS, CC k sekvencím vždy připojit accession numbers z veřejné databáze

Page 11: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Fylogenetická analýza – konstrukce stromů

Obecné tipy pro interpretaci fylogenetických stromů• interpretovat radši jen topologie, které vycházejí stejně za použití

různých metod

• interpretovat radši jen statisticky podpořené topologie (BS, CC)

• topologie může být ovlivněná i rozsahem samplingu – snažit se o co největší sampling

• v případě jednotlivých podezřelých sekvencí radši daný vzorek znova sekvenovat - možnost záměny vzorků, nevěřit úplně ani sekvencím z databází!

• používat raději data z více úseků

strom jednoho úseku = gene tree

gene tree se nemusí stoprocentně shodovat se species tree!

(horizontální přenos, ancestrální polymorfizmus, nedostatečná informativnost)

Page 12: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Fylogenetická analýza – konstrukce stromů

Obecné tipy pro interpretaci fylogenetických stromů

• monofyletické skupiny

• evolučně mladý taxon (A) – může působit parafylii taxonu, ze kterého se recentně odštěpil (B) → paraphyletic speciation (na populační úrovni)

Page 13: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Fylogenetická analýza – konstrukce stromů

Obecné tipy pro interpretaci fylogenetických stromů

problémy s hybridy:

• recentní hybridi mohou mít oba rodičovské haplotypy jako paralogy (A + B)

• typická je inkongruence signálu v cpDNA a jaderné DNA

• zohlednit další data (morfologie apod.)

• nebo náhodně přepnou na haplotyp jednoho z rodičů → polyfyletické

Page 14: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

haplotyp = informace z 1 vlákna DNA; v praxi se termín používá pro označení konkrétního sekvenčního typu, ~ genotyp

vhodné pro řešení vztahů na populační úrovni: na této úrovni nemusí být dostatečná variabilita sekvenčních dat,

umožňující jednoznačnou rekonstrukci fylogeneze v populaci se vyskytují ancestrální haplotypy haplotypy můžou být ovlivněné rekombinací

x fylogenetické stromy nepředpokládají ani neumožňují zohlednit!

program TCS http://darwin.uvigo.es/software/tcs.html

Haplotypové sítě

Page 15: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

TCS haplotype network:

Maximum Parsimonystrict consensus tree

výsledkem je síť, ve které vzdálenosti mezi haplotypy odpovídají datům z matice distancí

Haplotypové sítě

spočítá matici distancí

Page 16: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

TCS haplotype network: haplotypy propojí, pouze pokud tzv. pravděpodobnost parsimonie

přesáhne 95% (event. lze použít i nižší cut-off) → tj. v praxi nespojí příliš diverzifikované sekvence

velikost symbolů haplotypů = četnost daného haplotypu spoující čáry = jeden mutační krok nody = hypotetické missing haplotypes retikulace sítě = nejistoty parsimoniálních vztahů mezi

sekvencemi, tj. různé evoluční scénáře, nebo ovlivnění rekombinací

Haplotypové sítě

Page 17: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Těšitel J, Malinová T, Štech M & Herbstová M. 2009. Variation in the Melampyrum sylvaticum group in the Carpathian and Hercynian region: two lineages with different evolutionary histories. - Preslia 81: 1–22.

Haplotypové sítě

V Karpaty – potenciální refugium (větší diverzita haplotypů)

Hercynikum + Z Karpaty:nižší diverzitapostglaciální migrace z Alp?

Fylogeografie

Page 18: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Beatty GE & Provan J. 2011. Comparative phylogeography of two related plant species with overlapping ranges in Europe, and the potential effects of climate change on their intraspecific genetic diversity. – BMC Evolutionary Biology, 11: 29.

Haplotypové sítě

JV Evropa: potenciální refugium

směrem na sever klesá diverzita haplotypů

Fylogeografie

Page 19: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Haplotypové sítě

práce s TCS: pro analýzu použít všechny sekvence – nekolabovat do haplotypů!

pro stromové metody je naopak vhodné identické sekvence zkolabovat do haplotypů = daný sekvenční typ (haplotyp) použít v matici jen jednou (ostatní vymazat) - aby algoritmus hledání stromů nebyl zahlcen zbytečnými daty

.fas soubor převést na .phy – např. pomocí probramu Fabox

http://users-birc.au.dk/biopv/php/fabox/index.php

Page 20: Metody molekulární biologie v ekologii a systematice rostlin 5 .  Sekvenování DNA – 3. část

Haplotypové sítě

práce s TCS:

otevřeme dataspusíme analýzu