Upload
loyal
View
67
Download
0
Embed Size (px)
DESCRIPTION
Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 3. část. Petr Koutecký & Jiří Košnar, 2011. Fylogenetická analýza – konstrukce stromů. MrBayes. vlastní průběh analýzy: .nex alignment, např. na jeho konec vložíme definici substitučního modelu - PowerPoint PPT Presentation
Citation preview
Metody molekulární biologie v ekologii a systematice
rostlin
5. Sekvenování DNA – 3. část
Petr Koutecký & Jiří Košnar, 2011
MrBayes
vlastní průběh analýzy: .nex alignment, např. na jeho konec vložíme definici substitučního modelu
jiné než pro Paup! - např. pro GTR+G+INV:BEGIN MRBAYES;
Lset nst=6 rates=invgamma;END;
.nex nakopírujeme do složky s programem a otevřeme execute [název souboru.nex]
spustíme analýzu a zadáme počet generací - stovky tisíc až několik milionů, mcmc ngen=[hodnota], program (defaultně po každé 1000. generaci) vypíše hodnotu S.D.:
Fylogenetická analýza – konstrukce stromů
run 1 run 2
MrBayes
vlastní průběh analýzy: po uskutečnění zadaného počtu generací se zeptá, zda chceme pokračovat
přidáním dalších generací – rozhodneme se podle hodnoty S.D.
(<0.01 → ok, ukončíme hledání stromů: n; >0.01 → nutno přidat generace: y)
Fylogenetická analýza – konstrukce stromů
MrBayes
vlastní průběh analýzy: good mixing: řetězy daného runu se náhodně a ± často mění z hot
( na [ cold (předpoklad úspěšné analýzy)
Fylogenetická analýza – konstrukce stromů
run 1 run 2
MrBayes
Fylogenetická analýza – konstrukce stromů
sumarizace výsledků analýzy: chain swap: zda se navzájem přepínají hot a cold chains
◄ čísla nad diagonálami by se u obou běhů měla pohybovat v rozmezí ~0.1-0.7
MrBayes
sumarizace výsledků analýzy: vizualizace nárůstu likelihoodu stromů během runu: sump
Fylogenetická analýza – konstrukce stromů
◄ burn-in phase: začátek analýzy, velké rozdíly mezi runy = sampluje horší stromy s nižším likelihoodem
MrBayes
sumarizace výsledků analýzy: odstranění dat z burn-in phase: sump burnin=[hodnota]
Fylogenetická analýza – konstrukce stromů
jak určit hodnotu burn-in: např. vyhodit první ¼ samplovaných stromů, tj.: ngen/100/4 (100 = protože se nesampluje v každé generaci, ale jen v každé 100. generaci!)
má to logiku, protože S.D. program počítá právě s vyřazením první ¼ samplovaných stromů
ale údajně na to není konzistentní názor...
◄ likelihoody runu 1 a 2 by měly být srovnatelné = promíchané, bez zřetelného trendu
MrBayes
poté už jen vlastní sumarizace stromu: sumt burnin=[hodnota]
Fylogenetická analýza – konstrukce stromů
◄ fylogram s délkou větví
◄ kladogram s hodnotami podpory větví (CC)
strom uložen s koncovkou .con → stačí přepsat na .tre a dál zpracovat
MrBayes
nevýhody Bayesian Inference:
• výpočetně náročné – zejména pro velké datasety, nebo pro datasety se slabým signálem
• kritika použití substitučních modelů (viz ML)
• gapy možné použít jedině s binárním kódováním (0/1 = absent/present)
Fylogenetická analýza – konstrukce stromů
když je S.D. stále vysoké, může pomoci:
• přidání dalších generací
• pustit novou analýzu se změněnou teplotou cold chain mcmc ngen=[hodnota] temp=[hodnota]
• pustit novou analýzu a zvýšit celkový počet chains mcmc ngen=[hodnota] temp=[hodnota] nchains=[hodnota]
• celkově vzato to značí, že máme složitý dataset, nebo dataset s malou fylogenetickou informací...
Vizualizace fylogenetických stromů
Fylogenetická analýza – konstrukce stromů
programy: TreeView, Dendroscope aj. – pracují s .tre formátem na větve namapovat hodnoty BS, CC k sekvencím vždy připojit accession numbers z veřejné databáze
Fylogenetická analýza – konstrukce stromů
Obecné tipy pro interpretaci fylogenetických stromů• interpretovat radši jen topologie, které vycházejí stejně za použití
různých metod
• interpretovat radši jen statisticky podpořené topologie (BS, CC)
• topologie může být ovlivněná i rozsahem samplingu – snažit se o co největší sampling
• v případě jednotlivých podezřelých sekvencí radši daný vzorek znova sekvenovat - možnost záměny vzorků, nevěřit úplně ani sekvencím z databází!
• používat raději data z více úseků
strom jednoho úseku = gene tree
gene tree se nemusí stoprocentně shodovat se species tree!
(horizontální přenos, ancestrální polymorfizmus, nedostatečná informativnost)
Fylogenetická analýza – konstrukce stromů
Obecné tipy pro interpretaci fylogenetických stromů
• monofyletické skupiny
• evolučně mladý taxon (A) – může působit parafylii taxonu, ze kterého se recentně odštěpil (B) → paraphyletic speciation (na populační úrovni)
Fylogenetická analýza – konstrukce stromů
Obecné tipy pro interpretaci fylogenetických stromů
problémy s hybridy:
• recentní hybridi mohou mít oba rodičovské haplotypy jako paralogy (A + B)
• typická je inkongruence signálu v cpDNA a jaderné DNA
• zohlednit další data (morfologie apod.)
• nebo náhodně přepnou na haplotyp jednoho z rodičů → polyfyletické
haplotyp = informace z 1 vlákna DNA; v praxi se termín používá pro označení konkrétního sekvenčního typu, ~ genotyp
vhodné pro řešení vztahů na populační úrovni: na této úrovni nemusí být dostatečná variabilita sekvenčních dat,
umožňující jednoznačnou rekonstrukci fylogeneze v populaci se vyskytují ancestrální haplotypy haplotypy můžou být ovlivněné rekombinací
x fylogenetické stromy nepředpokládají ani neumožňují zohlednit!
program TCS http://darwin.uvigo.es/software/tcs.html
Haplotypové sítě
TCS haplotype network:
Maximum Parsimonystrict consensus tree
výsledkem je síť, ve které vzdálenosti mezi haplotypy odpovídají datům z matice distancí
Haplotypové sítě
spočítá matici distancí
TCS haplotype network: haplotypy propojí, pouze pokud tzv. pravděpodobnost parsimonie
přesáhne 95% (event. lze použít i nižší cut-off) → tj. v praxi nespojí příliš diverzifikované sekvence
velikost symbolů haplotypů = četnost daného haplotypu spoující čáry = jeden mutační krok nody = hypotetické missing haplotypes retikulace sítě = nejistoty parsimoniálních vztahů mezi
sekvencemi, tj. různé evoluční scénáře, nebo ovlivnění rekombinací
Haplotypové sítě
Těšitel J, Malinová T, Štech M & Herbstová M. 2009. Variation in the Melampyrum sylvaticum group in the Carpathian and Hercynian region: two lineages with different evolutionary histories. - Preslia 81: 1–22.
Haplotypové sítě
V Karpaty – potenciální refugium (větší diverzita haplotypů)
Hercynikum + Z Karpaty:nižší diverzitapostglaciální migrace z Alp?
Fylogeografie
Beatty GE & Provan J. 2011. Comparative phylogeography of two related plant species with overlapping ranges in Europe, and the potential effects of climate change on their intraspecific genetic diversity. – BMC Evolutionary Biology, 11: 29.
Haplotypové sítě
JV Evropa: potenciální refugium
směrem na sever klesá diverzita haplotypů
Fylogeografie
Haplotypové sítě
práce s TCS: pro analýzu použít všechny sekvence – nekolabovat do haplotypů!
pro stromové metody je naopak vhodné identické sekvence zkolabovat do haplotypů = daný sekvenční typ (haplotyp) použít v matici jen jednou (ostatní vymazat) - aby algoritmus hledání stromů nebyl zahlcen zbytečnými daty
.fas soubor převést na .phy – např. pomocí probramu Fabox
http://users-birc.au.dk/biopv/php/fabox/index.php
Haplotypové sítě
práce s TCS:
otevřeme dataspusíme analýzu