Author
nan
View
38
Download
0
Embed Size (px)
DESCRIPTION
Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data Petr Koutecký & Jiří Košnar, 2011. Dominantní data. recesivní alela (bez projevu) + dominantní alela(y) nelze rozlišit heterozygoty pro recesivní alelu typicky bialelická data ve formátu 0 / 1 proužky na gelu - PowerPoint PPT Presentation
1 / 19
Metody molekulární biologie v ekologii a systematice
rostlin
7. Dominantní data
Petr Koutecký & Jiří Košnar, 2011
2 / 19
Dominantní data
► recesivní alela (bez projevu) + dominantní alela(y)
► nelze rozlišit heterozygoty pro recesivní alelu
► typicky bialelická data ve formátu 0 / 1» proužky na gelu
AA proužek přítomen 1
Aa proužek přítomen 1
aa proužek nepřítomen 0
► výsledek „fingerprintingových“ metod» RAPD, ISSR, AFLP
» u složitějších pattern lze takto redukovat i kodominantní data (mikrosatelity, isozymy)
3 / 19
Charakteristiky lokusů
► Lokus = pozice na gelu = fragment určité délky► Polymorfní lokusy
» podíl = počet polymorních / počet všech» někdy počítán lokus jako polymorfní jen pokud f(1) < 95%» opakem jsou fixované lokusy f(1) > 95% nebo
vzácné lokusy f(1) < 5%
► Privátní (diagnostické) lokusy» přítomné pouze ve skupině / populaci / taxonu» nemusí být u všech jedinců
► Privátní fixované lokusy» privátní lokusy přítomné u všech jedinců dané skupiny
► Sdílené lokusy» s jinou skupinou / skupinami
4 / 19
Vnitropopulační variabilita
► Odhad frekvencí alel» pouze 2 alely, odhad založen na frekvenci recesivní alely a
předpokladu HW rovnováhy
p + q = 1 p2 + 2pq + q2 = 1
p = 1 – q
většinou vyřazovány lokusy s f(0) < 1 – 3/N
► Shanonův index
kde pi je frekvence proužku v lokusu i
► Gene diversity» očekávaná heterozygozita za předpokladu HW rovnováhy
kde pi je frekvence proužku v lokusu i
N / proužku absenceq
k
1i
2ie p1H
k
1iiiSH p ln *p-H
5 / 19
Koeficienty (ne)podobnosti
► pouze koeficienty neuvažující negativní shodu» vyšší pravděpodobnost nehomologie v případě absence PCR
produktu (proužku)
Jaccardův koeficient
(podobnost)(distance)
Dice coefficient (= Nei-Li coefficient)
(podobnost) (distance)
počet lokusů, kde:jedinec 2
prezence (1) absence (0)
jedinec 1
prezence (1) a babsence (0) c d
cbaa
J
cb2a2a
D
J1cba
cbJ'
D1D'
6 / 19
Koeficienty (ne)podobnosti
► výsledkem je matice (ne)podobností
► analýza různými metodami:» analýza hlavních koordinát (PCoA)
» shlukové analýzy (např. UPGMA)
» neighbour-joining (strom)
» neighbour-net (síť)
NJ tree, Hilpold et al. 2011PCoA, Jiménez et al. 2009
UPGMA, Ren et al. 2011
7 / 19
Neighbour-net
► Jeden z typů fylogenetických sítí► Obecně pro distanční matice,
ale nejčastěji AFLP data► síť zohledňuje nejistotu
v podobnosti / příbuznosti► každá „čára“ (edge) zobrazuje
rozdělení (split) dat na 2 sku-piny, rovnoběžné edges zobrazují tentýž split
► možné spojení se 2 různýmisousedy se projeví jako „box“
► není to fylogeneze, „interní“ bodynejsou hypotetičtí předci!
► délky odpovídají pův. distanci, poměr délek „síle“ konfliktních signálů
Bryant & Moulton 2004Huson & Bryant 2006obě v Molecular Biology and Evolution
Rusell et al. 2011Bot J. Linn. Soc.
8 / 19
Mantelův test
► testuje podobnost (korelaci) dvou matic
► typicky matice genetické a geografické vzdálenosti» prostorová autokorelace
► permutační test:» výpočet korelačního koeficientu pro odpovídající si pozice v
matici 1 a 2 („přes jedince“)» testová statistika RM
» permutace (náhodné zpřeházení) jedné z matic» výpočet nového korelačního koeficientu» to celé mnohokrát (≥ 1000×)» signifikance = podíl hodnot vyšších než původní výsledek, větš.
Bonferroniho korekce
9 / 19
Mantelův test
► často se počítá pro jednotlivé třídy vzdálenosti» detekovatelné meziregionální rozdíly apod.
Gabrielsen et al. 1997Saxifraga oppositifolia
Norsko+Svalbard, RAPD
černě – průkazně odlišné od 0bíle – není průkazně odlišné od 0
klesající podobnost s rostoucí vzdáleností
paradoxní negativní korelace: 3 regiony, kde 2 krajní si byly podobnější než krajní a střední
10 / 19
Moranovo I
► koeficient pro výpočet prostorové korelace» Mantel test – jednosměrná korelace (porovnání dvou distancí,
hodnoty distancí jsou jedna proměnná (vektor))
» Moran‘s I – bere v úvahu podobnost v ploše nebo dokonce v prostoru (matice)
• srovnává podobnost 2 bodů v dané proměnné, kterou váží váhou odvozenou z geografické pozice, suma přes všechny body
• I ~ -1 max. negativní autokorelace• I = -1/(n-1) náhodné rozmístění• I ~ +1 max. pozitivní autokorelace• …ale velmi různé aplikace = způsoby stanovování podobnosti i
vah
11 / 19
Moranovo I
► aplikace na genetická data» např. program SGS
• rozdělí vzdálenosti mezi vzorky do zadaného počtu stejně širokých intervalů
• genetická podobnost – přítomnost dané alely u kodominantních dat (homozygot = 1, heterozygot = 0.5, nemá = 0), resp. přítomnost daného multilokusového genotypu (haplotypu) u dominantních dat (přítomen = 1, jinak 0)
• váha – „po intervalech“, pokud vzorky padnou do stejného intervalu = 1, jinak = 0
• pro každý pár vzorků dosazení do vzorce (viz např. manuál k programu), výpočet korelace
• permutační test
12 / 19
AMOVA
► Analysis of Molecular Variance► metoda pro studium populační struktury► rozdělení variability na složky mezi jedinci, populacemi,
skupinami populací,… (analogie ANOVA)» matice vzdáleností mezi jedinci» a priori definovaná populační struktura (populace, skupiny
populací (regiony), příp. další úrovně)» výpočet variability (sum of squared deviations) pro jednotlivé
úrovně, přepočet na podíl na celkové variabilitě (variance components) se zohledněním d.f.
» výpočet ΦST (analogické k FST) srovnáním složek variability jednotlivých úrovní
» permutační testy
13 / 19
AMOVA
► program Arlequin
rozdělení variability na jednotlivé složky
fixační indexy (ΦST)
permutační testy
mezi populacemi celkemmezi populacemi ve skupině
mezi skupinami
14 / 19
Bayesian clustering
► hledání nejpravděpodobnějšího rozdělení jedinců do k skupin» distance-based approach
• vztahy mezi jedinci jsou popsány maticí vzdáleností• matici reprezentujeme nějakou vhodnou analytickou metodou (shluková
analýza, NJ strom nebo síť, PCoA…)• vymezení skupin ± subjektivní, obtížné / nemožné testovat
vs.
» model-based approach• jedinci jsou náhodným výběrem z nějakého základního souboru• základní soubor je statisticky popsatelný několika parametry (frekvence
alel, počet skupin,…)• odhadujeme tyto parametry a jim odpovídající pravděpodobnost daného
rozdělení jedinců do skupin• hledání nejpravděpodobnější varianty, statistické testování
15 / 19
Bayesian clustering
► hledání nejpravděpodobnějšího rozdělení jedinců do k skupin
► k není dopředu známo
► uvnitř skupin se předpokládá:» Hardy-Weinbergova rovnováha
» nezávislost lokusů (linkage equilibrium)
» v podstatě se hledá rozdělení do skupin tak, aby data ve výsledku co nejvíce splňovala tyto předpoklady
» … a aby jedinci uvnitř skupin si byli co nejpodobnější (takové řešení je nejpravděpodobnější)
16 / 19
Bayesian clustering
► několik programů» podobná základní logika, liší se matematické „detaily“
» STRUCTURE
» BAPS (Bayesian Analysis of Population Structure)
» další (např. Geneland, NewHybrids,…)
► několik modelů různé složitosti» každý jedinec geneticky náleží do právě jedné populace
» genotyp jedince může být směsí alel pocházejících z různých populací (admixture model)
» modely beroucí v úvahu geografický původ jedinců apod.
» modely beroucí v úvahu vazbu (linkage) mezi lokusy
17 / 19
Bayesian clustering
Typické výstupy
► počet skupin
► rozdělení jedinců to skupin
► podíl skupin v genotypu každého jedince
Variabilita druhu Vellozia gigantea, ISSR, STRUCTURE, Lousada et al. 2011
18 / 19
Software► populačně genetické programy – viz přednáška kodominantní data
(většinou umí pracovat i s dominantními)(PopGene, Genepop, TFPGA,…)
► GenAlEx (Genetic Analysis using Excel)http://www.anu.edu.au/BoZo/GenAlEx/sada maker v Excelu, většina populačně genetických analýz, Mantel test, matice vzdáleností, export do formátů jiných programů
► Arlequin http://cmpg.unibe.ch/software/arlequin3/populační genetika obecně, AMOVA, pairwaise-FST
► Hickory http://darwin.eeb.uconn.edu/hickory/hickory.htmlpravděpodobností (Bayes) odhad frekvencí alel a F-statistik
► AFLPdat http://www.nhm.uio.no/english/research/ncb/aflpdat/sada funkcí pro R (nikoliv R-package) – konverze 0/1 matice v .txt do různých formátů, DW index, gene diversity a pár dalších
► SplitsTree4 http://www.splitstree.org/fylogenetické sítě
19 / 19
Software► GSG (Spatial Genetics Software)
http://software.bfh-inst2.de/download3.htmlvýpočet prostorové statistiky (autokorelace apod.) z genetických dat
► SpaGeDi (Spatial Pattern Analysis of Genetic Diversity)http://ebe.ulb.ac.be/ebe/Software.html
► BAPS (Bayesian Analysis of Population Structure)http://web.abo.fi/fak/mnf/mate/jc/software/baps.htmlodhad populační struktury (Bayesian clustering)
► STRUCTURE http://pritch.bsd.uchicago.edu/structure.htmlodhad populační struktury (Bayesian clustering)» na stránce odkazy na software pro tvorbu grafických výstupů
► NewHybrids http://ib.berkeley.edu/labs/slatkin/eriq/software/software.htmodhad frekvencí alel a původu jedinců u předpokládané hybridizace (F1, F2, zpětní kříženci, …) na základě Bayesian clustering