19
1 / 19 Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data Petr Koutecký & Jiří Košnar, 2011

Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

  • Upload
    nan

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data Petr Koutecký & Jiří Košnar, 2011. Dominantní data. recesivní alela (bez projevu) + dominantní alela(y) nelze rozlišit heterozygoty pro recesivní alelu typicky bialelická data ve formátu 0 / 1 proužky na gelu - PowerPoint PPT Presentation

Citation preview

Page 1: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

1 / 19

Metody molekulární biologie v ekologii a systematice

rostlin

7. Dominantní data

Petr Koutecký & Jiří Košnar, 2011

Page 2: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

2 / 19

Dominantní data

► recesivní alela (bez projevu) + dominantní alela(y)

► nelze rozlišit heterozygoty pro recesivní alelu

► typicky bialelická data ve formátu 0 / 1» proužky na gelu

AA proužek přítomen 1

Aa proužek přítomen 1

aa proužek nepřítomen 0

► výsledek „fingerprintingových“ metod» RAPD, ISSR, AFLP

» u složitějších pattern lze takto redukovat i kodominantní data (mikrosatelity, isozymy)

Page 3: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

3 / 19

Charakteristiky lokusů

► Lokus = pozice na gelu = fragment určité délky► Polymorfní lokusy

» podíl = počet polymorních / počet všech» někdy počítán lokus jako polymorfní jen pokud f(1) < 95%» opakem jsou fixované lokusy f(1) > 95% nebo

vzácné lokusy f(1) < 5%

► Privátní (diagnostické) lokusy» přítomné pouze ve skupině / populaci / taxonu» nemusí být u všech jedinců

► Privátní fixované lokusy» privátní lokusy přítomné u všech jedinců dané skupiny

► Sdílené lokusy» s jinou skupinou / skupinami

Page 4: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

4 / 19

Vnitropopulační variabilita

► Odhad frekvencí alel» pouze 2 alely, odhad založen na frekvenci recesivní alely a

předpokladu HW rovnováhy

p + q = 1 p2 + 2pq + q2 = 1

p = 1 – q

většinou vyřazovány lokusy s f(0) < 1 – 3/N

► Shanonův index

kde pi je frekvence proužku v lokusu i

► Gene diversity» očekávaná heterozygozita za předpokladu HW rovnováhy

kde pi je frekvence proužku v lokusu i

N / proužku absenceq

k

1i

2ie p1H

k

1iiiSH p ln *p-H

Page 5: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

5 / 19

Koeficienty (ne)podobnosti

► pouze koeficienty neuvažující negativní shodu» vyšší pravděpodobnost nehomologie v případě absence PCR

produktu (proužku)

Jaccardův koeficient

(podobnost)(distance)

Dice coefficient (= Nei-Li coefficient)

(podobnost) (distance)

počet lokusů, kde:jedinec 2

prezence (1) absence (0)

jedinec 1

prezence (1) a babsence (0) c d

cbaa

J

cb2a2a

D

J1cba

cbJ'

D1D'

Page 6: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

6 / 19

Koeficienty (ne)podobnosti

► výsledkem je matice (ne)podobností

► analýza různými metodami:» analýza hlavních koordinát (PCoA)

» shlukové analýzy (např. UPGMA)

» neighbour-joining (strom)

» neighbour-net (síť)

NJ tree, Hilpold et al. 2011PCoA, Jiménez et al. 2009

UPGMA, Ren et al. 2011

Page 7: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

7 / 19

Neighbour-net

► Jeden z typů fylogenetických sítí► Obecně pro distanční matice,

ale nejčastěji AFLP data► síť zohledňuje nejistotu

v podobnosti / příbuznosti► každá „čára“ (edge) zobrazuje

rozdělení (split) dat na 2 sku-piny, rovnoběžné edges zobrazují tentýž split

► možné spojení se 2 různýmisousedy se projeví jako „box“

► není to fylogeneze, „interní“ bodynejsou hypotetičtí předci!

► délky odpovídají pův. distanci, poměr délek „síle“ konfliktních signálů

Bryant & Moulton 2004Huson & Bryant 2006obě v Molecular Biology and Evolution

Rusell et al. 2011Bot J. Linn. Soc.

Page 8: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

8 / 19

Mantelův test

► testuje podobnost (korelaci) dvou matic

► typicky matice genetické a geografické vzdálenosti» prostorová autokorelace

► permutační test:» výpočet korelačního koeficientu pro odpovídající si pozice v

matici 1 a 2 („přes jedince“)» testová statistika RM

» permutace (náhodné zpřeházení) jedné z matic» výpočet nového korelačního koeficientu» to celé mnohokrát (≥ 1000×)» signifikance = podíl hodnot vyšších než původní výsledek, větš.

Bonferroniho korekce

Page 9: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

9 / 19

Mantelův test

► často se počítá pro jednotlivé třídy vzdálenosti» detekovatelné meziregionální rozdíly apod.

Gabrielsen et al. 1997Saxifraga oppositifolia

Norsko+Svalbard, RAPD

černě – průkazně odlišné od 0bíle – není průkazně odlišné od 0

klesající podobnost s rostoucí vzdáleností

paradoxní negativní korelace: 3 regiony, kde 2 krajní si byly podobnější než krajní a střední

Page 10: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

10 / 19

Moranovo I

► koeficient pro výpočet prostorové korelace» Mantel test – jednosměrná korelace (porovnání dvou distancí,

hodnoty distancí jsou jedna proměnná (vektor))

» Moran‘s I – bere v úvahu podobnost v ploše nebo dokonce v prostoru (matice)

• srovnává podobnost 2 bodů v dané proměnné, kterou váží váhou odvozenou z geografické pozice, suma přes všechny body

• I ~ -1 max. negativní autokorelace• I = -1/(n-1) náhodné rozmístění• I ~ +1 max. pozitivní autokorelace• …ale velmi různé aplikace = způsoby stanovování podobnosti i

vah

Page 11: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

11 / 19

Moranovo I

► aplikace na genetická data» např. program SGS

• rozdělí vzdálenosti mezi vzorky do zadaného počtu stejně širokých intervalů

• genetická podobnost – přítomnost dané alely u kodominantních dat (homozygot = 1, heterozygot = 0.5, nemá = 0), resp. přítomnost daného multilokusového genotypu (haplotypu) u dominantních dat (přítomen = 1, jinak 0)

• váha – „po intervalech“, pokud vzorky padnou do stejného intervalu = 1, jinak = 0

• pro každý pár vzorků dosazení do vzorce (viz např. manuál k programu), výpočet korelace

• permutační test

Page 12: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

12 / 19

AMOVA

► Analysis of Molecular Variance► metoda pro studium populační struktury► rozdělení variability na složky mezi jedinci, populacemi,

skupinami populací,… (analogie ANOVA)» matice vzdáleností mezi jedinci» a priori definovaná populační struktura (populace, skupiny

populací (regiony), příp. další úrovně)» výpočet variability (sum of squared deviations) pro jednotlivé

úrovně, přepočet na podíl na celkové variabilitě (variance components) se zohledněním d.f.

» výpočet ΦST (analogické k FST) srovnáním složek variability jednotlivých úrovní

» permutační testy

Page 13: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

13 / 19

AMOVA

► program Arlequin

rozdělení variability na jednotlivé složky

fixační indexy (ΦST)

permutační testy

mezi populacemi celkemmezi populacemi ve skupině

mezi skupinami

Page 14: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

14 / 19

Bayesian clustering

► hledání nejpravděpodobnějšího rozdělení jedinců do k skupin» distance-based approach

• vztahy mezi jedinci jsou popsány maticí vzdáleností• matici reprezentujeme nějakou vhodnou analytickou metodou (shluková

analýza, NJ strom nebo síť, PCoA…)• vymezení skupin ± subjektivní, obtížné / nemožné testovat

vs.

» model-based approach• jedinci jsou náhodným výběrem z nějakého základního souboru• základní soubor je statisticky popsatelný několika parametry (frekvence

alel, počet skupin,…)• odhadujeme tyto parametry a jim odpovídající pravděpodobnost daného

rozdělení jedinců do skupin• hledání nejpravděpodobnější varianty, statistické testování

Page 15: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

15 / 19

Bayesian clustering

► hledání nejpravděpodobnějšího rozdělení jedinců do k skupin

► k není dopředu známo

► uvnitř skupin se předpokládá:» Hardy-Weinbergova rovnováha

» nezávislost lokusů (linkage equilibrium)

» v podstatě se hledá rozdělení do skupin tak, aby data ve výsledku co nejvíce splňovala tyto předpoklady

» … a aby jedinci uvnitř skupin si byli co nejpodobnější (takové řešení je nejpravděpodobnější)

Page 16: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

16 / 19

Bayesian clustering

► několik programů» podobná základní logika, liší se matematické „detaily“

» STRUCTURE

» BAPS (Bayesian Analysis of Population Structure)

» další (např. Geneland, NewHybrids,…)

► několik modelů různé složitosti» každý jedinec geneticky náleží do právě jedné populace

» genotyp jedince může být směsí alel pocházejících z různých populací (admixture model)

» modely beroucí v úvahu geografický původ jedinců apod.

» modely beroucí v úvahu vazbu (linkage) mezi lokusy

Page 17: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

17 / 19

Bayesian clustering

Typické výstupy

► počet skupin

► rozdělení jedinců to skupin

► podíl skupin v genotypu každého jedince

Variabilita druhu Vellozia gigantea, ISSR, STRUCTURE, Lousada et al. 2011

Page 18: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

18 / 19

Software► populačně genetické programy – viz přednáška kodominantní data

(většinou umí pracovat i s dominantními)(PopGene, Genepop, TFPGA,…)

► GenAlEx (Genetic Analysis using Excel)http://www.anu.edu.au/BoZo/GenAlEx/sada maker v Excelu, většina populačně genetických analýz, Mantel test, matice vzdáleností, export do formátů jiných programů

► Arlequin http://cmpg.unibe.ch/software/arlequin3/populační genetika obecně, AMOVA, pairwaise-FST

► Hickory http://darwin.eeb.uconn.edu/hickory/hickory.htmlpravděpodobností (Bayes) odhad frekvencí alel a F-statistik

► AFLPdat http://www.nhm.uio.no/english/research/ncb/aflpdat/sada funkcí pro R (nikoliv R-package) – konverze 0/1 matice v .txt do různých formátů, DW index, gene diversity a pár dalších

► SplitsTree4 http://www.splitstree.org/fylogenetické sítě

Page 19: Metody molekulární biologie v ekologii a systematice rostlin 7. Dominantní data

19 / 19

Software► GSG (Spatial Genetics Software)

http://software.bfh-inst2.de/download3.htmlvýpočet prostorové statistiky (autokorelace apod.) z genetických dat

► SpaGeDi (Spatial Pattern Analysis of Genetic Diversity)http://ebe.ulb.ac.be/ebe/Software.html

► BAPS (Bayesian Analysis of Population Structure)http://web.abo.fi/fak/mnf/mate/jc/software/baps.htmlodhad populační struktury (Bayesian clustering)

► STRUCTURE http://pritch.bsd.uchicago.edu/structure.htmlodhad populační struktury (Bayesian clustering)» na stránce odkazy na software pro tvorbu grafických výstupů

► NewHybrids http://ib.berkeley.edu/labs/slatkin/eriq/software/software.htmodhad frekvencí alel a původu jedinců u předpokládané hybridizace (F1, F2, zpětní kříženci, …) na základě Bayesian clustering