View
46
Download
1
Category
Preview:
DESCRIPTION
Bioinformatika Predikce genů, Fylogenetická analýza. http://bio.img.cas.cz/P r fUK200 2. Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz. Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz. Predikce genů. - PowerPoint PPT Presentation
Citation preview
Jan PačesÚstav molekulární genetikyhpaces@img.cas.cz
Jiří VondrášekÚstav organické chemie a biochemievondrasek@uochb.cas.cz
BioinformatikaPredikce genů, Fylogenetická analýza
http://bio.img.cas.cz/PrfUK2002
Predikce genů
Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech
(kódující potenciál).Rozdílné metody pro prokaryotní a eukaryotní
geny.Potřebujeme již existující data.
Principy metod• homologie (exofish, ..)• statistické metody (codonuse, genscan, ..)• neuronové sítě (genemark, ..)
Výběr kodónů
LeucinRhodobacter capsulatus
antikodón počet % CUA 3 <1 CUC 119 16 CUG 458 60 CUU 157 20 UUA 0 0 UUG 27 3
Escherichia coli
% 4 9 52 10 11 13
Predikce genů - statistický výpočet
Pravděpodobnost výskytu znaku (řetězce) na pozici i:
Pi = fi / f
Pravděpodobnost výskytu určitého úseku (okna):
Pw = P1 . P2 .. Pw kde w je délka úseku = logPi kde i = 1..w
Pro daný úsek získáme šest hodnot, které normujeme, např:
CPf = CPi / CP kde i = 1..6
codonuse
• grafické rozhraní ke statistickému výpočtu• používá dicodon preferences• variabilní okno při prohledávání
CRITICA
• prokaryotické geny • hledání RBS (ribosomal binding site,
Shine-Dalgarnova sekvence)
Princip:• TBLASTP proti proteinové databázi a vytypování "jistě"
kódujících sekvencí (většinou nekompletních genů).• Vytvoření statistického modelu.• Predikce genů.• Vytvoření dalšího statistického modelu a predikce genů.
Genscan
• eukaryotické geny • počítá různě první, prostřední a poslední exon• promotory, terminátory, polyA• různé statistické parametry pro různé GC
www: http://genes.mit.edu/GENSCAN.html
Pravděpodobnostní rozsah
Exony Přesně Částečně Překryv Chybně
0.00 - 0.50 248 29.8% 27.8% 4.0% 38.3%
0.50 - 0.75 362 54.1% 26.2% 2.2% 17.4%
0.75 - 0.90 337 74.8% 16.0% 1.2% 8.0%
0.90 - 0.95 263 87.8% 6.1% 0.4% 5.7%
0.95 - 0.99 551 92.4% 3.4% 0.2% 4.0%
0.99 - 1.00 917 97.7% 0.9% 0.0% 1.4%
GENSCAN 1.0 Date run: 31-Oct-100 Time: 15:54:20
Sequence HERV17_004640 : 40714 bp : 37.79% C+G : Isochore 1 ( 0.00 - 43.00 C+G%)
Parameter matrix: HumanIso.smat
Predicted genes/exons:
Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
1.01 Init + 1825 1853 29 0 2 86 71 45 0.579 1.72 1.02 Term + 3886 4075 190 1 1 85 44 198 0.941 11.04 1.03 PlyA + 4961 4966 6 1.05
2.00 Prom + 6668 6707 40 -4.65 2.01 Init + 17251 17375 125 0 2 45 72 80 0.590 1.81 2.02 Term + 20137 20329 193 1 1 85 43 196 0.990 10.71 2.03 PlyA + 20809 20814 6 1.05
3.08 PlyA - 21608 21603 6 -3.24 3.07 Term - 22315 21651 665 2 2 -17 55 522 0.952 31.44 3.06 Intr - 24268 22592 1677 2 0 81 94 2124 0.885 198.67 3.05 Intr - 24877 24728 150 2 0 34 91 101 0.783 4.21 3.04 Intr - 29976 29878 99 1 0 48 111 82 0.473 5.66 3.03 Intr - 31296 31170 127 0 1 89 82 101 0.997 8.93 3.02 Intr - 32563 32418 146 2 2 46 70 132 0.303 6.28 3.01 Init - 33114 33006 109 0 1 79 12 93 0.406 1.25 3.00 Prom - 35592 35553 40 -5.85
4.00 Prom + 36433 36472 40 -4.25 4.01 Init + 37863 37909 47 2 2 71 58 16 0.307 -2.89 4.02 Intr + 38032 38102 71 1 2 33 67 79 0.531 -1.79 4.03 Term + 38614 39059 446 2 2 66 49 276 0.577 15.91 4.04 PlyA + 39744 39749 6 1.05
Genscan - příklad
Suboptimal exons with probability > 0.100
Exnum Type S .Begin ...End .Len Fr Ph B/Ac Do/T CodRg P.... Tscr..----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
S.001 Init + 2937 3136 200 2 2 67 -22 154 0.301 0.72S.002 Intr + 3239 3325 87 2 0 43 23 121 0.358 -0.73S.003 Intr + 17250 17375 126 0 0 66 72 94 0.141 4.47S.004 Init + 17311 17375 65 0 2 55 72 45 0.204 0.27S.005 Intr - 24927 24728 200 2 2 12 91 115 0.146 2.27S.006 Intr - 25129 25003 127 2 1 51 92 37 0.117 -0.78S.007 Intr - 29973 29878 96 1 0 44 111 87 0.473 5.66S.008 Intr - 32589 32418 172 2 1 19 70 151 0.336 5.42S.009 Intr - 32563 32427 137 2 2 46 70 116 0.122 4.97S.010 Intr - 32589 32427 163 2 1 19 70 135 0.114 3.86S.011 Intr - 32857 32804 54 0 0 104 103 2 0.262 0.48S.012 Init - 33114 33008 107 0 2 79 17 87 0.296 0.46S.013 Init + 37062 37067 6 2 0 53 68 1 0.115 -4.38S.014 Intr + 38237 38315 79 1 1 35 38 94 0.175 -2.69S.015 Intr + 38270 38315 46 1 1 81 38 59 0.170 -2.74S.016 Term + 38623 39059 437 2 2 55 49 266 0.139 13.86S.017 Term + 38872 39059 188 2 2 62 49 243 0.212 14.47
Predicted peptide sequence(s):
Programy a www servery
Rozcestník:• http://www.hgc.ims.utokyo.ac.jp/
/~katsu/genefinding/programs.html
Obecné a multi:• http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html• http://bioweb.pasteur.fr/seqanal
Jednotlivé programy:• http://genes.mit.edu/GENSCAN.html• http://www.tigr.org/tdb/glimmerm/glmr_form.html• http://www.tigr.org/~salzberg/veil.html• http://www.tigr.org/~salzberg/morgan.html• http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi• http://www.fruitfly.org/~martinr/doc/genie.html• http://www.resp-sci.arizona.edu/genlab/genehunter.htm
Fylogenetická analýza
Odhaduje evoluční souvislosti mezi daty
Výchozí předpoklady:kumulace jednotlivých změnzměny jsou náhodnépřibližně stejná evoluční rychlost
(molekulární čas)
Multile alignment
Evoluční stromy - terminologie
• nody (uzly)• vnitřní• vnější
• větve• topologie stromu• bifurkační strom• aditivní strom• ultrametrický strom• kořen (root) stromu
• pravdivý (korektní)• odvozený
( ( ( ( polyA_26:0.042779, HERV17_27:0.049179 ):0.008643, polyA_410:0.045034 ):0.001912, ( ( polyA_20:0.039953, HERV17_15:0.034230 ):0.003074, HERV17_76:0.041414 ):0.002812 ):0.001440, polyA_30:0.042838, ( polyA_99:0.052972, HERV17_19:0.041888 ):0.003257)
Evoluční stromy - příklad
Evoluční stromy - příklad
Evoluční strom pTR5 rodiny lidských endogenních retrovirů
Evoluční stromy - tvorba
Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum).
Optimalizační metody - pomalejší, ale naleznou globální optimum.
Požadavky na vstupní sekvenční data:•Alignment pouze homologních částí•Vynechat gaps
(Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)
Algoritmické (distanční) metody
Metoda: shluková analýza Vstup: matice distancí (substituční model)
• UGPMA (Unweighted pair group method with arithmetic averages)
• WGPMA• Neighbour-joining
Neighbour-joining
Star decomposition method
Substituční modely
Pro DNA:• Jednoparametrická: Jukes-Cantor
• Dvouparametrická: KimuraTransice: purin - purinTransverze: pyrimidin - purin
Pro proteiny: • Substituční matice (Blosum etc)
9polyA_26 polyA_30 0.1102polyA_20 0.1144 0.1027polyA_99 0.1326 0.1100 0.1237polyA_410 0.1089 0.1009 0.1067 0.1150HERV17_27 0.1070 0.1263 0.1285 0.1504 0.1198HERV17_76 0.0960 0.1024 0.0953 0.1221 0.1036 0.1188HERV17_19 0.1045 0.0994 0.1019 0.1097 0.1059 0.1304 0.0975HERV17_15 0.0980 0.0975 0.0841 0.1170 0.0977 0.1127 0.0860 0.0927
Matice distancí
Optimalizační metody
Metoda: hledání optimálního stromuVstup: multiple alignment
parsimonie (parsimony) maximální věrohodnost
(maximum likehood - ML) párové distanční metody
(pairwise distance methods).
Parsimonie
A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA
A C
B D
A B
C D
A C
D B
Parsimonie 1
A C
B D
A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA
A B
C D
A C
D B
1
1
1
Parsimonie 2
A C
B D
A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA
A B
C D
A C
D B
1 + 1
1 + 2
1 + 2
Parsimonie 3
A C
B D
A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA
A B
C D
A C
D B
2 + 2
3 + 1
3 + 2
Parsimonie 4
A C
B D
A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA
A B
C D
A C
D B
4 + 1
4 + 2
5 + 2
Parsimonie 5
A C
B D
A: TATGTTCB: TATTTTCC: TACGTACD: GACTTAA
A B
C D
A C
D B
6
7
8
Optimalizační metody
Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů
Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích
Testování topologie
Bootstrap: výběr s opakovánímJack Knife: výběr bez opakování, ale menší
počet sekvencí
Kořen stromu
Kořen stromu
Programy
http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.htmlhttp://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.htmlhttp://evolution.genetics.washington.edu/phylip/software.html
Dodatky
Pseudogeny: poměr synonymních a nesynonymních mutací
Recommended