Upload
xander-sader
View
235
Download
8
Embed Size (px)
Citation preview
V.Baliuckas
Genetikos ir selekcijos skyrius
3.4 Genomų sekvenavimas
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimo metodai: Sengerio (sukurtas 1974 m., modifikuotas 1982 m.) fermentinis metodas
V.Rančelis (2000)
V.Baliuckas
Genetikos ir selekcijos skyrius
Maksamo-Gilberto cheminis metodas
V.Rančelis (2000)
DNR sekvenavimo metodai:
V.Baliuckas
Genetikos ir selekcijos skyrius
automatinis metodas – tai automatizuotas F. Sengerio išrastas metodas
DNR sekvenavimo metodai:
Chromatografo kreivės
Visi dabartiniu metu naudojami genomų sekvenavimo būdai remiasi ‘Shotgun’ automatiniu DNR sekų generavimu
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomo sekvenavimo tikslas gauti pilnai iššifruotą DNR grandinėlę (A, C, G, T).
Bibliotekos
Sekvenavimas
Perdavimas naudojimui
Grupavimas/susiejimas
Anotacija
Užbaigimas
Strategija
Dauguma genomų gali būti sekvenuoti be didesnių problemų
Klonų gretinimo (hierarchiniu) būdu arba viso genomo sekvenavimas per kartą
Subklonavimas; ant gerai žinomų vektorių sudaromos nedidelės “įterpimo” bibliotekos
Atskirų DNR fragmentų apjungimas į artimas, kaimynines
sulygintų sekų grupes (angl. contig) pagal jų persidengimą
Sulygintos sekos apjungiamos į vientisą ištisinę seką
-DNR savybės (pasikartojimai/panašumai)-Genų lokalizacija-Peptidų savybės-Pirminis peptidų vaidmens ar paskirties nustatymas-Kitos reguliatorinės sritys
V.Baliuckas
Genetikos ir selekcijos skyrius
Pagrindinės genomo sekvenavimo strategijosHierarchinė arba klonų gretinimo (angl. Clone by clone):1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir didelės kolekcija BAC klonų sudarymas.2. DNR fragmentų sudėliojimas į fizinius genolapius.3. Minimalaus fragmentų persidengimo varianto suradimas.4. Kiekvieno varianto klono sekvenavimas su ‘Shotgun’.5. Fragmentų apjungimas kaimynystės principu į klonų gretinius (angl. contig).6. Visų fragmentų sujungimas į vientisą seką.
Šis būdas panaudotas mielių, kirmėlių, žmogaus, žiurkės genomų sekvenavimui.
Hierarchinės strategijos atmaina yra ‘žingsniavimas’ (angl. walking), kai nesudaromi fiziniai genolapiai:
1. DNR skaidymas į daugybę pakankamai ilgų segmentų ir perteklinės BAC klonų kolekcijos sudarymas.
2. Sekvenavimas kiekvieno klono, pirmiausia parinkus keletą kertinių klonų (angl. seed clones).
3. Vientisos sekos konstravimas vis pridedant sekvenuotus prie jau esamų.Tokiu būdu sekvenuotas ryžio genomas.
Viso genomo sekvenavimas iš karto (WGS), išvengiant genolapių sudarymo.
Šis būdas taikytas sekvenuojant drozofilos, žmogaus, pelės, žiurkės, šuns genomus.
V.Baliuckas
Genetikos ir selekcijos skyrius
www.sanbi.ac.za/mrc/tdr2004/Presentation/ genomics_lawson/sanbi_genome_files/
Genomo dydis ir sekvenavimo strategijos
Genomo dydis (log Mb)
D.melanogaster (170 Mb)C.elegans (100Mb)
H.sapiens (3000 Mb)
S.cerevisiae (14 Mb)E.coli (4 Mb)
P.falciparum (30 Mb)
0 1 2 3 4
Viso genomo per kartą (WGS)
Hierarchinis arba klonavimo
Viso genomo per kartą ‘Shotgun’ (WGS) derinant su BAC mažo padengimo klonais (panaudotas žiurkės genomo sekvenavimui)
Visos chromosomos (WCS)
V.Baliuckas
Genetikos ir selekcijos skyrius
Vektorių tipai
VektoriusIntarpo dydis
(bp)
Plazmidės 2,000-10,000
Kosmidės 40,000
BAC (bakterijų dirbtinė chromosoma)
70,000-300,000
YAC (mielių dirbtinė chromosoma)
> 300,000
(vis mažiau naudojama)
Vektoriai – struktūros, kuriose laikoma įterpta klonuota svetima DNR. Tai atliekama dviem tikslais: saugoti ir dauginti klonuotą DNR.
V.Baliuckas
Genetikos ir selekcijos skyrius
DNR sekvenavimas – vektoriai
+ =
DNR
DNR fragmentai
Vektorius (žiedinė plazmidės DNR)
Žinoma vieta(restriktazių pažinimo vieta)
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Genetiniai genolapiai sudaromi pasinaudojant rekombinacijų dažniais ir santykiniais atstumais (cM), o fiziniai – pasinaudojant fiziniais klonuotų DNR sekų atstumais.
Genetiniai žymenys naudojami kaip gairės sudarant genolapius:-morfologiniai kategoriniai žymenys, pvz. žmonių hemofilija, daltonizmas, žirnelių raukšlėtumas;-Fiziniai žymenys - RFLP, CAPS, VNTR, STS.
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
V.Baliuckas
Genetikos ir selekcijos skyrius
Komplementaraus jungimosi būdu gaunamas tikslus molekulinių žymenų išsidėstymas chromosomoje
Detalus genolapio STS (angl. sequence-tagged-site) pagrindu sudarymas remiasi klonuotų BAC fragmentų kartografavimu, persidengimo principu (angl. contig).
V.Baliuckas
Genetikos ir selekcijos skyrius
Viso genomo sekvenavimas (WGS)
V.Baliuckas
Genetikos ir selekcijos skyrius www.ist.temple.edu/~vucetic/ cis595spring2003/
V.Baliuckas
Genetikos ir selekcijos skyrius
Sekvenavimo strategijų privalumai ir trūkumai
Hierarchinis sekvenavimas
Privalumai:- Lengvesnis apjungimas sekvenuotų fragmentų į klonų gretinius- Reikalauja mažiau kompiuterinių
resursų- Yra patikimesnis
Trūkumai:- Reikalingi fiziniai genolapiai ir klonų
bibliotekos- Daug perteklinio padengimo (angl.
redundant sequencing)- Techniškai sudėtingas ir
pakankamai brangus
Viso genomo sekvenavimas per kartą
Privalumai:- Nereikia genolapių- Mažiau perteklinio padengimo- Reikalauja daugiau kompiuterinių
resursų- Yra pigesnis
Trūkumai:- Sudėtingas sekvenuotų fragmentų
apjungimas į klonų gretinius, t.y. eksperimentiškai sudėtingesnis
- Reikalauja daugiau kompiuterinių resursų
- Nėra patikimas
V.Baliuckas
Genetikos ir selekcijos skyrius
Eukariotų genomų anotacija
transkripcija
RNR procesingas
transliacija
AAAAAAA
Genominė DNR
Pirminė RNR
Brandi mRNR
Susidarantis polipeptidas
susisukimas
Reaktantas A Produktas BFunkcija
Aktyvus enzimas
ab initio genų suradimas
Lyginamasis genų išaiškinimas
Funkcinė identifikacija
Gm3
Genomo anotacija ar išaiškinimas – tai genus atitinkančių DNR sekų identifikavimas, siekiant atsakyti į klausimus: kiek genų yra ir kuriose genomo vietose, kokius baltymus jie koduoja, kokie yra reguliaciniai mechanizmai ir sąveikos schemos.
V.Baliuckas
Genetikos ir selekcijos skyrius
Struktūrinė anotacija susijusi genų vietos suradimu, homologinių su kitais genomais, cDNA sekomis ir baltymų sekomis DNR grandinės vietų paieška, o taip pat transkripciją reguliuojančių elementų identifikavimu.
Funkcinė anotacija susijusi su baltymų molekuline funkcija, jų dalyvavimu apykaitos ir reguliatorinėje veikloje.
1000
1000
2000
2000
3000
3000
4000
4000
5000
5000
6000
6000
7000
7000
3 3
2 2
1 1
-1 -1
-2 -2
-3 -3
E.coli genomo vietos fragmentas
V.Baliuckas
Genetikos ir selekcijos skyrius
Start kodonasATG
5’ 3’
Egzonas 1 Egzonas 2 Egzonas 3Intronas 1 Intronas 2
Stop kodonasTAG/TGA/TAA
Susijungimo vietos
Ab initio genų metodai paremti specifinių vietų sekose paieška, tokių kaip start ir stop kodonai, ir ribosominės kilpos. Jei nukleotidai sekoje išsidėstę atsitiktinai (tai būdinga introninėms geno dalims, tarpgeninei DNR), maždaug kas dvidešimtas nukleotidų trejetas esti atsitiktinis stop kodonas.
Palyginti ilgas DNR fragmentas, kuriame nėra stop kodonų, vadinamas atviru skaitymo rėmeliu (ORF). GenScan, Genie, GeneID kompiuterinės programos yra naudojamos tokio pobūdžio analizei.
V.Baliuckas
Genetikos ir selekcijos skyrius
Kiti genų identifikavimo metodai grindžiami homologija su jau žinomais genais (naudojama GenomeScan kompiuterinė programa). Tokie yra, pvz.:
- zooblotingas, kai hibridizuojant naujai nustatyto žmogaus geno DNR sekas su žinomais kitų rūšių (beždžionių, galvijų, pelių, paukščių) genais, galima identifikuoti tų genų analogus žmogaus genome (GeneWise, Procrustes ir kt. kompiuterinės programos);
- CpG salelės, kurių buvimas nustatytose DNR sekose padeda rasti visą geną. Šios salelės labiau būdingos bendriniams (angl. housekeeping) genams, pvz., tokiems, kurie koduoja ląstelės energetikai būtinus baltymus ir kt. (Rosseta, SGP1 kompiuterinės programos);
- egzono įterpimas (angl. exon trapping) paremtas žiniomis apie tam tikras nukleotidų sekas eukariotų genuose žyminčias introno pradžią ir pabaigą. Jei gautos mDNR ilgis pasikeičia, vadinasi svetimos DNR egzonas buvo atpažintas ir prijungtas (CEM kompiuterinė programa).
V.Baliuckas
Genetikos ir selekcijos skyrius
Genai yra identifikuojami pasinaudojant ekspresuotų sekų žymekliais (EST). Idėja grindžiama tuo, kad identiškos sekos atlieka panašų vaidmenį ir kituose genomuose. Specialios kompiuterinės programos padeda identifikuoti genus pagal nukleotidų sekų išreikštumą (BLASTN, FASTA, TBLASTN).
Naujesnės kompiuterinės programos, tokios kaip SGP-2, TwinScan, SLAM, DoubleScan yra sukonstruotos panašumo principu ir naudojamos homologiniams genomų lyginimams.
Iškylantys sunkumai:
- sunku tiksliai iškart nustatyti genų skaičių
- visas genomas sekvenuotas su kai kuriomis pasitaikančiomis klaidomis
- mažus genus yra sunku identifikuoti
- kai kurie genai retai pasireiškia ir neturi būdingos kodonų struktūros, todėl juos sunku aptikti
- genų funkcijos daugumoje yra nežinomos
V.Baliuckas
Genetikos ir selekcijos skyrius
Genomų ypatybės apsprendžia jų sekvenavimo eigos sklandumą
Gerai Vidutiniškai Blogai
Polimorfizmas Haploidai Savidulkiniai Kryžmadulkiniai
Padengimas žymenimis
Tankus Retas Nėra
Fragmentų dydis 3kb, 10kb, 50kb, 200kb
3kb, 50kb 3kb
Klonų pasiskirstymas
Atsitiktinis Atsitiktinis kai kurių dydžių fragmentuose
Neatsitiktinis daugumoje atvejų
BAC galai Daug porose Nedaug porose Nėra porose
EST Daug 300/Mb Mažai 100/Mb Nėra
mRNA Daug Mažai Nėra
Padengimas 10x 6x 2x
Sekvenavimo paklaidos
Nėra Nedaug Daug
Genomo dydis 30Mb - 100Mb 100Mb - 1Gb >1Gb
V.Baliuckas
Genetikos ir selekcijos skyrius www.ist.temple.edu/~vucetic/ cis595spring2003/
Naujai įsitvirtinantys sekvenavimo metodai
Hibridinis sekvenavimas (SBH)Daugybinis spektrometrinis sekvenavimasTiesioginė atskiros DNR molekulės vizualizacija naudojant atominę
mikroskopiją (AFM)Atskiros molekulės sekvenavimasAtskiro nukleotido metodasGeno ekspresijos ląstelėje nustatymo metodasSekvenavimas panaudojant nanoporą
V.Baliuckas
Genetikos ir selekcijos skyrius
globinas
Egzonas 2Egzonas 1 Egzonas 3
5’ UTR 3’ UTR
(11 chromosoma)
Žmogaus genomas
*5.000
*20
6*104 bp
3.2*109 bp
*103
3*103 bp
ATTGCCATGTCGATAATTGGACTATTTGGA 30 bp
Myoglobinas globinas
aa aa aa aa aa aa aa aa aa aa
DNR:
Baltymas:
1
2 3
4 56 7
8 9X
Y151413121011
2120191817
1622
279251
221197 198
176 163 148 140 143 148 142118 107 100
10488 86
72 66 45 48
163
51
mitochondrija
.016
http://www.sanger.ac.uk/HGP/
V.Baliuckas
Genetikos ir selekcijos skyrius
- Genai sudaro ~ 25% viso genomo
- Egzonai užima tik 1%
Vidutinis žmogaus genas:27kb ilgio ir koduojančia seka sudarančia 1,340 bpTik 5% genų atitinka koduojančias sekas (genai skiriasi pagal intronų
skaičių)www.gmu.edu/departments/ biology/568-0304.ppt
Žmogaus genomas
V.Baliuckas
Genetikos ir selekcijos skyrius
• Egzonai: baltymus koduojantys ir netransliuojamos sritys (UTR)
1 to 178 egzonų gali turėti genas (vidurkis 8.8)8 bp to 17 kb gali sudaryti egzoną (vidurkis 145 bp)
• Intronai: nekoduojančios DNR sekos vidutiniškai 1 kb – 50 kb sudaro introną
• Genų dydis: Didžiausias – 2.4 Mb (Distrofinas). Vidurkis – 27 kb.
Eukariotų genomai turi santykinai mažai koduojančių sričių
Eukariotų genomus didžiąja dalimi sudaro kartotinės sekos
Eukariotų genai yra grupuojami blokuose tarp kartotinių sekų
Dėl minėtų priežasčių yra reikalingi paprastesni “modeliniai” genomai
V.Baliuckas
Genetikos ir selekcijos skyrius
http://www.genomesonline.org/
•Publikuoti pilni genomai: 359
•Prokariotų vykstantys genomų dekodavimai: 944
•Eukariotų vykstantys genomų dekodavimai: 599
•Viso: 1902
2006 metų (pirmo ketvirčio) duomenys
V.Baliuckas
Genetikos ir selekcijos skyrius Steane (2005)
V.Baliuckas
Genetikos ir selekcijos skyrius
Bananas (Musa)873.000 Kb
Lilium50.000.000 Kb
Augalų genomai skiriasi dydžiu, ploidiškumu ir chromosomų skaičiumi
Arabidopsis
125.000 Kb
http://www.redbio.org/portal/encuentros/enc_2001/conferencias/C-04/
V.Baliuckas
Genetikos ir selekcijos skyrius Savolainen O. 2006
V.Baliuckas
Genetikos ir selekcijos skyrius
V.Baliuckas
Genetikos ir selekcijos skyrius
Ląst
elių
tip
ų ir
mor
folo
gini
s ko
mpl
eksi
škum
as
Genomų dydis nėra proporcingas organizmų kompleksiškumui
V.Baliuckas
Genetikos ir selekcijos skyrius
Kai kurie duomenys apie jau sekvenuotus genomusOrganizmas Dydis, bazinės poros Apytikslis genų
skaičiusChromosomų skaičius
Homo sapiens
(žmogus)
3,164 mln. bp ~30,000 46
Rattus norvegicus
(žiurkė)
2,750 mln. bp ~30,000 42
Mus musculus
(pelė)
2500 mln. bp ~30,000 40
Oryza sativa L.
(ryžis)
450 mln. bp ~40,000 12
Drosophila melanogaster (vaisinė muselė)
180 mln. bp 13,600 8
Arabidopsis thaliana
(baltažiedis vairenis)
125 mln. bp 25,500 5
Caenorhabditis Elegans
(apvalioji kirmėlė)
97 mln. bp 19,100 6
Saccharomyces cerevisiae (mielės)
12 mln. bp 6300 16
Escherichia coli
(bakterija)
4.7 mln. bp 3200 1
V.Baliuckas
Genetikos ir selekcijos skyrius Eriksson and Ekberg (2001)
Požymis Pinus spp Eucalyptus spp
Arabidopsis
Dydis, pg (haploidinės ląstelės)
24 0,6 0,15
Chromosomų skaičius 12 11 5
Kartotinė DNR (%) 75 75 10
Nesikartojanti DNR (%) 25 25 90
Koduojanti DNR (%) 0,3 13,3 50
pg=1012g
V.Baliuckas
Genetikos ir selekcijos skyrius
Kokios galimos priežastys genomų dydžio skirtumų tarp baltažiedžio vairenio (Arabidopsis) ir daugumos spygliuočių medžių rūšių?
- Daugiau resursų reikalaujančios DNR sintezė, matyt, nėra didelis kliuvinys
- Svarbu pažymėti, kad didelis genomas koreliuoja su dideliu ląstelės branduoliu, o branduolio dydis savo ruožtu su lėtesne mitozės ir mejozės dalijimosi eiga
- Paminėta ypatybė nėra svarbi medžių rūšių išlikimui. Medžiai ir žolės augančios šiaurinėse platumose pasižymi labai nedideliu DNR turiniu. Tikėtina, kad tą lemia trumpas vegetacijos sezonas, nes augalams reikia praeiti keletą vystymosi stadijų
- Arabidopsio gyvenimo ciklas labai trumpas 2-3 savaitės nuo sėklos iki sėklos. Tik mažas augalo genomas gali leisti tokį spartų ląstelių dalijimąsi
- Pozityvi didelio genomo selekcija vyksta daugelyje spygliuočių medžių rūšių. Paprastai šios rūšys vietoj vandens indų turi tracheides. Yra nustatytas priežastinis teigiamas ryšys tarp tracheides produkuojančių kambio ląstelių ir branduolio DNR dydžio. 18 Š.Amerikos pušų rūšių tyrimai parodė, kad rūšys prisitaikę gyventi nepalankiomis sąlygomis (pusdykumėse) turi didesnį genomą nei augančios optimaliose sąlygose.
Eriksson and Ekberg (2001)
V.Baliuckas
Genetikos ir selekcijos skyrius
Literatūros sąrašas
Brown G.R., Gill G.P., Kuntz R.J., Langley C.H. and Neale D.B. 2004. Nucleotide diversity and linkage disequilibrium in loblolly pine. PNAS 101 (42): 15255–15260.
Brown GR., Kadel EE. III, Bassoni DL., Kiehne KL., Temesgen B., Buijtenen JP. van, Sewell MM., Marshall KA., Neale DB., van Buijtenen JPAD 2001. Anchored reference loci in loblolly pine (Pinus taeda L.) for integrating pine genomics. Genetics, 159 (2): 799-809.
Eriksson G. and Ekberg I. 2001. An introduction to forest genetics. SLU Repro, Uppsala. Pp. 166.
Neale DB. and Savolainen O. 2004. Association genetics of complex traits in conifers. Trends inPlant Science 9: 325-330.
Pavy N., Paule Ch., Parsons L., Crow J.A., Morency M-J., Cooke J., Johnson J.E., Noumen E.,Guillet-Claude C., Butterfield Y., Barber S., Yang G., Liu J., Stott J., Kirkpatrick R., Siddiqui A., Holt R., Marra M., Seguin A., Retzel E., Bousquet J. and MacKay J. 2005. Generation, annotation, analysis and database integration of 16,500 white spruce EST clusters. BMC Genomics 6 (144): 1-19.
Rančelis V. 2000. Genetika. Lietuvos Mokslų Akademijos leidykla, Vilnius. Pp. 662.
Steane D. 2005. Complete Nucleotide Sequence of the Chloroplast Genome fromthe Tasmanian Blue Gum, Eucalyptus globulus (Myrtaceae). DNA Research 12: 215-220.