31
Sebestyén Endre Bioperl Őszi Iskola 2008 november 7.

Regulációs transzkripciós adatbázisok és bioperl modulok

Embed Size (px)

DESCRIPTION

Sebestyén Endre Bioperl Őszi Iskola 2008 november 7. Regulációs transzkripciós adatbázisok és bioperl modulok. Perl modulok. Önálló kódcsomag, amit más perl programok vagy modulok felhasználhatnak CPAN : http://www.cpan.org Rengeteg modul szinte minden elképzelhető feladatra Net::FTP - PowerPoint PPT Presentation

Citation preview

Page 1: Regulációs transzkripciós adatbázisok és bioperl modulok

Sebestyén EndreBioperl Őszi Iskola2008 november 7.

Page 2: Regulációs transzkripciós adatbázisok és bioperl modulok

Önálló kódcsomag, amit más perl programok vagy modulok felhasználhatnak

CPAN : http://www.cpan.org Rengeteg modul szinte minden

elképzelhető feladatra

Net::FTPXML::Parser

Page 3: Regulációs transzkripciós adatbázisok és bioperl modulok

http://bioperl.org Stabil (1.4.0) és fejlesztői (1.5.2) verzió Különböző csomagok

Core : alapmodulok, minden más csomag ezt használja Run : alkalmazások futtatása (ClustaW, EMBOSS, stb) DB : relációs adatbázis projekt, BioSQL Network : protein-protein interakciók GUI : grafikus felület, Perl-TK Ext : C nyelven, szekvenciaillesztő algoritmusok Pedigree : genotípus, marker, linkage adatok

manipulálása Microarray : microarray adatok elemzése Pipeline : munkafolyamatok tervezése

Page 4: Regulációs transzkripciós adatbázisok és bioperl modulok

Bio::Align Szekvenciaillesztések manipulálása

Bio::Biblio Irodalmi adatok lekérdezése

▪ Medline▪ Pubmed

Bio::DB EMBL, GenBank, RefSeq, SwissProt

Bio::Graphics Elsősorban szekvenciák ábrázolására

használható modul Bio::Index

FASTA, GenBank fájlok indexelése BLAST eredmények indexelése

Page 5: Regulációs transzkripciós adatbázisok és bioperl modulok

Bio::Matrix Általános mátrix modul

Bio::Ontology GeneOntology adatbázis

Bio::Search és Bio::SearchIO BLAST, FASTA, Sim4, stb eredmények

feldolgozása Bio::Seq és Bio::SeqIO

Szekvenciák kezelése▪ Konvertálás, módosítás, létrehozás

Bio::Tools Különböző programok be/kimenetének

feldologzása

Page 6: Regulációs transzkripciós adatbázisok és bioperl modulok

http://tfbs.genereg.net/Transzkripciós faktor kötőhelyek

kezelésére specializálódott modulokObjektumok a különböző

kötőhelyeknek, keresési eredményeknek

Felület a weben található TFBS adatbázisokhoz

BioPerl kompatibilis

Page 7: Regulációs transzkripciós adatbázisok és bioperl modulok

#!/usr/bin/perl

use Bio::DB::GenBank;use Getopt::Std;

getopts(’l:');

my $list = $opt_l;open LIST, "$list" or die "$0 : can't open file $list : $!\n";while (<LIST>) { chomp; @line = split; push @accs, @line;}close LIST;

my $db = new Bio::DB::GenBank;foreach my $acc (@accs) { my $seqi = $db->get_Stream_by_acc(["$acc"]); my $seqo = Bio::SeqIO->new('-file' => ">>$acc.genbank", '-format' => 'genbank'); foreach my $seq ( $seqi->next_seq ) { $seqo->write_seq($seq); }}

Page 8: Regulációs transzkripciós adatbázisok és bioperl modulok

Transzkripciós faktor DNS kötő domainek Specifikus szekvencia motívomokat ismer

fel A kötődést a konkrét motívum mellett sok

egyéb tényező is befolyásolja Kötőhelyek

Rövid szekvenciamotívumok (6-12 bp) Promóterben, esetleg a 3’ és 5’ UTR-ben

vagy intronokban Sokszor nem egyértelműek, pl G és C is

lehet egy helyen

Page 9: Regulációs transzkripciós adatbázisok és bioperl modulok

Konszenzus szekvencia Lötyögős

bázisjelölések▪ ACACTSSNWTT

Ismétlésekkel▪ ACACTS{1,4}N{1,2}

WTT

IUPAC-IUB/GCG Code

Meaning Complement

A A T

C C G

G G C

T/U T A

M A or C K

R A or G Y

W A or T S

S G or C W

Y C or T R

K G or T M

V A or C or G B

H A or C or T D

D A or G or T H

B C or G or T V

X/N A or C or G or T N

. not A or C or G or T

.

Page 10: Regulációs transzkripciós adatbázisok és bioperl modulok

Lötyögős bázisjelölés mellett/helyett esetleg kisbetű

CcCGaGGtDcYtagB

Page 11: Regulációs transzkripciós adatbázisok és bioperl modulok

Mátrix A/C/G/T

mennyiség▪ Egyszerű

darabszám▪ Gyakoriság▪ Information

content

A 30 0 0 0 20

C 0 25 1 0 2

G 0 1 31 0 3

T 2 6 0 32 7

Page 12: Regulációs transzkripciós adatbázisok és bioperl modulok

EPD http://www.epd.isb-sib.ch/ Eukaryotic Promoter Database Release 95 Egyik fele kísérletes eredmények alapján

(4800)▪ Kukorica▪ Drosophila▪ Xenopus▪ Egér▪ Ember▪ stb

Tömeges promóterannotáció (13000)▪ Rizs

Page 13: Regulációs transzkripciós adatbázisok és bioperl modulok

DBTSS http://dbtss.hgc.jp/ Database of Transcriptional Start Sites Release 6.0 cDNS 5’ szekvenálások alapján pontos TSS Alternatív promótereket is tartalamaz Fajok

▪ Egér▪ Patkány▪ Fugu▪ stb

Page 14: Regulációs transzkripciós adatbázisok és bioperl modulok

DoOP http://doop.abc.hu Database of Orthologous Pomoters

▪ Növényi (Viridiplantae)▪ Referenciafaj : Arabidopsis thaliana

▪ Gerinces (Chordata)▪ Referenciafaj : ember

▪ Ortológ promótercsoportok▪ 500, 1000, 3000 bp 5’ upstream régiók

Page 15: Regulációs transzkripciós adatbázisok és bioperl modulok

PlantProm http://mendel.cs.rhul.ac.uk/mendel.php?topic=plantprom Növényi promóterek

PromoSer http://biowulf.bu.edu/zlab/PromoSer/ Ember, egér, patkány

SCPD http://rulai.cshl.edu/SCPD/ Sacharomyces cerevisiae

DCPD http://www-biology.ucsd.edu/labs/Kadonaga/DCPD.html Drosophila

CEPDB http://rulai.cshl.edu/cgi-bin/CEPDB/home.cgi C. elegans

NAR adatbázis (január) és webszerver (július) különszám

Page 16: Regulációs transzkripciós adatbázisok és bioperl modulok

TRANSFAC http://www.gene-regulation.com/ Ingyenes/fizetős verzió Transzkripciós faktorok, kötőhelyek, irodalmi adatok Keresőfelület Folyamatosan frissítik a publikációk alapján

Mátrixokat és konszenzus szekvenciákat is tartalmaz

Page 17: Regulációs transzkripciós adatbázisok és bioperl modulok

JASPAR http://jaspar.genereg.net/ Jobb minőségű, nem redundáns adatok Aránylag kis mennyiségű adat Ingyenes, több formátumban letölthető

adatok

Page 18: Regulációs transzkripciós adatbázisok és bioperl modulok

ORegAnno http://www.oreganno.org/ Open REGulatory ANNOtation database

cisRED http://www.cisred.org/ Cis-regulatory element database

▪ ENSEMBL alapján▪ Ember, egér, patkány, C. elegans

Place http://www.dna.affrc.go.jp/PLACE/ PlantCARE

http://bioinformatics.psb.ugent.be/webtools/plantcare/html/ Növényi kötőhelyeket tartalmazó adatbázisok Irodalmi adatok alapján

Page 19: Regulációs transzkripciós adatbázisok és bioperl modulok

Konszenzus szekvencia keresés Perl reguláris kifejezés

▪ if ($seq =~ /[AT]{1,}CCT[CG]/) { print “megvan\n” }

EMBOSS programcsomag▪ http://emboss.sourceforge.net/▪ Fuzznuc▪ Parancssoros linux program▪ [CG](5)TG{A}N(1,5)C

Page 20: Regulációs transzkripciós adatbázisok és bioperl modulok

Mátrixok TFBS modul Bio::Matrix modul MotifScanner

▪ http://homes.esat.kuleuven.be/~thijs/Work/MotifScanner.html

▪ Parancssoros linux program▪ Background model használata

Page 21: Regulációs transzkripciós adatbázisok és bioperl modulok

Ortológ gének Különböző fajban ugyanaz a funkció

Szervspecifikus génekSzövetspecifikus génekFejlődési stádium specifikus génekStb

Valamilyen oknál fogva ugyanakkor/ugyanott kell kifejeződniük

Page 22: Regulációs transzkripciós adatbázisok és bioperl modulok

Rövid oligók gyakoriságának vizsgálata EMBOSS programcsomag

▪ Compseq parancssoros linux program▪ Oligók (2,3,4,stb) gyakoriságának vizsgálata▪ Elvárt VS. kapott gyakoriság

▪ Bizonyos oligók alul vagy felülreprezentáltak lehetnek egyes promótercsoportokban

▪ AAA 7 0.0406977 0.0329457 1.2352955▪ AAC 3 0.0174419 0.0096899 1.8000042▪ AAG 11 0.0639535 0.0348837

1.8333344▪ AAT 3 0.0174419 0.0077519 2.2500110▪ ACA 1 0.0058140 0.0096899 0.6000014▪ ACC 4 0.0232558 0.0116279 2.0000012

Page 23: Regulációs transzkripciós adatbázisok és bioperl modulok

Phylogenetic footprinting A funkcionális kötőhelyek valószínűleg

konzerválódtak a fajok között Szekvenciaillesztés

▪ ClustalW : globális illesztés▪ Dialign : lokális illesztés

Konzervált részek kiválasztása

Page 24: Regulációs transzkripciós adatbázisok és bioperl modulok

globális illesztés

lokális illesztés

Page 25: Regulációs transzkripciós adatbázisok és bioperl modulok

Egyéb programok MEME http://meme.sdsc.edu/

▪ oops, zoops, anr módok▪ lassú

GLAM http://zlab.bu.edu/glam▪ Hézagmentes illesztések

Tompa, M., Li, N., Bailey, T.L., Church, G.M., De Moor, B., Eskin, E., Favorov, A.V., Frith, M.C., Fu, Y., Kent, W.J., et al. 2005. Assessing computational tools for the discovery of transcription factor binding sites. Nat. Biotechnol. 23: 137–144.

Page 26: Regulációs transzkripciós adatbázisok és bioperl modulok

http://doop.abc.hu Keresési módok

Szekvenciaazonosító

Génazonosító Kulcsszavas leírások Faj Promóter

szekvencia

Page 27: Regulációs transzkripciós adatbázisok és bioperl modulok

Promótercsoport azonosító

Leírás Konzervált

motívumok száma Fajcsoportok

Lehetőség van a szekvenciák letöltésére

Page 28: Regulációs transzkripciós adatbázisok és bioperl modulok

Szekvenciák

Génannotáció

Szekvenciaillesztés

Keresztreferenciák

Konzerválódott régiók

Page 29: Regulációs transzkripciós adatbázisok és bioperl modulok

UTR régió

Faj, méret

Motívumok

Page 30: Regulációs transzkripciós adatbázisok és bioperl modulok

További keresési lehetőség adott motívummal

Hasonló szabályozással / expressziós mintázattal rendelkező gének?

http://doops.abc.hu http://

doopsearch.abc.hu

Page 31: Regulációs transzkripciós adatbázisok és bioperl modulok

Bioperl-hez hasonló API a DoOP adatbázis kezeléséhez Cluster.pm Sequence.pm SequenceFeature.pm Motif.pm