Upload
merritt-pickett
View
21
Download
0
Embed Size (px)
DESCRIPTION
Sebestyén Endre Bioperl Őszi Iskola 2008 november 7. Regulációs transzkripciós adatbázisok és bioperl modulok. Perl modulok. Önálló kódcsomag, amit más perl programok vagy modulok felhasználhatnak CPAN : http://www.cpan.org Rengeteg modul szinte minden elképzelhető feladatra Net::FTP - PowerPoint PPT Presentation
Citation preview
Sebestyén EndreBioperl Őszi Iskola2008 november 7.
Önálló kódcsomag, amit más perl programok vagy modulok felhasználhatnak
CPAN : http://www.cpan.org Rengeteg modul szinte minden
elképzelhető feladatra
Net::FTPXML::Parser
http://bioperl.org Stabil (1.4.0) és fejlesztői (1.5.2) verzió Különböző csomagok
Core : alapmodulok, minden más csomag ezt használja Run : alkalmazások futtatása (ClustaW, EMBOSS, stb) DB : relációs adatbázis projekt, BioSQL Network : protein-protein interakciók GUI : grafikus felület, Perl-TK Ext : C nyelven, szekvenciaillesztő algoritmusok Pedigree : genotípus, marker, linkage adatok
manipulálása Microarray : microarray adatok elemzése Pipeline : munkafolyamatok tervezése
Bio::Align Szekvenciaillesztések manipulálása
Bio::Biblio Irodalmi adatok lekérdezése
▪ Medline▪ Pubmed
Bio::DB EMBL, GenBank, RefSeq, SwissProt
Bio::Graphics Elsősorban szekvenciák ábrázolására
használható modul Bio::Index
FASTA, GenBank fájlok indexelése BLAST eredmények indexelése
Bio::Matrix Általános mátrix modul
Bio::Ontology GeneOntology adatbázis
Bio::Search és Bio::SearchIO BLAST, FASTA, Sim4, stb eredmények
feldolgozása Bio::Seq és Bio::SeqIO
Szekvenciák kezelése▪ Konvertálás, módosítás, létrehozás
Bio::Tools Különböző programok be/kimenetének
feldologzása
http://tfbs.genereg.net/Transzkripciós faktor kötőhelyek
kezelésére specializálódott modulokObjektumok a különböző
kötőhelyeknek, keresési eredményeknek
Felület a weben található TFBS adatbázisokhoz
BioPerl kompatibilis
#!/usr/bin/perl
use Bio::DB::GenBank;use Getopt::Std;
getopts(’l:');
my $list = $opt_l;open LIST, "$list" or die "$0 : can't open file $list : $!\n";while (<LIST>) { chomp; @line = split; push @accs, @line;}close LIST;
my $db = new Bio::DB::GenBank;foreach my $acc (@accs) { my $seqi = $db->get_Stream_by_acc(["$acc"]); my $seqo = Bio::SeqIO->new('-file' => ">>$acc.genbank", '-format' => 'genbank'); foreach my $seq ( $seqi->next_seq ) { $seqo->write_seq($seq); }}
Transzkripciós faktor DNS kötő domainek Specifikus szekvencia motívomokat ismer
fel A kötődést a konkrét motívum mellett sok
egyéb tényező is befolyásolja Kötőhelyek
Rövid szekvenciamotívumok (6-12 bp) Promóterben, esetleg a 3’ és 5’ UTR-ben
vagy intronokban Sokszor nem egyértelműek, pl G és C is
lehet egy helyen
Konszenzus szekvencia Lötyögős
bázisjelölések▪ ACACTSSNWTT
Ismétlésekkel▪ ACACTS{1,4}N{1,2}
WTT
IUPAC-IUB/GCG Code
Meaning Complement
A A T
C C G
G G C
T/U T A
M A or C K
R A or G Y
W A or T S
S G or C W
Y C or T R
K G or T M
V A or C or G B
H A or C or T D
D A or G or T H
B C or G or T V
X/N A or C or G or T N
. not A or C or G or T
.
Lötyögős bázisjelölés mellett/helyett esetleg kisbetű
CcCGaGGtDcYtagB
Mátrix A/C/G/T
mennyiség▪ Egyszerű
darabszám▪ Gyakoriság▪ Information
content
A 30 0 0 0 20
C 0 25 1 0 2
G 0 1 31 0 3
T 2 6 0 32 7
EPD http://www.epd.isb-sib.ch/ Eukaryotic Promoter Database Release 95 Egyik fele kísérletes eredmények alapján
(4800)▪ Kukorica▪ Drosophila▪ Xenopus▪ Egér▪ Ember▪ stb
Tömeges promóterannotáció (13000)▪ Rizs
DBTSS http://dbtss.hgc.jp/ Database of Transcriptional Start Sites Release 6.0 cDNS 5’ szekvenálások alapján pontos TSS Alternatív promótereket is tartalamaz Fajok
▪ Egér▪ Patkány▪ Fugu▪ stb
DoOP http://doop.abc.hu Database of Orthologous Pomoters
▪ Növényi (Viridiplantae)▪ Referenciafaj : Arabidopsis thaliana
▪ Gerinces (Chordata)▪ Referenciafaj : ember
▪ Ortológ promótercsoportok▪ 500, 1000, 3000 bp 5’ upstream régiók
PlantProm http://mendel.cs.rhul.ac.uk/mendel.php?topic=plantprom Növényi promóterek
PromoSer http://biowulf.bu.edu/zlab/PromoSer/ Ember, egér, patkány
SCPD http://rulai.cshl.edu/SCPD/ Sacharomyces cerevisiae
DCPD http://www-biology.ucsd.edu/labs/Kadonaga/DCPD.html Drosophila
CEPDB http://rulai.cshl.edu/cgi-bin/CEPDB/home.cgi C. elegans
NAR adatbázis (január) és webszerver (július) különszám
TRANSFAC http://www.gene-regulation.com/ Ingyenes/fizetős verzió Transzkripciós faktorok, kötőhelyek, irodalmi adatok Keresőfelület Folyamatosan frissítik a publikációk alapján
Mátrixokat és konszenzus szekvenciákat is tartalmaz
JASPAR http://jaspar.genereg.net/ Jobb minőségű, nem redundáns adatok Aránylag kis mennyiségű adat Ingyenes, több formátumban letölthető
adatok
ORegAnno http://www.oreganno.org/ Open REGulatory ANNOtation database
cisRED http://www.cisred.org/ Cis-regulatory element database
▪ ENSEMBL alapján▪ Ember, egér, patkány, C. elegans
Place http://www.dna.affrc.go.jp/PLACE/ PlantCARE
http://bioinformatics.psb.ugent.be/webtools/plantcare/html/ Növényi kötőhelyeket tartalmazó adatbázisok Irodalmi adatok alapján
Konszenzus szekvencia keresés Perl reguláris kifejezés
▪ if ($seq =~ /[AT]{1,}CCT[CG]/) { print “megvan\n” }
EMBOSS programcsomag▪ http://emboss.sourceforge.net/▪ Fuzznuc▪ Parancssoros linux program▪ [CG](5)TG{A}N(1,5)C
Mátrixok TFBS modul Bio::Matrix modul MotifScanner
▪ http://homes.esat.kuleuven.be/~thijs/Work/MotifScanner.html
▪ Parancssoros linux program▪ Background model használata
Ortológ gének Különböző fajban ugyanaz a funkció
Szervspecifikus génekSzövetspecifikus génekFejlődési stádium specifikus génekStb
Valamilyen oknál fogva ugyanakkor/ugyanott kell kifejeződniük
Rövid oligók gyakoriságának vizsgálata EMBOSS programcsomag
▪ Compseq parancssoros linux program▪ Oligók (2,3,4,stb) gyakoriságának vizsgálata▪ Elvárt VS. kapott gyakoriság
▪ Bizonyos oligók alul vagy felülreprezentáltak lehetnek egyes promótercsoportokban
▪ AAA 7 0.0406977 0.0329457 1.2352955▪ AAC 3 0.0174419 0.0096899 1.8000042▪ AAG 11 0.0639535 0.0348837
1.8333344▪ AAT 3 0.0174419 0.0077519 2.2500110▪ ACA 1 0.0058140 0.0096899 0.6000014▪ ACC 4 0.0232558 0.0116279 2.0000012
Phylogenetic footprinting A funkcionális kötőhelyek valószínűleg
konzerválódtak a fajok között Szekvenciaillesztés
▪ ClustalW : globális illesztés▪ Dialign : lokális illesztés
Konzervált részek kiválasztása
globális illesztés
lokális illesztés
Egyéb programok MEME http://meme.sdsc.edu/
▪ oops, zoops, anr módok▪ lassú
GLAM http://zlab.bu.edu/glam▪ Hézagmentes illesztések
Tompa, M., Li, N., Bailey, T.L., Church, G.M., De Moor, B., Eskin, E., Favorov, A.V., Frith, M.C., Fu, Y., Kent, W.J., et al. 2005. Assessing computational tools for the discovery of transcription factor binding sites. Nat. Biotechnol. 23: 137–144.
http://doop.abc.hu Keresési módok
Szekvenciaazonosító
Génazonosító Kulcsszavas leírások Faj Promóter
szekvencia
Promótercsoport azonosító
Leírás Konzervált
motívumok száma Fajcsoportok
Lehetőség van a szekvenciák letöltésére
Szekvenciák
Génannotáció
Szekvenciaillesztés
Keresztreferenciák
Konzerválódott régiók
UTR régió
Faj, méret
Motívumok
További keresési lehetőség adott motívummal
Hasonló szabályozással / expressziós mintázattal rendelkező gének?
http://doops.abc.hu http://
doopsearch.abc.hu
Bioperl-hez hasonló API a DoOP adatbázis kezeléséhez Cluster.pm Sequence.pm SequenceFeature.pm Motif.pm