21
Tema 4. Búsqueda de información en bases de datos bioinformáticas Nuria Lopez-Bigas

Tema 4. Búsqueda de información en bases de datos bioinformáticas Nuria Lopez-Bigas

Embed Size (px)

Citation preview

Tema 4. Búsqueda de

información en bases de datos

bioinformáticas

Nuria Lopez-Bigas

http://genome.imim.es/~nlopez/UVIC

Biological Databases

Biological Databases

Bases de Datos Biológicas

Bases de Datos de Nucleotidos

ID AY404901 standard; genomic DNA; GSS; 813 BP.XXAC AY404901;XXSV AY404901.1XXDT 13-DEC-2003 (Rel. 78, Created)DT 17-DEC-2003 (Rel. 78, Last updated, Version 2)XXDE Homo sapiens GJB3 gene, VIRTUAL TRANSCRIPT, partial sequence, genomicDE survey sequence.XXKW GSS.XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Euarchontoglires; Primates; Catarrhini; Hominidae; Homo.XXRN [1]RP 1-813RX DOI; 10.1126/science.1088821RX PUBMED; 14671302.RA Clark A.G., Glanowski S., Nielson R., Thomas P., Kejariwal A., Todd M.A.,RA Tanenbaum D.M., Civello D.R., Lu F., Murphy B., Ferriera S., Wang G.,RA Zheng X.H., White T.J., Sninsky J.J., Adams M.D., Cargill M.;RT "Inferring nonneutral evolution from human-chimp-mouse orthologous geneRT trios";RL Science 302(5652):1960-1963(2003).XXRN [2]RP 1-813RA Clark A.G., Glanowski S., Nielson R., Thomas P., Kejariwal A., Todd M.A.,RA Tanenbaum D.M., Civello D.R., Lu F., Murphy B., Ferriera S., Wang G.,RA Zheng X.H., White T.J., Sninsky J.J., Adams M.D., Cargill M.;RT ;RL Submitted (16-NOV-2003) to the EMBL/GenBank/DDBJ databases.RL Celera Genomics, 45 West Gude Drive, Rockville, MD 20850, USAXXCC This sequence was made by sequencing genomic exons and orderingCC them based on alignment.XXFH Key Location/QualifiersFHFT source 1..813FT /db_xref="taxon:9606"FT /mol_type="genomic DNA"FT /organism="Homo sapiens"FT gene <1..>813FT /locus_tag="HCM2045"FT /gene="GJB3"XXSQ Sequence 813 BP; 159 A; 274 C; 220 G; 160 T; 0 other; atggactgga agacactcca ggccctactg agcggtgtga acaagtactc cacagcgttc 60 gggcgcatct ggctgtccgt ggtgttcgtc ttccgggtgc tggtatacgt ggtggctgca 120 gagcgcgtgt ggggggatga gcagaaggac tttgactgca acaccaagca gcccggctgc 180 accaacgtct gctacgacaa ctacttcccc atctccaaca tccgcctctg ggccctgcag 240 ctcatcttcg tcacatgccc ctcgctgctg gtcatcctgc acgtggccta ccgtgaggag 300 cgggagcgcc ggcaccgcca gaaacacggg gaccagtgcg ccaagctgta cgacaacgca 360 ggcaagaagc acggaggcct gtggtggacc tacctgttca gcctcatctt caagctcatc 420 attgagttcc tcttcctcta cctgctgcac actctctggc atggcttcaa tatgccgcgc 480 ctggtgcagt gtgccaacgt ggccccctgc cccaacatcg tggactgcta cattgcccga 540 cctaccgaga agaaaatctt cacctacttc atggtgggcg cctccgccgt ctgcatcgta 600 ctcaccatct gtgagctctg ctacctcatc tgccacaggg tcctgcgagg cctgcacaag 660 gacaagcctc gagggggttg cagcccctcg tcctccgcca gccgagcttc cacctgccgc 720 tgccaccaca agctggtgga ggctggggag gtggatccag acccaggcaa taacaagctg 780 caggcttcag cacccaacct gacccccatc tga 813//

SRS Release 7.1.3.1 Copyright

ID: identification line. Siempre es la primera línea de un registro, y contiene los campos "entryname", "dataclass", "molecule", "division" y "sequencelength".XX: líneas en blanco.AC: accession number.SV: sequence version, según el formato establecido en febrero de 1999DT: date, fecha en que este registro apareció por primera vez en la base de datos.DE: description. Información general sobre la secuencia.KW: keywords, palabras clave usadas en referencias cruzadas con otras bases de datos.OS: organism species, el nombre científico del organismo.OC: organism classification, clasificación taxonómica del organismo.RN: reference number, un identificador único de cada referencia bibliográfica citada.RP: reference position, cuando una referencia incluye varias regiones de la misma secuencia.RA: reference author, enumera los autores.RT: reference title.RL: reference location, cita bibliográfica de la referencia.DR: database cross-reference, referencias cruzadas a otras bases de datos.CC: comentarios sobre la secuencia.FH: feature header, es la cabecera de los "features" que se han visto al explicar el formato GenBank. Puede ser una línea vacía, simplemente para mejorar la presentación en pantalla.FT: feature table. Contiene todas las anotaciones de la secuencia, con sus calificadores opcionales. La descripción completa de todos los features y sus opciones puede encontrarse aqui (http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html).SQ: sequence header, cabecera de la secuencia con un resumen de su contenido. La secuencia está dividida en 6 grupos de 10 bases por línea, sin ningún par de letras para designar cada línea (sólo dos espacios en blanco). La primera letra está en la posición 6 de cada línea (después de 5 espacios en blanco), y la numeración aparece al final de cada línea.El registro termina con doble barra //.

Formato de las Bases de Datos de EMBL

Formato de las Bases de Datos de NCBILOCUS NM_008124 1519 bp mRNA linear ROD 08-SEP-2005DEFINITION Mus musculus gap junction membrane channel protein beta 1 (Gjb1), mRNA.ACCESSION NM_008124VERSION NM_008124.2 GI:22165405KEYWORDS .SOURCE Mus musculus (house mouse) ORGANISM Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Sciurognathi; Muroidea; Muridae; Murinae; Mus.REFERENCE 1 (bases 1 to 1519) AUTHORS Murata,M., Kojima,T., Yamamoto,T., Go,M., Takano,K., Chiba,H., Tokino,T. and Sawada,N. TITLE Tight junction protein MAGI-1 is up-regulated by transfection with connexin 32 in an immortalized mouse hepatic cell line: cDNA microarray analysis JOURNAL Cell Tissue Res. 319 (2), 341-347 (2005) PUBMED 15558322 REMARK GeneRIF: Cx32 expression is in part related to induction of tight junctions through modulation of Mag-1 expression in an immortalized hepatic cell line.REFERENCE 2 (bases 1 to 1519) AUTHORS King,T.J. and Lampe,P.D. TITLE The gap junction protein connexin32 is a mouse lung tumor suppressor JOURNAL Cancer Res. 64 (20), 7191-7196 (2004) PUBMED 15492231 REMARK GeneRIF: Connexin32 acts as a lung tumor suppressor in a mouse model. Cx32-deficient lung tissue exhibited an increased proliferative index, and, after exposure to diethylnitrosamine, Cx32-deficient mice exhibited a significant increase in lung tumor incidence.COMMENT PROVISIONAL REFSEQ: This record has not yet been subject to final NCBI review. The reference sequence was derived from BC026833.1. On Aug 9, 2002 this sequence version replaced gi:7110602.FEATURES Location/Qualifiers source 1..1519 /organism="Mus musculus" /mol_type="mRNA" /db_xref="taxon:10090" /chromosome="X" /map="X 41.0 cM" gene 1..1519 /gene="Gjb1" /note="synonyms: Cx32, Cnx32, Gjb-1, MGC6217" /db_xref="GeneID:14618" /db_xref="MGI:95719"

CDS 40..891 /gene="Gjb1" /note="connexin 32; connexin-32; connexin-43; go_component: gap junction [goid 0005921] [evidence IEA]; go_component: connexon complex [goid 0005922] [evidence IEA]; go_component: extracellular space [goid 0005615] [evidence TAS] [pmid 12466851]; go_component: integral to membrane [goid 0016021] [evidence TAS] [pmid 12466851]; go_function: connexon channel activity [goid 0015285] [evidence IEA]; go_function: gap-junction forming channel activity [goid 0005243] [evidence IEA]; go_process: cell communication [goid 0007154] [evidence IEA]; go_process: cell-cell signaling [goid 0007267] [evidence IEA]" /codon_start=1 /product="gap junction membrane channel protein beta 1" /protein_id="NP_032150.2" /db_xref="GI:22165406" /db_xref="GeneID:14618" /db_xref="MGI:95719" /translation="MNWTGLYTLLSGVNRHSTAIGRVWLSVIFIFRIMVLVVAAESVW GDEKSSFICNTLQPGCNSVCYDHFFPISHVRLWSLQLILVSTPALLVAMHVAHQQHIE KKMLRLEGHGDPLHLEEVKRHKVHISGTLWWTYVISVVFRLLFEAVFMYVFYLLYPGY AMVRLVKCEAFPCPNTVDCFVSRPTEKTVFTVFMLAASGICIILNVAEVVYLIIRACA RRAQRRSNPPSRKGSGFGHRLSPEYKQNEINKLLSEQDGSLKDILRRSPGTGAGLAEK SDRCSAC" STS 1222..1372 /gene="Gjb1" /standard_name="AI118175" /db_xref="UniSTS:160898"ORIGIN 1 ccaggtgtgg cagtgccagg gaggtgtgaa tgaggcagga tgaactggac aggtctatac 61 accttgctca gtggcgtgaa tcggcactct acagccattg gccgagtatg gctgtctgtc 121 atcttcatct tcagaatcat ggtgctggtg gtggctgctg agagcgtgtg gggggatgag 181 aagtcctctt tcatctgtaa caccctccag ccgggctgca acagcgtctg ctatgaccat 241 tttttcccca tctcccacgt gcgcctatgg tccctgcagc ttatcttggt ttccacccca 301 gctctcctcg tggcaatgca cgtagctcac caacagcaca tagaaaagaa aatgctacgg 361 cttgaggggc atggggaccc ccttcacctg gaagaggtaa agagacacaa ggtgcacatc 421 tcagggacac tgtggtggac ctatgtcatc agtgtggtgt tccggctgct gttcgaggct 481 gtcttcatgt atgtcttcta tctgctctac cccggctatg ccatggtgcg gctggtcaag 541 tgtgaagcct tcccctgccc caacacagtg gactgcttcg tgtcccgccc caccgagaaa 601 accgtcttca ctgtctttat gctcgcagcc tccggcatct gcattatcct caacgtggcg 661 gaggtggtgt acctcatcat ccgggcctgt gcccgccgtg ctcagcgccg ctccaatccg 721 ccctcccgca agggctcggg cttcggccac cgcctctcac ctgaatacaa gcagaatgag 781 atcaacaagc tgctgagcga gcaggatggc tctctgaaag acatactgcg ccgcagccct 841 ggcacagggg ccgggctcgc tgaaaagagc gaccgatgct cagcctgctg atgccagtac 901 caggcaacct cccatcccac ccctccctca ccctgcccag acctgcccct ccttctccta 961 tgccggtgag caggcttctg cctgataggg attattactc catcaaacct tccctccctt 1021 cctactcccc ttcctcagag agccttctgt caaagacctg gccggctggg gagtggggag 1081 ccacttctac aacagggctc aaggttatta atggtgtggg caattctttc tgcctatacc 1141 ctttcctctt ccctctccct gaaacgaggg atgagatgtt ctgaaggtgt ttccaattag 1201 gaaactaatc ttaaccccca tgctgtctgg taccccactt tgggagtcat gtcggtgggg 1261 agggatgtgg gcaagcagag tggaggaggg gctctgcctt gtggatggag aagggatggg 1321 agcttgcctt gctgcctgcc acgggggaga agaggacaca tctagggtga gggagttatg 1381 gagagagaag caggcagata aatcggagtg gggattggtc agggctgccc ccagtcccca 1441 gttcccaagg cccctctctc tgcaagtgtt acacattaaa caggatttta cagtaaaaaa 1501 aaaaaaaaaa aaaaaaaaa//

Bases de Datos de NucleotidosREFSEQ

Bases de Datos de Proteinas

http://www.ebi.uniprot.org

http://www.expasy.uniprot.org/

http://pir.georgetown.edu/

ID GRAA_HUMAN STANDARD; PRT; 262 AA.AC P12544;DT 01-OCT-1989 (Rel. 12, Created)DT 01-OCT-1989 (Rel. 12, Last sequence update)DT 15-JUN-2002 (Rel. 41, Last annotation update)DE Granzyme A precursor (EC 3.4.21.78) (Cytotoxic T-lymphocyte proteinaseDE 1) (Hanukkah factor) (H factor) (HF) (Granzyme 1) (CTL tryptase)DE (Fragmentin 1).GN GZMA OR CTLA3 OR HFSP.OS Homo sapiens (Human).OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;OC Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.OX NCBI_TaxID=9606;RN [1]RP SEQUENCE FROM N.A.RC TISSUE=T-CELL;RX MEDLINE=88125000; PubMed=3257574;RA Gershenfeld H.K., Hershberger R.J., Shows T.B., Weissman I.L.;RT "Cloning and chromosomal assignment of a human cDNA encoding a T cell-RT and natural killer cell-specific trypsin-like serine protease.";RL Proc. Natl. Acad. Sci. U.S.A. 85:1184-1188(1988).RN [2]RP SEQUENCE FROM N.A.RC TISSUE=BLOOD;RA Strausberg R.;RL Submitted (OCT-2001) to the EMBL/GenBank/DDBJ databasesRN [3]RP SEQUENCE OF 1-23 FROM N.A.RA Goralski T.J., Krensky A.M.;RT "The upstream region of the human granzyme A locus contains bothRT positive and negative transcriptional regulatory elements.";RL Submitted (NOV-1995) to the EMBL/GenBank/DDBJ databases.RN [4]RP SEQUENCE OF 29-53.RX MEDLINE=88330824; PubMed=3047119;FT SIGNAL 1 26FT PROPEP 27 28 ACTIVATION PEPTIDE.FT CHAIN 29 262 GRANZYME A.FT ACT_SITE 69 69 CHARGE RELAY SYSTEM (BY SIMILARITY).FT ACT_SITE 114 114 CHARGE RELAY SYSTEM (BY SIMILARITY).FT ACT_SITE 212 212 CHARGE RELAY SYSTEM (BY SIMILARITY).FT DISULFID 54 70 BY SIMILARITY.FT DISULFID 148 218 BY SIMILARITY.FT DISULFID 179 197 BY SIMILARITY.FT DISULFID 208 234 BY SIMILARITY.FT CARBOHYD 170 170 N-LINKED (GLCNAC...) (POTENTIAL).SQ SEQUENCE 262 AA; 28968 MW; DA87363A0D92BAF4 CRC64; MRNSYRFLAS SLSVVVSLLL IPEDVCEKII GGNEVTPHSR PYMVLLSLDR KTICAGALIA KDWVLTAAHC NLNKRSQVIL GAHSITREEP TKQIMLVKKE FPYPCYDPAT REGDLKLLQL TEKAKINKYV TILHLPKKGD DVKPGTMCQV AGWGRTHNSA SWSDTLREVN ITIIDRKVCN DRNHYNFNPV IGMNMVCAGS LRGGRDSCNG DSGSPLLCEG VFRGVTSFGL ENKCGDPRGP GVYILLSKKH LNWIIMTIKG AV//

Bases de Datos de Proteinas

http://www.ncbi.nlm.nih.gov/

Bases de Datos de NCBI

http://www.ncbi.nlm.nih.gov/

http://www.ebi.ac.uk/Databases/

Bases de Datos de EMBL

http://srs.ebi.ac.uk/

Expression Databases

http://www.ebi.ac.uk/arrayexpress/

dbEST http://www.ncbi.nlm.nih.gov/dbEST/

http://www.ncbi.nlm.nih.gov/SNP/

SNP Databases

http://www.genome.ad.jp/kegg/

http://biocyc.org/

http://ecocyc.org/

Metabolic Pathway Databases

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM

Other Databases

http://www.hgmd.cf.ac.uk

http://www.genecards.org/

http://www.wwpdb.org

Genome Browsers

http://www.ensembl.org/

http://www.genome.ucsc.edu/

http://www.biomart.org/

Data Mining

Practical exercises