57
Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Embed Size (px)

Citation preview

Page 1: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Bancos de Dados Biológicos

Luis Artur RibeiroRafael JustinoPoline Lottin

Debora Comochina

Page 2: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Conceitos

Bioinformática: especialização da Informática aplicada à informação originada pela/para Biologia; ou estudo da aplicação de técnicas computacionais e matemáticas à geração e gerenciamento de (bio)informação. A Bioinformática combina conhecimentos de química, física, biologia, ciências da computação, informática e matemática/estatística para processar dados biológicos ou biomédicos.

Exemplos em Softwares: identificar genes, prever a configuração tridimensional de proteínas, identificar inibidores de enzimas, organizar e relacionar informação biológica, simular células, agrupar proteínas homólogas, montar árvores filogenéticas, analisar experimentos de expressão gênica entre outras inúmeras aplicações.

Page 3: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Conceitos

“BD biológicos se tornaram uma importante ferramenta  no entendimento da vasta quantidade de fenômenos biológicos existentes, desde a estrutura das biomoléculas e sua interação ao metabolismo como um todo e a evolução das espécies.  Este entendimento contribui para facilitar a luta contra doenças, auxilia no desenvolvimento de novos fármacos e na descoberta de relações entre espécies.” (Wikipedia, 2006)

Page 4: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Conceitos

•São tanto bancos públicos (ex: Genbank) como privados    •Mais de 1000 bancos de dados biológicos comerciais e públicos disponíveis atualmente  •Acesso a esses bancos de dados através de padrões abertos (open standards) como a web é importante dadas as características dos usuários destes bancos – Servidores UNIX x Macintosh •A revista NucleicAcidsResearch é um importante recurso com informações sobre estes BD(http://www3.oup.co.uk/nar/database/c/)

Page 5: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Motivação

• Disponibilizar dados biológicos para os cientistas.  • O máximo possível de um tipo particular de informação

deve estar disponível em um único lugar.  • Dados publicados podem ser difíceis de encontrar ou

acessar. • Coletá-los da literatura consume muito tempo.

 • Disponibilizar dados em formato que possa ser lido por

um computador.

Page 6: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Conteúdo

Dados de genômica, transcriptômica, proteômica, taxonomia, ecologia, doenças, fármacos...

Informações:• Seqüências de nucleotídeos, aminoácidos• Função, estrutura, localização no cromossomo• Mapas metabólicos• Efeitos clínicos de mutações• Características genéticas de populações específicas• Catálogo de espécies ou recursos naturais

Page 7: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Conteúdo

Bancos de Dados bibliográficos. • Resumem a literatura cientifica de uma forma legível para a máquina.  

 Bancos  de  Dados  Taxonômicos.  • Bancos  de  dados  de classificação  de  espécies.  São  extremamente 

dependentes  da  classificação  feita  por  um especialista.

Bancos de Dados de Seqüências de Nucleotídeos. • Enfocam entidades biológicas como genes e ácidos nucléicos. Visam o

armazenamento e divulgação dedados de seqüências de nucleotídeos de uma comunidade de pesquisa. As seqüências de DNA e RNA são normalmente apresentadas juntamente com outras informações como o organismo a qual a seqüência pertence ou ainda com as funções fisiológicas relacionadas à seqüência.

Page 8: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Conteúdo

Bancos de Dados Genômicos. • Disponibilizam dados genéticos de um organismo especial, variando muito no

conteúdo. As informações armazenadas em bancos de dados  genômicos  incluem  informações sobre genótipos,  nome de genes,  propriedades  de genes, mutações específicas, assim como mapas genômicos e informações referentes a raças.

Bancos de Dados Proteômicos. • Em geral, podem ser vistos como uma mistura de banco de dados de

seqüências de nucleotídeos, seqüências de proteínas e outros.

Bancos de Dados de Vias Metabólicas. • Armazenam informações sobre o metabolismo de um organismo ou de vários

organismos diferentes. As enzimas participantes de reações são freqüentemente relacionadas com bancos de dados de seqüências.

Page 9: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Conteúdo

Bancos de Dados de Seqüências de Proteínas. • Proporcionam informações sobre proteínas. Bancos de dados universais que

armazenam informações sobre proteínas de todos organismos devem ser diferenciados de bancos de dados especializados que armazenam informações  sobre  famílias  especificas  ou  grupo  de  proteínas  ou  sobre  as  proteínas  em espécies específicas.

 Bancos  de  Dados  de  Estrutura  Protéica.  • Estes  bancos  mantêm  dados relativos à estrutura de proteínas. A estrutura

3D completa de proteínas é representada pelo armazenamento de coordenadas no espaço 3D.   

Bancos de Dados Híbridos. • Trata-se de bancos de dados que armazenam diferentes conteúdos,

pertencendo a mais de um dos grupos citados.Com o crescente número de dados biológicos que vem sendo gerados,vários  bancos  de  dados  têm  surgido.

Page 10: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Exemplos

Alguns tipos de bancos de dados biológicos:

•Bancos de dados primários de seqüência (nucleotídeos e aminoácidos) –GenBank, UniProt•Bancos de genomas – Mouse GenomeDatabase, NCBI Genomic Biology•Bancos de dados especializados - Flybase, Wormbase, CGAP•Bancos de dados de estrutura de proteínas – PDB, SCOP•Bancos de dados de interações proteína-proteína – STRING, BioGRID•Bancos de Cadastro de recursos naturais – AmazonLink, ENDS, National Whale and Dolphins Stranding Database

Page 11: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Relembrando

Nucleotídeos ou nucleótidos são compostos ricos em energia e que auxiliam os processos metabólicos, principalmente as biossínteses, na maioria das células.

Funcionam ainda como sinais químicos, respondendo assim a hormônios e outros estímulos extracelulares; eles são também componentes estruturais de cofactores enzimáticos, intermediários metabólicos e ácidos nucleicos. Os nucleóticos podem ser considerados os monómeros da DNA/RNA, sendo o polimero, o próprio DNA/RNA.

Page 12: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Relembrando

Genótipos, o conjunto dos cromossomos que se situam no núcleo das células. Os cromossomos são interpretados como uma sequência de genes. São os genes os portadores das informações que condicionam o fenótipo. Ao conjunto dos genes de um indivíduo damos o nome de genótipo.• É o conjunto dos genes, condiciona os fenótipos totais.

• São as informações hereditárias de um organismo contidas em seu genoma.

 • gene é uma seqüência de nucleotídeos do DNA que pode

ser transcrita em uma versão de RNA.

Page 13: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Relembrando

Fenótipo são as características observáveis ou caracteres de um organismo como, por exemplo: morfologia, desenvolvimento, propriedades bioquímicas ou fisiológicas e comportamento. Resulta da expressão dos genes do organismo, da influência de fatores ambientais e da possível interação entre os dois. Nem todos os organismos com um mesmo fenótipo parecem ou agem da mesma forma, porque a aparência e o comportamento, assim como os demais componentes do fenótipo, são modificados por condições ambientais e de desenvolvimento. Do mesmo modo, nem todos os organismos cujas aparências se assemelham possuem necessariamente o mesmo genótipo.

Page 14: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

O DNA é uma hélice dupla onde os pares seguem algumas regras.

Page 15: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Características BDB

• Tratam de dados biológicos altamente heterogêneos mas relacionados

 • Informações dinâmicas, modificações e atualizações

constantes • Grande volume e variedade de dados biológicos

Page 16: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

  

Page 17: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

  

Page 18: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Geração de Dados

Fontes de dados:

• sequenciamento e anotação de genomas  • experimentos em larga escala: identificação de proteínas,

estrutura 3D de proteínas, microarranjos de DNA Anotação:

• anexar conhecimento biológico relevante aos dados de sequenciamento do genoma de um organismo.

Page 19: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Geração de Dados

• Visão direcionada para a biologia molecular • Base da biologia molecular: DNA

o Nucleotídeos {A, C, G, T}  • Além do DNA, existem outros tipos de dados na  linha de evolução (RNA e proteínas)   • Uma seqüência de DNA pode possuir milhares de  pares de nucleotídeos.  • Cada seqüência possui uma identificação, funções  biológicas e podem pertencer a vários organismos.

Page 20: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

  

Page 21: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Requisitos

•Qualidade dos dados (obtenção). •Anotações consistentes. •Integração entre ferramentas. •Fácil acesso às informações disponíveis.

•Mecanismos para extrair do conjunto de dados apenas aqueles de interesse do pesquisador.

Page 22: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Fatos

Mais de 1000 bases de dados diferentes • 968 databases em The Molecular Biology Database

Collection: 2007 update by Galperin, Nucleic Acids Research, 2007, Vol. 35, Database issue D3-D4

 Tamanho dos bancos: de 100kB  até  100GB • DNA: >100GB• Proteina: 1GB• 3D structure: 5GB

Page 23: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Fatos

Organismos, Número de genes:

Plantas, <50.000Mamíferos, 100.000Vermes, 14.000Bactérias, 2-4.000 dsDNAVírus Vacina, <300 ssRNAVírusINfluenza 12

Page 24: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem

Atualmente, os modelos de dados “tradicionais” mais referenciados para desenvolvimento  de  bancos  de  dados  de  biologia  molecular  são:  o  modelo  relacional,  o modelo orientado a objetos e o modelo semi-estruturado (bancos de dados XML).

Cada  vez mais  bancos de dados  com  diferentes  conteúdos do  domínio abordado estão utilizando um SGBD relacional.  Por exemplo: • Genome Sequence Database (GSDB), um banco de dados de seqüências de

nucleotídeos, é implementado usando o SGBD Relacional Sybase. • CyanoBase, um banco de dados genético, também está implementado

usando o Sybase • O banco de dados proteômico YPD é gerenciado por um SGBD relacional

Oracle. 

Page 25: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem  - Modelo Relacional

Dados biológicos são complexos. Um típico tipo de dado tem uma estrutura aninhada de difícil representação no modelo relacional. Sistemas gerenciadores de bancos de dados relacionais freqüentemente proporcionam um projeto fragmentado e não intuitivo.

São melhores quando o esquema é simples, o dado é regular e consultas sucessivas são independentes. Apesar disso, SGBDs relacionais são utilizados para gerenciar todo tipo de dado biológico.

O esquema do modelo relacional é pré-definido. Os dados são abstraídos em entidades e relacionamentos, sendo armazenados em tabelas. Além disso, o modelo relacional é muito restritivo quanto à habilidade de ser estendido O fato de decisões serem tomadas nos estágios iniciais, como a definição das entidades e dos atributos, caracteriza uma desvantagem do modelo relacional.  Em  dados biológicos, não há como predizer qual fator se provará importante ou sujeito à modificação, isto se tornar um problema, pois se mostra difícil e trabalhoso, senão impossível, alterar o esquema.

Page 26: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem - Modelo Relacional

A força do modelo relacional é sua total provisão por SQL. Mas sua principal fraqueza é a ineficiência para modelagem de objetos genômicos complexos.

O modelo relacional é orientado em direção a um eficiente armazenamento e gerenciamento de dados, mas não provê construtores para uma boa captura da semântica dos dados: a representação de um objeto conceitual complexo em um banco de dados relacional pode  se  estender  por  muitos  registros  em  várias  tabelas  distintas,  fazendo  do  esquema relacional um pobre veículo para comunicação semântica de um banco de dados.

Com relação ao desempenho pode–se destacar que SGBDs relacionais apresentam melhor desempenho em operações de pesquisa para bases de dados de grande dimensão.

Page 27: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem - Modelo Orientado a ObjetoAssim como o modelo relacional, o modelo orientado a objeto está sendo bastante empregado para o tratamento de dados biológicos.  O INTERACT, por exemplo, um banco de dados sobre interações de proteína, utiliza o SGBD orientado a objetos Poet.  Outros bancos de dados como o PSD/PIR, um banco de seqüências de proteínas também foram implementados usando um SGBD orientado a objetos. 

Page 28: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem - Modelo Orientado a ObjetoNo modelo orientado a objeto os dados são abstraídos e armazenados como objetos, possuindo estruturas com tipos pré-definidos. Sistemas orientados a objeto são melhores quando o esquema é complexo, o dado irregular e as consulta correlatas, sendo mais fácil pesquisar nas vizinhanças.

Uma vantagem de armazenar dados em um SGBD orientado a objeto é que ele é capaz de proporcionar uma melhor performance para dados complexos (ex: dados biológicos) como gráficos complicados, de 10-1000% comparado com o padrão de banco de dados relacional.

Diferentemente do modelo relacional, modelos orientados a objeto são extensíveis, contudo enfatizam o comportamento de objetos e insistem que cada objeto tem sua  própria identidade.

Page 29: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem - Modelo Orientado a ObjetoA extensibilidade de sistemas de bancos de dados baseados em orientação a objeto também nos permite incorporar operações sobre os dados diretamente nas descrições de classe do objeto no banco de dados, deste modo escondendo os detalhes de implementação do usuário e permitindo ser usado diretamente com a linguagem de consulta do banco de dados.

A principal força do modelo orientado a objeto é seu poder de modelagem de dados altamente flexível, oferecendo uma elegante maneira de representação de objetos genômicos complexos. A principal fraqueza inclui a falta de uma forma genérica de acesso aos objetos complexos.

A orientação a objeto permite ainda mais concisão e facilidade para entender definições do banco de dados quando comparados com construtores de bancos de dados relacionais.

A experiência tem mostrado que este tipo de modelagem  permite  criar  esquemas  que  são  mais  intuitivos  para  biólogos  moleculares compreender  se  comparados  com  os  esquemas  relacionais.

Page 30: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem - Modelo Semi-Estruturado (XML)

Dados biológicos nem sempre são bem estruturados, muitas vezes se mostram incompletos, irregulares, redundantes ou contem erros. A maioria deles são implicitamente estruturados. Portanto, dados da biologia molecular são bons candidatos para um modelo de dados semi-estruturado.

No modelo semi-estruturado, o esquema é definido dinamicamente através dos dados (auto-descritivo), apresentando uma descrição flexível de dados com relacionamentos complexos.

A natureza auto-descritiva de XML a torna uma forma promissora para definição de dados semi-estruturados.

XML é altamente flexível. Atualizar um modelo de dados é, portanto, simples. XML é orientado a Internet e tem grande capacidade para vincular dados, podendo ser utilizado para interconectar bancos de dados.

Page 31: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Modelagem - Modelo Semi-Estruturado (XML)

XML  proporciona  uma  área  aberta  para  definir  especificações padronizadas. Ponto importante, pois claramente há falta de padronização na bioinformática. O custo de um formato baseado em texto na analise de dados, armazenamento e transmissão precisam ser avaliados antes de adotar XML como uma solução geral. Contudo, um formato texto significa que o código fonte pode ser lido e editado com um editor de texto.

A expressividade de um modelo de dados XML provavelmente não será suficiente para a biologia molecular. A semântica de dados biológicos é bastante rica e requer um modelo de dados bastante expressiva.XML não tem mecanismos de herança e nem métodos em objetos. O conceito de relacionamento pode ser imitado através de referências lentas, mas não existe como tal.

Apenas restrições de unicidade, cardinalidade e não nulo podem ser especificadas: não há simetria, nem restrições elaboradas e nem ‘triggers’; XML não tem suporte para valores numéricos, tabelas e matrizes.

Page 32: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Desafios

Armazenar dados de sequenciamento, experimentos e resultado das anotações (conhecimento biológico).Projetar banco de forma eficiente para facilitar recuperação de informações.

Disponibilizar acesso às informações (ferramentas) • Interface com usuário:  intuitiva, fácil manipulação• Flexibilidade de acesso: tipos de informação que podem ser

recuperadas (consultas)• Flexibilidade de visualização: formato de apresentação dos

dados (texto, gráfico, links)

Page 33: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Desafios

Integrar dados heterogêneos

• Integração física (bancos distribuídos geograficamente)  

o Tecnologias de integração de dados (web services, DAS)

 • Integração conceitual (semântica) 

 o Ontologias (bases de conhecimento)

Page 34: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Desafios

Diferentes bases de dados para armazenamento de dados biológicos: • arquivos em formato de texto

 • arquivos estruturados

 • bancos de dados relacionais

 • bancos de dados objeto-relacionais

 • bancos de dados orientado a objetos

Page 35: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Ontologias

Page 36: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Desafios

Muitas bases de dados foram construídas por biólogos. • Não padronização da taxonomia

 • Dificuldade na adoção de um vocabulário comum entre

os grupos de pesquisa • Termos diferentes para conceitos iguais

 • Conceitos diferentes para termos iguais

Page 37: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Desafios

Qualidade dos dados disponíveis na Web

• Grupos de pesquisa submetem suas descobertas • Algumas bases aceitam de qualquer entrada

 • Muitas bases não verificam a qualidade dos dados

 • Outras bases preocupam-se com a qualidade dos

dados, onde um comitê valida-os. Estas bases ganham destaque da comunidade científica.

Page 38: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Buscas

Muitos tipos de seqüências de entrada

• Pode ser uma seqüência de aminoácido ou de nucleotídeo • Genômica, cDNA/mRNA, proteína

 • Completa ou fragmentada

 Matches exatos são raros

• Em geral, o objetivo é recuperar um conjunto de seqüências similares

Page 39: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Buscas

O que queremos saber sobre a seqüência?• Ela é similar ao algum gene conhecido? Quão próximo é o

melhor match? Significância?  • O que sabemos sobre este gene?

o Genômica(localização no cromossomo, regiões reguladoras, ...)

o Estrutural (estrutura conhecida? ...)o Funcional (molecular, celular e doença)

     •Informação evolutiva

o Este gene é encontrado em outros organismos?o Qual é sua árvore taxonômica?

Page 40: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

NCBI - National Center for Biotechnology Information - GenBank

NCBI disponibiliza o banco de sequência de DNA GenBank desde 1992. O GenBank tem acesso aberto e possui uma coleção de todas as sequências de nucleotídios disponíveis publicamente e suas proteínas traduzidas.

• Recebe sequências prodozidas em laboratórios de todo o mundo de mais de 100,000 organismos.

• Cresce a ritmo exponencial, duplicando sua base a cada 18 meses.• Em agosto de 2006 possuía mais de 65 milhões de bases de

nucleotídios em mais de 61 milhões de sequências. Se coordena com laboratórios individuais e outros bancos de sequências como European Molecular Biology Laboratory (EMBL) e DNA Database of Japan (DDBJ).

Page 41: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Basic Local Alignment Search Tool (BLAST)

Algoritmo de comparação de sequências biológicas primárias (aminoácidos e nucleotídios)  Permite ao pesquisador comparar uma sequência com outras disponíveis na base de dados e idientificar as parecidas com um determinado grau de confiabilidade. • Algorítmo de busca de sequências genéticas• Cria lista de partes da sequência de busca• Pesquisa a base de dados• Calcula semelhanças

Page 42: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Protein Data Bank (PDB) & Fasta

PDB: • Banco de dados que compõe o projeto NCBI.• É um repositório de informações estruturais 3-D de grandes

moléculas biológicas como preoteínas e ácidos nucléicos.• Trabalho com o MMDB (Molecular Modeling DB) .

 Fasta  • Formato de texto que representa sequências de

nucleotídios ou peptídios, em que pares base ou aminoácidos são representados usando letras.

  

Page 43: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Exemplo

Influenzavirus A

• gripe aviária• gripe suína

o depende da espécie do hospedeiro Neuraminidase

• enzima presente na superfície dos vírus influenza que permite ao vírus ser liberado da célula hospedeira

Page 44: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
Page 45: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
Page 46: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Exemplo

Links: http://en.wikipedia.org/wiki/Influenzavirus_A

http://en.wikipedia.org/wiki/Viral_neuraminidase

Page 47: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Exemplo

Influenza Research Databasehttp://www.biohealthbase.org/GSearch/fluSegmentDetails.do?ncbiGenomicAccession=FJ998214&decorator=influenzaNCBI - Nucleotide Databasehttp://www.ncbi.nlm.nih.gov/nuccore/229484043?report=genbank

NCBI - Taxonomy Browserhttp://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=643780

NCBI - Blast *http://blast.ncbi.nlm.nih.gov/Blast.cgi*

NCBI - PDB - MMDBhttp://www.ncbi.nlm.nih.gov/Structure/mmdb/mmdbsrv.cgi?uid=67153

Page 48: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
Page 49: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Influenza Research Database

Através de palavras-chave pesquisa-se:• Segmentos de Nucleotídios• Proteínas• Tipos de Influenzas

o tipos de hospedeiroo paíso data de adiçãoo e outros.

Pesquisando Neuraminidase em tipo s de influenza, obtêm-se mais de 10 mil resultados, e arbitrariamente seleciona-se um caso mexicano de 2009 com um hospedeiro humano.

Atributos (taxonomia, segmento...) possuem IDs que "linkam" diretamente outras bases usadas na consulta. (NCBI, UniProtKB, GBrowse, TARGET, IEDB)

Page 50: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
Page 51: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
Page 52: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

NCBI - Nucleotide - Taxonomy

Através do ID de segmento (FJ998214) se acessa página do mesmo na base de Nucleotídios do NCBI. • autores, referências, sequência do segmento, tradução Fasta.

 Através do ID de taxonomia (643780) se acessa a página da espécie (Influenza A virus (A/Mexico/InDRE4487/2009(H1N1))) na base de Taxonomia do NCBI.  Na página de segmento já há um link para usar o Blast e fazer comparação do segmento genético em outras espécies sem precisar copiar e colar a sequência Fasta.  

Page 53: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
Page 54: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

NCBI - Blast - PDB - MMDB

Através de múltiplas consultas como resultado são apresentadas dezenas de variações de vírus que possuem a mesma sequência  exata (100%) e aproximadas (99%); toas com seus IDs linkados para continuar a pesquisa no NCBI.

No mesmo portal há ferramentas de visualização 3D das estruturas dos vírus, o formato pode ser baixado e visualizado com o uso de um software (Cn3D) na máquina do usuário. Toda a navegação é intuitiva feita a partir de links e IDs e as bases funcionam de forma interligada.

Page 55: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
Page 56: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Bibliografia

http://www.icb.ufmg.br/biq/maira/biodbfiles/aula1-introducaobioinfo.pdf

http://biotec.icb.ufmg.br/cabi/aulas/aula21.pdf

http://www.inf.ufrgs.br/~clesio/cmp151/cmp15120031/BDsBiologicos.pdf

http://en.wikipedia.org/wiki/National_Center_for_Biotechnology_Information

http://en.wikipedia.org/wiki/BLAST

http://en.wikipedia.org/wiki/Protein_data_bank#Viewing_the_data

http://en.wikipedia.org/wiki/FASTA_format http://pt.wikipedia.org/wiki/Gene

Page 57: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina

Bibliografia

http://pt.wikipedia.org/wiki/Gen%C3%B3tipo http://pt.wikipedia.org/wiki/Fen%C3%B3tipo

http://www2.dc.uel.br/nourau/document/?view=127