Upload
internet
View
106
Download
1
Embed Size (px)
Citation preview
MetagenômicaCarla BartelsFrancisco M Ulloa StanojlovicLuis Fábio Batista
BMP 5762 – Bioinformática Aplicada ao Estudo de Doenças Parasitárias
Prof Dr Arthur GruberInstituto de Ciências Biológicas
• O termo Metagenômica foi usado primeiramente em 1998 por Jo Handelsman (Universidade de Wiscosin – EUA)
Dr. Anand Kumar &Dr. R. A. Siddique
METAGENOMAÉ o genoma coletivo da microbiota total, encontrada
em um determinado habitat.
METAGENOMAÉ o genoma coletivo da microbiota total, encontrada em um determinado habitat
METAGENÔMICAÉ a análise genômica das comunidades de
microrganismos de um determinado ambiente por técnicas independentes de cultivo.
Introdução
Dr. Anand Kumar &Dr. R. A. Siddique
Handelsman, 2004
Metatranscritoma
Permite a identificação de genes que estão ou não
sendo expressos
Metaproteômica
Permite uma melhor caracterização funcional
da comunidade microbiana
Metagenômica
Fornece a informação da capacidade metabólica
e funcional da comunidade microbiana
Dr. Anand Kumar &Dr. R. A. Siddique
Metagenômica aplicada
Dr. Anand Kumar &Dr. R. A. Siddique
Metagenômica fornece
Informação genética sobre possíveis novos biocatalizadores ou enzimas
Conexões genômicas entre função e filogenia de organismos “não cultiváveis”
Perfis evolutivos de função e estrutura de comunidades
Novas hipóteses de funções microbiais
Thomas et al, 2012
JCSetubal, 2012
JCSetubal, 2012
JCSetubal, 2012
Desenho do Estudo
Amostragem
Fracionamento da amostra
Extração de DNA
Sequenciamento de DNA
Montagem
Anotação
Análises Estatísticas
Armazenamento de dados
Compartilhamento de dados
Binning
Thomas et al, 2012
Handelsman, 2004
Amostragem• Isolar o DNA
• Depende do tipo de amostras
• Clonar DNA• Inserir dentro de um
vetor (plasmídio, cosmídio, BAC)
• Biblioteca• Screening e
sequenciamento
Daniel, 2005 em Prentice Hall, 2005
Amostragem {desafios}
• Amostras devem representar a população → Quantas amostras são necessárias? Curvas de raridade para estimar fração de espécies sequenciadas. (Abundância x Complexidade).
• Presença de populações dominantes afeta análises → representação maior e maior chance de montar contigs.
• Quanto mais metadados forem coletados mais detalhadas serão as inferências das condições ambientais. Ex.: dados geográficos, bioquímicos, data de coleta, métodos de extração do DNA.
Bruno Malveira Peixoto 2011
Sequenciamento – Shotgun
Commins, Toft, Fares, 2009
Genoma completo
Hierárquico
Prakash and Taylor, 2012
Montagem• Fatores a serem considerados:
• Tamanho das leituras de sequenciamento usadas para criar a base de dados de metagenômica
• São necessárias sequências mais longas para anotação?
• A base de dados está montada para reduzir os requerimentos de processamento de dados?
MIRA: An Automated Genome andAssembler
Montagem baseada em referência:
Montagem “de novo”:
Algoritmos rápidos rodam em laptop em 2h; Regiões divergentes não são cobertas – inserções, deleções ou
polimorfirmos.
Velvet Baseados em gráficos de Bruijn Requer grandes recursos computacionais Requer milhares de gigabytes – dias. Meta-IDBA e MetaVelvet – não clonalidade de populações naturais -
subgráficos de Bruijn - N50 e tam. contig
Thomas, Gilbert e Meyer, 2011
Meta-IDBA MetaVelvet
Montagem
Montagem {limitações}
• Amostragem incompleta – genomas parcialmente amostrados
• Formação de quimeras – sequências de espécies diferentes
• Dificuldade em montar amostras ricas em espécies (solo).
Bruno Malveira Peixoto 2011
Métodos de DiscriminaçãoProcesso de classificação das seqs de DNA em grupos que possam representar um genoma individual ou genomas de organismos fortemente relacionados
• Classificação composicional• Similaridade
Vários algoritmos foram desenvolvidos – empregam dois tipos de informações contidas dentro de uma dada seq DNA
Pontos importantes a considerar:• Tipo de dado de entrada disponível• Existência de training datasets adequados ou genomas de referência• Algumas ferramentas combinam os dois approachs – PhymmBl,
MetaClusterThomas et al, 2012; Liu, 2012
Classificação Composicional• Genomas têm composição de nucleotídeos conservada e isto será
refletido nos fragmentos de sequência dos genomas
• Conteúdo de GC• Uso de códons• Sítios de reconhecimento – 5S ou 16S rRNA
• Bioinfo tools:• Phylopythia• S-GSCM• TACAO
• Não funciona bem com leituras curtas por não conterem informações suficientes
Thomas et al, 2012; Liu, 2012
Conteúdo GC• Karlin & Burge, 1995
• A distribuição de nucleotídeos é relativamente constante dentro do genoma, mas varia entre genomas.
• A razão de possibilidades (odds ratio) de frequência de conteúdo C+G é essencialmente a mesma na maioria dos organismos para todo o DNA versus o DNA codificante e também a mesma para as frações de DNA das diferentes sequências.
• Talvez existam fatores que imponham limites às variações composicionais e estruturais de um genoma e que o conjunto de valores das odds ratios do dinucleotídeo seja uma assinatura genômica.
• Diferenças significativas entre procariotos e eucariotos, entre vírus e seus hospedeiros.
• Pxy = fxy / fx fyKarlin, 1995; Liu, 2012
Karlin, 1995
Karlin, 1995
Uso de códons
Codon Usage Database - http://www.kazusa.or.jp/codon/
Cada genoma tem uma estratégia particular de codificaçãoPercentual de G+C na 3a posição do códon tRNA
Códons redundantes/sinônimos para qq aa não são usados com frequências iguais entre os diversos organismos
Todos os aminoácidos, exceto Met e Trp, são codificados por 2 a 6 códons
Karlin, 1998; Ikemura, 1985
Similaridade• Compara leituras curtas contra sequências
codificadoras de bases de dados públicas de genes usando BlastX e então designa para o seu ancestral comum mais tardio (LCA) de um organismo alvo
• Bioinfo tools• IGG/M• MG-RAST• MEGAN• CARMA• Sort-ITEMS• MetaPhyler
Thomas et al, 2012; Liu, 2012
Classificação {Bioinfo}
• Análise de similaridade: IMG/M, MG-RAST, MEGAN, CARMA, Sort-ITEMS, MetaPhyler
• Análise composicional: Phylopythia, S-GSOM, PCAHIER, TACAO
• Similaridade e composicional: PhymmBL e MetaCluster
Necessidade de sequências de referência* (marcador de RNAr) para fechar o alinhamento para sequenciamentos de leitura curta.
* Base de dados escassas e tendenciosas para apenas três filos Proteobacteria, Firmicutes e Actinobacteria
Thomas, Gilbert e Meyer, 2011Bruno Malveira Peixoto 2011
ANÁLISES DOS DADOS
• Dados de metagenômica cada vez mais abundantes necessitam de banco de dados para cobrir as informações taxonômicas e funcionais
• Plataforma computacional robusta, combinado com programas de pesquisa de similaridade adaptados a esses dados.
Anotação
• Contigs longos ≥ 30.000 pb: RAST ou IMG
• Contigs curtos
Fase 1: identificação dos genes: FragGeneScan (FGS) 1-2% erro, MetaGeneMark (MGM), MetaGeneAnotator (MGA), Metagene e Orphelia
Fase 2: identificação atribuição de função e agrupamento taxonômico
• Usa FGS, Greengenes , RDP e similaridade por RNAr• Usa bases de dados funcionais de ontologia GO
(KEGG, eggNOG, COG/KOG, PFAM e TIGRFAM).
Pipelines
Thomas, Gilbert e Meyer, 2011
Sistema aberto que processa automaticamente as sequências de metagenomas, faz comparações com bases de dados existentes, computa reconstruções filogenéticas e classifica funcionalmente potenciais genes.
• Usa FGS, MGA e taxonomia baseada em 16S RNAr• Usa bases de dados funcionais de ontologia GO (KEGG,
eggNOG, COG e SEED).
Pipelines
Thomas, Gilbert e Meyer, 2011
• Usa FGA e MGA• Oferece esquema de anotação mais flexível
• Requer o uso do mesmo workflow para análise
Pipelines
Thomas, Gilbert e Meyer, 2011
MEGANPipelines
Aplicações
Aplicações
oIdentificar genes funcionais e/ou novas vias metabólicasoEstimar a diversidade microbiana;
permitindo o estudo dos genomas em uma comunidade como um todooCompreender a dinâmica da população de
uma comunidade inteira.
Saúde
Bioenergia
Metabolismo animal
Identificação novos patógenos
Vigilância
Medicina forense
FUNCIONAL
SEQUÊNCIAS
BIOPROSPECÇÃO
BIOPROSPECÇÃO
ESTUDOS ECOLÓGICOSPrimeiros estudos
• Mar de Sargaços– Comunidade
complexa– Genes
desconhecidos– Filotipos novos– Impossibilidade de
sequenciar todos os genomas presentes na amostra
• Global Ocean Sampling (GOS)
Fonte: http://camera.calit2.net/about/gos.shtm
Projetos recentes
• Microorganismos representam mais de 90% da biomassa do oceano, mediam todos os ciclos bioquímicos nos oceanos e são responsáveis por 98% da produção primária no mar.Metagenômica é uma abordagem inovadora de sequenciação para examinar as espécies microbianas de espaço aberto sem a necessidade de isolamento e cultura de laboratório de espécies individuais.
Alves, 2007
Projetos recentes
Projetos recentes
Fluxograma comparativo de projetos genoma tradicionais e metagenômicos
OBRIGADO!