View
106
Download
2
Category
Preview:
Citation preview
Genómica
Licenciatura em Ciências BiomédicasDepartamento de Ciências da Saúde, UCP
Fevereiro 2013
Genómica 12-13 MJC 2
Sumário
3. Montagem de genomas• Montagem hierárquica• Montagem de genomas completos• Montagem de genomas com base em modelos• Problemas associados à montagem dos
genomas– Controlo de qualidade
18-03-2013
Genómica 12-13 MJC 3
Aumenta o número de peças para 2-3 triliões.
Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças
Montagem de genomas
• Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original.
18-03-2013
Genómica 12-13 MJC 4
Algumas das peças…
• Faltam– Problemas na construção das bibliotecas– Problemas com a amplificação por PCR
• Têm erros– Zonas repetitivas– Erros no PCR
18-03-2013
Aumentamos o nº de vezes que cada peça é
sequenciada!Entre 8 e 100 vezes
Genómica 12-13 MJC 5
A sequência (read) ideal
• É longa• Não tem erros
18-03-2013
Genómica 12-13 MJC 6
Podemos considerar 2 tipos
• Única (single read)– Resulta da sequenciação do
fragmento em si.• Emparelhada (paired read)– Nestas leituras eu sei a
sequência das pontas e a que distância estão uma da outra.
18-03-2013
Genómica 12-13 MJC 7
MONTAGEM HIERÁRQUICA OU DE CLONES
18-03-2013
Genómica 12-13 MJC 8
Abordagem usada para alinhar grandes inserções clonadas
– Primeiro é feito o mapeamento dos clones por padrões de digestão, marcadores de linkage ou mutações induzidas.
18-03-2013
Genómica 12-13 MJC 9
Desse mapeamento….
18-03-2013
• Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição.
• É feita a sequenciação desses fragmentos:– Cada sequenciação (read) é avaliada quanto à sua
qualidade.– É reconstruida a sequencia inicial usando as
sobreposições.
Genómica 12-13 MJC 10
MONTAGEM DE GENOMAS COMPLETOS
18-03-2013
11
Método mais aplicado atualmente
• Uma vez que a maioria da sequenciação já não implica clonagem.
• Dispensa o passo do mapeamento.• São sequenciadas as extremidades dos vários
fragmentos que são depois alinhadas.
Genómica 12-13 MJC18-03-2013
12
Desse alinhamento surge o “contig”
18-03-2013 Genómica 12-13 MJC
• Inclui 3 fases:– Sobreposição– Alinhamento – Consenso
13
Desse alinhamento surge o “contig”
18-03-2013 Genómica 12-13 MJC
A localização vai ser determinada pela
homologia
14
Vários contigs dão um scaffold
18-03-2013 Genómica 12-13 MJC
Genómica 12-13 MJC 1518-03-2013
Genómica 12-13 MJC 16
ALGUNS ALGORITMOS DE MONTAGEM DE GENOMAS
18-03-2013
Genómica 12-13 MJC 17
Greedy
• Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias.
18-03-2013
Genómica 12-13 MJC 18
Overlap-Layout-Consensus
• Todas as sobreposições são mapeadas (Overlap)• É eliminada a informação redundante (Layout)• Usando a teoria de grafos é desenhado o mapa mais
simples e que corresponderá à organização inicial.
18-03-2013
Genómica 12-13 MJC 19
Overlap-Layout-Consensus
• Pode ser substituído pelo: Align-Layout-Consensus pois já há vários genomas de referência sequenciados.
18-03-2013
Genómica 12-13 MJC 20
CONTROLO DE QUALIDADE
18-03-2013
Genómica 12-13 MJC 21
Em genomas de novo
• Não se sabe quase nada– Nº de scaffolds e contigs que representam o
genoma.– A proporção de reads que consegue ser – O comprimento dos contigs e scaffolds
relativamente ao comprimento do genoma.
18-03-2013
Genómica 12-13 MJC 22
N50
• Tamanho do contig mais curto acima do qual se inclui 50% do genoma.
18-03-2013
Genómica 12-13 MJC 23
Os vários algoritmos devem ser comparados• Foi feita uma comparação no artigo GAGE:
18-03-2013
Genómica 12-13 MJC 24
O algoritmo deve ter em conta• Dependendo do organismo– Tamanho diferente dos genomas– Heterozigotia diferente• Humanos (1 par de bases pair/1000) • Lesmas do mar 1/50–100
18-03-2013
Genómica 12-13 MJC 25
Independentemente do algoritmo…
• Entra lixo• Sai lixo– Muitos sequenciadores têm controlos de
qualidade para contaminações, quimeras e erros de leitura.
18-03-2013
Genómica 12-13 MJC 26
MONTAGEM COMPARATIVA
18-03-2013
Genómica 12-13 MJC 27
Genomas de referência
Genomas de mesma espécie ou espécies semelhantes que servem de modelo.Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado
18-03-2013
Genómica 12-13 MJC 28
PROBLEMAS NA MONTAGEM DE GENOMAS
18-03-2013
Genómica 12-13 MJC 29
Dificuldades• Contaminação
– Sequências que não pertencem ao genoma que se quer sequenciar.• Erros de montagem
– As sequências repetidas podem induzir os algoritmos de montagem em erro. As secções podem ser montadas como mais curtas ou sobrepostas pelo que desaparecem do genoma final.
• Homologia em grande escala.– Nos genomas dos mamíferos há zonas com uma grande percentagem de
homologia (>90%) mas que são zonas diferentes do genoma. Como a homologia éusada para fazer os alinhamentos as montagens ficammal feitas.
• Polimorfismo genómico– Dado que muitos genomas são poliploides a montagem de genomas muitas
vezes não consegue distinguir estes polimorfismos como possibilidades alternativas do mesmo locus.
18-03-2013
Genómica 12-13 MJC 30
Efeito das zonas repetidas
18-03-2013
Genómica 12-13 MJC 3118-03-2013
Genómica 12-13 MJC 32
Bibliografia
• http://www.ncbi.nlm.nih.gov/projects/genome/assembly/assembly.shtml
• http://www.cbcb.umd.edu/research/assembly_primer.shtml
• Artigo: de novo genome assembly; GAGE ambos na pasta
18-03-2013
Recommended