Upload
vuonganh
View
246
Download
5
Embed Size (px)
Citation preview
Métodos de alinhamento de sequências biológicas
Marcelo Falsarella Carazzolle
Resumo
- Introdução
- Alinhamentos ótimos
- Global
- Local (Smith-Waterman)
- Semi global- Semi global
- Matrizes de alinhamento (BLOSUM)
- Alinhamentos heurísticos
- BLAST
-PHI-BLAST, PSI-BLAST, MEGABLAST e BLAST2SEQS
Introdução
- Uma forma rápida de agregar alguma informação sobre uma
?
sequência desconhecida é compará-la com um banco de dados desequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a par entreas sequências. Isto é, se o banco de dados possuir 1000 sequênciasconhecidas serão realizados 1000 alinhamentos
- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)
Fonte: http://www3.ebi.ac.uk/Services/DBStats/
- Atualmente uma busca nesses bancos faz 100,000,000 dealinhamentos
- Existem vários programas de alinhamentos com diferentes metodologias, sendo que o mais utilizado é o BLAST
Relevância biológica
- Essencialmente esses alinhamentos devem tentar indicar umahomologia entre as sequências (ou pelos menos terem umasimilaridadeestatisticamente significante)
- Similaridade x Homologia
- identidade = número que indica a quantidade de nucleotídeos alinhadosalinhados
- similaridade = é uma medida que considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos
- homologia = similaridade entre sequências que dividem a mesma ancestralidade. Possui um significado evolutivo
10
1
0.1
0.01
0.001
0.0001
0.00001 = 1 x 10-5 = 1e-5
E-value x probabilidade
valu
e
Pro
babi
lidad
e do
alin
ham
ento
oco
rrer
por
aca
so
0.00001 = 1 x 10-5 = 1e-5
1e-10
1e-50
1e-100
1e-180
0
E-v
alue
Pro
babi
lidad
e do
alin
ham
ento
oco
rrer
por
aca
soQuanto maior o banco de dados, maior o e-value
Outras aplicações de alinhamentos
- Reconstrução da sequência consensu a partir de sobreposiçõesde fragmentos de sequências (montagens de sequências deDNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- ComparaçãoentreproteínaseDNA- ComparaçãoentreproteínaseDNA
- Construção de mapas físicos
- Comparação entre genomas
- ...
Alinhamentos
- A comparação entre sequências de DNA de organismosdiferentes é baseada no conceito de que estes organismosoriginaram-se de um ancestral comum.
- No contexto de evolução as sequências de DNA sofremmutações. Estas modificações locais entre os nucleotídeos podemser :
- Inserções : inserção de uma base ou várias bases nasequência
- Deleções : deleção de uma base ou mais bases na sequência
- Substituições : substituição de uma base por outra
- Portanto um programa de alinhamento de sequências biológicastem que considerar essas mutações
Exemplo :
Match = 1 Mismatch = -1
Gap = -2
- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que maximiza o score :
- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
= 24 – 4 – 10 = 10
Modelos para alinhamentos
- Alinhamento global
- útil quando as duas sequências tem tamanhos próximos
- Exemplo de programa : CLUSTAL
- Alinhamento local
- útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos e também para sequências com apenas alguns trechos conservados
- Exemplo de programa : BLAST E FASTA
- Alinhamento semi-global (ou pontas livres)
- útil para encontrar sobreposições de fragmentos de sequenciamento
- Exemplo de programa : PHRAP E CAP3
Programação dinâmica- Motivação : gerar e testar oscore de todos os possíveis alinhamentosé exponencial no tamanho das seqüências (nn ), onde n é o tamanhodas sequências :
- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo,o alinhamento de duas sequências de 1000 bp levaria trilhões de anos.
- Abordagemalternativa: programaçãodinâmica. Com programação- Abordagemalternativa: programaçãodinâmica. Com programaçãodinâmica o tempo de processamento e memória ficam quadráticos(n2):
- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, oalinhamento de 2 sequências de 1000 pb leva 100 segundos- Mas ainda não está bom, pois alinhamento de sequências de 10Mpb (genoma de Saccharomyces) levaria 377 anos
Alinhamento global
- Alinhamento de GACATTG com GATCAATG
1a linha e 1a coluna da matriz são fáceis de computar:- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4 G GAA -4T -6C -8A -10A -12T -14G -16
G-
GA- -
Lembre-se, penalidade de 1 gap = -2 e de dois gaps = -4
http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A -10A -10A -12T -14G -16
[i,j]=p(i,j)
- Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for um match e p(i,j) = -1 se for um mismatch.
- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A [i -1,j-1]C A -10A -12T -14G -16
[i,j][i-1,j]
[i,j-1][i -1,j-1]
= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] - 2)
- O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1] (diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
0
-2
-4
1
-1
-1
0
-4 -6
-3
-2
A
A
A
CG
-2
- Construindo o alinhamento
-4
-6 -3
-8
-1
-2
0
-4
-2
-1
-1
A
A
C -5
No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz
- G A C A T T G - 0 0 0 0 0 0 0 0 G 0A 0T 0C 0
Alinhamento local (Smith-Waterman)http://bioweb.pasteur.fr/seqanal/interfaces/water.html
C 0A 0 A 0T 0G 0
[i,j][i-1,j]
[i,j-1][i-1,j-1]
= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] – 2,0 zero)
- No alinhamento local a primeira linha e coluna são inicializadas com zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
No alinhamento local o alinhamento deve ser construído partir do maior score da matriz e para quando encontrar um score=0
Alinhamento semi-global
- Não penaliza espaços nas extremidades do alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC| | | | | |
- - - CAGCGTGG - - - - - - - -- No global teríamos,- No global teríamos,
CAGCA – CTTGGATTCTCGCCAGC - - - - - - G- T - - - - - -
- Qual dos dois alinhamentos é mais interessante ?
- No alinhamento semi-global a primeira linha e coluna são inicializadas com zeros. O resto é igual ao alinhamento global
- A abordagem de programação dinâmica é importante pois garante o melhoralinhamento entre duas seguências, mas ainda temos um problema :
- Lembram-se disso : se o alinhamento de 2 sequências de 100 pbleva 1segundo, o alinhamento de sequências de 10 Mpb (genoma deSaccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qualnão é garantido encontrar o alinhamento ótimo (heurística)mas ésignificantementemaisrápido. Comessemétodoosconceitosdealinhamentosignificantementemaisrápido. Comessemétodoosconceitosdealinhamentodiscutidos acima foram modificados dando origem aos programas dealinhamento local :
- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25(1990), 3389
- FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma dassequências (word size) e depois realiza uma busca exata por essas palavras nassequências a serem comparadas, filtrando assim os possíveis candidatos.
Alinhando proteínas
- Alinhamento proteína-proteína
- Alinhamento nucleotídeo-proteína
- Alinhamento proteína-nucleotídeo
- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
Matrizes de substituição- BLOSUM (BLOcks of amino acid SUbstitution Matrix )
- I e V => Hidrofóbicos
- D e W => D (carga negativa) e W (aromático)
- C => pontes de sulfeto (estrutural)
- A matriz foi construída a partir de alinhamentosmúltiplos globais de 504 grupos de proteínas
- BLOSUM 62 : grupos com similaridade >62%
- BLOSUM 80 : grupos com similaridade >80%
- BLOSUM 45 : grupos com similaridade >45%
Query Length Substitution Matrix
<35 PAM-30
35-50 PAM-70
50-85 BLOSUM-80
>85 BLOSUM-62 PNAS 89 (1992), 10915-19919
BLAST
• Basic Local Alignment Search Tool• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-
410)• Implementações: NCBI BLAST e WU-BLAST• Acesso via web / local (linux)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Alinhamento – sobreposição de trechos semelhante de duas
seqüências (seqs). BLAST traz pontuação e mostra alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento. • Homologia – genes com ancestral comum
• BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad
Query BD Compara Programant nt nt blastn
nt (trad) aa aa blastxaa aa aa blastpaa nt (trad) aa tblastnaa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.BD = formato das seqs do BD.nt (trad) = seq em nt traduzida pelo programa.Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).Programa = um dos cinco principais tipos de blast.
BLAST interface
BLASTp
http://www.ncbi.nlm.nih.gov/blast/
Limita a região da sequência que será usada na consulta
Pode ser usado um arquivo com várias sequências gravadas no formato fasta
Pode ser colocado várias sequências ao mesmo tempo ou vários GI’s (genbank identifier)
Banco de dados de proteínas do NCBI
Filtro por organismo, use o banco detaxonomia do NCBI para ver a formacorreta de escrever o organismo
Filtros mais elaborados usando as opçõesavançadas de busca do NCBI :
protease NOT hiv1[organism]=> retornaráapenas resultados com proteases que não sejamdo organismo HIV 1
Banco de dados de proteínas curadas pelo EBI
Banco de dados de proteínas com aestrutura tridimensional conhecida
Número máximo de sequências alinhadas
E-value de corteNúmero de bases que serão utilizados para formar as k-tuplas
Altera as penalidades de criação e extensão de gaps no alinhamento
Mascara regiões de repetição
Link
Corte 1e-5
1
subject
query
71
1 64
134
BLASTx – diferenças importantes
Diferentes códigos genéticos para diferentes organismos
A mudança noframe de leituragera a quebra doalinhamentoformando doisHSP´s (highscoring pair)
1
subject
query
10
91
243
6011
95
1
631
• Pode ser instalado localmente
• Bancos de dados próprios e atualizações
• Facilidades– Velocidade de buscas
– Maleabilidade
BLAST local
– Maleabilidade
– Automatização
– Dados locais
– Independe de internet
PHI-BLAST- É um blastp com a opção de passar uma outra sequência curta ou um padrão servindo como um vínculo para a consulta
Ex :
[CG](5)TG{A}N(1,5)C
N - Qualquer nucleotídeo
N(3) - Uma sequência de três nucleotídeos
N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G
PSI-BLAST- É um blastp interativo no qual a matriz (BLOSUM), após a primeira interação, é refeita com base nos alinhamentos entre as proteínas resultantes da consulta :
- uma posicão conservada no alinhamento recebe um score alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas
BL2SEQS- Faz um alinhamento de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn)
- http://www.ncbi.nlm.nih.gov/BLAST/bl2seq/wblast2.cgi
Spliced alignments
http://mobyle.pasteur.fr/cgi-bin/MobylePortal/portal.py?form=est2genome
Alinhamento de genomas
http://asap.ahabs.wisc.edu/mauve/
FIMFIM