Alinhamento de seqüências
Qual a importância do alinhamento de seqüências
• Permite estabelecer identidades entre sequências
• Permite a dedução de função de proteínas baseado em similaridade
• Permite a definição de domínios protéicos conservados
• Permite o estudo da evolução de proteínas (evolução de organismos?)
Introdução: princípios de alinhamento de nucleotídeos
Dot matrix
Cria-se uma matriz onde são marcadas regiões com nucleotídeos coincidentes entre as duas seqüências comparadas Linhas diagonais formadas representariam regiões que apresentam conservação entre as duas seqüências
Dynamic programing
Consegue prever o melhor alinhamento possível
Requer muito recurso computacional, não sendo aplicável para comparações extensivas
Algoritmos mais utilizados Needleman-Wunsch (global) e Smith-Waterman (local)
Exemplo do algoritimo
Scores= +5 match, -2 mismatch e -6 gap
Resolução da matriz
Traceback- a partir do melhor escore se refaz o caminho para dedução do alinhamento
Scores= +5 match-2 mismatch-6 gap
Alinhamento local X alinhamento global
Alinhamento local X alinhamento global
Alinhamento global- Busca o melhor alinhamento em toda a extensão das duas seqüências sendo comparadas Alinhamento local- busca somente alinhamento de regiões de alta similaridade, não importando as seqüências adjacentes a estas regiões
Ferramenta de busca em bancos de dados
Algoritmo do BLAST
Seqüência é dividida em fragmentos de 11 nucleotídeos e estes passam a ser procurados em todo o banco de dados.
ATCGTACAATAACGTG
ATCGTACAATA TCGTACAATAA CGTACAATAAC
GTACAATAACG TACAATAACGT ACAATAACGTG
Algoritmo do BLAST
ATCGTACAATA TCGTACAATAA CGTACAATAAC
GTACAATAACG TACAATAACGT ACAATAACGTG
AAATGTGTGTATCGTACAATATCGTG
Trecho encontrado em seqüências alvo é utilizado como “seed”
ATCGTACAATAACGTG
AAATGTGTGTATCGTACAATATCGTG
Algoritmo do BLAST
Extensão do alinhamento utilizando os métodos para encontrar o alinhamento ótimo
Como é uma ferramenta de alinhamento local só será alinhado trechos que produzam um escore elevado
Alinhamento de seqüências protéicas
Considerações evolucionarias
• Proteínas evoluem juntamente com o organismo
• Após a divergência de duas espécies há uma diversificação da seqüência de proteínas ortologas (isto é com uma origem evolutiva em comum) devido a mutações sofridas no código genético do individuo
• Após a ocorrência de mutações tenderão a serem selecionadas negativamente aquelas que causarem alterações drásticas na estrutura da proteína
Os fenômenos de mutações não são totalmente randômicos havendo uma preferência por eventos de transição em relação a eventos de transversão.
Considerações evolucionarias
Purinas Pirimidinas
Considerações evolucionarias
Considerando a freqüência de mutações
de nucleotídeos a mutação
Isoleucina-> Valina seria mais freqüente
que Isoleucina-> Leucina
Considerações evolucionarias
Considerando o código genético é possível
notar que nem todas as mutações de
aminoácido podem ser obtidas a partir de
uma única mutação de nucleotídeo
Deste modo teremos algumas mutações
mais freqüentes que as outras
Considerando este aspecto a mutação
Isoleucina-> Valina seria mais freqüente que
Isoleucina->Alanina
Considerações evolucionarias
ATA->AGA
ATA->CTACadeia lateral apolar
Cadeia lateral apolar
Cadeia lateral polar
Neste caso apesar da
probabilidade da mutação
ocorrer ser a mesma é muito
mais provável que a primeira
mutação seja selecionada
negativamente, pois introduz
um aminoácido de cadeia
lateral de caráter muito
diferente da original.
Considerações evolucionarias
• Considerando todos estes fatores é concluir que a partir de um evento ancestral de divergência de duas proteínas ortologas, a taxa de conversão de um determinado aminoácido para outro não será igual e sim dependente do par que iremos avaliar
• Além disso a abundancia relativa dos aminoácidos é diferente, influenciando o resultado
• Matrizes de comparação analisam as freqüências relativas com que ocorrem as diferentes substituições de aminoácidos
• Com bases nestas freqüências e com a abundancia relativa de cada aminoácido na proteína é possível atribuir um escore que reflete a probabilidade daquela mutação ocorrer (prováveis –escore positivo)
• Os dois tipos mais utilizados de matrizes são a PAM (Point Accepted Mutation) e a Blossum (Blocks Substitution Matrix)
Matriz de comparação
Matriz do tipo PAM
Analise de evolução de seqüências (por
métodos de parcimônia)
Calculo de uma matriz baseado nas taxas
de substituições dos aminoácidos
Matriz do tipo PAM
A matriz PAM 1foi produzida baseados um determinado tempo de evolução (PAM unit- tempo em que 1% dos aminoacidos mudam). Outras matrizes (PAM 100, PAM 250) foram derivadas a partir desta primeira matriz. Quanto maior a unidade de PAM a matriz seria mais adequada para comparar seqüências mais divergentes.
Matriz tipo PAM250 é representada acima mostra acima da diagonal o numero de substituições observadas e a diagonal e abaixo representam escores derivados. Caixas em cinza tem escore positivo e aquelas em preto são as mutações possíveis via a substituição de um único nucleotídeo
Matriz do tipo Blosum• Ao contrario da matriz PAM não se baseia em um modelo evolucionário
explicito, mas sim em analise de seqüências alinhadas par a par.
Matriz PAM
Matriz BlossumConsiderando a primeira coluna
teríamos 6X5= 30 conservações de T
6 mudanças T->I e seis mudanças I->T
Matriz do tipo Blosum
• Entretanto este tipo de abordagem é muito sensível a presença de seqüências muito semelhantes na comparação
• Para solucionar isso as seqüências são agrupadas em blocos baseado em seu nível de identidade e cada bloco terá o mesmo peso independente do numero de seqüências que o compõe
• Deste modo temos diferentes matrizes baseados no nível de identidade utilizado para construir os blocos (por exemplo a matriz blosum80 criou blocos com proteínas que são 80% idênticas)
Equivalência entre matrizes
PAM100 ==> Blosum90
PAM120 ==> Blosum80
PAM160 ==> Blosum60
PAM200 ==> Blosum52
PAM250 ==> Blosum45
Apesar de serem construídas com metodologias diferentes e
portanto produzirem matrizes não equivalentes é possível
dizer que de modo genérico as matrizes Blosum e PAM
teriam as seguintes equivalências