26
Alinhamento de seqüências

Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Embed Size (px)

Citation preview

Page 1: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Alinhamento de seqüências

Page 2: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Qual a importância do alinhamento de seqüências

• Permite estabelecer identidades entre sequências

• Permite a dedução de função de proteínas baseado em similaridade

• Permite a definição de domínios protéicos conservados

• Permite o estudo da evolução de proteínas (evolução de organismos?)

Page 3: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Introdução: princípios de alinhamento de nucleotídeos

Page 4: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Dot matrix

Cria-se uma matriz onde são marcadas regiões com nucleotídeos coincidentes entre as duas seqüências comparadas Linhas diagonais formadas representariam regiões que apresentam conservação entre as duas seqüências

Page 5: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Dynamic programing

Consegue prever o melhor alinhamento possível

Requer muito recurso computacional, não sendo aplicável para comparações extensivas

Algoritmos mais utilizados Needleman-Wunsch (global) e Smith-Waterman (local)

Page 6: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Exemplo do algoritimo

Scores= +5 match, -2 mismatch e -6 gap

Page 7: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Resolução da matriz

Traceback- a partir do melhor escore se refaz o caminho para dedução do alinhamento

Scores= +5 match-2 mismatch-6 gap

Page 8: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Alinhamento local X alinhamento global

Page 9: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Alinhamento local X alinhamento global

Alinhamento global- Busca o melhor alinhamento em toda a extensão das duas seqüências sendo comparadas Alinhamento local- busca somente alinhamento de regiões de alta similaridade, não importando as seqüências adjacentes a estas regiões

Page 10: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Ferramenta de busca em bancos de dados

Page 11: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Algoritmo do BLAST

Seqüência é dividida em fragmentos de 11 nucleotídeos e estes passam a ser procurados em todo o banco de dados.

ATCGTACAATAACGTG

ATCGTACAATA TCGTACAATAA CGTACAATAAC

GTACAATAACG TACAATAACGT ACAATAACGTG

Page 12: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Algoritmo do BLAST

ATCGTACAATA TCGTACAATAA CGTACAATAAC

GTACAATAACG TACAATAACGT ACAATAACGTG

AAATGTGTGTATCGTACAATATCGTG

Trecho encontrado em seqüências alvo é utilizado como “seed”

Page 13: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

ATCGTACAATAACGTG

AAATGTGTGTATCGTACAATATCGTG

Algoritmo do BLAST

Extensão do alinhamento utilizando os métodos para encontrar o alinhamento ótimo

Como é uma ferramenta de alinhamento local só será alinhado trechos que produzam um escore elevado

Page 14: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Alinhamento de seqüências protéicas

Page 15: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Considerações evolucionarias

• Proteínas evoluem juntamente com o organismo

• Após a divergência de duas espécies há uma diversificação da seqüência de proteínas ortologas (isto é com uma origem evolutiva em comum) devido a mutações sofridas no código genético do individuo

• Após a ocorrência de mutações tenderão a serem selecionadas negativamente aquelas que causarem alterações drásticas na estrutura da proteína

Page 16: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Os fenômenos de mutações não são totalmente randômicos havendo uma preferência por eventos de transição em relação a eventos de transversão.

Considerações evolucionarias

Purinas Pirimidinas

Page 17: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Considerações evolucionarias

Considerando a freqüência de mutações

de nucleotídeos a mutação

Isoleucina-> Valina seria mais freqüente

que Isoleucina-> Leucina

Page 18: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Considerações evolucionarias

Considerando o código genético é possível

notar que nem todas as mutações de

aminoácido podem ser obtidas a partir de

uma única mutação de nucleotídeo

Deste modo teremos algumas mutações

mais freqüentes que as outras

Considerando este aspecto a mutação

Isoleucina-> Valina seria mais freqüente que

Isoleucina->Alanina

Page 19: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Considerações evolucionarias

ATA->AGA

ATA->CTACadeia lateral apolar

Cadeia lateral apolar

Cadeia lateral polar

Neste caso apesar da

probabilidade da mutação

ocorrer ser a mesma é muito

mais provável que a primeira

mutação seja selecionada

negativamente, pois introduz

um aminoácido de cadeia

lateral de caráter muito

diferente da original.

Page 20: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Considerações evolucionarias

• Considerando todos estes fatores é concluir que a partir de um evento ancestral de divergência de duas proteínas ortologas, a taxa de conversão de um determinado aminoácido para outro não será igual e sim dependente do par que iremos avaliar

• Além disso a abundancia relativa dos aminoácidos é diferente, influenciando o resultado

Page 21: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

• Matrizes de comparação analisam as freqüências relativas com que ocorrem as diferentes substituições de aminoácidos

• Com bases nestas freqüências e com a abundancia relativa de cada aminoácido na proteína é possível atribuir um escore que reflete a probabilidade daquela mutação ocorrer (prováveis –escore positivo)

• Os dois tipos mais utilizados de matrizes são a PAM (Point Accepted Mutation) e a Blossum (Blocks Substitution Matrix)

Matriz de comparação

Page 22: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Matriz do tipo PAM

Analise de evolução de seqüências (por

métodos de parcimônia)

Calculo de uma matriz baseado nas taxas

de substituições dos aminoácidos

Page 23: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Matriz do tipo PAM

A matriz PAM 1foi produzida baseados um determinado tempo de evolução (PAM unit- tempo em que 1% dos aminoacidos mudam). Outras matrizes (PAM 100, PAM 250) foram derivadas a partir desta primeira matriz. Quanto maior a unidade de PAM a matriz seria mais adequada para comparar seqüências mais divergentes.

Matriz tipo PAM250 é representada acima mostra acima da diagonal o numero de substituições observadas e a diagonal e abaixo representam escores derivados. Caixas em cinza tem escore positivo e aquelas em preto são as mutações possíveis via a substituição de um único nucleotídeo

Page 24: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Matriz do tipo Blosum• Ao contrario da matriz PAM não se baseia em um modelo evolucionário

explicito, mas sim em analise de seqüências alinhadas par a par.

Matriz PAM

Matriz BlossumConsiderando a primeira coluna

teríamos 6X5= 30 conservações de T

6 mudanças T->I e seis mudanças I->T

Page 25: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Matriz do tipo Blosum

• Entretanto este tipo de abordagem é muito sensível a presença de seqüências muito semelhantes na comparação

• Para solucionar isso as seqüências são agrupadas em blocos baseado em seu nível de identidade e cada bloco terá o mesmo peso independente do numero de seqüências que o compõe

• Deste modo temos diferentes matrizes baseados no nível de identidade utilizado para construir os blocos (por exemplo a matriz blosum80 criou blocos com proteínas que são 80% idênticas)

Page 26: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdf · Scores= +5 match, -2 mismatch e -6 gap. Resolução da matriz ... passam a ser procurados em todo o banco

Equivalência entre matrizes

PAM100 ==> Blosum90

PAM120 ==> Blosum80

PAM160 ==> Blosum60

PAM200 ==> Blosum52

PAM250 ==> Blosum45

Apesar de serem construídas com metodologias diferentes e

portanto produzirem matrizes não equivalentes é possível

dizer que de modo genérico as matrizes Blosum e PAM

teriam as seguintes equivalências