Métodos de alinhamento de sequências biológicas

Preview:

Citation preview

Métodos de alinhamento de sequências biológicas

Marcelo Falsarella Carazzolle

Resumo

- Introdução

- Alinhamentos ótimos

- Global

- Local (Smith-Waterman)

- Semi global- Semi global

- Matrizes de alinhamento (BLOSUM)

- Alinhamentos heurísticos

- BLAST

-PHI-BLAST, PSI-BLAST, MEGABLAST e BLAST2SEQS

Introdução

- Uma forma rápida de agregar alguma informação sobre uma

?

sequência desconhecida é compará-la com um banco de dados desequências com funções conhecidas

- Esta comparação é feita através de alinhamentos par a par entreas sequências. Isto é, se o banco de dados possuir 1000 sequênciasconhecidas serão realizados 1000 alinhamentos

- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)

Fonte: http://www3.ebi.ac.uk/Services/DBStats/

- Atualmente uma busca nesses bancos faz 100,000,000 dealinhamentos

- Existem vários programas de alinhamentos com diferentes metodologias, sendo que o mais utilizado é o BLAST

Relevância biológica

- Essencialmente esses alinhamentos devem tentar indicar umahomologia entre as sequências (ou pelos menos terem umasimilaridadeestatisticamente significante)

- Similaridade x Homologia

- identidade = número que indica a quantidade de nucleotídeos alinhadosalinhados

- similaridade = é uma medida que considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos

- homologia = similaridade entre sequências que dividem a mesma ancestralidade. Possui um significado evolutivo

10

1

0.1

0.01

0.001

0.0001

0.00001 = 1 x 10-5 = 1e-5

E-value x probabilidade

valu

e

Pro

babi

lidad

e do

alin

ham

ento

oco

rrer

por

aca

so

0.00001 = 1 x 10-5 = 1e-5

1e-10

1e-50

1e-100

1e-180

0

E-v

alue

Pro

babi

lidad

e do

alin

ham

ento

oco

rrer

por

aca

soQuanto maior o banco de dados, maior o e-value

Outras aplicações de alinhamentos

- Reconstrução da sequência consensu a partir de sobreposiçõesde fragmentos de sequências (montagens de sequências deDNA)

- Alinhamento entre sequências de ESTs e DNA genômico

- ComparaçãoentreproteínaseDNA- ComparaçãoentreproteínaseDNA

- Construção de mapas físicos

- Comparação entre genomas

- ...

Alinhamentos

- A comparação entre sequências de DNA de organismosdiferentes é baseada no conceito de que estes organismosoriginaram-se de um ancestral comum.

- No contexto de evolução as sequências de DNA sofremmutações. Estas modificações locais entre os nucleotídeos podemser :

- Inserções : inserção de uma base ou várias bases nasequência

- Deleções : deleção de uma base ou mais bases na sequência

- Substituições : substituição de uma base por outra

- Portanto um programa de alinhamento de sequências biológicastem que considerar essas mutações

Exemplo :

Match = 1 Mismatch = -1

Gap = -2

- Gaps representam as inserções e deleções entre as sequências

- O melhor alinhamento entre duas sequências é aquele que maximiza o score :

- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)

= 24 – 4 – 10 = 10

Modelos para alinhamentos

- Alinhamento global

- útil quando as duas sequências tem tamanhos próximos

- Exemplo de programa : CLUSTAL

- Alinhamento local

- útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos e também para sequências com apenas alguns trechos conservados

- Exemplo de programa : BLAST E FASTA

- Alinhamento semi-global (ou pontas livres)

- útil para encontrar sobreposições de fragmentos de sequenciamento

- Exemplo de programa : PHRAP E CAP3

Programação dinâmica- Motivação : gerar e testar oscore de todos os possíveis alinhamentosé exponencial no tamanho das seqüências (nn ), onde n é o tamanhodas sequências :

- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo,o alinhamento de duas sequências de 1000 bp levaria trilhões de anos.

- Abordagemalternativa: programaçãodinâmica. Com programação- Abordagemalternativa: programaçãodinâmica. Com programaçãodinâmica o tempo de processamento e memória ficam quadráticos(n2):

- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, oalinhamento de 2 sequências de 1000 pb leva 100 segundos- Mas ainda não está bom, pois alinhamento de sequências de 10Mpb (genoma de Saccharomyces) levaria 377 anos

Alinhamento global

- Alinhamento de GACATTG com GATCAATG

1a linha e 1a coluna da matriz são fáceis de computar:- G A C A T T G

- 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4 G GAA -4T -6C -8A -10A -12T -14G -16

G-

GA- -

Lembre-se, penalidade de 1 gap = -2 e de dois gaps = -4

http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html

- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A -10A -10A -12T -14G -16

[i,j]=p(i,j)

- Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for um match e p(i,j) = -1 se for um mismatch.

- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A [i -1,j-1]C A -10A -12T -14G -16

[i,j][i-1,j]

[i,j-1][i -1,j-1]

= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] - 2)

- O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1] (diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).

0

-2

-4

1

-1

-1

0

-4 -6

-3

-2

A

A

A

CG

-2

- Construindo o alinhamento

-4

-6 -3

-8

-1

-2

0

-4

-2

-1

-1

A

A

C -5

No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz

- G A C A T T G - 0 0 0 0 0 0 0 0 G 0A 0T 0C 0

Alinhamento local (Smith-Waterman)http://bioweb.pasteur.fr/seqanal/interfaces/water.html

C 0A 0 A 0T 0G 0

[i,j][i-1,j]

[i,j-1][i-1,j-1]

= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] – 2,0 zero)

- No alinhamento local a primeira linha e coluna são inicializadas com zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero

No alinhamento local o alinhamento deve ser construído partir do maior score da matriz e para quando encontrar um score=0

Alinhamento semi-global

- Não penaliza espaços nas extremidades do alinhamento.

- Exemplo CAGCA –CTTGGATTCTCGC| | | | | |

- - - CAGCGTGG - - - - - - - -- No global teríamos,- No global teríamos,

CAGCA – CTTGGATTCTCGCCAGC - - - - - - G- T - - - - - -

- Qual dos dois alinhamentos é mais interessante ?

- No alinhamento semi-global a primeira linha e coluna são inicializadas com zeros. O resto é igual ao alinhamento global

- A abordagem de programação dinâmica é importante pois garante o melhoralinhamento entre duas seguências, mas ainda temos um problema :

- Lembram-se disso : se o alinhamento de 2 sequências de 100 pbleva 1segundo, o alinhamento de sequências de 10 Mpb (genoma deSaccharomyces) leva 377 anos

- A abordagem alternativa é conhecida como o método de k-tuplas, no qualnão é garantido encontrar o alinhamento ótimo (heurística)mas ésignificantementemaisrápido. Comessemétodoosconceitosdealinhamentosignificantementemaisrápido. Comessemétodoosconceitosdealinhamentodiscutidos acima foram modificados dando origem aos programas dealinhamento local :

- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25(1990), 3389

- FASTA : PNAS 85 (1988), 2444-2448

- Basicamente este método identifica uma série de palavras curtas em uma dassequências (word size) e depois realiza uma busca exata por essas palavras nassequências a serem comparadas, filtrando assim os possíveis candidatos.

Alinhando proteínas

- Alinhamento proteína-proteína

- Alinhamento nucleotídeo-proteína

- Alinhamento proteína-nucleotídeo

- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)

Matrizes de substituição- BLOSUM (BLOcks of amino acid SUbstitution Matrix )

- I e V => Hidrofóbicos

- D e W => D (carga negativa) e W (aromático)

- C => pontes de sulfeto (estrutural)

- A matriz foi construída a partir de alinhamentosmúltiplos globais de 504 grupos de proteínas

- BLOSUM 62 : grupos com similaridade >62%

- BLOSUM 80 : grupos com similaridade >80%

- BLOSUM 45 : grupos com similaridade >45%

Query Length Substitution Matrix

<35 PAM-30

35-50 PAM-70

50-85 BLOSUM-80

>85 BLOSUM-62 PNAS 89 (1992), 10915-19919

BLAST

• Basic Local Alignment Search Tool• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-

410)• Implementações: NCBI BLAST e WU-BLAST• Acesso via web / local (linux)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Alinhamento – sobreposição de trechos semelhante de duas

seqüências (seqs). BLAST traz pontuação e mostra alinhamentos.

• Similaridade – grau de semelhança de seqs num alinhamento. • Homologia – genes com ancestral comum

• BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares

• Blastp – prot / prot (distantes)

• Blastn – nt / nt (próximos)

• Blastx – nt trad / prot (novas seqs)• Blastx – nt trad / prot (novas seqs)

• Tblastn – prot / nt trad (regiões não anotadas)

• Tblastx – nt trad / nt trad

Query BD Compara Programant nt nt blastn

nt (trad) aa aa blastxaa aa aa blastpaa nt (trad) aa tblastnaa nt (trad) aa tblastn

nt (trad) nt (trad) aa tblastx

Query = formato da seq de entrada.BD = formato das seqs do BD.nt (trad) = seq em nt traduzida pelo programa.Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).Programa = um dos cinco principais tipos de blast.

BLAST interface

BLASTp

http://www.ncbi.nlm.nih.gov/blast/

Limita a região da sequência que será usada na consulta

Pode ser usado um arquivo com várias sequências gravadas no formato fasta

Pode ser colocado várias sequências ao mesmo tempo ou vários GI’s (genbank identifier)

Banco de dados de proteínas do NCBI

Filtro por organismo, use o banco detaxonomia do NCBI para ver a formacorreta de escrever o organismo

Filtros mais elaborados usando as opçõesavançadas de busca do NCBI :

protease NOT hiv1[organism]=> retornaráapenas resultados com proteases que não sejamdo organismo HIV 1

Banco de dados de proteínas curadas pelo EBI

Banco de dados de proteínas com aestrutura tridimensional conhecida

Número máximo de sequências alinhadas

E-value de corteNúmero de bases que serão utilizados para formar as k-tuplas

Altera as penalidades de criação e extensão de gaps no alinhamento

Mascara regiões de repetição

Link

Corte 1e-5

1

subject

query

71

1 64

134

BLASTx – diferenças importantes

Diferentes códigos genéticos para diferentes organismos

A mudança noframe de leituragera a quebra doalinhamentoformando doisHSP´s (highscoring pair)

1

subject

query

10

91

243

6011

95

1

631

• Pode ser instalado localmente

• Bancos de dados próprios e atualizações

• Facilidades– Velocidade de buscas

– Maleabilidade

BLAST local

– Maleabilidade

– Automatização

– Dados locais

– Independe de internet

PHI-BLAST- É um blastp com a opção de passar uma outra sequência curta ou um padrão servindo como um vínculo para a consulta

Ex :

[CG](5)TG{A}N(1,5)C

N - Qualquer nucleotídeo

N(3) - Uma sequência de três nucleotídeos

N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos

[AC] - pode ser um A ou um C

{AG} - não pode ser nem A e nem G

PSI-BLAST- É um blastp interativo no qual a matriz (BLOSUM), após a primeira interação, é refeita com base nos alinhamentos entre as proteínas resultantes da consulta :

- uma posicão conservada no alinhamento recebe um score alto e uma posição não conservada um score baixo

- É útil para encontrar membros distantes de famílias de proteínas

BL2SEQS- Faz um alinhamento de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn)

- http://www.ncbi.nlm.nih.gov/BLAST/bl2seq/wblast2.cgi

Spliced alignments

http://mobyle.pasteur.fr/cgi-bin/MobylePortal/portal.py?form=est2genome

Alinhamento de genomas

http://asap.ahabs.wisc.edu/mauve/

FIMFIM

Recommended