View
244
Download
2
Category
Tags:
Preview:
DESCRIPTION
alinha localmente dna
Citation preview
Alinhamento local- Utilização do BLAST
BLAST
Tipos de BLAST
Compara nucleotídeos(blastn)
(blastp) Compara proteínas
Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de proteína
Utiliza proteína como “query” , esta é comparada contra banco de nucleotídeo traduzido nos 6 quadros de leitura
Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de nucleotídeo traduzido nos 6 quadros de leitura
Submissão de seqüências Blastn
Seqüência a ser alinhada ou numero de acesso
Bases de dados
Busca por palavra chave
ProgramaMegablast + rapido
Parâmetros do blastn
Programa:Megablast utiliza “seeds” maiores (28 bases) fazendo com que o algoritmo seja mais rápidoDiscontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases sejam coincidentes dentro de um padrão definido.Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível mas também mais lento
Parâmetros do blastn
Max Target sequences- Numero de alinhamentos mostradosShort queries- Ajuste automático de parâmetros para seqüências pequenasExpect threshold- Ajuste da exigência mínima de relevância estatistica para seqüência ser mostradaWord size- Tamanho do “seed”
Parâmetros do blastn
Match/Mismatch scores- escores para alinhamento coreto e incorretoGap costs- Penalização para abertura de “gaps”
Filtros- Filtragem de região de baixa complexidade ou repetiçõesMascaras- Filtragem de seqüências para busca dos “seeds” e mascaramento dado pelo usuario
Interpretação do resultado do blast
Interpretação do resultado do blast
Accesion – Numero de acesso para seqüência alinhada
Description- Descrição breve da seqüência
Max score- escore máximo resultante de um único HSPs (High-scoring Segment
Pairs)
Total score- Escore resultante da soma de HSPs
Query coverage- Porcentagem da seqüência submetida ao programa que é
coberta pelo alinhamento
E-value- Parâmetro de confiança
Max identity- Identidade máxima obtida por um HSP
Escore do blast
• Escore do blast
O escore do blast é normalizado e é dado pela seguinte equação:
l e K são parâmetros estatísticos utilizados utilizada que buscam normalizar os escores de resultados derivados de diferentes matrizes e espaços de busca
expected value (e-value)
• Parâmetro de confiança do alinhamento
Onde E = expect value
m e n-tamanho das seqüências alinhadas
S´- escore normalizado
Relação entre e-value e p-value
E p
10 0.99995460
5 0.99326205
2 0.86466472
1 0.63212056
0.1 0.09516258
0.05 0.04877058
0.001 0.00099950
0.0001 0.0001000
Interpretação de e-value
• O e-value permite-nos ter uma idéia de quão significativos são os alinhamentos que obtemos. Entretanto a interpretação de um resultado nem sempre é trivial e muitas vezes dependo do que o usuário busca (definição de função, busca de motivos conservados, etc..) e também do tamanho da seqüência submetida (seqüências muito pequenas nunca obterão um e-value muito baixo mesmo obtendo um alinhamento perfeito)
• O fato de termos um e-value significativo não implica que necessariamente podemos postular a função de uma proteína, pois em alguns casos isso reflete meramente a conservação de algum motivo ou domínio que podem esta presentes em proteínas com funções diversas
Interpretação do resultado do blast
Traços verticais representam
identidade entre nucleotídeos
Letras minúsculas em cinza
representam trechos
mascarados
Traços horizontais
representam “gaps”
Query- seqüência submetida
ao programa
Subject- seqüência do banco
de dados alinhada a
seqüência submetida
Interpretação do resultado do blast
Resultado tem dois HSPs (High-scoring Segment Pairs), estatísticas para
cada um deles é dada.
Submissão de seqüências Blastp
Basicamente o mesmo que o
blastn
Podem ser utilizados 3 programas:
Blastp- algoritimo normal
PSI-Blast- Matriz modificada
PHI-BLAST-Busca sequencias
contendo um motivo indicado pelo
usuário
Proteína X proteína
Submissão de seqüências Blastp
• Word size padrão para proteínas é 3 (contra 7 dos nucleotideos), entretanto somente aqueles mais significativos são utilizados como seeds
Parâmetros do PSI-blast
Interpretação do resultado do blastp
Espaços com letras na linha
do meio do alinhamento
indicam conservação do
aminoácido
Sinal + neste espaço indica
uma substituição com escore
positivo segundo a matriz de
substituição utilizada
PSI-BLAST
• O PSI-blast inicia-se como um blastp normal e recupera proteínas contendo similaridades com a proteína inserida.
• Entretanto o algoritmo se utiliza das seqüências resultantes desta primeira pesquisa que obtiveram um escore acima de um certo limite para criar uma nova matriz (position-specific score matrix) baseada no alinhamento destas seqüências
• Esta matriz tenderá a fornecer escores mais altos para regiões conservadas dentro desta família e escores baixos para regiões pouco conservadas
• Uma nova busca é realizada com esta matriz e com os novos alinhamentos formados uma nova matriz pode ser criada
PSI-Blast
Resultado primeiro
alinhamento
PSI-Blast
Resultado Primeiro
alinhamento
PSI-Blast
Resultado terceiro
alinhamento
Primeiro alinhamento –melhor hit
Terceiro alinhamento –
melhor hit
Terceiro alinhamento –
melhor hit do primeiro
alinhamento
Interpretação do resultado do blastx
Quadro de leitura da tradução da seqüência submetida
Interpretação do resultado do tblastn
Quadro de leitura da tradução da seqüência do banco de dados
Interpretação do resultado do tblastx
Quadro de leitura da
tradução da seqüência
submetida
Provável resultado espúrio
devido a conservação de
bases no quadro de leitura
positivo
Quadro de leitura da
tradução da seqüência do
banco
Interpretação do resultado do tblastx
• Quando utilizamos o tblastx muitas vezes temos alinhamentos em quadros de leitura que não possuem nenhum sentido biológico, mas que são similares entre as seqüências devido a pouca divergência entre elas
• É recomendável quando analisamos uma seqüência de nucleotídeos tentarmos deduzir primeiramente a proteína codificada por este (através da dedução do quadro de leitura mais longo) e após isso utilizar o programa tblastn
Blast 2 sequences
Permite a realização de alinhamento local entre duas seqüências
Parâmetros semelhante ao do blast
Blast 2 sequences
Estatísticas são calculadas
levando-se em conta o banco nr
do NCBI
BLAST Assembled Genomes
BLAST Assembled Genomes
Ab-initio RNA ou protein-
seqüências deduzidas a partir
de programas de predição de
genes utilizando a informação
disponível para o organismo
Build RNA ou protein-
Combinação dos dados de ref-
Seq mais as seqüências ab-
initio (dando preferência a
primeira)
Traces- Dados brutos de
seqüenciamento em larga
escala
Recommended