37
Búsqueda de similitud en BD Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 4 de junio del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 1 / 37

Búsqueda de similitud en BD - tamps.cinvestav.mxertello/bioinfo/sesion06.pdfBLAST emplea el algoritmo Smith-Waterman para realizar sus ... (usando el algoritmo de Smith-Waterman)

  • Upload
    dohanh

  • View
    223

  • Download
    4

Embed Size (px)

Citation preview

Búsqueda de similitud en BD

Dr. Eduardo A. RODRÍGUEZ TELLO

CINVESTAV-Tamaulipas

4 de junio del 2013

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 1 / 37

1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 2 / 37

Búsqueda de similitud en BD Introducción

1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 3 / 37

Búsqueda de similitud en BD Introducción

Introducción

Una de las principales aplicaciones del alineamiento de pares desecuencias es en la recuperación de secuencias biológicas de lasBD en base a similitud

Este proceso implica el enviar una secuencia de consulta yefectuar una comparación por pares entre ésta y todas lassecuencias existentes en la BD

Por lo tanto podemos decir que la búsqueda de similitud en BD esequivalente al alineamiento de pares de secuencias a gran escala

Este tipo de búsqueda constituye una forma efectiva de inferirfuncionalidades para secuencias recién determinadas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 4 / 37

Búsqueda de similitud en BD Requerimientos para búsqueda en BD

1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 5 / 37

Búsqueda de similitud en BD Requerimientos para búsqueda en BD

Requerimientos para búsqueda en BD

Existen requerimientos únicos para la implementación dealgoritmos para búsqueda de secuencias en BD

Sensibilidad: Habilidad para encontrar el mayor número desecuencias coincidentes posibles (verdadero positivo)

Selectividad (Especificidad): Habilidad para excluir coincidenciasincorrectas (falso positivo).

Velocidad: El tiempo que toma recuperar los resultados de la BD

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 6 / 37

Búsqueda de similitud en BD Requerimientos para búsqueda en BD

Requerimientos para búsqueda en BD

Idealmente se quiere tener gran sensibilidad, selectividad yvelocidad al realizar búsquedas en BD

Sin embargo, satisfacer estos 3 requerimientos es muy difícil en lapráctica

Por lo anterior es necesario buscar un compromiso (balance)entre los 3 criterios

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 7 / 37

Búsqueda de similitud en BD Requerimientos para búsqueda en BD

Requerimientos para búsqueda en BD

Al igual que en otras áreas, los algoritmos para búsqueda desimilitud en BD pueden clasificarse en dos tipos:

Exhaustivos o exactos (imprácticos, lentos)

Heurísticos o aproximados

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 8 / 37

Búsqueda de similitud en BD Requerimientos para búsqueda en BD

Requerimientos para búsqueda en BD

El método de programación dinámica que estudiamos la clasepasada es exhaustivo e impráctico en la mayoría de los casos

El día de hoy estudiaremos algunos métodos heurísticos(basados en palabra corta1) que permiten acelerar el proceso decomparación entre secuencias:

BLAST

FASTA

1Matriz de puntos, Programación dinámica, Método de palabra corta

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 9 / 37

Búsqueda de similitud en BD BLAST

1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 10 / 37

Búsqueda de similitud en BD BLAST

BLAST

BLAST (Basic Local Alignment Search Tool) es un métodoheurístico de alineamiento de secuencias de tipo local quepermite trabajar con secuencias biológicas de ADN o de proteínas

Desarrollado por Stephen Altschul del NCBI (National Center forBiotechnology Information) en 1990

BLAST permite comparar una secuencia de consulta (query)contra una gran cantidad de secuencias que se encuentren enuna BD

Devuelve las secuencias de la BD que tienen mayor parecido a lasecuencia de consulta

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 11 / 37

Búsqueda de similitud en BD BLAST

BLAST

BLAST emplea el algoritmo Smith-Waterman para realizar susalineamientos

Utiliza matrices de sustitución de aminoácidos o nucleótidos paracalificar sus alineamientos

Dichas matrices contienen la puntuación (score) que se le da alalinear un nucleótido (o aminoácido) X de la secuencia A con otroY de la secuencia B

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 12 / 37

Búsqueda de similitud en BD BLAST

BLAST

Las matrices más usadas para calificar alineamientos deproteínas son BLOSUM y PAM

El algoritmo de BLAST tiene tres etapas principales:

Inicialización (seeding)

Extensión

Evaluación

A continuación describiremos brevemente cada una de ellas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 13 / 37

Búsqueda de similitud en BD BLAST

BLAST

1. InicializaciónSe buscan “palabras” pequeñas en las secuencias de la BD quecorresponden a fragmentos de la secuencia de consulta

BLAST asume que los alineamientos significativos debencontener estas palabras

Sólo se consideran significativas las palabras que tengan unapuntuación mayor a un umbral T y que se encuentren al menos auna distancia A de otra palabra (uso de matrices de sustitución)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 14 / 37

Búsqueda de similitud en BD BLAST

BLAST

1. Inicialización...W es otro parámetro usado por BLAST y se refiere al tamaño delas palabras a buscar (3 residuos en proteínas, 11 nucleótidos enADN)

Ajustando T , A y W se puede elegir entre hacer un alineamientosensible pero lento, o uno más rápido pero con menor sensibilidad

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 15 / 37

Búsqueda de similitud en BD BLAST

BLAST

2. ExtensiónEl alineamiento se va extendiendo a ambos lados de las palabrasencontradas (usando el algoritmo de Smith-Waterman)

BLAST va extendiendo el alineamiento hasta que la puntuacióndel alineamiento descienda X o más puntos con respecto a lapuntuación más alta obtenida anteriormente

Este es el factor heurístico de BLAST, el límite X evita extender alo largo de toda la secuencia todos los alineamientos (tomaríademasiado tiempo)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 16 / 37

Búsqueda de similitud en BD BLAST

BLAST

3. EvaluaciónTerminada la extensión de todas las palabras, cada uno de losalineamientos realizados es evaluado para determinar susignificación estadística

Para ello, se eliminan los alineamientos inconsistentes (aquellosque junten la misma parte de la secuencia de consulta condistintas partes de una secuencia en la BD)

Los alineamientos resultantes son llamados pares de altapuntuación (High Score Pairs o HSPs)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 17 / 37

Búsqueda de similitud en BD BLAST

BLAST

3. Evaluación...Después se calcula la puntuación final de los alineamientosresultantes

Se determina su significación tomando en cuenta la probabilidadque tiene dicho alineamiento de haber sido obtenido por azar deacuerdo al tamaño de la BD

Al final se reportan sólo los alineamientos que hayan obtenidouna probabilidad mayor a E

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 18 / 37

Búsqueda de similitud en BD BLAST

BLAST

3. Evaluación...El parámetro E es conocido como e-valor (e-value) de corte, ynos permite definir qué alineamientos queremos obtener deacuerdo a su significación estadística

Cuanto menor sea el valor de E , más significativo es unalineamiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 19 / 37

Búsqueda de similitud en BD BLAST

BLASTEjemplo

Inicialización

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 20 / 37

Búsqueda de similitud en BD BLAST

BLASTEjemplo

Extensión

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 21 / 37

Búsqueda de similitud en BD BLAST

BLASTEjemplo

Evaluación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 22 / 37

Búsqueda de similitud en BD BLAST

BLASTEjemplo

http://blast.ncbi.nlm.nih.gov/Blast.cgi

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 23 / 37

Búsqueda de similitud en BD BLAST

BLASTVariantes

BLAST cuenta con una familia de variantes que incluyen:BLASTN, BLASTP BLASTX TBLASTN y TBLASTX

BLASTN compara una secuencia de nucleótidos contra una BDque contenga también secuencias nucleotídicas

BLASTP es un BLAST “con huecos” (gaps) que compara unasecuencia de aminoácidos contra una BD del mismo tipo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 24 / 37

Búsqueda de similitud en BD BLAST

BLASTVariantes...

BLASTX usa como secuencias de consulta nucleótidos y lostraduce en sus 6 marcos de lectura (3 por hebra) para producirsecuencias de proteínas, las cuales son usadas para buscar enuna BD de proteínas. Se usa cuando se tiene sospecha de que lasecuencia de entrada codifica para una proteína pero no se sabeexactamente cuál es su producto

TBLASTN compara una secuencia de proteínas con una BD denucléotidos. Para realizar esto traduce todas las secuencias denucleótidos en sus 6 marcos de lectura. Se usa cuando se tieneuna proteína, y el análisis con BLASTP no ha sido exitoso

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 25 / 37

Búsqueda de similitud en BD FASTA

1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 26 / 37

Búsqueda de similitud en BD FASTA

FASTA

FASTA (FAST All) es una herramienta de búsqueda de similituden BD que fue creada antes que BLAST

Fue presentado por primera vez (como FASTP) por David J.Lipman y William R. Pearson en 19852

Utiliza una estrategia de hashing para encontrar coincidenciaspara un conjunto pequeño de residuos idénticos con una longitudk

FASTA también segmenta las secuencias en fragmentospequeños, llamados k-tuplas (2 residuos en proteínas, 6nucleótidos en ADN)

2DJ Lipman and WR Pearson (1985). Rapid and sensitive protein similarity searches. Science 227 (4693): pp.

1435–41. doi:10.1126/science.2983426

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 27 / 37

Búsqueda de similitud en BD FASTA

FASTA

Algoritmo FASTACrear fragmentos de las secuencias de tamaño k (k-tuplas)

Identificar ktups coincidentes entre 2 secuencias utilizandohashing

Mapear resultados a una matriz bidimensional (diagonales)

Se asignan puntajes (matriz de substitución) a las 10 regionescon la más alta densidad de diagonales

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 28 / 37

Búsqueda de similitud en BD FASTA

FASTA

Algoritmo FASTA...Los segmentos vecinos con altos puntajes en la misma diagonalson unidos para formar un alineamiento (con gaps)

El alineamiento se refina usando el algoritmo Smith-Watermanpara obtener el alineamiento final

Se efectua una validación estadística para obtener el e-valor(e-value)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 29 / 37

Búsqueda de similitud en BD FASTA

FASTAEjemplo

La estrategia de hashing consiste en construir una tabla quecontiene la posición de cada k-tupla en las secuenciasconsideradas

La diferencia posicional para cada k-tupla se obtiene restando laposición de la primera secuencia de aquella de la segunda(desplazamiento)

Cuando dos o más k-tuplas tienen el mismo desplazamiento sonunidas y revelan una región continua idéntica que corresponde auna diagonal en una matriz bidimensional

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 30 / 37

Búsqueda de similitud en BD FASTA

FASTAEjemplo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 31 / 37

Búsqueda de similitud en BD FASTA

FASTAEjemplo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 32 / 37

Búsqueda de similitud en BD FASTA

FASTAEjemplo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 33 / 37

Búsqueda de similitud en BD FASTA

FASTAEjemplo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 34 / 37

Búsqueda de similitud en BD FASTA

FASTAEjemplo

http://www.ebi.ac.uk/Tools/fasta33/index.html

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 35 / 37

Búsqueda de similitud en BD Comparación

1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 36 / 37

Búsqueda de similitud en BD Comparación

Comparación

En la práctica tanto FASTA como BLAST han presentadoresultados satisfactorios en busquedas en BD generales, sinembargo existen diferencias entre ambas herramientas:

En el paso de inicialización BLAST usa una matriz de substituciónpara encontrar coincidencias, mientras que FASTA utiliza unprocedimiento de hashingFASTA escanea tamaños de ventana más pequeños por lo que esmás sensible que BLAST pero usualmente más lento que ésteBLAST tiene más alta selectividad que FASTA por que reduce losfalsos positivosBLAST puede regresar múltiples alineamientos con la mejorpuntuación para la misma secuencia mientras que FASTA regresasólo un alineamiento final

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 37 / 37