27

Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Embed Size (px)

Citation preview

Page 1: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor
Page 2: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor
Page 3: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor
Page 4: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor
Page 5: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor
Page 6: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

•Distribucion del maximo de N scores de matching de secuencias random independientes

•Si la probabilidad de este maximo de ser mayor que el mejor valor observado es pequeña, luego el score es significativo

•La distribucion del maximo de N variables aleatorias normales e independientes es conocida

SKmneSxP 1)(

Nota: Ver cap. 11 de Durbin

Ditribución del valor extremo

Page 7: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Alineamiento Global (Alg. Needleman-Wunsch)

Page 8: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

•Si el mejor alineamiento hasta un punto determinado tiene un score negativo es mejor empezar otro nuevo

•Los alineamientos pueden terminar en cualquier lugar de la matriz no en (n,m)

•Para el mejor alineamiento, empezamos buscando el mejor F(i,j) de toda la matriz y empezamos la traza inversa desde alli

•La traza termina al llegar al score 0

•Esperamos que el score de un matching aleatorio sea negativo, sino:

largos alineamientos incorrectos parecidos al global

Alineamiento Local - Motivación

Page 9: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Global: encontrar el mejor alineamiento, tal vez a expensas de zonas de mayor similaridad

Son estas secuencias en general similares?

Local: encontrar zonas con el mejor alineamiento, inclusive a expensas del score general

Contienen estas secuencias subsecuencias con alta similaridad?

Page 10: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Alineamiento Local (Alg. Smith-Waterman)

Page 11: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Alineamientos repetidos

•Encuentra una o + copias, significativas a nivel T, de secciones de una secuencia en otra (y en x)

•Significación T: Score_alineamiento -T > 0

•F(i,0) muestra las no coincidencias y los fines de matching (score >T)

•F(i,j) muestra los comienzos de matching y las extensiones, F(i,0) reemplaza el 0 local por el grado de coincidencia de la seccion anterior

Page 12: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

•Alineamiento global

•Alin. Dependiente de T (grado de significación)

•La traza comienza en (n+1,0), si es igual a 0 no hubo matchings

Alineamientos repetidos (continuación)

Page 13: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

•Se busca un alineamiento global sin restricciones

•La traza se realiza a partir del mayor score

•Comienza en el borde superior o izquierdo y termina en el inferior o derecho

Alineamientos solapados o anidados

Page 14: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Otros ejemplos

•Secuencia repetitiva y en “tandem” sin gaps

•Match que comience en (0,0) y termine en cualquier lado

Cuando se busca la similaridad de una secuencia secuencia debemos pensar el tipo de matching o coincidencia deseado y buscar el algoritmo mas apropiado

Page 15: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Alineamientos con costo de gap variable (affine)

Page 16: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Automatas de estado mas complejos

•Los scores s(a,b) y t(a,b) pueden representar regiones de mayor fidelidad sin gaps (A) y de menor con gaps (B)

•Valores probabilisticos en los ejes caracterizarian a un modelo de Markov

Page 17: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Cadenas de Markov

Dada una secuencia , podemos decidir si viene de una isla CG?

Uso de cadenas de Markov para discriminacion/clasificacion

•Dado un conjunto de entrenamiento, aprendemos un modelo que nos permite discriminar futuras secuencias no observadas

Page 18: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Aplicando P(X,Y)=P(X/Y) P(Y) mujchas veces, y la propiedad que un estado Markoviano depende solo del anterior

Page 19: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

¿Qué significa Aprendizaje? Decimos que un agente o un programa de computación aprende de la experiencia E con respecto a cierta clase de tareas T con la medida de performance P, si su performance en la tarea T, medida por P, mejora con respecto a la experiencia E

Tarea: Reconocer y clasificar palabras manuscritasMedida de Performance: Porcentaje de palabras bien reconocidas o clasificadas Experiencia de Entrenamiento: Una base de datos de palabras manuscritas reconocidas o clasificadas previamente

Page 20: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

•Que se aprende? Estructura, parametros, ajustes (identificacion de sistemas)

•No solo el orden caracteriza a los algoritmos, tambien el sesgo de aprendizaje

• Generalizacion

• Sobreaprendizaje

Page 21: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Modelos Hidden Markov

Como podemos encontrar islas CG en una secuencia no observada?

Distinguir entre:

•Sucesion de estados, la probabilidad de un estado depende del anterior (k,k-1)

•Sucesion de simbolos, la probabilidad de observar el carácter b en el estado k (depende de la distrib. De simbolos, i.e., no es necesario asociar un estado a un simbolo).

Page 22: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Algoritmo de Viterbi (Camino mas probable)

Aplicando el algoritmo “predictivo” encontramos los limites de las islas CG o de los estados de los dados (casino)

Page 23: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Estimación de los parametros

•Cuando, dado un conjunto de entrenamiento conozco los caminos

•Akl=numero de transiciones de k a l

•Akl’=numero de tranciciones a otros estado

•akl=Akl/SUMA(Akl’)

•Ek(b)=numero de emisiones de b en k

•ek(b)=Ek(b)/SUMA(E(b’))

•Cuando no conozco los caminos

•Algoritmos de optimizacion de funciones continuas

Page 24: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Alineamiento de a pares usando HMMs

Tal como los HMM estándar generan una secuencia, estos generan un par de secuencias alineadas

Page 25: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

•Estados iniciales y finales mas complejos (ver diferencias para alin. Locales y globales)

•El estado M tiene una probabilidad de emision Pab, de emitir el alineamiento a:b

•X, Qa de emitir el simbolo a:gap (idem Y)

Page 26: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Alineamiento multiple empleando HMM

•Emplear un metodo de alineaminto previo (gradual) en base a un conjunto de entrenamiento (e.g. Clustal W)

•Aplicar HMM

http://www.cse.ucsc.edu/research/compbio/sam.html

Page 27: Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este maximo de ser mayor que el mejor

Importante: el mundo no es lineal, euclideo y deterministico

•Dado un Problema, existen varios Modelos para representarlos, y posibles Soluciones a dicho Modelo (P->M->S)

•Existen distintas formas de obtener dichas Ss (Soluciones exactas, heuristicas, metaheuristicas, etc.)

•Conocer cual es la mas adecuada depende de varios factores, ej. Orden del algoritmo, Sesgo, tipo de modelo (lineal, estocastico, etc.), dependencia de los parametros, condicionamientos del metodo, etc.

•Los algoritmos no necesariamente estan involucrados con el dominio del problema. Muchas soluciones se obtienen reinterpretando soluciones correspondientes a otros problemas (RN y física, tecnologia del habla -HMM, etc.)