35
Inferencia Bayesiana Inferencia Bayesiana de Filogenias de Filogenias Moleculares Moleculares Tania Hernández Tania Hernández

Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Embed Size (px)

Citation preview

Page 1: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Inferencia Bayesiana de Inferencia Bayesiana de Filogenias MolecularesFilogenias Moleculares

Tania HernándezTania Hernández

Page 2: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Métodos de Métodos de VerosimilitudVerosimilitud

Page 3: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Joe FelsensteinDepartment of Genetics, University of Washington

John HuelsenbeckSection of Ecology, Behavoir and Evolution, University of California, San Diego

Ziheng YangDepartment of BiologyUniversity College London

Nick Goldman

EBI. European Bioinformatics

Institute

Bruce RannalaDepartment Medical Genetics

University of Alberta

Page 4: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

… … TODOS los métodos en TODOS los métodos en sistemática molecular por sistemática molecular por necesidad, asumen un necesidad, asumen un

modelo de sustitución para las modelo de sustitución para las secuencias, pues hacen secuencias, pues hacen

supuestos generales acerca supuestos generales acerca del proceso evolutivo …del proceso evolutivo …

Page 5: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Métodos basados en verosimilitud

- Tienen un modelo probabilistico explicito

- Tienen importantes bases y soporte estadístico

- Buscan parámetros para obtener la respuesta más probable

Page 6: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Maxima Verosimilitud (ML)Maxima Verosimilitud (ML)

También podria ser llamada Máxima ProbabilidadTambién podria ser llamada Máxima Probabilidad Históricamente es el método más novedoso (ahora Bayesianos)Históricamente es el método más novedoso (ahora Bayesianos) Ha sido un método adoptado de manera muy lenta por la Ha sido un método adoptado de manera muy lenta por la comunidad científica, lo cual tiene que ver con la dificultad de comunidad científica, lo cual tiene que ver con la dificultad de entender la base teórica y con la falta de software adecuadoentender la base teórica y con la falta de software adecuado También resultaba impráctico por los tiempos computacionales al También resultaba impráctico por los tiempos computacionales al hacer los calculos para muchos datoshacer los calculos para muchos datos Recientemente, el desarrollo de mejores computadoras, mejor Recientemente, el desarrollo de mejores computadoras, mejor software, mejores modelos y mayor dibulgación de la teoría hacen software, mejores modelos y mayor dibulgación de la teoría hacen que ML se convierta en el método de elección. que ML se convierta en el método de elección. Popularizado principalmente por Joseph Felsenstein (Seattle, Popularizado principalmente por Joseph Felsenstein (Seattle, Washington)Washington)

Page 7: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

En general…En general…

La verosimilitud es la probabilidad de los datos dado un modelo.La verosimilitud es la probabilidad de los datos dado un modelo.

En sistemática se puede decir que el árbol es parte del modelo, entonces…En sistemática se puede decir que el árbol es parte del modelo, entonces…

La verosimilitud es la probabilidad de mis secuencias alineadas La verosimilitud es la probabilidad de mis secuencias alineadas dado el modelo de sustitución postulado y el árboldado el modelo de sustitución postulado y el árbol

a b c d

b a e f

c e a g

d c f a

a ,c,g,t

Probabilidad de: dados:

Page 8: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Es decir, verosimilitud es…

Pr ( D | H )

Page 9: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

0

0,00002

0,00004

0,00006

0,00008

0,0001

0,00012

0,00014

0,00016

0,00018

0,0002

0 0,2 0,4 0,6

… es decir, se busca el modelo y las longitudes de ramas que maximicen la verosimilitud (probabilidad) de mis datos…

Long. ramas

Page 10: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Verosimilitud en sistemática molecularVerosimilitud en sistemática molecular

> Diferentes tasas de evolución en diferentes linajes> Diferentes tasas de evolución en diferentes linajesLos modelos toman en cuenta las diferentes longitudes de las ramas del árbol.Los modelos toman en cuenta las diferentes longitudes de las ramas del árbol.

> Los modelos son EXPLICITOS y no estan escondidos> Los modelos son EXPLICITOS y no estan escondidos(falsabilidad)(falsabilidad)

> Puedes buscar el modelo que ajuste mejor a tus datos.> Puedes buscar el modelo que ajuste mejor a tus datos.

> Es un método eficiente y poderoso. Utiliza todos los datos > Es un método eficiente y poderoso. Utiliza todos los datos considerando todas las posibilidades de cambio.considerando todas las posibilidades de cambio.

Page 11: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Verosimilitud… otras ventajas:

- Gran facilidad para formular y probar hipótesis

- Proveen de una manera de falsear los supuestos

- Permiten estimar la confianza en las filogenias obtenidas y proveen herramientas para probar las hipótesis filogenéticas con solidas bases estadísticas

- son métodos consistentes

Page 12: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

ML permite la inferencia de árboles filogenéticos usando modelos evolutivos complejos

- incluyendo la habilidad de estimar los parámetros del modelo y hacer inferencias de manera simultánea acerca de los patrones y procesos de evolución -

y permite comparar diferentes modelos.

Page 13: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

La construcción de un modelo puede hacerse :La construcción de un modelo puede hacerse :

- - empiricamenteempiricamente: propiedades calculadas a partir de : propiedades calculadas a partir de comparaciones de un gran número de datos. Los parámetros comparaciones de un gran número de datos. Los parámetros son fijos y aplicables a todos los análisis.son fijos y aplicables a todos los análisis.

- - parametricamenteparametricamente : propiedades químicas o biológicas de : propiedades químicas o biológicas de las moléculas. Permiten derivar los parámetros a partir de las moléculas. Permiten derivar los parámetros a partir de nuestros datos.nuestros datos.

Modelos de sustitucion

Page 14: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Modelos de sustituciónModelos de sustitución

Matrices de probabilidad de cambioMatrices de probabilidad de cambio

Vector de frecuenciasVector de frecuencias

a b c d

b a e f

c e a g

d c f a

a ,c,g,t

Page 15: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

¿por qué usar modelos?Recordar que...Solo hay cuatro caracteres ( A, T, G, C)Homopasia (Paralelismo, Convergencia, Reversiones)

¡¡ MULTIPLES SUSTITUCIONES !!

A A T C A G A A T C A G T CSustituciones C T A C C T

A A C C A T A A C C A G

Page 16: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

La mayoría de modelos asumen propiedades de modelos Markovianos:

> Se asume independencia de evolución en cada sitio

Para cada sitio existe la probabilidad Pij(T) de que la base i cambiará a j después del tiempo T

Dada una variable estocástica x(t) que describe la evolución en tiempo t de un sitio en una secuencia, el supuesto de Markov es que:

Pij(T) = Pr[x(s+T)=j x(s)=i]

Considere tres diferentes tiempos t consecutivos: t1 < t2 < t3 . Se asume que el estado del nucleotido en t3 depende solo de su estado en t2 y no de t1, si el estado de t2 es conocido.

Un proceso de Markov puede tener tres propiedades importantes:Homogeneidad : la matriz de cambio es independiente del tiempoEstacionaridad : las frec. de nucleotidos permanece constantes en tReversibilidad : iPij (t) = jPji (t)

Page 17: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Heterogeneidad de tasas

Uno de los más importantes avances recientes en la reconstrucción filogenética es el reconocimiento de heterogeneidad de tasas entre sitios.

> Modelos discretosejem. Hasegawa, et al., 1985. Una fracción de sitios cambia a una tasa mientras que otros son invariantes.

> Modelos continuosBasados en una distribución de tasas continua. Lo más usado es utilizar la distribución gamma:

Se asume que la tasa de sustitución en cada sitio esta dada por una distribución gamma con parámetro de forma

Si < 1 : gran cantidad de variación entre tasas. Muchos sitios evolucionan lentamente y otros rápidamenteSi > 1 : menor variación. La mayoría de sitios con tasas similares.

El rango de formas de distribución permite describir bien la variación encontrada en secuencias de DNA

0 < <

Page 18: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Heterogeneidad de tasasHeterogeneidad de tasas

Distribucion gamma

Page 19: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

¿cambiar el modelo afecta el resultado?

CLARO!!!

Hay varios diferentes tipos de modelos:

Jukes and Cantor (JC69):La tasa de cambio de una base a otra es igual en todos los casos. Todas las bases tienen igual frecuencia (0.25).

Kimura 2-Parameter (K2P):Todas las bases tienen igual frecuencia (0.25 ), considera las diferencias en las frecuencias de transiciones y transversiones.

Hasegawa-Kishino-Yano (HKY):Igual al K2P, pero las frecuencias de las bases varían.

General Reversible en el Tiempo (GTR):Las frecuencia de las bases varíam. Todos los diferentes tipos de sustitución tienen diferente probabilidad.

etc… Todos estos modelos pueden extenderse acomodando los parámetros adecuados para sitios invariantes y tasa de variación sitio por sitio y distribución gama.

Page 20: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

recordar que los modelos son descriptivos…

Page 21: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández
Page 22: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Métodos Bayesianos de Inferencia Filogenética

Page 23: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Maxima verosimilitudBusca el árbol que maximice la probabilidad de observar

los datos

P(datos | árbol+modelo)

Inferencia BayesianaBusca el árbol que maximice la probabilidad de observar

el árbol (y modelo) dados los datos.

P(árbol+modelo | datos)

Page 24: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández
Page 25: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Se usa la regla de Bayes para obtener la probabilidad Posterior a partir de la verosimilitud y la dostribución

(prob.) anterior.

De acuerdo a la definición de prob. condicional…

Pr (A,B) = Pr (A) Pr (B A) = Pr (B) Pr (A B)

Dividiendo ambos lados por Pr (A):

Pr (B A) = Pr (B) Pr (A B) ---------------------

Pr (A)

Donde B es la hipótesis y A los datos

Page 26: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández
Page 27: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández
Page 28: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

es decir…

la distribución posterior en la cual se basa la inferencia bayesiana es directamente proporcional al producto de la distribución anterior y la verosimilitud

Page 29: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández
Page 30: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

MCMC

(Monte carlo Markov Chains)Una manera de ‘muestrear’ un espacio de soluciones e

ir seleccionando segun la prob. posterior

1.- Sea una solución aleatoria N1

2.- Escogase otra solución aleatoria N2

3.- Si la posterior (N1<N2), entonces reemplazar N1 por N2

4.- ‘Guardar’ dicha solución

5.- Repetir el paso 2

Page 31: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

MCMC(Monte Carlo Markov Chains)

Page 32: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández
Page 33: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

bootstrap prob. posterior

Page 34: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

Suponga que se corre una cadena de Markov...

En una muestra de 100 000 árboles

Grupo X aparece como monofilético en 74 695 árboles.

La probabilidad (ados los datos observados) de que el grupo X es monofilético es aproximadamente 0.74695, ya que la cadena de Markov visitó árboles de acuerdo a su probabilidad posterior.

Page 35: Inferencia Bayesiana de Filogenias Moleculares Tania Hernández

¿por que bayesianos y no verosimilitud?

1.- Velocidad

2.- La verosimilitud representa la probabilidad de los datos dada la hipótesis ??, pero los Bayesianos dan la probabilidad de la hipótesis dados los datos. Es decir, produce probabilidades para las hipótesis de interés

3.- Es posible obtener validas medidas de soporte en menos tiempo, que son conceptualmente mas fáciles de entender.