Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
TRABAJO FIN DE MÁSTER EN BIOESTADÍSTICA
Modelización bayesiana de la
prevalencia de la enfermedad en
una población y de las medidas de
validez en pruebas diagnósticas
correladas, en ausencia de gold
estándar
Octubre 2020
Pilar Sanjuán Martín
Tutoras: Julia Amador Pacheco y Rosario Susi García
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Indice
Resumen
Abstract
1. Introduccion 2
1.1. Pruebas diagnosticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Prevalencia, sensibilidad y especificidad . . . . . . . . . . . . . . . . . . . . . 3
1.3. Inferencia estadıstica: enfoque frecuentista . . . . . . . . . . . . . . . . . . . . 4
1.4. Inferencia estadıstica: enfoque bayesiano . . . . . . . . . . . . . . . . . . . . 4
1.4.1. Metodologıa bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2. Distribucion Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3. Metodos de las cadenas de Markov de Monte Carlo (MCMC) . . . . . 10
1.4.4. Estudio de la convergencia . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.5. Deviance Information Criteria (DIC) para la comparacion de modelos . 12
2. Objetivos 12
3. Metodologıa 13
3.1. Modelo matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Enfoque frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3. Enfoque bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4. Software utilizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4. Resultados 20
4.1. Aplicacion a un caso real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2. Aplicacion a datos simulados . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.2.1. Aplicacion a datos simulados: correlacion insignificante o nula . . . . . 28
4.2.2. Aplicacion a datos simulados: correlacion moderada . . . . . . . . . . 33
4.2.3. Aplicacion a datos simulados: correlacion alta . . . . . . . . . . . . . . 38
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
5. Estudios de convergencia 43
5.1. Metodos graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2. Metodos analıticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6. Conclusiones 49
Bibliografıa 51
Anexo 1: Figuras de los estudios de convergencia 54
Metodos graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Metodos analıticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Anexo 2: Codigo R de los modelos 86
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Indice de Figuras
1. Publicaciones anuales sobre inferencia bayesiana hasta 2019 . . . . . . . . . . 6
2. Diferentes formas de la distribucion Beta [3] . . . . . . . . . . . . . . . . . . . 9
3. Distribuciones Beta con misma mediana pero diferente amplitud . . . . . . . . 10
4. Distribuciones a priori de la publicacion [5] . . . . . . . . . . . . . . . . . . . 22
5. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6. Distribuciones a posteriori de los parametros del Modelo 1 . . . . . . . . . . . 23
7. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8. Distribuciones a posteriori de los parametros del Modelo 2 . . . . . . . . . . . 24
9. Distribuciones a priori fijadas para los datos que se van a simular . . . . . . . . 27
10. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
11. Distribuciones a posteriori de los parametros del Modelo 3.1 . . . . . . . . . . 29
12. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
13. Distribuciones a posteriori de los parametros del Modelo 3.2 . . . . . . . . . . 30
14. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
15. Distribuciones a posteriori de los parametros del Modelo 3.3 . . . . . . . . . . 31
16. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
17. Distribuciones a posteriori de los parametros del Modelo 4.1 . . . . . . . . . . 34
18. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
19. Distribuciones a posteriori de los parametros del Modelo 4.2 . . . . . . . . . . 35
20. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
21. Distribuciones a posteriori de los parametros del Modelo 4.3 . . . . . . . . . . 36
22. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
23. Distribuciones a posteriori de los parametros del Modelo 5.1 . . . . . . . . . . 39
24. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
25. Distribuciones a posteriori de los parametros del Modelo 5.2 . . . . . . . . . . 40
26. Resumen de resultados de las distribuciones a posteriori de los parametros en el
Modelo 5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
27. Distribuciones a posteriori de los parametros del Modelo 5.3 . . . . . . . . . . 41
28. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 1 54
29. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
30. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 2 56
31. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
32. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
33. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
34. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
35. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 3.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
36. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
37. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
38. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
39. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
40. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
41. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
42. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
43. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 4.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
44. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
45. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
46. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
47. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
48. Trazas de las observaciones a posteriori simuladas de los parametros del Modelo
5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
49. Cuantiles de las observaciones a posteriori simuladas de los parametros del Mo-
delo 5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
50. Diagnostico de convergencia del Modelo 1: PSRF . . . . . . . . . . . . . . . . 76
51. Diagnostico de convergencia del Modelo 1: Geweke . . . . . . . . . . . . . . . 76
52. Diagnostico de convergencia del Modelo 2: PSRF . . . . . . . . . . . . . . . . 77
53. Diagnostico de convergencia del Modelo 2: Geweke . . . . . . . . . . . . . . . 77
54. Diagnostico de convergencia del Modelo 3.1: PSRF . . . . . . . . . . . . . . . 78
55. Diagnostico de convergencia del Modelo 3.1: Geweke . . . . . . . . . . . . . . 78
56. Diagnostico de convergencia del Modelo 3.2: PSRF . . . . . . . . . . . . . . . 79
57. Diagnostico de convergencia del Modelo 3.2: Geweke . . . . . . . . . . . . . . 79
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
58. Diagnostico de convergencia del Modelo 3.3: PSRF . . . . . . . . . . . . . . . 80
59. Diagnostico de convergencia del Modelo 3.3: Geweke . . . . . . . . . . . . . . 80
60. Diagnostico de convergencia del Modelo 4.1: PSRF . . . . . . . . . . . . . . . 81
61. Diagnostico de convergencia del Modelo 4.1: Geweke . . . . . . . . . . . . . . 81
62. Diagnostico de convergencia del Modelo 4.2: PSRF . . . . . . . . . . . . . . . 82
63. Diagnostico de convergencia del Modelo 4.2: Geweke . . . . . . . . . . . . . . 82
64. Diagnostico de convergencia del Modelo 4.3: PSRF . . . . . . . . . . . . . . . 83
65. Diagnostico de convergencia del Modelo 4.3: Geweke . . . . . . . . . . . . . . 83
66. Diagnostico de convergencia del Modelo 5.1: PSRF . . . . . . . . . . . . . . . 84
67. Diagnostico de convergencia del Modelo 5.1: Geweke . . . . . . . . . . . . . . 84
68. Diagnostico de convergencia del Modelo 5.2: PSRF . . . . . . . . . . . . . . . 85
69. Diagnostico de convergencia del Modelo 5.2: Geweke . . . . . . . . . . . . . . 85
70. Diagnostico de convergencia del Modelo 5.3: PSRF . . . . . . . . . . . . . . . 86
71. Diagnostico de convergencia del Modelo 5.3: Geweke . . . . . . . . . . . . . . 86
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Indice de Tablas
1. Tabla de contingencia de los resultados de dos pruebas diagnosticas . . . . . . 13
2. Resultados de la Serologıa y Coprocultivo [5] . . . . . . . . . . . . . . . . . . 21
3. Distribuciones a priori fijadas en [5] . . . . . . . . . . . . . . . . . . . . . . . 21
4. Distribuciones a priori para ρD y ρD . . . . . . . . . . . . . . . . . . . . . . . 22
5. Resumen de los resultados del Modelo 1 y Modelo 2 . . . . . . . . . . . . . . 25
6. DIC del Modelo 1 y Modelo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 26
7. Valores de los parametros fijados para realizar la simulacion de los datos . . . . 26
8. Distribuciones a priori fijadas para los datos que se van a simular . . . . . . . . 27
9. Tabla de contingencia para Datos 1 (ρD = ρD = 0) . . . . . . . . . . . . . . . 28
10. Resumen de los resultados del Modelo 3.1, Modelo 3.2 y Modelo 3.3 . . . . . . 32
11. DIC del Modelo 3.1, Modelo 3.2 y Modelo 3.3 . . . . . . . . . . . . . . . . . 33
12. Tabla de contingencia para Datos 2 (ρD = 0.5, ρD = 0.4) . . . . . . . . . . . . 33
13. Resumen de los resultados del Modelo 4.1, Modelo 4.2 y Modelo 4.3 . . . . . . 37
14. DIC del Modelo 4.1, Modelo 4.2 y Modelo 4.3 . . . . . . . . . . . . . . . . . 38
15. Tabla de contingencia para Datos 3 (ρD = ρD = 0.8) . . . . . . . . . . . . . . 38
16. Resumen de los resultados del Modelo 5.1, Modelo 5.2 y Modelo 5.3 . . . . . . 42
17. DIC del Modelo 5.1, Modelo 5.2 y Modelo 5.3 . . . . . . . . . . . . . . . . . 43
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Resumen
Disponer de una prueba diagnostica gold standard puede ser complicado debido a muchas
razones: inexistencia, falta de disponibilidad, falta de etica al realizarla o un coste muy alto, en-
tre ellas. Igualmente por estos motivos, no se suele disponer de los resultados de varias pruebas
para poder compararlos, lo que hace imposible la estimacion a traves del enfoque frecuentista
por saturacion de parametros en el modelo cuando hay poca informacion. A esto se le anaden
todavıa mas dificultades cuando las pruebas diagnosticas son dependientes condicionadas al
verdadero estado de la enfermedad, caso que suele ocurrir de forma muy frecuente en la reali-
dad.
Por consiguiente, se ha planteado un problema en el que se tienen dos pruebas diagnosticas
que no son gold standard y son dependientes condicionalmente con el objetivo de estimar la
prevalencia de la enfermedad, ası como las sensibilidades y especificidades de ambas pruebas
diagnosticas, que haremos utilizando el enfoque bayesiano.
El modelo bayesiano construido se utilizo para comparar los resultados que se obtienen al
considerar diferentes distribuciones a priori en las correlaciones entre pruebas diagnosticas en
una base de datos real de refugiados camboyanos en Canada y en tres muestras simuladas donde
las pruebas diagnosticas tenıan una correlacion nula, moderada y alta. Para todos estos modelos,
se considero que las pruebas estaban correladas positivamente, ya que por bibliografıa esto es
ası en la mayor parte de los casos.
Los resultados obtenidos en los datos reales confirmaron una mejorıa del ajuste del modelo
a los datos cuando se consideraron distribuciones a priori uniformes en (0,1) para las correlacio-
nes frente al modelo que consideraba que existıa independencia condicional entre las pruebas.
En cuanto a las muestras simuladas, fueron mejores las estimaciones en aquellos modelos que
consideraban una distribucion a priori informativa en las correlaciones de las pruebas diagnosti-
cas. Ademas, exceptuando los datos de las pruebas que no estaban correladas, la incorporacion
de las distribuciones uniformes en (0,1) para las correlaciones resulto ser mejor alternativa que
considerar independencia condicional en el modelo, ya que, en el segundo caso, los intervalos
de probabilidad 0.95 de las distribuciones a posteriori en la mayorıa de los parametros no tenıan
incluidos sus valores reales.
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
A la vista de los resultados, se confirma la importancia de incorporar como parametros las
correlaciones de las pruebas diagnosticas en el modelo que se utilice para estimar la prevalencia,
las sensibilidades y las especificidades, ası como la repercusion que tiene considerar indepen-
dencia condicional entre las pruebas diagnosticas de forma general, ya que esto puede llevar
a errores de estimacion, que se hacen mas ingentes cuanto mayor es la correlacion real entre
pruebas.
Palabras clave: Correlacion, Estadıstica Bayesiana, prueba diagnostica, prevalencia, sensi-
bilidad, especificidad.
Abstract
Having a gold standard diagnostic test can be complicated due to many reasons: non-
existence, lack of availability, lack of ethics when performing it or a very high cost, among
them. Also for these reasons, the results of several tests are not usually available for compa-
rison, which saturates the model with more parameters than degrees of freedom when there
is little information and makes it impossible to make the estimations through the frequentist
approach. On top of this, even more difficulties are added when the diagnostic tests are condi-
tionally dependent on the true status of the disease, a case that tends to occur very frequently in
reality.
Therefore, a problem has been formulated in which we have two diagnostic tests that are
not gold standard but are conditionally dependent with the aim of estimating the prevalence of
the disease, as well as the sensitivities and specificities of both diagnostic tests, which we will
do using the Bayesian approach.
The bayesian model built was used to compare the results obtained when considering dif-
ferent a priori distributions in the correlations between diagnostic tests in a real database of
Cambodian refugees in Canada and in three simulated samples where the diagnostic tests had
a null, moderate and high correlation. For all these models, the tests were considered to be
positively correlated, since from literature this is the case in most of the real scenarios.
The results obtained in the real data confirmed an improvement of the adjustment of the
model to the data when uniform a priori distributions in (0,1) were considered for the correla-
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
tions compared to the model that considered that there was conditional independence among the
tests. As for the simulated samples, the estimates were better in those models that considered an
informative a priori distribution in the correlations of the diagnostic tests. Furthermore, except
for the data of the diagnostic tests that were not correlated, the incorporation of the uniform
distributions in (0,1) for the correlations turned out to be a better alternative than considering
conditional independence in the model, since, in the second case, the intervals of probability
0.95 of the a posteriori distributions in most of the parameters did not have their real values
included.
In view of the results, the importance of incorporating as parameters the correlations of
the diagnostic tests in the model used to estimate the prevalence, sensitivities and specificities
is confirmed, as well as the repercussion of considering conditional independence among the
diagnostic tests in general, since this can lead to estimation errors, which become bigger the
greater the real correlation among tests is.
Keywords: Correlation, Bayesian statistics, diagnostic test, prevalence, sensitivity, specifi-
city.
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
1. Introduccion
1.1. Pruebas diagnosticas
En el libro de Ruiz y Morillo, citado en [6], se define como test o prueba diagnostica a
cualquier proceso, mas o menos complejo, que pretenda determinar en un paciente la presencia
de cierta condicion, supuestamente patologica, no susceptible de ser observada directamente
(con alguno de los cinco sentidos elementales).
Hay diferentes pruebas diagnosticas segun el tipo de resultado que se obtenga de ellas: bina-
rias o dicotomicas (padecer o no una enfermedad), ordinales (una escala de valores) o continuas.
En el presente trabajo nos vamos a centrar en las del primer tipo, las pruebas dicotomicas.
Denotaremos a una prueba diagnostica como T, tal que:
T =
1, si el test da positivo,
0, si el test da negativo.
A la hora de evaluar si un cierto individuo en una poblacion posee una enfermedad o no,
el escenario ideal es que exista un llamado gold standard, esto es, una prueba diagnostica que
defina, sin ningun tipo de error, la poblacion enferma y sana.
Sin embargo, disponer de una prueba gold standard puede ser complicado debido a muchas
razones: inexistencia, falta de disponibilidad, falta de etica al realizarla o un coste muy alto,
entre ellas.
Cuando no hay gold standard, uno puede elegir entre varias opciones. Entre estas, se pue-
den destacar: el uso y la aceptacion de una prueba imperfecta como gold standard; el uso de
un “Composite reference standard” (CRS) [2], que combina informacion de diferentes pruebas
imperfectas para reformular un pseudo gold standard; o, por ultimo, permitir a un modelo defi-
nir implıcitamente que significa estar enfermo/a con una serie de tecnicas estadısticas [5], que
es lo que se realizara en este trabajo.
En este contexto, para evaluar la condicion o enfermedad de un individuo, es preferible
emplear varias pruebas diagnosticas. De acuerdo con [5], para simplificar los modelos se sue-
le asumir independencia condicional entre las pruebas diagnosticas condicionada al verdadero
estado de la enfermedad de la persona evaluada. No obstante, el artıculo menciona que varios
2
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
autores han demostrado la importancia de considerar esta dependencia, ya que si esta no se con-
sidera al analizar los resultados de las pruebas diagnosticas, las estimaciones de la prevalencia
de la enfermedad o las de la sensibilidad y la especificidad de la prueba diagnostica pueden estar
sesgadas. Esto es debido a que, en la practica, es usual que las pruebas diagnosticas se basen en
el mismo “fenomeno” biologico para evaluar la enfermedad, y puede conducir a errores ignorar
esta posible dependencia [5].
1.2. Prevalencia, sensibilidad y especificidad
Denotaremos D como el estado real de una enfermedad en una persona, tal que:
D =
1, si la persona esta enferma,
0, si la persona esta sana.
Se define como prevalencia puntual de una enfermedad en una poblacion, y la denotare-
mos como π, a la proporcion de individuos enfermos que hay en ella. Esto es:
π = P (D = 1)
Existen dos conceptos esenciales a la hora de evaluar la capacidad de una prueba diagnostica
en relacion con la correcta identificacion de un individuo como enfermo o sano, que son la
sensibilidad y la especificidad.
Se define como sensibilidad de una prueba diagnostica, y la denotaremos como Se, a la
probabilidad de que una prueba diagnostica clasifique de forma correcta a un individuo
enfermo. Esto es:
Se = P (T = 1|D = 1)
Se define como especificidad de una prueba diagnostica, y la denotaremos como Sp, a la
probabilidad de que una prueba clasifique de forma correcta a un individuo sano. Esto es:
Sp = P (T = 0|D = 0)
3
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Ambos conceptos son caracterısticas intrınsecas de la prueba e independientes de la pre-
valencia de la enfermedad. La estimacion de la prevalencia, la sensibilidad y especificidad en
ausencia de gold standard en una poblacion, se puede obtener haciendo inferencias (una vez
determinado el modelo estadıstico asociado a los datos o a la muestra recogida) desde dos en-
foques: el frecuentista y el bayesiano, que introduciremos a continuacion.
1.3. Inferencia estadıstica: enfoque frecuentista
Una forma de estimar los parametros de un modelo, desde el enfoque frecuentista, es utilizar
el metodo de maxima verosimilitud (MLE), que consiste en obtener los llamados estimadores de
maxima verosimilitud. Estos se consiguen a partir de la funcion de verosimilitud, y representan
los valores que mas probables son dados los datos observados (en el caso de distribuciones dis-
cretas), y los valores que alcanzan mayor densidad (en el caso de distribuciones continuas). Sea
X = (X1, . . . , Xn) una variable aleatoria tal que n ∈ N, se define como funcion de verosimi-
litud a la funcion de probabilidad (o de densidad) conjunta de X evaluada en x = (x1, . . . , xn)
vista como funcion de θ, tal que:
P (X = x|θ) Notacion= L(θ) = L(x; θ) = fθ(x) (1)
donde θ puede ser un escalar o un vector de parametros θ = (θ1, . . . , θk) y k ∈ N.
Adicionalmente, se pueden calcular los llamados intervalos de confianza, que estan com-
puestos por dos valores dentro de los cuales puede estar contenido el parametro de interes de la
poblacion.
No siempre existe una solucion usando este metodo, ni esta va a ser siempre unica. En la
practica, es usual que no sea posible obtener una forma analıtica de las soluciones de los esti-
madores de maxima verosimilitud, especialmente cuando el modelo esta saturado con muchos
parametros [13].
1.4. Inferencia estadıstica: enfoque bayesiano
Segun [4], se define bayesiano como: “todo lo relativo a los metodos estadısticos que asignan
probabilidades o distribuciones a los eventos o parametros, basandose en la experiencia previa
4
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
a la recoleccion de los datos experimentales, y que aplica el teorema de Bayes para revisar las
probabilidades y distribuciones despues de obtener los datos experimentales”. El Teorema de
Bayes, que fue descubierto por el reverendo Thomas Bayes y publicado despues de su muerte
en 1763, se formula de la siguiente manera: “Para un par de sucesos A y B, la probabilidad de
que suceda A dada la ocurrencia del suceso B equivale a”:
P (A|B) =P (A ∩B)
P (B)=P (B|A)P (A)
P (B)siendo P (B) > 0 (2)
Sin embargo, al realizar una busqueda en PubMed con los terminos clave “bayesian inferen-
ce” or “bayesian statistical approach” or “bayesian estimation”, se ha encontrado que la primera
mencion del uso de la estadıstica bayesiana para hacer inferencias es en 1965, 200 anos despues
de que se formulara por primera vez el teorema.
Ademas, al realizar un grafico con la distribucion del numero de publicaciones que contie-
nen alguna de las tres frases clave expuestas en el parrafo anterior (Figura 1), se puede observar
un crecimiento exponencial del uso de la inferencia bayesiana a lo largo de los anos, desde 1965
hasta 2019.
Este intervalo de dos siglos entre la formulacion en 1763 del teorema de Bayes y la primera
mencion encontrada en PubMed, se puede explicar debido a un cambio de terminologıa. El uso
del adjetivo “bayesiano” que se utiliza a dıa de hoy, no fue popularizado hasta los anos 1950,
junto con el adjetivo “frecuentista” para el metodo de maxima verosimilitud definido por Fisher
en 1922. De hecho, a la estadıstica bayesiana se la denominaba como probabilidad inversa, y
era el metodo mas comun para hacer inferencias antes de Fisher [7]. Sin embargo, segun [15],
la inferencia bayesiana estaba limitada a modelos simples cuyos resultados analıticos estaban
disponibles. Por tanto, [15] menciona que la creciente popularidad de los metodos bayesianos
en genetica y otras areas de la biologıa es reciente y se debe a los grandes avances en potencia
computacional, que han permitido la implementacion de tecnicas numericas como las simu-
laciones de Monte Carlo para hacer analisis bayesianos utilizando modelos complejos. Este
desarrollo de tecnicas numericas comenzo a principios de los anos 1950, y tiene como meto-
do mas popular el de las cadenas de Markov de Monte Carlo (MCMC) [15]. Sin embargo, el
impacto de estos metodos en estadıstica no han sido notorios hasta principios de los anos 90
[17], con un punto de inflexion en la publicacion de Gelfand and Smith (1990), en el que se
5
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 1: Publicaciones anuales sobre inferencia bayesiana hasta 2019
promueve el metodo del muestreador de Gibbs en una serie de metodos computacionales pro-
puestos sencillos [23], ademas de la aparicion del software BUGS (Bayesian inference Using
Gibbs Sampling) en 1991 [17].
Por todas estas razones, se ha podido notar un crecimiento exponencial desde entonces en
las publicaciones que hablan de estimaciones bayesianas en PubMed.
1.4.1. Metodologıa bayesiana
Reemplanzando en la formula del Teorema de Bayes (2) los conjuntos A y B por el vector
θ de los parametros que deseamos estimar y una variable aleatoria X (respectivamente), y sea
x un conjunto de datos, se tiene:
6
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
P (θ|X = x) =L(x; θ)P (θ)
P (X = x)siendo P (X = x) > 0,
donde P es una probabilidad si X es una variable aleatoria discreta, y una funcion de den-
sidad si X es una variable aleatoria continua. De ahora en adelante nos referiremos a P como
distribucion de probabilidad en cualquiera de los dos casos para simplificar el vocabulario del
documento.
Al ser los datos observados fijos, P (X = x) va a ser una constante, por lo que:
P (θ|x) ∝ L(x; θ)P (θ) (3)
De este modo, se sigue que la distribucion de probabilidad P (θ|x) del vector de parametros
θ dados los datos observados X = x (a la que se califica como distribucion a posteriori) es
proporcional a la funcion de verosimilitud L(x; θ) por la distribucion de probabilidad del vector
de parametros θ, denominada como distribucion a priori P (θ).
El objetivo de la metodologıa bayesiana es complementar la informacion previa que se tenga
sobre los valores que pueden tomar uno o varios parametros de interes con la informacion que
aportan los datos observados. Esta informacion previa sobre los parametros de interes, debe
elegirse con criterio (por ejemplo, a traves de una persona experta que tenga conocimientos
sobre ellos), y tiene que ser bien traducida de manera probabilıstica.
La eleccion de la distribucion a priori se lleva a cabo a traves de la elicitacion, que es el
proceso en el que se formula el conocimiento y las creencias de los expertos acerca de una o mas
cantidades inciertas, y se resume en una distribucion. En el contexto de la estadıstica bayesiana,
la elicitacion se utiliza normalmente como metodo para especificar las distribuciones a priori
de uno o mas parametros desconocidos en un modelo estadıstico. Historicamente los primeros
metodos de elicitacion estaban limitados a utilizar familias de distribuciones conjugadas, pero
los metodos computacionales modernos han permitido librar a este proceso de esas restricciones
[8].
Una vez se ha realizado una correcta elicitacion del parametro o los parametros, el resto de
pasos a seguir son los mismos que para la estadıstica de enfoque frecuentista: al recoger los
datos observados, se elige el modelo de probabilidad que mejor se adapte a ellos y que a la vez
7
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
se relacione con el parametro o los parametros que se desean estimar.
Finalmente, la distribucion a posteriori es, como se ha mencionado, la multiplicacion de la
funcion de verosimilitud de los datos por la distribucion a priori del parametro o los parametros.
La distribucion a posteriori, a su vez, puede convertirse en distribucion a priori para volver a
combinarse con nueva informacion observada. Este proceso se puede repetir cuantas veces se
quiera, pudiendo actualizarse el conocimiento disponible del parametro o los parametros con
nueva informacion que se vaya recogiendo en un futuro.
Entre las ventajas que ofrece la estadıstica de enfoque bayesiano frente a la frecuentista,
podemos numerar las siguientes: permite incorporar toda la informacion existente hasta ese
momento (subjetiva del experimentador y objetiva de experimentos previos) mediante la dis-
tribucion a priori; en algunas circunstancias, la informacion a priori da lugar a la necesidad
de menor tamano muestral y a una duracion mas corta del estudio; la estadıstica bayesiana
considera los datos fijos y los parametros aleatorios, al contrario que la estadıstica de enfoque
frecuentista, permitiendo que las estimaciones se hagan unicamente en base a los datos obser-
vados y no en base a los datos observados mas los datos hipoteticos si se repitiera el muestreo;
utiliza intervalos de probabilidad para indicar la probabilidad de que un parametro este dentro
de un cierto intervalo; permite calcular la probabilidad asociada a una variable aleatoria, a un
suceso, a un parametro, a una hipotesis, a un modelo, etc; tiene una gran flexibilidad para tratar
con datos missing, etc [20].
Aun y con todas estas ventajas, la inferencia bayesiana es uno de los enfoques mas polemi-
cos de la estadıstica [9]. La aplicacion de la estadıstica bayesiana antes de los desarrollos
computacionales en este campo, estaba muy limitada y esto era un impedimento y una obje-
cion a su uso, pero, a dıa de hoy, es una teorıa aplicable en muchısimos campos de la ciencia
y sirve incluso para resolver los modelos mas complejos [10]. Sin embargo, en [10] tambien
se habla de que el hecho de que actualmente los modelos sean tan sencillos de ajustar y que se
pueda hacer sin tener que pensar demasiado, se ha convertido en una de las crıticas actuales.
Otra de las crıticas, es la que considera que el modelo esta sujeto a la subjetividad de la distribu-
cion a priori, que depende de la persona encargada del estudio [10]. Es cierto que este enfoque
pueda no ser adecuado en manos de una persona que carezca de experiencia y/o criterio en el
momento de elegir la distribucion a priori de un modelo, y a la hora de evaluar posteriormen-
8
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
te los resultados obtenidos de forma crıtica; pero es una herramienta potente, que utilizada de
forma correcta puede ayudarnos a entender mejor la realidad.
En este trabajo, se va a tratar de entender a traves de los llamados analisis de sensibilidad
como cambian nuestros resultados al variar las distribuciones a priori de nuestro parametro de
interes (o parametros), y por tanto su influencia y peso frente a los datos observados.
1.4.2. Distribucion Beta
Sean α y β dos escalares tales que α, β > 0, se define la distribucion de probabilidad
Beta(α,β) de una variable aleatoria X como:
P (X) =1
B(α, β)Xα−1(1−X)β−1donde X ∈ [0, 1] y B(α, β) =
Γ(α)Γ(β)
Γ(α + β)
Sea z un numero complejo, se define Γ(z) como:
Γ(z) =
∫ ∞0
e−ttz−1dt, pudiendo ser z un numero real o complejo
Las distribuciones Beta tienen un rango de valores entre 0 y 1, y puede tomar muchos
aspectos diferentes segun el valor que se les de a los parametros α y β, como se puede ilustrar
en la Figura 2.
Figura 2: Diferentes formas de la distribucion Beta [3]
9
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Esta flexibilidad de tomar diversas formas de la distribucion Beta y el hecho de que el rango
de valores que tome este entre 0 y 1, permite que sea una buena herramienta para describir
las distribuciones a priori de los parametros que representan probabilidades. Ademas, tambien
permite anadir mas o menos incertidumbre a los parametros; de modo que, cuanto mayor sean
los valores de α y β, mas estrecha se va a hacer la distribucion, como podemos observar en la
Figura 3.
Figura 3: Distribuciones Beta con misma mediana pero diferente amplitud
Al ser nuestro objetivo la estimacion de la prevalencia, sensibilidades y especificidades de
una enfermedad, queda justificado el uso que vamos a hacer de las distribuciones Beta a lo largo
de este trabajo para describir las distribuciones a priori de cada parametro.
1.4.3. Metodos de las cadenas de Markov de Monte Carlo (MCMC)
Los metodos MCMC consisten en construir una cadena aperiodica e irreducible de Markov,
cuya distribucion estacionaria sea igual a la distribucion a posteriori deseada. Siempre y cuando
se cumplan ciertas condiciones y no importa desde donde parta, la cadena converge y llega a un
estado de estacionariedad en el que la distribucion marginal de los estados de la cadena va a ser
igual a nuestra distribucion a posteriori buscada.
10
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Ya que teoricamente no importa el valor del estado inicial del que parta la cadena, las pri-
meras iteraciones no tienen por que ser valores representativos de la distribucion a posteriori
simulada. Es por ello que en los metodos MCMC se lleva a cabo el “burn-in”, que es el proce-
so por el cual las primeras iteraciones se descartan porque la cadena todavıa no ha convergido
[16]. Ademas, para comprobar que la cadena de Markov converge a la distribucion estacionaria
y que esto se cumple independientemente de donde parta, se suelen construir varias cadenas en
paralelo con distintos puntos iniciales elegidos aleatoriamente.
La primera publicacion sobre el metodo de Monte Carlo fue la de Metropolis and Ulam
(1949) y el primer algoritmo MCMC, llamado a dıa de hoy como algoritmo de Metropolis,
fue publicado en 1953 y generalizado en el algoritmo de Metropolis-Hastings en 1970 [17].
Posteriormente, surgio la tecnica de muestreo de Gibbs, que no se desarrollo en el contexto de
la estadıstica bayesiana hasta 1984 por los hermanos Alan Geman y Donald Jay Geman [19], y
que es un caso particular del algoritmo de Metropolis-Hastings.
Actualmente, ambos algoritmos se utilizan en combinacion a traves de softwares compu-
tacionales como BUGS, que van a utilizarse como herramienta para la realizacion de este tra-
bajo.
1.4.4. Estudio de la convergencia
Para confirmar que la cadena ha alcanzado la distribucion estacionaria, es necesario compro-
bar la convergencia de la misma. Esto puede hacerse a traves de metodos graficos o analıticos.
Entre los metodos graficos se pueden distinguir varios, de los cuales vamos a utilizar para
el presente trabajo dos de ellos: la evaluacion de la convergencia a traves de las trazas (que
son los valores que toman las cadenas simuladas a lo largo de las iteraciones) y los cuantiles.
En el primer metodo, se visualizan para cada uno de los parametros del modelo las trazas, y
se observa si los valores simulados de la cadena frente al tiempo no presentan una desviacion
de estacionariedad y, por lo tanto, convergen. Para el metodo a traves de la observacion de los
cuantiles, se estudia si estos valores son estables a lo largo del tiempo y coinciden entre cadenas,
o si por el contrario fluctuan o no coinciden.
Otra forma paralela es hacerlo analıticamente, y mientras se pueden destacar diversos meto-
dos, en el presente trabajo nos centraremos en el siguiente par: El criterio de convergencia de
11
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Geweke y el criterio de convergencia PSRF (Potential Scale Reduction Factor).
El criterio de convergencia de Geweke hace una comparacion de los valores en una misma
cadena. Toma un porcentaje de valores del principio y compara la media de los mismos con la
media de un porcentaje de valores del final de la cadena, de modo que si esta converge, el valor
estadıstico Z se tiene que encontrar dentro del intervalo (-1.96,1.96) [14].
El criterio de convergencia PSRF compara la variabilidad entre cadenas con la variabilidad
dentro de cada cadena. Si hay buena convergencia, los valores de este criterio deben de estar
alrededor del 1 [14].
1.4.5. Deviance Information Criteria (DIC) para la comparacion de modelos
En este trabajo se va a utilizar un criterio para comparar modelos denominado Deviance
Information Criteria (DIC), que se define como sigue:
DIC = Dev + pDev o DIC = Dev + 2 · pDev
Donde la devianza se define como Dev = −2 · log(L(θ;x)), Dev es la media a posteriori
de la devianza, Dev la devianza de la media a posteriori y pDev = Dev − Dev.
El DIC es una medida de la validez del ajuste del modelo a los datos, y es menor cuanto
mejor es el ajuste. Por lo tanto, el modelo cuyo DIC sea menor de los que se esten comparando
sera el escogido.
2. Objetivos
El objetivo principal de este trabajo es estimar, a traves de la inferencia bayesiana, la preva-
lencia, las sensibilidades y especificidades de dos pruebas diagnosticas correladas en ausencia
de gold standard.
Como objetivo secundario, se van a comparar las estimaciones de la prevalencia, las sensi-
bilidades y especificidades cuando se plantean distintas distribuciones a priori para las correla-
ciones entre las dos pruebas diagnosticas sobre dos tipos de datos: una base de datos reales y
diferentes muestras simuladas de poblaciones en las que hay poca, media o mucha dependencia
condicional.
12
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
3. Metodologıa
Dentro de este epıgrafe, vamos a plantear el modelo matematico que se va a emplear para
inferir sobre la prevalencia de una enfermedad y las sensibilidades y especificidades de dos
pruebas diagnosticas en el caso de que haya dependencia condicional dado el verdadero estatus
de la enfermedad y ausencia de gold standard.
3.1. Modelo matematico
Supongamos que queremos estimar la prevalencia π de una enfermedad en una poblacion, y
que no existe o no hay ninguna prueba gold standard que este disponible, pero que sı dispone-
mos de los resultados de dos pruebas diagnosticas dicotomicas T1 y T2. Ademas, consideremos
por simplicidad del modelo, que las propiedades de las pruebas diagnosticas no varıan entre
individuos debido a un factor aleatorio.
Denotemos la sensibilidad y la especificidad de Tj como Sej y Spj donde j = 1, 2. De ese
modo, se definen como: Sej = P (Tj = 1|D = 1) y Spj = P (Tj = 0|D = 0).
En este contexto donde no podemos saber la eficacia de T1 y T2 para diagnosticar correc-
tamente a una persona enferma o descartar correctamente a una persona sana, queremos es-
timar los parametros π, Se1, Se2, Sp1, Sp2 a partir de los resultados obtenidos de las pruebas
diagnosticas sobre una muestra de n individuos escogida de entre la poblacion objeto de estudio.
Si denotamos nt1t2 al numero de individuos que han obtenido un resultado T1 = t1 y T2 = t2
en un par de pruebas diagnosticas, donde t1, t2 ∈ {0, 1}, tendrıamos la clasificacion mostrada
en la Tabla 1:
T2 = 1 T2 = 0
T1 = 1 n11 n10 n11 + n10
T1 = 0 n01 n00 n01 + n00
n11 + n01 n10 + n00 n =∑1
i=0
∑1j=0 nij
Tabla 1: Tabla de contingencia de los resultados de dos pruebas diagnosticas
Denotando pt1t2 como la probabilidad de haber obtenido un resultado T1 = t1 en la primera
prueba diagnostica y un resultado T2 = t2 en la segunda, entonces pt1t2 = P (T1 = t1, T2 = t2).
13
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
SeaXt1t2 la variable aleatoria que indica el numero de personas que han obtenido un resulta-
do T1 = t1, T2 = t2, se tiene que esta sigue una distribucion multinomial X = (X11, X10, X01, X00) ∼
(n,p), tal que p = (p11, p10, p01, p00), donde:
1∑i=0
1∑j=0
pij = 1, tal que i, j ∈ {0, 1}
Por esto:
P (X = (n11, n10, n01, n00)) =n!
n11! n10! n01! n00!pn11
11 pn1010 pn01
01 pn0000 (4)
Por el teorema de la probabilidad total, para todo t1, t2 ∈ {0, 1}, podemos expresar la
probabilidad conjunta como:
pt1t2 = P (T1 = t1, T2 = t2|D = 1) · P (D = 1) + P (T1 = t1, T2 = t2|D = 0) · P (D = 0) =
= π · P (T1 = t1, T2 = t2|D = 1) + (1− π) · P (T1 = t1, T2 = t2|D = 0)
(5)
Si considerasemos independencia condicional entre T1 y T2 dada la enfermedad, por defini-
cion obtendrıamos de la anterior expresion:
pt1t2 = π · P (T1 = t1|D = 1) · P (T2 = t2|D = 1)+
+ (1− π) · P (T1 = t1|D = 0) · P (T2 = t2|D = 0), ∀t1, t2 ∈ {0, 1}
Al ser desarrollada ∀t1, t2 ∈ {0, 1}, estas expresiones quedarıan en funcion de la prevalen-
cia, especificidades y sensibilidades de T1 y T2, tal que:
p11 = π · Se1 · Se2 + (1− π) · (1− Sp1) · (1− Sp2)
p10 = π · Se1 · (1− Se2) + (1− π) · (1− Sp1) · Sp2
p01 = π · (1− Se1) · Se2 + (1− π) · Sp1 · (1− Sp2)
p00 = π · (1− Se1) · (1− Se2) + (1− π) · Sp1 · Sp2
(6)
14
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Hemos introducido previamente que en [5] se incide sobre los errores en la estimacion que
ocurren al no tener en cuenta la dependencia condicional entre varias pruebas diagnosticas, por
lo que se va a construir un modelo que no asuma independencia condicional entre T1 y T2 dada
la enfermedad.
Proposicion 3.1. Sean CovD y CovD la covarianza entre dos pruebas diagnosticas que hay
en la poblacion de enfermos y en la de sanos (respectivamente), se cumplen las siguientes
igualdades:
P (T1 = 1, T2 = 1 |D = 1) = Se1 · Se2 + CovD (7)
P (T1 = 1, T2 = 0|D = 1) = Se1 · (1− Se2)− CovD (8)
P (T1 = 0, T2 = 1|D = 1) = (1− Se1) · Se2 − CovD (9)
P (T1 = 0, T2 = 0|D = 1) = (1− Se1) · (1− Se2) + CovD (10)
P (T1 = 0, T2 = 0 |D = 0) = Sp1 · Sp2 + CovD (11)
P (T1 = 0, T2 = 1 |D = 0) = Sp1 · (1− Sp2)− CovD (12)
P (T1 = 1, T2 = 0 |D = 0) = (1− Sp1) · Sp2 − CovD (13)
P (T1 = 1, T2 = 1 |D = 0) = (1− Sp1) · (1− Sp2) + CovD (14)
Demostracion: De la definicion de covarianza, llegamos al siguiente par de expresiones:
Cov (T1, T2 |D = 1) = CovD = E(T1 · T2 |D = 1)− E(T1 |D = 1) · E(T2 |D = 1)
= P (T1 = 1, T2 = 1 |D = 1)− P (T1 = 1 |D = 1) · P (T2 = 1 |D = 1)
= P (T1 = 1, T2 = 1 |D = 1)− Se1 · Se2
(15)
Cov (T1, T2 |D = 0) = CovD = E(T1 · T2 |D = 0)− E(T1 |D = 0) · E(T2 |D = 0)
= P (T1 = 1, T2 = 1 |D = 0)− P (T1 = 1 |D = 0) · P (T2 = 1 |D = 0)
= P (T1 = 1, T2 = 1 |D = 0)− (1− Sp1) · (1− Sp2)
(16)
15
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Despejando de 15 y 16, se obtienen 7 y 14, respectivamente.
Con 7 y 14, podemos llegar a las otras seis expresiones: 8, 9, 10, 11, 12 y 13, de las que
se deduciran las que corresponden a la poblacion de enfermos (8, 9 y 10), ya que el resto se
deducen de forma analoga.
Sabemos que la probabilidad marginal de que una prueba diagnostica Tj de un resultado
Tj = tj cuando un individuo esta enfermo (sano) podemos escribirla de la siguiente manera:
P (Tj = tj|D = i) = P (Tj = tj, Tk = 0|D = i) + P (Tj = tj, Tk = 1|D = i),
donde j 6= k, j, k ∈ {1, 2}, tj, i ∈ {0, 1}(17)
Si fijamos i = 1 y tj = 1 en 17 y valoramos j en 1 y en 2 (respectivamente k en 2 y en 1),
al sustituirlas en la ecuacion (7), se obtienen:
P (T1 = 1|D = 1)− P (T1 = 1, T2 = 0|D = 1) = Se1 · Se2 + CovD
P (T2 = 1|D = 1)− P (T1 = 0, T2 = 1|D = 1) = Se1 · Se2 + CovD
tal que:
P (T1 = 1, T2 = 0|D = 1) = Se1 · (1− Se2)− CovD
P (T1 = 0, T2 = 1|D = 1) = (1− Se1) · Se2 − CovD
Ademas, si sustituimos:
P (T1 = 1, T2 = 0|D = 1) = P (T2 = 0|D = 1)− P (T1 = 0, T2 = 0|D = 1)
en 8, obtenemos:
P (T1 = 0, T2 = 0|D = 1) = (1− Se1) · (1− Se2) + CovD
De forma analoga para D = 0, se harıa con la expresion 14 para obtener el resto de igual-
dades.
Ya demostradas las igualdades, podemos sustituirlas en las probabilidades conjuntas (5), de
16
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
modo que estas nos quedan en funcion de los parametros que queremos estimar y de CovD y
CovD:
p11 = π · (Se1Se2 + CovD) + (1− π) · ((1− Sp1)(1− Sp2) + CovD)
p10 = π · (Se1(1− Se2)− CovD) + (1− π) · ((1− Sp1)Sp2 − CovD)
p01 = π · ((1− Se1)Se2 − CovD) + (1− π) · (Sp1(1− Sp2)− CovD)
p11 = π · ((1− Se1)(1− Se2) + CovD) + (1− π) · (Sp1Sp2 + CovD)
(18)
3.2. Enfoque frecuentista
Como se ha mencionado anteriormente, el enfoque frecuentista buscarıa encontrar la estima-
cion de nuestros siete parametros (π, Se1, Se2, Sp1, Sp2, CovD, CovD) a traves, por ejemplo,
del metodo de maxima verosimilitud, que obtendrıa los valores mas probables dados los datos
disponibles (en el caso de distribuciones discretas), y los valores que alcanzan mayor densidad
(en el caso de distribuciones continuas). Sin embargo, como podemos observar en la Tabla 1,
nuestro modelo tiene tres grados de libertad debido a que 3 de los 4 nij pueden variar libre-
mente, ya que n11 + n10 + n01 + n00 = n; mientras que nuestro modelo esta saturado por siete
parametros. Al tener mas parametros que estimar que grados de libertad, nuestro problema no
va a tener solucion, ya que vamos a tener mas incognitas que ecuaciones y vamos a tener infini-
tas estimaciones posibles para cuatro de los siete parametros, todas ellas validas para el mismo
conjunto de datos.
El problema tampoco se resuelve en el caso de independencia condicional, ya que segun
[11], en ese contexto tendrıamos aun ası cinco parametros y tres grados de libertad.
Para que pudieramos estimar la prevalencia de la enfermedad y el resto de parametros de
interes a partir de la informacion que nos aportasen las pruebas diagnosticas, necesitarıamos los
datos de al menos cuatro pruebas diagnosticas diferentes [5]. Esto no es un caso muy frecuente,
ya sea por coste o inexistencia de otras pruebas diagnosticas para la enfermedad.
Es por esto que no podemos estimar nuestros parametros por el enfoque frecuentista. A
continuacion, presentaremos el mismo problema pero con el enfoque bayesiano, que sı ofrece
una solucion al mismo.
17
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
3.3. Enfoque bayesiano
Como hemos introducido previamente, el enfoque bayesiano trata de encontrar la distri-
bucion a posteriori del parametro (o parametros) a estimar, que se consigue combinando el
conocimiento previo que se tiene sobre el parametro (o parametros) con la funcion de verosimi-
litud asociada a los datos observados. En este contexto pues, tenemos que estimar el conjunto
de parametros de nuestro modelo a traves de su distribucion a posteriori.
Con este fin, tenemos que asignar una distribucion a priori a cada uno de ellos, donde re-
cojamos el conocimiento previo que hay disponible. La mayorıa de los parametros son proba-
bilidades y podemos resumir el conocimiento previo haciendo uso de las distribuciones Beta,
exceptuando las covarianzas. Esto se debe a que los valores que pueden tomar las covarianzas
abarcan todo el conjunto de numeros reales, dificultando no solo el resumen de la covarianza
a traves de una distribucion Beta, sino en general el tener un conocimiento a priori sobre entre
que valores puede encontrarse. Es por ello, que vamos a expresar las covarianzas en terminos
de los coeficientes de correlacion, que toman valores entre -1 y 1 (en general), y entre 0 y 1
si sabemos que hay correlacion positiva, por lo que sera mas sencillo asignarles distribuciones
a priori a estos coeficientes de correlacion. Sean X1 y X2 dos variables aleatorias, la relacion
entre el coeficiente de correlacion (ρ) y covarianza es:
ρ =Cov(X1, X2)√V ar(X1)V ar(X2)
de modo que:
CovD = ρD ·√V ar(T1|D = 1)V ar(T2|D = 1) = ρD ·
√Se1(1− Se1)Se2(1− Se2)
CovD = ρD ·√V ar(T1|D = 0)V ar(T2|D = 0) = ρD ·
√Sp1(1− Sp1)Sp2(1− Sp2)
Para que nuestra distribucion a posteriori nos reporte informacion que realmente sea de uti-
lidad, se tienen que elicitar de forma informativa al menos tantos parametros como grados de
libertad nos hubieran faltado hasta llegar al numero de parametros del modelo. Es decir, cuatro
de nuestros parametros tienen que tener al menos una distribucion informativa. La influencia
de las distribuciones a priori es notoria, e incluso en tamanos muestrales muy grandes no des-
18
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
aparece su influencia. Es por ello, que es importante que al menos 4 de los 7 parametros de
nuestros modelos esten bien elicitados, para poder obtener una buena estimacion a posteriori de
los valores tratados [5].
El modelo que vamos a utilizar para estimar nuestros parametros en el siguiente apartado va
a ser el bayesiano descrito en 3, donde la funcion de verosimilitud es:
L(n11, n10, n01, n00;Se1, Se2, Sp1, Sp2, π, ρD, ρD) ∝ pn1111 · pn10
10 · pn0101 · pn00
00 ,
y donde p11, p10, p01 y p00 vienen dadas por las expresiones en 19:
p11 = π ·(Se1Se2 + ρD ·
√Se1(1− Se1)Se2(1− Se2)
)+
+ (1− π) ·(
(1− Sp1)(1− Sp2) + ρD ·√Sp1(1− Sp1)Sp2(1− Sp2)
)p10 = π ·
(Se1(1− Se2)− ρD ·
√Se1(1− Se1)Se2(1− Se2)
)+
+ (1− π) ·(
(1− Sp1)Sp2 − ρD ·√Sp1(1− Sp1)Sp2(1− Sp2)
)p01 = π ·
((1− Se1)Se2 − ρD ·
√Se1(1− Se1)Se2(1− Se2)
)+
+ (1− π) ·(Sp1(1− Sp2)− ρD ·
√Sp1(1− Sp1)Sp2(1− Sp2)
)p11 = π ·
((1− Se1)(1− Se2) + ρD ·
√Se1(1− Se1)Se2(1− Se2)
)+
+ (−π) ·(Sp1Sp2 + ρD ·
√Sp1(1− Sp1)Sp2(1− Sp2)
),
(19)
que vamos a combinar con las distribuciones a priori que fijemos para nuestros parametros:
(Se1, Se2, Sp1, Sp2, π, ρD, ρD).
3.4. Software utilizado
Para la estimacion de las distribuciones a posteriori de nuestros parametros, hemos utilizado
el software OpenBUGS 3.2-3.2.1 a traves de RStudio Version 1.3.1073. [18], que utiliza el soft-
ware OpenBugs (Bayesian inference Using Gibbs Sampling), un popular software para analizar
modelos estadısticos complejos utilizando metodos MCMC. Este software utiliza el muestrea-
dor de Gibbs y el algoritmo de Metropolis-Hastings (MH) para generar cadenas de Markov por
19
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
muestreo de distribuciones condicionales completas [21]. En concreto, se van a hacer uso de las
librerıas “R2OpenBUGS”[22] y “coda”[14] para generar las cadenas de Markov y analizar su
convergencia de forma analıtica, respectivamente.
4. Resultados
Ya planteado el modelo, vamos a hacer inferencias sobre nuestros parametros con la meto-
dologıa bayesiana para sacar conclusiones acerca de la influencia que tiene considerar depen-
dencia condicional dado el verdadero estado de cierta enfermedad de una persona en diferentes
casos.
Primero, se van a coger datos reales y se van a comparar los resultados obtenidos cuando
se considera independencia incondicional frente a considerar la posibilidad de que haya depen-
dencia condicional entre las pruebas diagnosticas.
Ademas, se van a simular diferentes muestras de poblaciones con las sensibilidades, espe-
cificidades y prevalencia fija, y se van a ir variando los valores de las correlaciones entre las
pruebas para estudiar como cambian los resultados finales.
Todo esto se va a efectuar haciendo uso de los avances computacionales y del software
disponible hoy en dıa para realizar MCMC. Con este objetivo, se van a realizar en principio
100,000 iteraciones y se van a descartar en el proceso burn-in las 10,000 primeras, para asegu-
rarnos que nos hemos deshecho de las iteraciones en las cuales la cadena no ha podido alcanzar
aun su distribucion estacionaria (aunque habran modelos que requeriran de mas burn-in, como
detallamos en el apartado 5.). Ademas, se van a construir siempre 3 cadenas en paralelo, para
asegurarnos de la independencia que tiene el punto de partida de la cadena para que esta con-
verja. Los estudios de convergencia de los modelos que se van a presentar en este epıgrafe se
podran encontrar en la seccion 5, y las graficas y resultados de los metodos analıticos a los que
hace referencia en el Anexo 1.
Por ultimo, se va a considerar a lo largo de este apartado que las pruebas diagnosticas van a
estar correladas positivamente, de modo que ρD y ρD van a tomar valores entre 0 y 1, es decir,
si una detecta mas positivos, la otra tambien y viceversa. Creemos que esto es necesario, debido
a que hay pruebas diagnosticas que por haber estado basadas en un procedimiento biologico
20
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
parecido (tomar una muestra de sangre, por ejemplo), sus resultados pueden estar relacionados,
mas alla de que la persona este realmente enferma o no [12]. Ademas, segun [5], que las pruebas
diagnosticas esten correladas positivamente es el caso mas frecuente en la practica.
4.1. Aplicacion a un caso real
Ya que hemos estado basandonos en el modelo de [5], vamos a aprovechar para estudiar
los datos contenidos en la publicacion. Los autores hacen alusion a un estudio conducido para
estimar la prevalencia de la infeccion por Strongyloides en un grupo de refugiados camboyanos
en Canada, donde solo habıa disponibles dos pruebas diagnosticas que no eran gold standard:
una prueba serologica y una prueba de coprocultivo. La Tabla 2 recoge los resultados de las
pruebas diagnosticas de Serologıa y Coprocultivo proporcionados en la publicacion.
Stool examination (T1)
+ - Total
Serology + 38 87 125test (T2) - 2 35 37
Total 40 122 162
Tabla 2: Resultados de la Serologıa y Coprocultivo [5]
Consideramos las distribuciones informativas a priori que se exponen en la publicacion,
mostradas en la Tabla 3:
Parametro Distribucion a priori Mediana Intervalo de probabilidad 0.95
Se1 Beta(4.44, 13.31) 0.24 0.08-0.47Se2 Beta(21.96 ,5.49) 0.81 0.63-0.92Sp1 Beta(71.25, 3.75) 0.95 0.89-0.99Sp2 Beta(4.1, 1.76) 0.72 0.31-0.96π Beta(1, 1) 0.5 0-1
Tabla 3: Distribuciones a priori fijadas en [5]
Vamos a considerar, a partir de las distribuciones a priori de la Tabla 3, dos modelos: el
Modelo 1, que va a tener una distribucion uniforme en el intervalo (0,1) de los parametros
ρD, ρD, y un Modelo 2, que va a asumir independencia condicional, para comparar como afecta
y varıan los resultados al asumir que pueda existir correlacion entre las pruebas diagnosticas.
21
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
A continuacion, se presenta la Tabla 4 y la Figura 4, donde se van a mostrar las distribuciones
a priori de ρD y ρD para cada modelo y las distribuciones a priori que van a ser comunes a los
dos, respectivamente.
Figura 4: Distribuciones a priori de la publicacion [5]
Modelo 1 (Dependencia condicional) Modelo 2 (Independencia condicional)
ρD Beta(1,1) 0ρD Beta(1,1) 0
Tabla 4: Distribuciones a priori para ρD y ρD
Una vez presentados los datos que se van a manejar, se van a obtener las distribuciones
a posteriori con MCMC haciendo uso del software OpenBUGS, cuyos resultados para ambos
modelos (dependencia e independencia condicional) vamos a ir mostrando. Antes de analizar
los resultados que el programa nos facilita (resumen de las distribuciones a posteriori y graficas
de su densidad), se ha evaluado y confirmado la convergencia de las cadenas generadas, de las
que se hablaran en el apartado 5.
22
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 1:
Figura 5: Resumen de resultados de las distribuciones a posteriori de los parametros en el Mo-delo 1
Figura 6: Distribuciones a posteriori de los parametros del Modelo 1
23
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 2:
Figura 7: Resumen de resultados de las distribuciones a posteriori de los parametros en el Mo-delo 2
Figura 8: Distribuciones a posteriori de los parametros del Modelo 2
En la Tabla 5, se resumen los resultados del Modelo 1 y el Modelo 2 en cuanto a las me-
dianas de las distribuciones a posteriori y amplitud del intervalo de probabilidad, en terminos
porcentuales, 95 %.
Como podemos observar, el modelo que considera independencia condicional (Modelo 2),
ha obtenido en los resultados de las distribuciones a posteriori de los parametros que tienen
24
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Mediana de la distribu-cion a posteriori
Longitud del intervalode probabilidad 0.95
Modelo 1 Modelo 2 Modelo 1 Modelo 2
Se1 0.28 0.30 0.19 0.21Se2 0.83 0.89 0.18 0.16Sp1 0.95 0.96 0.1 0.08Sp2 0.66 0.7 0.68 0.58π 0.86 0.77 0.43 0.4ρD 0.16 0.28ρD 0.45 0.95
Tabla 5: Resumen de los resultados del Modelo 1 y Modelo 2
que ver con la eficiencia de las pruebas diagnosticas mayor densidad en valores mas altos que
el Modelo 1 y una concentracion de valores mas bajos en la prevalencia de la enfermedad. En
cuanto a la amplitud del intervalo de probabilidad al 95 % (en terminos porcentuales), en el Mo-
delo 2 los intervalos son mas estrechos por lo general. Esto es debido a que con la incorporacion
de las distribuciones a priori uniformes en el intervalo (0,1) en los parametros de correlacion,
se ha introducido incertidumbre en nuestro modelo, ya que la distribucion a priori que se les
habıa asignado eran uniformes en el intervalo (0,1), lo que ha provocado mayor dispersion en
los valores de las distribuciones a posteriori.
Al considerar en el Modelo 1 que pueda existir dependencia condicional positiva entre las
pruebas diagnosticas, pero sin aportar el valor que puedan tener las correlaciones ρD y ρD,
hemos llegado a que en el diagnostico de la poblacion sana (ρD) hay una correlacion positiva
que puede variar desde 0 hasta 1, pero con mayor densidad en los valores cercanos a cero y
disminuyendo esta a medida que el valor se acerca a 1, segun se puede observar en la Figura 6.
En cuanto a la correlacion de pruebas diagnosticas a la hora de identificar los enfermos (ρD),
tenemos un correlacion baja, con una probabilidad de 0.95 de encontrarse en el intervalo (0,0.3).
Para ver cual de los dos modelos ha sido mas adecuado, hemos comparado los valores del
DIC de ambos modelos, representados en la Tabla 6:
Como podemos observar, el DIC es menor en el modelo de dependencia condicional (Mo-
delo 1). Por lo tanto, podemos asumir que hemos hecho una mejora en el ajuste de los datos de
[5] con la incorporacion de la dependencia condicional entre pruebas diagnosticas.
25
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
DIC
Modelo 1 17.84Modelo 2 20.43
Tabla 6: DIC del Modelo 1 y Modelo 2
4.2. Aplicacion a datos simulados
A lo largo de los siguientes apartados, se les van a asignar diferentes distribuciones a priori
a ρD y ρD en tres casos: existencia de correlacion insignificante o nula, correlacion moderada
y correlacion alta. Para obtener los datos muestrales en cada caso, se van a hacer uso de las
ecuaciones 19, de las cuales vamos a calcular en cada uno de los siguientes apartados las pro-
babilidades p11, p10, p01 y p00. Con estas probabilidades, se van a simular a traves de la funcion
de R rmultinom los resultados de T1 y T2 que obtendrıan 250 supuestas personas al realizarse
ambas pruebas diagnosticas, cuya informacion resumiremos en una tabla de contingencia. Pa-
ra calcular p11, p10, p01 y p00 en cada uno de los tres apartados, se van a fijar los valores que
podemos ver en la Tabla 7 para nuestros parametros a lo largo los tres casos (correlacion baja,
moderada o alta) por igual y se va a fijar un valor de ρD y ρD diferente para cada uno de ellos.
Parametro Valores fijados
Se1 0.86Se2 0.3Sp1 0.7Sp2 0.6π 0.3
Tabla 7: Valores de los parametros fijados para realizar la simulacion de los datos
Para estudiar si hay diferencia en los resultados de las distribuciones a posteriori segun se
consideren las distribuciones a priori de las correlaciones, vamos a fijar para todos los casos
las siguientes distribuciones a priori para las sensibilidades, especificidades y prevalencia de la
enfermedad que se recogen en la Tabla 8.
Estas elicitaciones de los parametros α y β se han llevado a cabo a partir de la librerıa
“LearnBayes”[1] con la funcion beta.select, mediante la cual fijando dos cuantiles cualesquiera
se pueden calcular los parametros de la distribucion Beta asociados a esos valores. Podemos ver
graficamente las distribuciones de la Tabla 8 en la Figura 9.
26
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Parametro Distribucion a priori Mediana Intervalo de probabilidad 0.95
Se1 Beta(92.2,15.2) 0.86 0.79-0.92Se2 Beta(1.6,3.33) 0.3 0.04-0.74Sp1 Beta(20.59,9.01) 0.7 0.52-0.84Sp2 Beta(1,1) 0.5 0-1π Beta(38.7,90) 0.3 0.23-0.38
Tabla 8: Distribuciones a priori fijadas para los datos que se van a simular
Figura 9: Distribuciones a priori fijadas para los datos que se van a simular
Notese que se han dado distribuciones Beta informativas a 4 de los 5 parametros (a todos
menos Sp2), ya que como mencionamos en el apartado 3.3, tener al menos 4 distribuciones a
priori informativas es necesario para obtener una buena estimacion de la distribucion a poste-
riori de los mismos. El criterio para fijar las distribuciones a priori del resto de los parametros
diferentes a Sp2, ha sido que estuvieran centradas en los valores reales fijados para hacer las
simulaciones, reflejados en la Tabla 7.
27
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
4.2.1. Aplicacion a datos simulados: correlacion insignificante o nula
Para simular los Datos 1, se han tomado como nulos los valores de ρD y ρD, de modo que
se han calculado p11, p10, p01 y p00 de las ecuaciones 6. La tabla de contingencia de los Datos
1, la podemos ver en la Tabla 9:
T2 Total+ -
T1 + 34 80 114- 52 84 136
Total 86 164 250
Tabla 9: Tabla de contingencia para Datos 1 (ρD = ρD = 0)
Consideremos ademas de las distribuciones a priori de la Tabla 8, tres tipos de distribuciones
a priori para ρD y ρD: uniformes en el intervalo (0,1) (Modelo 3.1), informativas (Modelo 3.2)
y nulas (Modelo 3.3).
Modelo 3.1: Distribuciones a priori para ρD y ρD uniformes en el intervalo (0,1)
En primer lugar, se van a calcular las distribuciones a posteriori considerando distribuciones
a priori uniformes en el intervalo (0,1) (es decir, distribuciones Beta(1,1)) para ρD y ρD. Los
resultados de las distribuciones a posteriori que resultan de combinar esta incertidumbre en
estos parametros junto con los Datos 1 simulados y resumidos en la Tabla 9, podemos verlos en
las Figuras 10 y 11:
Figura 10: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 3.1
28
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 11: Distribuciones a posteriori de los parametros del Modelo 3.1
Modelo 3.2: Distribuciones a priori para ρD y ρD informativas
Para el calculo de las distribuciones a posteriori de nuestros parametros considerando dis-
tribuciones a priori para ρD y ρD informativas, hemos elicitado ρD y ρD para que tuvieran dis-
tribuciones con mayor densidad en valores por debajo de 0.3. En consecuencia, se han tomado
las distribuciones a priori Beta(1,10) para ambas. Los resultados de combinar esta informacion
a priori con los Datos 1 simulados y resumidos en la Tabla 9, se pueden ver en las Figuras 12 y
13:
29
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 12: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 3.2
Figura 13: Distribuciones a posteriori de los parametros del Modelo 3.2
30
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.3: Valores nulos para ρD y ρD a priori
Por ultimo, vamos a asignarle a ρD y ρD valores nulos en sus distribuciones a priori, de
modo que se imponga independencia condicional entre pruebas diagnosticas en la informacion
que se va a combinar con los Datos 1 simulados y resumidos en la Tabla 9. Los resultados
pueden verse en las Figuras 14 y 15:
Figura 14: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 3.3
Figura 15: Distribuciones a posteriori de los parametros del Modelo 3.3
31
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
En la Tabla 10, se resumen los resultados del Modelo 3.1, Modelo 3.2 y Modelo 3.3 en
cuanto a: las medianas de las distribuciones a posteriori y amplitud del intervalo de probabilidad,
en terminos porcentuales, 95 %.
Mediana de la distribu-cion a posteriori
Longitud del intervalode probabilidad 0.95
Modelo 3.1 Modelo 3.2 Modelo 3.3 Modelo 3.1 Modelo 3.2 Modelo 3.3
Se1 0.86 0.86 0.86 0.13 0.13 0.13Se2 0.1 0.17 0.23 0.27 0.31 0.33Sp1 0.73 0.71 0.71 0.18 0.18 0.18Sp2 0.54 0.58 0.6 0.21 0.19 0.19π 0.31 0.3 0.3 0.15 0.15 0.15ρD 0.34 0.06 - 0.93 0.29 -ρD 0.1 0.05 - 0.4 0.22 -
Tabla 10: Resumen de los resultados del Modelo 3.1, Modelo 3.2 y Modelo 3.3
Se puede observar en la Tabla 10 que las medianas de las distribuciones a posteriori de Sp1
y Sp2, pero sobre todo de π y de Se1, en todos modelos se asemejan mucho a los valores fi-
jados para las simulaciones, resumidos en la Tabla 7 (aunque la mediana de la distribucion a
posteriori de Sp2 en el Modelo 3.1 este ligeramente por debajo del valor real). Sin embargo,
se ha subestimado el valor de Se2 en ambos modelos. Que las medianas de las distribuciones
a posteriori se hayan subestimado para este parametro y levemente para Sp2 en el Modelo 3.1
y no en el resto de ellos, es debido a que ambos tienen asignados distribuciones a priori con
mayor dispersion que los parametros de la primera prueba diagnostica, y esto engloba como
posibles una mayor cantidad de valores. Ademas, que la subestimacion de Se2 sea mas baja en
el Modelo 3.1 que en el Modelo 3.2 y Modelo 3.3, incluso llegando a dejar fuera del intervalo
de probabilidad 0.95 el valor real de Se2, podrıa explicarse a traves de la incorporacion de la
posibilidad de que haya correlacion entre las pruebas diagnosticas, que ha dado a lugar a pensar
que quiza el Modelo 3.1 es erroneo, ya que no esta estimando de forma correcta uno de nuestros
parametros y sı ha estimado (como se puede ver en la Figura 11) la existencia de correlacion
entre ambas pruebas diagnosticas, sobre todo en la capacidad de diagnosticar enfermos. Cabe
senalar que los datos simulados en este caso, Datos 1, eran incorrelados dada la enfermedad,
e incorporar como a priori una distribucion uniforme en el intervalo (0,1) induce a error. Sin
embargo, las estimaciones del Modelo 3.2, al considerar a distribuciones a priori informativas,
32
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
han mejorado las estimaciones de la mediana de las distribuciones a posteriori de los parame-
tros, y aun concentrando la mayor densidad de sus valores en torno a 0.17 en la distribucion a
posteriori de Se2, contiene su verdadero valor 0.3 dentro del intervalo de probabilidad 0.95.
Para ver cual de los tres modelos ha sido mas adecuado, hemos comparado los valores del
DIC de los tres modelos, representados en la Tabla 11:
DIC
Modelo 3.1 21.61Modelo 3.2 21.49Modelo 3.3 21.5
Tabla 11: DIC del Modelo 3.1, Modelo 3.2 y Modelo 3.3
Como podemos observar, el DIC es menor en el modelo que considera distribuciones a
priori de ρD y ρD informativas (Modelo 3.2), seguido del modelo que considera independencia
condicional (Modelo 3.3), pero por una diferencia casi imperceptible con el primero, y dejando
como ultimo al Modelo 3.1, que considero distribuciones a priori uniformes en (0,1). Esto tiene
sentido ya que las correlaciones eran nulas, y una distribucion a priori uniforme en (0,1) sesga
de forma positiva los valores que pueden tomar estos parametros.
4.2.2. Aplicacion a datos simulados: correlacion moderada
Para simular los Datos 2, se han fijado unos valores de ρD y ρD moderados (ρD = 0.5 y
ρD = 0.4). La tabla de contingencia de los Datos 2, la podemos ver en la Tabla 12:
T2 Total+ -
T1 + 66 58 124- 27 99 126
Total 93 157 250
Tabla 12: Tabla de contingencia para Datos 2 (ρD = 0.5, ρD = 0.4)
Consideremos ademas de las distribuciones a priori de la Tabla 8, tres tipos de distribuciones
a priori para ρD y ρD: uniformes en el intervalo (0,1) (Modelo 4.1), informativas (Modelo 4.2)
y nulas (Modelo 4.3).
33
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.1: Distribuciones a priori para ρD y ρD uniformes en el intervalo (0,1)
En primer lugar, se van a calcular las distribuciones a posteriori considerando distribuciones
a priori uniformes en el intervalo (0,1) (es decir, distribuciones Beta(1,1)) para ρD y ρD. Los
resultados podemos verlos en las Figuras 16 y 17:
Figura 16: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 4.1
Figura 17: Distribuciones a posteriori de los parametros del Modelo 4.1
34
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.2: Distribuciones a priori para ρD y ρD informativas
Para el calculo de las distribuciones a posteriori de nuestros parametros considerando distri-
buciones a priori para ρD y ρD informativas, hemos elicitado ρD y ρD para que su distribucion
estuviera alrededor de un valor moderado (entre 0.30 y 0.60). En consecuencia, se han obteni-
do las distribuciones a priori Beta(47.8,45) y Beta(12.9,16), respectivamente. Los resultados de
combinar esta informacion a priori con los Datos 2 simulados y resumidos en la Tabla 12, se
pueden ver en las Figuras 18 y 19:
Figura 18: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 4.2
Figura 19: Distribuciones a posteriori de los parametros del Modelo 4.2
35
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.3: Valores nulos para ρD y ρD a priori
Por ultimo, vamos a asignarle a ρD y ρD valores nulos en sus distribuciones a priori, de
modo que se imponga independencia condicional entre pruebas diagnosticas en la informacion
que se va a combinar con los Datos 2 simulados y resumidos en la Tabla 12. Los resultados son
los que se muestran en las Figuras 20 y 21:
Figura 20: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 4.3
Figura 21: Distribuciones a posteriori de los parametros del Modelo 4.3
36
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
En la Tabla 13, se resumen los resultados del Modelo 4.1, Modelo 4.2 y Modelo 4.3 en
cuanto a: las medianas de las distribuciones a posteriori y amplitud del intervalo de probabilidad,
en terminos porcentuales, 95 %.
Mediana de la distribu-cion a posteriori
Longitud del intervalode probabilidad 0.95
Modelo 4.1 Modelo 4.2 Modelo 4.3 Modelo 4.1 Modelo 4.2 Modelo 4.3
Se1 0.86 0.86 0.87 0.13 0.13 0.12Se2 0.29 0.27 0.73 0.64 0.42 0.33Sp1 0.68 0.67 0.7 0.19 0.19 0.18Sp2 0.59 0.59 0.82 0.34 0.22 0.18π 0.31 0.3 0.33 0.15 0.15 0.14ρD 0.48 0.51 0.95 0.2ρD 0.43 0.44 0.84 0.33
Tabla 13: Resumen de los resultados del Modelo 4.1, Modelo 4.2 y Modelo 4.3
Se puede observar en la Tabla 13, que entre los modelos que asumen dependencia condi-
cional (Modelo 4.1 y Modelo 4.2), no hay diferencias en la mediana de las distribuciones a
posteriori. La unica diferencia esta en la amplitud del intervalo de probabilidad, que en el Mo-
delo 4.1 es mayor debido a que los parametros ρD y ρD tienen una distribucion a priori uniforme
en el intervalo (0,1), que ha anadido mas incertidumbre a los parametros. Las medianas de las
distribuciones a posteriori, ademas, son semejantes a los valores de los parametros que se han
utilizado para simular los Datos 2, resumidos en la Tabla 12.
En cuanto al modelo que asume independencia condicional en las distribuciones a priori de
ρD y ρD (Modelo 4.3), podemos observar un cambio notorio en las distribuciones a posteriori de
Se2 y Sp2. Como se ha mencionado previamente cuando hablabamos del Modelo 3.1 y Modelo
3.2, estos parametros tienen una distribucion a priori con mas dispersion, que permiten mayor
posibilidad de valores. Esto, junto con la imposicion de la independencia condicional, ha hecho
que la correlacion que realmente existe entre ambas (segun los valores que se han utilizado para
simular los Datos 2, resumidos en la Tabla 7) y que no se ha contemplado en las distribuciones
a priori del Modelo 4.3, haya forzado a que se sobreestimen los valores que pueden tomar la
sensibilidad y especificidad de la segunda prueba en las distribuciones a posteriori para justificar
el numero de enfermos (sanos) que esta prueba detecta (descarta), llegando a dejar incluso fuera
del intervalo de probabilidad 0.95 los valores reales de estos parametros.
37
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Para ver cual de los tres modelos ha sido mas adecuado, hemos comparado los valores del
DIC de los tres modelos, representados en la Tabla 14:
DIC
Modelo 4.1 21.61Modelo 4.2 21.5Modelo 4.3 22.27
Tabla 14: DIC del Modelo 4.1, Modelo 4.2 y Modelo 4.3
Como podemos observar, el DIC es menor en el modelo que considera distribuciones a prio-
ri informativas para ρD y ρD (Modelo 4.2), seguido de cerca por el modelo que considera las
distribuciones a priori uniformes en (0,1) (Modelo 4.1) y dejando en ultimo lugar al modelo
que considera independencia condicional (Modelo 4.3). Esto tiene sentido, ya que las distri-
buciones a priori informativas se han elicitado de forma que tuvieran como mediana el valor
real de los parametros, y considerar un modelo que introduzca independencia condicional en
las distribuciones a priori de ρD y ρD no es correcto, ya que sus valores reales eran 0.5 y 0.4
(respectivamente).
4.2.3. Aplicacion a datos simulados: correlacion alta
Para simular los Datos 3, se han fijado unos valores de ρD y ρD altos (iguales a 0.8). La
tabla de contingencia de los Datos 3, la podemos ver en la Tabla 15:
T2 Total+ -
T1 + 89 33 122- 12 116 128
Total 101 149 250
Tabla 15: Tabla de contingencia para Datos 3 (ρD = ρD = 0.8)
Consideremos ademas de las distribuciones a priori de la Tabla 8, tres tipos de distribuciones
a priori para ρD y ρD: uniformes en el intervalo (0,1) (Modelo 5.1), informativas (Modelo 5.2)
y nulas (Modelo 5.3).
38
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.1: Distribuciones a priori para ρD y ρD uniformes en el intervalo (0,1)
En primer lugar, se van a calcular las distribuciones a posteriori considerando distribuciones
a priori uniformes en el intervalo (0,1) (es decir, distribuciones Beta(1,1)) para ρD y ρD. Los
resultados podemos verlos en las Figuras 22 y 23:
Figura 22: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 5.1
Figura 23: Distribuciones a posteriori de los parametros del Modelo 5.1
39
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.2: Distribuciones a priori para ρD y ρD informativas
Para el calculo de las distribuciones a posteriori de nuestros parametros considerando distri-
buciones a priori para ρD y ρD informativas, hemos elicitado ρD y ρD para que sus distribucio-
nes a priori estuvieran alrededor de un valor alto (aproximadamente 0.8). En consecuencia, se
han obtenido las distribuciones a priori Beta(52.5,10.8) y Beta(20.2,5.3), respectivamente. Los
resultados de combinar esta informacion a priori con los Datos 3 simulados y resumidos en la
Tabla 15, se pueden ver en las Figuras 24 y 25:
Figura 24: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 5.2
Figura 25: Distribuciones a posteriori de los parametros del Modelo 5.2
40
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.3: Valores nulos para ρD y ρD a priori
Por ultimo, vamos a asignarle a ρD y ρD valores nulos en sus distribuciones a priori, de
modo que se asuma independencia condicional entre pruebas diagnosticas en la informacion
que se va a combinar con los Datos 3 resumidos en la Tabla 15. Los resultados son los que
siguen:
Figura 26: Resumen de resultados de las distribuciones a posteriori de los parametros en elModelo 5.3
Figura 27: Distribuciones a posteriori de los parametros del Modelo 5.3
41
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
En la Tabla 16, se resumen los resultados del Modelo 5.1, Modelo 5.2 y Modelo 5.3 en
cuanto a: las medianas de las distribuciones a posteriori y amplitud del intervalo de probabilidad,
en terminos porcentuales, 95 %
Mediana de la distribu-cion a posteriori
Longitud del intervalode probabilidad 0.95
Modelo 5.1 Modelo 5.2 Modelo 5.3 Modelo 5.1 Modelo 5.2 Modelo 5.3
Se1 0.86 0.86 0.89 0.13 0.13 0.1Se2 0.42 0.33 0.89 0.66 0.42 0.19Sp1 0.68 0.68 0.8 0.19 0.18 0.14Sp2 0.61 0.57 0.96 0.33 0.21 0.11π 0.3 0.3 0.38 0.15 0.15 0.12ρD 0.58 0.83 - 0.94 0.18 -ρD 0.79 0.8 - 0.6 0.29 -
Tabla 16: Resumen de los resultados del Modelo 5.1, Modelo 5.2 y Modelo 5.3
De nuevo, podemos observar que los valores de las medianas de las distribuciones a posterio-
ri de nuestros parametros no se diferencian mucho entre los modelos que asumen dependencia
condicional (Modelo 5.1 y Modelo 5.2), con la diferencia mas notoria siendo la sobreestima-
cion mayor que hace el Modelo 5.1 en la mediana de la distribucion a posteriori del parametro
Se2. Ambos modelos se acercan bastante a los valores reales que se exponen en la Tabla 7,
exceptuando Se2 (como ya hemos mencionado) en el Modelo 5.1., cuya sobreestimacion puede
ser debida a que la distribucion a posteriori del parametro ρD se distribuye a lo largo de 0 y 1
con mayor densidad en los valores cercanos al 1, pero abarcando todo el intervalo de valores,
con una mediana de 0.58 que subestima su valor real 0.8.
En cuanto a las diferencias que se muestran con el modelo que asume independencia con-
dicional en las distribuciones a priori de ρD y ρD (Modelo 5.3), exceptuando Se1, se han so-
breestimado las medianas de la distribuciones a posteriori de todos los parametros y ademas se
han dejado fuera de sus intervalos de probabilidad 0.95 sus valores reales, reflejados en la Tabla
7, Esto es consecuencia de haber considerado que las pruebas son independientes condicional-
mente al verdadero estatus de la enfermedad. Por lo tanto, que las pruebas hayan coincidido en
tantos enfermos y sanos, se debe de traducir en que la especificidad y sensibilidad deben de ser
mas altas para la segunda prueba diagnostica, llegando a conclusiones erroneas sobre donde se
encuentran sus valores reales.
42
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Para ver cual de los tres modelos ha sido mas adecuado, hemos comparado los valores del
DIC de cada modelo, representados en la Tabla 17:
DIC
Modelo 5.1 20.89Modelo 5.2 20.66Modelo 5.3 24.22
Tabla 17: DIC del Modelo 5.1, Modelo 5.2 y Modelo 5.3
Como podemos observar, el DIC es menor en el modelo que considera distribuciones a prio-
ri informativas para ρD y ρD (Modelo 5.2), seguido de cerca por el modelo que considera las
distribuciones a priori uniformes en (0,1) (Modelo 5.1) y dejando en ultimo lugar al modelo
que considera independencia condicional (Modelo 5.3). Esto tiene sentido, ya que las distribu-
ciones a priori informativas se han elicitado de forma que tuvieran como mediana el valor real
de los parametros, y considerar un modelo que introduzca independencia condicional en las
distribuciones a priori de ρD y ρD no es correcto, ya que el valor real de ambas era 0.8.
5. Estudios de convergencia
En este apartado, se van a presentar los analisis de los resultados de las graficas de las trazas
de las observaciones a posteriori simuladas por parametro, los cuantiles de las observaciones
a posteriori simulados y los metodos analıticos de Geweke y PSRF que se han estudiado para
concluir que las cadenas de Markov construidas convergen a las distribuciones a posteriori de
nuestros parametros. Esto es necesario para saber si las cadenas han llegado a sus distribuciones
estacionarias y, por tanto, si las distribuciones a posteriori simuladas son representativas de
nuestros parametros. Las figuras a las que nos vamos a referir a lo largo del apartado, pueden
encontrarse en el Anexo 1.
5.1. Metodos graficos
Para el estudio de la convergencia a traves de los metodos graficos, se ha estudiado si las
trazas de las observaciones a posteriori simuladas por parametro son estables o si presentan
una variacion de estacionariedad, y si ademas coinciden los valores que toman las 3 cadenas
43
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
simuladas a lo largo del tiempo. Por otro lado, se ha estudiado si los valores de los cuantiles
son estables a lo largo del tiempo y coinciden entre cadenas, o si por el contrario fluctuan o no
coinciden. Para poder analizar esto y asegurarnos que a la cadena le ha dado tiempo a alcanzar
su distribucion estacionaria, se han descartado las primeras 10,000 iteraciones de las 100,000
para todos los modelos excepto para el Modelo 1 y Modelo 2, de los que se hicieron 200,000
iteraciones y se descartaron 100,000, y el Modelo 3.1, Modelo 3.2 y Modelo 5.1, de los que
se hicieron 300,000 iteraciones y se descartaron 200,000, ya que se observo no ser suficiente
el numero de burn-in establecidos en los otros casos para que las 3 cadenas de los modelos
convergieran.
Modelo 1:
Podemos observar en la Figura 28 una estabilidad de las trazas de las tres cadenas simuladas,
habiendo descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien los
cuantiles de las tres cadenas se solapan, como se muestra en la Figura 29. Por lo tanto, vemos
graficamente una buena convergencia de nuestro Modelo 1.
Modelo 2:
Podemos observar en la Figura 30 una estabilidad de las trazas de las tres cadenas simuladas,
habiendo descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien en
la Figura 31, los cuantiles de las tres cadenas se solapan. Por lo tanto, vemos graficamente una
buena convergencia de nuestro Modelo 2.
Modelo 3.1:
Podemos observar en la Figura 32 una estabilidad de las trazas de las tres cadenas simuladas,
habiendo descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien los
cuantiles de las tres cadenas se solapan, como se muestra en la Figura 33. Por lo tanto, vemos
graficamente una buena convergencia de nuestro Modelo 3.1.
Modelo 3.2:
Podemos observar en 34 una estabilidad de las trazas de las tres cadenas simuladas, habien-
do descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien en 35 los
cuantiles de las tres cadenas se solapan. Por lo tanto, vemos graficamente una buena convergen-
cia de nuestro Modelo 3.2.
44
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.3:
Podemos observar en 36 una estabilidad de las trazas de las tres cadenas simuladas, habien-
do descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien en 37 los
cuantiles de las tres cadenas se solapan. Por lo tanto, vemos graficamente una buena convergen-
cia de nuestro Modelo 3.3.
Modelo 4.1:
Podemos observar en 38 una estabilidad de las trazas de las tres cadenas simuladas, habiendo
descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien los cuantiles
de las tres cadenas se solapan, como se muestra en 39. Por lo tanto, vemos graficamente una
buena convergencia de nuestro Modelo 4.1.
Modelo 4.2:
Podemos observar en 40 una estabilidad de las trazas de las tres cadenas simuladas, habien-
do descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien en 41 los
cuantiles de las tres cadenas se solapan. Por lo tanto, vemos graficamente una buena convergen-
cia de nuestro Modelo 4.2.
Modelo 4.3:
Podemos observar en 42 una estabilidad de las trazas de las tres cadenas simuladas, habien-
do descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien en 43 los
cuantiles de las tres cadenas se solapan. Por lo tanto, vemos graficamente una buena convergen-
cia de nuestro Modelo 4.3.
Modelo 5.1:
Podemos observar en 44 una estabilidad de las trazas de las tres cadenas simuladas, habiendo
descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien los cuantiles
de las tres cadenas se solapan, como se muestra en 45. Por lo tanto, vemos graficamente una
buena convergencia de nuestro Modelo 5.1.
Modelo 5.2:
Podemos observar en 46 una estabilidad de las trazas de las tres cadenas simuladas, habien-
do descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien en 47 los
cuantiles de las tres cadenas se solapan. Por lo tanto, vemos graficamente una buena convergen-
cia de nuestro Modelo 5.2.
45
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.3:
Podemos observar en 48 una estabilidad de las trazas de las tres cadenas simuladas, habien-
do descartado las primeras iteraciones (que no aparecen en las imagenes). Tambien en 49 los
cuantiles de las tres cadenas se solapan. Por lo tanto, vemos graficamente una buena convergen-
cia de nuestro Modelo 5.3.
5.2. Metodos analıticos
En paralelo a los metodos graficos para la comprobacion de convergencia que ya hemos
visto, se va a estudiar tambien de forma analıtica. Para ello, vamos a utilizar los metodos de
Geweke y PSRF. Aquı podemos ver los resultados de ambos metodos para cada modelo.
Modelo 1:
Podemos observar que el Modelo 1 converge bien, pues los valores de la prueba de PSRF
(Figura 50) son menores que 1.1. La prueba de Geweke (Figura 51) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 1
converge.
Modelo 2:
Podemos observar que el Modelo 2 converge bien, pues los valores de la prueba de PSRF
(Figura 52) son menores que 1.1. La prueba de Geweke (Figura 53) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 2
converge.
Modelo 3.1:
Podemos observar que el Modelo 3.1 converge bien, pues los valores de la prueba de PSRF
(Figura 54) son menores que 1.1. La prueba de Geweke (Figura 55) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 3.1
converge.
Modelo 3.2:
Podemos observar que el Modelo 3.2 converge bien, pues los valores de la prueba de PSRF
46
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
(Figura 56) son menores que 1.1. La prueba de Geweke (Figura 57) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 3.2
converge.
Modelo 3.3:
Podemos observar que el Modelo 3.3 converge bien, pues los valores de la prueba de PSRF
(Figura 58) son menores que 1.1. La prueba de Geweke (Figura 59) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 3.3
converge.
Modelo 4.1:
Podemos observar que el Modelo 4.1 converge bien, pues los valores de la prueba de PSRF
(Figura 60) son menores que 1.1. La prueba de Geweke (Figura 61) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 4.1
converge.
Modelo 4.2:
Podemos observar que el Modelo 4.2 converge bien, pues los valores de la prueba de PSRF
(Figura 62) son menores que 1.1. La prueba de Geweke (Figura 63) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 4.2
converge.
Modelo 4.3:
Podemos observar que el Modelo 4.3 converge bien, pues los valores de la prueba de PSRF
(Figura 64) son menores que 1.1. La prueba de Geweke (Figura 65) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 4.3
converge.
Modelo 5.1:
Podemos observar que el Modelo 5.1 converge bien, pues los valores de la prueba de PSRF
47
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
(Figura 66) son menores que 1.1. La prueba de Geweke (Figura 67) nos dice ademas que en
las 3 cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que
los valores de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 5.1
converge.
Modelo 5.2:
Podemos observar que el Modelo 5.2 converge bien, pues los valores de la prueba de PSRF
(Figura 68) son menores que 1.1. La prueba de Geweke (Figura 69)nos dice ademas que en las 3
cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que los valores
de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 5.2 converge.
Modelo 5.3:
Podemos observar que el Modelo 5.3 converge bien, pues los valores de la prueba de PSRF
(Figura 70) son menores que 1.1. La prueba de Geweke (Figura 71)nos dice ademas que en las 3
cadenas ningun valor del estadıstico Z cae fuera del intervalo (-1.96,1.96), con lo que los valores
de las 3 cadenas son estables a lo largo del tiempo. Concluimos que el Modelo 5.3 converge.
48
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
6. Conclusiones
Este trabajo ha permitido valorar, a traves del enfoque bayesiano, el impacto en los resul-
tados de las estimaciones de la prevalencia, las sensibilidades y especificidades que tiene con-
siderar diferentes distribuciones a priori en las correlaciones (que hemos considerado en todo
momento positivas) existentes entre enfermos y sanos evaluados por dos pruebas diagnosticas
que no son gold standard.
Se ha comprobado en la base de datos real de refugiados camboyanos en Canada de [5], que
el Modelo 1, que considera distribuciones a priori uniformes en (0,1) en las correlaciones ρD
y ρD, se ajusta mejor a estos datos que el Modelo 2, que tiene como distribuciones a priori las
degeneradas en 0, con un valor del DIC de 17.84, frente a 20.43 en el Modelo 2.
En los resultados que se han obtenido de las muestras simuladas con correlaciones nulas
(Datos 1), moderadas (Datos 2) y altas (Datos 3), se ha notado una mejorıa en el ajuste de los
datos segun el criterio DIC en aquellos modelos en los que se consideraban unas distribuciones
a priori informativas que tenıan de mediana el valor real de los parametros. Ademas, considerar
distribuciones a priori uniformes en (0,1) para ρD y ρD, han sido una mejorıa en los Datos 2
y Datos 3 (Modelo 4.2 y 5.2), frente a no considerar en absoluto la posibilidad de que haya
dependencia condicional en el conocimiento a priori (Modelo 4.3 y Modelo 5.3), con valores
de DIC iguales a 21.5 y 20.66, frente a 22.27 y 24.22, respectivamente.
Otro hecho que se ha observado, es que a medida que la correlacion real entre pruebas
aumenta, peores resultados se obtienen de las estimaciones de los parametros cuando se otorga
distribuciones a priori degeneradas en 0 a las correlaciones y se anula del modelo la posibilidad
de que haya correlacion entre pruebas.
En el caso del Modelo 3.1 en los Datos 1, al considerar distribuciones a priori uniformes en
(0,1) para las correlaciones, no hemos obtenido un intervalo de probabilidad 0.95 que contuviera
el valor real del parametro Se2. Sin embargo, el resto de las distribuciones a posteriori tenıan
medianas muy cercanas a los valores reales de los parametros, y el DIC, aunque por debajo, era
muy similar a aquellos del Modelo 3.2 y Modelo 3.3.
Queda de manifiesto, pues, la importancia que tiene incorporar las correlaciones entre am-
bas pruebas como parametros en los modelos que estimen la prevalencia, las sensibilidades y
49
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
especificidades, para no llegar a estimaciones erroneas de ellos, ası como la importancia que tie-
ne para unos resultados finales robustos una buena elicitacion de los parametros. Esto lo hemos
podido hacer gracias al enfoque bayesiano y los avances computacionales en este area, mientras
que con el enfoque frecuentista no hubieramos podido obtener solucion a este problema.
50
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Bibliografıa
[1] Jim Albert. LearnBayes: Functions for Learning Bayesian Inference. R package version
2.15.1. 2018. URL: https://CRAN.R-project.org/package=LearnBayes.
[2] Todd A Alonzo y Margaret S Pepe. ((Assessing the Accuracy of a New Diagnostic Test
When a Gold Standard Does Not Exist)). en. En: UW Biostatistics Working Paper Series
(oct. de 1998), pag. 31.
[3] ((Appendix: Distributions)). En: Lesaffre, Emmanuel y Andrew B. Lawson. Bayesian
Biostatistics. Chichester, UK: John Wiley & Sons, Ltd, 5 de jul. de 2012, pags. 460-483.
ISBN: 978-1-119-94241-2 978-0-470-01823-1. DOI: 10.1002/9781119942412.
app1. URL: http://doi.wiley.com/10.1002/9781119942412.app1
(visitado 10-06-2020).
[4] Bayesian. En: Diccionario Merrian-Webster. 11a edicion. URL: https://www.merriam-
webster.com/dictionary/Bayesian.
[5] Nandini Dendukuri y Lawrence Joseph. ((Bayesian Approaches to Modeling the Condi-
tional Dependence Between Multiple Diagnostic Tests)). en. En: Biometrics 57.1 (mar. de
2001), pags. 158-167. ISSN: 0006-341X, 1541-0420. DOI: 10.1111/j.0006-341X.
2001.00158.x. URL: https://onlinelibrary.wiley.com/doi/abs/
10.1111/j.0006-341X.2001.00158.x (visitado 18-04-2020).
[6] Jose H Donis. ((Evaluacion de la validez y confiabilidad de una prueba diagnostica)). es.
En: 1.2 (2012), pags. 73-81.
[7] Stephen E. Fienberg. ((When did Bayesian inference become “Bayesian” ?)) en. En: Ba-
yesian Analysis 1.1 (mar. de 2006), pags. 1-40. ISSN: 1936-0975. DOI: 10.1214/06-
BA101. URL: http://projecteuclid.org/euclid.ba/1340371071 (visi-
tado 18-04-2020).
[8] Paul H Garthwaite, Joseph B Kadane y Anthony O’Hagan. ((Statistical Methods for Eli-
citing Probability Distributions)). en. En: Journal of the American Statistical Association
100.470 (jun. de 2005), pags. 680-701. ISSN: 0162-1459, 1537-274X. DOI: 10.1198/
51
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
016214505000000105. URL: http://www.tandfonline.com/doi/abs/
10.1198/016214505000000105 (visitado 12-06-2020).
[9] Andrew Gelman. ((Objections to Bayesian statistics)). En: Bayesian Analysis 3.3 (sep. de
2008), pags. 445-449. ISSN: 1936-0975. DOI: 10.1214/08-BA318. URL: http:
//projecteuclid.org/euclid.ba/1340370429 (visitado 21-09-2020).
[10] Andrew Gelman y Yuling Yao. ((Holes in Bayesian Statistics)). En: (2020), pag. 11.
[11] S. L. Hui y S. D. Walter. ((Estimating the Error Rates of Diagnostic Tests)). en. En: Bio-
metrics 36.1 (mar. de 1980), pag. 167. ISSN: 0006341X. DOI: 10.2307/2530508.
URL: https://www.jstor.org/stable/2530508?origin=crossref
(visitado 11-06-2020).
[12] Taishun Li y Pei Liu. ((Comparison of Two Bayesian Methods in Evaluation of the Ab-
sence of the Gold Standard Diagnostic Tests)). en. En: BioMed Research International
2019 (ago. de 2019), pags. 1-9. ISSN: 2314-6133, 2314-6141. DOI: 10.1155/2019/
1374748. URL: https://www.hindawi.com/journals/bmri/2019/
1374748/ (visitado 18-04-2020).
[13] In Jae Myung. ((Tutorial on maximum likelihood estimation)). en. En: Journal of Mathe-
matical Psychology 47.1 (feb. de 2003), pags. 90-100. ISSN: 00222496. DOI: 10.1016/
S0022-2496(02)00028-7. URL: https://linkinghub.elsevier.com/
retrieve/pii/S0022249602000287 (visitado 28-06-2020).
[14] Martyn Plummer y col. ((CODA: Convergence Diagnosis and Output Analysis for MCMC)).
En: R News 6.1 (2006), pags. 7-11. URL: https://journal.r-project.org/
archive/.
[15] Bruce Rannala. ((Identifiability of Parameters in MCMC Bayesian Inference of Phylo-
geny)). en. En: Systematic Biology 51.5 (sep. de 2002). Ed. por Rasmus Neilsen, pags. 754-760.
ISSN: 1076-836X, 1063-5157. DOI: 10.1080/10635150290102429. URL: http:
//academic.oup.com/sysbio/article/51/5/754/1678468 (visitado
18-04-2020).
52
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
[16] Don van Ravenzwaaij, Pete Cassey y Scott D. Brown. ((A simple introduction to Markov
Chain Monte–Carlo sampling)). en. En: Psychonomic Bulletin & Review 25.1 (feb. de
2018), pags. 143-154. ISSN: 1069-9384, 1531-5320. DOI: 10.3758/s13423-016-
1015-8. URL: http://link.springer.com/10.3758/s13423-016-
1015-8 (visitado 22-08-2020).
[17] Christian Robert y George Casella. ((A Short History of Markov Chain Monte Car-
lo: Subjective Recollections from Incomplete Data)). en. En: Statistical Science 26.1
(feb. de 2011). arXiv: 0808.2902, pags. 102-115. ISSN: 0883-4237. DOI: 10.1214/10-
STS351. URL: http://arxiv.org/abs/0808.2902 (visitado 10-06-2020).
[18] RStudio Team. RStudio: Integrated Development Environment for R. RStudio, PBC. Bos-
ton, MA, 2020. URL: http://www.rstudio.com/.
[19] Kim Seefeld y Ernst Linder. ((Statistics Using R with Biological Examples)). en. Tesis
doct. Durham: University of New Hampshire, 2007.
[20] Statisticat y LLC. Bayesian Inference. R package version 16.1.4. Bayesian-Inference.com,
2020. URL: https://web.archive.org/web/20150206004624/http:
//www.bayesian-inference.com/software.
[21] Sibylle Sturtz, Uwe Ligges y Andrew Gelman. R2OpenBUGS: A Package for Running
OpenBUGS from R. en.
[22] Sibylle Sturtz, Uwe Ligges y Andrew Gelman. ((R2WinBUGS: A Package for Running
WinBUGS from R)). En: Journal of Statistical Software 12.3 (2005), pags. 1-16. URL:
http://www.jstatsoft.org.
[23] D. M. Titterington. ((Introduction to Gelfand and Smith (1990) Sampling-Based Approa-
ches to Calculating Marginal Densities)). en. En: Breakthroughs in Statistics. Ed. por
Samuel Kotz y Norman L. Johnson. Series Title: Springer Series in Statistics. New York,
NY: Springer New York, 1997, pags. 519-550. ISBN: 978-0-387-94989-5 978-1-4612-
0667-5. DOI: 10.1007/978-1-4612-0667-5_21. URL: http://link.
springer.com/10.1007/978-1-4612-0667-5_21 (visitado 10-06-2020).
53
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Anexo 1: Figuras de los estudios de convergencia
Metodos graficos
Modelo 1:
Figura 28: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 1
54
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 29: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo1
55
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 2:
Figura 30: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 2
56
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 31: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo2
57
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.1:
Figura 32: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 3.1
58
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 33: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo3.1
59
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.2:
Figura 34: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 3.2
60
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 35: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo3.2
61
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.3:
Figura 36: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 3.3
62
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 37: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo3.3
63
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.1:
Figura 38: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 4.1
64
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 39: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo4.1
65
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.2:
Figura 40: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 4.2
66
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 41: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo4.2
67
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.3:
Figura 42: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 4.3
68
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 43: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo4.3
69
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.1:
Figura 44: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 5.1
70
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 45: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo5.1
71
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.2:
Figura 46: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 5.2
72
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 47: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo5.2
73
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.3:
Figura 48: Trazas de las observaciones a posteriori simuladas de los parametros del Modelo 5.3
74
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Figura 49: Cuantiles de las observaciones a posteriori simuladas de los parametros del Modelo5.3
75
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Metodos analıticos
Modelo 1:
Figura 50: Diagnostico de convergencia del Modelo 1: PSRF
Figura 51: Diagnostico de convergencia del Modelo 1: Geweke
76
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 2:
Figura 52: Diagnostico de convergencia del Modelo 2: PSRF
Figura 53: Diagnostico de convergencia del Modelo 2: Geweke
77
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.1:
Figura 54: Diagnostico de convergencia del Modelo 3.1: PSRF
Figura 55: Diagnostico de convergencia del Modelo 3.1: Geweke
78
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.2:
Figura 56: Diagnostico de convergencia del Modelo 3.2: PSRF
Figura 57: Diagnostico de convergencia del Modelo 3.2: Geweke
79
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.3:
Figura 58: Diagnostico de convergencia del Modelo 3.3: PSRF
Figura 59: Diagnostico de convergencia del Modelo 3.3: Geweke
80
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.1:
Figura 60: Diagnostico de convergencia del Modelo 4.1: PSRF
Figura 61: Diagnostico de convergencia del Modelo 4.1: Geweke
81
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.2:
Figura 62: Diagnostico de convergencia del Modelo 4.2: PSRF
Figura 63: Diagnostico de convergencia del Modelo 4.2: Geweke
82
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.3:
Figura 64: Diagnostico de convergencia del Modelo 4.3: PSRF
Figura 65: Diagnostico de convergencia del Modelo 4.3: Geweke
83
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.1:
Figura 66: Diagnostico de convergencia del Modelo 5.1: PSRF
Figura 67: Diagnostico de convergencia del Modelo 5.1: Geweke
84
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.2:
Figura 68: Diagnostico de convergencia del Modelo 5.2: PSRF
Figura 69: Diagnostico de convergencia del Modelo 5.2: Geweke
85
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.3:
Figura 70: Diagnostico de convergencia del Modelo 5.3: PSRF
Figura 71: Diagnostico de convergencia del Modelo 5.3: Geweke
86
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Anexo 2: Codigo R de los modelos
Modelo 1
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(1,1)
Se1 ˜ dbeta(4.44,13.31)
Sp1 ˜ dbeta(71.25,3.75)
Se2 ˜ dbeta(21.96,5.49)
Sp2 ˜ dbeta(4.1,1.76)
rhoD0 ˜ dbeta(1,1)
rhoD1 ˜ dbeta(1,1)
87
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 2
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(1,1)
Se1 ˜ dbeta(4.44,13.31)
Sp1 ˜ dbeta(71.25,3.75)
Se2 ˜ dbeta(21.96,5.49)
Sp2 ˜ dbeta(4.1,1.76)
rhoD0 <- 0
rhoD1 <- 0
88
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.1
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 ˜ dbeta(1,1)
rhoD1 ˜ dbeta(1,1)
89
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.2
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 ˜ dbeta(1,10)
rhoD1 ˜ dbeta(1,10)
90
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 3.3
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 <- 0
rhoD1 <- 0
91
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.1
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 ˜ dbeta(1,1)
rhoD1 ˜ dbeta(1,1)
92
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.2
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 ˜ dbeta(12.9,16)
rhoD1 ˜ dbeta(47.8,45)
93
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 4.3
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 <- 0
rhoD1 <- 0
94
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.1
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 ˜ dbeta(1,1)
rhoD1 ˜ dbeta(1,1)
95
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.2
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 ˜ dbeta(20.2,5.3)
rhoD1 ˜ dbeta(52.5,10.8)
96
TRABAJO FIN DE MASTER PILAR SANJUAN MARTIN
Modelo 5.3
y[1:Q,1:Q] ˜ dmulti(p[1:Q,1:Q], n)
p[1,1] <- pi*(Se1*Se2+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(1-Sp2)+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[1,2] <- pi*(Se1*(1-Se2)-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*((1-Sp1)*(Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,1] <- pi*((1-Se1)*Se2-rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*(1-Sp2)-rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
p[2,2] <- pi*((1-Se1)*(1-Se2)+rhoD1*sqrt(Se1*(1-Se1)*Se2*(1-Se2)))
+ (1-pi)*(Sp1*Sp2+rhoD0*sqrt(Sp1*(1-Sp1)*Sp2*(1-Sp2)))
#prior distributions of the model
pi ˜ dbeta(38.7,90)
Se1 ˜ dbeta(92.2,15.2)
Sp1 ˜ dbeta(20.59,9.01)
Se2 ˜ dbeta(1.6,3.33)
Sp2 ˜ dbeta(1,1)
rhoD0 <- 0
rhoD1 <- 0
97