64
Máster en Estadística Aplicada Departamento de Estadística e Investigación Operativa Estimación de la Sensibilidad y la Especificidad de un test diagnóstico binario en presencia de covariables. Solución de un problema de aplicación Autor: Edurne Alonso Morán Tutor: Juan de Dios Luna del Castillo Curso 2013-2014

Estimación de la Sensibilidad y la Especificidad de un

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estimación de la Sensibilidad y la Especificidad de un

Máster en Estadística Aplicada

Departamento de Estadística e Investigación

Operativa

Estimación de la Sensibilidad y la Especificidad

de un test diagnóstico binario en presencia de

covariables. Solución de un problema de

aplicación

Autor: Edurne Alonso Morán

Tutor: Juan de Dios Luna del Castillo

Curso 2013-2014

Page 2: Estimación de la Sensibilidad y la Especificidad de un

1

Índice

1 Introducción y presentación del problema a resolver con un test diagnóstico binario………………………………………………………………………………………………………………………….2

1.1 Parámetros que no dependen de la prevalencia de la enfermedad (sensibilidad y especificidad)………………………………………………..…………………….…….3

1.2 Parámetros que sí dependen de la prevalencia de la enfermedad (sensibilidad y especificidad)……………………………………………………………….…..……….4

1.3 Estimaciones con dos muestras, una de sanos y otra de enfermos……………..8

1.4 Estimaciones con una única muestra………………………….………………………..….…9

1.5 Objetivo general del estudio………………..…………………………………………….……..11

2 La modelización de los factores que afectan al funcionamiento del test………………….13

2.1 El test diagnóstico no se comporta de manera constante en diferentes poblaciones…………...………………………………………………………………………………..…....13

2.2 Enumeración y caracterización de los factores que afectan al funcionamiento de un test diagnóstico binario…………….…………………………………16

2.3 Ejemplo práctico…..…………………………………….……………….……………………………20

2.4 Modelos lineales generalizados para la determinación del funcionamiento de un test diagnóstico binario con covariables: modelos para la determinación de la sensibilidad y de la especificidad y de la razón de verosimilitudes………….…22

3. Tres problemas que requieren la modelización multivariante para el ajuste: sensibilidad y especificidad ajustadas………………………………………………………………….....….33

3.1 Ejemplo del artículo de Janssens-2005, estimaciones de la sensibilidad, la especificidad y de la razón de verosimilitudes……………………………………………...….33

3.2 Análisis de los datos referentes al ajuste por covariables del repositorio DABS, en la dirección: http://labs.fhcrc.org/pepe/dabs/datasets.html............. 40

3.3. Ejemplo de la tira reactiva propuesto por Cristina la Torre et al. (2001).…….48

4. Figuras……………………………………………………………….……………………………………………....….51

5. Tablas……………………………….…………………………………………………………………….………....….52

6. Bibliografía..……………………………………………………………………….……………………………....…55

7. Apéndice…..……………………………………….………………………………………………………………..…57

Page 3: Estimación de la Sensibilidad y la Especificidad de un

2

1. Introducción y presentación del problema a resolver con un test

diagnóstico binario.

Los tests diagnósticos son muy usados en la práctica médica, se suelen usar en la

investigación de una población específica para manifestar la enfermedad y confirmar o

desmentir el resultado de un diagnóstico provisional de un paciente. La interpretación

de un test diagnóstico depende tanto de la habilidad intrínseca del propio test para

discriminar a los individuos enfermos de los sanos como de las características

particulares de cada individuo y del ambiente en el que se aplica el test.

Los tests diagnósticos se pueden clasificar como binarios, cuantitativos y ordinales,

según el resultado de dicho test. En la práctica, los más comunes son tests binarios cuyo

resultado es o la indicación de la presencia de la enfermedad o la indicación de la

ausencia de la enfermedad. A partir de aquí, nos vamos a centrar en este tipo de test

diagnóstico.

El test de referencia o también denominado “Gold Standard” es el procedimiento o

estudio que se utiliza para definir el verdadero estado del paciente. Es el test

universalmente aceptado para diagnosticar la enfermedad en cuestión y con el cual se

comparan nuevos tests para diagnosticar la misma enfermedad (en general menos

invasivos, menos costosos o más fáciles de realizar).

El suceso que indica que un sujeto de la población tiene la enfermedad se define como

D y el suceso que denota que un sujeto no tiene la enfermedad como �̅�. A la

probabilidad de que un sujeto de la población tenga la enfermedad se le llama

prevalencia de la enfermedad en la población y se denota por P(D) o p .

Considérese, ahora, un test diagnóstico binario, con los resultados: positivo T y negativo

�̅� . Si la prueba tiene resultado positivo se puede considerar que el individuo tiene la

enfermedad y si la prueba tiene resultado negativo se considera que el individuo no

tiene la enfermedad.

Los resultados del test diagnóstico se pueden clasificar como verdaderos positivos (TP),

verdaderos negativos (TN), falsos positivos (FP) o falsos negativos (FN). Un verdadero

Page 4: Estimación de la Sensibilidad y la Especificidad de un

3

positivo ocurre cuando un sujeto enfermo es correctamente clasificado como positivo

en el resultado del test, un verdadero negativo ocurre cuando un sujeto no afectado por

la enfermedad tiene un resultado negativo en el test diagnóstico, un falso positivo

ocurre cuando un sujeto no afectado por la enfermedad tiene un resultado positivo en

el test diagnóstico y un falso negativo ocurre cuando un sujeto afectado por la

enfermedad obtiene un resultado negativo en el test diagnóstico. Por lo tanto una

prueba diagnóstica puede tener dos tipos de errores, los errores falsos positivos y los

errores falsos negativos.

Existen dos tipos de parámetros: los que no dependen de la prevalencia de la

enfermedad y los que sí dependen de la prevalencia de la enfermedad.

1.1 Parámetros que no dependen de la prevalencia de la enfermedad

(sensibilidad y especificidad)

Estos parámetros no dependen de la probabilidad de presentación de la enfermedad en

la población en la que se apliquen, siendo características que sólo dependen del test

diagnóstico, definiendo de manera intrínseca o la calidad del mismo, es decir su

precisión, o lo informativo que resulta ese test.

La sensibilidad de una prueba (Se) es su habilidad para detectar la enfermedad cuando

está realmente presente. Se puede escribir como Se=P(T/D); se conoce también como

Fracción de Verdaderos Positivos (TPF). La Especificidad de una prueba (Sp) es su

habilidad para excluir la enfermedad cuando no está presente. Se puede escribir como

Sp=P(�̅�/�̅�). La especificidad se conoce también como Fracción de Verdaderos Negativos

(TNF) o más comúnmente como 1 – FPF, siendo FPF la Fracción de Falsos Positivos, FPF

= P(T/�̅�). Una test ideal tendrá FPF = 0 y TPF = 1.

Por la definición, que claro que tanto la sensibilidad como la especificidad de un test

diagnóstico son probabilidades de aciertos. Luego, la suma de las probabilidades de un

verdadero positivo y de un falso negativo es la unidad. P(T/D) + P(�̅�/D) =1.

Análogamente, P(�̅�/�̅�)+P(T/�̅�)=1.

Page 5: Estimación de la Sensibilidad y la Especificidad de un

4

La razón de verosimilitudes es el cociente de dos probabilidades: la probabilidad de un

resultado de la prueba particular en pacientes con la enfermedad entre la probabilidad

de ese resultado de la prueba en pacientes sin la enfermedad. Se denota la razón de

verosimilitudes como LR. Como la precisión de un test tiene dos dimensiones se tiene la

razón de verosimilitud para un test positivo, LR+ y la razón de verosimilitudes para una

test negativo, LR-.

𝐿𝑅+=𝑃(𝑇 𝐷⁄ )

𝑃(T/�̅�)=

𝑆𝑒

1 − 𝑆𝑝

𝐿𝑅−=𝑃(�̅� 𝐷⁄ )

P(�̅�/�̅�)=

1 − 𝑆𝑒

𝑆𝑝

Las razones de verisimilitudes van desde 0 hasta ∞. Las LRs cuantifican el aumento en

el conocimiento sobre la presencia de la enfermedad que es adquirido a través de la

prueba diagnóstica. Por lo tanto, los parámetros (LR+, LR-) cuantifican el cambio en las

probabilidades de enfermedad obtenido por el conocimiento de los resultados de la

prueba diagnóstica.

Lo lógico es que en un test diagnóstico ocurra que P(T|D) > P(T|�̅�) y por tanto LR+ > 1,

indicando un aporte mayor de información del test para un resultado positivo conforme

más separado esté de 1. De la misma manera en un test diagnóstico lo lógico es que

P(�̅�|D) < P(�̅�|�̅�) y de ahí ocurrirá que LR¯ < 1 siendo más informativo el test con respecto

al negativo conforme este más alejado de 1 siendo inferior a él. Tanto una medida como

la otra reflejan muy bien los aportes del tests cuando da positivo y cuando da negativo

a la afirmación o al descarte de la enfermedad.

1.2 Parámetros que sí dependen de la prevalencia de la enfermedad (valor

predictivo positivo y valor predictivo negativo)

Los parámetros anteriores son aquellos que hacen referencia a la calidad diagnóstica

intrínseca del test, sin embargo, esos parámetros no ayudan para diagnosticar a una

persona concreta, no aportan información acerca de la probabilidad de que una persona

tenga o no la enfermedad, una vez que le hayamos pasado el tests diagnóstico y

sepamos si ha salido positivo o negativo. Los parámetros que no dependen de la

Page 6: Estimación de la Sensibilidad y la Especificidad de un

5

prevalencia de la enfermedad son los que definen el funcionamiento del test a posteriori

una vez que conozcamos el resultado del mismo.

Supongamos que se ha pasado un test diagnóstico a un individuo y que éste ha dado

positivo, T, lo que importa es conocer cuánto vale P(D|T), que es el denominado valor

predictivo positivo (VPP). Aplicando el teorema de Bayes:

𝑉𝑃𝑃 =𝑃(𝐷 𝑇⁄ )

𝑃(𝑇)=

𝑃(𝐷)𝑃(𝑇 𝐷⁄ )

𝑃(𝐷)𝑃(𝑇 𝐷⁄ ) + 𝑃(�̅�)𝑃(𝑇 �̅�⁄ )=

𝑝𝑆𝑒

𝑝𝑆𝑒 + (1 − 𝑝)(1 + 𝑆𝑝)

El valor predictivo positivo no sólo depende de la calidad del test diagnóstico sino que

además depende de la prevalencia de la enfermedad, de la probabilidad de que un

individuo elegido al azar de la población esté enfermo, p. Además esa dependencia es

muy directa en el sentido de que conforme sea mayor la prevalencia mayor será VPP.

Supongamos que la prevalencia es fija, en ese caso la Se juega un papel relevante, pero

éste queda condicionado por la prevalencia. Sin embargo, el efecto de la Sp es muy

fuerte, pues si esta es muy grande la cantidad 1-Sp será muy pequeña y el producto (1-

p)(1-Sp) será muy pequeño cercano a cero con lo que el cociente VPP será muy cercano

a 1. Por tanto en el valor predictivo positivo intervienen la sensibilidad y la especificidad

del test, pero el efecto de ésta es mucho más fuerte que el de la sensibilidad, pero sobre

todo está muy condicionado por la prevalencia.

Figura 1. Valores Predictivos de un test para diferentes prevalencias, con Se=0,85 y

Sp=0,95

Page 7: Estimación de la Sensibilidad y la Especificidad de un

6

Supongamos, ahora, que se ha pasado un test diagnóstico a un individuo y que éste ha

dado negativo, interesa conocer cuánto vale P(�̅�|�̅�), que es el denominado valor

predictivo negativo (VPN). Aplicando el teorema de Bayes:

𝑉𝑃𝑃 =P(�̅�|�̅�)

𝑃(�̅�)=

𝑃(�̅�)𝑃(�̅� �̅�⁄ )

𝑃(�̅�)𝑃(�̅� �̅�⁄ ) + 𝑃(𝐷)𝑃(�̅� 𝐷⁄ )=

(1 − 𝑝)𝑆𝑝

(1 − 𝑝)𝑆𝑝 + 𝑝(1 − 𝑆𝑒)

VPN también depende de la prevalencia de la enfermedad, en este caso de manera

inversa, cuanto mayor sea la prevalencia menor será el VPN. De la misma manera que

antes, la sensibilidad y la especificidad del test juegan un papel relevante en el caso del

VPN, pero, también como ya hemos visto, el papel más relevante lo juega ahora la

sensibilidad porque si ésta toma valores muy altos, entonces el valor de VPN estará muy

cercano a 1 independientemente de los valores de la prevalencia y de Sp.

Hay que tener en cuenta que, para los valores de la prevalencia en la que la curva de

VPN(p) domine a la curva de VPP(p), el test es preferido para descartar la enfermedad

que para confirmarla, puesto que en esos valores VPN(p)>VPP(p); en la prevalencia en

la que se cortan ambas curvas tendríamos que sería indistinto el uso del test, y a partir

de esa prevalencia sería preferido el test para confirmar la enfermedad, puesto que en

ese caso VPP>VPN. Por tanto, la prevalencia en la que se cortan ambas curvas juega un

papel determinante para saber para qué sirve un test. Al revés también ocurre, luego,

calculando el punto de corte de VPP(p) y VPN(p) podemos establecer zonas de la

prevalencia dónde el test será mejor para descartar que para afirmar y viceversa.

Supongamos que hemos calculado el VPP para una prevalencia fija. Una manera de

determinar la rebaja de incertidumbre para el paciente en la afirmación de la

enfermedad debido a que el test ha dado positivo, es calcular la diferencia P(D|T)-P(D),

que se denomina Ganancia del Positivo (GP) y que mide en cuanto se ha incrementado

la probabilidad de tener la enfermedad por el hecho de que el test de positivo. Es claro

que si ese incremento es muy alto el test, a esa prevalencia, aporta bastante a la

probabilidad de tener la enfermedad, mientras que si es bajo, el test aporta poco.

Razonando igual definiremos la ganancia del negativo como GN=P(�̅�|�̅�)-P(�̅�) , que mide

la rebaja en la incertidumbre de no tener la enfermedad por el hecho de que el test hay

dado negativo. La forma de razonar es la misma para la GN que para la GP.

Page 8: Estimación de la Sensibilidad y la Especificidad de un

7

Figura 2. Valores Predictivos de un test para diferentes prevalencias, con las

respectivas ganancias, con Se=0,85 y Sp=0,95

Concluimos que:

Las dos curvas alcanzan un máximo en un valor de p, entre 0 y 1, de manera que

antes de esa prevalencia el aporte al incremento de la probabilidad lo hace el

test mientras que a partir de ese punto de corte el aporte al incremento de la

probabilidad lo hace la prevalencia.

El máximo de la ganancia del positivo es mayor que el máximo de la ganancia del

negativo, y ello debido a que la especificidad del test es mayor que su

sensibilidad.

En los valores dónde se consigue el máximo de la ganancia, se consigue también

un valor alto de la prevalencia. Por tanto el valor de la prevalencia dónde se

consigue el máximo de GP(p) y del GN(p) son una cantidades muy relevantes

para conocer en qué zonas de la prevalencia funciona bien el test.

Si uno desea tener un tests diagnóstico con una gran capacidad para descartar la

enfermedad, es decir con un valor predictivo negativo alto (si el test da negativo el

paciente debe tener una probabilidad alta de no tener la enfermedad), lo que debe

buscar es un test muy sensible. Por el contrario si uno desea un test con un valor

Page 9: Estimación de la Sensibilidad y la Especificidad de un

8

predictivo positivo alto (si da positivo desea tener una probabilidad alta de que el

paciente tenga la enfermedad) necesitara que el test tenga una especificidad alta.

Para la estimación de los parámetros anteriormente descritos distinguimos entre dos

situaciones: c) estimaciones con dos muestras, una de sanos y otra de enfermos; d)

estimaciones en una única muestra.

1.3 Estimaciones con dos muestras, una de sanos y otra de enfermos

Se consideran dos muestras, una de enfermos de tamaño 𝑛1 y otra de sanos de tamaño

𝑛2, y a todos los individuos se les aplica el test.

Tabla 1. Frecuencias observadas al aplicar un test binario a dos muestras, una de

enfermos y otro de sanos

La estimación de la sensibilidad es la estimación de una proporción de una distribución

Binomial: 𝑃(𝑇 𝐷⁄ ) = 𝑝𝑆𝑒 𝑝⁄ = 𝑆𝑒. Condicionando en n1 se tiene que a→B(𝑛1,Se) y por

tanto el estimador de Se es 𝑆�̂� = 𝑎/𝑛1. A continuación, se definen varios tipos de

intervalos de confianza para dicho estimador:

Intervalo de confianza exacto:

[𝑆̅𝑒1 = 𝑎 𝑎 + 𝐹1(𝑛1 − 𝑎 + 1)⁄ , 𝑆̅𝑒2 = 𝐹2(𝑎 + 1) (𝑛1 − 𝑎) + 𝐹2(𝑎 + 1)⁄ ]

Intervalo de confianza aproximado a través de la Normal:

[�̂�𝑒 − 𝑧1−

𝛼2

√�̂�𝑎𝑟(�̂�𝑒), �̂�𝑒 + 𝑧1−

𝛼2

√�̂�𝑎𝑟(�̂�𝑒)]

Intervalo de confianza de Agresti:

�̂�𝑒 +

𝑧1−

∝2

2

2𝑛1± 𝑧

1−∝2

√[�̂�𝑒(1 − �̂�𝑒) +

𝑧1−

∝2

2

4𝑛1]

𝑛11 +

𝑧1−

∝2

2

𝑛1⁄

Page 10: Estimación de la Sensibilidad y la Especificidad de un

9

Intervalo de confianza cuadrático de Fleiss:

𝑆𝑒 ∈ (𝑎 ± 0,5) +𝑧∝

2

2± 𝑧∝

√𝑧∝

2

4+ (𝑎 ± 0,5)(1 −

𝑎 ± 0,5

𝑛1) 𝑛1 + 𝑧∝

2⁄

Intervalo de confianza de Wilson:

�̂�𝑒 (𝑛1

𝑛1 + 𝑧1−

∝2

2 ) +1

2(

𝑧1−

∝2

2

𝑛1 + 𝑧1−

∝2

2 )

± 𝑧∝2

√1

𝑛1 + 𝑧1−

∝2

2 [�̂�𝑒(1 − �̂�𝑒) (𝑛1

𝑛1 + 𝑧1−

∝2

2 ) +1

2

1

2 (

𝑧1−

∝2

2

𝑛1 + 𝑧1−

∝2

2 )]

La estimación de la especificidad al igual que la sensibilidad es la estimación de una

proporción de una distribución Binomial y las estimaciones anteriores para la

sensibilidad es válido también para la especificidad cambiando a por d y 𝑛1 por 𝑛2.

1.4 Estimaciones con una única muestra

Cuando se tiene una única muestra de individuos de la población clasificada en función

de la presencia o ausencia de la enfermedad y del resultado del test, se tiene la

realización de una multinomial y condicionando en los valores totales de las filas se tiene

para cada una de las casillas de la tabla una distribución binomial, por lo que las

estimaciones empíricas de los valores predictivos son estimaciones de proporciones de

distribuciones binomiales. Luego:

𝑃𝑃�̂� =𝑎

𝑎 + 𝑏

𝑃𝑁�̂� =𝑑

𝑐 + 𝑑

A continuación, se definen varios tipos de intervalos de confianza para dichos

estimadores:

Intervalo de confianza exacto:

o Dada una observación a de una B(a,PPV), un intervalo de confianza

exacto para PPV es PPV∈ (𝑃𝑃𝑉1, 𝑃𝑃𝑉2) donde

Page 11: Estimación de la Sensibilidad y la Especificidad de un

10

𝑃𝑃𝑉1=𝑎

𝑎+((𝑎+𝑏)−𝑎+1)𝐹∝2

[2((𝑎+𝑏)−𝑎+1);2𝑎] y

𝑃𝑃𝑉2=(𝑎+1)𝐹∝

2[2(𝑎+1);2((𝑎+𝑏)−𝑎)]

((𝑎+𝑏)−𝑎)+(𝑎+1)𝐹∝2

[2(𝑎+1);2((𝑎+𝑏)−𝑎)]

o De forma semejante PNV∈ (𝑃𝑁𝑉1, 𝑃𝑁𝑉2) donde

𝑃𝑁𝑉1=𝑑

𝑑+((𝑐+𝑑)−𝑑+1)𝐹∝2

[2((𝑐+𝑑)−𝑑+1);2𝑑] y

𝑃𝑁𝑉2=(𝑑+1)𝐹∝

2[2(𝑑+1);2((𝑑+𝑐)−𝑑)]

((𝑑+𝑐)−𝑑)+(𝑑+1)𝐹∝2

[2(𝑎+1);2((𝑑+𝑐)−𝑑)]

Intervalo de confianza aproximado a través de la Normal:

o Para el PPV es

[𝑃𝑃�̂� − 𝑧1−∝

2

√�̂�𝑎𝑟(𝑃𝑃�̂�), 𝑃𝑃�̂� + 𝑧1−∝

2

√�̂�𝑎𝑟(𝑃𝑃�̂�)]

o Para el PNV es

[𝑃𝑁�̂� − 𝑧1−∝

2

√�̂�𝑎𝑟(𝑃𝑁�̂�), 𝑃𝑁�̂� + 𝑧1−∝

2

√�̂�𝑎𝑟(𝑃𝑁�̂�)]

Intervalo de confianza de Agresti:

o Para el PPV es

𝑃𝑃�̂� +𝑧

1−∝2

2

2(𝑎 + 𝑏)± 𝑧

1−∝2

√[𝑃𝑃�̂�(1 − 𝑃𝑃�̂�] +

𝑧1−

∝2

2

4(𝑎 + 𝑏)(𝑎 + 𝑏)

1 +

𝑧1−

∝2

2

(𝑎 + 𝑏)

o Para el PNV es

𝑃𝑁�̂� +𝑧

1−∝2

2

2(𝑐 + 𝑑)± 𝑧

1−∝2

√[𝑃𝑁�̂�(1 − 𝑃𝑁�̂�] +

𝑧1−

∝2

2

4(𝑐 + 𝑑)(𝑐 + 𝑑)

1 +

𝑧1−

∝2

2

(𝑐 + 𝑑)

Intervalo de confianza cuadrático de Fleiss:

o Para el PPV es

𝑃𝑃𝑉 ∈

(𝑎 ± 0,5) + 𝑧∝2 ± 𝑧∝√

𝑧∝2

4 + (𝑎 ± 0,5)(1 −𝑎 ± 0,5(𝑎 + 𝑏)

)

(𝑎 + 𝑏) + 𝑧∝2

Page 12: Estimación de la Sensibilidad y la Especificidad de un

11

o Para el PNV es 𝑃𝑁𝑉 ∈

(𝑑±0,5)+𝑧∝2±𝑧∝√

𝑧∝2

4+(𝑎±0,5)(1−

𝑎±0,5

(𝑐+𝑑))

(𝑐+𝑑)+𝑧∝2

Intervalo de confianza de Wilson:

o Para el PPV es

𝑃𝑃�̂� ((𝑎 + 𝑏)

(𝑎 + 𝑏) + 𝑧∝2

2) +1

2(

𝑧∝2

2

(𝑎 + 𝑏) + 𝑧∝2

2)

± 𝑧∝2

√1

(𝑎 + 𝑏) + 𝑧∝2

2 [𝑃𝑃�̂�(1 − 𝑃𝑃�̂�) ((𝑎 + 𝑏)

(𝑎 + 𝑏) + 𝑧∝2

2) +1

2

1

2 (

𝑧1−

∝2

2

(𝑎 + 𝑏) + 𝑧∝2

2)]

o Para el PPV es

𝑃𝑁�̂� ((𝑐 + 𝑑)

(𝑐 + 𝑑) + 𝑧∝2

2) +1

2(

𝑧∝2

2

(𝑐 + 𝑑) + 𝑧∝2

2)

± 𝑧∝2

√1

(𝑐 + 𝑑) + 𝑧∝2

2 [𝑃𝑁�̂�(1 − 𝑃𝑁�̂�) ((𝑐 + 𝑑)

(𝑐 + 𝑑) + 𝑧∝2

2) +1

2

1

2 (

𝑧1−

∝2

2

(𝑐 + 𝑑) + 𝑧∝2

2)]

1.5 El objetivo general de este trabajo

Hay que tener en cuenta que la situación del test no es idílica y que existen varios

factores que pueden influenciar los resultados de dichos tests. El en medio en el cual se

realiza el test, las propias características del ensayador, las características socio-

demográficas de los sujetos en cuestión son algunos de estos factores.

Supongamos, por ejemplo, que tenemos el registro de unas pruebas de audiometría en

un grupo de neonatos. A cada neonato se le aplica 3 tests diferentes en cada oído. Para

saber qué test es más adecuado hay que hacer un análisis de cómo afectan las variables

externas a dicho test. Por ejemplo, hay que tener en cuenta la edad del neonato, el lugar

dónde se realizó la prueba (en la habitación de un hospital o en una habitación específica

para el sonido o en ambas), medidas de severidad de la sordera…

Es decir, pese a que las medidas de exactitud de un tests diagnóstico no dependan de la

prevalencia de la enfermedad eso no quiere decir que esas medidas no se vean

Page 13: Estimación de la Sensibilidad y la Especificidad de un

12

afectadas de manera diferente por características de la población en la que se aplican;

es más lo común será que un test diagnóstico se deje afectar tanto en su sensibilidad

como en su especificidad por esas características pudiendo y debiendo modelizarse esas

medidas en función de las covariables que definan las características poblacionales. Pues

bien, el objetivo fundamental de este estudio es la modelización tanto de la sensibilidad

como de la especificidad en función de covariables cualitativas o cuantitativas y la

determinación de la rebaja en la incertidumbre de la sensibilidad y de la especificidad

que tal modelización lleva consigo.

En la siguiente sección entraremos de lleno en el estudio del problema recién enunciado.

Page 14: Estimación de la Sensibilidad y la Especificidad de un

13

2. La modelización de los factores que afectan al funcionamiento del test.

En este apartado se llevará a cabo la presentación del marco teórico de este trabajo de

fin de máster a partir de los trabajos de Hermann Brenner et al. (1997), el libro de

Margaret S. Pepe (2004), Janssens et al. (2005), Coughlin et al. (1992), George A.

Diamond (1992), Cristina Latorre et al. (2001), Smith y Hadgu (1992), Leisenring et al.

(1997) y Sternberg y Hadgu (2001).

2.1. El test diagnóstico no se comporta de manera constante en diferentes

poblaciones.

Una limitación ampliamente reconocida de los valores predictivos es su dependencia de

la prevalencia de la enfermedad. Por el contrario, la sensibilidad, la especificidad y el

estimador de máxima verosimilitud (likelihood ratios) son generalmente considerados

independientes de la prevalencia de la enfermedad. En consecuencia, estas medidas son

a menudo consideradas como puntos de referencia constantes del rendimiento de los

test que se emplean para comparar el valor diagnóstico de pruebas alternativas. Tal

razonamiento se justifica en situaciones con un estado de la enfermedad dicotómico y

una probabilidad homogénea de clasificación errónea del diagnóstico dentro de la

población de individuos enfermos y dentro de la población de individuos no enfermos.

No obstante, en muchas situaciones prácticas es probable que los supuestos sean

violados ya que en pocas situaciones el estado de la enfermedad es negro o blanco (por

ejemplo, muerto frente vivo). Más típicamente, hay una continuidad de los rasgos

(medibles o no medibles) en que se basa la clasificación del estado de la enfermedad,

que van desde la clara ausencia a la clara presencia de la enfermedad. En el caso más

sencillo, en el que una categorización binaria del estado de la enfermedad se hace sobre

la base de un único rasgo continuo, la clasificación de diagnóstico de los pacientes

depende de si la medición de este rasgo está por encima o por debajo de un punto de

corte definido. Por ejemplo, los individuos se clasifican como hipertensos en relación a

la presión sanguínea. Lo ideal sería que esta clasificación se basará en los niveles usuales

(promedio) de la presión arterial del individuo. En la práctica, se recogen una o dos

mediciones y esto puede conducir a errores de clasificación del diagnóstico debido a la

Page 15: Estimación de la Sensibilidad y la Especificidad de un

14

variabilidad intra-individuos de la presión arterial. En otras situaciones, los rasgos

continuos subyacentes son menos fácilmente cuantificables, en cuyo caso la

subjetividad de calificaciones proporciona otra fuente más de error de medición.

Los ejemplos más comunes incluyen los diagnósticos basados en los síntomas clínicos o

cambios radiológicos. En muchas otras situaciones, la inexactitud de los procedimientos

de prueba refleja principalmente la influencia de covariables no medidas en resultados

de las pruebas que no están relacionados con la enfermedad de interés. Por ejemplo,

los niveles séricos de gamma-glutamil transferasa (GGT) se utilizan a menudo como

pruebas para trastornos hepáticos relacionados con el alcohol y utilizan varios puntos

de corte. Aunque el alcohol es el factor causal más importante para la elevación de GGT,

alguna variación de los niveles de GGT es debida a otros factores, tales como infecciones

virales.

Los puntos de corte de diagnóstico a menudo se establecen por consenso mutuo o

explícito de expertos. Ejemplos son los puntos de corte para la hipertensión o

hiperlipidemia. En otras situaciones, los puntos de corte son impuestas por el umbral de

la manifestación clínica. Esto se aplicaría a muchos diagnósticos, tales como infarto de

miocardio o el cáncer de próstata, que a menudo se escapan de la verificación del

diagnóstico.

Debido a que los individuos con niveles reales cercanos al punto de corte de la prueba

diagnóstico son más propensos a ser mal clasificados que otros individuos en la

presencia de un error de medición o de la variabilidad intra-individual de los rasgos

subyacentes, o debido a la influencia de las covariables no controladas, las tasas de

clasificación errónea se esperan que varíen entre poblaciones, en función de la

distribución de los niveles reales de los rasgos subyacentes relativos a la prueba de

diagnóstico de punto de corte.

Esta distribución, sin embargo, también determina la prevalencia de la enfermedad en

la población. Los errores de clasificación de diagnóstico y la prevalencia de la

enfermedad, por lo tanto, están interrelacionados.

Page 16: Estimación de la Sensibilidad y la Especificidad de un

15

Es bien sabido que los estudios de pruebas diagnóstico están sujetas a una serie de

sesgos: sesgo de verificación, errores en la referencia, “spectrum bias”, sesgo de

interpretación, test insatisfactorios y sesgo de extrapolación.

a) El sesgo de verificación: Selección no aleatoria para la evaluación definitiva de la

enfermedad con la prueba “gold estándar” de referencia.

b) Errores en la referencia: El estado verdadero de enfermedad está sujeto a

clasificación errónea porque el “gold estándar” es imperfecto.

c) El denominado “spectrum bias” (espectro de sesgo) se produce cuando los

sujetos enfermos en el estudio no son representativos de los sujetos enfermos

en la población, o por el contrario si los controles seleccionados para el estudio

son diferentes de los controles de la población. Un error común es seleccionar

los casos que tienen la enfermedad severa o crónica y los controles que sean en

promedio más sanos que los sujetos no enfermos en la población. Dicha

selección puede mejorar la aparente precisión de la prueba de diagnóstico. Al

igual que en estudios epidemiológicos, los casos y controles en un estudio de

diagnóstico deben ser seleccionados al azar de las poblaciones objetivos de

enfermos y no enfermos.

La variación de la sensibilidad y la especificidad en la distribución de los rasgos

subyacentes ha sido señalada por Ransohoff y Feinstein (1978). Ellos acuñaron

el término "spectrum bias” de este fenómeno que se ha demostrado en diversos

estudios empíricos. Ejemplos publicados incluyen, entre otros, exámenes de

laboratorio, electrocardiogramas, gammagrafías y ultrasonografías. A pesar del

reconocimiento reiterado de la variación de la sensibilidad y la especificidad con

la prevalencia de la enfermedad, está ausente en la metodología la orientación

a este fenómeno.

d) La prueba de sesgo de interpretación surge si la información extraña, como los

síntomas clínicos o el resultado de otra prueba, influencian en el procedimiento

de la misma o en su interpretación de una manera que diferente de cómo se

aplicaría en la práctica. Por ejemplo, los resultados de una mamografía pueden

influir en la interpretación de un bulto de un examen clínico de mama. Si un

examen clínico de mama se va a aplicar en la práctica y sin lecturas mamográficas

Page 17: Estimación de la Sensibilidad y la Especificidad de un

16

concurrentes disponibles, entonces las evaluaciones deben reflejar esto en el

estudio de investigación.

e) Los resultados de un test inadecuado o insatisfactorio aparecen en la práctica y

no siempre está claro cómo deberían ser tratados en la evaluación de un estudio

de investigación. Por ejemplo, en una prueba de audio realizada en bebes

requiere que los bebes no empiecen a llorar, sino se para la prueba. Si estos

resultados son omitidos de los análisis, podrían ocurrir que obtengamos mejores

resultados de lo que en realidad es. Sin embargo, su inclusión también podría ser

problemática ya que si suponemos que todos estos resultados inadecuados son

negativos, no llegaríamos a una detección correcta de la presencia o ausencia de

la enfermedad. Discusiones sobre este tema se pueden encontrar en Begg et al.

(1986).

f) Varios factores externos pueden afectar a la realización de un test para detectar

la enfermedad: factores relacionados con el paciente (demográficos, hábitos

saludables, complicaciones, veracidad), factores relacionados con el ensayador

(experiencia, entrenamiento), factores relacionados con el medio en el que la

prueba es recogida (institución, fuentes disponibles y opciones de tratamiento,

prevalencia de la enfermedad de la población) y muchos más.

El sesgo de extrapolación se observa cuando se extrapola los resultados de un

estudio a otras poblaciones que tienen factores que influencian la precisión del

test muy distintos a la población “original” de estudio.

A continuación, se explicarán detalladamente todos aquellos factores que afectan a los

resultados de un test binario.

2.2. Enumeración y caracterización de los factores que afectan al

funcionamiento de un test diagnóstico binario.

En la práctica clínica, el diagnóstico de la enfermedad se hace sobre la base de las

características del paciente y de los resultados de las pruebas diagnóstico. El proceso de

diagnóstico es secuencial, y se basa en las características del paciente, tales como la

historia clínica y los signos y síntomas en el examen clínico, y sobre resultados de las

pruebas diagnósticas previas.

Page 18: Estimación de la Sensibilidad y la Especificidad de un

17

Una mayor seguridad es importante cuando las decisiones de falsos positivos o falsos

negativos tienen consecuencias adversas para la salud de los pacientes. La disminución

de los costos de estas consecuencias adversas debe ser considerada frente al

incremento en los costos de las pruebas adicionales, en particular cuando las pruebas

de diagnóstico son caras o cuando suponen una carga física o emocional para los

pacientes.

La medida en la que las pruebas adicionales pueden aumentar la certeza del diagnóstico

está indicada por el cambio en la probabilidad de la enfermedad antes y después de la

prueba. Este cambio puede ser evaluado por el estimador de máxima verosimilitud (LR)

de los resultados de la prueba, que es la magnitud del cambio entre las probabilidades

anteriores y posteriores de la enfermedad. El LR de la prueba se define como la

probabilidad del test resultante entre sujetos que tienen la enfermedad dividido por la

probabilidad del test resultante entre sujetos que no tienen la enfermedad. El LR de la

prueba es superior a 1 cuando el resultado es más frecuente entre los sujetos enfermos

que entre aquellos que no tienen la enfermedad. La LR es inferior a 1 cuando el resultado

de la prueba es más frecuente entre las personas que no tienen la enfermedad.

En la investigación del diagnóstico, los LR de la prueba son generalmente considerados

en una sola estimación de la población total del estudio, a pesar de que se sabe que el

LR, al igual que otras características de la prueba, tales como la sensibilidad y la

especificidad, puede variar entre los diferentes perfiles de riesgo de los pacientes. En la

práctica clínica, uno está interesado en el valor de las pruebas adicionales a nivel del

paciente individual y, por lo tanto, en los LR de pruebas diagnóstico que tengan en

cuenta el perfil de riesgo del paciente.

El perfil de riesgo se define como un conjunto de variables que se asocian con el riesgo

de la enfermedad y se conocen antes de la prueba. Los LR condicionales en los perfiles

de riesgo de los pacientes se pueden calcular en los subgrupos de pacientes cuando el

perfil de riesgo se define por un número limitado de características dicotómicas o

categóricas. Sin embargo, en muchas situaciones, este enfoque será sub-óptimo porque

el número de características de los pacientes en el perfil de riesgo general es demasiado

Page 19: Estimación de la Sensibilidad y la Especificidad de un

18

grande para el análisis de subgrupos fiables o porque se incluyen variables continuas

dicotomizadas que se traducirá en la pérdida de la información.

Por estas razones, se han desarrollado varios métodos de regresión para obtener los LR

de pruebas de diagnóstico condicionales al perfil de riesgo del paciente.

Luego, las estimaciones de estratos específicos se obtienen mediante la inclusión de

covariables en la ecuación de regresión tales como las categorías de edad, sexo o

antecedentes de enfermedad concomitante o síntomas. Este enfoque de modelado

puede ser útil para obtener estimaciones suavizadas de sensibilidad, especificidad y

valores predictivos, cuando no es práctico el cálculo de estas medidas directamente para

estratos pequeños debido a las limitaciones del tamaño de muestra.

Gran parte de la literatura aplicada en las pruebas médicas supone que el rendimiento

de prueba es una entidad constante. Begg (1987) y Kraemer (1992), entre otros, han

lamentado el estado de esta situación. Hlatky et al. (1984) identificaron los predictores

clínicos importantes de esta variación (covariables), y llegaron a la conclusión de que los

factores covariables que afectan a la sensibilidad de esta prueba eran diferentes de los

que afectan a su especificidad. Coughlin et al. (1992) idearon un método para estimar la

sensibilidad y especificidad como una función de tales covariables. En pocas palabras,

identifican algún subconjunto de covariables (incluyendo el estado de la enfermedad tal

como se define por el procedimiento de la supuesta verificación) como variables

independientes, junto con la presencia o ausencia de la respuesta de prueba como

variable dependiente, y utilizar estas variables para el análisis de regresión logística. El

conjunto resultante de los coeficientes de regresión permite el cálculo de la probabilidad

de la respuesta de la prueba dado el conjunto de covariables.

Consideremos unos ejemplos específicos de factores relaciones con el test en cuestión

que pueden afectar al resultado del test. Primero, la habilidad de una mamografía para

detectar el cáncer de mama depende de la edad de la mujer. Las mujeres más jóvenes

tienen el tejido del seno más denso y esto hace que la mamografía sea más difícil de

interpretar. Segundo, en la evaluación de una prueba de esfuerzo, el sexo debería ser

considerado como una covariable potencial porque los hombres y las mujeres difieren

es sus habilidades para llevar a cabo un ejercicio físico. Finalmente, la salud de un bebe

Page 20: Estimación de la Sensibilidad y la Especificidad de un

19

o una enfermedad neurológica podría verse influenciada por su habilidad para

responder a un test audiológico. Las características de los sujetos de estudio deben ser,

por tanto, consideradas cuando se lleva a cabo la interpretación del test. Un test que se

ajusta bien a una población, podría no ajustarse bien en otra.

Algunos factores que pueden afectar a la realización del test son:

Factores Ejemplos

Sujetos Edad, género, hábitos saludables Ensayador Experiencia, entrenamiento Test Protocolo, condiciones operables Medio Localización, recursos sanitarios Enfermedad Severidad, histología Estado de no enfermedad Normal o condición no normal

Tabla 2. Algunos factores que pueden afectar un test binario de dos muestras

Las características del ensayador pueden afectar a la realización del test. Por ejemplo,

el entrenamiento de las personas que realizan el test puede afectar a sus resultados.

Una persona con buen entrenamiento en audiología o experiencia en el uso del equipo

del test obtendrá resultados más precisos y exitosos del test que un ensayador sin

experiencia ni entrenamiento. También, las variaciones en cómo el test es llevado a cabo

deberían ser consideradas covariables importantes. Por ejemplo, el medio físico en el

que el test es llevado a cabo debería ser considerado en pruebas de audio donde el

ambiente de silencio de una habitación donde se realiza la prueba juega un papel muy

importante. Los factores ambientales no físicos también pueden afectar el resultado de

la prueba. Estos incluyen la disponibilidad de recursos para el cuidado de la salud y la

prevalencia de la enfermedad, los cuales pueden influir en los criterios para la

clasificación de un resultado positivo. Los criterios de positividad podrán ser más

rigurosas en entornos con menos recursos y/o una mayor prevalencia de la enfermedad.

Las características de la enfermedad a menudo afectarán la realización del test. Claro

es, que cuanto más avanzada esté la enfermedad, más fácil será su detección. Es

sorprendente que en la práctica está covariable a menudo no forma parte de los análisis

de los resultados. Esto podría incluir la histología y el grado de detección del cáncer y el

subtipo de bacteria que se está testando. Los sujetos que son hospitalizados o acuden a

Page 21: Estimación de la Sensibilidad y la Especificidad de un

20

emergencias con el mismo cuadro clínico podrían tener características que lleven a un

resultado falso positivo. En la investigación del cáncer de próstata, por ejemplo, los

sujetos con un tumor benigno tienden a tener mayores niveles de PSA y de aquí podrían

tener mayor probabilidad de obtener resultados de falsos positivos que aquellos

controles con niveles normales de la próstata.

2.3. Ejemplo práctico

A continuación se presenta un ejemplo de un estudio donde se muestran las diferencias

de sensibilidad y especificidad entre distintas poblaciones.

La tira radiactiva (TR) se utiliza como primera prueba para la determinación de la

infección urinaria. Por ello se desea conocer la sensibilidad y la especificidad de la misma

frente al que se considera patrón de oro para dicha determinación que es el urocultivo.

Sin embargo, se sospecha que la sensibilidad y la especificidad de la prueba depende de

que el paciente sea un niño o un adulto por lo que Cristina la Torre et al. (2001)

plantearon un estudio que permitió comparar dichos parámetros en las dos

poblaciones. En la tabla 3 se presentan los datos del estudio:

Niños Adultos

Infección Total Infección Total

Si No Si No

TR + 57 211 268 TR + 29 222 251

- 17 262 279 - 3 286 289

Total 74 473 547 Total 32 508 540

Tabla 3. Datos del problema expuesto por Cristina la Torre et al. (2001) para niños y

para adultos

A partir de esta tabla se pueden estimar la sensibilidad y especificidad para cada una de

las poblaciones (niños y adultos) de manera puntual como por intervalos:

Page 22: Estimación de la Sensibilidad y la Especificidad de un

21

Niños Adultos

Estimaciones puntuales

�̂� =57

57 + 17= 0,7703 �̂� =

29

29 + 3= 0,9063

�̂� =262

262 + 211= 0,5539 �̂� =

286

286 + 222= 0,5630

Estimaciones por intervalos

𝑟1̂ =57

57 + (17 + 1)𝐹0,025[36; 114]= 0,6579

𝑟2̂ =(57 + 1)𝐹0,025[116; 34]

17 + (57 + 1)𝐹0,025[116; 34]= 0,8601

𝑟1̂ =29

29 + (3 + 1)𝐹0,025[4; 58]

= 0,7498

𝑟2̂ =(29 + 1)𝐹0,025[60; 6]

3 + (29 + 1)𝐹0,025[60; 6]

= 0,9802 𝑠1̂

=262

262 + (211 + 1)𝐹0,025[424; 524]

= 0,5078 𝑠2̂

=(262 + 1)𝐹0,025[526; 422]

211 + (262 + 1)𝐹0,025[526; 422]

= 0,5993

𝑠1̂

=286

286 + (222 + 1)𝐹0,025[446; 572]

= 0,5186 𝑠2̂

=(286 + 1)𝐹0,025[574; 444]

222 + (286 + 1)𝐹0,025[574; 444]

= 0,6066

Tabla 4. Resultados de la sensibilidad y especificidad del problema expuesto por

Cristina la Torre et al. (2001) para cada población

En esta tabla (tabla 4) se observa que para ambas poblaciones el test es más útil para

detectar la infección que para descartarla. Sin embargo, se obtiene que prueba es

mucho más sensible y específica en la población adulta. Si no se distinguiera entra ambas

poblaciones, se obtendría:

Infección Total

Si No

TR + 86 433 519

- 20 548 568

Total 106 981 1087

Tabla 5. Datos del problema expuesto por Cristina la Torre et al. (2001) para ambas

poblaciones combinadas

Se obtiene su sensibilidad y especificidad correspondientes:

Page 23: Estimación de la Sensibilidad y la Especificidad de un

22

Estimaciones puntuales �̂� =

86

86 + 20= 0,811

�̂� =548

548 + 433= 0,558

Estimaciones por intervalos

𝑟1̂ =86

86 + (20 + 1)𝐹0,025[42; 172]= 0.725

𝑟2̂ =(86 + 1)𝐹0,025[174; 40]

20 + (86 + 1)𝐹0,025[174; 40]= 0.887

𝑠1̂ =548

548 + (433 + 1)𝐹0,025[868; 1096]= 0.549

𝑠2̂ =(548 + 1)𝐹0,025[1098; 866]

433 + (548 + 1)𝐹0,025[1098; 866]= 0.566

Tabla 6. Resultados de la sensibilidad y especificidad del problema expuesto por

Cristina la Torre et al. (2001) para cada la combinación de ambas poblaciones

Observamos que los valores de la sensibilidad y especificidad vuelven a cambiar, siendo

el test menos sensible que si se distingue entre ambas poblaciones.

Por tanto, la influencia de estas características debería ser investigada cuando se

evalúan las fracciones de falsos positivos asociadas con el test. En la siguiente sección se

describirá como abordar las covariables que pueden afectar a un test diagnóstico

binario.

2.4. Modelos lineales generalizados para la determinación del funcionamiento

de un test diagnóstico binario con covariables: modelos para la

determinación de la sensibilidad y de la especificidad y de la razón de

verosimilitudes.

Hemos aludido anteriormente la necesidad de evaluar los factores que afectan al

desempeño de un test diagnóstico. La evaluación simultánea de múltiples factores e

interacciones entre los factores pueden analizarse a través de la regresión.

También podemos comparar tests diagnósticos en el marco de la regresión. Una de las

ventajas de utilizar la regresión para comparar tests es que el análisis controla los

factores simultáneamente. En los estudios observacionales, esto reduce,

potencialmente, la confusión. Incluso en estudios experimentales, la regresión puede

aumentar la precisión con la que ésta es estimada. Pueden formularse y responderse

Page 24: Estimación de la Sensibilidad y la Especificidad de un

23

preguntas más complejas, tales como si la precisión relativa varía o no con las

covariables. Un test podría encajar mejor que otro pero únicamente bajo ciertas

características. Además, podría ser de interés determinar el valor incremental de un test

sobre otra información ya disponible. Por ejemplo, cuando se llevan a cabo varios tests,

¿cuál de ellos detecta la enfermedad que otro cualquiera no lo haya hecho ya?

Supongamos que 𝑍 es el conjunto de covariables de interés. Sea 𝑋(𝑍) las variables

específicas introducidas en el modelo. Por ejemplo, si 𝑍 es la covariable sexo, entonces

el modelo estadístico podría incluir una covariable 𝑋(𝑍) codificada como 0 para los

hombres y como 1 para las mujeres. Si la covariable tuviese más categorías, se define

𝑋(𝑍) = (𝑋1(𝑍), 𝑋2(𝑍)) , donde la variables dummy 𝑋𝑖(𝑍) = 1, para i-esima categoría,

tomando el valor 0 en el resto de las categorías. Si la covariable Z es la edad, 𝑋(𝑍) podría

ser una variable ordinal donde 𝑋(𝑍) = 𝑘, si la edad del sujeto está en el intervalo k-

esimo, o 𝑋(𝑍) podría ser la edad medida en años. Encontramos útil distinguir entre la

entidad de 𝑍 y la forma de codificar 𝑋(𝑍). Para simplificar la notación escribiremos 𝑋 en

vez de 𝑋(𝑍), teniendo en cuenta que las covariables de 𝑋 son funciones numéricas de

𝑍.

A continuación, se muestran las fórmulas para obtener los LRs, odds ratios, sensibilidad

y especificidad de un test diagnóstico binario (tabla 7):

Enfermedad

+ -

Test + a b

- c d

Odds (𝐷+) = 𝑎 + 𝑐 𝑏 + 𝑑⁄ = 𝑒𝛽00

Odds (𝐷+/𝑇+) = 𝑎 𝑏⁄ = 𝑒𝛽01+𝛽11

Odds (𝐷+/𝑇−) = 𝑐 𝑑⁄ = 𝑒𝛽01

Likelihood ratio (𝐿𝑅+)=𝑎

𝑎+𝑐

𝑏

𝑏+𝑑⁄ =

𝑎

𝑏

𝑏+𝑑

𝑎+𝑐⁄ = 𝑒𝛽01+𝛽11 𝑒𝛽00⁄ = 𝑒𝛽01+𝛽11−𝛽00

Likelihood ratio (𝐿𝑅−) =𝑐

𝑎+𝑐

𝑑

𝑏+𝑑⁄ =

𝑐

𝑑

𝑏+𝑑

𝑎+𝑐⁄ = 𝑒𝛽01 𝑒𝛽00⁄ = 𝑒𝛽01−𝛽00

Odds ratio (OR) = 𝑎 ∗ 𝑑 𝑏 ∗ 𝑐⁄ =𝑎

𝑏

𝑐

𝑑⁄ = 𝑒𝛽01+𝛽11 𝑒𝛽01 = 𝑒𝛽11⁄

Sensibilidad 𝑆𝑒 = 𝑎 𝑎 + 𝑐⁄ = (𝐿𝑅+ − 𝑂𝑅)/(1 − 𝑂𝑅) Especificidad 𝑆𝑝 = 𝑑 𝑏 + 𝑑⁄ = (1/𝐿𝑅− − 𝑂𝑅)/(1 − 𝑂𝑅)

Tabla 7. Fórmulas para los LR, odds ratio, sensibilidad y especificidad para un test

diagnóstico binario

Page 25: Estimación de la Sensibilidad y la Especificidad de un

24

El modelo de regresión logística, que se aplica con muchísima frecuencia en la

investigación epidemiológica (Breslow et al. (1983), Kleinbaum et al. (1982), Hlatky et

al. (1984) y Schlesselman et al. (1982)), puede ser utilizado para la estimación de la

sensibilidad y la especificidad mediante la definición de la variable dependiente (Y) como

variable dicotómica, donde Y=1 si la enfermedad está presente, e Y=0 en caso contrario.

En este caso Y es el resultado del test diagnóstico que se está probando. A diferencia de

las aplicaciones anteriores del modelo logístico, la presencia o ausencia de la

enfermedad, según la definición del "gold standard", se incluye como una variable

binaria explicativa (𝑋1), junto con las variables utilizadas para definir los subgrupos de

interés. Por lo tanto, las odd del log de la presunta enfermedad se modelan como una

función lineal de (1,…,j) variables explicativas, una de las cuales corresponde con los

resultados binarios del "gold standard", junto con sus coeficientes β (Breslow et al.

(1983) y Kleinbaum et al. (1982)):

𝑙𝑜𝑔𝑖𝑡 Pr(𝑌 = 1|𝑋) = 𝛽0 + ∑ 𝛽𝑗𝑋𝑗

𝑘

𝑗=1

Este modelo de regresión se puede generalizar (Sackett DL et al. (1985)) de manera que:

𝑙𝑜𝑔𝑖𝑡 Pr(𝑌 = 1|𝑋) = 𝛽0 + ∑ 𝛽𝑗𝑋𝑗

𝑘

𝑗=1

ó 𝛽0𝑘 + ∑ 𝛽𝑗𝑘𝑋𝑗

𝑘

𝑗=1

En la segunda ecuación, se añade un índice adicional (k) al coeficiente de regresión para

distinguir entre los coeficientes de los modelos de regresión a priori y a posteriori: 𝛽𝑗𝑘

se refiere a los coeficientes del modelo de regresión a posteriori, que incluye k variables,

y 𝛽𝑗,𝑘−1 se refiere a los coeficientes del modelo a priori, que incluye k-1 variables porque

la prueba de interés no está incluida (tabla 8a). En estos modelos de regresión, 𝛽0𝑘 es el

logaritmo neperiano de las odds de la enfermedad cuando los valores de todas las

variables (𝛽𝑗𝑘) son cero y 𝑋𝑗 es el logaritmo neperiano de la odds de la variable j. Para

una prueba dicotómica de diagnóstico, en el test k, el logaritmo neperiano de la odds es

la razón de las ventajas de la enfermedad cuando 𝑥𝑘=1 en comparación con las

probabilidades de enfermedad cuando 𝑥𝑘=0, ajustado por las demás variables del

modelo. El LR de los resultados de esta prueba se obtiene como la relación de las

Page 26: Estimación de la Sensibilidad y la Especificidad de un

25

probabilidades de enfermedades a posteriori, cuando 𝑥𝑘 es 1 (LR +) o 0 (LR-), en

comparación con las probabilidades a priori cuando la prueba k aún no se ha realizado.

Estos LRs no siguen directamente un modelo de regresión logística, sino que requieren

la comparación entre los modelos de regresión a priori y a posteriori. Para este

propósito, se propone volver a escribir el modelo de regresión para el logaritmo

neperiano de las odds a posteriori de tal manera que incluye los coeficientes del

logaritmo neperiano de las odds a priori.

a. Modelo de regresión logístico convencional

Ln(post 0 test odds)=ln (prior 1 test odds)=𝛽00 Ln(post 1 test odds)=ln (prior 2 test odds)=𝛽01 + 𝛽11𝑥1 Ln(post 2 test odds)=ln (prior 3 test odds)=𝛽02 + 𝛽12𝑥1 + 𝛽22𝑥2

b. Modelo de regresión logístico reformulado

Ln(post 0 test odds) =𝛽00 Ln(post 1 test odds) =𝛽01 + (𝛽11 − 𝛽00) + 𝛽11 𝑥1 Ln(post 2 test odds)=𝛽01 + 𝛽11𝑥1 + (𝛽02 − 𝛽01) + (𝛽12 − 𝛽11)𝑥1+ 𝛽22𝑥2

Tabla 8. Ejemplos de modelos de regresión logística convencional y reformulado

Obtenemos, ahora, el modelo de regresión logística reformulado:

ln(𝑜𝑑𝑑𝑠 𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖) = 𝛽0𝑘 + ∑ 𝛽𝑗𝑘𝑋𝑗

𝑘−1

𝑗=1

+ 𝛽𝑘𝑘𝑥𝑘

En esta ecuación, 𝛽0𝑘 + ∑ 𝛽𝑗𝑘𝑋𝑗𝑘−1𝑗=1 no se refiere al modelo de regresión para las odds a

priori porque los coeficientes de regresión (𝛽0𝑘 y 𝛽𝑗𝑘) generalmente cambian cuando se

añade una variable al modelo debido a la correlación entre variables. En otras palabras,

𝛽0𝑘 ≠ 𝛽0,𝑘−1 y 𝛽𝑗𝑘 ≠ 𝛽𝑗,𝑘−1. Para una reformulación del modelo de regresión del

logaritmo neperiano de las odds a posteriori se incluye los coeficientes del logaritmo

neperiano de las odds a priori. Las ecuaciones de regresión reformulada, presentados

en la tabla 8b, incluyen los coeficientes del modelo a priori (𝛽0,𝑘−1 y 𝛽𝑗,𝑘−1) y las

correcciones para cada covariable (𝛽0𝑘-𝛽0,𝑘−1 y 𝛽𝑗𝑘-𝛽𝑗,𝑘−1). Una generalización de los

modelos de regresión reformuladas puede escribirse como:

Page 27: Estimación de la Sensibilidad y la Especificidad de un

26

ln(𝑜𝑑𝑑𝑠 𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖)

= 𝛽0,𝑘−1 + ∑ 𝛽𝑗,𝑘−1𝑥𝑗

𝑘−1

𝑗=1

+ (𝛽0𝑘 − 𝛽0,𝑘−1) + ∑(𝛽𝑗𝑘 − 𝛽𝑗,𝑘−1)𝑥𝑗

𝑘−1

𝑗=1

+ 𝛽𝑘𝑘𝑥𝑘

En este modelo 𝛽0,𝑘−1 + ∑ 𝛽𝑗,𝑘−1𝑥𝑗𝑘−1𝑗=1 es del logaritmo neperiano de las odds del

modelo de regresión a priori. Por tanto,

ln(𝐿𝑅 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑥𝑘|𝑥1 … 𝑥𝑘−1)

= (𝛽0𝑘 − 𝛽0,𝑘−1) + ∑(𝛽𝑗𝑘 − 𝛽𝑗,𝑘−1)𝑥𝑗

𝑘−1

𝑗=1

+ 𝛽𝑘𝑘𝑥𝑘

El LR de los resultados del test k (𝑥𝑘) condicionado en los valores de las covariables

(𝑥1, … , 𝑥𝑘−1) puede por lo tanto obtenerse restando los coeficientes del modelo de

regresión a priori de los coeficientes del modelo a posteriori. Las dos fórmulas anteriores

definidas son fórmulas generales para las probabilidades a posteriori y los LR de los

modelos de regresión cuando se consideran sólo los efectos principales de las variables.

La sensibilidad de la prueba de detección puede estimarse para un subgrupo en

particular, utilizando la ecuación:

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =1

1 + exp [−(𝛽0 + ∑ 𝛽𝑗𝑋𝑗𝑘𝑗=1 )]

𝑑𝑜𝑛𝑑𝑒 𝑋1 = 1

se deriva a través de Cornfield (1962) para estimar los riesgos de específicos estratos de

la enfermedad cardíaca coronaria en la población de Framingham. La variable binaria

que indica los resultados del "gold standard" (𝑋1) se le asigna el valor 1, y las variables

explicativas restantes son los valores correspondientes al subgrupo de interés asignado.

La ecuación de la especificidad es análoga aunque 𝑋1 = 0:

𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 = 1 − {1

1 + exp[−(𝛽0 + ∑ 𝛽𝑗𝑋𝑗𝑘𝑗=1 )]

} 𝑑𝑜𝑛𝑑𝑒 𝑋1 = 0

Page 28: Estimación de la Sensibilidad y la Especificidad de un

27

La varianza del logit de la sensibilidad de la prueba de detección del nivel de la covariable

𝑋2∗ se puede calcular utilizando la matriz de varianza-covarianza proporcionada por la

mayoría de los programas de software estadístico de regresión logística.

Por ejemplo, si no hay covariables adicionales: 𝑉𝑎𝑟[ln(𝑝1̂ 1 − 𝑝1̂⁄ )] = 𝜎2, entonces el

intervalo de confianza del nivel de la covariable 𝑋2∗ viene dado por:

1

1 + exp[−(𝛽0̂ + 𝛽1̂ + 𝛽2̂𝑋2∗) ± 1.96√𝜎2]

La varianza y el error estándar de esta estimación [𝑉𝑎𝑟[ln(𝑝1̂ 1 − 𝑝1̂⁄ )] = 𝜎2] se

determinan por la precisión de los parámetros estimados usando el modelo logístico. La

precisión de los p-coeficientes puede estar influida por el tamaño de la muestra, la

prevalencia de la enfermedad, y la manera en que se codifican las variables. Una

inspección de la matriz de varianza-covarianza puede proporcionar información acerca

de la contribución relativa de cada variable a la varianza total.

El valor predictivo de una prueba positiva o negativa también puede ser modelado

utilizando este método. Sin embargo, la variable dependiente (Y) se debe especificar

para ser el resultado del "gold standard", y los resultados de la prueba de detección

incluidos entre las variables explicativas (𝑋1). Los valores predictivos positivos y

negativos de la prueba de detección pueden entonces ser estimadas usando las

ecuaciones de la sensibilidad y especificidad respectivamente.

Este enfoque basado en el modelo difiere de los métodos tradicionales en varios

aspectos. En primer lugar, el uso del modelo logístico proporciona un medio de evaluar

y ajustar por covariables explicativas. En segundo lugar, se propone utilizar todos los

datos para el modelo, no sólo información de las personas que han demostrado tener la

enfermedad (o demostrado que no tienen la enfermedad) mediante la prueba "gold

standard". Esta segunda característica incorpora a la información del modelo las

covariables de personas que eran positivas y negativas por el "gold standard" de la

prueba, por lo tanto maximizan la información disponible del conjunto de datos.

Con el fin de examinar los efectos de la inclusión de estas personas no enfermas en el

modelo, se realizó un estudio de simulación del funcionamiento de la medida de

Page 29: Estimación de la Sensibilidad y la Especificidad de un

28

sensibilidad. Suponiendo que deseamos ajustar para una sola covariable dicotómica,

que generamos una muestra de números aleatorios binomiales para simular tablas 2x2

como la mostrada en la tabla 9.

Gold standard

Positivo Negativo

Prueba de detección

Positivo 𝑛11 𝑛12 𝑛1.

Negativo 𝑛21 𝑛22 𝑛2.

𝑛.1 𝑛.2 𝑛..

𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑛11/𝑛.1

𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝑛22/𝑛.2

𝑣𝑎𝑙𝑜𝑟 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑜 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 = 𝑛11/𝑛1.

𝑣𝑎𝑙𝑜𝑟 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑜 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜 = 𝑛22/𝑛2.

Tabla 9. Tabla de contingencia general para la sensibilidad, especificidad y valores

predictivos de una prueba de detección

La sensibilidad y la especificidad esperada en cada estrato de la covariable varió del 60

a 90%, y la prevalencia del estrato específico (de acuerdo con el "gold standard") varió

del 5 a 50%. Para cada una de estas combinaciones de condiciones, se generaron 500

pares de tablas, la mitad con tamaños específicos de cada estrato de la muestra de 100

y la mitad con tamaños de muestra de 250. La comparación de la sensibilidad estimada

de modelos logísticos incluyendo y excluyendo personas no enfermas ("gold standard"

negativo) mostró en promedio diferencias <2% en las dos estimaciones para el tamaño

de la muestra más pequeña y diferencias <1% para muestras más grandes. La

comparación de la sensibilidad esperada estimada de los parámetros de la simulación

mostró que cualquiera de los métodos generalmente proporciona estimaciones

sesgadas de la real sensibilidad. Sin embargo, se observó una diferencia del 25% en las

estimaciones con y sin personas no enfermas para muestras donde las prevalencias en

los dos estratos de covarianza fueron del 5 y el 50%, respectivamente. Para estas tablas,

la estimación basada sólo en personas enfermas estaba dentro de 7% del valor

esperado, mucho más cerca que la basada en toda la muestra.

En situaciones en las que la prevalencia de la enfermedad varía mucho entre estratos

(por ejemplo, una diferencia de 10 veces o más) este sesgo potencial se puede corregir

mediante la adición de una enfermedad como interacción de covariables en el modelo,

Page 30: Estimación de la Sensibilidad y la Especificidad de un

29

restringiendo el análisis a los estratos de covarianza con cifras de prevalencia similares,

o mediante el uso de sólo el grupo de enfermos para el modelado de la sensibilidad.

El método de la regresión también puede ser útil para el modelado de la sensibilidad

relativa de dos procedimientos de detección. Las estimaciones de la sensibilidad

relativa, como discutió Schatzkin et al. (1987), se utilizan en la comparación de la

sensibilidad de una nueva prueba de cribado con el de un procedimiento existente,

sobre todo cuando la información sobre la situación sanitaria de las personas con

resultados negativos en ambas pruebas de detección es insuficiente. Esta situación se

presenta en la práctica cuando dos pruebas de detección se realizan en los sujetos y,

debido a consideraciones éticas o de otro tipo, sólo las personas que obtienen un

resultado positivo en una o ambas pruebas están completamente evaluados

clínicamente para establecer la presencia o ausencia de enfermedad.

Primer test Segundo test

Gold standard Gold standard

Positivo

Negativo

Positivo

Negativo

Prueba de detección

Positivo 𝑛11′ 𝑛12′ Positivo 𝑛11 ∗ 𝑛12 ∗

Negativo

(𝑛21′) (𝑛22′) Negativo

(𝑛21 ∗) (𝑛22 ∗)

(𝑛.1) (𝑛.2) (𝑛..) (𝑛.1) (𝑛.2) (𝑛..)

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =

𝑛11′ 𝑛.1⁄

𝑛11∗ 𝑛.1⁄

= 𝑛11′ 𝑛11

∗⁄

Tabla 10. Tabla de contingencia general para la sensibilidad relativa de una prueba de

detección (los valores entre paréntesis son desconocidos)

La tabla 10 resume la situación general en la que se aplican las dos pruebas de detección.

Puesto que el estado real de la enfermedad de las personas que obtienen un resultado

negativo en las dos pruebas de detección se desconoce, las sensibilidades de las dos

pruebas de cribado (𝑛11′ 𝑛.1⁄ y 𝑛11

′′ 𝑛.1⁄ ) son también desconocidos. Sin embargo, una

estimación imparcial de la sensibilidad relativa de las dos pruebas está proporcionada

por:

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =𝑛11

′ 𝑛.1⁄

𝑛11′′ 𝑛.1⁄

= 𝑛11′ 𝑛11

′′⁄

Page 31: Estimación de la Sensibilidad y la Especificidad de un

30

Utilizando los datos sólo para aquellas personas que dieron positivo en una o ambas

pruebas, las estimaciones específicas de los estratos de sensibilidad relativa se pueden

obtener mediante el ajuste de dos modelos logísticos que incluyen los resultados del

"gold standard" como una variable explicativa binaria (𝑋1), de las variables que definen

los subgrupos de interés. En cada modelo, la variable dependiente se define como el

resultado dicotómico de la prueba de detección respectiva. La ecuación

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =1

1 + exp [−(𝛽0 + ∑ 𝛽𝑗𝑋𝑗𝑘𝑗=1 )]

𝑑𝑜𝑛𝑑𝑒 𝑋1 = 1

se puede usar entonces para obtener estimaciones basadas en modelos de la

sensibilidad de cada prueba de detección de un sub-grupo en particular. Aunque estas

estimaciones individuales están sesgadas por la falta de información para los sujetos que

dieron negativo en ambas pruebas de detección, la relación de las dos estimaciones

basadas en modelos de sensibilidad obtenida de esta manera proporciona una

estimación razonable de la sensibilidad relativa de las dos pruebas para el subgrupo de

interés, como se discutió anteriormente en relación con las sensibilidades calculadas

directamente (𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =𝑛11

′ 𝑛.1⁄

𝑛11′′ 𝑛.1⁄

= 𝑛11′ 𝑛11

′′⁄ ).

El valor predictivo de una prueba de detección depende de la prevalencia de la

enfermedad de la población de interés. En consecuencia, los factores relacionados con

el riesgo de la enfermedad, como la edad, el sexo o hallazgos clínicos, influyen en la

capacidad predictiva de la prueba. Además, la sensibilidad y especificidad de una prueba

pueden verse afectadas por factores tales como la gravedad de la enfermedad o la

presencia de enfermedad concomitante. Como resultado, a menudo es deseable para

estimar estas medidas de la validez de una prueba de diagnóstico por separado para

diversos subgrupos. Sin embargo, si el número de categorías posibles es grande, puede

ser necesario una población grande para obtener estimaciones razonables,

especialmente si la enfermedad es rara en la población de cribado. Anteriormente, otros

autores han aplicado con éxito procedimientos estadísticos multivariantes en

situaciones en las que las pruebas de detección se realizan repetidamente en el tiempo,

como en un programa de cribado de múltiples etapas.

Page 32: Estimación de la Sensibilidad y la Especificidad de un

31

Dado que los factores clínicos pueden afectar a la sensibilidad y especificidad de una

prueba diferente, es necesario añadir una o más enfermedades en términos de

interacción con las enfermedades del modelo o para adaptarse a modelos distintos para

la sensibilidad y especificidad al estratificar por el estado de la enfermedad. Sin

embargo, debido a que los resultados de la prueba de detección están siendo modelados

y no la sensibilidad y especificidad, las variaciones en la sensibilidad y especificidad en

todos los estratos no requieren necesariamente la inclusión de términos de interacción.

En un análisis multivariado llevado a cabo por Hlatky et al. (1984) sobre los factores que

afectan a la sensibilidad y especificidad de la prueba de esfuerzo de una

electrocardiográfica, se ajustaron a los datos de las personas con y sin enfermedad

coronaria confirmada por cateterismo cardíaco modelos separados de sensibilidad y

especificidad. Aunque se encontró que cinco factores (tipo de ejercicio máximo del

corazón, número de arterias coronarias enfermas, tipo de angina de pecho, la edad del

paciente y sexo) podían tener efectos significativos e independientes sobre la

sensibilidad del esfuerzo de la electrocardiográfica, sólo la frecuencia cardíaca máxima

del ejercicio fue significativa.

El número de variables explicativas que pueden ser incluidas en el modelo para la

exactitud y precisión de las estimaciones de sensibilidad y especificidad es específico de

los datos y depende del tamaño de la muestra disponible.

El modelo logístico asume una relación de interacción entre las covariables incluidas en

el modelo de regresión (Breslow et al. (1983) y Kleinbaum et al. (1982)). El análisis

discriminante se puede usar para estimar la sensibilidad y especificidad, ajustado por

variables externas, mediante la utilización de estimaciones de probabilidades a

posteriori Jackknife (Ahnve et al. (1986) y Afifi et al. (1984)). La elección de un modelo

debe basarse en cambio en la bondad relativa del ajuste de los modelos alternativos, y

de si sus respectivos supuestos se cumplen adecuadamente. Los supuestos de

normalidad e igualdad de varianzas, que se aplican al análisis discriminante, no son

requeridos por el modelo logístico cuando los β-coeficientes se calculan utilizando las

técnicas de estimación de máxima verosimilitud (LR) (Breslow et al. (1983) y Afifi et al.

(1984)). En los modelos para sensibilidad, especificidad y valores predictivos positivos y

negativos, la primera variable independiente es binaria (los resultados de cualquiera de

Page 33: Estimación de la Sensibilidad y la Especificidad de un

32

los "gold standard" o pruebas de detección), y tiene una distribución binomial. En vista

de esto, el enfoque de la regresión logística es teóricamente preferible al análisis

discriminante ya que no se asume ninguna distribución para 𝑥1, … , 𝑥𝑘 y se obtienen

estimaciones de los β-coeficientes que convergen asintóticamente a los valores reales,

siempre y cuando el modelo logístico sea adecuado (Afifi et al. (1984) y Halperin et al.

(1971)).

Por lo tanto, este método de regresión puede proporcionar un enfoque útil para la

estimación de la sensibilidad, especificidad y valores predictivos para subgrupos

particulares en estudios clínicos y epidemiológicos. Esto se aplicará a tres situaciones

diferentes en el capítulo siguiente de este trabajo.

Page 34: Estimación de la Sensibilidad y la Especificidad de un

33

3. Tres problemas que requieren la modelización multivariante para el

ajuste: sensibilidad y especificidad ajustadas.

Se utilizará el software Stata 12 para los análisis estadísticos así como Microsoft Excel

2013 para cálculos sencillos.

3.1. Ejemplo del artículo de Janssens-2005, estimaciones de la sensibilidad, la

especificidad y de la razón de verosimilitudes

Janssens et al. (2005) propusieron el siguiente problema que vamos a resolver. El “gold

standard” para el diagnóstico de estenosis de la arteria renal, angiografía renal, en

pacientes con hipertensión resistentes al tratamiento es invasivo y costoso. Por esa

razón, se ha desarrollado una regla de predicción. Se incluyen las siguientes

características para predecir la presencia de la estenosis de la arteria renal: edad, sexo,

enfermedad vascular aterosclerótica y la concentración de creatinina sérica (Crs). Para

ilustrar el método propuesto, se consideran las siguientes preguntas: 1) ¿Cómo se

prueba para la concentración de creatinina sérica puede cambiar la predicción de la

estenosis de la arteria renal? y 2) ¿Qué características del paciente modera el valor LR

de las pruebas de concentración de creatinina sérica? Se incluyeron en los análisis

(n=426), y los niveles de creatinina sérica fueron dicotomizados arbitrariamente en la

mediana: niveles de Crs<90 mol/l (niveles bajos) o Crs≥90 mol/l (niveles altos).

Los datos agrupados se presentan en la siguiente tabla (tabla 11):

Page 35: Estimación de la Sensibilidad y la Especificidad de un

34

sexo edad creatinina enfermedad frecuencia

mujer ≥50 ≥90 1 17 mujer ≥50 ≥90 0 20 mujer ≥50 <90 1 10 mujer ≥50 <90 0 47 mujer <50 ≥90 1 10 mujer <50 ≥90 0 13 mujer <50 <90 1 10 mujer <50 <90 0 65 hombre ≥50 ≥90 1 39 hombre ≥50 ≥90 0 66 hombre ≥50 <90 1 3

hombre ≥50 <90 0 40 hombre <50 ≥90 1 7 hombre <50 ≥90 0 48 hombre <50 <90 1 2 hombre <50 <90 0 29

Tabla 11. Valores agrupados para el problema propuesto Janssens et al. (2005)

En este trabajo se adjuntan el archivo de datos (Datos 3.1), el archivo de programación

empleado para resolverlo (Program 3.1) y la hoja de Excel utilizada para los cálculos

(Resultados 3.1). Transformamos los datos agrupados en datos individuales. Entonces,

supongamos primero que no tenemos en cuenta las características de los pacientes

(tabla 12):

Enfermo No enfermo Total

Creatinina >=90 73 147 220

<90 25 181 206

Total 98 328 426

Tabla 12. Datos del problema sin tener en cuenta las características propias de los

sujetos propuesto por Janssens et al. (2005)

Setenta y tres de cada 98 (74%) pacientes con estenosis tuvo una alta concentración Crs,

y 25 (26%) pacientes tuvieron una baja concentración de creatinina sérica. Entre las

personas sin estenosis, estas cifras fueron de 147 (45%) y 181 (55%). Da aquí la

sensibilidad y la especificidad.

Obtenemos el 𝐿𝑅+ y el odds ratio, los resultados se muestran en la siguiente tabla:

Page 36: Estimación de la Sensibilidad y la Especificidad de un

35

Enfermos No enfermos Total

Crs>=90 73 147 220 Crs<90 25 181 206

Total 98 328 426

Riesgo 0.745 0.448 0.516

Estimación puntual [Intervalo de confianza 95%]

𝐿𝑅+ 1.662 1.37 2.017

Odds ratio 3.595 2.21 5.850

Tabla 13. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo

Utilizando las fórmulas anteriormente descritas en este trabajo (𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =

𝑛11/𝑛.1 y es𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 = 𝑛22/𝑛.2), se obtuvo la sensibilidad global de la

concentración de Crs que fue del 0,74 (𝑆𝑒 = 73/98) y la especificidad que fue del 0,55

(𝑆𝑝 = 181/328). La LR para la baja concentración de Crs fue 0.46 (𝐿𝑅− = (1 − 𝑆𝑒)/𝑆𝑝).

En la tabla 11, se observa que el LR de alta concentración de Crs fue mayor que 1

(𝐿𝑅+=1.66), lo que indica que la alta concentración de Crs fue más frecuente entre los

pacientes con estenosis que entre los que no lo tienen. La odds de estenosis fue 3.60

veces mayor en los pacientes con Crs ≥90 que en los pacientes con Crs <90.

Cuando una prueba de diagnóstico está asociada con las características del paciente, el

LR de la prueba será diferente entre los subgrupos que definen estas características. En

nuestra población de pacientes hipertensos, la concentración de Crs estuvo

significativamente relacionados con el género (coeficiente de correlación de Pearson r=

-0.37, P<0.001) y la edad (r=0.16, P<0.001).

En los ejemplos siguientes, se calcularán el LR de la concentración Crs en los subgrupos

definidos por las variables de género y edad. Comenzamos estratificando por el género:

Page 37: Estimación de la Sensibilidad y la Especificidad de un

36

Enfermos No enfermos Total

Estimación puntual

[Intervalo de confianza 95%]

Mu

jere

s Crs>=90 27 33 60 Riesgo 0.574 0.228 0.313

Crs<90 20 112 132 𝐿𝑅+ 2.524 1.713 3.720

Total 47 145 192 OR 4.582 2.295 9.149

Enfermos No enfermos Total

Estimación puntual

[Intervalo de confianza 95%]

Ho

mb

res

Crs>=90 46 114 160 Riesgo 0.902 0.623 0.684 Crs<90 5 69 74 𝐿𝑅+ 1.448 1.253 1.673 Total 51 183 234 OR 5.568 2.171 14.219

Tabla 14. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo

estratificado por género

La tabla 14 muestra que el LR de la alta concentración de creatinina sérica (𝐿𝑅+) fue

mayor en las mujeres que en los hombres (2.52 frente a 1.45), lo que implica que la alta

concentración de Crs es un indicador más fuerte de la presencia de estenosis en las

mujeres que en los hombres. El LR de la baja concentración de Crs (𝐿𝑅−) también fue

mayor en las mujeres que en los hombres (0.55 frente a 0.26), lo que implica que la baja

concentración de Crs es un indicador más fuerte de la ausencia de estenosis en los

hombres que en las mujeres. La sensibilidad y especificidad de la concentración de Crs

en los hombres tuvo una alta sensibilidad (Se=46/51=0.90) y una baja especificidad

(Sp=69/183=0.38), mientras que en las mujeres la especificidad fue superior a la

sensibilidad (Sp=112/145=0.77 frente a Se= 27/47=0.57).

Ahora, estratificamos por género y edad:

Page 38: Estimación de la Sensibilidad y la Especificidad de un

37

Enfermos No enfermos Total

Estimación puntual

[Intervalo de confianza 95%]

Mu

jere

s >

=50

Crs>=90 17 20 37 Riesgo 0.630 0.299 0.394

Crs<90 10 47 57 𝐿𝑅+ 2.109 1.322 3.366

Total 27 67 94 OR 3.995 1.579 10.098

Enfermos No enfermos Total

Estimación puntual

[Intervalo de confianza 95%]

Mu

jere

s <

50

Crs>=90 10 13 23 Riesgo 0.500 0.167 0.235

Crs<90 10 65 75 𝐿𝑅+ 3.000 1.547 5.816

Total 20 78 98 OR 5.000 1.770 14.193

Enfermos No enfermos Total

Estimación puntual

[Intervalo de confianza 95%]

Ho

mb

res

>=

50

Crs>=90 39 66 105 Riesgo 0.929 0.623 0.709

Crs<90 3 40 43 𝐿𝑅+ 1.491 1.258 1.768

Total 42 106 148 OR 7.879 2.416 25.475

Enfermos No enfermos Total

Estimación puntual

[Intervalo de confianza 95%]

Ho

mb

res

<5

0 Crs>=90 7 48 55 Riesgo 0.778 0.623 0.640

Crs<90 2 29 31 𝐿𝑅+ 1.248 0.845 1.843

Total 9 77 86 OR 2.115 0.460 .

Tabla 15. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo

estratificado por género y edad

La tabla 15 muestra que las LRs de alta concentración de Crs (𝐿𝑅+) variaron de 1.25 en

los de hombres jóvenes hasta 3.00 en el caso de las mujeres más jóvenes. Los LRs de

baja concentración Crs (𝐿𝑅−) varió desde 0.19 en hombres mayores a 0.60 en las

mujeres más jóvenes. Hay que tener en cuenta que la 𝐿𝑅− fue similar entre las mujeres

y hombres más jóvenes (0.60 y 0.59), y la especificidad de la Crs fue dos veces mayor en

las mujeres que en los hombres (Se=65/78=0,83 frente a 0.38). Esto se debe a que 𝐿𝑅+

fue mayor en las mujeres más jóvenes que en los hombres más jóvenes (3.00 frente a

1.25), y por lo tanto también el OR del test fue mayor entre las mujeres (5.00 frente a

2.12). Esta diferencia en el OR puede indicar una verdadera diferencia debido a la

interacción entre el género y los resultados de las pruebas, pero también puede ser un

hallazgo casual porque el número de pacientes en cada subgrupo es relativamente

pequeño y los intervalos de confianza de las LRs son anchos.

Este último no sólo implica que las características de la prueba obtenidos en pequeños

subgrupos son menos fiables, sino también que hay una mayor diferenciación en

subgrupos por la enfermedad vascular aterosclerótica. Los métodos de regresión

Page 39: Estimación de la Sensibilidad y la Especificidad de un

38

pueden superar este problema porque el número de factores que se puede considerar

en el análisis de regresión es generalmente mayor que en el análisis de subgrupos.

Utilizaremos la regresión logística para realizar la predicción de la estenosis de la arteria

renal. En primer lugar, el método de regresión logística se aplicará a los datos a priori

del test demostrando que el método reproduce los resultados de los análisis de

subgrupos. Esta comparación con el análisis de subgrupos requiere todos los efectos de

interacción entre las covariables. En el siguiente ejemplo, se calculará las LRs de la

concentración de Crs en todas las variables.

Los intervalos de confianza para las diferencias de los coeficientes de regresión logística

se pueden aproximar analíticamente o mediante la técnica de “bootstrap”. En este

trabajo, se utilizará esta técnica para estimar los intervalos de confianza. Con este fin,

obtendremos 5000 muestras aleatorias de todos los pacientes. Dentro de cada muestra,

se construirán los modelos de regresión logística de las odds a priori y a posteriori. Se

calcularán las diferencias entre los coeficientes de regresión de los 2 modelos de en cada

muestra obtenida. Para cada coeficiente de regresión, se tomará el promedio de las

2000 diferencias y se obtendrá la desviación estándar. Esta desviación estándar es una

estimación del error estándar de la diferencia de los coeficientes de regresión. En la

siguiente tabla aparecen recogidos los modelos de regresión logística la para los LRs de

la alta y baja concentración de Crs condicionado por el género.

Ln(odds anteriores) Ln(odds anteriores) Ln(LR)

B Err Estd

P valor B Err Estd

P valor B Err Estd

P valor

Intercept -2.62 0.53 <0.001 -1.28 0.16 <0.001 -1.35 0.49 <0.001 Genero 0.90 0.58 0.12 0.15 0.23 0.519 0.75 0.52 0.15 Creatinina 1.72 0.56 0.002 1.72 0.55 <0.001 Creatinina*genero

-0.20 0.67 0.771 -0.20 0.65 0.76

Tabla 16. Modelos de regresión logística la para los LRs de la alta y baja concentración

de Crs condicionado por el género

La ecuación de regresión para la LR de la concentración de creatinina sérica es

𝑒−1.34+0.75𝑥1+1.72𝑥𝑘−0.20𝑥1𝑥𝑘, en la que 𝑥1 se refiere al género y 𝑥𝑘 a la concentración de

Crs. Los resultados del análisis de regresión logística coinciden con los calculados a partir

Page 40: Estimación de la Sensibilidad y la Especificidad de un

39

de las tablas 2x2. Por ejemplo, en las mujeres (𝑥1=1), la LR de alta concentración Crs

(𝑥𝑘=1) es 𝑒−1.34+0.75+1.72−0.20= 2.53, y la LR de baja concentración Crs (𝑥𝑘=0) es

𝑒−1.34+0.75= 0.55. Además, se observa que la diferencia en los LR de alta y baja

concentración de Crs entre hombres y mujeres no fue estadísticamente significativa

(P=0.15). La ecuación de regresión de la OR es 𝑒1.72𝑥𝑘−0.20𝑥1𝑥𝑘, que se reduce a

𝑒1.72−0.20𝑥1 porque 𝑥𝑘=1 en el cálculo del OR. La OR de Crs en mujeres es 𝑒1.72−0.20=4.57

y 𝑒1.72= 5,58 en los hombres. Ahora, replicamos el modelo anterior pero añadimos,

también, la variable edad.

Ln(odds anteriores) Ln(odds anteriores) ln(LR)

B Err Estd

P valor B Err Estd

P valor B Err Estd

P valor

Intercept -2.67 0.58 <0.001 -2.15 0.38 <0.001 -0.53 0.53 0.32

genero 0.80 0.69 0.25 0.79 0.46 0.09 0.02 0.59 0.98 Edad 0.08 0.81 0.92 1.22 0.42 <0.001 -1.14 0.76 0.14 Crs 0.75 0.73 0.31 0.75 0.73 0.31 Edad*Genero 0.24 0.98 0.81 -0.77 0.55 0.16 1.01 0.85 0.24 Crs*Genero 0.86 0.94 0.36 0.86 0.94 0.36 Crs*Edad 1.32 0.95 0.17 1.32 0.95 0.16

Genero*Edad*Crs -1.54 1.23 0.21 -1.54 1.23 0.21

Tabla 17. Modelos de regresión logística la para los LRs de la alta y baja concentración

de Crs condicionado por el género y la edad

En la tabla 17, se evaluaron la condición de género (𝑥1) y la edad (𝑥2). Por ejemplo:

Las mujeres (𝑥1=1) con edad menor a los 50 años (𝑥2=0) tienen un LR de la alta

concentración de Crs (𝑥𝑘=1) igual a:

𝑒−0.53+0.02+0.75+0.86 = 3

Las mujeres (𝑥1=1) con edad menor a los 50 años (𝑥2=0) tienen un LR de la baja

concentración de Crs (𝑥𝑘=0) igual a:

𝑒−0.53+0.02 = 0.60

Los hombres (𝑥1=0) con edad mayor o igual a los 50 años (𝑥2=1) tienen un LR de

la alta concentración de Crs (𝑥𝑘=1) igual a:

𝑒−0.53−1.14+0.75+1.32 = 14.6

Page 41: Estimación de la Sensibilidad y la Especificidad de un

40

Los hombres (𝑥1=0) con edad mayor o igual a los 50 años (𝑥2=1) tienen un LR de

la alta concentración de Crs (𝑥𝑘=0) igual a:

𝑒−0.53−1.14 = 0.19

Además, se obtuvieron las estimaciones puntuales de sensibilidad y especificidad para

cada subgrupo:

Las mujeres (𝑥1=1) con edad menor a los 50 años (𝑥2=0) se obtiene una

sensibilidad del 75% y una especificidad del 62.5%.

Las mujeres (𝑥1=1) con edad mayor o igual a los 50 años (𝑥2=0) se obtiene una

sensibilidad del 67.8% y una especificidad del 65.4%

Los hombres (𝑥1=0) con edad menor a los 50 años (𝑥2=0) se obtiene una

sensibilidad del 55.5% y una especificidad del 62.9%.

Los hombres (𝑥1=0) con edad mayor o igual a los 50 años (𝑥2=1) se obtiene una

sensibilidad del 28.6% y una especificidad del 84.1%.

Se puede observar que los resultados obtenidos para las tablas 2x2 coinciden con los

obtenidos en la regresión logística ya que se han metido en el modelo las interacciones

entre las variables. Sin embargo, hay situaciones donde las covariables son abundantes

y la regresión logística nos facilitaría mucho más los cálculos en vez de realizar las tablas

2x2 para cada subgrupo.

3.2. Análisis de los datos referentes al ajuste por covariables del repositorio

DABS, en la dirección: http://labs.fhcrc.org/pepe/dabs/datasets.html.

Este siguiente problema fue planteado por Susan J. Norton et al. (2000), pero vamos a

plantearlo de otra manera. El propósito del ejercicio es comparar tres tests diagnósticos

(TEOAEs, DPOAE y ABR) como herramientas para la identificación de problemas de

audición neonatal. Para ello, se tendrá en cuenta el efecto de las covariables tales como

sexo (niño y niña), oído en el que test es llevado a cabo (derecho e izquierdo) y edad del

neonato (variable continua).

Page 42: Estimación de la Sensibilidad y la Especificidad de un

41

Junto a este trabajo se adjuntan el archivo de datos (Datos 3.2), el archivo de

programación empleado para resolverlo (Program 3.2) y la hoja de Excel utilizada para

los cálculos (Resultados 3.2).

La edad está recogida de forma continua, entonces tomamos el percentil 50 para

dicotomizarla. El percentil 50 de la edad fue 38.28 meses, luego para la edad <38.28 fue

0 y para edad ≥38.28, uno. Además, las variables que recogen los valores de cada test

diagnóstico son continuas y se van a dicotomizar. Para ello, lo vamos a resolver en

relación a dos tipos de puntos de corte para dicotomizar los tests en positivo o negativo:

a) El punto de corte que se obtenga para la suma máxima de la sensibilidad y

especificidad

b) La mediana de los propios tests

Resolvemos primero para la suma máxima.

En primer lugar obtenemos las gráficas representando los puntos de corte de la

sensibilidad y la especificidad para cada test (DPOAE, TEOAEs y ABR). Aunque no es la

forma clásica de presentar la curva de ROC, se ha representado la sensibilidad frente a

la especificidad.

Figura 3. Puntos de corte para la sensibilidad y especificidad del test DPOAE

0.0

00

.25

0.5

00

.75

1.0

0

Se

nsitiv

ity

0.00 0.25 0.50 0.75 1.00Specificity

Area under ROC curve = 0.6306

Page 43: Estimación de la Sensibilidad y la Especificidad de un

42

Figura 4. Puntos de corte para la sensibilidad y especificidad del test TEOAEs

Figura 5. Puntos de corte para la sensibilidad y especificidad del test ABR

Los valores correspondientes fueron:

Para el test DPOAE la suma máxima es Se=36.91% y Sp=81.99%. Punto-corte ≥ -

3.4

Para el test TEOAE la suma máxima es Se=28.86% y Sp=87.86%. Punto-corte ≥ -

5.9

Para el test ABR la suma máxima es Se=35.57% y Sp=84.38%. Punto-corte ≥ -2.7

En relación a estos valores, se dicotomizaron de nuevo los test y se obtuvieron las tablas

2x2:

0.0

00

.25

0.5

00

.75

1.0

0

Se

nsitiv

ity

0.00 0.25 0.50 0.75 1.00Specificity

Area under ROC curve = 0.6006

0.0

00

.25

0.5

00

.75

1.0

0

Se

nsitiv

ity

0.00 0.25 0.50 0.75 1.00Specificity

Area under ROC curve = 0.6081

Page 44: Estimación de la Sensibilidad y la Especificidad de un

43

Test Problemas de audición Total

DPOAE Si No

+ 52 804 856 - 97 4,105 4,202

Total 149 4,909 5,058

TEOAE Si No

+ 42 581 623 - 107 4,328 4,435

Total 149 4,909 5,058

ABR Si No

+ 52 764 816 - 97 4,145 4,242

Total 149 4,909 5,058

Tabla 18. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de

corte=suma máxima de la sensibilidad y especificidad)

Mediante las fórmulas descritas en este trabajo obtenemos los LRs, sensibilidad y

especificidad que se recogen en la siguiente tabla:

DPOAE TEOAE ABR

Estima. Puntual

Interv. Conf. 95%

Estima. Puntual

Interv. Conf. 95%

Estima. Puntual

Interv. Conf. 95%

Se 0.35 0.273 0.431 0.28 0.211 0.361 0.35 0.273 0.431 Sp 0.84 0.834 0.604 0.88 0.872 0.723 0.84 0.836 0.623 LR+ 2.13 1.659 2.664 2.38 1.779 3.102 2.24 1.745 2.805

LR- 0.78 0.680 0.869 0.81 0.724 0.893 0.77 0.674 0.860

Tabla 19. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de

audición (punto ce corte=suma máxima de la sensibilidad y especificidad)

Sin tener en cuenta las covariables, se podría decir que estos test son mejores para

descartar el problema de audición que para diagnosticarlo. Teniendo en cuenta esto, el

mejor test para descartar del diagnóstico es el TEOAE, que es el test más específico.

Ahora, vamos a aplicar el modelo de regresión logística de la forma más sencilla, solo

calcularemos el test a posteriori y sin bootstrap pero en este caso obtendremos también

los odds ratio. Los resultados se presentan a continuación.

Page 45: Estimación de la Sensibilidad y la Especificidad de un

44

B [Interval. Conf. 95%] Odds Ratio [Interval. Conf. 95%] P valor

DPOAE 1.01 0.664 1.355 2.75 1.943 3.878 <0.001 Oído -0.15 -0.481 0.175 0.86 0.618 1.192 0.36 Edad 0.04 -0.288 0.367 1.04 0.750 1.444 0.81 Género 0.04 -0.293 0.368 1.04 0.746 1.445 0.82

Intercept -3.60 -4.349 -2.848 0.03 0.013 0.058 <0.001

TEOAE 1.07 0.703 1.440 2.92 2.020 4.221 <0.001

Oído -0.13 -0.454 0.203 0.88 0.635 1.225 0.45

Edad 0.04 -0.285 0.370 1.04 0.752 1.448 0.80

Género 0.00 -0.331 0.332 1.00 0.719 1.394 1.00

Intercept -3.54 -4.280 -2.792 0.03 0.014 0.061 <0.001

ABR 1.07 0.723 1.415 2.91 2.061 4.115 <0.001

Oído -0.15 -0.478 0.178 0.86 0.620 1.195 0.37 Edad 0.03 -0.302 0.353 1.03 0.739 1.423 0.88

Género 0.04 -0.295 0.366 1.04 0.744 1.442 0.83

Intercept -3.60 -4.351 -2.850 0.03 0.013 0.058 <0.001

Tabla 20. Regresiones logísticas para cada test diagnóstico y el problema de audición

en relación a las covariables (punto ce corte=suma máxima de la sensibilidad y

especificidad)

Para este test, se han tenido en cuenta las variables oído (𝑥1), edad (𝑥2), género (𝑥3) y

el propio test diagnóstico (𝑥𝑘). Supongamos que el test se ha realizado en el oído

izquierdo (𝑥1 = 0) de una niña (𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del

test positivo y negativo son:

Test DPOAE: 𝐿𝑅+ = 𝑒1.01+0.04−3.60 = 0.078 y 𝐿𝑅− = 𝑒0.04−3.60 = 0.028

Test TEOAE: 𝐿𝑅+ = 𝑒1.07+0.04−3.54 = 0.089 y 𝐿𝑅− = 𝑒0.04−3.54 = 0.030

Test ABR: 𝐿𝑅+ = 𝑒1.07+0.04−3.60 = 0.082 y 𝐿𝑅− = 𝑒0.04−3.60 = 0.028

Supongamos, ahora, que el test se ha realizado en el oído derecho (𝑥1 = 1) de una niña

(𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del test positivo y negativo son:

Test DPOAE: 𝐿𝑅+ = 𝑒1.01−0.15+0.04−3.60 = 0.067 y 𝐿𝑅− = 𝑒−0.15+0.04−3.60 =

0.024

Test TEOAE: 𝐿𝑅+ = 𝑒1.07−0.13+0.04−3.54 = 0.078 y 𝐿𝑅− = 𝑒−0.13+0.04−3.54 =

0.027

Page 46: Estimación de la Sensibilidad y la Especificidad de un

45

Test ABR: 𝐿𝑅+ = 𝑒1.07−0.15+0.04−3.60 = 0.070 y 𝐿𝑅− = 𝑒−0.15+0.04−3.60 =

0.024

En ambos casos, el test TEOAE es un poco mejor que el resto. Se puede observar,

además, que no hay mucha diferencia entre las odds ratio de los tres tests, ni entre las

covariables.

Estos valores de los odds ratio y de los LRs se deben a que hemos seleccionado como

punto de corte para los tres tests donde la suma de la especificidad y la sensibilidad es

máxima. Luego es el valor ideal para que el test clasifique de manera equilibrada tanto

a los que tienen la enfermedad como a los que no la tienen.

Vamos ahora a resolver el mismo problema pero tomaremos como punto de corte del

test, la mediana de los mismos. Los valores correspondientes fueron:

Para el test DPOAE la mediana es -7.7

Para el test TEOAE la mediana es -11.9

Para el test ABR la mediana es -3.43

En relación a estos valores, se dicotomizaron de nuevo los test y se obtuvieron las tablas

2x2:

Test Problemas de audición Total

DPOAE Si No

+ 100 2433 2533

- 49 2476 2525

Total 149 4909 5058

TEOAE Si No Total

+ 89 2470 2559

- 60 2439 2499

Total 149 4909 5058

ABR Si No Total

+ 92 2401 2493

- 57 2508 2565

Total 149 4909 5058

Tabla 21. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de

corte=mediana)

Page 47: Estimación de la Sensibilidad y la Especificidad de un

46

A continuación se presentan los LRs, sensibilidad y especificidad:

DPOAE TEOAE ABR

Estima. Puntual

Interv. Conf. 95%

Estima. Puntual

Interv. Conf. 95%

Estima. Puntual

Interv. Conf. 95%

Se 0.67 0.590 0.744 0.60 0.515 0.675 0.62 0.535 0.694 Sp 0.50 0.502 0.507 0.50 0.494 0.499 0.51 0.508 0.513 LR+ 1.35 1.184 1.507 1.19 1.018 1.348 1.26 1.089 1.425

LR- 0.65 0.506 0.817 0.81 0.651 0.981 0.75 0.596 0.914

Tabla 22. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de

audición (punto ce corte=mediana)

Sin tener en cuenta las covariables, se podría decir que estos test son mejores para

diagnosticar el problema de audición que para descartarlo. Teniendo en cuenta esto, el

mejor test para diagnosticar es el DPOAE, que es el test más sensible. Sin embargo, si

comparamos con el punto de corte tomado anteriormente, se observa que los tests se

comportan de manera contraria ya que éstos eran mejor para descartar la enfermedad

(especificidad >80%) y no para diagnosticarla ya que la sensibilidad fue <30%.

Este punto es muy importante ya que nos muestra que variando los puntos del corte

para el test diagnóstico, la sensibilidad y especificidad de éstos varían mucho. Hemos

pasado de tener tests diagnósticos que eran buenos para descartar la enfermedad a

tener test diagnósticos que son mejores para diagnosticar la enfermedad.

Repetimos el modelo de regresión logística que hemos llevado a cabo antes pero en vez

de para el punto de corte como la suma máxima, para la mediana. Los resultados de

presentan a continuación:

Page 48: Estimación de la Sensibilidad y la Especificidad de un

47

B [Interval. Conf. 95%] Odds Ratio [Interval. Conf. 95%] P valor

DPOAE 0.74 0.390 1.083 2.09 1.476 2.955 <0.001 Oído -0.15 -0.479 0.176 0.86 0.620 1.193 0.37 Edad 0.05 -0.276 0.379 1.05 0.759 1.460 0.76 Género 0.06 -0.270 0.390 1.06 0.763 1.477 0.72

Intercept -3.82 -4.601 -3.042 0.02 0.010 0.048 <0.001

TEOAE 0.37 0.041 0.709 1.45 1.042 2.032 0.03

Oído -0.12 -0.443 0.213 0.89 0.642 1.237 0.49

Edad 0.04 -0.287 0.367 1.04 0.750 1.443 0.81

Género 0.04 -0.291 0.369 1.04 0.748 1.446 0.82

Intercept -3.61 -4.385 -2.838 0.03 0.012 0.059 <0.001

ABR 0.52 0.187 0.858 1.69 1.206 2.357 <0.001

Oído -0.14 -0.471 0.183 0.87 0.624 1.201 0.39 Edad 0.01 -0.320 0.333 1.01 0.726 1.395 0.97

Género 0.05 -0.280 0.379 1.05 0.756 1.461 0.77

Intercept -3.65 -4.418 -2.886 0.03 0.012 0.056 <0.001

Tabla 23. Regresiones logísticas para cada test diagnóstico y el problema de audición

en relación a las covariables (punto ce corte=mediana)

Para comparar con los puntos de corte antes obtenidos vamos a obtener los LRs para las

mismas situaciones. Supongamos que el test se ha realizado en el oído izquierdo (𝑥1 =

0) de una niña (𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del test positivo y

negativo son:

Test DPOAE: 𝐿𝑅+ = 𝑒0.74+0.05−3.82 = 0.048 y 𝐿𝑅− = 𝑒0.05−3.82 = 0.023

Test TEOAE: 𝐿𝑅+ = 𝑒0.37+0.04−3.61 = 0.041 y 𝐿𝑅− = 𝑒0.04−3.61 = 0.028

Test ABR: 𝐿𝑅+ = 𝑒0.52+0.01−3.65 = 0.046 y 𝐿𝑅− = 𝑒0.01−3.65 = 0.027

Supongamos, ahora, que el test se ha realizado en el oído derecho (𝑥1 = 1) de una niña

(𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del test positivo y negativo son:

Test DPOAE: 𝐿𝑅+ = 𝑒0.74−0.15+0.05−3.82 = 0.041 y 𝐿𝑅− = 𝑒−0.15+0.05−3.82 =

0.020

Test TEOAE: 𝐿𝑅+ = 𝑒0.37−0.12+0.04−3.61 = 0.036 y 𝐿𝑅− = 𝑒−0.12+0.04−3.61 =

0.025

Test ABR: 𝐿𝑅+ = 𝑒0.52−0.14+0.01−3.65 = 0.038 y 𝐿𝑅− = 𝑒−0.14+0.01−3.65 =

0.023

Page 49: Estimación de la Sensibilidad y la Especificidad de un

48

Comparando con los valores obtenidos anteriormente para la suma máxima de la

sensibilidad y especificidad se puede observar que los LR positivos son mayores para los

anteriores puntos de corte pero los LR negativos son más altos para estos puntos de

corte (la mediana). Además, se puede observar que las odds ratio obtenidas para los

test TEOAE y ABR son muchos más bajos para estos últimos cálculos, sin embargo, las

odds del resto de covariables son muy similares entre ambos métodos tomados para los

puntos de corte.

Se podría concluir, por tanto, que la mejor opción es tomar el punto de corte como la

suma máxima de sensibilidad y especificidad. Y bajo esas condiciones, el test TEOAE es

el más preciso de todos.

Entonces, se podría decir que los distintos puntos de corte empleados varían mucho la

sensibilidad, especificidad y los LRs y no tanto los valores correspondientes a las

covariables. Por tanto, cuando se vaya a dicotomizar un test se debe tener en cuenta

que se quiere estudiar de éste para establecer el punto de corte correcto.

3.3. Ejemplo de la tira reactiva (TR) propuesto por Cristina la Torre et al.

(2001)

La TR que se utiliza como primera prueba para la determinación de la infección urinaria

se quiere comparar con el “gold standard” que es el urocultivo. Pero se sospecha que

no se comporta de la misma manera en pacientes pediátricos que en pacientes adultos.

Por ello, se desea conocer la sensibilidad y la especificidad de la prueba en relación a la

edad del paciente (niño frente a adulto).

En este trabajo se adjuntan el archivo de datos (Datos 3.3), el archivo de programación

empleado para resolverlo (Program 3.3) y la hoja de Excel utilizada para los cálculos

(Resultados 3.3).

En esta primera tabla 2x2 se presentan los datos del problema sin estratificar por edad,

así como los resultados para la sensibilidad, especificidad y LRs.

Page 50: Estimación de la Sensibilidad y la Especificidad de un

49

Enfermedad si Enfermedad no Total

TR+ 86 433 519 TR- 20 548 568

Total 106 981 1087

Estimación puntual [Intervalo de confianza 95%]

Riesgo 0.811 0.441 0.477 LR+ 1.838 1.637 2.064 Odds ratio 5.442 3.307 8.954 Sensibilidad 0.811 0.725 0.877 Especificidad 0.559 0.549 0.566 LR- 0.338 0.217 0.500

Tabla 24. LRs, sensibilidad y especificidad para el test diagnóstico de la TR sin

estratificar por covariables

En esta tabla se observa que la prueba es mucho más sensible (81.1%) que específica

(55.9%), luego este test es mejor para diagnosticar la enfermedad que para descartarla.

Además, como el odds ratio es mayor que 1, sabemos que el test discrimina

correctamente. A continuación, se presenta la misma tabla pero estratificando por edad.

Niños Adultos

Enfermedad si

Enfermedad no Total

Enfermedad si

Enfermedad no Total

TR+ 57 211 268 29 222 251 TR- 17 262 279 3 286 289

Total 74 473 547 32 508 540

Estimación puntual

[Intervalo de confianza 95%]

Estimación puntual

[Intervalo de confianza 95%]

Riesgo 0.770 0.446 0.490 0.906 0.437 0.465 LR+ 1.727 1.472 2.026 2.074 1.787 2.407 Odds ratio 4.163 2.365 7.324 12.453 3.975 38.903 Sensibilidad 0.770 0.663 0.854 0.906 0.743 0.975 Especificidad 0.554 0.537 0.567 0.563 0.553 0.567 LR- 0.415 0.257 0.628 0.167 0.043 0.465

Tabla 25. LRs, sensibilidad y especificidad para el test diagnóstico de la TR

estratificando por edad

Estratificando por edad, se puede observar que el test se comparta de distinta forma ya

que para los adultos el test es mucho más sensible que para los niños (90.6% frente a

77%). Luego, el test de TR es mejor para diagnosticar la enfermedad entre los pacientes

adultos que entre los pacientes pediátricos. En relación a la especificidad no se observan

Page 51: Estimación de la Sensibilidad y la Especificidad de un

50

tanta diferencia (0.009 entre ambas poblaciones), luego se podría decir que el test

descarta el diagnóstico casi con la misma precisión tanto en adultos como en niños. El

odds ratio para los adultos es 12.5 frente al 4.2 en niños, luego el test discrimina mucho

más en la población adulta.

Vamos a repetir este proceso mediante la regresión logística. Para ello, al igual que el

problema planteado en la sección 3.1, utilizaremos la técnica del bootstrap para estimar

los intervalos de confianza, obteniendo 5000 muestras aleatorias de todos los pacientes.

Dentro de cada muestra, se construirán los modelos de regresión logística de las odds a

priori y a posteriori y se calcularán las diferencias entre los coeficientes de regresión de

los 2 modelos de en cada muestra obtenida. Para cada coeficiente de regresión, se

tomará el promedio de las 2000 diferencias y se obtendrá la desviación estándar. Esta

desviación estándar es una estimación del error estándar de la diferencia de los

coeficientes de regresión. En la siguiente tabla aparecen recogidos los modelos de

regresión logística la para los LRs condicionado por la edad.

Ln(odds anteriores) Ln(odds anteriores) Ln(LR)

B Err Estd P valor B Err Estd P valor B Err Estd P valor

Intercept -2.74 0.26 <0.001 -1.855 0.126 <0.001 -0.88 0.23 <0.001 Edad -1.82 0.62 0.003 -0.910 0.225 <0.001 -0.91 0.59 0.121 TR 1.43 0.30 <0.001 1.43 0.30 <0.001 TR#Edad 1.10 0.67 0.103 1.10 0.67 0.103

Tabla 26. Modelos de regresión logística la para los LRs condicionado por la edad

La ecuación de regresión para la LR de TR es 𝑒−0.88−0.91𝑥1+1.43𝑥𝑘+1.1𝑥1𝑥𝑘, en la que 𝑥1 se

refiere a la edad y 𝑥𝑘 al test de la TR. Los resultados del análisis de regresión logística

coinciden con los calculados a partir de las tablas 2x2. Por ejemplo, en los niños (𝑥1=0)

con TR+ (𝑥𝑘=1), el LR es 𝑒−0.88+1.43= 1.73, y la LR pata TR- (𝑥𝑘=0) es 𝑒−0.88= 0.42. En los

adultos (𝑥1=1) con TR+ (𝑥𝑘=1), el LR es 𝑒−0.88−0.91+1.43+1.1= 2.1, y la LR pata TR- (𝑥𝑘=0)

es 𝑒−0.88−0.91= 0.17.

Además, se observa que la diferencia en los LR de la TR entre adultos y niños no fue

estadísticamente significativa (P=0.12). La ecuación de regresión de la OR es

𝑒1.43𝑥𝑘+1.1𝑥1𝑥𝑘, que se reduce a 𝑒1.43+1.1𝑥1 porque 𝑥𝑘=1 en el cálculo del OR. La OR de

TR en niños es 𝑒1.43=4.2 y 𝑒1.43+1.1= 12.5 en los adultos.

Page 52: Estimación de la Sensibilidad y la Especificidad de un

51

4. Figuras

Figura 1. Valores Predictivos de un test para diferentes prevalencias, con Se=0,85 y

Sp=0,95

Figura 2. Valores Predictivos de un test para diferentes prevalencias, con las respectivas

ganancias, con Se=0,85 y Sp=0,95

Figura 3. Puntos de corte para la sensibilidad y especificidad del test DPOAE

Figura 4. Puntos de corte para la sensibilidad y especificidad del test TEOAEs

Figura 5. Puntos de corte para la sensibilidad y especificidad del test ABR

Page 53: Estimación de la Sensibilidad y la Especificidad de un

52

5. Tablas

Tabla 1. Frecuencias observadas al aplicar un test binario a dos muestras, una de

enfermos y otro de sanos

Tabla 2. Algunos factores que pueden afectar un test binario de dos muestras

Tabla 3. Datos del problema expuesto por Cristina la Torre et al. (2001) para niños y

para adultos

Tabla 4. Resultados de la sensibilidad y especificidad del problema expuesto por

Cristina la Torre et al. (2001) para cada población

Tabla 5. Datos del problema expuesto por Cristina la Torre et al. (2001) para ambas

poblaciones combinadas

Tabla 6. Resultados de la sensibilidad y especificidad del problema expuesto por

Cristina la Torre et al. (2001) para cada la combinación de ambas poblaciones

Tabla 7. Fórmulas para los LR, odds ratio, sensibilidad y especificidad para un test

diagnóstico binario

Tabla 8. Ejemplos de modelos de regresión logística convencional y reformulado

Tabla 9. Tabla de contingencia general para la sensibilidad, especificidad y valores

predictivos de una prueba de detección

Tabla 10. Tabla de contingencia general para la sensibilidad relativa de una prueba de

detección (los valores entre paréntesis son desconocidos)

Tabla 11. Valores agrupados para el problema propuesto Janssens et al. (2005)

Tabla 12. Datos del problema sin tener en cuenta las características propias de los

sujetos propuesto por Janssens et al. (2005)

Tabla 13. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo

Page 54: Estimación de la Sensibilidad y la Especificidad de un

53

Tabla 14. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo

estratificado por género

Tabla 15. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo

estratificado por género y edad

Tabla 16. Modelos de regresión logística la para los LRs de la alta y baja concentración

de Crs condicionado por el género

Tabla 17. Modelos de regresión logística la para los LRs de la alta y baja concentración

de Crs condicionado por el género y la edad

Tabla 18. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de

corte=suma máxima de la sensibilidad y especificidad)

Tabla 19. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de

audición (punto de corte=suma máxima de la sensibilidad y especificidad)

Tabla 20. Regresiones logísticas para cada test diagnóstico y el problema de audición

en relación a las covariables (punto ce corte=suma máxima de la sensibilidad y

especificidad)

Tabla 21. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de

corte=mediana)

Tabla 22. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de

audición (punto ce corte=mediana)

Tabla 23. Regresiones logísticas para cada test diagnóstico y el problema de audición

en relación a las covariables (punto ce corte=mediana)

Tabla 24. LRs, sensibilidad y especificidad para el test diagnóstico de la TR sin

estratificar por covariables

Tabla 25. LRs, sensibilidad y especificidad para el test diagnóstico de la TR

estratificando por edad

Page 55: Estimación de la Sensibilidad y la Especificidad de un

54

Tabla 26. Modelos de regresión logística la para los LRs condicionado por la edad

Page 56: Estimación de la Sensibilidad y la Especificidad de un

55

6. Bibliografía

Afifi AA, Clark V (1984) Computer-aided Multivariate Analysis. Belmont, CA: Lifetime

Learning Publications.

Ahnve S, Gilpin E, Henning H et al. (1986) Limitations and advantages of ejection

fraction for defining high risk after acute myocardial infarction. Am J Cardiol, 58:872-

817.

Apuntes de la asignatura Bioestadística del Máster de Estadística Aplicada de la

Universidad de Granada. (n.d) [Acceso 1 Febrero de 2013]

A. Cecile J.W. Janssens, Yazhong Deng, Gerard J.J.M. Borsboom, Marinus J.C. Eijkemans,

J. Dik. F. Habbema, Ewout W. Steyerberg (2005) A new logistic regression approach for

the evaluation of diagnostic test results. Medical Decision Making, 25:168.

Breslow NE, Day NE (1983) The Analysis of Case-Control Studies. Statistical Methods in

Cancer Research (Lyon: International Agency for Research on Cancer), 1.

Cristina Latorre, Manuela Noguero, Aurea Mira (2001) Evaluación de la tira reactiva

para el diagnóstico de infección urinaria en niños y adultos. Medicina Clínica

(Barcelona), 116:286-289.

George A. Diamond (1992) Clinical epidemiology of sensitivity and specificity. Journal

of Clinical Epidemiology, 45(1):9-13.

Halperin M, Blackwelder WC, Verter JI (1971) Estimation of the multivariate logistic risk

function: a comparison of the discriminant function and maximum likelihood

approaches. J Chron Dis, 24:125-158.

Hermann Brenner, Olaf Gefeller (1997) Variation of sensitivity, specificity, likelihood

ratios and predictive values with disease prevalence. Statistics in Medicine, 16:981-

991.

Page 57: Estimación de la Sensibilidad y la Especificidad de un

56

Hlatky MA, Pryor DB, Harrell FE Jr et al. (1984) Factors affecting sensitivity and

specificity of exercise electro-cardiography. Multivariable analysis. American Journal

of Medicine,71:6411.

Kleinbaum DG, Kupper LL, Morgenstern H (1982) Epidemiologic Research: Principles

and Quantitative Methods. Belmont, CA: Lifetime Learning Publications.

Margaret Sullivan Pepe (2004) Statistical Evaluation of Medical Tests for Classification

and Prediction. Oxford Statistical Science Series.

Sackett DL, Haynes RB, Tugwell P (1985) Clinical Epidemiology: A Basic Science for

Clinical Medicine. Boston: Little, Brown.

Schatzkin A, Connor RJ, Taylor PR et al. (1987) Comparing new and old screening tests

when a reference procedure cannot be performed on all screenees. American Journal

of Epidemioly, 125: 672-678.

Schlesselman JJ (1982) Case-Control Studies. Design, Conduct, Analysis. New York:

Oxford University.

Steven S. Coughlin, Bruce Trock, Michael H. Criqui, Linda W. Pickle, Deirdre Browner,

Mariella C. Tefft (1992) The logistic modelling of sensitivity, specificity and predictive

value of a diagnostic test. Journal of Clinical Epidemiology, 45(1):1-7.

Page 58: Estimación de la Sensibilidad y la Especificidad de un

57

7. Apéndice

Se adjuntan junto a este trabajo los siguientes archivos digitales:

Datos 3.1.dta

Resultados 3.1.xls

Program 3.1.do

Datos 3.2.dta

Resultados 3.2.xls

Program 3.2.do

Datos 3.3.dta

Resultados 3.3.xls

Program 3.3.do

En Datos 3.1 está recogido la base de datos del problema.

En Resultados 3.1.xls están recogidos todos los cálculos referentes al primer problema

propuesto en este trabajo y las tablas de salida del programa STATA.

En Program 3.1.do se encuentran los comandos ejecutados para resolver el primer

problema propuesto en este trabajo. Se expone a continuación.

En Datos 3.2 está recogido la base de datos del problema.

En Resultados 3.2.xls están recogidos todos los cálculos referentes al segundo problema

propuesto en este trabajo y las tablas de salida del programa STATA.

En Program 3.2.do se encuentran los comandos ejecutados para resolver el segundo

problema propuesto en este trabajo. Se expone a continuación.

En Datos 3.3 está recogido la base de datos del problema.

En Resultados 3.3.xls están recogidos todos los cálculos referentes al tercer problema

propuesto en este trabajo y las tablas de salida del programa STATA.

Page 59: Estimación de la Sensibilidad y la Especificidad de un

58

En Program 3.3.do se encuentran los comandos ejecutados para resolver el tercer

problema propuesto en este trabajo. Se expone a continuación.

Program 3.1

***************************************************** ********generación de los datos de Janssens_2005 individuales * ********a partir de una tabla de frecuencias que está en Excel* ***************************************************** odbc load, dsn("Excel Files") table("Hoja1$") dialog(complete) clear foreach var of varlist sexo edad creatinina { encode `var', gen(`var'n) order `var'n , after(`var') drop `var' rename `var'n `var' } label define enfermedad 0 "no-enfermo" 1 "enfermo", replace label val enfermedad enfermedad expand frec di _N tab enfermedad save "E:\Edurne\Master en estadística aplicada\TFM\tfm_edurne\Datos\data_janssens_2005.dta", replace *********************************** **************Creamos la tabla 2x2 *** *********************************** csi 73 147 25 181,or ************************************ ***********Obtenemos las correlaciones* ************************************ pwcorr sexo edad creatinina, sig ********************************* ****tablas 2x2 estratificando por sexo* **** y por sexo y edad*************** ********************************** ****Mujeres**** csi 27 33 20 112,or ****Hombres**** csi 46 114 5 69,or

Page 60: Estimación de la Sensibilidad y la Especificidad de un

59

****Mujeres con edad >=50**** csi 17 20 10 47,or ****Mujeres con edad <50**** csi 10 13 10 65,or ****Hombres con edad >=50**** csi 39 66 3 40,or ****Hombres con edad <50**** csi 7 48 2 29,or ****************************************** **Regresiones logísticas para el modelo a priori*** **y a posteriori sin tener en cuenta la edad****** ****************************************** ****Modelo a posteriori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados.dta, replace) seed(1) nodots : logit dependiente crea##genero ****Modelo a priori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados1.dta, replace) Seed(1) nodots : logit dependiente genero ******Unimos los dos archivos generados por el bootstrap (resultados y resultados1). Obtenemos los errores estándar del modelo ln(LR)** merge 1:1 pop using "C:\Users\Usuario\Desktop\resultados1.dta", nogenerate generate b_genero= dependiente_b_genero-b_ge_1 generate b_cons= dependiente_b_cons- b_cons_1 summarize *********************************************** **Regresiones logísticas para el modelo a priori******** **y a posteriori teniendo en cuenta todas las covaribles** ************************************************ ****Modelo a posteriori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados2.dta, replace) seed(1) nodots : logit dependiente genero##age crea##genero crea##age crea##age##genero ****Modelo a priori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados2.dta, replace) seed(1) nodots : logit dependiente genero##age

Page 61: Estimación de la Sensibilidad y la Especificidad de un

60

******Unimos los dos archivos generados por el bootstrap (resultados2 y resultados3). Obtenemos los errores estándar del modelo ln(LR)** merge 1:1 pop using "C:\Users\Usuario\Desktop\resultados3.dta", nogenerate generate b_genero= dependiente_b_genero-b_ge_1 generate b_age= dependiente_b_age-b_age_1 generate b_gedad=dependiente_b_age-b_age_1 generate b_cons= dependiente_b_cons- b_cons_1 summarize

Program 3.2 ********************************* *****Sensibilidad y especificidad para* ************cada cutpoint********* ******************************** roctab d y1, detail graph specificity summary roctab d y2, detail graph specificity summary roctab d y3, detail graph specificity summary *************************************** *******Para cada punto de corte obtenido**** *****construimos los tests dicotomizados**** *************************************** generate y11=1 if y1>=-3.4 replace y11=0 if y11==. generate y22=1 if y2>=-5.9 replace y22=0 if y22==. generate y33=1 if y3>=-2.7 replace y33=0 if y33==. ***************************************** ***Obtenemos las tablas 2x2 para cada test***** ***************************************** tabulate y11 d tabulate y22 d tabulate y33 d

Page 62: Estimación de la Sensibilidad y la Especificidad de un

61

************************************************* **Regresiones logísticas para el modelo a*************** *********posteriori en relación a las covariables********* *****para los test cuyo punto de corte es la suma maxima * *************** ********************************** logit d y11 ear edad gender logit d y11 ear edad gender, or logit d y22 ear edad gender logit d y22 ear edad gender,or logit d y33 ear edad gender logit d y33 ear edad gender, or ********************************************* ******Obtenemos la mediana de cada test********** ********************************************* generate y111=1 if y1>=-7.7 replace y111=0 if y111==. generate y222=1 if y2>=-11.9 replace y222=0 if y222==. generate y333=1 if y3>=-3.43 replace y333=0 if y333==. ***************************************** ***Obtenemos las tablas 2x2 para cada test***** ***************************************** tabulate y111 d tabulate y222 d tabulate y333 d ***************************************** **Regresiones logísticas para el modelo a******* *********posteriori en relación a las covariables* **para los test cuyo punto de corte es la mediana* ****************************************** logit d y111 ear edad gender logit d y111 ear edad gender, or logit d y222 ear edad gender logit d y222 ear edad gender,or logit d y333 ear edad gender logit d y333 ear edad gender, or

Page 63: Estimación de la Sensibilidad y la Especificidad de un

62

Program 3.3 ********************************************* ********generación de los datos de TR individuales * ********************************************* expand frec di _N tab Enf save "E:\Edurne\Master en estadística aplicada\TFM\tfm_edurne\Datos\TR.dta", replace *********************************** **************Creamos la tabla 2x2 *** *********************************** csi 86 433 20 548,or *************************************** ***********Obtenemos la correlaciones* *************************************** pwcorr Edad TR, sig **************************************** ****tablas 2x2 estratificando por sexo* **** y por sexo y edad****************** ***************************************** ****Niños**** csi 57 211 17 262,or ****Adultos**** csi 29 222 3 286,or *************************************************** **Regresiones logísticas para el modelo a priori*** **y a posteriori sin tener en cuenta la edad*** ************************************************** ****Modelo a posteriori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\TREdad.dta, replace) seed(1) nodots : logit Enf TR##Edad ****Modelo a priori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\Edad.dta, replace) seed(1) nodots : logit Enf Edad

Page 64: Estimación de la Sensibilidad y la Especificidad de un

63

******Unimos los dos archivos generados por el bootstrap (resultados y resultados1). Obtenemos los errores estándar del modelo ln(LR)** merge 1:1 pop using "C:\Users\Usuario\Desktop\Edad.dta", nogenerate generate dif_edad= b_edad_p-b_edad_a generate dif_cons= b_cons_p- b_cons_a summarize