Upload
uchpuc
View
40
Download
8
Tags:
Embed Size (px)
Citation preview
1
Curso teórico práctico
Introducción a la BioestadísticaTécnicas Multivariantes en Biomedicinacon el Programa de Análisis Estadísticos G-Stat 2.0
Alejandro Pedromingo MarinoBiometría GSKTres Cantos, Madrid www.e-biometria.com
Ver 12
2
6D1_90
Clasificación práctica de las técnicas estadísticas
6D1_90
Estima
ESTIMACIÓN
Poblaciones
Decide
C.HIPÓTESIS
Conocimiento
Muestras
ProcesaResume
DESCRIPTIVA
ejemplo
3
63 enfermos tomaron parte en un estudio cruzado para determinar la eficacia de 2 tratamientos: A y B.Al término del estudio señalaron su preferencia por uno de ellos.
31 prefieren A
15 prefieren B
17 no muestran preferencia
Ejemplo
Resultados
Clasificación de la Estadística
Descr_estim
4
Población
El verdadero valor de la diferencia A-B en la población estará comprendido en el IC
[ 9.2% A-B 41.2% ]
Estimación
Diferentes tipos de técnicas estadísticas (I)
49.2 %
23.8%
26.9%
A-B = 25.4 %
Muestra
A
B
A B
Descriptiva
CH- mod
5
Explicación / Predicción
Si el sujeto es mujer y la gravedad es moderada la preferencia de A sobre B es solo un 12%
Modelización
Diferentes tipos de técnicas estadísticas (y II)
Existe evidencia de que A es más preferido que B
(McNemar; p=0.0183)
ConocimientoC. Hipótesis
Contenido
6
Contenido del curso
I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables
II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico
IV- Pruebas estadísticast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher
V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados
VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia
III- EstimaciónConcepto de estimaciónError estandarIntervalos de confianza
G-stat
7
Módulo I : G-Stat 2.0 / Manejo de Datos
G-Stat 2.0
� Características� Instalación y contenido del CD-ROM� Pantalla de trabajo (BdD) y Menús
Manejo de datos� Fichero de ejemplo� Importar datos� Transformación de variables� Recodificación y filtrado de variables
Caracteristicas
8
Características
� SW Libre distribución� Enfocado en Bio-Ciencias� Actualizable
� Menús con orden� Multi S.O.� No programación� Usuarios no profesionales de la estadística� Desarrollado por Biometría-GSK
G-Stat 2.0
instalacion
9
Instalación:1. Leer las condiciones de licencia2. Doble clic en install3. Doble clic en la opción del sistema operativo en la ventana que aparece4. Seguir instrucciones de instalación5. Observar que hay una versión PDF del manual
G-Stat 2.0
Instalación y contenido del CD
Pantallas y menus
10
G-Stat 2.0
Pantalla de trabajo y Menús
Fichero integrado
11
Manejo de datos
Fichero integrado
Importar
Iconos
Variables
Casos
12
Bases de Datos EXCEL ASCII SW ESTADÍSTICO
Texto delimitado por tabulaciones
Manejo de datos
Importar datos
Abrir Manejo de datos1.txt
13
Variables del fichero Manejo de datos1.txt
EDAD: (edad en años del paciente)
SEXO: 1_Hombre, 2_Mujer
PESO: en Kg.
TALLA: en cm.
TAS: en mmHg.
TAD: en mmHg.
DIABETES: No, Tipo 1, Tipo 2
Manejo de datos
Abrir Archivo
Fichero: Manejo de datos1.txt Trtans , Recod, filtrar
14
Ejemplos:
DT=TAS-TADLog_peso=ln(Peso)IMC=Peso/altura^2
Manejo de datos
Transformación de variables
Transformación
Manejo de datos1.txt recodificacion
15
Recodificar BdD Recodificada
Manejo de datos
Recodificación
Fichero: Manejo de datos1.txt filtro
16
Filtrar BdD Filtrada
Manejo de datos
Filtrado
Fichero: Manejo de datos1.txt Analisis en 1 min
17
Manejo de datos Cómo realizar un análisis estadístico en menos de 1’
No programación
No hay sesiones
Sí hay que guardar resultados
Sí hay que guardar datos
fin
18
Contenido del curso
I- G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables
II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico
IV- Pruebas estadísticast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher
V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados
VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia
III- EstimaciónConcepto de estimaciónError estandarIntervalos de confianza
19
Definición y Bases de Datos
Tipos de variables
Descriptiva uni y bivariante, análisis estratificado
Gráficos
Ajuste a la normal
Medidas de efecto en Epidemiología y Diagnóstico
Validación de los datos
Módulo II Descriptiva
definiciones
20
Algunas definiciones básicas
PoblaciónMuestraMuestra representativa o aleatoriaCaso, sujeto, unidad, registro
Características / Variablesfactores campos
respuesta / explicativaprincipal, secundariascovariablesdemográficasgestiónficticias
Base de datos
definición
21
índices, medidas, estadísticos
Resumir, describir, sintetizar … la muestra
Descriptiva
Objetivo de la Estadística Descriptiva
obtenidos a partir de la muestra
publicación
22
Ejemplo de publicación
estudio migraña
23
Descriptiva
Estudio de Migraña
Se desea hacer un análisis descriptivo de una muestra de 259 migrañosos. Se han recogido datos relacionados con su enfermedad.
Definicion variables
Variables
Centro Centro1, Centro2…
Sexo: Mujer, Hombre
Edad Años
Intensidad: 1 Leve, 2 Moderada, 3 Severa
Duración: 1 (4-12h), 2 (12-24h), 3 (24-48h), 4 (>48h)
Localización: 1 Hemicraneal, 2 Holocraneal
Productividad: Pérdida de horas laborables /año
FBG: Fibrinógeno sérico
Leucocitos: Recuento
24
Descriptiva
Datos Estudio MigrañaCENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 100.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .
Los estadísticos dependen …
25
¡ Los Estadísticos descriptivos que se emplean
dependen del tipo de variable !
Descriptiva
26
Ordinales
Cualitativas (a,b,c)
Cuantitativas (x,y,z)
Centro, Tratamiento
Temperatura, Edad, Col.
Dicotómicas o Binarias Sexo, Curación
¡ Las pruebas estadísticas dependen del tipo de variable !
Descriptiva
Clasificación de Variables
Descriptiva
EstimaciónContrate
Mejoría, Gravedad
27
Núm. Var.
Var. Respuesta
Var. Explicativa
Datos en la Muestra
Tipo de Técnica Técnica Menú
1 C Indep. Param. t-Student para una muestra Análisis / Cuantitativa (y) / t-Student1 C Indep. Param. Chi-2 para una desviación típica Análisis / Cuantitativa (y) / Chi-2 para una desviación típica1 C Indep. Param. Chi-2 bondad de ajuste Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Kolmogorov Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Kolmogorov-Lilliefors Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Shapiro-Wilk Análisis / Cuantitativa (y) / Ajuste1 D Indep. No Par. z para una muestra Análisis / Cualitativa (a) / Una Proporción1 O Indep. No Par. Signos para una muestra Análisis / Cuantitativa (y) / Signos1 O Indep. No Par. Wilcoxon para una muestra Análisis / Cuantitativa (y) / Rangos Signados1 Cens. Indep. No Par. Kaplan-Meier Multivariante / Regresión de Cox (xz|y cens)2 C C Indep. Param. Regresión lineal simple Análisis / x|y / Regresión Lineal Simple2 C C Indep. Param. Regresión lineal simple con transformaciones Análisis / x|y / Modelos Transformados2 C C Indep. Param. Regresión polinómica Análisis / x|y / Regresión Polinómica2 C D Indep. Param. t-Student para dos muestras independientes Análisis / Dos grupos (b|y) / t-Student2 C D Indep. Param. F-Snedecor para dos desviaciones típicas Análisis / Dos grupos (b|y) / F-Snedecor2 C D Paread. Param. t-Student para dos muestras pareadas Análisis / Dos grupos (b|y) / t-Student. Pareados2 C N Indep. Param. ANOVA 1 factor Anova / Un Factor (a|y)2 C N Paread. Param. ANOVA 1 factor con bloques Anova / Un Factor con Bloques (a bloque|y)2 C N Paread. No Par. Friedman Anova / Friedman (a bloque|y)2 D C Indep. No Par. Regresión logística simple Multivariante / Regresión Logística (xz|b)2 D D Indep. No Par. ROC Análisis / Diagnóstico (b|b) / ROC (y|b)2 D D Indep. No Par. Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado2 D D Indep. No Par. z Análisis / Tablas (a,b) / Dos proporciones. Datos agrupados2 D D Indep. No Par. Fisher Análisis / Tablas (a,b) / Fisher2 D D Indep. No Par. OR, RR Análisis / Epidemiología (b|b) / Tablas2 D D Indep. No Par. Diagnóstico Análisis / Diagnóstico (b|b) / Tablas2 D D Paread. No Par. McNemar Análisis / Tablas (a,b) / McNemar2 D N Indep. No Par. Metha-Patel No disponible2 D O Indep. No Par. Chi-2 de tendencia lineal Análisis / Tablas (a,b) / Chi-Cuadrado tendencia lineal (y|b)2 N C Indep. Param. Análisis discriminante No disponible2 N D Indep. No Par. z / Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado2 O D Indep. No Par. Mann-Whitney / Wilcoxon para dos muestras independientes Análisis / Dos grupos (b|y) / Mann-Whitney (Wilcoxon)2 O D Paread. No Par. Signos para dos muestras pareadas Análisis / Dos grupos (b|y) / Signos. Pareados2 O D Paread. No Par. Wilcoxon para dos muestras pareadas Análisis / Dos grupos (b|y) / Wilcoxon. Pareados2 O N Indep. No Par. Kruskal-Wallis Anova / Kruskal-Wallis (a|y)2 O O Indep. No Par. Jonckheere-Tersptra No disponible2 Cens. C Indep. No Par. Regresión de Cox simple Multivariante / Regresión de Cox (xz|y cens)2 Cens. D Indep. No Par. Log-Rank Análisis / Dos grupos (b|y cens) / Log-Rank3 C C,D Indep. Param. ANACOVA Anova / Anacova (ax|y)3 C N,N Indep. Param. ANOVA dos factores Anova / Anova Dos Factores (ab|y)≥3 C C,D Indep. Param. Regresión lineal múltiple Multivariante / Regresión Múltiple (xz|y)≥3 D C,D Indep. No Par. Regresión logística múltiple Multivariante / Regresión Logística (xz|b)≥3 D N,D Indep. No Par. Mantel-Haenszel Análisis / Epidemiología (b|b) / Mantel-Haenszel≥3 N C,D Indep. Param. Análisis discriminante múltiple No disponible≥3 O C,D Indep. No Par. Regresión "Odds proportional" múltiple No disponible≥3 Cens. C,D Indep. No Par. Regresión de Cox múltiple Multivariante / Regresión de Cox (xz|y cens)≥3 C,C N Indep. Param. MANOVA No disponible≥4 C,C N,C Indep. Param. MANACOVA No disponible2 C,C Indep. Param. r de Pearson Análisis / x|y / Regresión Lineal Simple2 C,C Indep. No Par. Rho de Spearman Análisis / x|y / Regresión Lineal Simple
Resumen de utilización de las 50 principales técnicas estadísticas
¡ Las pruebas Estadísticas dependen del tipo de variable !
QA
28
CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 100.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .
Estudio Migraña¿De qué tipo son las variables del estudio?
Fichero: Migranna1.txt
29
Descriptiva univariante variables Cualitativas (a)Frecuencias y Barras
Frecuencias==============================================Número de Casos: 259
INTENSIDAD Frecuencias Porcentajes -------------------------------------------Leve 22 8.49 Moderada 149 57.53 Severa 88 33.98
-------------------------------------------Total 259 100.00
SEXO Frecuencias Porcentajes --------------------------------------Hombre 81 31.52 Mujer 176 68.48
--------------------------------------Total 257 100.00
Moda: nivel observado más frecuente
Fichero: Migranna1.txt Descriptiva / Cualitativas (a)(b) Bivariantes , cruces
30
Descriptiva bivarianteCruces o Tablas de dos variables cualitativas (a|b)
¿Cómo se distribuye la Intensidad de la migraña en los dos Sexos?
Fichero: Migranna1.txt
( SEXO | INTENSIDAD )
¡Hablar de los modelos !
Descriptiva / Tablas (a|b) / Tablas
31
Descriptiva bivarianteCruces o Tablas de frecuencias (a|b)
¿ En qué sexo se produce una mayor frecuencia de migrañas Leves?
Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)================================================================================
Número de Casos: 257
INTENSIDAD | Leve | Moderada | Severa | Total SEXO | | | | Fila
-------------------------------------------------------------------------| 11 | 54 | 16 | 81
Hombre | 4.28 | 21.01 | 6.23 | 31.52 -------------------------------------------------------------------------
| 11 | 94 | 71 | 176 Mujer | 4.28 | 36.58 | 27.63 | 68.48
-------------------------------------------------------------------------Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00
Los porcentajes de cada celda se refieren al total de la tabla
Q&A
32
Descriptiva bivariante¿En qué sexo se produce una mayor frecuencia de migrañas Leves?
Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)================================================================================
Número de Casos: 257
INTENSIDAD | Leve | Moderada | Severa | Total SEXO | | | | Fila
--------------------------------------------------------------------------| 11 | 54 | 16 | 81
Hombre | 13.58 | 66.67 | 19.75 | 31.52 --------------------------------------------------------------------------
| 11 | 94 | 71 | 176 Mujer | 6.25 | 53.41 | 40.34 | 68.48
--------------------------------------------------------------------------Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00
Los porcentajes de cada celda se refieren al total de cada fila
Fichero: Migranna1.txt Cuanti
33
Descriptiva Estudio MigrañaCuantitativa (y): descriptiva univariante
Fichero: Migranna1.txt
CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 80.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .
34
0,0 2,9 4,9 6,4 8,6 . . . 33,40,0 2,9 5,0 6,4 8,6 . . . 34,30,0 3,1 5,0 6,6 8,6 . . . 34,30,0 3,4 5,1 6,9 8,6 . . . 34,30,0 3,4 5,1 6,9 8,6 . . . 35,70,0 3,4 5,1 6,9 8,6 . . . 35,70,3 3,4 5,1 6,9 8,6 . . . 37,10,3 3,4 5,1 6,9 8,6 . . . 37,70,4 3,6 5,1 6,9 8,7 . . . 37,91,1 3,6 5,4 7,1 9,1 . . . 40,01,4 4,0 5,4 7,1 9,1 . . . 41,11,4 4,1 5,7 7,1 9,1 . . . 41,71,7 4,3 5,7 7,1 9,1 . . . 42,92,0 4,3 5,7 7,1 9,1 . 18,57 . 42,92,1 4,3 5,7 7,1 9,3 . . . 48,62,3 4,3 5,7 7,1 9,6 . . . 48,62,3 4,3 5,7 7,1 9,7 . . . 50,02,3 4,3 6,0 7,4 10,0 . . . 51,42,3 4,6 6,0 7,7 10,3 . . . 52,02,3 4,6 6,0 7,9 10,3 . . . 54,02,3 4,6 6,0 8,0 10,3 . . . 65,72,6 4,6 6,3 8,0 10,3 . . . 65,72,6 4,6 6,3 8,0 10,3 . . . 68,62,6 4,7 6,3 8,0 10,8 . . . 77,52,6 4,7 6,3 8,6 10,8 . . . 80,0
Descriptiva Variable Productividad ordenada
N=253
35
Descriptiva Variables Cuantitativas (y)Medidas de Centralización y Posición: Cajas (Box-Plot)
Percentil 50%MedianaQ2: 10.8
Percentil 25%Cuartil inferior
Q1: 5.7
Percentil 75% Cuartil superior
Q3: 18.5
Mínimo: 0,0 Máximo: 80
Rango intercuartílico: 12.8
Amplitud: 80
14.7n
xxmedia === ∑ i
dt
36
Descriptiva: Medidas de dispersiónDesviación Típica
Var _uno000000999999
1)( 2
1 −−Σ
=− nxx
S in
Desviación Típica 4.70Varianza 22.09
Desviación Típica 2.93Varianza 8.63
Estadístico Var-dos ------------------------------N 12 Media 4.5 Mediana 4.5Amplitud 9.0
Estadístico Var-uno ------------------------------N 12 Media 4.5Mediana 4.5Amplitud 9.0
Var _dos003334566699 output
37
Descriptiva Variables CuantitativasMedidas de Centralización y Posicionamiento: Cajas
----------------------------------------Estadístico PRODUCTIVIDAD
----------------------------------------
N 253
Media 14.7231
Mediana 10.8600
Moda 14.2900
Varianza 188.7021
Desviación Típica 13.7369
E.E. de la Media (*) 0.8636
Mínimo 0.0000
Máximo 80.0000
Rango 80.0000
Cuartil Inferior 5.7100
Cuartil Superior 18.5700
Rango Intercuartílico 12.8600
Asimetría 2.0694
Curtosis 5.2820
Coeficiente de Variación 93.3015
Fichero: Migranna1.txt Descriptiva / Cuantitativa(y) Histogramas
38
Descriptiva Variables Cuantitativas (y)Histogramas, Discretizar una variable Cuantitativa
Fichero: Migranna1.txt normal
39
Histograma
Ventaja
N( m=-0.17, dt=2.1)Distribución Normal
Si la variable sigue una distribución Normal toda la información de la muestra queda recogida con la Media y Desviación Estándar
4,503,50
2,501,50
,50-,50
-1,50-2,50
-3,50-4,50
-5,50
30
20
10
0
4,503,50
2,501,50
,50-,50
-1,50-2,50
-3,50-4,50
-5,50
30
20
10
04,50
3,502,50
1,50,50
-,50-1,50
-2,50-3,50
-4,50-5,50
30
20
10
0
-> =
Comprobación del ajuste
Descriptiva
Histograma y Ajuste a la Normalidad
Para contrastar si variable sigue una distribución normal se aplicará la prueba de Kolmogorov con la correción de Lilliefords (KL) o la de Shapiro-WilK(SW)
Gauss
40
Descriptiva
Gauss
C.F. Gauss (1777-1855)
heuristico
41
Descriptiva
Las normales/gausianas se dan en la naturaleza
Normalidad test
42
Comprobar si la variable PRODUCTIVIDAD sigue una distribución normal
Descriptiva
Diagnóstico de Normalidad (I)
Análisis /Cuantitativa(y) /AjusteFichero: Migranna1.txt
D+ de Kolmogorov: 0.16.80D- de Kolmogorov: -0.1419DN: 0.16.8p-valor: 0.0006E-3
p-valor Lilliefors corregido: 0.0004E-15
W Shapiro-Wilk: 0.7998p-valor Shapiro-Wilk: 0.0008E-13
Normalidad test II
43
Comprobar si la variable LEUCOS sigue una distribución normal
Descriptiva
Diagnóstico de Normalidad (II)
Análisis /Cuantitativa(y) /AjusteFichero: Migranna1.txt Chevicheff
D+ de Kolmogorov: 0.0350D- de Kolmogorov: -0.0443DN: 0.0443p-valor: 0.8753
p-valor Lilliefors corregido: >0.1
W Shapiro-Wilk: 0.9898p-valor Shapiro-Wilk: 0.2308
44
DescriptivaUtilidad de la Desviación típica como descriptor
Dos grupos
99,997,293,8499,795,188,8395,588,875286,680,255,51,568,255,501
NormalSimétricaCualquieraK dt
% Casos entre la media ± K dt
45
Descriptiva bivariante
Grupos(a|y)
¿La Intensidad de la migraña influye en la Productividad?
¿Puede una variable discreta (a) explicar una continua (y)?
Grupos de Cuantitativa (a|y):
46
Descriptiva bivariante
Cuantitativa (a|y): Grupos
Descriptiva de la variable PRODUCTIVIDAD por INTENSIDAD
Descriptiva / Grupos (a|y)
Estadísticos para PRODUCTIVIDAD por INTENSIDAD------------------------------------------------------Grupos Leve Moderada Severa
------------------------------------------------------N 21 147 85 Media 6.728 12.682 20.710 Mediana 4.570 10.860 14.290 Desviación Típica 7.152 9.1926 18.780Mínimo 0.000 0.0000 0.0000 Máximo 34.29 50.000 80.000 Cuartil Inferior 3.430 6.2900 5.7100 Cuartil Superior 8.000 17.710 27.430
------------------------------------------------------
Fichero: Migranna1.txt los dos
47
Descriptiva bivarianteLos dos estadísticos descriptivos más importantes del mundo
Diferencia de proporciones p2-p1 Diferencia de medias m2-m1
Diferencia de Productividad entre Localización
Variable Respuesta: PRODUCTIVIDADVariable Explicativa: LOCALIZACION
Grupo Hemicr Holocr-----------------------------------------------Tamaños Muestrales 179 71 Medias: 12.6594 19.8 Desviaciones Típicas: 11.7912 16.7 E. E. de las Medias: 0.8813 1.9-----------------------------------------------
Diferencia de Medias: 7.2327
Diferencia de Eficacia entre Analgésicos
Tabla de Frecuencias de EFICACI por ANALGESIC===========================================
ANALGESICO | A | B EFICACIA | | |
---------------------------------------------| 116 | 63 |
SI | 66.2% | 77.7% | --------------------------------------------
| 59 | 18 | NO | 33.7% | 22.2% |
--------------------------------------------Total | 175 | 81 |
Diferencia de proporciones: 11.5 %
Epi y diag
48
Descriptiva
Mas allá de la descriptiva clásica (b|b)
• Epidemiología (b|b)Odds Ratio Riesgo Relativo Diferencia de Riesgos
• Diagnóstico (b|b)SensibilidadEspecificidadVP-; VP+; LR
Medidas de Efecto en:
49
Datos de un estudio prospectivo de salud dental en 76 niños.
Se estudia la relación entre la aparición de caries y una dieta pobre en vegetales y fibra
Descriptiva en Epidemiología Estudio prospectivo de salud dental
Dieta Pobre FibraFactor (Causa)
CariesRespuesta(Efecto)
a|b
50
Datos
Estudio prospectivo
Datos experimentales
N=76
DPF | Si Exp + | No Exp - | Total Caries | | | Fila -----------------------------------------------------Si | 21 | 16 | 37 Res+ | 72.4% | 34.0% | -----------------------------------------------------No | 8 | 31 | 39 Res- | 27.5% | 65.9% | -----------------------------------------------------Total | 29 | 47 | 76
¿Cómo se puede medir la asociación entre DPF y Caries ?
Factor Exposición
Res
pues
ta/ E
vent
o
51
Medidas de riesgo basadas en el cociente
Riesgo relativo: ratio de las proporciones de eventos entre sujetos con factory sin factor de riesgo.
Odds ratio: cociente entre los odds del grupo con el factor y sin el factor
Descriptiva
Medidas de Efecto en Epidemiología
Medidas de riesgo basadas en la diferenciaDiferencia absoluta de riesgo: diferencia entre la proporción de eventos en expuestos y no expuestosDiferencia relativa de riesgoReducción absoluta de riesgoReducción relativa de riesgo
Número necesario a tratar (NNT) : inverso de la diferencia de riesgo
52
60.21trataranecesarioNúmero
38,0riesgo de absoluta Diferencia
08.58·16
31·21RatioOdds
12.234.072.0
)/()/( RelativoRiesgo
48.07637aPrevalenci
=−
=
=−=
===
==++
=
==+++
+=
RnFRF
RnFRFbcad
dbbcaadcba
ba
Descriptiva
Medidas de Efecto en Epidemiología: Ejemplo
Evento
No evento
Total
a = 21 b = 16 a+b=37
c = 8 d = 31 c+d=39
a+c=29 b+d=47 76
Presenciafactor
Ausenciafactor
Total
53
Descriptiva
Medidas de Efecto : Resultados
Medidas de Asociación en Estudios Epidemiológicos=========================================================================Número de Casos : 76
Localización RR EE[LnRR] IC95.00% inf IC95.00% sup--------------------------------------------------------------------------(+,+) en la celda 1 2.1272 0.2332 1.3469 3.3594
Asumiendo Explicativa en Columnas y Respuesta en Filas con:
Localización OR EE[LnOR] IC95.00% inf IC95.00% sup--------------------------------------------------------------------------(+,+) en la celda 1 5.0859 0.5171 1.8460 14.0125
Análisis /Epidemiología b|b / Tablas. Datos Agrupados / Ejemplo por defecto
54
Se estudia la fiabilidad de un nuevo diagnóstico para la candidiasis infectiva (CI)
Índices de Fiabilidad en Diagnóstico
Ejemplo
Entre los métodos paraclínicos disponibles para el diagnóstico de CI el hemocultivo tiene una baja sensibilidad (10-43%) comparado con la necropsia. Lo anterior ha motivado del desarrollo de métodos alternativos basados en la determinación de anticuerpos en suero mediante ELISA, inmunodifusión, etc.
55
Estudio de Diagnóstico
Datos experimentales
Número de Casos: 90
| Test + | Test - | Total | | | Fila
-------------------------------------------------------| 30 | 10 | 40
EN + | 33.33 | 11.11 | 44.44 -------------------------------------------------------
| 5 | 45 | 50 EN - | 5.56 | 50.00 | 55.56
-------------------------------------------------------Total | 35 | 55 | 90Columna | 38.89 | 61.11 | 100.00
Los porcentajes de cada celda se refieren al total de la tabla
Como se puede medir la relación entre los resultados Test+/- y el EN +/-
56
Permiten evaluar la fiabilidad de un dispositivo o test
Descriptiva
Índices de Fiabilidad en Diagnóstico
Sensibilidad: porcentaje de Test + en Enfermos
Especificidad: porcentaje de Test - en Sanos
Valor Predictivo Positivo: porcentaje de Enfermos en Test +
Valor Predictivo Negativo: porcentaje de Sanos en Test -
Asociados a tablas de frecuencia 2x2
b|b
57
Enfermo
Sano
Total
a = 30 b = 10 a+b=40
c = 5 d = 45 c+d=50
a+c=35 b+d=55 90
Test + Test -
Total
90.05045
75.04030S
==+
=
==+
=
dcddadEspecifici
baadensibilida
Descriptiva
Índices de Fiabilidad en Diagnóstico: ejemplo
811.05545
857.03530
==+
=
==+
=
dbdNegVP
caaPosVP
Q&A
58
Descriptiva
Índices de Fiabilidad en Diagnóstico
Análisis/ Diagnostico (b|b) /Tablas. Datos Agrupados/ Ejemplo por defecto
Índices Diagnósticos================================================================================
Variable Estado de la Naturaleza: ENVariable Test: Test
Prevalencia = 0.4444
Sensibilidad = 0.7500 con I.C. al 95.00% [0.5880,0.8731]Especificidad = 0.9000 con I.C. al 95.00% [0.7819,0.9667]
Prob(EN+ | Test+) = 0.8571 si Prev = 0.4444 con I.C. al 95.00% [0.7412,0.9731]Prob(EN+ | Test-) = 0.1818 si Prev = 0.4444 con I.C. al 95.00% [0.0410,0.3226]
fin
59
Contenido del curso
I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables
II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico
IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher
V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados
VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia
III- EstimaciónConcepto de estimaciónError estandarIntervalos de confianza
60
Concepto de Estimación de ParámetrosError EstandarIntervalos de Confianza
Módulo III
Técnicas de Estimación de parámetros poblacionales
Una ojeada al universo
ejemplos
61
Prevalencia de EPOC (%)
Duración media del efecto analgésico (media)
Tiempo mínimo hasta pico de cc. máxima (mínimo)
Porcentaje de éxitos quirúrgicos (%)
Diferencia de eficacia entre dos fármacos (dif. medias)
Mediana del incremento de IgE tras inmunoterapia (mediana)
Dispersión de la glucemia en ayunas (varianza)
Relación cloración del agua e infecciones (RR)
El 50% de datos centrales (Rango IQ)
Estimación
Ejemplos de parámetros poblacionales
IC en publicaciones
62
Ejemplos de IC
Esquema IC
63
De letras latinas a griegasDe estadísticos a parámetros
Información de la muestra
Características de la población
Parámetros
μ σ π
EstimaciónConcepto de Estimación de parámetros poblacionales
Estimación
Estadísticos
x s p
muestra población
Propiedades de las muestras
64
Muestra
Dos propiedades de las muestras
Representativa
Aleatoria n suficiente
Población
Calidad Cantidad (TM)
goodnews
65
Estimación
¡Buenas Noticias!
La media muestral es un buen estimador de la media poblacional
μ=)(xE
La desviación típica muestral es un buen estimador de la dt poblacional
σ=−=− )(1)( 1 sEnnsE n
La prevalencia muestral es un buen estimador de la prevalencia poblacional
π=)( pE
Que significa ser un buen parámetro poblacional ?
El or muestral es un buen estimador del OR poblacional
ORorEnnorE =−= )()( 1
66
Ser un estimador adecuado no significa ..., significa ...
... manejo de la incertidumbrey de la imprecisión
Estimación
Concepto de estimación de parámetros
Construccion de IC
67
Estimación
Intervalo de Confianza (IC) de una proporción (prevalencia)
Muestra (estadístico p) p=22%
Población (parámetro π) 19% 25%IC 95%
Imprecisión± 3%
Confianza95%
Dos propiedades de los IC
Formula proporciones
68
⎥⎥⎦
⎤
⎢⎢⎣
⎡ −⋅+≤≤
−⋅−=
nppzp
nppzpIC )1()1(%95 2/2/ αα π
Estimación
Intervalo de confianza para una proporción
Parámetro: Prevalencia Poblacional
Límites de confianza
Nivel de confianza
Error Estándar
[ ]322322%95 +≤≤−= πIC
[ ]%25%19%95 ≤≤= πIC
Ejemplo
Concepto de confianza
69
0
0.10
0.20
0.30
0.40
0.50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20muestra
Prevalencia poblacionalProporción muestral
EstimaciónConcepto de Confianza
π
interpretaciones
70
Interpretación InformalUn rango de valores en donde se tiene una confianza del 95% que se encuentre el parámetro poblacional
Interpretación estrictaSi repitiésemos el experimento 100 veces con distintas muestras, en 95 ocasiones el IC calculado contendrían el valor del parámetro poblacional
EstimaciónInterpretación del IC del 95%
n y la imprecisión
71
Estimación
El tamaño muestral condiciona la imprecisión
0
0,02
0,04
0,06
0,08
0,1
0,12
0 200 400 600 800 1000 1200 1400
Tamaño Muestral
Impr
ecis
ión
IC = 0,95 p = 10%
Formula medias
72
⎥⎦
⎤⎢⎣
⎡+≤≤−= −
−−
−n
stx
ns
txIC nn
nn
11
11%95 μ
Estimación
Intervalo de confianza para la media poblacional
Parámetro: Media Poblacional
Límites de confianza
Nivel deconfianza
Estimo
Error Estándar
Ejemplo [ ]3032030320%95 +≤≤−= μIC
[ ]350290%95 ≤≤= μIC
Factor relacionadocon la confianza
Factor de confianza
73
0.200.25
0.300.38
0.400.52
0.500.67
0.600.84
0.701.03
0.801.28
0.901.64
0.951.96
0.972.24
0.982.32
0.992.58
0.9952.8
0.9993.29
Nivel de confianzaK
Estimación
Factores relacionados con el nivel de confianza
Ej. FBG
74
[ ]
[ ]81.409 51.379
69.7·96.166.39469.7·96.166.394
⇔=
+⇔−
Intervalo de confianza al 95%
Análisis / Cuantitativa (y)/ t-Student
Estimación
Intervalo de confianza: ejemplo FBG
Variable: FBG: Fibrinógeno sérico
Estadísticos para la variable FBG
----------------------------------Estadístico FBG
----------------------------------N 257 Media 394.66Desviación Típica 123.31E.E. de la Media (*) 7.6919
----------------------------------
(*) Usar con propósito de estimación para el I.C. de la media
Migranna1.txt los 2 importantes
75
DescriptivaRecordatorio: Los dos estadísticos descriptivos más importantes del mundo
Diferencia de proporciones p2-p1 Diferencia de medias m2-m1
Diferencia de Productividad entre SexosDiferencia de Eficacia entre Analgésicos
Toda “medida” debe tener su IC
Tabla de Frecuencias de EFICACI por ANALGESIC===========================================
ANALGESICO | A | B EFICACIA | | |
---------------------------------------------| 116 | 63 |
SI | 66.2% | 77.7% | --------------------------------------------
| 59 | 18 | NO | 33.7% | 22.2% |
--------------------------------------------Total | 175 | 81 |
Diferencia de proporciones: 11.5 %
Variable Respuesta: PRODUCTIVIDADVariable Explicativa: LOCALIZACION
Grupo Hemicr Holocr-----------------------------------------------Tamaños Muestrales 179 71 Medias: 12.6594 19.8 Desviaciones Típicas: 11.7912 16.7 E. E. de las Medias: 0.8813 1.9-----------------------------------------------
Diferencia de Medias 7.2327
76
Estimación de la Diferencia Poblacional deDos Proporciones
-----------------------------------------------
Grupo Trat B Trat A-----------------------------------------------Tamaños Muestrales: 81 175 Proporciones: 0.7770 0.6620E. E. de las proporciones: 0.0463 0.0358
-----------------------------------------------
Diferencia de proporciones: 0.1150
Estimación----------I.C. al 95.00% para la diferencia : 0.1150 +/- 0.1146 [0.0004, 0.2296]
Recordatorio: Los dos estadísticos descriptivos más importantes del mundo
Intervalos de confianza
Analisis / Dos Grupos(b|y )/ t-Student
Fichero: Migranna1.txt
Analisis / Tablas (a|b) / Dos Prop. Datos Agrupados
Variable Respuesta: PRODUCTIVIDADVariable Explicativa: LOCALIZACION
Grupo Hemicr Holocr-----------------------------------------------Tamaños Muestrales 179 71 Medias: 12.6594 19.8 Desviaciones Típicas: 11.7912 16.7 E. E. de las Medias: 0.8813 1.9-----------------------------------------------
E. E. de la Diferencia de Medias: 1.8773 Diferencia de Medias 7.2327
Estimación----------I.C al 95% para la diferencia de medias:7.2327 +/- 3.6974 [3.5352, 10.9301]
IC riesgo
77
Seguridad
Riesgo de A RA 3% [0.62% 8.52%]
Riesgo de B RB 1% [0.03% 5.45%]
Riesgo Relativo: RRAB RA / RB 3.0 [0.31 28.3 ]
Diferencia Absoluta de Riesgo (DAR) RA-RB 2% [-1.87% 5.87%]
Diferencia Relativa de Riesgo 200%
Trat A Trat BEA 3 1No EA 97 99
100 100
Intervalos de confianza de Medidas de Riesgo
Número Necesario Tratar para Dañar (NND) 50 [-54 17]
OR 3.06 [0.31 29.9]
IC eficacia
78
Eficacia de A EA 75% [65.3% 83.1%]
Eficacia de B EB 60% [49.7% 69.6%]
Eficacia Relativa: ERAB EA / EB 1.25 [1.02 1.52]
Eficacia
Intervalos de confianza de Medidas en EficaciaTrat A Trat B
Sano 75 60Enf 25 40
100 100
Diferencia Absoluta de Eficacia EA-EB 15% [2.19% 27.8%]
Diferencia Relativa de Eficacia 25% [2% 52%]
Número Necesario Tratar para Curar (NNT) 7 [4 46 ]
OR 2.0 [1.09 3.65 ]
IC en publicacines
79
Ejemplos de IC
fin
80
Contenido del curso
I- Manejo de G-Stat/DatosCaracterísticas / InstalaciónMenúsImportar datosManejo de variables
II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico
IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher
V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados
VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia
III- EstimaciónConcepto de estimaciónError EstandarIntervalos de confianza
81
6D4_10
PRUEBAS ESTADÍSTICAS
¡ El momento de la decisión !
Módulo IVPruebas Estadísticas BásicasMódulo IVPruebas Estadísticas Básicas
Contraste de Hipótesis
Comparando tratamientos
82
SimulacionesSimulaciones
Lanzamiento de una moneda
publicacion
83
Ejemplos de ObjetivosEjemplos de Objetivos
Ejenplo CV
84
Pruebas Estadísticas Básicas
Ejemplo: Factores de riesgo CVPruebas Estadísticas Básicas
Ejemplo: Factores de riesgo CV
En una muestra de 195 hipertensos se ha recogido información relacionada con factores de riesgo cardiovascular: Diabetes, Dislipemia, Tabaquismo, etc
Se les ofrecieron 3 tratamientos para el control de la HTA y se evaluaron los resultados.
BD
85Factores de riesgo cv1.txt
Pruebas Estadísticas Básicas
Datos: Factores de riesgo CVPruebas Estadísticas Básicas
Datos: Factores de riesgo CV
Pregunttas para IC CH
86
¿Influye el Sexo (b) en la TAD inicial (y)?
Pruebas Estadísticas Básicas PreguntasPruebas Estadísticas Básicas Preguntas
¿Cúal es la diferencia de la TAD inicial entre hombres y mujeres?
IC 95% [0.67 (2.29) 3.90 mmHg]
Pregunta para Estimación
Pregunta para Contraste de hipótesis
hipótesis
87
Podemos reformular los objetivos de un estudio:
Pruebas Estadísticas Básicas
Como transformar objetivos en hipótesisPruebas Estadísticas Básicas
Como transformar objetivos en hipótesis
Ho: No hay diferencias entre los tratamientos A y B H1: Hay diferencias entre los tratamientos A y B
Ho: El descenso de la T.A. con X es <= 70 mmHg / mesH1: El descenso de la T.A. con X es > 70 mmHg / mes
Ho: Dos parámetros bioquímicos no están asociadosH1: Dos parámetros bioquímicos están asociados
Ho: La TAD es igual para hombres y mujeresH1: La TAD es distinta para hombres y mujeres
Tipos de hipótesis
88
Hipótesis Nula (Ho):
Aquella que se formula con el único objetivo de rechazarla
Es una hipótesis conservadora
Connotación: ‘igualdad’
Hipótesis Alternativa (H1):
Cualquiera distinta de Ho
Es la hipótesis objetivo de interés
Es la hipótesis arriesgada
Pruebas Estadísticas Básicas
HipótesisPruebas Estadísticas Básicas
Hipótesis
Riesgos en la decisión
Alfa y beta
89
REALIDAD
DECISION Ho Verdadera H1 Verdadera
OK(1-alfa)
Riesgo alfa F +
Error tipo I
Riesgo betaF –
Error tipo II
OK(1-Beta )
Poder
Aceptar Ho(No Rechazar)
Aceptar H1
Antes del experimento
n = f (alfa, beta)
Pruebas Estadísticas Básicas
Cómo convivir con los riesgos de la experimentaciónPruebas Estadísticas Básicas
Cómo convivir con los riesgos de la experimentación
T l central
90
Pruebas Estadísticas BásicasLocalización y medida de riesgos
Pruebas Estadísticas BásicasLocalización y medida de riesgos
Sexo y tad
91Factores de riesgo cv1.txt
Pruebas Estadísticas Básicas
Datos: Factores de riesgo CVPruebas Estadísticas Básicas
Datos: Factores de riesgo CV
Pregunta CH +descriptiva
92
Descriptiva
Hombres Mujeres
Media (x)
D. típica (s)
n
102.24
6.08
98
99.95
4.74
84
Pruebas Estadísticas Básicas
Cómo funcionanPruebas Estadísticas Básicas
Cómo funcionan
mmHgmh xxDif 29.2)( =−
¿Influye el Sexo (b) en la TAD inicial (y)?
Estad contras
Hipótesis:
Ho: No, la TAD es igual para hombres y mujeres (la diferencia es cero).
H1: Sí, la TAD es distinta para hombres y mujeres (la diferencia no es cero)
93
Estadístico de Contraste, texp
Pruebas Estadísticas Básicas
Estadístico de contrastePruebas Estadísticas Básicas
Estadístico de contraste
79.284.029.2
11||
toEstadístic exp ==+
−=
mhp
mh
nns
xx
46.82
)1()1( 22=
−+−+−
=mh
mmhhp nn
snsns
Estadísticos Descriptivos
Interpretación de texp
94
El estadístico texp muestral representa un valor queresume la evidencia (prueba) en contra de Ho
Si Ho es cierta, las posibles texp muestrales tendránvalores cercanos a cero
Pruebas Estadísticas Básicas Interpretación de texpPruebas Estadísticas Básicas Interpretación de texp
esquema decision
95
Estadístico de Contraste vs DecisionesEstadístico de Contraste vs Decisiones
Prob (p) Ho verdadera
0
Alta
*Acepto Ho Acepto H1
Región Crítica de aceptación
Muy Baja
8
Tabla
α = 0.05α = 0.01Nivel de significación
Decisión
?
texp
01
* No rechazo
tabla
96
3.2913.0912.5762.3261.9601.6451.282∞
3.3733.1602.6172.3581.9801.6581.289120
3.4603.2322.6602.3902.0001.6711.29660
3.6463.3852.7502.4572.0421.6971.31030
3.8503.5522.8452.5282.0861.7251.32520
4.5874.1443.1692.7642.2281.8121.37210
12.92410.2145.8414.5413.1822.3531.6383
31.60022.3289.9256.9654.3032.9201.8862
636.578318.28963.65631.82112.7066.3143.0781
0.0010.0050.010.020.050.1α = 0.2
Probabilidad de H0 cierta
Tabla texp y probabilidadesTabla texp y probabilidades
texp= 2.79 p-valor=0.0057
gl; T
amañ
o de
la m
uest
ra
esquema
97
Estadístico de Contraste vs DecisionesEstadístico de Contraste vs Decisiones
Probabilidad (p)//Ho verdadera
0
Alta
*Acepto Ho Acepto H1
8
Tabla
α = 0.05Nivel de significación
Decisión
texp
01 p-valor=0.0057
2.79
Q&A
resumen
98
texp = = 2.792.29
0.84
Estadístico de contraste
p=0.0057
Evidencia a favor H0
Pruebas Estadísticas Básicas
Contraste de Hipótesis para Diferencia de MediasPruebas Estadísticas Básicas
Contraste de Hipótesis para Diferencia de Medias
Rechazar H0
Aceptar H1
Decisión
Hombres MujeresMedia(x)
D.típica(s)
n
102.24
6.08
98
99.95
4.74
84
Estadísticos descriptivos
foto
99
GOSSET, William Sealy ('Student') 1876-1937
Pruebas Estadísticas Básicas
StudentPruebas Estadísticas Básicas
Student
Practica
100
Pruebas Estadísticas Básicas
Dos grupos independientes (b|y): t-Student (1de2)
Pruebas Estadísticas Básicas
Dos grupos independientes (b|y): t-Student (1de2)
Análisis /Dos Grupos (b|y) / t-StudentFactores de riesgo cv1.txt
101
Variable Respuesta: TADINICIALVariable Explicativa: SEXO
Grupo Hombre Mujer -----------------------------------------------Tamaños Muestrales 98 84 Medias: 102.2449 99.9524Desviaciones Típicas: 6.0863 4.7406 E. E. de las Medias: 0.6148 0.5172
-----------------------------------------------Diferencia de Medias 2.2925
Estimación----------I.C. al 95.00% para la diferencia de medias: 2.2925 +/- 1.6157 [0.6768, 3.9082]
t-Student---------Hipótesis Nula: diferencia de medias = 0.0000Hipótesis Alternativa: no igualt-Student: 2.7998p-valor: 0.0057
Pruebas Estadísticas Básicas
Dos grupos independientes (b|y): t-Student (2de2)
Pruebas Estadísticas Básicas
Dos grupos independientes (b|y): t-Student (2de2)
Factores de riesgo cv1.txt Clasificacion b|yAnálisis /Dos Grupos (b|y) / t-Student
102
2 GRUPOS
Independientes
Pareados
Normalidad ó Grupos grandes
t-Student
t-Student pareada
Mann-Whitney (Wilcoxon)
Wilcoxon pareado
Pruebas Estadísticas Básicas
Modelos (b|y)Pruebas Estadísticas Básicas
Modelos (b|y)
Prueba
t-pareada
No-Normalidad y Grupos pequeños
Normalidad ó Grupos grandes
No-Normalidad y Grupos pequeños
103
¿Disminuye la TAD >8 mmHg con el tratamiento?
Pruebas Estadísticas Básicas
Dos grupos pareadosPruebas Estadísticas Básicas
Dos grupos pareados
Factores de riesgo cv1.txt Análisis /Dos Grupos (b|y) / t-Student Pareados descriptiva
104
HIPÓTESIS
Ho: No: La disminución de TAD es =<8 mmHg
H1: Si: La disminución de TAD es >8 mmHg
Se modeliza la diferencia de TAD (antes-después)
Pruebas Estadísticas Básicas
Dos grupos pareados (y)Pruebas Estadísticas Básicas
Dos grupos pareados (y)
Estadísticos TADINICIAL-TADFINAL -------------------------------------------N 186 Media 8.7285 Mediana 6.7500 Desviación Típica 8.2542 Mínimo -7.5000 Máximo 43.5000
Factores de riesgo cv1.txt Análisis /Dos Grupos (b|y) / t-Student Pareados output
105
Pruebas Estadísticas Básicas
Dos grupos pareados: t-Student datos pareadosPruebas Estadísticas Básicas
Dos grupos pareados: t-Student datos pareados
Análisis / Dos Grupos (b|y) / t-Student Pareados
Estimación y Contraste de Una Media Poblacional para TADINICIAL menos TADFINAL====================================================
Tamaño Muestral: 186Media: 8.7285
Estimación----------I.C. inferior al 95.00% para la media: 8.7285 - 1.0005 [7.7280]
t-Student---------Hipótesis Nula: media = 8.0000Hipótesis Alternativa: mayor queEstadístico de contraste t: 1.2037p-valor: 0.1151
Factores de riesgo cv1.txtK grupos
106
2 GRUPOS
K GRUPOS
Independientes
Pareados
t-Student
t-Student pareada
Mann-Whitney (Wilcoxon)
Wilcoxon pareado
Independientes
Pareados
ANOVA 1 factor
Kruskal-Wallis
Friedman
ANOVA un factor con bloques
Pruebas Estadísticas Básicas
Pruebas Básicas Modelos (a|y)Pruebas Estadísticas Básicas
Pruebas Básicas Modelos (a|y)
Normalidad y Homoc.
Normalidad y HMCD
No-Normalidad o No-Homoc.
No-Normalidad o No-HMCD
Normalidad ó Grupos grandes
No-Normalidad y Grupos pequeños
Normalidad ó Grupos grandes
No-Normalidad y Grupos pequeños
107
HIPÓTESIS
Ho: No hay diferencias en las TAD finales de los tres TTOs
H1: Si hay diferencias en las TAD finales de los tres TTOs
Se desea comparar la eficacia de tres tratamientos en cuanto a la TAD final
Pruebas Estadísticas Básicas
k grupos independientes (a|y)Pruebas Estadísticas Básicas
k grupos independientes (a|y)
Tratamiento:DietaEjercicioFármaco
Objetivo
TAD Final(a|y)
108
DescriptivaDatos
Pruebas Estadísticas Básicas
k grupos independientesPruebas Estadísticas Básicas
k grupos independientes
Anova / Anova Un Factor (a|y)
Estadísticos para la variable TADFINAL por TTOHTA
Grupos Ejercicio Dieta Farmaco-----------------------------------------------------N 65 56 60 Media 91.7462 95.4911 90.1958Mediana 93.7500 96.1250 90.7500 Desviación Típica 8.8204 8.3675 7.5365 Mínimo 73.0000 73.5000 72.0000 Máximo 114.0000 115.0000 107.5000
-----------------------------------------------------
Factores de riesgo cv1.txt output
109
Pruebas Estadísticas Básicas
k grupos independientes: AnovaPruebas Estadísticas Básicas
k grupos independientes: Anova
Anova /Anova 1 Factor
¿ Qué grupo o grupos son diferentes de los otros ?
Anova Un Factor===========================================================================
Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181
---------------------------------------------------------------------------Suma de Cuadrado Cuadrados G.L. Medio F-valor p-valor
---------------------------------------------------------------------------Entre Grupos 854.3389 2 427.1695 6.2421 0.0024Dentro Grupos 12181.1935 178 68.4337
---------------------------------------------------------------------------Total (corr.) 13035.5325 180
---------------------------------------------------------------------------
Factores de riesgo cv1.txt Comp multi
110
Pruebas Estadísticas Básicas
Comparaciones múltiplesPruebas Estadísticas Básicas
Comparaciones múltiples
Comparaciones Múltiples
Anova, Comparaciones Múltiples===============================================Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181
Método: LSD al 95.00%
-----------------------------------------Grupos
TTOHTA N Media Homogéneos-----------------------------------------Farmaco 60 90.1958 X Ejercicio 65 91.7462 X Dieta 56 95.4911 X
-----------------------------------------
Otra pregunta: Y si no fueran homocedásticos?
Factores de riesgo cv1.txt Anova /Anova 1 Factor/Comparaciones múltiples Snedecor
111
George W. Snedecor (1882 -1974)
Two famous works: Calculation and Interpretation of Analysis of Variance and Covariance (1934) and StatisticalMethods (1937). The latter work, ultimately co-authored with William G. Cochran, went through seven editionsbefore the death of both authors and sold more than 125,000 copies.
Pruebas Estadísticas Básicas
SnedecorPruebas Estadísticas Básicas
Snedecor
Kruscal Wallis ?
112
Normalidad + Igualdad de Varianzas (Homocedasticidad)
ANOVA
Pruebas Estadísticas Básicas
k grupos independientes (a|y): Anova ó KWPruebas Estadísticas Básicas
k grupos independientes (a|y): Anova ó KW
Si
Kruskal-Wallis
No
Grandes y Homocedásticos?
Homocedasticidad (en realidad heterocedasticidad)==============================================
Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181
Prueba C de Cochran: 0.3802 P-valor = 0.5214Prueba de Bartlett: 1.5165 P-valor = 0.4685
a|b
113
Tablas
Independientes
Pequeñas muestras
Chi-Cuadrado*
McNemar
a|b
Pareados
Fisher
Pruebas Estadísticas Básicas
Pruebas básicas con Variables Cualitativas (a|b)Pruebas Estadísticas Básicas
Pruebas básicas con Variables Cualitativas (a|b)
Hasta ahora (a|y)Prueba
100 i100 i
114
0NO FUMA01EJERCICIOMujer45.87
0FUMA11DIETAMujer
0NO FUMA11EJERCICIOHombre53.87
0FUMA01FARMACOSHombre
0NO FUMA11DIETAHombre42.93
0NO FUMA01FARMACOSHombre49.54
0FUMA11FARMACOSHombre
0NO FUMA01FARMACOSHombre59.06
0FUMA11DIETAHombre
0FUMA11DIETAHombre41.63
0FUMA11FARMACOSHombre58.05
0NO FUMA01DIETAHombre56.05
0NO FUMA01FARMACOSMujer63.06
0NO FUMA11FARMACOSHombre58.02
0NO FUMA11EJERCICIOHombre54.06
0NO FUMA11FARMACOSHombre55.79
0NO FUMA01Hombre
0FUMA01FARMACOSHombre62.08
0FUMA11FARMACOSHombre59.36
0NO FUMA01FARMACOSHombre
IAMTABACODISLIPDIABTTOHTASEXOEDAD
Pruebas básicas con Variables Cualitativas
Listado de la BDPruebas básicas con Variables Cualitativas
Listado de la BD
Factores de riesgo cv1.txt
115
Es uno de los contrastes más importantes en Tablas de Frecuencias
Pruebas Estadísticas Básicas
Prueba de Chi-CuadradoPruebas Estadísticas Básicas
Prueba de Chi-Cuadrado
Ho: No hay diferencias entre las proporciones. P’e=Pe; P’d=Pd; P’f=Pf
H1: Si hay diferencias entre las proporciones. Otra≠Ho
Contrastar si los fumadores eligieron los mismos tratamientos que los no fumadores
Chi 2
116
Descriptiva
Pruebas Estadísticas Básicas
Prueba de Chi-Cuadrado: DescriptivaPruebas Estadísticas Básicas
Prueba de Chi-Cuadrado: Descriptiva
Analisis/Tablas a|b/Chi Cuadrado
Tabla de Frecuencias de TTOHTA (filas) por TABACO (columnas)=================================================================
Número de Casos: 189
TABACO | FUMA | NO FUMA | Total TTOHTA | | | Fila
--------------------------------------------------------| 31 | 30 | 61
Dieta | 38.75 | 27.52 | 32.28 --------------------------------------------------------
| 20 | 47 | 67 Ejercicio | 25.00 | 43.12 | 35.45
--------------------------------------------------------| 29 | 32 | 61
Farmaco | 36.25 | 29.36 | 32.28 --------------------------------------------------------Total | 80 | 109 | 189 Columna | 42.33 | 57.67 | 100.00
Los porcentajes de cada celda se refieren al total de cada columna
Factores de riesgo cv1.txt
117
Estadístico de contraste Chi 2
CHi2exp =
CHi2exp =
(O1 - E1)2
(31 – 35.5)2
(O2 - E2)2
(30 – 27,8)2
(O6 – E6)2
(32 – 34.3)2
E1
35.5
E2
27.8
E6
34.3
+
+
+ +
+ +
...
.... 6.75=
Análisis / Tablas (a|b) / Chi-Cuadrado
Pruebas Estadísticas Básicas
Prueba de Chi-Cuadrado: contrastePruebas Estadísticas Básicas
Prueba de Chi-Cuadrado: contraste
Chi-Cuadrado de TTOHTA (filas) por TABACO (columnas)================================================================================
Tamaño Muestral: 189Estadístico de contraste Chi-Cuadrado: 6.7538G.L.: 2p-valor: 0.0342
Nº de celdas con frecuencias absolutas esperadas < 5: 0 de 6, un 0.0000%Nº de celdas con frecuencias absolutas esperadas < 1: 0 de 6, un 0.0000%
=
Factores de riesgo cv1.txt Tabla chi2
118
Pruebas Estadísticas Básicas
Tabla de Chi-CuadradoPruebas Estadísticas Básicas
Tabla de Chi-Cuadrado
Consideraciones chi2
119
• Los contrastes de Chi2 son, de modo inherente, unilaterales
• En tablas de 2x2 se aplica la corrección de Yates
• La frecuencia esperada en cada debe ser de 5 ó mayor
• Si no se cumple lo anterior se aplica la Prueba exacta de Fisher
• Para datos pareados se aplica la Prueba de McNemar
Pruebas Estadísticas Básicas
Consideraciones a cerca de Chi-CuadradoPruebas Estadísticas Básicas
Consideraciones a cerca de Chi-Cuadrado
Prueba Dislipemia Fisher
120
Pruebas Estadísticas Básicas
Ejemplo Dislipemias por Sexos en diabéticos: FisherPruebas Estadísticas Básicas
Ejemplo Dislipemias por Sexos en diabéticos: Fisher
¿Es la prevalencia de dislipemia diferente según el sexo,en la subpoblación de diabéticos?
Factores de riesgo cv1.txt Tabla
121
Pruebas Estadísticas Básicas
Fisher; DescriptivaPruebas Estadísticas Básicas
Fisher; Descriptiva
Tabla de Frecuencias de SEXO (filas) por DISLIPEM (columnas)==============================================================
Número de Casos: 23
DISLIPEM | 0 | 1 | Total SEXO | | | Fila
------------------------------------------------------| 9 | 7 | 16
Hombre | 56.25 | 43.75 | 69.57 ------------------------------------------------------
| 5 | 2 | 7 Mujer | 71.43 | 28.57 | 30.43
------------------------------------------------------Total | 14 | 9 | 23 Columna | 60.87 | 39.13 | 100.00
Los porcentajes de cada celda se refieren al total de cada fila
Filtrado DIAB=1 ; Análisis / Tablas (a|b) / Fisher
Descriptiva
Factores de riesgo cv1.txt significacion
122
Fisher de SEXO (filas) por DISLIPEM (columnas)================================================
Tamaño Muestral: 23p-valor (unilateral-izquierda): 0.4182p-valor (unilateral-derecha): 0.8758p-valor (bilateral): 0.6570
Pruebas Estadísticas Básicas
Fisher; ContrastePruebas Estadísticas Básicas
Fisher; Contraste
Filtrado DIAB=1 ; Análisis / Tablas (a|b) / Fisher
Contraste
¿Es la distribución de dislipemia diferente según el sexo,en la población de diabéticos?
No, las diferencias encontradas no han resultado significativas
Factores de riesgo cv1.txt Fisher
123
Pruebas Estadísticas Básicas
FisherPruebas Estadísticas Básicas
Fisher
Ronald A. Fisher (1890-1962)
124
Pruebas Estadísticas Básicas
ResumenPruebas Estadísticas Básicas
Resumen
Estimación ⇔ Información
C. Hipótesis ⇔ Decisión
Estadística Descriptiva + Medida del efecto
Estadístico de contraste
Función de probabilidad Ho (p-valor)
Ho Decisión H1
Riesgos alfa y betaFormulacion de Ho y H1
Ene
fin
125
Contenido del curso
I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables
II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico
IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi-CuadradoFisher
V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados
VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia
III- EstimaciónConcepto de estimaciónError EstandarIntervalos de confianza
126
Correlación y Regresión Lineal Simple x|y
Maurits C. Escher (1898-1972) - Waterfall
127
Se han recogido datos correspondientes a 40 sujetos con la enfermedad de Alzheimer.
Se estudia su Movilidad (0-10) en relación a su Calidad de Vida (0-45).
Correlación y Regresión Lineal Simple Ejemplo: Calidad de Vida en pacientes con Alzheimer
Alzheimer1. txt preguntas
128
Correlación y Regresión Lineal Simple
Posibles preguntas
¿Se puede cuantificar la relación entre la Movilidad y la CV?
¿Es debida al azar? - ¿Es la relación Estadísticamente significativa?
¿En general cuánto varía la CV al aumentar una unidad la Movilidad ?
¿Podría predecir la CV a partir de la Movilidad de cada individuo?
¿Cuánto me equivoco al hacer la predicción?
Diagram dispersi.
129
Correlación y Regresión Lineal Simple
Descriptiva Diagrama de dispersión
¿Cómo medir o cuantificar la asociación?
Gráficos / Dispersión (x|y) / Dispersión
Descriptiva
Alzheimer1. txt estadsiticos
130
Correlación y Regresión Lineal Simple
Descriptiva. Coeficiente de correlación
531.0
iónDeterminac Coef.
7290
n Correlació Coef.
1.8))((1
1Covarianza
2 =
==
=−−−
= ∑
r
.ss
sr
yyxxn
s
yx
xy
iixy
Descriptiva
definicion
131
El Coeficiente de Correlación (r) da una medida del grado y la
dirección (-1; 1) de la relación entre dos variables continuas
El Coeficiente de Determinación (r2) cuantifica (0 ;1)
La información compartida por dos variables continuas
La relación
Correlación y Regresión Lineal Simple
Coeficientes r y r2
Interpretacion grafica
132
Correlación y Regresión Lineal Simple
Interpretación del Coeficiente de correlación
r =0.90 r =0.58
r = - 0.58 r =0.01
nube
133
Correlación y Regresión Lineal Simple
Modelo ¿Cómo predecir la respuesta?
Diagrama de dispersión
Gráficos / Dispersión (x|y) / Dispersión
Descriptiva
Alzheimer1. txt
134
Propiedades:DireccionaCuantificaPrediceMinimiza el error de predicción
Correlación y Regresión Lineal Simple
Coeficientes de la regresión
028.0
22.32
=−=
==
xbyass
bx
xy
xy 22.3028.0^ +=
Descriptiva
bxay +=^
Cuanto me equivoco
135
Correlación y Regresión Lineal Simple
Cuanto nos equivocamos al hacer la predicción
86421
2
22 .)( =−
−−
=
=
=
x
xyyr s
ss
nns
residuos los de típica Desviación
0 residuos los de Media
Residuo:Diferencia entre la realidad y el modelo
Descriptiva
Ejemplos de residuos
xy 22.3028.0^ +=
136
Correlación y Regresión Lineal Simple
Residuos vs coef. de correlación
Sr= 0.89 Sr= 2.4
Sr= 2.4 Sr= 3,8
output resultados
137
Modelo de CV con MOVILIDAD====================================================Número de Casos: 40
Modelo: Lineal----------------------------------------------------Ecuación: CV = 0.0286 + 3.2249 * MOVILIDAD----------------------------------------------------
Coef. E.E. t-valor p-valor---------------------------------------------------Ordenada 0.0286 2.7019 0.0106 0.9916 Pendiente 3.2249 0.4910 6.5675 0.0001---------------------------------------------------
r de Pearson (coeficiente de correlación) 0.7291r cuadrado (coeficiente de determinación) 53.16 %Desviación Típica de los Residuos 4.8605Rho de Spearman 0.6692 t-valor 5.5519 p-valor 0.0002E-2
Correlación y Regresión Lineal Simple
Resultados del Caso
Análisis/xy/Regresion lineal Simple/ModeloFichero: Alzheimer1. txt respuestas
138
Correlación y Regresión Lineal Simple
Respuestas a las preguntas (I)
¿Se puede cuantificar la asociación entre la Movilidad y la CV ?r=0.729 r2=0.531
¿Es debida al azar? ¿Es la relación Estadísticamente significativa?
p-valor=0.0001
Respondidas por la Correlación
139
Correlación y Regresión Lineal Simple
Respuestas a las preguntas (II)
En general cuanto varía la CV al variar una unidad la Movilidadb=3.224
¿Como predecir la CV a partir de la Mov. de cada individuo?Calidad de Vida= 0.028+3.224 Movilidad
¿Cuanto me equivoco al hacer la predicción?d.t. residuos=4.86
Respondidas por la Regresión
condiciones
140
Regresión Lineal Simple
Condiciones de Aplicación
Linealidad
Homocedasticidad
Normalidad de residuos
Y variable aleatoria
Independencia
que falla
141
Regresión Lineal Simple
¿Qué falla en este ejemplo?
No linealidad
142
Regresión Lineal Simple
Linealidad vs relación
Un coeficiente no significativo sólo implica: ausencia de relación Lineal
143
Correlación y Regresión Lineal Simple
Tres Estrategias si el modelo RLS no es válido
2.- Regresión polinómica
3.- Correlación no paramétrica de rangos: Rho de Spearman
1.- Transformación de variables
r de Pearson (coeficiente de correlación) 0.7291r cuadrado (coeficiente de determinación) 53.16 %Desviación Típica de los Residuos 4.8605Rho de Spearman 0.6692 t-valor 5.5519 p-valor 0.0002E-2
Pearson y spearman
144
Correlación y Regresión Lineal Simple
Pearson y Spearman
Karl Pearson 1857-1936 Charles E. Spearman 1863-1945
cigueñas
145
Contenido del curso
I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables
II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico
IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi-CuadradoFisher
V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados
VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia
III- EstimaciónConcepto de estimaciónError EstandarIntervalos de confianza
146
Técnicas MultivariantesRegresión Lineal MúltipleRegresión LogísticaKaplan-Meier y Regresión de Cox
Técnicas Multivariantes
Un aproximación intuitiva a las
…. el análisis del mundo real
147
Datos de 40 sujetos que sufren Alzheimer,(La Movilidad explica la Calidad de Vida p<0.0001)
¿Qué variables pueden explicar la CV ?
Posibles Predictoras:
Movilidad
Memoria (0-17)
Ingresos Económicos (€)
Integración social (0-10)
Regresión Lineal Múltiple
Ejemplo: Calidad de Vida en pacientes de Alzheimer
Datos
148
Regresión Lineal Múltiple
Calidad de Vida en pacientes de Alzheimer; Datos
Fichero: Alzheimer1. txt Posibles preguntas
149
Correlación y Regresión Múltiple
Posibles preguntas
¿Se puede cuantificar la relación entre la CV y las var. explicativas?
¿Es debida al azar?
¿Cuáles son las variables realmente explicativas?
¿En general cuánto varía la CV al variar una unidad cada variable explicativa ?
¿Cómo puedo predecir la CV para cada individuo?
¿Cuánto me equivoco al hacer la predicción?
Bivariante -Matriz de correlaciones
150
Análisis del mundo real
Matriz de correlaciones bivariantes
CV MOVILIDAD INGRESOS MEMORIA INTEGRACIÓN--------------------------------------------------------------------------------
CV 1.0000 0.7291 0.0589 0.9440 0.8588 (0.0001) (0.7181) (0.0001) (0.0001)
MOVILIDAD 0.7291 1.0000 0.0663 0.6893 0.6291 (0.0001) (0.6843) (0.0001) (0.0001)
INGRESOS 0.0589 0.0663 1.0000 0.1306 -0.1059 (0.7181) (0.6843) (0.4220) (0.5153)
MEMORIA 0.9440 0.6893 0.1306 1.0000 0.7816 (0.0001) (0.0001) (0.4220) (0.0001)
INTEGRACIÓN SOCIAL 0.8588 0.6291 -0.1059 0.7816 1.0000 (0.0001) (0.0001) (0.5153) (0.0001)
--------------------------------------------------------------------------------
La matriz de correlaciones permite cuantificar la relación de las variables entre sí
Multivariante /Regresión Múltiple (xz|y)/CorrelacionesFichero: Alzheimer1. txt Ecuación
151
varresp = b0 + b1 varexpl_1 + b2 varexpl_2 + ... + b4 varexpl_4
una variablerespuesta
Regresión Lineal Múltiple
Esquema del Modelo
^CV = a + b1 Movilidad + b2 Memoria + ... + b4 Ingresos
Ordenada Coeficientes de la regresión
¿Cómo se calculan los b?
varias variables explicativas o predictoras
batalla
152
CV
Análisis del mundo real
La batalla por la explicación de la variación
Movilidad
Ingresos
Memoria
Integración social
ajust
153
CV
Análisis del mundo real
La batalla por la explicación de la variación
Movilidad
Ingresos
Integración social
output
Memoria
154
Regresión Lineal Múltiple
Modelo inicial
Multivariante /Regresión Múltiple (xz|y) / Modelo
Variable Respuesta: CV Número de Casos: 40
------------------------------------------------------------------Coef. E.E. t-valor p-valor
------------------------------------------------------------------CONSTANTE -0.0783 1.1965 -0.0655 0.9482MEMORIA 1.8921 0.2327 8.1304 0.0001E-5MOVILIDAD 0.4427 0.2712 1.6327 0.1115 INGRESOS -0.0003E-1 0.0006 -0.0539 0.9573 INTEGRACIÓN SOCIAL 0.9286 0.2452 3.7863 0.0006
------------------------------------------------------------------
----------------------------------------------------------------------------Variabilidad S.Cuadrados G.L. C. medio F-valor p-valor
----------------------------------------------------------------------------Modelo 1789.7630 4 447.4407 123.4144 0.0004E-16
r cuadrado (coeficiente de determinación) 93.3795 %r cuadrado (ajustado) 92.6228 %Desviación Típica de los Residuos 1.9041
Fichero: Alzheimer1. txt Resumen y Filtros
155
Las siguientes siuaciones pueden darse:
• Una variable explicativa puede en bivariante serser significativa y en multivariante nono
• Una variable explicativa puede en bivariante no serno ser significativa y en multivariante sísí
RLM Modelo inicial
Consecuencias, filtros y paradojas
¿ Inutilidad de los filtros previos ?
Depuracion
NoNoINGRESOS
SiSíIntegración SOCIAL
NoSíMOVILIDAD
SíSíMEMORIA
MúltipleInicial
BivarianteFactor
156
¿Qué hacer con las variables no significativas en el modelo multiple inicial?
Depuración del modelo
Regresión Lineal Múltiple
Mejora del Modelo inicial
Selección automatica de variables:hacia delante hacia atráspaso a paso
Eliminación directa
^CV= -0.078 + 1.89*MEMORIA + 0.44*MOVILIDAD - 0.00003*INGRESOS + 0.928*INTEGRACIÓN
resultados
157
• El modelo va incorporando variables paso a paso
• En el paso 1, la variable MEMORIAentra en el modelo, porque es la que más explica la CALIDAD DE VIDA.
• En el paso 2, se incorpora la Integración SOCIAL
• Las restantes variables NO aportan capacidad explicativa al modelo, por lo que se quedan fuera.
• En cada paso podemos saber cuánto somos capaces de explicar de la CALIDAD DE VIDA.
Regresión Lineal Múltiple
Ejemplo: Modelización hacia adelante
Multivariante /Regresión Múltiple (xz|y)/ModeloFichero: Alzheimer1. txt resultados
158
Variable Respuesta: CVVariable(s) Explicativa(s): MEMORIA, MOVILIDAD, INGRESOS, INTEGRACIÓN SOCIAL--------------------------------------------------------------
Coef. E.E. t-valor p-valor --------------------------------------------------------------CONSTANTE 1.0562 0.8010 1.3187 0.1954MEMORIA 2.0357 0.2043 9.9667 0.0005E-8INTEGRACIÓN SOCIAL 1.0084 0.2283 4.4169 0.0008E-1
--------------------------------------------------------------
----------------------------------------------------------------------------Variabilidad Cuadrados G.L. Medio F-valor p-valor
----------------------------------------------------------------------------Modelo 1780.0977 2 890.0488 241.1557 0.0006E-18----------------------------------------------------------------------------
r cuadrado (coeficiente de determinación) 92.8752 %r cuadrado (ajustado) 92.4901 %Desviación Típica de los Residuos 1.9211
RLM – Modelización hacia adelante
Modelo Final
Multivariante /Regresión Múltiple (xz|y) / Modelo
Modelización hacia adelante
Fichero: Alzheimer1. txt perfiles
159
Predicción del Modelo RLM
Perfiles de pacientes y Predicción de CV
Predicción CV MEMORIA INTEGRACION
4.1 1 111.2 1 89.2 3 2
12.2 3 517.3 6 421.3 6 821.4 9 224.4 9 528.5 9 9
preguntas
Calidad de Vida= 1.05 + 2.03 MEMORIA + 1.00 INTEGRACIÓN
160
Correlación y Regresión Múltiple
Respuestas a las posibles preguntas
¿Se puede cuantificar la relación entre la CV y las var. explicativas?R2 = 92.49 %
¿Es posible explicar significativamente la CV; es debida al azar? P-valor modelo =0.0006E-18
¿Cuáles son las variables Explicativas?Memoria e Integración
¿En general, cuánto varía la CV al variar una unidad cada variable Explicativa ?Los coeficientes bi: +2.03 y +1.00
¿Cómo puedo predecir la CV para cada individuo?Mediante la ecuación de regresión
¿Cuánto me equivoco al hacer la predicción?Sr = 1.9211 Restricciones
161
Validación del modelo:
Los residuos del modelo deben seguir cumpliendo :Linealidad
Homocedasticidad
Normalidad de residuos
Y variable aleatoria
Independencia
Regresión Lineal Múltiple
Validación y garantía del modelo
Análisis de la distribución de residuales
Media =cero
Normalidad
Incorrelados con la respuesta
Homocedasticidad
residuos
162
Estadístico Residuo
------------------------------------
N 40
Media -0.0006
Desviación Típica 1.8712
Regresión Lineal Múltiple
Análisis de los Residuos
Contraste de Normalidad
--------------------------------------
W Shapiro-Wilk: 0.9638
p-valor Shapiro-Wilk: 0.2255
Yule
163
El término "regresión múltiple" fue utilizado por primera vez por Karl Pearson en 1908, aunque su discípulo George Udny Yule (1871-1951) estudió
previamente sus propiedades. Yule fue un matemático escocés interesado en las ciencias sociales.
George Udny Yule
Regresión Lineal MúltipleYule
mas alla
164
Regresión Lineal Múltiple
Mejoras del modelo
Transformación
Regresión polinómica
Modelización de Interacciones
Var dummies
Nuevos predictores
fin
165
Regresión Logística
¿Como modelizar una respuesta dicotómica?
166
Regresión Logística
Ejemplo: Rehabilitación de accidentados
167
Regresión LogísticaEjemplo: Rehabilitación de accidentados
Estudio en 46 sujetos víctimas de accidentes graves de tráfico
Se desea saber si la inmovilización previa, la focalización de la lesión, el número de horas hasta quirófano y la edad del sujeto influyen en una rehabilitación satisfactoria del paciente.
Variable respuesta dicotómica:REHABILITA
0 No se rehabilita
1 Se rehabilita satisfactoriamente
Variables explicativas: INMOVILIZA
0 No se inmoviliza
1 Si se inmoviliza
FOCAL
0 Lesión difusa
1 Lesión focalizada
HORAS hasta intervención
EDAD en años
datos
168Fichero: Rehabilitacion1.txt
Regresión Logística
Datos del Ejemplo
preguntas
169
Regresión Logística
Las mismas preguntas naturales
¿Se puede cuantificar la relación entre Rehabilitación y las var. explicativas?
¿Es debida al azar?
¿Cuáles son las variables realmente Explicativas?
¿Cuánto influye cada variable explicativa en la Rehabilitación?
¿Cómo puedo predecir la Rehabilitación para cada individuo?
¿Cuánto me equivoco al hacer la predición?
todos los multivariante son parecidos
170
NoSíSíPredición para individuos
NoR2 + ClasificaR2Rendimiento del modelo
HRORBMedida del efecto de las v. explicativas
NoSíSíError en la Predición
SíSíSíVarias variables explicativas
SíSíSíSignificación global del efecto
R. CoxR. LogísticaRLMCaracterística
SíSíSíModelo final
SíSíSíModelo inicial
SíSíSíAproximación bivariante errónea
Censur.DicotómicaCuantit.Única variable Respuesta
Las Técnicas de Regresión Multivariantes son parecidas
logit
171
La variable respuesta es dicotómica.Pero no se puede modelizar como tal
Se modeliza la probabilidad de ocurrencia del suceso
Regresión Logística
La diferencia
Función Logit de p = Ln odds p= Ln (p/1-p)
ecuacion log
172
bpXpXbXbbXOcurP
XOcurP++++=⎥
⎦
⎤⎢⎣
⎡
−...
)()(
ln 221101
r
r
Regresión Logística
La ecuación de regresión
)....22110(11),...,3,2,1|( bpXpXbXbbe
XpXXXOcurP++++−+
=
Matriz de correlaciones
173
Regresión Logística
Ejemplo: Correlación y significación bivariantes
Multivariante / Regresión Múltiple (xz|y) / Correlaciones - Spearman
r de Spearman(Significación)
REHABILITA INMOVILIZA HORAS FOCAL EDAD -----------------------------------------------------------------------
REHABILITA 1.0000 0.4019 -0.4089 0.2267 -0.3395 (0.0056) (0.0048) (0.1298) (0.0210)
INMOVILIZA 0.4019 1.0000 -0.3441 0.3867 -0.3412 (0.0056) (0.0192) (0.0079) (0.0203)
HORAS -0.4089 -0.3441 1.0000 -0.0083 0.2170 (0.0048) (0.0192) (0.9563) (0.1475)
FOCAL 0.2267 0.3867 -0.0083 1.0000 -0.2950 (0.1298) (0.0079) (0.9563) (0.0465)
EDAD -0.3395 -0.3412 0.2170 -0.2950 1.0000 (0.0210) (0.0203) (0.1475) (0.0465)
Fichero: Rehabilitacion1.txt modelo ini
174
Regresión Logística
Ejemplo. Modelo inicial
Valor modelizado (ocurrencia): REHABILITA = 1
Ajuste del Modelo (Diferencia de Likelihood)------------------------------------------------------------------Chi-Cuadrado = 16.2828; G.L. 4; p-valor = 0.0027
R Cuadrado del Modelo:-------------------------Cox-Snell = 0.2981Nagelkerke = 0.3985
Regresión Logística:----------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R
----------------------------------------------------------------------INMOVILIZA 1.0002 0.7611 1.7272 1 0.1888 0.0000 HORAS -0.4671 0.2052 5.1836 1 0.0228 -0.2240 FOCAL 0.6371 0.7823 0.6633 1 0.4154 0.0000 EDAD -0.0646 0.0521 1.5376 1 0.2150 0.0000 CONSTANTE 3.3008 1.8457 3.1982 1 0.0737 0.1375
Multivariante / Regresión Logística / Modelo ocurrencia=1Fichero: Rehabilitacion1.txt depuracion
175
• Globalmente, el modelo es estadísticamente significativo, no nulo. p-valor= 0.0027
• Los predictores consiguen explicar de forma conjunta el R2= 39.85%
• HORAS se mantiene significativa en el modelo inicial
• INMOVILIZACION y EDAD dejan de ser significativos
• FOCAL sigue sin ser significativo
Regresión Logística
Conclusiones del modelo inicial
Depuración y especificación del modelo
Selección de variables hacia delante paso a paso
Eliminación directa
modelo final
176
Ajuste del Modelo (Diferencia de Likelihood)------------------------------------------------------------------Chi-Cuadrado = 13.6425; G.L. 2; p-valor = 0.0011
R Cuadrado del Modelo:-------------------------Nagelkerke = 0.3431
Regresión Logística:--------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R
--------------------------------------------------------------------HORAS -0.4295 0.1926 4.9735 1 0.0257 -0.2165INMOVILIZA 1.3993 0.7116 3.8667 1 0.0493 0.1716 CONSTANTE 1.5131 0.9977 2.3003 1 0.1293 0.0688
Variable OR IC95.0%inf IC95.0%sup------------------------------------------------HORAS 0.6509 0.4462 0.9493 INMOVILIZA 4.0525 1.0046 16.3478
Regresión Logística
Modelo final
Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelanteFichero: Rehabilitacion1.txt Resumen filtros
177
NoNoSíEdad
NoNoNoFocal
SíNoSíInmoviliza
SíSíSíHoras
MúltipleFinal
MúltipleInicial
BivarianteFactor
Regresión Logística
Consecuencias de la colinealidad y confusión
Estudio de Rehabilitación
Interpreta coeficientes
178
Ajuste del Modelo (Diferencia de Likelihood)------------------------------------------------------------------Chi-Cuadrado = 13.6425; G.L. 2; p-valor = 0.0011
R Cuadrado del Modelo:-------------------------Nagelkerke = 0.3431
Regresión Logística:--------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R
--------------------------------------------------------------------HORAS -0.4295 0.1926 4.9735 1 0.0257 -0.2165INMOVILIZA 1.3993 0.7116 3.8667 1 0.0493 0.1716 CONSTANTE 1.5131 0.9977 2.3003 1 0.1293 0.0688
Variable OR IC95.0%inf IC95.0%sup------------------------------------------------HORAS 0.6509 0.4462 0.9493 INMOVILIZA 4.0525 1.0046 16.3478
Regresión Logística
Coeficientes
Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelanteFichero: Rehabilitacion1.txt Interpreta coeficientes
179
Para cada coeficiente bi del modelo se puede calcular el efecto de la variable mediante el OR
ibi
i
ORe
ORbi
=
= )ln(
Medida del efecto de los factores
Interpretación de los coeficientes de Reg. Logística
Dificulta el eventoMenor de 1Negativo
Favorece el eventoMayor de 1Positivo
Efecto(OR)Coeficiente b
Output final
180
Regresión Logística
Perfiles de pacientes y Prob. de Rehabilitación
INMOVILIZA HORAS B Prob. (Rehab./ B)0 1 1,084 0,75
0 3 0,226 0,56
0 5 -0,632 0,35
0 7 -1,49 0,18
0 9 -2,348 0,09
1 1 2,483 0,92
1 3 1,625 0,84
1 5 0,767 0,68
1 7 -0,091 0,48
1 9 -0,949 0,28
)429.0399.1513.1(11)2,1|1( HORASINMOVILIZAe
XXREHABILITAP−+−+
==
Cuanto me equivoco?
181
La Regresión Logística como dispositivo Diagnóstico
Tabla de Clasificación para REHABILITA (Punto de corte = 0.50)----------------------------------------------------------
| Predicción | | Observados | 1 | 0 | % Correcto
----------------------------------------------------------1 | 16 | 9 | 64.0000 % 0 | 8 | 13 | 61.9048 %
----------------------------------------------------------| | | 63.0435 %
Índices de Diagnóstico----------------------------------------Valor Predictivo Positivo = 0.6667Valor Predictivo Negativo = 0.5909Sensibilidad = 0.6400Especificidad = 0.6190Indice de Youden = 0.2590
Fichero: Rehabilitacion1.txt Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelante Como optimizar
182
La Regresión Logística como dispositivo Diagnóstico
Optimización
Punto de corte =0.4565
Tabla de Clasificación para REHABILITA (Punto de corte = 0.46)----------------------------------------------------------
| Predicción | | Observados | 1 | 0 | % Correcto
----------------------------------------------------------1 | 17 | 8 | 68.0000 % 0 | 8 | 13 | 61.9048 %
----------------------------------------------------------| | | 65.2174 %
Índices de Diagnóstico----------------------------------------Valor Predictivo Positivo = 0.6800Valor Predictivo Negativo = 0.6190Sensibilidad = 0.6800Especificidad = 0.6190Indice de Youden = 0.2990
Fichero: Rehabilitacion1.txt Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelante Q & A
183
Regresión Logística
Las mismas preguntas naturales
¿Se puede cuantificar la relación?Nagelkerke = 0.3431
¿Es posible explicar significativamente la Respuesta->Rehabilitación?p-valor = 0.0011
¿Cuáles son las variables realmente Explicativas?Horas e Inmoviliza
¿Cuánto influye cada variable explicativa en la Rehabilitación?OR=0,65(Horas) OR=4,05 (Inmoviliza)
¿Cómo puedo precedir la probabilidad de Rehabilitación para cada individuo?Mediante la ecuación del modelo
¿Cuánto me equivoco al hacer la predición?1.00 - 0.65=0.35
fin
184
Análisis de Supervivencia
Estudio del tiempo hasta …
185
Análisis de Supervivencia
Ejemplo: Cirugía y Recidiva
89 pacientes han sido sometidos una operación quirúrgica.
Se estudiará si un Tratamiento farmacológico puede retrasar la recidiva.
Se sospecha que la Gravedad y el nivel de un Marcador puede influir en la recidiva.
Tiempo total del estudio: 64 meses.
Concepto de censura
MarcadorGravedad Trat
Tiempo LS
186
Pac
iente
s
Fin del estudio
Evento: Recidiva
Evento
Evento
Incumplimiento terapéutico (censurado)
Sin evento en el fin (censurado)
Sin evento en el fin (censurado)
Estudio del tiempo hasta
Concepto de censura
Inicio del estudio
Desaparece (censurado)
Tiempo 640
Tipos de variables
187
Explicativas
TiempoTiempo hasta que ocurre un evento
Respuesta de Censura
indica si se ha producido el evento
Posible influencia sobre el tiempo
Eje
mp
los
Hasta exitus (-)
Hasta recaída (-)
Hasta síntomas (-)
Hasta curación (+)
Hasta efecto (+)
• No cumplimiento
• Perdida del seguimiento
• Efectos secundarios
• Violaciones al protocolo
• Fin del estudio
Diagnóstico al inicio
Tratamiento
Dosis
Antecedentes
Gravedad
Factor de riesgo
Análisis de Supervivencia
Variables
Variables en el ejemplo
188
Análisis de Supervivencia
Variables del ejemplo “Cirugía y Recidiva”
Respuesta
TIEMPO LS: Tiempo transcurrido entre la intervención y la recidiva (meses)
Censura
Evento (0=dato censurado; 1=evento )
Explicativas
Trat: 0=No; 1=Si
Gravedad : 1=Baja; 2=Moderada; 3= Grave
Marcador: Concentración del Marcador (rango: 16-66)
BDatos
189
Análisis de Supervivencia
Datos Ejemplo
Fichero: Tiempo hasta recidiva2.txt Descriptiva erronea
190
Análisis de Supervivencia
Descriptiva Errónea
Gráficos /xy/Fichero: Tiempo hasta recidiva2.txt
Sin considerar la censura
Curva KM
191
Permite comparar diferentes grupos
Análisis de Supervivencia
Descriptiva S(t), Kaplan-Meier por grupos
Formula KM
Función de probabilidad de supervivencia de Kaplan Meier
192
Análisis de Supervivencia
Descriptiva S(t), Kaplan-Meier por grupos
Función de probabilidad de supervivencia de Kaplan-Meier
Pregunta para descriptiva:¿Que probabilidad se tiene de llegar / alcanzar diferentes tiempos?
Tabla KM
i
iij
i
KMj n
dnS
−= ∏
=1
193
Análisis de Supervivencia
Kaplan-Meier para el grupo Trat=1i
iij
i
KMj n
dnS
−= ∏
=1
0,00000,000010152
0,24740,666731148
0,37110,857173144
0,43290,6000152640
0,72150,8889181236
0,81170,9091222232
0,89290,8929283324
Sj(nj-dj)/njnjljdjtj
Tabla KM salida PC
194
• Al cabo de 1,9 meses, aparecen 3 recidivas.
• En ese instante se calcula la probabilidad de supervivencia: 25 pacientes de los 28 de estudio no han recidivado, luego p=25/28 = 0.975
• A los 2,1 meses aparecen 2 nuevos casos de recidiva y 3 censurados
• En ese instante se calcula la probabilidad de supervivencia.
• La probabilidad de supervivencia es el producto de las probabilidades de no recidivar en el período 0-1,9 meses por la de no recidivar en el período 1.9-2.1 meses, esto es 0.8929 x (20/(25-3)= 0.954
Análisis de Supervivencia
Descriptiva. Tabla de Kaplan-Meier
Multivariante /Regresión de Cox / K-M tablaFichero: Tiempo hasta recidiva2.txt Curva KM Trat
195Multivariante /Regresión de Cox / K-M Gráfico
Análisis de Supervivencia
Descriptiva por Trat. Curva de Kaplan-Meier
Fichero: Tiempo hasta recidiva2.txt
Trat
Curva KM Estres
196
Análisis de Supervivencia
Descriptiva por Gravedad
GravedadFichero: Tiempo hasta recidiva2.txt macador
197
Análisis de SupervivenciaDescriptiva por Marcador
Marcadorpreguntas
198
Regresión de COX
Las mismas preguntas de siempre
¿Se puede cuantificar globalmente la relación?
¿Es significativa?
¿Cuáles son las variables Explicativas?
¿Cuánto influye cada variable explicativa en la respuesta?
¿Cómo puedo predecir el Tiempo S L para cada individuo?
¿Cuánto me equivoco al hacer la predicción?
En multivariante
ecuacion cox
199
h(t|Trat, Gravedad, Marcador) = ho(t)·exp(b1 Trat+ b2 Gravedad+b3 Marcador)
Ecuación de regresión de Cox
Función de riesgo (h) Coeficientes de var. explicativas
Tiempo
Bivariante
Es una tasa que mide el cambio instantáneo del valor de una variable
La FUERZA DE MORBILIDAD: Fuerza que una enfermedad tiene para cambiar el estado de salud al de enfermedad por unidad de tiempo.
El POTENCIAL instantáneo de cambio en el status de enfermedad por unidad de tiempo, en relación con la población susceptible.
200
Regresión de COX
Analisis Bivariantes
Coeficiente Cox(Significación)
Trat Gravedad Marcador----------------------------------------------------
Tiempo LS -0.1897 0.2238 0.1651(0.4568) (0.2368) (0.0005E-11)
output cox
201
Variable Respuesta: Tiempo LSVariable Censura: EVENTOValor asociado al dato censurado: EVENTO=0Variable(s) Explicativa(s): Trat, Gravedad, Marcador
Ajuste del Modelo (Diferencia de Likelihood)---------------------------------------------------------------------Chi-Cuadrado = 76.0027; G.L. 3; p-valor = 0.0002E-12
Regresión de Cox---------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R
---------------------------------------------------------------------Trat -0.6257 0.2807 4.9683 1 0.0258 -0.0811Gravedad -0.1319 0.2057 0.4114 1 0.5213 0.0000 Marcador 0.1844 0.0238 59.9479 1 0.0010E-11 0.3584
Variable HR IC95.0%inf IC95.0%sup----------------------------------------------Trat 0.5349 0.3085 0.9273 Gravedad 0.8764 0.5856 1.3116 Marcador 1.2024 1.1476 1.2599
Regresión de COX
Variables y Coeficientes del modelo inicial
Multivariante /Regresión de Cox (xz|y cens)/ModeloTiempo hasta recidiva2.txt Interpretacion de Bi y HR
202
Medida del efecto de los factores
Interpretación de los coeficientes iniciales de Reg. Cox
Acelera el tiempo para el eventoMayor de 1Positivo
Enlentece el tiempo para el evento Menor de 1Negativo
Efecto del factorHazard Ratio (HR)Coeficiente b
Output inicial
• exp(b)= Hazard Ratio (HR)
Razón de Riesgos
h(t|Trat, Gravedad, Marcador)=ho(t)·exp(-0.625·Trat + -0.131·Gravedad - 1.184·Marcador)
203
• Coef negativo:El factor enlentece el evento
• Coef positivos:El factor acelera el evento
Regresión de COX
Interpretación de Coeficientes del modelo inicial
HR menor que uno implica que el grupo Con TRAT=1 y tiene mayor supervivencia (tiempo enlentecido)
HR mayor que uno implica que los grupos con elevados niveles de Marcador tienen menor supervivencia (tiempo acelerado)
Multivariante /Regresión de Cox (xz|y cens)/Modelo ; K=1Fichero: Tiempo hasta recidiva2.txt Interpretacion de HR
204
HRReducción vs
HR=1Ratio de
medianasElasticidad del tiempo hasta ..
10 -9 0,10 10%
6 -5 0,17 17%
2 -1 0,50 50%
1,5 -0,5 0,67 67%
1,2 -0,2 0,83 83%
1 0 1,00 100%
0,7 0,3 1,43 143%
0,66 0,33 1,50 150%
0,5 0,5 2,00 200%
0,33 0,67 3,00 300%
0,2 0,8 5,00 500%
0,1 0,9 10,00 1000%
0,06 0,94 16,67 1667%
Ace
lera
Enl
ente
ce
Regresión de COX
Interpretación del HR ( en modelos exponenciales / riesgos constantes a lo largo del tiempo )
Interpretacion grafica del HR
E(%)=100/HR
205
0102030405060708090
100
0 50 100 150 200
HR=2 HR=0.5
Regresión de COXInterpretación de HR
Modelo final
206
Regresión de COXModelo ajustado: Selección hacia adelante
Multivariante /Regresión de Cox (xz|y cens)/Modelo
Ajuste del Modelo (Diferencia de Likelihood)----------------------------------------------------------------------
Chi-Cuadrado = 75.5933; G.L. 2; p-valor = 0.0004E-13
Regresión de Cox
-----------------------------------------------------------------------
Variable Coef. E.E. Wald G.L. p-valor R
-----------------------------------------------------------------------
Marcador 0.1820 0.0236 59.6303 1 0.0001E-10 0.3574
Trat -0.6036 0.2777 4.7240 1 0.0297 -0.0777
Variable HR IC95.0%inf IC95.0%sup
----------------------------------------------
Marcador 1.1997 1.1455 1.2564
Trat 0.5468 0.3173 0.9424
Fichero: Tiempo hasta recidiva2.txt
No hay medida del rendimiento global del modelo
No hay predicción para individuos
Debe ser comprobada la asunción de h(t) proporcionales
cox
207
Los avances más significativos en el análisis de la supervivencia aplicado a los ensayos clínicos han sido debidos a Kaplan y Meier (1958) que presentaron un método para estimar la función de supervivencia, a Mantel (1966) que definióel estadístico Log-Rank para comparar dos distribuciones de supervivencia y a Cox (1972) que propuso el modelo de riesgos proporcionales para cuantificar
el efecto de covariables sobre el tiempo de supervivencia.
David Roxbee Cox
Regresión de COXCox
perfiles
208
Regresión de COX
Comparación de Perfiles
fin
Trat1 Marc1 Trat2 Marc2 HR Elasticidad
1 40 0 40 0.55 183%
1 35 1 30 2.48 40%0 35 0 30 2.48 40%
1 35 0 30 1.36 74%0 30 1 35 0.74 136%
0 30 1 33.3 1.00 100%
Perfil1 Perfil 2
)()(exp( 2121 MMbTTbHR MarcadorTrat −+−=