curso _gstat_12

1

Curso teórico práctico

Introducción a la BioestadísticaTécnicas Multivariantes en Biomedicinacon el Programa de Análisis Estadísticos G-Stat 2.0

Alejandro Pedromingo MarinoBiometría GSKTres Cantos, Madrid www.e-biometria.com

Ver 12

2

6D1_90

Clasificación práctica de las técnicas estadísticas

6D1_90

Estima

ESTIMACIÓN

Poblaciones

Decide

C.HIPÓTESIS

Conocimiento

Muestras

ProcesaResume

DESCRIPTIVA

ejemplo

3

63 enfermos tomaron parte en un estudio cruzado para determinar la eficacia de 2 tratamientos: A y B.Al término del estudio señalaron su preferencia por uno de ellos.

31 prefieren A

15 prefieren B

17 no muestran preferencia

Ejemplo

Resultados

Clasificación de la Estadística

Descr_estim

4

Población

El verdadero valor de la diferencia A-B en la población estará comprendido en el IC

[ 9.2% A-B 41.2% ]

Estimación

Diferentes tipos de técnicas estadísticas (I)

49.2 %

23.8%

26.9%

A-B = 25.4 %

Muestra

A

B

A B

Descriptiva

CH- mod

5

Explicación / Predicción

Si el sujeto es mujer y la gravedad es moderada la preferencia de A sobre B es solo un 12%

Modelización

Diferentes tipos de técnicas estadísticas (y II)

Existe evidencia de que A es más preferido que B

(McNemar; p=0.0183)

ConocimientoC. Hipótesis

Contenido

6

Contenido del curso

I- Manejo de G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables

II- DescriptivaTipos de variablesDescriptiva uni y bivarianteGráficos Ajuste a la normalEpidemiología, Diagnóstico

IV- Pruebas estadísticast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher

V- Correlación y Regresión simpleDiagrama de dispersiónCoeficientes de la recta de regresiónCorrelación de Pearson y SpearmanAnálisis de los residuosModelos transformados

VI- Técnicas multivariantesRegresión lineal múltipleRegresión logísticaAnálisis de supervivencia

III- EstimaciónConcepto de estimaciónError estandarIntervalos de confianza

G-stat

7

Módulo I : G-Stat 2.0 / Manejo de Datos

G-Stat 2.0

� Características� Instalación y contenido del CD-ROM� Pantalla de trabajo (BdD) y Menús

Manejo de datos� Fichero de ejemplo� Importar datos� Transformación de variables� Recodificación y filtrado de variables

Caracteristicas

8

Características

� SW Libre distribución� Enfocado en Bio-Ciencias� Actualizable

� Menús con orden� Multi S.O.� No programación� Usuarios no profesionales de la estadística� Desarrollado por Biometría-GSK

G-Stat 2.0

instalacion

9

Instalación:1. Leer las condiciones de licencia2. Doble clic en install3. Doble clic en la opción del sistema operativo en la ventana que aparece4. Seguir instrucciones de instalación5. Observar que hay una versión PDF del manual

G-Stat 2.0

Instalación y contenido del CD

Pantallas y menus

10

G-Stat 2.0

Pantalla de trabajo y Menús

Fichero integrado

11

Manejo de datos

Fichero integrado

Importar

Iconos

Variables

Casos

12

Bases de Datos EXCEL ASCII SW ESTADÍSTICO

Texto delimitado por tabulaciones

Manejo de datos

Importar datos

Abrir Manejo de datos1.txt

13

Variables del fichero Manejo de datos1.txt

EDAD: (edad en años del paciente)

SEXO: 1_Hombre, 2_Mujer

PESO: en Kg.

TALLA: en cm.

TAS: en mmHg.

TAD: en mmHg.

DIABETES: No, Tipo 1, Tipo 2

Manejo de datos

Abrir Archivo

Fichero: Manejo de datos1.txt Trtans , Recod, filtrar

14

Ejemplos:

DT=TAS-TADLog_peso=ln(Peso)IMC=Peso/altura^2

Manejo de datos

Transformación de variables

Transformación

Manejo de datos1.txt recodificacion

15

Recodificar BdD Recodificada

Manejo de datos

Recodificación

Fichero: Manejo de datos1.txt filtro

16

Filtrar BdD Filtrada

Manejo de datos

Filtrado

Fichero: Manejo de datos1.txt Analisis en 1 min

17

Manejo de datos Cómo realizar un análisis estadístico en menos de 1’

No programación

No hay sesiones

Sí hay que guardar resultados

Sí hay que guardar datos

fin

18

Contenido del curso

I- G-Stat/DatosCaracterísticas, InstalaciónMenúsImportar datosManejo de variables


IV- Pruebas estadísticast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher




19

Definición y Bases de Datos

Tipos de variables

Descriptiva uni y bivariante, análisis estratificado

Gráficos

Ajuste a la normal

Medidas de efecto en Epidemiología y Diagnóstico

Validación de los datos

Módulo II Descriptiva

definiciones

20

Algunas definiciones básicas

PoblaciónMuestraMuestra representativa o aleatoriaCaso, sujeto, unidad, registro

Características / Variablesfactores campos

respuesta / explicativaprincipal, secundariascovariablesdemográficasgestiónficticias

Base de datos

definición

21

índices, medidas, estadísticos

Resumir, describir, sintetizar … la muestra

Descriptiva

Objetivo de la Estadística Descriptiva

obtenidos a partir de la muestra

publicación

22

Ejemplo de publicación

estudio migraña

23

Descriptiva

Estudio de Migraña

Se desea hacer un análisis descriptivo de una muestra de 259 migrañosos. Se han recogido datos relacionados con su enfermedad.

Definicion variables

Variables

Centro Centro1, Centro2…

Sexo: Mujer, Hombre

Edad Años

Intensidad: 1 Leve, 2 Moderada, 3 Severa

Duración: 1 (4-12h), 2 (12-24h), 3 (24-48h), 4 (>48h)

Localización: 1 Hemicraneal, 2 Holocraneal

Productividad: Pérdida de horas laborables /año

FBG: Fibrinógeno sérico

Leucocitos: Recuento

24

Descriptiva

Datos Estudio MigrañaCENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 100.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .

Los estadísticos dependen …

25

¡ Los Estadísticos descriptivos que se emplean

dependen del tipo de variable !

Descriptiva

26

Ordinales

Cualitativas (a,b,c)

Cuantitativas (x,y,z)

Centro, Tratamiento

Temperatura, Edad, Col.

Dicotómicas o Binarias Sexo, Curación

¡ Las pruebas estadísticas dependen del tipo de variable !

Descriptiva

Clasificación de Variables

Descriptiva

EstimaciónContrate

Mejoría, Gravedad

27

Núm. Var.

Var. Respuesta

Var. Explicativa

Datos en la Muestra

Tipo de Técnica Técnica Menú

1 C Indep. Param. t-Student para una muestra Análisis / Cuantitativa (y) / t-Student1 C Indep. Param. Chi-2 para una desviación típica Análisis / Cuantitativa (y) / Chi-2 para una desviación típica1 C Indep. Param. Chi-2 bondad de ajuste Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Kolmogorov Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Kolmogorov-Lilliefors Análisis / Cuantitativa (y) / Ajuste1 C Indep. Param. Shapiro-Wilk Análisis / Cuantitativa (y) / Ajuste1 D Indep. No Par. z para una muestra Análisis / Cualitativa (a) / Una Proporción1 O Indep. No Par. Signos para una muestra Análisis / Cuantitativa (y) / Signos1 O Indep. No Par. Wilcoxon para una muestra Análisis / Cuantitativa (y) / Rangos Signados1 Cens. Indep. No Par. Kaplan-Meier Multivariante / Regresión de Cox (xz|y cens)2 C C Indep. Param. Regresión lineal simple Análisis / x|y / Regresión Lineal Simple2 C C Indep. Param. Regresión lineal simple con transformaciones Análisis / x|y / Modelos Transformados2 C C Indep. Param. Regresión polinómica Análisis / x|y / Regresión Polinómica2 C D Indep. Param. t-Student para dos muestras independientes Análisis / Dos grupos (b|y) / t-Student2 C D Indep. Param. F-Snedecor para dos desviaciones típicas Análisis / Dos grupos (b|y) / F-Snedecor2 C D Paread. Param. t-Student para dos muestras pareadas Análisis / Dos grupos (b|y) / t-Student. Pareados2 C N Indep. Param. ANOVA 1 factor Anova / Un Factor (a|y)2 C N Paread. Param. ANOVA 1 factor con bloques Anova / Un Factor con Bloques (a bloque|y)2 C N Paread. No Par. Friedman Anova / Friedman (a bloque|y)2 D C Indep. No Par. Regresión logística simple Multivariante / Regresión Logística (xz|b)2 D D Indep. No Par. ROC Análisis / Diagnóstico (b|b) / ROC (y|b)2 D D Indep. No Par. Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado2 D D Indep. No Par. z Análisis / Tablas (a,b) / Dos proporciones. Datos agrupados2 D D Indep. No Par. Fisher Análisis / Tablas (a,b) / Fisher2 D D Indep. No Par. OR, RR Análisis / Epidemiología (b|b) / Tablas2 D D Indep. No Par. Diagnóstico Análisis / Diagnóstico (b|b) / Tablas2 D D Paread. No Par. McNemar Análisis / Tablas (a,b) / McNemar2 D N Indep. No Par. Metha-Patel No disponible2 D O Indep. No Par. Chi-2 de tendencia lineal Análisis / Tablas (a,b) / Chi-Cuadrado tendencia lineal (y|b)2 N C Indep. Param. Análisis discriminante No disponible2 N D Indep. No Par. z / Chi-2 Análisis / Tablas (a,b) / Chi-Cuadrado2 O D Indep. No Par. Mann-Whitney / Wilcoxon para dos muestras independientes Análisis / Dos grupos (b|y) / Mann-Whitney (Wilcoxon)2 O D Paread. No Par. Signos para dos muestras pareadas Análisis / Dos grupos (b|y) / Signos. Pareados2 O D Paread. No Par. Wilcoxon para dos muestras pareadas Análisis / Dos grupos (b|y) / Wilcoxon. Pareados2 O N Indep. No Par. Kruskal-Wallis Anova / Kruskal-Wallis (a|y)2 O O Indep. No Par. Jonckheere-Tersptra No disponible2 Cens. C Indep. No Par. Regresión de Cox simple Multivariante / Regresión de Cox (xz|y cens)2 Cens. D Indep. No Par. Log-Rank Análisis / Dos grupos (b|y cens) / Log-Rank3 C C,D Indep. Param. ANACOVA Anova / Anacova (ax|y)3 C N,N Indep. Param. ANOVA dos factores Anova / Anova Dos Factores (ab|y)≥3 C C,D Indep. Param. Regresión lineal múltiple Multivariante / Regresión Múltiple (xz|y)≥3 D C,D Indep. No Par. Regresión logística múltiple Multivariante / Regresión Logística (xz|b)≥3 D N,D Indep. No Par. Mantel-Haenszel Análisis / Epidemiología (b|b) / Mantel-Haenszel≥3 N C,D Indep. Param. Análisis discriminante múltiple No disponible≥3 O C,D Indep. No Par. Regresión "Odds proportional" múltiple No disponible≥3 Cens. C,D Indep. No Par. Regresión de Cox múltiple Multivariante / Regresión de Cox (xz|y cens)≥3 C,C N Indep. Param. MANOVA No disponible≥4 C,C N,C Indep. Param. MANACOVA No disponible2 C,C Indep. Param. r de Pearson Análisis / x|y / Regresión Lineal Simple2 C,C Indep. No Par. Rho de Spearman Análisis / x|y / Regresión Lineal Simple

Resumen de utilización de las 50 principales técnicas estadísticas

¡ Las pruebas Estadísticas dependen del tipo de variable !

QA

28

CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 100.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .

Estudio Migraña¿De qué tipo son las variables del estudio?

Fichero: Migranna1.txt

29

Descriptiva univariante variables Cualitativas (a)Frecuencias y Barras

Frecuencias==============================================Número de Casos: 259

INTENSIDAD Frecuencias Porcentajes -------------------------------------------Leve 22 8.49 Moderada 149 57.53 Severa 88 33.98

-------------------------------------------Total 259 100.00

SEXO Frecuencias Porcentajes --------------------------------------Hombre 81 31.52 Mujer 176 68.48

--------------------------------------Total 257 100.00

Moda: nivel observado más frecuente

Fichero: Migranna1.txt Descriptiva / Cualitativas (a)(b) Bivariantes , cruces

30

Descriptiva bivarianteCruces o Tablas de dos variables cualitativas (a|b)

¿Cómo se distribuye la Intensidad de la migraña en los dos Sexos?


( SEXO | INTENSIDAD )

¡Hablar de los modelos !

Descriptiva / Tablas (a|b) / Tablas

31

Descriptiva bivarianteCruces o Tablas de frecuencias (a|b)

¿ En qué sexo se produce una mayor frecuencia de migrañas Leves?

Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)================================================================================

Número de Casos: 257

INTENSIDAD | Leve | Moderada | Severa | Total SEXO | | | | Fila

-------------------------------------------------------------------------| 11 | 54 | 16 | 81

Hombre | 4.28 | 21.01 | 6.23 | 31.52 -------------------------------------------------------------------------

| 11 | 94 | 71 | 176 Mujer | 4.28 | 36.58 | 27.63 | 68.48

-------------------------------------------------------------------------Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00

Los porcentajes de cada celda se refieren al total de la tabla

Q&A

32

Descriptiva bivariante¿En qué sexo se produce una mayor frecuencia de migrañas Leves?

Tabla de Frecuencias de SEXO (filas) por INTENSIDAD (columnas)================================================================================


INTENSIDAD | Leve | Moderada | Severa | Total SEXO | | | | Fila

--------------------------------------------------------------------------| 11 | 54 | 16 | 81

Hombre | 13.58 | 66.67 | 19.75 | 31.52 --------------------------------------------------------------------------

| 11 | 94 | 71 | 176 Mujer | 6.25 | 53.41 | 40.34 | 68.48

--------------------------------------------------------------------------Total | 22 | 148 | 87 | 257 Columna | 8.56 | 57.59 | 33.85 | 100.00

Los porcentajes de cada celda se refieren al total de cada fila

Fichero: Migranna1.txt Cuanti

33

Descriptiva Estudio MigrañaCuantitativa (y): descriptiva univariante


CENT SEXO EDAD INTENSIDAD DURACION LOCALIZACION ANALGESCO PRODUCTIVDAD1 Mujer 30 Moderada 4-12 Hemicraneal Si 2.291 Mujer 35 Moderada 4-12 Hemicraneal Si 4.291 Mujer 25 Moderada 4-12 Hemicraneal Si 2.571 Mujer 28 Moderada 4-12 Holocraneal Si 2.291 Mujer 32 Moderada 4-12 Holocraneal Si 4.571 Mujer 27 Moderada 4-12 No 9.142 Mujer Severa >48 Hemicraneal Si 8.572 Mujer 38 Severa 4-12 Hemicraneal No 5.143 Mujer 42 Moderada 12-24 Hemicraneal Si 8.003 Mujer 63 Moderada 12-24 Holocraneal Si 9.573 Hombre 36 Moderada 4-12 Holocraneal Si 18.293 Mujer 40 Moderada 4-12 Holocraneal Si 12.573 Hombre 38 Moderada 12-24 Hemicraneal No 10.863 Mujer 42 Moderada 4-12 Hemicraneal Si 5.433 Hombre 48 Moderada 4-12 Hemicraneal Si 7.713 Mujer 52 Moderada Hemicraneal Si 9.143 Hombre 46 Moderada 4-12 Holocraneal Si 6.864 Mujer 36 Severa 4-12 Hemicraneal Si 15.714 Hombre Severa >48 Hemicraneal No 12.144 Hombre 49 Severa 24-48 Hemicraneal No 51.434 Mujer 43 Severa 12-24 Hemicraneal Si 80.004 Hombre 52 Moderada 4-12 Hemicraneal No 25.005 Mujer 36 Severa 24-48 Hemicraneal Si 13.715 Mujer 53 Leve 4-12 Hemicraneal Si 3.435 Mujer 50 Moderada 24-48 Holocraneal No 28.57. . . . . . . .

34

0,0 2,9 4,9 6,4 8,6 . . . 33,40,0 2,9 5,0 6,4 8,6 . . . 34,30,0 3,1 5,0 6,6 8,6 . . . 34,30,0 3,4 5,1 6,9 8,6 . . . 34,30,0 3,4 5,1 6,9 8,6 . . . 35,70,0 3,4 5,1 6,9 8,6 . . . 35,70,3 3,4 5,1 6,9 8,6 . . . 37,10,3 3,4 5,1 6,9 8,6 . . . 37,70,4 3,6 5,1 6,9 8,7 . . . 37,91,1 3,6 5,4 7,1 9,1 . . . 40,01,4 4,0 5,4 7,1 9,1 . . . 41,11,4 4,1 5,7 7,1 9,1 . . . 41,71,7 4,3 5,7 7,1 9,1 . . . 42,92,0 4,3 5,7 7,1 9,1 . 18,57 . 42,92,1 4,3 5,7 7,1 9,3 . . . 48,62,3 4,3 5,7 7,1 9,6 . . . 48,62,3 4,3 5,7 7,1 9,7 . . . 50,02,3 4,3 6,0 7,4 10,0 . . . 51,42,3 4,6 6,0 7,7 10,3 . . . 52,02,3 4,6 6,0 7,9 10,3 . . . 54,02,3 4,6 6,0 8,0 10,3 . . . 65,72,6 4,6 6,3 8,0 10,3 . . . 65,72,6 4,6 6,3 8,0 10,3 . . . 68,62,6 4,7 6,3 8,0 10,8 . . . 77,52,6 4,7 6,3 8,6 10,8 . . . 80,0

Descriptiva Variable Productividad ordenada

N=253

35

Descriptiva Variables Cuantitativas (y)Medidas de Centralización y Posición: Cajas (Box-Plot)

Percentil 50%MedianaQ2: 10.8

Percentil 25%Cuartil inferior

Q1: 5.7

Percentil 75% Cuartil superior

Q3: 18.5

Mínimo: 0,0 Máximo: 80

Rango intercuartílico: 12.8

Amplitud: 80

14.7n

xxmedia === ∑ i

dt

36

Descriptiva: Medidas de dispersiónDesviación Típica

Var _uno000000999999

1)( 2

1 −−Σ

=− nxx

S in

Desviación Típica 4.70Varianza 22.09

Desviación Típica 2.93Varianza 8.63

Estadístico Var-dos ------------------------------N 12 Media 4.5 Mediana 4.5Amplitud 9.0

Estadístico Var-uno ------------------------------N 12 Media 4.5Mediana 4.5Amplitud 9.0

Var _dos003334566699 output

37

Descriptiva Variables CuantitativasMedidas de Centralización y Posicionamiento: Cajas

----------------------------------------Estadístico PRODUCTIVIDAD

----------------------------------------

N 253

Media 14.7231

Mediana 10.8600

Moda 14.2900

Varianza 188.7021

Desviación Típica 13.7369

E.E. de la Media (*) 0.8636

Mínimo 0.0000

Máximo 80.0000

Rango 80.0000

Cuartil Inferior 5.7100

Cuartil Superior 18.5700

Rango Intercuartílico 12.8600

Asimetría 2.0694

Curtosis 5.2820

Coeficiente de Variación 93.3015

Fichero: Migranna1.txt Descriptiva / Cuantitativa(y) Histogramas

38

Descriptiva Variables Cuantitativas (y)Histogramas, Discretizar una variable Cuantitativa

Fichero: Migranna1.txt normal

39

Histograma

Ventaja

N( m=-0.17, dt=2.1)Distribución Normal

Si la variable sigue una distribución Normal toda la información de la muestra queda recogida con la Media y Desviación Estándar

4,503,50

2,501,50

,50-,50

-1,50-2,50

-3,50-4,50

-5,50

30

20

10

0

4,503,50

2,501,50

,50-,50

-1,50-2,50

-3,50-4,50

-5,50

30

20

10

04,50

3,502,50

1,50,50

-,50-1,50

-2,50-3,50

-4,50-5,50

30

20

10

0

-> =

Comprobación del ajuste

Descriptiva

Histograma y Ajuste a la Normalidad

Para contrastar si variable sigue una distribución normal se aplicará la prueba de Kolmogorov con la correción de Lilliefords (KL) o la de Shapiro-WilK(SW)

Gauss

40

Descriptiva

Gauss

C.F. Gauss (1777-1855)

heuristico

41

Descriptiva

Las normales/gausianas se dan en la naturaleza

Normalidad test

42

Comprobar si la variable PRODUCTIVIDAD sigue una distribución normal

Descriptiva

Diagnóstico de Normalidad (I)

Análisis /Cuantitativa(y) /AjusteFichero: Migranna1.txt

D+ de Kolmogorov: 0.16.80D- de Kolmogorov: -0.1419DN: 0.16.8p-valor: 0.0006E-3

p-valor Lilliefors corregido: 0.0004E-15

W Shapiro-Wilk: 0.7998p-valor Shapiro-Wilk: 0.0008E-13

Normalidad test II

43

Comprobar si la variable LEUCOS sigue una distribución normal

Descriptiva

Diagnóstico de Normalidad (II)

Análisis /Cuantitativa(y) /AjusteFichero: Migranna1.txt Chevicheff

D+ de Kolmogorov: 0.0350D- de Kolmogorov: -0.0443DN: 0.0443p-valor: 0.8753

p-valor Lilliefors corregido: >0.1

W Shapiro-Wilk: 0.9898p-valor Shapiro-Wilk: 0.2308

44

DescriptivaUtilidad de la Desviación típica como descriptor

Dos grupos

99,997,293,8499,795,188,8395,588,875286,680,255,51,568,255,501

NormalSimétricaCualquieraK dt

% Casos entre la media ± K dt

45

Descriptiva bivariante

Grupos(a|y)

¿La Intensidad de la migraña influye en la Productividad?

¿Puede una variable discreta (a) explicar una continua (y)?

Grupos de Cuantitativa (a|y):

46

Descriptiva bivariante

Cuantitativa (a|y): Grupos

Descriptiva de la variable PRODUCTIVIDAD por INTENSIDAD

Descriptiva / Grupos (a|y)

Estadísticos para PRODUCTIVIDAD por INTENSIDAD------------------------------------------------------Grupos Leve Moderada Severa

------------------------------------------------------N 21 147 85 Media 6.728 12.682 20.710 Mediana 4.570 10.860 14.290 Desviación Típica 7.152 9.1926 18.780Mínimo 0.000 0.0000 0.0000 Máximo 34.29 50.000 80.000 Cuartil Inferior 3.430 6.2900 5.7100 Cuartil Superior 8.000 17.710 27.430

------------------------------------------------------

Fichero: Migranna1.txt los dos

47

Descriptiva bivarianteLos dos estadísticos descriptivos más importantes del mundo

Diferencia de proporciones p2-p1 Diferencia de medias m2-m1

Diferencia de Productividad entre Localización

Variable Respuesta: PRODUCTIVIDADVariable Explicativa: LOCALIZACION

Grupo Hemicr Holocr-----------------------------------------------Tamaños Muestrales 179 71 Medias: 12.6594 19.8 Desviaciones Típicas: 11.7912 16.7 E. E. de las Medias: 0.8813 1.9-----------------------------------------------

Diferencia de Medias: 7.2327

Diferencia de Eficacia entre Analgésicos

Tabla de Frecuencias de EFICACI por ANALGESIC===========================================

ANALGESICO | A | B EFICACIA | | |

---------------------------------------------| 116 | 63 |

SI | 66.2% | 77.7% | --------------------------------------------

| 59 | 18 | NO | 33.7% | 22.2% |

--------------------------------------------Total | 175 | 81 |

Diferencia de proporciones: 11.5 %

Epi y diag

48

Descriptiva

Mas allá de la descriptiva clásica (b|b)

• Epidemiología (b|b)Odds Ratio Riesgo Relativo Diferencia de Riesgos

• Diagnóstico (b|b)SensibilidadEspecificidadVP-; VP+; LR

Medidas de Efecto en:

49

Datos de un estudio prospectivo de salud dental en 76 niños.

Se estudia la relación entre la aparición de caries y una dieta pobre en vegetales y fibra

Descriptiva en Epidemiología Estudio prospectivo de salud dental

Dieta Pobre FibraFactor (Causa)

CariesRespuesta(Efecto)

a|b

50

Datos

Estudio prospectivo

Datos experimentales

N=76

DPF | Si Exp + | No Exp - | Total Caries | | | Fila -----------------------------------------------------Si | 21 | 16 | 37 Res+ | 72.4% | 34.0% | -----------------------------------------------------No | 8 | 31 | 39 Res- | 27.5% | 65.9% | -----------------------------------------------------Total | 29 | 47 | 76

¿Cómo se puede medir la asociación entre DPF y Caries ?

Factor Exposición

Res

pues

ta/ E

vent

o

51

Medidas de riesgo basadas en el cociente

Riesgo relativo: ratio de las proporciones de eventos entre sujetos con factory sin factor de riesgo.

Odds ratio: cociente entre los odds del grupo con el factor y sin el factor

Descriptiva

Medidas de Efecto en Epidemiología

Medidas de riesgo basadas en la diferenciaDiferencia absoluta de riesgo: diferencia entre la proporción de eventos en expuestos y no expuestosDiferencia relativa de riesgoReducción absoluta de riesgoReducción relativa de riesgo

Número necesario a tratar (NNT) : inverso de la diferencia de riesgo

52

60.21trataranecesarioNúmero

38,0riesgo de absoluta Diferencia

08.58·16

31·21RatioOdds

12.234.072.0

)/()/( RelativoRiesgo

48.07637aPrevalenci

=−

=

=−=

===

==++

=

==+++

+=

RnFRF

RnFRFbcad

dbbcaadcba

ba

Descriptiva

Medidas de Efecto en Epidemiología: Ejemplo

Evento

No evento

Total

a = 21 b = 16 a+b=37

c = 8 d = 31 c+d=39

a+c=29 b+d=47 76

Presenciafactor

Ausenciafactor

Total

53

Descriptiva

Medidas de Efecto : Resultados

Medidas de Asociación en Estudios Epidemiológicos=========================================================================Número de Casos : 76

Localización RR EE[LnRR] IC95.00% inf IC95.00% sup--------------------------------------------------------------------------(+,+) en la celda 1 2.1272 0.2332 1.3469 3.3594

Asumiendo Explicativa en Columnas y Respuesta en Filas con:

Localización OR EE[LnOR] IC95.00% inf IC95.00% sup--------------------------------------------------------------------------(+,+) en la celda 1 5.0859 0.5171 1.8460 14.0125

Análisis /Epidemiología b|b / Tablas. Datos Agrupados / Ejemplo por defecto

54

Se estudia la fiabilidad de un nuevo diagnóstico para la candidiasis infectiva (CI)

Índices de Fiabilidad en Diagnóstico

Ejemplo

Entre los métodos paraclínicos disponibles para el diagnóstico de CI el hemocultivo tiene una baja sensibilidad (10-43%) comparado con la necropsia. Lo anterior ha motivado del desarrollo de métodos alternativos basados en la determinación de anticuerpos en suero mediante ELISA, inmunodifusión, etc.

55

Estudio de Diagnóstico

Datos experimentales


| Test + | Test - | Total | | | Fila

-------------------------------------------------------| 30 | 10 | 40

EN + | 33.33 | 11.11 | 44.44 -------------------------------------------------------

| 5 | 45 | 50 EN - | 5.56 | 50.00 | 55.56

-------------------------------------------------------Total | 35 | 55 | 90Columna | 38.89 | 61.11 | 100.00

Los porcentajes de cada celda se refieren al total de la tabla

Como se puede medir la relación entre los resultados Test+/- y el EN +/-

56

Permiten evaluar la fiabilidad de un dispositivo o test

Descriptiva


Sensibilidad: porcentaje de Test + en Enfermos

Especificidad: porcentaje de Test - en Sanos

Valor Predictivo Positivo: porcentaje de Enfermos en Test +

Valor Predictivo Negativo: porcentaje de Sanos en Test -

Asociados a tablas de frecuencia 2x2

b|b

57

Enfermo

Sano

Total

a = 30 b = 10 a+b=40

c = 5 d = 45 c+d=50

a+c=35 b+d=55 90

Test + Test -

Total

90.05045

75.04030S

==+

=

==+

=

dcddadEspecifici

baadensibilida

Descriptiva

Índices de Fiabilidad en Diagnóstico: ejemplo

811.05545

857.03530

==+

=

==+

=

dbdNegVP

caaPosVP

Q&A

58

Descriptiva


Análisis/ Diagnostico (b|b) /Tablas. Datos Agrupados/ Ejemplo por defecto

Índices Diagnósticos================================================================================

Variable Estado de la Naturaleza: ENVariable Test: Test

Prevalencia = 0.4444

Sensibilidad = 0.7500 con I.C. al 95.00% [0.5880,0.8731]Especificidad = 0.9000 con I.C. al 95.00% [0.7819,0.9667]

Prob(EN+ | Test+) = 0.8571 si Prev = 0.4444 con I.C. al 95.00% [0.7412,0.9731]Prob(EN+ | Test-) = 0.1818 si Prev = 0.4444 con I.C. al 95.00% [0.0410,0.3226]

fin

59

Contenido del curso



IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher




60

Concepto de Estimación de ParámetrosError EstandarIntervalos de Confianza

Módulo III

Técnicas de Estimación de parámetros poblacionales

Una ojeada al universo

ejemplos

61

Prevalencia de EPOC (%)

Duración media del efecto analgésico (media)

Tiempo mínimo hasta pico de cc. máxima (mínimo)

Porcentaje de éxitos quirúrgicos (%)

Diferencia de eficacia entre dos fármacos (dif. medias)

Mediana del incremento de IgE tras inmunoterapia (mediana)

Dispersión de la glucemia en ayunas (varianza)

Relación cloración del agua e infecciones (RR)

El 50% de datos centrales (Rango IQ)

Estimación

Ejemplos de parámetros poblacionales

IC en publicaciones

62

Ejemplos de IC

Esquema IC

63

De letras latinas a griegasDe estadísticos a parámetros

Información de la muestra

Características de la población

Parámetros

μ σ π

EstimaciónConcepto de Estimación de parámetros poblacionales

Estimación

Estadísticos

x s p

muestra población

Propiedades de las muestras

64

Muestra

Dos propiedades de las muestras

Representativa

Aleatoria n suficiente

Población

Calidad Cantidad (TM)

goodnews

65

Estimación

¡Buenas Noticias!

La media muestral es un buen estimador de la media poblacional

μ=)(xE

La desviación típica muestral es un buen estimador de la dt poblacional

σ=−=− )(1)( 1 sEnnsE n

La prevalencia muestral es un buen estimador de la prevalencia poblacional

π=)( pE

Que significa ser un buen parámetro poblacional ?

El or muestral es un buen estimador del OR poblacional

ORorEnnorE =−= )()( 1

66

Ser un estimador adecuado no significa ..., significa ...

... manejo de la incertidumbrey de la imprecisión

Estimación

Concepto de estimación de parámetros

Construccion de IC

67

Estimación

Intervalo de Confianza (IC) de una proporción (prevalencia)

Muestra (estadístico p) p=22%

Población (parámetro π) 19% 25%IC 95%

Imprecisión± 3%

Confianza95%

Dos propiedades de los IC

Formula proporciones

68

⎥⎥⎦

⎤

⎢⎢⎣

⎡ −⋅+≤≤

−⋅−=

nppzp

nppzpIC )1()1(%95 2/2/ αα π

Estimación

Intervalo de confianza para una proporción

Parámetro: Prevalencia Poblacional

Límites de confianza

Nivel de confianza

Error Estándar

[ ]322322%95 +≤≤−= πIC

[ ]%25%19%95 ≤≤= πIC

Ejemplo

Concepto de confianza

69

0

0.10

0.20

0.30

0.40

0.50

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20muestra

Prevalencia poblacionalProporción muestral

EstimaciónConcepto de Confianza

π

interpretaciones

70

Interpretación InformalUn rango de valores en donde se tiene una confianza del 95% que se encuentre el parámetro poblacional

Interpretación estrictaSi repitiésemos el experimento 100 veces con distintas muestras, en 95 ocasiones el IC calculado contendrían el valor del parámetro poblacional

EstimaciónInterpretación del IC del 95%

n y la imprecisión

71

Estimación

El tamaño muestral condiciona la imprecisión

0

0,02

0,04

0,06

0,08

0,1

0,12

0 200 400 600 800 1000 1200 1400

Tamaño Muestral

Impr

ecis

ión

IC = 0,95 p = 10%

Formula medias

72

⎥⎦

⎤⎢⎣

⎡+≤≤−= −

−−

−n

stx

ns

txIC nn

nn

11

11%95 μ

Estimación

Intervalo de confianza para la media poblacional

Parámetro: Media Poblacional

Límites de confianza

Nivel deconfianza

Estimo

Error Estándar

Ejemplo [ ]3032030320%95 +≤≤−= μIC

[ ]350290%95 ≤≤= μIC

Factor relacionadocon la confianza

Factor de confianza

73

0.200.25

0.300.38

0.400.52

0.500.67

0.600.84

0.701.03

0.801.28

0.901.64

0.951.96

0.972.24

0.982.32

0.992.58

0.9952.8

0.9993.29

Nivel de confianzaK

Estimación

Factores relacionados con el nivel de confianza

Ej. FBG

74

[ ]

[ ]81.409 51.379

69.7·96.166.39469.7·96.166.394

⇔=

+⇔−

Intervalo de confianza al 95%

Análisis / Cuantitativa (y)/ t-Student

Estimación

Intervalo de confianza: ejemplo FBG

Variable: FBG: Fibrinógeno sérico

Estadísticos para la variable FBG

----------------------------------Estadístico FBG

----------------------------------N 257 Media 394.66Desviación Típica 123.31E.E. de la Media (*) 7.6919

----------------------------------

(*) Usar con propósito de estimación para el I.C. de la media

Migranna1.txt los 2 importantes

75

DescriptivaRecordatorio: Los dos estadísticos descriptivos más importantes del mundo

Diferencia de proporciones p2-p1 Diferencia de medias m2-m1

Diferencia de Productividad entre SexosDiferencia de Eficacia entre Analgésicos

Toda “medida” debe tener su IC

Tabla de Frecuencias de EFICACI por ANALGESIC===========================================

ANALGESICO | A | B EFICACIA | | |

---------------------------------------------| 116 | 63 |

SI | 66.2% | 77.7% | --------------------------------------------

| 59 | 18 | NO | 33.7% | 22.2% |

--------------------------------------------Total | 175 | 81 |

Diferencia de proporciones: 11.5 %



Diferencia de Medias 7.2327

76

Estimación de la Diferencia Poblacional deDos Proporciones

-----------------------------------------------

Grupo Trat B Trat A-----------------------------------------------Tamaños Muestrales: 81 175 Proporciones: 0.7770 0.6620E. E. de las proporciones: 0.0463 0.0358

-----------------------------------------------

Diferencia de proporciones: 0.1150

Estimación----------I.C. al 95.00% para la diferencia : 0.1150 +/- 0.1146 [0.0004, 0.2296]

Recordatorio: Los dos estadísticos descriptivos más importantes del mundo

Intervalos de confianza

Analisis / Dos Grupos(b|y )/ t-Student


Analisis / Tablas (a|b) / Dos Prop. Datos Agrupados



E. E. de la Diferencia de Medias: 1.8773 Diferencia de Medias 7.2327

Estimación----------I.C al 95% para la diferencia de medias:7.2327 +/- 3.6974 [3.5352, 10.9301]

IC riesgo

77

Seguridad

Riesgo de A RA 3% [0.62% 8.52%]

Riesgo de B RB 1% [0.03% 5.45%]

Riesgo Relativo: RRAB RA / RB 3.0 [0.31 28.3 ]

Diferencia Absoluta de Riesgo (DAR) RA-RB 2% [-1.87% 5.87%]

Diferencia Relativa de Riesgo 200%

Trat A Trat BEA 3 1No EA 97 99

100 100

Intervalos de confianza de Medidas de Riesgo

Número Necesario Tratar para Dañar (NND) 50 [-54 17]

OR 3.06 [0.31 29.9]

IC eficacia

78

Eficacia de A EA 75% [65.3% 83.1%]

Eficacia de B EB 60% [49.7% 69.6%]

Eficacia Relativa: ERAB EA / EB 1.25 [1.02 1.52]

Eficacia

Intervalos de confianza de Medidas en EficaciaTrat A Trat B

Sano 75 60Enf 25 40

100 100

Diferencia Absoluta de Eficacia EA-EB 15% [2.19% 27.8%]

Diferencia Relativa de Eficacia 25% [2% 52%]

Número Necesario Tratar para Curar (NNT) 7 [4 46 ]

OR 2.0 [1.09 3.65 ]

IC en publicacines

79

Ejemplos de IC

fin

80

Contenido del curso

I- Manejo de G-Stat/DatosCaracterísticas / InstalaciónMenúsImportar datosManejo de variables


IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi CuadradoFisher



III- EstimaciónConcepto de estimaciónError EstandarIntervalos de confianza

81

6D4_10

PRUEBAS ESTADÍSTICAS

¡ El momento de la decisión !

Módulo IVPruebas Estadísticas BásicasMódulo IVPruebas Estadísticas Básicas

Contraste de Hipótesis

Comparando tratamientos

82

SimulacionesSimulaciones

Lanzamiento de una moneda

publicacion

83

Ejemplos de ObjetivosEjemplos de Objetivos

Ejenplo CV

84

Pruebas Estadísticas Básicas

Ejemplo: Factores de riesgo CVPruebas Estadísticas Básicas

Ejemplo: Factores de riesgo CV

En una muestra de 195 hipertensos se ha recogido información relacionada con factores de riesgo cardiovascular: Diabetes, Dislipemia, Tabaquismo, etc

Se les ofrecieron 3 tratamientos para el control de la HTA y se evaluaron los resultados.

BD

85Factores de riesgo cv1.txt


Datos: Factores de riesgo CVPruebas Estadísticas Básicas

Datos: Factores de riesgo CV

Pregunttas para IC CH

86

¿Influye el Sexo (b) en la TAD inicial (y)?

Pruebas Estadísticas Básicas PreguntasPruebas Estadísticas Básicas Preguntas

¿Cúal es la diferencia de la TAD inicial entre hombres y mujeres?

IC 95% [0.67 (2.29) 3.90 mmHg]

Pregunta para Estimación

Pregunta para Contraste de hipótesis

hipótesis

87

Podemos reformular los objetivos de un estudio:


Como transformar objetivos en hipótesisPruebas Estadísticas Básicas

Como transformar objetivos en hipótesis

Ho: No hay diferencias entre los tratamientos A y B H1: Hay diferencias entre los tratamientos A y B

Ho: El descenso de la T.A. con X es <= 70 mmHg / mesH1: El descenso de la T.A. con X es > 70 mmHg / mes

Ho: Dos parámetros bioquímicos no están asociadosH1: Dos parámetros bioquímicos están asociados

Ho: La TAD es igual para hombres y mujeresH1: La TAD es distinta para hombres y mujeres

Tipos de hipótesis

88

Hipótesis Nula (Ho):

Aquella que se formula con el único objetivo de rechazarla

Es una hipótesis conservadora

Connotación: ‘igualdad’

Hipótesis Alternativa (H1):

Cualquiera distinta de Ho

Es la hipótesis objetivo de interés

Es la hipótesis arriesgada


HipótesisPruebas Estadísticas Básicas

Hipótesis

Riesgos en la decisión

Alfa y beta

89

REALIDAD

DECISION Ho Verdadera H1 Verdadera

OK(1-alfa)

Riesgo alfa F +

Error tipo I

Riesgo betaF –

Error tipo II

OK(1-Beta )

Poder

Aceptar Ho(No Rechazar)

Aceptar H1

Antes del experimento

n = f (alfa, beta)


Cómo convivir con los riesgos de la experimentaciónPruebas Estadísticas Básicas

Cómo convivir con los riesgos de la experimentación

T l central

90

Pruebas Estadísticas BásicasLocalización y medida de riesgos

Pruebas Estadísticas BásicasLocalización y medida de riesgos

Sexo y tad

91Factores de riesgo cv1.txt


Datos: Factores de riesgo CVPruebas Estadísticas Básicas

Datos: Factores de riesgo CV

Pregunta CH +descriptiva

92

Descriptiva

Hombres Mujeres

Media (x)

D. típica (s)

n

102.24

6.08

98

99.95

4.74

84


Cómo funcionanPruebas Estadísticas Básicas

Cómo funcionan

mmHgmh xxDif 29.2)( =−

¿Influye el Sexo (b) en la TAD inicial (y)?

Estad contras

Hipótesis:

Ho: No, la TAD es igual para hombres y mujeres (la diferencia es cero).

H1: Sí, la TAD es distinta para hombres y mujeres (la diferencia no es cero)

93

Estadístico de Contraste, texp


Estadístico de contrastePruebas Estadísticas Básicas

Estadístico de contraste

79.284.029.2

11||

toEstadístic exp ==+

−=

mhp

mh

nns

xx

46.82

)1()1( 22=

−+−+−

=mh

mmhhp nn

snsns

Estadísticos Descriptivos

Interpretación de texp

94

El estadístico texp muestral representa un valor queresume la evidencia (prueba) en contra de Ho

Si Ho es cierta, las posibles texp muestrales tendránvalores cercanos a cero

Pruebas Estadísticas Básicas Interpretación de texpPruebas Estadísticas Básicas Interpretación de texp

esquema decision

95

Estadístico de Contraste vs DecisionesEstadístico de Contraste vs Decisiones

Prob (p) Ho verdadera

0

Alta

*Acepto Ho Acepto H1

Región Crítica de aceptación

Muy Baja

8

Tabla

α = 0.05α = 0.01Nivel de significación

Decisión

?

texp

01

* No rechazo

tabla

96

3.2913.0912.5762.3261.9601.6451.282∞

3.3733.1602.6172.3581.9801.6581.289120

3.4603.2322.6602.3902.0001.6711.29660

3.6463.3852.7502.4572.0421.6971.31030

3.8503.5522.8452.5282.0861.7251.32520

4.5874.1443.1692.7642.2281.8121.37210

12.92410.2145.8414.5413.1822.3531.6383

31.60022.3289.9256.9654.3032.9201.8862

636.578318.28963.65631.82112.7066.3143.0781

0.0010.0050.010.020.050.1α = 0.2

Probabilidad de H0 cierta

Tabla texp y probabilidadesTabla texp y probabilidades

texp= 2.79 p-valor=0.0057

gl; T

amañ

o de

la m

uest

ra

esquema

97

Estadístico de Contraste vs DecisionesEstadístico de Contraste vs Decisiones

Probabilidad (p)//Ho verdadera

0

Alta

*Acepto Ho Acepto H1

8

Tabla

α = 0.05Nivel de significación

Decisión

texp

01 p-valor=0.0057

2.79

Q&A

resumen

98

texp = = 2.792.29

0.84


p=0.0057

Evidencia a favor H0


Contraste de Hipótesis para Diferencia de MediasPruebas Estadísticas Básicas

Contraste de Hipótesis para Diferencia de Medias

Rechazar H0

Aceptar H1

Decisión

Hombres MujeresMedia(x)

D.típica(s)

n

102.24

6.08

98

99.95

4.74

84

Estadísticos descriptivos

foto

99

GOSSET, William Sealy ('Student') 1876-1937


StudentPruebas Estadísticas Básicas

Student

Practica

100


Dos grupos independientes (b|y): t-Student (1de2)



Análisis /Dos Grupos (b|y) / t-StudentFactores de riesgo cv1.txt

101

Variable Respuesta: TADINICIALVariable Explicativa: SEXO

Grupo Hombre Mujer -----------------------------------------------Tamaños Muestrales 98 84 Medias: 102.2449 99.9524Desviaciones Típicas: 6.0863 4.7406 E. E. de las Medias: 0.6148 0.5172

-----------------------------------------------Diferencia de Medias 2.2925

Estimación----------I.C. al 95.00% para la diferencia de medias: 2.2925 +/- 1.6157 [0.6768, 3.9082]

t-Student---------Hipótesis Nula: diferencia de medias = 0.0000Hipótesis Alternativa: no igualt-Student: 2.7998p-valor: 0.0057





Factores de riesgo cv1.txt Clasificacion b|yAnálisis /Dos Grupos (b|y) / t-Student

102

2 GRUPOS

Independientes

Pareados

Normalidad ó Grupos grandes

t-Student

t-Student pareada

Mann-Whitney (Wilcoxon)

Wilcoxon pareado


Modelos (b|y)Pruebas Estadísticas Básicas

Modelos (b|y)

Prueba

t-pareada

No-Normalidad y Grupos pequeños



103

¿Disminuye la TAD >8 mmHg con el tratamiento?


Dos grupos pareadosPruebas Estadísticas Básicas

Dos grupos pareados

Factores de riesgo cv1.txt Análisis /Dos Grupos (b|y) / t-Student Pareados descriptiva

104

HIPÓTESIS

Ho: No: La disminución de TAD es =<8 mmHg

H1: Si: La disminución de TAD es >8 mmHg

Se modeliza la diferencia de TAD (antes-después)


Dos grupos pareados (y)Pruebas Estadísticas Básicas

Dos grupos pareados (y)

Estadísticos TADINICIAL-TADFINAL -------------------------------------------N 186 Media 8.7285 Mediana 6.7500 Desviación Típica 8.2542 Mínimo -7.5000 Máximo 43.5000

Factores de riesgo cv1.txt Análisis /Dos Grupos (b|y) / t-Student Pareados output

105


Dos grupos pareados: t-Student datos pareadosPruebas Estadísticas Básicas

Dos grupos pareados: t-Student datos pareados

Análisis / Dos Grupos (b|y) / t-Student Pareados

Estimación y Contraste de Una Media Poblacional para TADINICIAL menos TADFINAL====================================================

Tamaño Muestral: 186Media: 8.7285

Estimación----------I.C. inferior al 95.00% para la media: 8.7285 - 1.0005 [7.7280]

t-Student---------Hipótesis Nula: media = 8.0000Hipótesis Alternativa: mayor queEstadístico de contraste t: 1.2037p-valor: 0.1151

Factores de riesgo cv1.txtK grupos

106

2 GRUPOS

K GRUPOS

Independientes

Pareados

t-Student

t-Student pareada

Mann-Whitney (Wilcoxon)

Wilcoxon pareado

Independientes

Pareados

ANOVA 1 factor

Kruskal-Wallis

Friedman

ANOVA un factor con bloques


Pruebas Básicas Modelos (a|y)Pruebas Estadísticas Básicas

Pruebas Básicas Modelos (a|y)

Normalidad y Homoc.

Normalidad y HMCD

No-Normalidad o No-Homoc.

No-Normalidad o No-HMCD





107

HIPÓTESIS

Ho: No hay diferencias en las TAD finales de los tres TTOs

H1: Si hay diferencias en las TAD finales de los tres TTOs

Se desea comparar la eficacia de tres tratamientos en cuanto a la TAD final


k grupos independientes (a|y)Pruebas Estadísticas Básicas

k grupos independientes (a|y)

Tratamiento:DietaEjercicioFármaco

Objetivo

TAD Final(a|y)

108

DescriptivaDatos


k grupos independientesPruebas Estadísticas Básicas

k grupos independientes

Anova / Anova Un Factor (a|y)

Estadísticos para la variable TADFINAL por TTOHTA

Grupos Ejercicio Dieta Farmaco-----------------------------------------------------N 65 56 60 Media 91.7462 95.4911 90.1958Mediana 93.7500 96.1250 90.7500 Desviación Típica 8.8204 8.3675 7.5365 Mínimo 73.0000 73.5000 72.0000 Máximo 114.0000 115.0000 107.5000

-----------------------------------------------------

Factores de riesgo cv1.txt output

109


k grupos independientes: AnovaPruebas Estadísticas Básicas

k grupos independientes: Anova

Anova /Anova 1 Factor

¿ Qué grupo o grupos son diferentes de los otros ?

Anova Un Factor===========================================================================

Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181

---------------------------------------------------------------------------Suma de Cuadrado Cuadrados G.L. Medio F-valor p-valor

---------------------------------------------------------------------------Entre Grupos 854.3389 2 427.1695 6.2421 0.0024Dentro Grupos 12181.1935 178 68.4337

---------------------------------------------------------------------------Total (corr.) 13035.5325 180

---------------------------------------------------------------------------

Factores de riesgo cv1.txt Comp multi

110


Comparaciones múltiplesPruebas Estadísticas Básicas

Comparaciones múltiples

Comparaciones Múltiples

Anova, Comparaciones Múltiples===============================================Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181

Método: LSD al 95.00%

-----------------------------------------Grupos

TTOHTA N Media Homogéneos-----------------------------------------Farmaco 60 90.1958 X Ejercicio 65 91.7462 X Dieta 56 95.4911 X

-----------------------------------------

Otra pregunta: Y si no fueran homocedásticos?

Factores de riesgo cv1.txt Anova /Anova 1 Factor/Comparaciones múltiples Snedecor

111

George W. Snedecor (1882 -1974)

Two famous works: Calculation and Interpretation of Analysis of Variance and Covariance (1934) and StatisticalMethods (1937). The latter work, ultimately co-authored with William G. Cochran, went through seven editionsbefore the death of both authors and sold more than 125,000 copies.


SnedecorPruebas Estadísticas Básicas

Snedecor

Kruscal Wallis ?

112

Normalidad + Igualdad de Varianzas (Homocedasticidad)

ANOVA


k grupos independientes (a|y): Anova ó KWPruebas Estadísticas Básicas

k grupos independientes (a|y): Anova ó KW

Si

Kruskal-Wallis

No

Grandes y Homocedásticos?

Homocedasticidad (en realidad heterocedasticidad)==============================================

Variable Respuesta: TADFINALVariable Explicativa: TTOHTANúmero de Casos: 181

Prueba C de Cochran: 0.3802 P-valor = 0.5214Prueba de Bartlett: 1.5165 P-valor = 0.4685

a|b

113

Tablas

Independientes

Pequeñas muestras

Chi-Cuadrado*

McNemar

a|b

Pareados

Fisher


Pruebas básicas con Variables Cualitativas (a|b)Pruebas Estadísticas Básicas

Pruebas básicas con Variables Cualitativas (a|b)

Hasta ahora (a|y)Prueba

100 i100 i

114

0NO FUMA01EJERCICIOMujer45.87

0FUMA11DIETAMujer

0NO FUMA11EJERCICIOHombre53.87

0FUMA01FARMACOSHombre

0NO FUMA11DIETAHombre42.93

0NO FUMA01FARMACOSHombre49.54

0FUMA11FARMACOSHombre


0FUMA11DIETAHombre

0FUMA11DIETAHombre41.63

0FUMA11FARMACOSHombre58.05

0NO FUMA01DIETAHombre56.05

0NO FUMA01FARMACOSMujer63.06


0NO FUMA11EJERCICIOHombre54.06


0NO FUMA01Hombre



0NO FUMA01FARMACOSHombre

IAMTABACODISLIPDIABTTOHTASEXOEDAD

Pruebas básicas con Variables Cualitativas

Listado de la BDPruebas básicas con Variables Cualitativas

Listado de la BD

Factores de riesgo cv1.txt

115

Es uno de los contrastes más importantes en Tablas de Frecuencias


Prueba de Chi-CuadradoPruebas Estadísticas Básicas

Prueba de Chi-Cuadrado

Ho: No hay diferencias entre las proporciones. P’e=Pe; P’d=Pd; P’f=Pf

H1: Si hay diferencias entre las proporciones. Otra≠Ho

Contrastar si los fumadores eligieron los mismos tratamientos que los no fumadores

Chi 2

116

Descriptiva


Prueba de Chi-Cuadrado: DescriptivaPruebas Estadísticas Básicas

Prueba de Chi-Cuadrado: Descriptiva

Analisis/Tablas a|b/Chi Cuadrado

Tabla de Frecuencias de TTOHTA (filas) por TABACO (columnas)=================================================================


TABACO | FUMA | NO FUMA | Total TTOHTA | | | Fila

--------------------------------------------------------| 31 | 30 | 61

Dieta | 38.75 | 27.52 | 32.28 --------------------------------------------------------

| 20 | 47 | 67 Ejercicio | 25.00 | 43.12 | 35.45

--------------------------------------------------------| 29 | 32 | 61

Farmaco | 36.25 | 29.36 | 32.28 --------------------------------------------------------Total | 80 | 109 | 189 Columna | 42.33 | 57.67 | 100.00

Los porcentajes de cada celda se refieren al total de cada columna

Factores de riesgo cv1.txt

117

Estadístico de contraste Chi 2

CHi2exp =

CHi2exp =

(O1 - E1)2

(31 – 35.5)2

(O2 - E2)2

(30 – 27,8)2

(O6 – E6)2

(32 – 34.3)2

E1

35.5

E2

27.8

E6

34.3

+

+

+ +

+ +

...

.... 6.75=

Análisis / Tablas (a|b) / Chi-Cuadrado


Prueba de Chi-Cuadrado: contrastePruebas Estadísticas Básicas

Prueba de Chi-Cuadrado: contraste

Chi-Cuadrado de TTOHTA (filas) por TABACO (columnas)================================================================================

Tamaño Muestral: 189Estadístico de contraste Chi-Cuadrado: 6.7538G.L.: 2p-valor: 0.0342

Nº de celdas con frecuencias absolutas esperadas < 5: 0 de 6, un 0.0000%Nº de celdas con frecuencias absolutas esperadas < 1: 0 de 6, un 0.0000%

=

Factores de riesgo cv1.txt Tabla chi2

118


Tabla de Chi-CuadradoPruebas Estadísticas Básicas

Tabla de Chi-Cuadrado

Consideraciones chi2

119

• Los contrastes de Chi2 son, de modo inherente, unilaterales

• En tablas de 2x2 se aplica la corrección de Yates

• La frecuencia esperada en cada debe ser de 5 ó mayor

• Si no se cumple lo anterior se aplica la Prueba exacta de Fisher

• Para datos pareados se aplica la Prueba de McNemar


Consideraciones a cerca de Chi-CuadradoPruebas Estadísticas Básicas

Consideraciones a cerca de Chi-Cuadrado

Prueba Dislipemia Fisher

120


Ejemplo Dislipemias por Sexos en diabéticos: FisherPruebas Estadísticas Básicas

Ejemplo Dislipemias por Sexos en diabéticos: Fisher

¿Es la prevalencia de dislipemia diferente según el sexo,en la subpoblación de diabéticos?

Factores de riesgo cv1.txt Tabla

121


Fisher; DescriptivaPruebas Estadísticas Básicas

Fisher; Descriptiva

Tabla de Frecuencias de SEXO (filas) por DISLIPEM (columnas)==============================================================


DISLIPEM | 0 | 1 | Total SEXO | | | Fila

------------------------------------------------------| 9 | 7 | 16

Hombre | 56.25 | 43.75 | 69.57 ------------------------------------------------------

| 5 | 2 | 7 Mujer | 71.43 | 28.57 | 30.43

------------------------------------------------------Total | 14 | 9 | 23 Columna | 60.87 | 39.13 | 100.00

Los porcentajes de cada celda se refieren al total de cada fila

Filtrado DIAB=1 ; Análisis / Tablas (a|b) / Fisher

Descriptiva

Factores de riesgo cv1.txt significacion

122

Fisher de SEXO (filas) por DISLIPEM (columnas)================================================

Tamaño Muestral: 23p-valor (unilateral-izquierda): 0.4182p-valor (unilateral-derecha): 0.8758p-valor (bilateral): 0.6570


Fisher; ContrastePruebas Estadísticas Básicas

Fisher; Contraste

Filtrado DIAB=1 ; Análisis / Tablas (a|b) / Fisher

Contraste

¿Es la distribución de dislipemia diferente según el sexo,en la población de diabéticos?

No, las diferencias encontradas no han resultado significativas

Factores de riesgo cv1.txt Fisher

123


FisherPruebas Estadísticas Básicas

Fisher

Ronald A. Fisher (1890-1962)

124


ResumenPruebas Estadísticas Básicas

Resumen

Estimación ⇔ Información

C. Hipótesis ⇔ Decisión

Estadística Descriptiva + Medida del efecto


Función de probabilidad Ho (p-valor)

Ho Decisión H1

Riesgos alfa y betaFormulacion de Ho y H1

Ene

fin

125

Contenido del curso



IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi-CuadradoFisher




126

Correlación y Regresión Lineal Simple x|y

Maurits C. Escher (1898-1972) - Waterfall

127

Se han recogido datos correspondientes a 40 sujetos con la enfermedad de Alzheimer.

Se estudia su Movilidad (0-10) en relación a su Calidad de Vida (0-45).

Correlación y Regresión Lineal Simple Ejemplo: Calidad de Vida en pacientes con Alzheimer

Alzheimer1. txt preguntas

128

Correlación y Regresión Lineal Simple

Posibles preguntas

¿Se puede cuantificar la relación entre la Movilidad y la CV?

¿Es debida al azar? - ¿Es la relación Estadísticamente significativa?

¿En general cuánto varía la CV al aumentar una unidad la Movilidad ?

¿Podría predecir la CV a partir de la Movilidad de cada individuo?

¿Cuánto me equivoco al hacer la predicción?

Diagram dispersi.

129


Descriptiva Diagrama de dispersión

¿Cómo medir o cuantificar la asociación?

Gráficos / Dispersión (x|y) / Dispersión

Descriptiva

Alzheimer1. txt estadsiticos

130


Descriptiva. Coeficiente de correlación

531.0

iónDeterminac Coef.

7290

n Correlació Coef.

1.8))((1

1Covarianza

2 =

==

=−−−

= ∑

r

.ss

sr

yyxxn

s

yx

xy

iixy

Descriptiva

definicion

131

El Coeficiente de Correlación (r) da una medida del grado y la

dirección (-1; 1) de la relación entre dos variables continuas

El Coeficiente de Determinación (r2) cuantifica (0 ;1)

La información compartida por dos variables continuas

La relación


Coeficientes r y r2

Interpretacion grafica

132


Interpretación del Coeficiente de correlación

r =0.90 r =0.58

r = - 0.58 r =0.01

nube

133


Modelo ¿Cómo predecir la respuesta?

Diagrama de dispersión

Gráficos / Dispersión (x|y) / Dispersión

Descriptiva

Alzheimer1. txt

134

Propiedades:DireccionaCuantificaPrediceMinimiza el error de predicción


Coeficientes de la regresión

028.0

22.32

=−=

==

xbyass

bx

xy

xy 22.3028.0^ +=

Descriptiva

bxay +=^

Cuanto me equivoco

135


Cuanto nos equivocamos al hacer la predicción

86421

2

22 .)( =−

−−

=

=

=

x

xyyr s

ss

nns

residuos los de típica Desviación

0 residuos los de Media

Residuo:Diferencia entre la realidad y el modelo

Descriptiva

Ejemplos de residuos

xy 22.3028.0^ +=

136


Residuos vs coef. de correlación

Sr= 0.89 Sr= 2.4

Sr= 2.4 Sr= 3,8

output resultados

137

Modelo de CV con MOVILIDAD====================================================Número de Casos: 40

Modelo: Lineal----------------------------------------------------Ecuación: CV = 0.0286 + 3.2249 * MOVILIDAD----------------------------------------------------

Coef. E.E. t-valor p-valor---------------------------------------------------Ordenada 0.0286 2.7019 0.0106 0.9916 Pendiente 3.2249 0.4910 6.5675 0.0001---------------------------------------------------

r de Pearson (coeficiente de correlación) 0.7291r cuadrado (coeficiente de determinación) 53.16 %Desviación Típica de los Residuos 4.8605Rho de Spearman 0.6692 t-valor 5.5519 p-valor 0.0002E-2


Resultados del Caso

Análisis/xy/Regresion lineal Simple/ModeloFichero: Alzheimer1. txt respuestas

138


Respuestas a las preguntas (I)

¿Se puede cuantificar la asociación entre la Movilidad y la CV ?r=0.729 r2=0.531

¿Es debida al azar? ¿Es la relación Estadísticamente significativa?

p-valor=0.0001

Respondidas por la Correlación

139


Respuestas a las preguntas (II)

En general cuanto varía la CV al variar una unidad la Movilidadb=3.224

¿Como predecir la CV a partir de la Mov. de cada individuo?Calidad de Vida= 0.028+3.224 Movilidad

¿Cuanto me equivoco al hacer la predicción?d.t. residuos=4.86

Respondidas por la Regresión

condiciones

140

Regresión Lineal Simple

Condiciones de Aplicación

Linealidad

Homocedasticidad

Normalidad de residuos

Y variable aleatoria

Independencia

que falla

141


¿Qué falla en este ejemplo?

No linealidad

142


Linealidad vs relación

Un coeficiente no significativo sólo implica: ausencia de relación Lineal

143


Tres Estrategias si el modelo RLS no es válido

2.- Regresión polinómica

3.- Correlación no paramétrica de rangos: Rho de Spearman

1.- Transformación de variables

r de Pearson (coeficiente de correlación) 0.7291r cuadrado (coeficiente de determinación) 53.16 %Desviación Típica de los Residuos 4.8605Rho de Spearman 0.6692 t-valor 5.5519 p-valor 0.0002E-2

Pearson y spearman

144


Pearson y Spearman

Karl Pearson 1857-1936 Charles E. Spearman 1863-1945

cigueñas

145

Contenido del curso



IV- Pruebas estadísticas básicast-Student, Mann-Whitney (Wilcoxon)ANOVA, Kruskal-WallisChi-CuadradoFisher




146

Técnicas MultivariantesRegresión Lineal MúltipleRegresión LogísticaKaplan-Meier y Regresión de Cox

Técnicas Multivariantes

Un aproximación intuitiva a las

…. el análisis del mundo real

147

Datos de 40 sujetos que sufren Alzheimer,(La Movilidad explica la Calidad de Vida p<0.0001)

¿Qué variables pueden explicar la CV ?

Posibles Predictoras:

Movilidad

Memoria (0-17)

Ingresos Económicos (€)

Integración social (0-10)

Regresión Lineal Múltiple

Ejemplo: Calidad de Vida en pacientes de Alzheimer

Datos

148


Calidad de Vida en pacientes de Alzheimer; Datos

Fichero: Alzheimer1. txt Posibles preguntas

149

Correlación y Regresión Múltiple

Posibles preguntas

¿Se puede cuantificar la relación entre la CV y las var. explicativas?

¿Es debida al azar?

¿Cuáles son las variables realmente explicativas?

¿En general cuánto varía la CV al variar una unidad cada variable explicativa ?

¿Cómo puedo predecir la CV para cada individuo?


Bivariante -Matriz de correlaciones

150

Análisis del mundo real

Matriz de correlaciones bivariantes

CV MOVILIDAD INGRESOS MEMORIA INTEGRACIÓN--------------------------------------------------------------------------------

CV 1.0000 0.7291 0.0589 0.9440 0.8588 (0.0001) (0.7181) (0.0001) (0.0001)

MOVILIDAD 0.7291 1.0000 0.0663 0.6893 0.6291 (0.0001) (0.6843) (0.0001) (0.0001)

INGRESOS 0.0589 0.0663 1.0000 0.1306 -0.1059 (0.7181) (0.6843) (0.4220) (0.5153)

MEMORIA 0.9440 0.6893 0.1306 1.0000 0.7816 (0.0001) (0.0001) (0.4220) (0.0001)

INTEGRACIÓN SOCIAL 0.8588 0.6291 -0.1059 0.7816 1.0000 (0.0001) (0.0001) (0.5153) (0.0001)

--------------------------------------------------------------------------------

La matriz de correlaciones permite cuantificar la relación de las variables entre sí

Multivariante /Regresión Múltiple (xz|y)/CorrelacionesFichero: Alzheimer1. txt Ecuación

151

varresp = b0 + b1 varexpl_1 + b2 varexpl_2 + ... + b4 varexpl_4

una variablerespuesta


Esquema del Modelo

^CV = a + b1 Movilidad + b2 Memoria + ... + b4 Ingresos

Ordenada Coeficientes de la regresión

¿Cómo se calculan los b?

varias variables explicativas o predictoras

batalla

152

CV


La batalla por la explicación de la variación

Movilidad

Ingresos

Memoria

Integración social

ajust

153

CV


La batalla por la explicación de la variación

Movilidad

Ingresos

Integración social

output

Memoria

154


Modelo inicial

Multivariante /Regresión Múltiple (xz|y) / Modelo

Variable Respuesta: CV Número de Casos: 40

------------------------------------------------------------------Coef. E.E. t-valor p-valor

------------------------------------------------------------------CONSTANTE -0.0783 1.1965 -0.0655 0.9482MEMORIA 1.8921 0.2327 8.1304 0.0001E-5MOVILIDAD 0.4427 0.2712 1.6327 0.1115 INGRESOS -0.0003E-1 0.0006 -0.0539 0.9573 INTEGRACIÓN SOCIAL 0.9286 0.2452 3.7863 0.0006

------------------------------------------------------------------

----------------------------------------------------------------------------Variabilidad S.Cuadrados G.L. C. medio F-valor p-valor

----------------------------------------------------------------------------Modelo 1789.7630 4 447.4407 123.4144 0.0004E-16

r cuadrado (coeficiente de determinación) 93.3795 %r cuadrado (ajustado) 92.6228 %Desviación Típica de los Residuos 1.9041

Fichero: Alzheimer1. txt Resumen y Filtros

155

Las siguientes siuaciones pueden darse:

• Una variable explicativa puede en bivariante serser significativa y en multivariante nono

• Una variable explicativa puede en bivariante no serno ser significativa y en multivariante sísí

RLM Modelo inicial

Consecuencias, filtros y paradojas

¿ Inutilidad de los filtros previos ?

Depuracion

NoNoINGRESOS

SiSíIntegración SOCIAL

NoSíMOVILIDAD

SíSíMEMORIA

MúltipleInicial

BivarianteFactor

156

¿Qué hacer con las variables no significativas en el modelo multiple inicial?

Depuración del modelo


Mejora del Modelo inicial

Selección automatica de variables:hacia delante hacia atráspaso a paso

Eliminación directa

^CV= -0.078 + 1.89*MEMORIA + 0.44*MOVILIDAD - 0.00003*INGRESOS + 0.928*INTEGRACIÓN

resultados

157

• El modelo va incorporando variables paso a paso

• En el paso 1, la variable MEMORIAentra en el modelo, porque es la que más explica la CALIDAD DE VIDA.

• En el paso 2, se incorpora la Integración SOCIAL

• Las restantes variables NO aportan capacidad explicativa al modelo, por lo que se quedan fuera.

• En cada paso podemos saber cuánto somos capaces de explicar de la CALIDAD DE VIDA.


Ejemplo: Modelización hacia adelante

Multivariante /Regresión Múltiple (xz|y)/ModeloFichero: Alzheimer1. txt resultados

158

Variable Respuesta: CVVariable(s) Explicativa(s): MEMORIA, MOVILIDAD, INGRESOS, INTEGRACIÓN SOCIAL--------------------------------------------------------------

Coef. E.E. t-valor p-valor --------------------------------------------------------------CONSTANTE 1.0562 0.8010 1.3187 0.1954MEMORIA 2.0357 0.2043 9.9667 0.0005E-8INTEGRACIÓN SOCIAL 1.0084 0.2283 4.4169 0.0008E-1

--------------------------------------------------------------

----------------------------------------------------------------------------Variabilidad Cuadrados G.L. Medio F-valor p-valor

----------------------------------------------------------------------------Modelo 1780.0977 2 890.0488 241.1557 0.0006E-18----------------------------------------------------------------------------

r cuadrado (coeficiente de determinación) 92.8752 %r cuadrado (ajustado) 92.4901 %Desviación Típica de los Residuos 1.9211

RLM – Modelización hacia adelante

Modelo Final

Multivariante /Regresión Múltiple (xz|y) / Modelo

Modelización hacia adelante

Fichero: Alzheimer1. txt perfiles

159

Predicción del Modelo RLM

Perfiles de pacientes y Predicción de CV

Predicción CV MEMORIA INTEGRACION

4.1 1 111.2 1 89.2 3 2

12.2 3 517.3 6 421.3 6 821.4 9 224.4 9 528.5 9 9

preguntas

Calidad de Vida= 1.05 + 2.03 MEMORIA + 1.00 INTEGRACIÓN

160

Correlación y Regresión Múltiple

Respuestas a las posibles preguntas

¿Se puede cuantificar la relación entre la CV y las var. explicativas?R2 = 92.49 %

¿Es posible explicar significativamente la CV; es debida al azar? P-valor modelo =0.0006E-18

¿Cuáles son las variables Explicativas?Memoria e Integración

¿En general, cuánto varía la CV al variar una unidad cada variable Explicativa ?Los coeficientes bi: +2.03 y +1.00

¿Cómo puedo predecir la CV para cada individuo?Mediante la ecuación de regresión

¿Cuánto me equivoco al hacer la predicción?Sr = 1.9211 Restricciones

161

Validación del modelo:

Los residuos del modelo deben seguir cumpliendo :Linealidad

Homocedasticidad

Normalidad de residuos

Y variable aleatoria

Independencia


Validación y garantía del modelo

Análisis de la distribución de residuales

Media =cero

Normalidad

Incorrelados con la respuesta

Homocedasticidad

residuos

162

Estadístico Residuo

------------------------------------

N 40

Media -0.0006

Desviación Típica 1.8712


Análisis de los Residuos

Contraste de Normalidad

--------------------------------------

W Shapiro-Wilk: 0.9638

p-valor Shapiro-Wilk: 0.2255

Yule

163

El término "regresión múltiple" fue utilizado por primera vez por Karl Pearson en 1908, aunque su discípulo George Udny Yule (1871-1951) estudió

previamente sus propiedades. Yule fue un matemático escocés interesado en las ciencias sociales.

George Udny Yule

Regresión Lineal MúltipleYule

mas alla

164


Mejoras del modelo

Transformación

Regresión polinómica

Modelización de Interacciones

Var dummies

Nuevos predictores

fin

165

Regresión Logística

¿Como modelizar una respuesta dicotómica?

166


Ejemplo: Rehabilitación de accidentados

167

Regresión LogísticaEjemplo: Rehabilitación de accidentados

Estudio en 46 sujetos víctimas de accidentes graves de tráfico

Se desea saber si la inmovilización previa, la focalización de la lesión, el número de horas hasta quirófano y la edad del sujeto influyen en una rehabilitación satisfactoria del paciente.

Variable respuesta dicotómica:REHABILITA

0 No se rehabilita

1 Se rehabilita satisfactoriamente

Variables explicativas: INMOVILIZA

0 No se inmoviliza

1 Si se inmoviliza

FOCAL

0 Lesión difusa

1 Lesión focalizada

HORAS hasta intervención

EDAD en años

datos

168Fichero: Rehabilitacion1.txt


Datos del Ejemplo

preguntas

169


Las mismas preguntas naturales

¿Se puede cuantificar la relación entre Rehabilitación y las var. explicativas?

¿Es debida al azar?

¿Cuáles son las variables realmente Explicativas?

¿Cuánto influye cada variable explicativa en la Rehabilitación?

¿Cómo puedo predecir la Rehabilitación para cada individuo?

¿Cuánto me equivoco al hacer la predición?

todos los multivariante son parecidos

170

NoSíSíPredición para individuos

NoR2 + ClasificaR2Rendimiento del modelo

HRORBMedida del efecto de las v. explicativas

NoSíSíError en la Predición

SíSíSíVarias variables explicativas

SíSíSíSignificación global del efecto

R. CoxR. LogísticaRLMCaracterística

SíSíSíModelo final

SíSíSíModelo inicial

SíSíSíAproximación bivariante errónea

Censur.DicotómicaCuantit.Única variable Respuesta

Las Técnicas de Regresión Multivariantes son parecidas

logit

171

La variable respuesta es dicotómica.Pero no se puede modelizar como tal

Se modeliza la probabilidad de ocurrencia del suceso


La diferencia

Función Logit de p = Ln odds p= Ln (p/1-p)

ecuacion log

172

bpXpXbXbbXOcurP

XOcurP++++=⎥

⎦

⎤⎢⎣

⎡

−...

)()(

ln 221101

r

r


La ecuación de regresión

)....22110(11),...,3,2,1|( bpXpXbXbbe

XpXXXOcurP++++−+

=

Matriz de correlaciones

173


Ejemplo: Correlación y significación bivariantes

Multivariante / Regresión Múltiple (xz|y) / Correlaciones - Spearman

r de Spearman(Significación)

REHABILITA INMOVILIZA HORAS FOCAL EDAD -----------------------------------------------------------------------

REHABILITA 1.0000 0.4019 -0.4089 0.2267 -0.3395 (0.0056) (0.0048) (0.1298) (0.0210)

INMOVILIZA 0.4019 1.0000 -0.3441 0.3867 -0.3412 (0.0056) (0.0192) (0.0079) (0.0203)

HORAS -0.4089 -0.3441 1.0000 -0.0083 0.2170 (0.0048) (0.0192) (0.9563) (0.1475)

FOCAL 0.2267 0.3867 -0.0083 1.0000 -0.2950 (0.1298) (0.0079) (0.9563) (0.0465)

EDAD -0.3395 -0.3412 0.2170 -0.2950 1.0000 (0.0210) (0.0203) (0.1475) (0.0465)

Fichero: Rehabilitacion1.txt modelo ini

174


Ejemplo. Modelo inicial

Valor modelizado (ocurrencia): REHABILITA = 1

Ajuste del Modelo (Diferencia de Likelihood)------------------------------------------------------------------Chi-Cuadrado = 16.2828; G.L. 4; p-valor = 0.0027

R Cuadrado del Modelo:-------------------------Cox-Snell = 0.2981Nagelkerke = 0.3985

Regresión Logística:----------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

----------------------------------------------------------------------INMOVILIZA 1.0002 0.7611 1.7272 1 0.1888 0.0000 HORAS -0.4671 0.2052 5.1836 1 0.0228 -0.2240 FOCAL 0.6371 0.7823 0.6633 1 0.4154 0.0000 EDAD -0.0646 0.0521 1.5376 1 0.2150 0.0000 CONSTANTE 3.3008 1.8457 3.1982 1 0.0737 0.1375

Multivariante / Regresión Logística / Modelo ocurrencia=1Fichero: Rehabilitacion1.txt depuracion

175

• Globalmente, el modelo es estadísticamente significativo, no nulo. p-valor= 0.0027

• Los predictores consiguen explicar de forma conjunta el R2= 39.85%

• HORAS se mantiene significativa en el modelo inicial

• INMOVILIZACION y EDAD dejan de ser significativos

• FOCAL sigue sin ser significativo


Conclusiones del modelo inicial

Depuración y especificación del modelo

Selección de variables hacia delante paso a paso

Eliminación directa

modelo final

176


R Cuadrado del Modelo:-------------------------Nagelkerke = 0.3431

Regresión Logística:--------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

--------------------------------------------------------------------HORAS -0.4295 0.1926 4.9735 1 0.0257 -0.2165INMOVILIZA 1.3993 0.7116 3.8667 1 0.0493 0.1716 CONSTANTE 1.5131 0.9977 2.3003 1 0.1293 0.0688

Variable OR IC95.0%inf IC95.0%sup------------------------------------------------HORAS 0.6509 0.4462 0.9493 INMOVILIZA 4.0525 1.0046 16.3478


Modelo final

Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelanteFichero: Rehabilitacion1.txt Resumen filtros

177

NoNoSíEdad

NoNoNoFocal

SíNoSíInmoviliza

SíSíSíHoras

MúltipleFinal

MúltipleInicial

BivarianteFactor


Consecuencias de la colinealidad y confusión

Estudio de Rehabilitación

Interpreta coeficientes

178


R Cuadrado del Modelo:-------------------------Nagelkerke = 0.3431

Regresión Logística:--------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

--------------------------------------------------------------------HORAS -0.4295 0.1926 4.9735 1 0.0257 -0.2165INMOVILIZA 1.3993 0.7116 3.8667 1 0.0493 0.1716 CONSTANTE 1.5131 0.9977 2.3003 1 0.1293 0.0688

Variable OR IC95.0%inf IC95.0%sup------------------------------------------------HORAS 0.6509 0.4462 0.9493 INMOVILIZA 4.0525 1.0046 16.3478


Coeficientes

Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelanteFichero: Rehabilitacion1.txt Interpreta coeficientes

179

Para cada coeficiente bi del modelo se puede calcular el efecto de la variable mediante el OR

ibi

i

ORe

ORbi

=

= )ln(

Medida del efecto de los factores

Interpretación de los coeficientes de Reg. Logística

Dificulta el eventoMenor de 1Negativo

Favorece el eventoMayor de 1Positivo

Efecto(OR)Coeficiente b

Output final

180


Perfiles de pacientes y Prob. de Rehabilitación

INMOVILIZA HORAS B Prob. (Rehab./ B)0 1 1,084 0,75

0 3 0,226 0,56

0 5 -0,632 0,35

0 7 -1,49 0,18

0 9 -2,348 0,09

1 1 2,483 0,92

1 3 1,625 0,84

1 5 0,767 0,68

1 7 -0,091 0,48

1 9 -0,949 0,28

)429.0399.1513.1(11)2,1|1( HORASINMOVILIZAe

XXREHABILITAP−+−+

==

Cuanto me equivoco?

181

La Regresión Logística como dispositivo Diagnóstico

Tabla de Clasificación para REHABILITA (Punto de corte = 0.50)----------------------------------------------------------

| Predicción | | Observados | 1 | 0 | % Correcto

----------------------------------------------------------1 | 16 | 9 | 64.0000 % 0 | 8 | 13 | 61.9048 %

----------------------------------------------------------| | | 63.0435 %

Índices de Diagnóstico----------------------------------------Valor Predictivo Positivo = 0.6667Valor Predictivo Negativo = 0.5909Sensibilidad = 0.6400Especificidad = 0.6190Indice de Youden = 0.2590

Fichero: Rehabilitacion1.txt Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelante Como optimizar

182

La Regresión Logística como dispositivo Diagnóstico

Optimización

Punto de corte =0.4565

Tabla de Clasificación para REHABILITA (Punto de corte = 0.46)----------------------------------------------------------

| Predicción | | Observados | 1 | 0 | % Correcto

----------------------------------------------------------1 | 17 | 8 | 68.0000 % 0 | 8 | 13 | 61.9048 %

----------------------------------------------------------| | | 65.2174 %

Índices de Diagnóstico----------------------------------------Valor Predictivo Positivo = 0.6800Valor Predictivo Negativo = 0.6190Sensibilidad = 0.6800Especificidad = 0.6190Indice de Youden = 0.2990

Fichero: Rehabilitacion1.txt Multivariante/Regresión Logistica/Modelo; ocurrencia=1; hacia adelante Q & A

183


Las mismas preguntas naturales

¿Se puede cuantificar la relación?Nagelkerke = 0.3431

¿Es posible explicar significativamente la Respuesta->Rehabilitación?p-valor = 0.0011

¿Cuáles son las variables realmente Explicativas?Horas e Inmoviliza

¿Cuánto influye cada variable explicativa en la Rehabilitación?OR=0,65(Horas) OR=4,05 (Inmoviliza)

¿Cómo puedo precedir la probabilidad de Rehabilitación para cada individuo?Mediante la ecuación del modelo

¿Cuánto me equivoco al hacer la predición?1.00 - 0.65=0.35

fin

184

Análisis de Supervivencia

Estudio del tiempo hasta …

185


Ejemplo: Cirugía y Recidiva

89 pacientes han sido sometidos una operación quirúrgica.

Se estudiará si un Tratamiento farmacológico puede retrasar la recidiva.

Se sospecha que la Gravedad y el nivel de un Marcador puede influir en la recidiva.

Tiempo total del estudio: 64 meses.

Concepto de censura

MarcadorGravedad Trat

Tiempo LS

186

Pac

iente

s

Fin del estudio

Evento: Recidiva

Evento

Evento

Incumplimiento terapéutico (censurado)

Sin evento en el fin (censurado)

Sin evento en el fin (censurado)

Estudio del tiempo hasta

Concepto de censura

Inicio del estudio

Desaparece (censurado)

Tiempo 640

Tipos de variables

187

Explicativas

TiempoTiempo hasta que ocurre un evento

Respuesta de Censura

indica si se ha producido el evento

Posible influencia sobre el tiempo

Eje

mp

los

Hasta exitus (-)

Hasta recaída (-)

Hasta síntomas (-)

Hasta curación (+)

Hasta efecto (+)

• No cumplimiento

• Perdida del seguimiento

• Efectos secundarios

• Violaciones al protocolo

• Fin del estudio

Diagnóstico al inicio

Tratamiento

Dosis

Antecedentes

Gravedad

Factor de riesgo


Variables

Variables en el ejemplo

188


Variables del ejemplo “Cirugía y Recidiva”

Respuesta

TIEMPO LS: Tiempo transcurrido entre la intervención y la recidiva (meses)

Censura

Evento (0=dato censurado; 1=evento )

Explicativas

Trat: 0=No; 1=Si

Gravedad : 1=Baja; 2=Moderada; 3= Grave

Marcador: Concentración del Marcador (rango: 16-66)

BDatos

189


Datos Ejemplo

Fichero: Tiempo hasta recidiva2.txt Descriptiva erronea

190


Descriptiva Errónea

Gráficos /xy/Fichero: Tiempo hasta recidiva2.txt

Sin considerar la censura

Curva KM

191

Permite comparar diferentes grupos


Descriptiva S(t), Kaplan-Meier por grupos

Formula KM

Función de probabilidad de supervivencia de Kaplan Meier

192


Descriptiva S(t), Kaplan-Meier por grupos

Función de probabilidad de supervivencia de Kaplan-Meier

Pregunta para descriptiva:¿Que probabilidad se tiene de llegar / alcanzar diferentes tiempos?

Tabla KM

i

iij

i

KMj n

dnS

−= ∏

=1

193


Kaplan-Meier para el grupo Trat=1i

iij

i

KMj n

dnS

−= ∏

=1

0,00000,000010152

0,24740,666731148

0,37110,857173144

0,43290,6000152640

0,72150,8889181236

0,81170,9091222232

0,89290,8929283324

Sj(nj-dj)/njnjljdjtj

Tabla KM salida PC

194

• Al cabo de 1,9 meses, aparecen 3 recidivas.

• En ese instante se calcula la probabilidad de supervivencia: 25 pacientes de los 28 de estudio no han recidivado, luego p=25/28 = 0.975

• A los 2,1 meses aparecen 2 nuevos casos de recidiva y 3 censurados

• En ese instante se calcula la probabilidad de supervivencia.

• La probabilidad de supervivencia es el producto de las probabilidades de no recidivar en el período 0-1,9 meses por la de no recidivar en el período 1.9-2.1 meses, esto es 0.8929 x (20/(25-3)= 0.954


Descriptiva. Tabla de Kaplan-Meier

Multivariante /Regresión de Cox / K-M tablaFichero: Tiempo hasta recidiva2.txt Curva KM Trat

195Multivariante /Regresión de Cox / K-M Gráfico


Descriptiva por Trat. Curva de Kaplan-Meier

Fichero: Tiempo hasta recidiva2.txt

Trat

Curva KM Estres

196


Descriptiva por Gravedad

GravedadFichero: Tiempo hasta recidiva2.txt macador

197

Análisis de SupervivenciaDescriptiva por Marcador

Marcadorpreguntas

198

Regresión de COX

Las mismas preguntas de siempre

¿Se puede cuantificar globalmente la relación?

¿Es significativa?

¿Cuáles son las variables Explicativas?

¿Cuánto influye cada variable explicativa en la respuesta?

¿Cómo puedo predecir el Tiempo S L para cada individuo?


En multivariante

ecuacion cox

199

h(t|Trat, Gravedad, Marcador) = ho(t)·exp(b1 Trat+ b2 Gravedad+b3 Marcador)

Ecuación de regresión de Cox

Función de riesgo (h) Coeficientes de var. explicativas

Tiempo

Bivariante

Es una tasa que mide el cambio instantáneo del valor de una variable

La FUERZA DE MORBILIDAD: Fuerza que una enfermedad tiene para cambiar el estado de salud al de enfermedad por unidad de tiempo.

El POTENCIAL instantáneo de cambio en el status de enfermedad por unidad de tiempo, en relación con la población susceptible.

200

Regresión de COX

Analisis Bivariantes

Coeficiente Cox(Significación)

Trat Gravedad Marcador----------------------------------------------------

Tiempo LS -0.1897 0.2238 0.1651(0.4568) (0.2368) (0.0005E-11)

output cox

201

Variable Respuesta: Tiempo LSVariable Censura: EVENTOValor asociado al dato censurado: EVENTO=0Variable(s) Explicativa(s): Trat, Gravedad, Marcador

Ajuste del Modelo (Diferencia de Likelihood)---------------------------------------------------------------------Chi-Cuadrado = 76.0027; G.L. 3; p-valor = 0.0002E-12

Regresión de Cox---------------------------------------------------------------------Variable Coef. E.E. Wald G.L. p-valor R

---------------------------------------------------------------------Trat -0.6257 0.2807 4.9683 1 0.0258 -0.0811Gravedad -0.1319 0.2057 0.4114 1 0.5213 0.0000 Marcador 0.1844 0.0238 59.9479 1 0.0010E-11 0.3584

Variable HR IC95.0%inf IC95.0%sup----------------------------------------------Trat 0.5349 0.3085 0.9273 Gravedad 0.8764 0.5856 1.3116 Marcador 1.2024 1.1476 1.2599

Regresión de COX

Variables y Coeficientes del modelo inicial

Multivariante /Regresión de Cox (xz|y cens)/ModeloTiempo hasta recidiva2.txt Interpretacion de Bi y HR

202

Medida del efecto de los factores

Interpretación de los coeficientes iniciales de Reg. Cox

Acelera el tiempo para el eventoMayor de 1Positivo

Enlentece el tiempo para el evento Menor de 1Negativo

Efecto del factorHazard Ratio (HR)Coeficiente b

Output inicial

• exp(b)= Hazard Ratio (HR)

Razón de Riesgos

h(t|Trat, Gravedad, Marcador)=ho(t)·exp(-0.625·Trat + -0.131·Gravedad - 1.184·Marcador)

203

• Coef negativo:El factor enlentece el evento

• Coef positivos:El factor acelera el evento

Regresión de COX

Interpretación de Coeficientes del modelo inicial

HR menor que uno implica que el grupo Con TRAT=1 y tiene mayor supervivencia (tiempo enlentecido)

HR mayor que uno implica que los grupos con elevados niveles de Marcador tienen menor supervivencia (tiempo acelerado)

Multivariante /Regresión de Cox (xz|y cens)/Modelo ; K=1Fichero: Tiempo hasta recidiva2.txt Interpretacion de HR

204

HRReducción vs

HR=1Ratio de

medianasElasticidad del tiempo hasta ..

10 -9 0,10 10%

6 -5 0,17 17%

2 -1 0,50 50%

1,5 -0,5 0,67 67%

1,2 -0,2 0,83 83%

1 0 1,00 100%

0,7 0,3 1,43 143%

0,66 0,33 1,50 150%

0,5 0,5 2,00 200%

0,33 0,67 3,00 300%

0,2 0,8 5,00 500%

0,1 0,9 10,00 1000%

0,06 0,94 16,67 1667%

Ace

lera

Enl

ente

ce

Regresión de COX

Interpretación del HR ( en modelos exponenciales / riesgos constantes a lo largo del tiempo )

Interpretacion grafica del HR

E(%)=100/HR

205

0102030405060708090

100

0 50 100 150 200

HR=2 HR=0.5

Regresión de COXInterpretación de HR

Modelo final

206

Regresión de COXModelo ajustado: Selección hacia adelante

Multivariante /Regresión de Cox (xz|y cens)/Modelo

Ajuste del Modelo (Diferencia de Likelihood)----------------------------------------------------------------------

Chi-Cuadrado = 75.5933; G.L. 2; p-valor = 0.0004E-13

Regresión de Cox

-----------------------------------------------------------------------

Variable Coef. E.E. Wald G.L. p-valor R

-----------------------------------------------------------------------

Marcador 0.1820 0.0236 59.6303 1 0.0001E-10 0.3574

Trat -0.6036 0.2777 4.7240 1 0.0297 -0.0777

Variable HR IC95.0%inf IC95.0%sup

----------------------------------------------

Marcador 1.1997 1.1455 1.2564

Trat 0.5468 0.3173 0.9424

Fichero: Tiempo hasta recidiva2.txt

No hay medida del rendimiento global del modelo

No hay predicción para individuos

Debe ser comprobada la asunción de h(t) proporcionales

cox

207

Los avances más significativos en el análisis de la supervivencia aplicado a los ensayos clínicos han sido debidos a Kaplan y Meier (1958) que presentaron un método para estimar la función de supervivencia, a Mantel (1966) que definióel estadístico Log-Rank para comparar dos distribuciones de supervivencia y a Cox (1972) que propuso el modelo de riesgos proporcionales para cuantificar

el efecto de covariables sobre el tiempo de supervivencia.

David Roxbee Cox

Regresión de COXCox

perfiles

208

Regresión de COX

Comparación de Perfiles

fin

Trat1 Marc1 Trat2 Marc2 HR Elasticidad

1 40 0 40 0.55 183%

1 35 1 30 2.48 40%0 35 0 30 2.48 40%

1 35 0 30 1.36 74%0 30 1 35 0.74 136%

0 30 1 33.3 1.00 100%

Perfil1 Perfil 2

)()(exp( 2121 MMbTTbHR MarcadorTrat −+−=

Documents

curso _gstat_12