Upload
leviomat
View
219
Download
0
Embed Size (px)
Citation preview
7/21/2019 contraste_hipotesis_2r
1/20
Correspondencia:[email protected]
1 de 20
DOCUWEB FABIS
Dot. Nm 0702004
Cmo realizar "paso a paso" un contraste de hiptesis conSPSS para Windows y alternativamente con EPIINFO yEPIDAT: (II) Asociacin entre una variable cuantitativa y unacategrica (comparacin de medias entre dos o ms gruposindependientes).
Aguayo Canela, Mariano.
Hospital Universitario Virgen Macarena (Sevilla), Servicio de Medicina Interna.
Resumen
Cuando queremos evaluar el grado de asociacin o independencia entre una variable cuantitativa yuna variable categrica (y recurdese que sta clasifica o diferencia a los individuos en grupos, tantoscomo categoras tiene dicha variable), el procedimiento estadstico inferencial recurre a comparar lasmedias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por lavariable categrica. Si sta tiene solo dos categoras (es dicotmica), la comparacin de medias entredos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o ms categoras, lacomparacin de medias entre tres o ms grupos independientes se realiza a travs de un modelomatemtico ms general, el Anlisis de la Varianza (ANOVA). En ambos casos, las pruebasestadsticas son exigentes con ciertos requisitos previos: la distribucin Normal de la variablecuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de
las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebasestadsticas no paramtricas. En este documento se ensea a hacer estos anlisis con el programaSPSS para Windows, y alternativamente con los programas EPIINFO 6.0 y su versin 3.3.2(actualizada en 2005) y con el programa EPIDAT 3.1.
0. INTRODUCCIN TERICA.
Cuando tengamos que evaluar la asociacin entre una variable categrica (o nominal) y unavariable cuantitativa, el procedimiento es analizar y comparar las medias de la distribucin dela variable cuantitativa en cada uno de los grupos que conforma la variable categrica.
Si la variable cualitativa slo tiene dos categoras (por ejemplo la variable sexo) elprocedimiento se reduce a comparar las medias de la variable cuantitativa en esos dosgrupos (hombres y mujeres en el ejemplo). El contraste de hiptesis es la t de Student, paracomparar las medias (de la variable contnua) en dos grupos independientes, que en SPSSest en:
Analizar > Comparar medias > Prueba t para dos muestras independientes
Si la variable categrica tiene tres o ms categoras (por ejemplo la variable raza con lassiguientes mediciones: blanca, negra, otras) el procedimiento tambin consiste en compararlas medias de la variable cuantitativa en cada uno de los grupos que conforma cada estrato
o categora de la variable nominal, pero el procedimiento ya no es la t de Student sino unmodelo matemtico ms amplio: el Anlisis de la Varianza (ANOVA de una va), que va apermitir no slo saber si hay diferencias en las medias en los diferentes grupos sino explorar
7/21/2019 contraste_hipotesis_2r
2/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 2 de 20
entre qu grupos concretos estn o no esas diferencias (a travs de los llamados contrastesa posteriori). El anlisis en SPSS est en:
Analizar > Comparar medias > ANOVA de un factor
Un aspecto muy importante de estos contrastes,tanto la t de Student como el ANOVA,es que son muy exigentes sobre una serie de requisitos en la distribucin de lavariable cuantitativa que est evaluando; en concreto sobre dos aspectos:
a) La variable cuantitativa debe distribuirse segn la Ley Normal en cada uno de losgrupos que se comparan (CRITERIO DE NORMALIDAD).
b) Las varianzas de la distribucin de la variable cuantitativa en las poblaciones de lasque provienen los grupos que se comparan deben ser homogneas (CRITERIO DEHOMOCEDASTICIDAD).
El primero es el ms importante. Aunque puede asumirse que se cumple para muestrasgrandes (n > 100), debe explorarse siempre, con grficos y pruebas de normalidad. 1 EnSPSS las pruebas de normalidad ms completas estn en la opcin EXPLORAR y al quese llega con la rutina:
Analizar > Estadsticos Descriptivos > Explorar
Con respecto al segundo requisito para aplicar estos contrastes (ANOVA y t de Student), esmenos exigente, y existen alternativas para hacer el contraste. As veremos que en SPSShay una lectura de la prueba asumiendo varianzas desiguales.
Cuando estos requisitos se incumplen hay que recurrir a las PRUEBAS NOPARAMTRICAS, que en SPSS estn en:
Analizar > Pruebas no paramtricas > 2 muestras independientes ( k muestrasindependientes)
Vamos a trabajar con el ejemplo del estudio de obesidad e hipertensin. En esta base dedatos, la variable obesidad es categrica (obeso / no obeso) y desearamos saber si estrelacionada con la edad de los individuos (una variable cuantitativa, cuya medida son losaos cumplidos), esto es, responder a la pregunta hay diferencias en la edad de losindividuos segn sean o no obesos?O de forma alternativa, est relacionada la edad conla presencia de obesidad?
1. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DEUNA VARIABLE (CUANTITATIVA) EN DOS GRUPOSESTABLECIDOS POR UNA VARIABLE DICOTMICA.
1. Antes que nada debe explorarse la variable cuantitativa para comprobar que secumplen los requisitos que van a permitir aplicar las pruebas paramtricas. Para ellorecurrimos al procedimiento EXPLORAR en la pestaa de Analizar > Estadsticosdescriptivos:
1
( ),
. .
7/21/2019 contraste_hipotesis_2r
3/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 3 de 20
Como puede apreciarse, seselecciona como factor deexploracin la variable nominal,esto es, la categrica que nos vaa permitir establecer los grupos acomparar (en este ejemplo lavariable Obesidad, con sus doscategoras posibles, obeso / noobeso); y como variabledependientea explorar lavariable cuantitativa (en nuestrocaso la variable Edad, medidaen aos cumplidos).
En la pestaa de Grficoselegimos la opcin Grficos con
pruebas de normalidad. Vemosque esta ventana de Explorar >Grficos tambin es posible obtener:
Diagramas de caja(box-plot) para evaluar grficamente la distribucin de la variablecuantitativa en los diferentes grupos que se comparan, y tener una aproximacinvisual a lo que luego haremos en el contraste de hiptesis.
Grficos descriptivos de la variable cuantitativa, como los de tallo y hojas(stem&leaf) o los histogramasde frecuencias.
A continuacin mostramos la salida de SPSS con las opciones marcadas anteriormente:
ExplorarPRESENCIA DE OBESIDAD
Primero se muestra un resumen de los casos (individuos) que se van a explorar o procesar.
Resumen del procesamiento de los casos
33 100,0% 0 ,0% 33 100,0%
17 100,0% 0 ,0% 17 100,0%
PRESENCIADE OBESIDADobeso
no obeso
EDAD EN AOSCUMPLIDOS
N Porcentaje N Porcentaje N Porcentaje
Vlidos Perdidos Total
Casos
Luego un cuadro resumen con la estadstica descriptiva de la variable cuantitativa (el dependientepara el programa SPSS) en cada uno de los grupos establecidos por las diferentes categoras e lavariable cualitativa (el factor para el programa SPSS).En esta salida podemos ver un aspecto muy interesante: los IC95%para la media en cada grupo, unaforma alternativa al contraste de hiptesis clsico para tomar decisiones sobre la relacin entrevariables
7/21/2019 contraste_hipotesis_2r
4/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 4 de 20
40 45 50 55 60
Valor observado
-2
-1
0
1
2
No
rmalesperado
para obesi= obeso
Grfico Q-Q normal de EDAD EN AOS CUMPLIDOS
.En nuestro ejercicio vemos que, tanto la estimacin puntual de la media de la variable edad enambos grupos (48,70 vs 50,24) como sus intervalos de confianza (46,84 50,55 en el grupo obesovs 47,89 52,78 en el grupo no obeso) son muy superponibles, por lo que es altamenteimprobable que las variables edad y obesidad estn relacionadas en la poblacin (lo que conllevara a
que las edades medias en ambos grupos fueran muy diferentes).Seguidamente, se nos muestra las pruebas de normalidad que lleva a cabo el programa SPSS. Noshemos de fijar en la significacin estadstica de estos dos contrastes, asumiendo la normalidad de ladistribucin si en ambos grupos el nivel de p es no significativo (esto es, p>0,05). En nuestroejemplo podemos asumir la normalidad de la variable cuantitativa edad en ambos grupos (obesos /no obesos).
Si hemos solicitado otros grficos, la salida nos lo mostrar:
EDAD EN AOS CUMPLIDOSGrficos de tallo y hojas
EDAD EN AOS CUMPLIDOS Stem-and-Leaf Plot for obesi=obeso
Frequency Stem & Leaf
3,00 4 . 1115,00 4 . 22333
Pruebas de normalidad
,124 33 ,200* ,951 33 ,142,145 17 ,200* ,950 17 ,450
PRESENCIADE OBESIDADobesono obeso
EDAD EN AOSCUMPLIDOS
Estadstico gl Sig. Estadstico gl Sig.Kolmogorov-Smirnova Shapiro-Wilk
Este es un lmite inferior de la significacin verdadera.*.Correccin de la significacin de Lillieforsa.
Descriptivos
48,70 0,90946,84
50,55
48,6049,00
27,280
5,22341591810
,085 0,409-1,067 0,79850,24 1,199
47,69
52,78
50,2149,00
24,441
4,9444259177
,101 0,550-,583 1,063
MediaLmite inferiorLmite superior
Intervalo de confianzapara la media al 95%
Media recortada al 5%MedianaVarianza
Desv. tp.MnimoMximoRangoAmplitud intercuartil
AsimetraCurtosisMedia
Lmite inferior
Lmite superior
Intervalo de confianzapara la media al 95%
Media recortada al 5%MedianaVarianza
Desv. tp.MnimoMximoRangoAmplitud intercuartilAsimetraCurtosis
PRESENCIADE OBESIDADobeso
no obeso
EDAD EN AOSCUMPLIDOS
Estadstico Error tp.
7/21/2019 contraste_hipotesis_2r
5/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 5 de 20
obeso no obeso
PRESENCIA DE OBESIDAD
40
45
50
55
60
EDADEN
AOSCUM
PLIDOS
4,00 4 . 45552,00 4 . 773,00 4 . 8994,00 5 . 00016,00 5 . 2223333,00 5 . 4452,00 5 . 771,00 5 . 9
Stem width: 10Each leaf: 1 case(s)
EDAD EN AOS CUMPLIDOS Stem-and-Leaf Plot forobesi= no obeso
Frequency Stem & Leaf
2,00 4 . 227,00 4 . 77788895,00 5 . 023443,00 5 . 779
Stem width: 10Each leaf: 1 case(s)
Grficos Q-Q normales
En el box-plot tenemos una representacin grficade la distribucin de la variable cuantitativa (edad)en los dos grupos establecidos por la variablecualitativa (obesidad), y nos sirve para unaaproximacin visual al contraste de hiptesis, queplantear como hiptesis nula (H0) que no sondiferentes las medias de edad en estos grupos.
Como puede verse en nuestro ejemplo, las edadesmedias en el grupo no obeso son ligeramentemayores que en el grupo obeso, pero lasmedianas son idnticas y un amplio porcentaje deindividuos (los situados dentro de cada caja, el 50%de cada muestra) tienen unas edades muyparecidas.Con lo ya visto hasta ahora tenemos una
aproximacin inferencial sin necesidad de recurrir al contraste. Tanto el anlisis de losintervalos de confianza de las medias como el estudio de los grficos de caja nos permitenuna evaluacin de hasta qu punto pueden estas dos variables estar relacionadas en lapoblacin de la que proviene la muestra. Es muy probable que no estn asociadas. Peropara completar el anlisis inferencial debemos recurrir al contraste de hiptesis.
2. Cuando se cumple el criterio de NORMALIDAD puede llevarse a cabo unaevaluacin inferencial, bien a travs de comparar los intervalos de confianza de las mediasen ambos grupos o bien a travs del contraste de hiptesis, siendo la hiptesis nula
H01= 2
En el programa SPSS este ltimo procedimiento se encuentra en la secuencia de ventanas:
Analizar > Comparar medias > Prueba T para muestras independientes
40 45 50 55 60
Valor observado
-1
0
1
2
Norm
alesperado
para obesi= no obeso
Grfico Q-Q normal de EDAD EN AOS CUMPLIDOS
7/21/2019 contraste_hipotesis_2r
6/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 6 de 20
En el siguiente cuadro de dilogo que se abre trasoptar por Prueba T para muestrasindependientes, debemos seleccionar la variable acontrastar la variable cuantitativa, en nuestrocaso edad, y la variable de agrupacin lavariable categrica dicotmica, en nuestro ejemplola variable obesidad-, a la que habr que definir
grupos activando la casilla correspondiente(mientras tanto aparecen en la ventana unos signosde interrogacin entre parntesis):
Si usamos los valores especificadosanotaremos en cada grupo los valores con los que est recogida cada categora de lavariable categrica en nuestra base de datos (en nuestro ejemplo 1 = obeso; 2= no obeso).2
La salida del programa es:
Prueba TEstadsticos de grupo
33 48,70 5,223 ,90917 50,24 4,944 1,199
PRESENCIADE OBESIDADobeso
no obeso
EDAD EN AOSCUMPLIDOS
N MediaDesviacin
tp.Error tp. de
la media
Primero se muestran los estadsticos resumen en cada grupo: N (tamao), media, desviacin tpica yel error estndar de la media.
Luego el programa SPSS nos aporta informacin de la prueba T en un nico cuadro resumen, dondese nos ofrecen varias cosas, que no debemos confundir:
Una prueba de homogeneidad de varianzas (la prueba de Levene), que nos va a informarsobre el segundo requisito para aplicar la comparacin de medias mediante la prueba t deStudent: la homogeneidad de varianzas. El programa hace un contraste a travs delestadstico F de Snedecor y nos aporta una significacin estadstica, o valor p asociado a lahiptesis nula de que las varianzas son homogneas (sealado en color naranja en elsiguiente cuadro). Cuando ese valor p es significativo (p
7/21/2019 contraste_hipotesis_2r
7/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 7 de 20
contraste anteriormente comentado (o prueba de Levene);o en la lnea inferior los resultados son los que habra que elegir cuando no se han
asumido varianzas iguales, esto es, cuando la prueba de Levene en el paso anteriores significativa (p
7/21/2019 contraste_hipotesis_2r
8/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 8 de 20
Como en el ejercicio anterior, lo primero es comprobar si se dan los requisitos para aplicarlas pruebas paramtricas, basadas en la media y la varianza. Esto es, hay que explorarcmo es la distribucin de la variable TAS en cada grupo determinado por la variableobesidad, solicitando pruebas de normalidad que nos permitan tomar una decisin.
La salida de SPSS es ahora la siguiente:
ExplorarPRESENCIA DE OBESIDADResumen del procesamiento de los casos
33 100,0% 0 ,0% 33 100,0%17 100,0% 0 ,0% 17 100,0%
PRESENCIADE OBESIDADobeso
no obeso
PRESIN ARTERIALSISTLICA
N Porcentaje N Porcentaje N Porcentaje
Vlidos Perdidos Total
Casos
Como siempre, primero un resumen de los casos (individuos) explorados, e inmediatamente uncuadro con los estadsticos ms importantes que recogen informacin de la variable cuantitativa(dependiente para SPSS) en cada grupo de estudio segn los niveles o estratos de la variable
categrica introducida como factor. Descriptivos
125,97 3,191
119,47
132,47
125,69
120,00
336,03018,331
95
160
6528
,398 ,409-,682 ,798
144,94 6,505131,15
158,73
144,93
150,00719,43426,822
100190
90
45-,045 ,550
-,932 1,063
Media
Lmite inferiorLmite superior
Intervalo de confianzapara la media al 95%
Media recortada al 5%
MedianaVarianza
Desv. tp.Mnimo
Mximo
RangoAmplitud intercuartilAsimetra
Curtosis
Media
Lmite inferior
Lmite superior
Intervalo de confianza
para la media al 95%
Media recortada al 5%Mediana
VarianzaDesv. tp.
Mnimo
MximoRangoAmplitud intercuartil
Asimetra
Curtosis
PRESENCIAobeso
no obeso
PRESIN ARTERIALSISTLICA
Estadst ico Er ror t p.
Como podemos ver en el cuadro resumen de estadsticos, la media de TAS en los dos grupos decomparacin (obesos / no obesos) es ms elevada en el grupo de no obesos (144,95 con un IC95%entre 131,15 y 158,73) que en el grupo de obesos (125,97 con un IC 95%entre 119,47 y 132,47). La
diferencia puntual de estas medias es:
144,95 125,97 = 18,98
casi 19 mm de Hg ms alta en no obesos!; y los IC95% de las medias en ambos grupos sesuperponen en un rango muy corto (el que va desde 131,15 a 132,47). Es probable que ambasmedias sean estadsticamente diferentes y que podamos concluir que las dos variables (TAS yObesidad) estn asociadas en la poblacin de la que proviene la muestra.
El programa nos muestra ahora las pruebas de normalidad, para tomar una decisin sobre laadecuacin de los test paramtricos a la comparacin de medias.
7/21/2019 contraste_hipotesis_2r
9/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 9 de 20
obeso no obeso
PRESENCIA DE OBESIDAD
80
100
120
140
160
180
200
PRESINARTERIALSISTLIC
A
Ambas pruebas de normalidad muestran que en el grupo obeso la variable TAS no se distribuyesegn una Ley Normal, ya que la p asociada a los contrastes de K-S (0,001) y S-W (0,036) da pordebajo del nivel de significacin alfa prefijado (0,05). Esto nos obligar a tomar un camino diferente enel anlisis de la relacin entre estas dos variables, optando por pruebas no paramtricas.
PRESIN ARTERIAL SISTLICASi hemos solicitado un grfico de caja para la distribucinde la variable TAS en cada grupo de la variable obesidad,obtendremos una imagen como la que se acompaa,donde llama la atencin una mayor dispersin de losvalores de TAS en el grupo no obeso y una tendencia,as mismo, a mostrar valores ms elevados de TAS eneste ltimo grupo.
Llegados a este punto, si deseamos hacer uncontraste de hiptesis para evaluar hasta qu puntolas medias de TAS son diferentes, debemos optarpor una de las Pruebas no paramtricas > (para)2 muestras independientes, con el casiconvencimiento de que el test va a serestadsticamente significativo.
Una vez seleccionada la opcin no paramtrica ypara dos muestras independientes, el cuadro dedilogo del SPSS es el que sigue:
Es muy parecido a la que hemos visto en Compararmedias > Prueba T para muestras independientes:en las ventanas hay que seleccionar al menos unavariable a contrastar(la cuantitativa) y una variablede agrupacin(la categrica), que debe servir paraDefinir grupos
Se pueden elegir entre varios Tipo de prueba, siendo la ms comn la U de Mann-Whitney, sealada por defecto en el programaSPSS. Tras aplicar, la salida es la siguiente:
Pruebas no paramtricas
Estadsticos descriptivos
50 132,42 23,168 95 190
50 1,34 ,479 1 2
PRESIN ARTESISTLICA
PRESENCIA DE
OBESIDAD
N MediaDesviacin
tpica Mnimo Mximo
Pruebas de normalidad
,203 33 ,001 ,930 33 ,036,163 17 ,200* ,958 17 ,587
PRESENCIADE OBESIDADobesono obeso
PRESIN ARTERIALSISTLICA
Estadstico gl Sig. Estadstico gl Sig.Kolmogorov-Smirnova Shapiro-Wilk
Este es un lmite inferior de la significacin verdadera.*.
Correccin de la significacin de Lillieforsa.
7/21/2019 contraste_hipotesis_2r
10/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 10 de 20
Prueba de Mann-Whitney
Rangos
33 22,05 727,50
17 32,21 547,50
50
PRESENCIADE OBESIDADobeso
no obeso
Total
PRESIN ARTERIALSISTLICA
NRango
promedioSuma derangos
Tras hacer un pequeo resumen de los casos procesados a travs de sus estadsticos descriptivos(tamao muestral, media, desviacin tpica y valores mximo y mnimo), el programa procesa lainformacin contenida en la variable cuantitativa en cada grupo, y calcula varios estadsticos decontraste. Lo que debemos interpretar es la Sig. Asinttica (bilateral), que en nuestro caso vale0,018 y lleva a concluir que se rechaza la hiptesis nula de que la media de TAS es similar en ambosgrupos; o lo que es alternativamente igual,que existe una asociacin estadsticamente significativaentre la TAS y la Obesidad).
2. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DEUNA VARIABLE CUANTITATIVA EN TRES O MS GRUPOS
ESTABLECIDOS POR UNA VARIABLE CATEGRICA.
Cuando la variable cualitativa tiene tres o ms categoras, el anlisis de asociacin entreesta variable y una cuantitativa ya no puede llevarse a cabo por el test t de Student, sino quedebe recurrirse a una tcnica matemtica conocida como ANALISIS DE LA VARIANZA. Estaprueba contrasta la hiptesis H0 de que las medias de las distribuciones de la variablecuantitativa en todos y cada uno de los grupos independientes son iguales:
H01= 2= 3 = n
Esto es, con que exista una media diferente a las dems, el test estadstico ser significativoal nivel alfa establecido.
El ANOVA tiene las mismas exigencias que la t de Student: requiere que la variablecuantitativa se distribuya segn una Ley Normal en cada uno de los grupos a comparar, yadems exige que las varianzas sean homogneas.
Vamos a realizar una prueba de ANOVA, para lo cual vamos a convertir la variable cuantitativa edadde la base de datos OBESIDAD Y HTA en una variable categrica (edadrec) con tres categoras:
a) menos de 47 aosb) de 47 a 52 aosc) ms de 52 aos
Y ahora desearamos comprobar si existe relacin entre la presin arterial sistlica (TAS) y los tres
segmentos de edad establecidos por edadrec. Consistira en evaluar si las medias de TAS sondiferentes en los grupos de edad, y si fuese as en qu sentido y en qu estratos etarios.
Estadsticos de contrastea
166,500727,500
-2,358
,018
U de Mann-WhitneyW de Wilcoxon
Z
Sig. asintt. (bilateral)
PRESINARTERIALSISTLICA
Variable de agrupacin: PRESENCIA DE OBESIDADa.
7/21/2019 contraste_hipotesis_2r
11/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 11 de 20
Msde52aosDe 47a52aosMenosde 47 aos
EDAD EN AOS CUMPLIDOS (Banded)
200
180
160
140
120
100
80
PRESIN
AR
TERIALSISTLICA
7
Case Processing Summary
19 100,0% 0 ,0% 19 100,0%16 100,0% 0 ,0% 16 100,0%15 100,0% 0 ,0% 15 100,0%
EDAD EN AOSCUMPLIDOS (Banded)Menos de 47 aosDe 47 a 52 aosMs de 52 aos
PRESIN ARTERIALSISTLICA
N Percent N Percent N PercentValid Missing Total
Cases
1. Antes que nada debemos comprobar si secumple el requisito de normalidad en la distribucin de la variable cuantitativa entodos y cada uno de los estratos o grupos que establece la variable categrica.
Procedemos como ya hemos vistoantes, a travs de Analizar >
Estadsticos descriptivos >Explorar
La salida del programa SPSS ser:
Vemos en el cuadro anterior losestadsticos descriptivos en cada unode los tres grupos establecidos por lavariable edadrec. Las mediaspuntuales de TAS son 128.79, 133,38y 136.00 mm de Hg. Los IC95% deestas medias son algo anchos y sesuperponen en gran parte de su
recorrido, por lo que es muy probableque no existan diferencias en lasmedias y que estas dos variables no seasocien en la poblacin de la queproviene la muestra analizada.
Con respecto a los test de normalidad,se encuentra significacin estadstica(p
7/21/2019 contraste_hipotesis_2r
12/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 12 de 20
Con los datos previos ya intumos que no van a encontrarse diferencias estadsticamentesignificativas entre las medias de TAS al comparar los tres grupos de edad.
Por otra parte no sera demasiado correcto aplicar un ANOVA, ya que la variableTAS no se distribuye como una Normal en los grupos de comparacin. De todasformas, y con carcter puramente instructivo, vamos llevar a cabo el contraste.
2. Anlisis de la varianza de una va.En la ventana correspondiente del SPSS aplicamosAnalizar > Comparar medias > ANOVA de un factor...
En la nueva ventana de dilogo seleccionamos la variable categrica que establecer losgrupos a comparar y la trasladamos a la ventana Factor; en la ventana Dependientes
colocamos la variable cuantitativa,en nuestro caso Presin arterialsistlica.
En la pestaa que pone Posthoc... (contrastes o
comparaciones mltiples aposteriori) seleccionamos algunode los procedimientos que se nosofrecen. El ms habitual es el deBonferroni (tambin el deScheff). Estos contrastes tienensentido slo si el ANOVA sale
significativo o prximo a la significacin estadstica, ya que lo que realizan es comparacionesde las medias en las mltiples parejas de grupos que puedan contrastarse, para intentaraveriguar dnde est la diferencia (o diferencias) que ha causado que se rechace lahiptesis nula en la primera parte del ANOVA.
Tambin debemos explorar los contenidos de la pestaa Opciones..., para solicitar unaprueba de homogeneidad de varianzasy, si lo deseamos, un resumen de los principalesdescriptivosen cada grupo de comparacin.
Los resultados de las pruebas solicitadas son los siguientes:
7/21/2019 contraste_hipotesis_2r
13/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 13 de 20
ANOVA de un factor
Primero se nos muestra un cuadro resumen con los estadsticos descriptivos (de la variablecuantitativa) ms relevantes en cada grupo que se va a contrastar: las medias (y sus IC95%), lasdesviaciones tpicas y los valores mximo y mnimo.
Descriptivos
PRESIN ARTERIAL SISTLICA
19 128,79 18,045 4,140 120,09 137,49 110 180
16 133,38 23,977 5,994 120,60 146,15 100 16015 136,00 28,486 7,355 120,23 151,77 95 190
50 132,42 23,168 3,277 125,84 139,00 95 190
Menos de 47De 47 a 52
Ms de 52Total
N MediaDesviacin
tpica Error tpico Lmite inferiorLmite
superior
Intervalo de confianza parala media al 95%
Mnimo Mximo
Luego, el programa SPSS nos ofrece un test para evaluar la homogeneidad de varianzas: es el mismoque se aplicaba de rutina en el procedimiento comparacin de medias en dos grupos independientes(prueba T): el test de Levene. En nuestro ejemplo la significacin estadstica p vale 0.056, pudiendo
asumirse la homogeneidad de varianzas (aunque en el lmite de la no significacin).
Prueba de homogeneidad de varianzas
PRESIN ARTERIAL SISTLICA
3,059 2 47 ,056
Estadsticode Levene gl1 gl2 Sig.
Por ltimo, aparece la salida del ANOVA propiamente dicho, con sus diferentes componentes ofuentes de variabilidad: la inter-grupos y la intra-grupos. Esta ltima representara la variabilidad odispersin que no es explicada por el factor de agrupamiento (la variable categrica), y que sera
explicable slo por el azar.
ANOVA
PRESIN ARTERIAL SISTLICA
457,272 2 228,636 ,416 ,662
25844,908 47 549,892
26302,180 49
Inter-gruposIntra-grupos
Total
Suma decuadrados gl
Mediacuadrtica F Sig.
Para llevar a cabo el contraste, se recurre al estadstico F de Snedecor, que en nuestro ejemplo vale0.416 y tiene un valor p asociado de 0.662 (no significativo). Con esto concluiramos nuestra
evaluacin, diciendo que las variables TAS y grupos de edad no muestran asociacin; o que seacepta la hiptesis nula de que las medias de TAS son iguales en los diferentes grupos deedad. En este caso no habra lugar a evaluar los contrastes a posteriori, puesto que no se hanencontrado diferencias significativas en el ANOVA. An as mostramos la salida de SPSS:
Pruebas post hocComparaciones mltiples
Variable dependiente: PRESIN ARTERIAL SISTLICABonferroni
-4,586 7,957 1,000 -24,34 15,17
-7,211 8,099 1,000 -27,32 12,904,586 7,957 1,000 -15,17 24,34
-2,625 8,428 1,000 -23,55 18,307,211 8,099 1,000 -12,90 27,32
2,625 8,428 1,000 -18,30 23,55
(J) EDAD EN AOSCUMPLIDOS(Categorizada)De 47 a 52Ms de 52
Menos de 47Ms de 52
Menos de 47De 47 a 52
(I) EDAD EN AOSCUMPLIDOS(Categorizada)Menos de 47
De 47 a 52
Ms de 52
Diferencia demedias (I-J) Error tpico Sig. Lmite inferior
Lmitesuperior
Intervalo de confianza al95%
7/21/2019 contraste_hipotesis_2r
14/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 14 de 20
En el cuadro de comparaciones mltiples vemos que cada grupo de edad se compara con los otrosdos, obtenindose en cada contraste la diferencia de medias, el IC95%, el error estndar y elvalorpasociado, que en todos los casos es no-significativo, como ya sabamos que iba a suceder.
3. Pasos a dar cuando no puede aplicarse ANOVA. En nuestro ejercicio, al habersedetectado problemas con la normalidad de la variable TAS en alguno de los grupos etarios,lo correcto habra sido recurrir a una prueba no paramtrica en:
Analizar > Pruebas no paramtricas > k muestras independientesUna vez abiertala ventana del procedimiento, vemos que es muy parecida a la del ANOVA, debiendoseleccionarse una variable a contrastar (la cuantitativa, en el ejemplo la Presin arterialsistlica) y una variable de agrupacin (la categrica, en nuestro caso la edadrec quecorresponde a la primitiva variable edad que hemos recodificado en nominal, con tresgrupos o estratos), debiendo especificarle al programa SPSS el rango de valores (ennuestro caso de 1 a 3, que son los nmeros con los que se han codificado los tres estratos).El tipo de pruebaes por defecto el test de Kruskal-Wallis.
La salida que obtendremos, tras dar al botn de aceptar, ser la siguiente (nos hemospasado ahora a la versin en ingls del programa SPSS 13.0):
NPar Tests (Pruebas No Paramtricas)
Primero un resumen de los estadsticos para cada variable incluida en el contraste. En nuestroejemplo son slo dos, a las que SPSS considera numricas (realmente para la segunda variable -
edadrec- no tiene sentido la estadstica descriptiva llevada a cabo, pues es una variable categrica.Descriptive Statistics
50 132,42 23,168 95 190
50 1,92 ,829 1 3
PRESIN ARTERIALSISTLICAEDAD EN AOSCUMPLIDOS (Banded)
N Mean Std. Deviation Minimum Maximum
Luego aparece la prueba de contraste, el test de Kruskal-Wallis, con los tamaos de muestra (N) y los
rangos promedio para cada uno de los grupos a comparar. Y despus, en una segunda tabla, apareceel estadstico Chi-cuadrado, que vale 0,487, sus grados de libertad (el nmero de grupos -3- menosuno), y su significacin estadstica (p = 0,784). Llegamos a la misma conclusin que con el ANOVA:
7/21/2019 contraste_hipotesis_2r
15/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 15 de 20
las variables contrastadas no estn asociadas en la poblacin de la que provienen la muestraestudiada, pudiendo achacarse las pequeas diferencias apreciadas en la presin arterialsistlica -en los diferentes grupos de edad- al puro azar o error aleatorio del muestreo.
Ranks
19 23,7116 26,28
15 26,93
50
EDAD EN AOS
Menos de 47 aosDe 47 a 52 aosMs de 52 aos
Total
PRESIN ARTERIALSISTLICA
N Mean Rank
En este ejemplo slo puede concluirse que no tenemospruebas para rechazar la hiptesis nula, esto esaceptaremos la igualdad de medias en la poblacin de laque proviene la muestra y concluiremos diciendo queno se han encontrado argumentos que relacionen laTAS con los tres rangos de edad analizados. Por otraparte, si hubisemos detectado diferencias hemos deaclarar que con este tipo de contrastes no paramtricos
no es posible realizar contrastes a posteriori.
3. PASOS A DAR PARA HACER UNA COMPARACIN DE MEDIASCON EL PROGRAMA EPI-INFO.
El programa EPI-INFO permite evaluar medias en dos o ms grupos con dos procedimientoso aproximaciones diferentes:
En la versin EPI INFO 6, a travs de la rutina EPITABLE, siempre que tengamosya calculados los estadsticos resumen (media y varianza) de la variablecuantitativa en cada uno de los estratos o grupos establecidos por la variablecategrica.
En la versin EPI INFO 2002 o posterior, a travs del programa ANALIZARDATOS, tras cargar el fichero que contiene los datos individuales y las variablesmedidas, de forma muy parecida a lo que se ha hecho en el programa SPSS.
1. Si tenemos los estadsticos resumen de la variable cuantitativa en todos y cada unode los grupos establecidos por la variable categrica o, simplemente, en los gruposindependientes que van a compararse, el programa EPI INFO 6.0 nos permite una
doble aproximacin inferencial: la comparacin de los intervalos de confianza de lasmedias en cada grupo y el contraste de hiptesis que parte de la hiptesis nula de que lasmedias de los diferentes grupos son iguales.
Vamos a trabajar con el mismo ejemplo que en el apartado 1 paso 3, esto es, vamos acomparar las medias de TAS entre los dos grupos establecidos por la variable Obesidad(obesos / no obesos). Pero en este caso ya tenemos calculados sus ndices resumen: lamedia, la varianza y el tamao muestral.
Existe asociacin? Presin arterial sistlicaObesidad N Media Varianza Desv. EstndarObeso 33 125,97 336,030 18,331
No obeso 17 144,94 719,434 26,822
Test Statistics a,b
,487
2
,784
Chi-Square
df
Asymp. Sig.
PRESINARTERIALSISTLICA
Kruskal Wallis Testa.
Grouping Variable: EDAD ENAOS CUMPLIDOS (Banded)
b.
7/21/2019 contraste_hipotesis_2r
16/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 16 de 20
1.1. En primer lugar vamos a calcular los intervalos de confianza de la media deTAS en ambos grupos. Esta es una primera aproximacin inferencial. Abrimos enEPITABLE la opcin Describe > Mean
Y ahora debemos introducir los datos que nos pide la calculadora: la media, la desviacinestndar y el tamao de la muestra, para cada grupo (obesosy no obesos). Mostramos acontinuacin la salida para el grupo obesos:
El intervalo de confianza al 95% que nos da el programa EPI INFO (119,72 132,22) es ligeramentems pequeo que el que aportaba el programa SPSS para la misma media (119,47 132,47). Deforma similar se hara el clculo en el otro grupo (no obesos), y con ambos intervalos de confianzadeberamos tomar la decisin de hasta qu punto ambas medias en la poblacin seran diferentes.
1.2. En segundo lugar, procedamos a comparar las medias de TAS en los dosgrupos. Esta es la aproximacin inferencial ms clsica, a travs del contrastede hiptesis. En la calculadora estadstica EPITABLE se realiza a travs de laopcin Compare > Means
Una vez abierta la ventana de dilogo, nos pide cuantas muestras o grupos vamos acomparar (how many samples?). En nuestro ejemplo son solo dos (obesos y noobesos), por lo que sealamos 2 y aceptamos. El programa nos ofrece una nueva ventana
7/21/2019 contraste_hipotesis_2r
17/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 17 de 20
para hacer un ANOVA para dos grupos, debiendo introducir para cada uno de los grupos lamedia, la varianza y el tamao.
Al aceptar (Calculate) el programa nos ofrece la salida de un Anlisis de la Varianza (ANOVA), con lavariabilidad intergrupos (Variance between samples), la varianza residual (Residual variance), elestadstico de contraste de Snedecor (F Statistic) y el valor p asociado (p value), que en nuestroejemplo vale 0,004749. Al ser menor del nivel de significacin habitualmente prefijado (0,05),
concluimos que las medias de presin arterial sistlica son diferentes en obesos y noobesos.
3
2. Cuando tengamos a base de datos completa, con datos individuales, es posiblerecurrir a su explotacin de forma similar a como lo hace el programa SPSS, ya queEPI INFO 2000 -y versiones posteriores- es capaz de reconocer e importar archivos enformato DBase (.dbf), Excel (.xls) o Access (.mdb), entre otros.
Vamos a resumir aqu los pasos para evaluar la relacin entre obesidad y edad con elsubprograma ANALIZAR DATOSdel programa EPI INFO en su versin 3.3.2 (2005).
Tras leer el fichero que contiene los datos, en la ventana Analysisbuscamos Estadsticasbsicas, y marcamosMedias. Se abrir un cuadro de dilogo donde es posible seleccionarla variable cuantitativa en la ventana Medias de, y la variable categrica -que establecelos grupos de comparacin- en la ventana Tabulado por valores de. As mismo es posibleestablecer ciertas Preferenciasen la salida del anlisis.
Hechas estas selecciones se oprime el botnAceptar, y la salida que se muestra es un anlisisestadstico completo: primero un resumen de los
estadsticos bsicos en los grupos que se comparan(n, media, varianza, desviacin tpica, mediana,mximo mnimo, moda, y percentiles 25% y 75%).
Luego aparece la salida del ANOVA (testparamtrico para comparacin de medias)aclarndonos que debe emplearse slo para datosnormalmente distribuidos. En este ejemplo, como se
3 (
),
. ( 0,01) .
.
7/21/2019 contraste_hipotesis_2r
18/20
Aguayo Canela, Mariano DocuWeb fabis.org
DocuWeb fabis.org 18 de 20
trata de comparar dos grupos, aparte del ANOVA hace un test T de Student, que puede comprobarseque arroja un valor idntico al obtenido en el punto 1 paso 1 de este mismo documento, con unaprobabilidad p asociada al contraste de 0,32 (no significativo).
Si en la opcin Preferencias hubisemos marcado Estadsticas Avanzado, seguidamente se nosmuestra el test de Bartlett para comprobar la homogeneidad de varianzas poblacionales (en este casono es significativo, por lo que se asume la igualdad), y el test no paramtrico de Mann-Whitney/Wilconxon para dos grupos.
4. PASOS A DAR PARA HACER UNA COMPARACIN DE DOSMEDIAS CON EL PROGRAMA EPIDAT 3.1.
El programa EPIDAT trabaja con datos agrupados de forma similar a la calculadoraEPITABLE de EPI INFO 6.0, pero en este caso restringido a comparar slo dos muestras ogrupos. Conociendo, por tanto, los valores resumen (medias y varianzas) de las
distribuciones de la variable cuantitativa en los grupos que van a contrastarse, se procede aseleccionar en la pantalla inicial del programa EPIDAT 3.1:
Mtodos > Inferencia sobre parmetros > Dos poblaciones > Muestras independientes
Enseguida se abre una ventana donde debemos introducir datos: la media, la varianza y eltamao (n) de cada grupo que se desea contrastar. El nivel de confianza (%) viene prefijadoen el 95%, pero puede modificarse.
7/21/2019 contraste_hipotesis_2r
19/20
Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o
ms grupos independientes).
fabis.org, 2007
DocuWeb fabis.org 19 de 20
Tras entrar los datos solicitados se oprime en la barra de herramientas situada arriba elicono que parece una pequea calculadora de bolsillo, obtenindose la siguiente salida:
Comparacin de dos medias. Muestras independientes
Nivel de confianza: 95,0%
Muestra 1 Muestra 2-------------------- ---------- ----------
Media 48,697 50,235Desviacin estndar 5,223 4,944Tamao de muestra 33 17
Prueba de comparacin de varianzas
Estadstico F gl numerador gl denominador Valor p------------------ --------------- --------------- -------
1,1160 32 16 0,8408
Diferencia de medias Varianzas IC (95,0%)-------------------- ---------- ----------------------
1,538 Iguales -1,542 4,618Distintas -1,520 4,596
Prueba de comparacin de medias
Varianzas Estadstico t gl Valor p
------------------ ------------------ ------- -------Iguales 1,0039 48 0,3205Distintas 1,0220 34 0,3140
Vemos como este programa tambin realiza una prueba previa para comprobar la igualdad de lasvarianzas, y luego aporta dos aproximaciones: la diferencia de medias entre ambos grupos y suintervalo de confianza, y la prueba de comparacin de medias t de Student. Los resultados sonidnticos a los obtenidos con el programa SPSS. De forma similar nos ofrece dos opciones de lectura,segn sean o no homogneas las varianzas poblacionales.
7/21/2019 contraste_hipotesis_2r
20/20
Aguayo Canela, Mariano DocuWeb fabis.org
Anexo.
Tabla de datos del estudio sobre Hipertensin y Obesidad.
EDAD PAS PAD SEXO OBESIDAD
41 120 70 2 1
41 140 80 1 1
41 110 80 2 1
42 120 85 2 1
42 120 86 1 2
42 140 90 1 1
42 180 110 2 2
43 120 70 1 1
43 120 86 2 1
43 140 90 1 1
44 110 80 1 1
45 120 70 1 1
45 120 80 1 1
45 122 80 1 1
47 130 80 2 1
47 120 80 1 1
47 155 80 2 247 110 80 1 2
47 150 85 2 2
48 110 70 2 2
48 150 100 2 2
48 160 102 2 1
48 160 110 2 2
49 110 70 1 1
49 150 90 1 1
49 139 90 2 2
50 145 70 1 1
50 100 70 2 1
50 120 85 1 2
50 160 100 1 1
51 120 80 1 1
52 100 60 2 1
52 100 70 2 1
52 150 80 2 2
52 160 100 1 1
53 125 75 2 1
53 115 75 1 1
53 110 78 2 1
53 170 100 2 2
54 100 60 1 2
54 120 80 1 1
54 120 80 1 154 190 120 2 2
55 135 80 1 1
57 95 70 1 1
57 150 75 1 1
57 130 80 1 2
57 180 95 2 2
59 150 80 1 1
59 150 80 1 2
1= HOMBRE 1= OBESO
2= MUJER 2= NO OBESO