contraste_hipotesis_2r

Embed Size (px)

Citation preview

  • 7/21/2019 contraste_hipotesis_2r

    1/20

    Correspondencia:[email protected]

    1 de 20

    DOCUWEB FABIS

    Dot. Nm 0702004

    Cmo realizar "paso a paso" un contraste de hiptesis conSPSS para Windows y alternativamente con EPIINFO yEPIDAT: (II) Asociacin entre una variable cuantitativa y unacategrica (comparacin de medias entre dos o ms gruposindependientes).

    Aguayo Canela, Mariano.

    Hospital Universitario Virgen Macarena (Sevilla), Servicio de Medicina Interna.

    Resumen

    Cuando queremos evaluar el grado de asociacin o independencia entre una variable cuantitativa yuna variable categrica (y recurdese que sta clasifica o diferencia a los individuos en grupos, tantoscomo categoras tiene dicha variable), el procedimiento estadstico inferencial recurre a comparar lasmedias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por lavariable categrica. Si sta tiene solo dos categoras (es dicotmica), la comparacin de medias entredos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o ms categoras, lacomparacin de medias entre tres o ms grupos independientes se realiza a travs de un modelomatemtico ms general, el Anlisis de la Varianza (ANOVA). En ambos casos, las pruebasestadsticas son exigentes con ciertos requisitos previos: la distribucin Normal de la variablecuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de

    las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebasestadsticas no paramtricas. En este documento se ensea a hacer estos anlisis con el programaSPSS para Windows, y alternativamente con los programas EPIINFO 6.0 y su versin 3.3.2(actualizada en 2005) y con el programa EPIDAT 3.1.

    0. INTRODUCCIN TERICA.

    Cuando tengamos que evaluar la asociacin entre una variable categrica (o nominal) y unavariable cuantitativa, el procedimiento es analizar y comparar las medias de la distribucin dela variable cuantitativa en cada uno de los grupos que conforma la variable categrica.

    Si la variable cualitativa slo tiene dos categoras (por ejemplo la variable sexo) elprocedimiento se reduce a comparar las medias de la variable cuantitativa en esos dosgrupos (hombres y mujeres en el ejemplo). El contraste de hiptesis es la t de Student, paracomparar las medias (de la variable contnua) en dos grupos independientes, que en SPSSest en:

    Analizar > Comparar medias > Prueba t para dos muestras independientes

    Si la variable categrica tiene tres o ms categoras (por ejemplo la variable raza con lassiguientes mediciones: blanca, negra, otras) el procedimiento tambin consiste en compararlas medias de la variable cuantitativa en cada uno de los grupos que conforma cada estrato

    o categora de la variable nominal, pero el procedimiento ya no es la t de Student sino unmodelo matemtico ms amplio: el Anlisis de la Varianza (ANOVA de una va), que va apermitir no slo saber si hay diferencias en las medias en los diferentes grupos sino explorar

  • 7/21/2019 contraste_hipotesis_2r

    2/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 2 de 20

    entre qu grupos concretos estn o no esas diferencias (a travs de los llamados contrastesa posteriori). El anlisis en SPSS est en:

    Analizar > Comparar medias > ANOVA de un factor

    Un aspecto muy importante de estos contrastes,tanto la t de Student como el ANOVA,es que son muy exigentes sobre una serie de requisitos en la distribucin de lavariable cuantitativa que est evaluando; en concreto sobre dos aspectos:

    a) La variable cuantitativa debe distribuirse segn la Ley Normal en cada uno de losgrupos que se comparan (CRITERIO DE NORMALIDAD).

    b) Las varianzas de la distribucin de la variable cuantitativa en las poblaciones de lasque provienen los grupos que se comparan deben ser homogneas (CRITERIO DEHOMOCEDASTICIDAD).

    El primero es el ms importante. Aunque puede asumirse que se cumple para muestrasgrandes (n > 100), debe explorarse siempre, con grficos y pruebas de normalidad. 1 EnSPSS las pruebas de normalidad ms completas estn en la opcin EXPLORAR y al quese llega con la rutina:

    Analizar > Estadsticos Descriptivos > Explorar

    Con respecto al segundo requisito para aplicar estos contrastes (ANOVA y t de Student), esmenos exigente, y existen alternativas para hacer el contraste. As veremos que en SPSShay una lectura de la prueba asumiendo varianzas desiguales.

    Cuando estos requisitos se incumplen hay que recurrir a las PRUEBAS NOPARAMTRICAS, que en SPSS estn en:

    Analizar > Pruebas no paramtricas > 2 muestras independientes ( k muestrasindependientes)

    Vamos a trabajar con el ejemplo del estudio de obesidad e hipertensin. En esta base dedatos, la variable obesidad es categrica (obeso / no obeso) y desearamos saber si estrelacionada con la edad de los individuos (una variable cuantitativa, cuya medida son losaos cumplidos), esto es, responder a la pregunta hay diferencias en la edad de losindividuos segn sean o no obesos?O de forma alternativa, est relacionada la edad conla presencia de obesidad?

    1. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DEUNA VARIABLE (CUANTITATIVA) EN DOS GRUPOSESTABLECIDOS POR UNA VARIABLE DICOTMICA.

    1. Antes que nada debe explorarse la variable cuantitativa para comprobar que secumplen los requisitos que van a permitir aplicar las pruebas paramtricas. Para ellorecurrimos al procedimiento EXPLORAR en la pestaa de Analizar > Estadsticosdescriptivos:

    1

    ( ),

    . .

  • 7/21/2019 contraste_hipotesis_2r

    3/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 3 de 20

    Como puede apreciarse, seselecciona como factor deexploracin la variable nominal,esto es, la categrica que nos vaa permitir establecer los grupos acomparar (en este ejemplo lavariable Obesidad, con sus doscategoras posibles, obeso / noobeso); y como variabledependientea explorar lavariable cuantitativa (en nuestrocaso la variable Edad, medidaen aos cumplidos).

    En la pestaa de Grficoselegimos la opcin Grficos con

    pruebas de normalidad. Vemosque esta ventana de Explorar >Grficos tambin es posible obtener:

    Diagramas de caja(box-plot) para evaluar grficamente la distribucin de la variablecuantitativa en los diferentes grupos que se comparan, y tener una aproximacinvisual a lo que luego haremos en el contraste de hiptesis.

    Grficos descriptivos de la variable cuantitativa, como los de tallo y hojas(stem&leaf) o los histogramasde frecuencias.

    A continuacin mostramos la salida de SPSS con las opciones marcadas anteriormente:

    ExplorarPRESENCIA DE OBESIDAD

    Primero se muestra un resumen de los casos (individuos) que se van a explorar o procesar.

    Resumen del procesamiento de los casos

    33 100,0% 0 ,0% 33 100,0%

    17 100,0% 0 ,0% 17 100,0%

    PRESENCIADE OBESIDADobeso

    no obeso

    EDAD EN AOSCUMPLIDOS

    N Porcentaje N Porcentaje N Porcentaje

    Vlidos Perdidos Total

    Casos

    Luego un cuadro resumen con la estadstica descriptiva de la variable cuantitativa (el dependientepara el programa SPSS) en cada uno de los grupos establecidos por las diferentes categoras e lavariable cualitativa (el factor para el programa SPSS).En esta salida podemos ver un aspecto muy interesante: los IC95%para la media en cada grupo, unaforma alternativa al contraste de hiptesis clsico para tomar decisiones sobre la relacin entrevariables

  • 7/21/2019 contraste_hipotesis_2r

    4/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 4 de 20

    40 45 50 55 60

    Valor observado

    -2

    -1

    0

    1

    2

    No

    rmalesperado

    para obesi= obeso

    Grfico Q-Q normal de EDAD EN AOS CUMPLIDOS

    .En nuestro ejercicio vemos que, tanto la estimacin puntual de la media de la variable edad enambos grupos (48,70 vs 50,24) como sus intervalos de confianza (46,84 50,55 en el grupo obesovs 47,89 52,78 en el grupo no obeso) son muy superponibles, por lo que es altamenteimprobable que las variables edad y obesidad estn relacionadas en la poblacin (lo que conllevara a

    que las edades medias en ambos grupos fueran muy diferentes).Seguidamente, se nos muestra las pruebas de normalidad que lleva a cabo el programa SPSS. Noshemos de fijar en la significacin estadstica de estos dos contrastes, asumiendo la normalidad de ladistribucin si en ambos grupos el nivel de p es no significativo (esto es, p>0,05). En nuestroejemplo podemos asumir la normalidad de la variable cuantitativa edad en ambos grupos (obesos /no obesos).

    Si hemos solicitado otros grficos, la salida nos lo mostrar:

    EDAD EN AOS CUMPLIDOSGrficos de tallo y hojas

    EDAD EN AOS CUMPLIDOS Stem-and-Leaf Plot for obesi=obeso

    Frequency Stem & Leaf

    3,00 4 . 1115,00 4 . 22333

    Pruebas de normalidad

    ,124 33 ,200* ,951 33 ,142,145 17 ,200* ,950 17 ,450

    PRESENCIADE OBESIDADobesono obeso

    EDAD EN AOSCUMPLIDOS

    Estadstico gl Sig. Estadstico gl Sig.Kolmogorov-Smirnova Shapiro-Wilk

    Este es un lmite inferior de la significacin verdadera.*.Correccin de la significacin de Lillieforsa.

    Descriptivos

    48,70 0,90946,84

    50,55

    48,6049,00

    27,280

    5,22341591810

    ,085 0,409-1,067 0,79850,24 1,199

    47,69

    52,78

    50,2149,00

    24,441

    4,9444259177

    ,101 0,550-,583 1,063

    MediaLmite inferiorLmite superior

    Intervalo de confianzapara la media al 95%

    Media recortada al 5%MedianaVarianza

    Desv. tp.MnimoMximoRangoAmplitud intercuartil

    AsimetraCurtosisMedia

    Lmite inferior

    Lmite superior

    Intervalo de confianzapara la media al 95%

    Media recortada al 5%MedianaVarianza

    Desv. tp.MnimoMximoRangoAmplitud intercuartilAsimetraCurtosis

    PRESENCIADE OBESIDADobeso

    no obeso

    EDAD EN AOSCUMPLIDOS

    Estadstico Error tp.

  • 7/21/2019 contraste_hipotesis_2r

    5/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 5 de 20

    obeso no obeso

    PRESENCIA DE OBESIDAD

    40

    45

    50

    55

    60

    EDADEN

    AOSCUM

    PLIDOS

    4,00 4 . 45552,00 4 . 773,00 4 . 8994,00 5 . 00016,00 5 . 2223333,00 5 . 4452,00 5 . 771,00 5 . 9

    Stem width: 10Each leaf: 1 case(s)

    EDAD EN AOS CUMPLIDOS Stem-and-Leaf Plot forobesi= no obeso

    Frequency Stem & Leaf

    2,00 4 . 227,00 4 . 77788895,00 5 . 023443,00 5 . 779

    Stem width: 10Each leaf: 1 case(s)

    Grficos Q-Q normales

    En el box-plot tenemos una representacin grficade la distribucin de la variable cuantitativa (edad)en los dos grupos establecidos por la variablecualitativa (obesidad), y nos sirve para unaaproximacin visual al contraste de hiptesis, queplantear como hiptesis nula (H0) que no sondiferentes las medias de edad en estos grupos.

    Como puede verse en nuestro ejemplo, las edadesmedias en el grupo no obeso son ligeramentemayores que en el grupo obeso, pero lasmedianas son idnticas y un amplio porcentaje deindividuos (los situados dentro de cada caja, el 50%de cada muestra) tienen unas edades muyparecidas.Con lo ya visto hasta ahora tenemos una

    aproximacin inferencial sin necesidad de recurrir al contraste. Tanto el anlisis de losintervalos de confianza de las medias como el estudio de los grficos de caja nos permitenuna evaluacin de hasta qu punto pueden estas dos variables estar relacionadas en lapoblacin de la que proviene la muestra. Es muy probable que no estn asociadas. Peropara completar el anlisis inferencial debemos recurrir al contraste de hiptesis.

    2. Cuando se cumple el criterio de NORMALIDAD puede llevarse a cabo unaevaluacin inferencial, bien a travs de comparar los intervalos de confianza de las mediasen ambos grupos o bien a travs del contraste de hiptesis, siendo la hiptesis nula

    H01= 2

    En el programa SPSS este ltimo procedimiento se encuentra en la secuencia de ventanas:

    Analizar > Comparar medias > Prueba T para muestras independientes

    40 45 50 55 60

    Valor observado

    -1

    0

    1

    2

    Norm

    alesperado

    para obesi= no obeso

    Grfico Q-Q normal de EDAD EN AOS CUMPLIDOS

  • 7/21/2019 contraste_hipotesis_2r

    6/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 6 de 20

    En el siguiente cuadro de dilogo que se abre trasoptar por Prueba T para muestrasindependientes, debemos seleccionar la variable acontrastar la variable cuantitativa, en nuestrocaso edad, y la variable de agrupacin lavariable categrica dicotmica, en nuestro ejemplola variable obesidad-, a la que habr que definir

    grupos activando la casilla correspondiente(mientras tanto aparecen en la ventana unos signosde interrogacin entre parntesis):

    Si usamos los valores especificadosanotaremos en cada grupo los valores con los que est recogida cada categora de lavariable categrica en nuestra base de datos (en nuestro ejemplo 1 = obeso; 2= no obeso).2

    La salida del programa es:

    Prueba TEstadsticos de grupo

    33 48,70 5,223 ,90917 50,24 4,944 1,199

    PRESENCIADE OBESIDADobeso

    no obeso

    EDAD EN AOSCUMPLIDOS

    N MediaDesviacin

    tp.Error tp. de

    la media

    Primero se muestran los estadsticos resumen en cada grupo: N (tamao), media, desviacin tpica yel error estndar de la media.

    Luego el programa SPSS nos aporta informacin de la prueba T en un nico cuadro resumen, dondese nos ofrecen varias cosas, que no debemos confundir:

    Una prueba de homogeneidad de varianzas (la prueba de Levene), que nos va a informarsobre el segundo requisito para aplicar la comparacin de medias mediante la prueba t deStudent: la homogeneidad de varianzas. El programa hace un contraste a travs delestadstico F de Snedecor y nos aporta una significacin estadstica, o valor p asociado a lahiptesis nula de que las varianzas son homogneas (sealado en color naranja en elsiguiente cuadro). Cuando ese valor p es significativo (p

  • 7/21/2019 contraste_hipotesis_2r

    7/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 7 de 20

    contraste anteriormente comentado (o prueba de Levene);o en la lnea inferior los resultados son los que habra que elegir cuando no se han

    asumido varianzas iguales, esto es, cuando la prueba de Levene en el paso anteriores significativa (p

  • 7/21/2019 contraste_hipotesis_2r

    8/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 8 de 20

    Como en el ejercicio anterior, lo primero es comprobar si se dan los requisitos para aplicarlas pruebas paramtricas, basadas en la media y la varianza. Esto es, hay que explorarcmo es la distribucin de la variable TAS en cada grupo determinado por la variableobesidad, solicitando pruebas de normalidad que nos permitan tomar una decisin.

    La salida de SPSS es ahora la siguiente:

    ExplorarPRESENCIA DE OBESIDADResumen del procesamiento de los casos

    33 100,0% 0 ,0% 33 100,0%17 100,0% 0 ,0% 17 100,0%

    PRESENCIADE OBESIDADobeso

    no obeso

    PRESIN ARTERIALSISTLICA

    N Porcentaje N Porcentaje N Porcentaje

    Vlidos Perdidos Total

    Casos

    Como siempre, primero un resumen de los casos (individuos) explorados, e inmediatamente uncuadro con los estadsticos ms importantes que recogen informacin de la variable cuantitativa(dependiente para SPSS) en cada grupo de estudio segn los niveles o estratos de la variable

    categrica introducida como factor. Descriptivos

    125,97 3,191

    119,47

    132,47

    125,69

    120,00

    336,03018,331

    95

    160

    6528

    ,398 ,409-,682 ,798

    144,94 6,505131,15

    158,73

    144,93

    150,00719,43426,822

    100190

    90

    45-,045 ,550

    -,932 1,063

    Media

    Lmite inferiorLmite superior

    Intervalo de confianzapara la media al 95%

    Media recortada al 5%

    MedianaVarianza

    Desv. tp.Mnimo

    Mximo

    RangoAmplitud intercuartilAsimetra

    Curtosis

    Media

    Lmite inferior

    Lmite superior

    Intervalo de confianza

    para la media al 95%

    Media recortada al 5%Mediana

    VarianzaDesv. tp.

    Mnimo

    MximoRangoAmplitud intercuartil

    Asimetra

    Curtosis

    PRESENCIAobeso

    no obeso

    PRESIN ARTERIALSISTLICA

    Estadst ico Er ror t p.

    Como podemos ver en el cuadro resumen de estadsticos, la media de TAS en los dos grupos decomparacin (obesos / no obesos) es ms elevada en el grupo de no obesos (144,95 con un IC95%entre 131,15 y 158,73) que en el grupo de obesos (125,97 con un IC 95%entre 119,47 y 132,47). La

    diferencia puntual de estas medias es:

    144,95 125,97 = 18,98

    casi 19 mm de Hg ms alta en no obesos!; y los IC95% de las medias en ambos grupos sesuperponen en un rango muy corto (el que va desde 131,15 a 132,47). Es probable que ambasmedias sean estadsticamente diferentes y que podamos concluir que las dos variables (TAS yObesidad) estn asociadas en la poblacin de la que proviene la muestra.

    El programa nos muestra ahora las pruebas de normalidad, para tomar una decisin sobre laadecuacin de los test paramtricos a la comparacin de medias.

  • 7/21/2019 contraste_hipotesis_2r

    9/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 9 de 20

    obeso no obeso

    PRESENCIA DE OBESIDAD

    80

    100

    120

    140

    160

    180

    200

    PRESINARTERIALSISTLIC

    A

    Ambas pruebas de normalidad muestran que en el grupo obeso la variable TAS no se distribuyesegn una Ley Normal, ya que la p asociada a los contrastes de K-S (0,001) y S-W (0,036) da pordebajo del nivel de significacin alfa prefijado (0,05). Esto nos obligar a tomar un camino diferente enel anlisis de la relacin entre estas dos variables, optando por pruebas no paramtricas.

    PRESIN ARTERIAL SISTLICASi hemos solicitado un grfico de caja para la distribucinde la variable TAS en cada grupo de la variable obesidad,obtendremos una imagen como la que se acompaa,donde llama la atencin una mayor dispersin de losvalores de TAS en el grupo no obeso y una tendencia,as mismo, a mostrar valores ms elevados de TAS eneste ltimo grupo.

    Llegados a este punto, si deseamos hacer uncontraste de hiptesis para evaluar hasta qu puntolas medias de TAS son diferentes, debemos optarpor una de las Pruebas no paramtricas > (para)2 muestras independientes, con el casiconvencimiento de que el test va a serestadsticamente significativo.

    Una vez seleccionada la opcin no paramtrica ypara dos muestras independientes, el cuadro dedilogo del SPSS es el que sigue:

    Es muy parecido a la que hemos visto en Compararmedias > Prueba T para muestras independientes:en las ventanas hay que seleccionar al menos unavariable a contrastar(la cuantitativa) y una variablede agrupacin(la categrica), que debe servir paraDefinir grupos

    Se pueden elegir entre varios Tipo de prueba, siendo la ms comn la U de Mann-Whitney, sealada por defecto en el programaSPSS. Tras aplicar, la salida es la siguiente:

    Pruebas no paramtricas

    Estadsticos descriptivos

    50 132,42 23,168 95 190

    50 1,34 ,479 1 2

    PRESIN ARTESISTLICA

    PRESENCIA DE

    OBESIDAD

    N MediaDesviacin

    tpica Mnimo Mximo

    Pruebas de normalidad

    ,203 33 ,001 ,930 33 ,036,163 17 ,200* ,958 17 ,587

    PRESENCIADE OBESIDADobesono obeso

    PRESIN ARTERIALSISTLICA

    Estadstico gl Sig. Estadstico gl Sig.Kolmogorov-Smirnova Shapiro-Wilk

    Este es un lmite inferior de la significacin verdadera.*.

    Correccin de la significacin de Lillieforsa.

  • 7/21/2019 contraste_hipotesis_2r

    10/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 10 de 20

    Prueba de Mann-Whitney

    Rangos

    33 22,05 727,50

    17 32,21 547,50

    50

    PRESENCIADE OBESIDADobeso

    no obeso

    Total

    PRESIN ARTERIALSISTLICA

    NRango

    promedioSuma derangos

    Tras hacer un pequeo resumen de los casos procesados a travs de sus estadsticos descriptivos(tamao muestral, media, desviacin tpica y valores mximo y mnimo), el programa procesa lainformacin contenida en la variable cuantitativa en cada grupo, y calcula varios estadsticos decontraste. Lo que debemos interpretar es la Sig. Asinttica (bilateral), que en nuestro caso vale0,018 y lleva a concluir que se rechaza la hiptesis nula de que la media de TAS es similar en ambosgrupos; o lo que es alternativamente igual,que existe una asociacin estadsticamente significativaentre la TAS y la Obesidad).

    2. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DEUNA VARIABLE CUANTITATIVA EN TRES O MS GRUPOS

    ESTABLECIDOS POR UNA VARIABLE CATEGRICA.

    Cuando la variable cualitativa tiene tres o ms categoras, el anlisis de asociacin entreesta variable y una cuantitativa ya no puede llevarse a cabo por el test t de Student, sino quedebe recurrirse a una tcnica matemtica conocida como ANALISIS DE LA VARIANZA. Estaprueba contrasta la hiptesis H0 de que las medias de las distribuciones de la variablecuantitativa en todos y cada uno de los grupos independientes son iguales:

    H01= 2= 3 = n

    Esto es, con que exista una media diferente a las dems, el test estadstico ser significativoal nivel alfa establecido.

    El ANOVA tiene las mismas exigencias que la t de Student: requiere que la variablecuantitativa se distribuya segn una Ley Normal en cada uno de los grupos a comparar, yadems exige que las varianzas sean homogneas.

    Vamos a realizar una prueba de ANOVA, para lo cual vamos a convertir la variable cuantitativa edadde la base de datos OBESIDAD Y HTA en una variable categrica (edadrec) con tres categoras:

    a) menos de 47 aosb) de 47 a 52 aosc) ms de 52 aos

    Y ahora desearamos comprobar si existe relacin entre la presin arterial sistlica (TAS) y los tres

    segmentos de edad establecidos por edadrec. Consistira en evaluar si las medias de TAS sondiferentes en los grupos de edad, y si fuese as en qu sentido y en qu estratos etarios.

    Estadsticos de contrastea

    166,500727,500

    -2,358

    ,018

    U de Mann-WhitneyW de Wilcoxon

    Z

    Sig. asintt. (bilateral)

    PRESINARTERIALSISTLICA

    Variable de agrupacin: PRESENCIA DE OBESIDADa.

  • 7/21/2019 contraste_hipotesis_2r

    11/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 11 de 20

    Msde52aosDe 47a52aosMenosde 47 aos

    EDAD EN AOS CUMPLIDOS (Banded)

    200

    180

    160

    140

    120

    100

    80

    PRESIN

    AR

    TERIALSISTLICA

    7

    Case Processing Summary

    19 100,0% 0 ,0% 19 100,0%16 100,0% 0 ,0% 16 100,0%15 100,0% 0 ,0% 15 100,0%

    EDAD EN AOSCUMPLIDOS (Banded)Menos de 47 aosDe 47 a 52 aosMs de 52 aos

    PRESIN ARTERIALSISTLICA

    N Percent N Percent N PercentValid Missing Total

    Cases

    1. Antes que nada debemos comprobar si secumple el requisito de normalidad en la distribucin de la variable cuantitativa entodos y cada uno de los estratos o grupos que establece la variable categrica.

    Procedemos como ya hemos vistoantes, a travs de Analizar >

    Estadsticos descriptivos >Explorar

    La salida del programa SPSS ser:

    Vemos en el cuadro anterior losestadsticos descriptivos en cada unode los tres grupos establecidos por lavariable edadrec. Las mediaspuntuales de TAS son 128.79, 133,38y 136.00 mm de Hg. Los IC95% deestas medias son algo anchos y sesuperponen en gran parte de su

    recorrido, por lo que es muy probableque no existan diferencias en lasmedias y que estas dos variables no seasocien en la poblacin de la queproviene la muestra analizada.

    Con respecto a los test de normalidad,se encuentra significacin estadstica(p

  • 7/21/2019 contraste_hipotesis_2r

    12/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 12 de 20

    Con los datos previos ya intumos que no van a encontrarse diferencias estadsticamentesignificativas entre las medias de TAS al comparar los tres grupos de edad.

    Por otra parte no sera demasiado correcto aplicar un ANOVA, ya que la variableTAS no se distribuye como una Normal en los grupos de comparacin. De todasformas, y con carcter puramente instructivo, vamos llevar a cabo el contraste.

    2. Anlisis de la varianza de una va.En la ventana correspondiente del SPSS aplicamosAnalizar > Comparar medias > ANOVA de un factor...

    En la nueva ventana de dilogo seleccionamos la variable categrica que establecer losgrupos a comparar y la trasladamos a la ventana Factor; en la ventana Dependientes

    colocamos la variable cuantitativa,en nuestro caso Presin arterialsistlica.

    En la pestaa que pone Posthoc... (contrastes o

    comparaciones mltiples aposteriori) seleccionamos algunode los procedimientos que se nosofrecen. El ms habitual es el deBonferroni (tambin el deScheff). Estos contrastes tienensentido slo si el ANOVA sale

    significativo o prximo a la significacin estadstica, ya que lo que realizan es comparacionesde las medias en las mltiples parejas de grupos que puedan contrastarse, para intentaraveriguar dnde est la diferencia (o diferencias) que ha causado que se rechace lahiptesis nula en la primera parte del ANOVA.

    Tambin debemos explorar los contenidos de la pestaa Opciones..., para solicitar unaprueba de homogeneidad de varianzasy, si lo deseamos, un resumen de los principalesdescriptivosen cada grupo de comparacin.

    Los resultados de las pruebas solicitadas son los siguientes:

  • 7/21/2019 contraste_hipotesis_2r

    13/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 13 de 20

    ANOVA de un factor

    Primero se nos muestra un cuadro resumen con los estadsticos descriptivos (de la variablecuantitativa) ms relevantes en cada grupo que se va a contrastar: las medias (y sus IC95%), lasdesviaciones tpicas y los valores mximo y mnimo.

    Descriptivos

    PRESIN ARTERIAL SISTLICA

    19 128,79 18,045 4,140 120,09 137,49 110 180

    16 133,38 23,977 5,994 120,60 146,15 100 16015 136,00 28,486 7,355 120,23 151,77 95 190

    50 132,42 23,168 3,277 125,84 139,00 95 190

    Menos de 47De 47 a 52

    Ms de 52Total

    N MediaDesviacin

    tpica Error tpico Lmite inferiorLmite

    superior

    Intervalo de confianza parala media al 95%

    Mnimo Mximo

    Luego, el programa SPSS nos ofrece un test para evaluar la homogeneidad de varianzas: es el mismoque se aplicaba de rutina en el procedimiento comparacin de medias en dos grupos independientes(prueba T): el test de Levene. En nuestro ejemplo la significacin estadstica p vale 0.056, pudiendo

    asumirse la homogeneidad de varianzas (aunque en el lmite de la no significacin).

    Prueba de homogeneidad de varianzas

    PRESIN ARTERIAL SISTLICA

    3,059 2 47 ,056

    Estadsticode Levene gl1 gl2 Sig.

    Por ltimo, aparece la salida del ANOVA propiamente dicho, con sus diferentes componentes ofuentes de variabilidad: la inter-grupos y la intra-grupos. Esta ltima representara la variabilidad odispersin que no es explicada por el factor de agrupamiento (la variable categrica), y que sera

    explicable slo por el azar.

    ANOVA

    PRESIN ARTERIAL SISTLICA

    457,272 2 228,636 ,416 ,662

    25844,908 47 549,892

    26302,180 49

    Inter-gruposIntra-grupos

    Total

    Suma decuadrados gl

    Mediacuadrtica F Sig.

    Para llevar a cabo el contraste, se recurre al estadstico F de Snedecor, que en nuestro ejemplo vale0.416 y tiene un valor p asociado de 0.662 (no significativo). Con esto concluiramos nuestra

    evaluacin, diciendo que las variables TAS y grupos de edad no muestran asociacin; o que seacepta la hiptesis nula de que las medias de TAS son iguales en los diferentes grupos deedad. En este caso no habra lugar a evaluar los contrastes a posteriori, puesto que no se hanencontrado diferencias significativas en el ANOVA. An as mostramos la salida de SPSS:

    Pruebas post hocComparaciones mltiples

    Variable dependiente: PRESIN ARTERIAL SISTLICABonferroni

    -4,586 7,957 1,000 -24,34 15,17

    -7,211 8,099 1,000 -27,32 12,904,586 7,957 1,000 -15,17 24,34

    -2,625 8,428 1,000 -23,55 18,307,211 8,099 1,000 -12,90 27,32

    2,625 8,428 1,000 -18,30 23,55

    (J) EDAD EN AOSCUMPLIDOS(Categorizada)De 47 a 52Ms de 52

    Menos de 47Ms de 52

    Menos de 47De 47 a 52

    (I) EDAD EN AOSCUMPLIDOS(Categorizada)Menos de 47

    De 47 a 52

    Ms de 52

    Diferencia demedias (I-J) Error tpico Sig. Lmite inferior

    Lmitesuperior

    Intervalo de confianza al95%

  • 7/21/2019 contraste_hipotesis_2r

    14/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 14 de 20

    En el cuadro de comparaciones mltiples vemos que cada grupo de edad se compara con los otrosdos, obtenindose en cada contraste la diferencia de medias, el IC95%, el error estndar y elvalorpasociado, que en todos los casos es no-significativo, como ya sabamos que iba a suceder.

    3. Pasos a dar cuando no puede aplicarse ANOVA. En nuestro ejercicio, al habersedetectado problemas con la normalidad de la variable TAS en alguno de los grupos etarios,lo correcto habra sido recurrir a una prueba no paramtrica en:

    Analizar > Pruebas no paramtricas > k muestras independientesUna vez abiertala ventana del procedimiento, vemos que es muy parecida a la del ANOVA, debiendoseleccionarse una variable a contrastar (la cuantitativa, en el ejemplo la Presin arterialsistlica) y una variable de agrupacin (la categrica, en nuestro caso la edadrec quecorresponde a la primitiva variable edad que hemos recodificado en nominal, con tresgrupos o estratos), debiendo especificarle al programa SPSS el rango de valores (ennuestro caso de 1 a 3, que son los nmeros con los que se han codificado los tres estratos).El tipo de pruebaes por defecto el test de Kruskal-Wallis.

    La salida que obtendremos, tras dar al botn de aceptar, ser la siguiente (nos hemospasado ahora a la versin en ingls del programa SPSS 13.0):

    NPar Tests (Pruebas No Paramtricas)

    Primero un resumen de los estadsticos para cada variable incluida en el contraste. En nuestroejemplo son slo dos, a las que SPSS considera numricas (realmente para la segunda variable -

    edadrec- no tiene sentido la estadstica descriptiva llevada a cabo, pues es una variable categrica.Descriptive Statistics

    50 132,42 23,168 95 190

    50 1,92 ,829 1 3

    PRESIN ARTERIALSISTLICAEDAD EN AOSCUMPLIDOS (Banded)

    N Mean Std. Deviation Minimum Maximum

    Luego aparece la prueba de contraste, el test de Kruskal-Wallis, con los tamaos de muestra (N) y los

    rangos promedio para cada uno de los grupos a comparar. Y despus, en una segunda tabla, apareceel estadstico Chi-cuadrado, que vale 0,487, sus grados de libertad (el nmero de grupos -3- menosuno), y su significacin estadstica (p = 0,784). Llegamos a la misma conclusin que con el ANOVA:

  • 7/21/2019 contraste_hipotesis_2r

    15/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 15 de 20

    las variables contrastadas no estn asociadas en la poblacin de la que provienen la muestraestudiada, pudiendo achacarse las pequeas diferencias apreciadas en la presin arterialsistlica -en los diferentes grupos de edad- al puro azar o error aleatorio del muestreo.

    Ranks

    19 23,7116 26,28

    15 26,93

    50

    EDAD EN AOS

    Menos de 47 aosDe 47 a 52 aosMs de 52 aos

    Total

    PRESIN ARTERIALSISTLICA

    N Mean Rank

    En este ejemplo slo puede concluirse que no tenemospruebas para rechazar la hiptesis nula, esto esaceptaremos la igualdad de medias en la poblacin de laque proviene la muestra y concluiremos diciendo queno se han encontrado argumentos que relacionen laTAS con los tres rangos de edad analizados. Por otraparte, si hubisemos detectado diferencias hemos deaclarar que con este tipo de contrastes no paramtricos

    no es posible realizar contrastes a posteriori.

    3. PASOS A DAR PARA HACER UNA COMPARACIN DE MEDIASCON EL PROGRAMA EPI-INFO.

    El programa EPI-INFO permite evaluar medias en dos o ms grupos con dos procedimientoso aproximaciones diferentes:

    En la versin EPI INFO 6, a travs de la rutina EPITABLE, siempre que tengamosya calculados los estadsticos resumen (media y varianza) de la variablecuantitativa en cada uno de los estratos o grupos establecidos por la variablecategrica.

    En la versin EPI INFO 2002 o posterior, a travs del programa ANALIZARDATOS, tras cargar el fichero que contiene los datos individuales y las variablesmedidas, de forma muy parecida a lo que se ha hecho en el programa SPSS.

    1. Si tenemos los estadsticos resumen de la variable cuantitativa en todos y cada unode los grupos establecidos por la variable categrica o, simplemente, en los gruposindependientes que van a compararse, el programa EPI INFO 6.0 nos permite una

    doble aproximacin inferencial: la comparacin de los intervalos de confianza de lasmedias en cada grupo y el contraste de hiptesis que parte de la hiptesis nula de que lasmedias de los diferentes grupos son iguales.

    Vamos a trabajar con el mismo ejemplo que en el apartado 1 paso 3, esto es, vamos acomparar las medias de TAS entre los dos grupos establecidos por la variable Obesidad(obesos / no obesos). Pero en este caso ya tenemos calculados sus ndices resumen: lamedia, la varianza y el tamao muestral.

    Existe asociacin? Presin arterial sistlicaObesidad N Media Varianza Desv. EstndarObeso 33 125,97 336,030 18,331

    No obeso 17 144,94 719,434 26,822

    Test Statistics a,b

    ,487

    2

    ,784

    Chi-Square

    df

    Asymp. Sig.

    PRESINARTERIALSISTLICA

    Kruskal Wallis Testa.

    Grouping Variable: EDAD ENAOS CUMPLIDOS (Banded)

    b.

  • 7/21/2019 contraste_hipotesis_2r

    16/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 16 de 20

    1.1. En primer lugar vamos a calcular los intervalos de confianza de la media deTAS en ambos grupos. Esta es una primera aproximacin inferencial. Abrimos enEPITABLE la opcin Describe > Mean

    Y ahora debemos introducir los datos que nos pide la calculadora: la media, la desviacinestndar y el tamao de la muestra, para cada grupo (obesosy no obesos). Mostramos acontinuacin la salida para el grupo obesos:

    El intervalo de confianza al 95% que nos da el programa EPI INFO (119,72 132,22) es ligeramentems pequeo que el que aportaba el programa SPSS para la misma media (119,47 132,47). Deforma similar se hara el clculo en el otro grupo (no obesos), y con ambos intervalos de confianzadeberamos tomar la decisin de hasta qu punto ambas medias en la poblacin seran diferentes.

    1.2. En segundo lugar, procedamos a comparar las medias de TAS en los dosgrupos. Esta es la aproximacin inferencial ms clsica, a travs del contrastede hiptesis. En la calculadora estadstica EPITABLE se realiza a travs de laopcin Compare > Means

    Una vez abierta la ventana de dilogo, nos pide cuantas muestras o grupos vamos acomparar (how many samples?). En nuestro ejemplo son solo dos (obesos y noobesos), por lo que sealamos 2 y aceptamos. El programa nos ofrece una nueva ventana

  • 7/21/2019 contraste_hipotesis_2r

    17/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 17 de 20

    para hacer un ANOVA para dos grupos, debiendo introducir para cada uno de los grupos lamedia, la varianza y el tamao.

    Al aceptar (Calculate) el programa nos ofrece la salida de un Anlisis de la Varianza (ANOVA), con lavariabilidad intergrupos (Variance between samples), la varianza residual (Residual variance), elestadstico de contraste de Snedecor (F Statistic) y el valor p asociado (p value), que en nuestroejemplo vale 0,004749. Al ser menor del nivel de significacin habitualmente prefijado (0,05),

    concluimos que las medias de presin arterial sistlica son diferentes en obesos y noobesos.

    3

    2. Cuando tengamos a base de datos completa, con datos individuales, es posiblerecurrir a su explotacin de forma similar a como lo hace el programa SPSS, ya queEPI INFO 2000 -y versiones posteriores- es capaz de reconocer e importar archivos enformato DBase (.dbf), Excel (.xls) o Access (.mdb), entre otros.

    Vamos a resumir aqu los pasos para evaluar la relacin entre obesidad y edad con elsubprograma ANALIZAR DATOSdel programa EPI INFO en su versin 3.3.2 (2005).

    Tras leer el fichero que contiene los datos, en la ventana Analysisbuscamos Estadsticasbsicas, y marcamosMedias. Se abrir un cuadro de dilogo donde es posible seleccionarla variable cuantitativa en la ventana Medias de, y la variable categrica -que establecelos grupos de comparacin- en la ventana Tabulado por valores de. As mismo es posibleestablecer ciertas Preferenciasen la salida del anlisis.

    Hechas estas selecciones se oprime el botnAceptar, y la salida que se muestra es un anlisisestadstico completo: primero un resumen de los

    estadsticos bsicos en los grupos que se comparan(n, media, varianza, desviacin tpica, mediana,mximo mnimo, moda, y percentiles 25% y 75%).

    Luego aparece la salida del ANOVA (testparamtrico para comparacin de medias)aclarndonos que debe emplearse slo para datosnormalmente distribuidos. En este ejemplo, como se

    3 (

    ),

    . ( 0,01) .

    .

  • 7/21/2019 contraste_hipotesis_2r

    18/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    DocuWeb fabis.org 18 de 20

    trata de comparar dos grupos, aparte del ANOVA hace un test T de Student, que puede comprobarseque arroja un valor idntico al obtenido en el punto 1 paso 1 de este mismo documento, con unaprobabilidad p asociada al contraste de 0,32 (no significativo).

    Si en la opcin Preferencias hubisemos marcado Estadsticas Avanzado, seguidamente se nosmuestra el test de Bartlett para comprobar la homogeneidad de varianzas poblacionales (en este casono es significativo, por lo que se asume la igualdad), y el test no paramtrico de Mann-Whitney/Wilconxon para dos grupos.

    4. PASOS A DAR PARA HACER UNA COMPARACIN DE DOSMEDIAS CON EL PROGRAMA EPIDAT 3.1.

    El programa EPIDAT trabaja con datos agrupados de forma similar a la calculadoraEPITABLE de EPI INFO 6.0, pero en este caso restringido a comparar slo dos muestras ogrupos. Conociendo, por tanto, los valores resumen (medias y varianzas) de las

    distribuciones de la variable cuantitativa en los grupos que van a contrastarse, se procede aseleccionar en la pantalla inicial del programa EPIDAT 3.1:

    Mtodos > Inferencia sobre parmetros > Dos poblaciones > Muestras independientes

    Enseguida se abre una ventana donde debemos introducir datos: la media, la varianza y eltamao (n) de cada grupo que se desea contrastar. El nivel de confianza (%) viene prefijadoen el 95%, pero puede modificarse.

  • 7/21/2019 contraste_hipotesis_2r

    19/20

    Contraste de hiptesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociacinentre una variable cuantitativa y una categrica (comparacin de medias entre dos o

    ms grupos independientes).

    fabis.org, 2007

    DocuWeb fabis.org 19 de 20

    Tras entrar los datos solicitados se oprime en la barra de herramientas situada arriba elicono que parece una pequea calculadora de bolsillo, obtenindose la siguiente salida:

    Comparacin de dos medias. Muestras independientes

    Nivel de confianza: 95,0%

    Muestra 1 Muestra 2-------------------- ---------- ----------

    Media 48,697 50,235Desviacin estndar 5,223 4,944Tamao de muestra 33 17

    Prueba de comparacin de varianzas

    Estadstico F gl numerador gl denominador Valor p------------------ --------------- --------------- -------

    1,1160 32 16 0,8408

    Diferencia de medias Varianzas IC (95,0%)-------------------- ---------- ----------------------

    1,538 Iguales -1,542 4,618Distintas -1,520 4,596

    Prueba de comparacin de medias

    Varianzas Estadstico t gl Valor p

    ------------------ ------------------ ------- -------Iguales 1,0039 48 0,3205Distintas 1,0220 34 0,3140

    Vemos como este programa tambin realiza una prueba previa para comprobar la igualdad de lasvarianzas, y luego aporta dos aproximaciones: la diferencia de medias entre ambos grupos y suintervalo de confianza, y la prueba de comparacin de medias t de Student. Los resultados sonidnticos a los obtenidos con el programa SPSS. De forma similar nos ofrece dos opciones de lectura,segn sean o no homogneas las varianzas poblacionales.

  • 7/21/2019 contraste_hipotesis_2r

    20/20

    Aguayo Canela, Mariano DocuWeb fabis.org

    Anexo.

    Tabla de datos del estudio sobre Hipertensin y Obesidad.

    EDAD PAS PAD SEXO OBESIDAD

    41 120 70 2 1

    41 140 80 1 1

    41 110 80 2 1

    42 120 85 2 1

    42 120 86 1 2

    42 140 90 1 1

    42 180 110 2 2

    43 120 70 1 1

    43 120 86 2 1

    43 140 90 1 1

    44 110 80 1 1

    45 120 70 1 1

    45 120 80 1 1

    45 122 80 1 1

    47 130 80 2 1

    47 120 80 1 1

    47 155 80 2 247 110 80 1 2

    47 150 85 2 2

    48 110 70 2 2

    48 150 100 2 2

    48 160 102 2 1

    48 160 110 2 2

    49 110 70 1 1

    49 150 90 1 1

    49 139 90 2 2

    50 145 70 1 1

    50 100 70 2 1

    50 120 85 1 2

    50 160 100 1 1

    51 120 80 1 1

    52 100 60 2 1

    52 100 70 2 1

    52 150 80 2 2

    52 160 100 1 1

    53 125 75 2 1

    53 115 75 1 1

    53 110 78 2 1

    53 170 100 2 2

    54 100 60 1 2

    54 120 80 1 1

    54 120 80 1 154 190 120 2 2

    55 135 80 1 1

    57 95 70 1 1

    57 150 75 1 1

    57 130 80 1 2

    57 180 95 2 2

    59 150 80 1 1

    59 150 80 1 2

    1= HOMBRE 1= OBESO

    2= MUJER 2= NO OBESO