Upload
sebastian-azocar
View
40
Download
0
Embed Size (px)
DESCRIPTION
inferencia estadistica
Citation preview
Anlisis de la varianzaclsico
Juan R Gonzlez2002
Anlisis de la varianza
Comparacin de ms de dos mediasVariable dependiente Y variable independienteX con k categoras
Hiptesis La variable cuantitativa se distribuye normalmente en todoslos grupos Las observaciones son independientes La variable cuantitativa tiene la misma variancia en todos losgrupos (homocedasticidad)
Testar H0: 1=......= k
Anlisis de la varianzaIdea intuitiva
Y es homocedastica(misma varianza)
Medias iguales Variabilidad dentro de los grupos(intra-grupos)
Medias diferentes Variabilidad entre los grupos(inter-grupos)
ANOVA clsico: Descomposicin de la variabilidad
Variabilidad total= Variabilidad entre grupos + Variabilidad intra grupos
SC total= SC entre grupos + SC intra grupos
Anlisis de la varianza
Notacin: Yij medida j-sima (j=1,,n) observada en elgrupo i-simo (i=1,,k)
Grupo i obs. Media
1 n1 2 3 . . k nk
Total N N
yy
k
i
n
jij
k
= == 1 1
1
1
11
1
ny
y jn
j=
=
k
kjn
jk n
yy
k
=
=1
Anlisis de la varianza
Variabilidad total (SC total): Mide las desviaciones de cada observacin ala media total
Variabilidad entre grupos (SC entre grupos): Mide las desviaciones delas medias en cada grupo a la media total
Variabilidad intra grupos (SC intra grupos): Mide las desviaciones decada observacin a la media del grupo correspondiente
= =
=k
i
n
jijij
i
yySCTyy1 1
2)(
= =
=k
i
n
jiijiij
i
yySCIyy1 1
2)(
=
=k
iiii yynSCEyy
1
2)(
Anlisis de la varianza
Tabla de la varianza
Fuente de Suma de Grados de Media de Estadsticovariacin cuadrados libertad cuadrados F
Entre grupos SCE k-1 MCE=SCE/k-1
Intra grupos SCI n-k MCI=SCI/n-k
Total SCT n-1
MCIMCEF =
Comparar con una Fk-1,n-k
Anlisis de la varianza
Individuo Grupo A Grupo B Grupo C Grupo D1 49,5 59,8 62,8 622 62,8 58,5 55,8 48,83 46,8 55,5 69,5 45,54 57 56 55 44,2
Media 54,03 57,45 60,78 50,13 55,59
= == == =
=+++==1 42 3
1 14
1 1321
4
1 1
2 297595955595559555955n
j
n
jj
n
j
n
jjjj
i
n
jij yyyyyySCT
i
,),(),(),(),()(
63250595513505955786059554557595503544 22224
1
2 ,]),,(),,(),,(),,[(*)( =+++== =i
ii yynSCE
= = === =
=+++==2 3 41
1 1 1432
1
21
1 1
2 655081350786045570354n
j
n
j
n
jjjj
n
jj
k
i
n
jiij yyyyyySCI
i
,),(),(),(),()(
Ejemplo
Anlisis de la varianza
Fuente de Suma de Grados de Media de Estadsticovariacin cuadrados libertad cuadrados F
Entre grupos 260,64 k-1=3 83,55
Intra grupos 508,65 n-k=12 42,39
Total 759,29 n-1=15
971,
Comprobar P(F3,12)>1,97=0,1722
Anlisis de la varianza
EQUIPO
6,005,004,003,002,001,00
Med
ia d
e PU
LSO
62
60
58
56
54
52
50
48
Ejemplo: Comparamos el pulso en reposo entre loscorredores de 5 equipos de ciclistas profesionales. haydiferencias?
Anlisis de la varianza
ANOVA
PULSO
343,295 5 68,659 2,318 ,086533,070 18 29,615876,365 23
Inter-gruposIntra-gruposTotal
Suma decuadrados gl
Mediacuadrtica F Sig.
Descriptivos
PULSO
4 54,0250 7,2693 3,6346 42,4579 65,5921 46,80 62,804 57,4500 2,0437 1,0218 54,1980 60,7020 55,50 59,804 60,7750 6,7904 3,3952 49,9700 71,5800 55,00 69,504 50,1250 8,1500 4,0750 37,1565 63,0935 44,20 62,004 50,5250 1,4863 ,7432 48,1599 52,8901 48,80 52,004 56,3500 2,4352 1,2176 52,4751 60,2249 53,20 59,00
24 54,8750 6,1727 1,2600 52,2685 57,4815 44,20 69,50
1,002,003,004,005,006,00Total
N MediaDesviacin
tpica Error tpico Lmite inferiorLmite
superior
Intervalo de confianza parala media al 95%
Mnimo Mximo
Anlisis de la varianza
Ejercicio: Con los datos de hipertensin, comprobarsi hay un descenso en la PAD y PAS segn elfrmaco utilizado
Plantear la prueba de hiptesis
Representar grficamente el efecto medio para cadafrmaco
Obtener la tabla ANOVA
Anlisis de la varianza
Efectos fijos y aleatorios
Modelo de efectos fijos: Cuando los resultadosobtenidos slo son validos para esos determinadosvalores del factor (factores constantes) Sexo, edad, nivel de estudios,
Modelo de efectos aleatorios: Cuando los resultadosobtenidos son vlidos, sean cual sean los niveles defactor empleado Da, familia, mdico
Ambos: Dosis frmaco, test,
Anlisis de la varianzaHiptesis:
Normalidad de los datos en todos los gruposSi no se cumple no afecta demasiado al clculo de laF (robustez)
HomocedasticidadSi los tamaos muestrales son iguales, la presenciade varianzas heterogneas, produce un efectomnimo en el contraste-FSi los tamaos son diferentes y las varianzasheterogneas produce un gran efecto en elcontraste-F
Anlisis de la varianzaComprobar normalidad
Mismos test que en regresin lineal
Histograma
QQ,PP plot
Test de bondad de ajuste (Kolmogorov-Smirnov)
Anlisis de la varianzaComprobar heterogeneidad de varianzas
Test de Levene que proporciona el SPSS
Anlisis de la varianza
Para el ejemplo de pulso
Prueba de homogeneidad de varianzas
PULSO
3,507 5 18 ,022
Estadsticode Levene gl1 gl2 Sig.
Anlisis de la varianza
Si no se cumple
Generalmente una transformacin Box-Coxsoluciona el problema:
Raz cuadrada de la variable: y1/2Raz cuadrada + de la variable: y1/2+ Logaritmo neperiano de la variable: ln(y)Logaritmo neperiano de la variable + 1: ln(y+1)Arcoseno de la raz cuadrada de la variable:arcsen(y1/2 )
Anlisis de la varianza
cul escoger?
CON SPSS: Analizar, Estadsticos descriptivos,Explorar
Obtendremos un valor p que si es 0 latransformacin es logartmica y si es distinto de 0ser xp
Ejercicio: Probar con los datos Cuadrticos
Anlisis de la varianza
Con SPSS tras poner variables Y e X
Anlisis de la varianza
Ejercicio: Con los datos de hipertensin, validar lashiptesis del modelo
Normalidad
Homocedasticidad
En caso de necesitar una transformacin cul es laadecuada?
Anlisis de la varianza
Comparaciones mltiples
Se han detectado diferencias mediante un ANOVA.Pero, entre qu grupos hay diferencias?
Problema del pescador de p-valores
Problema de multiplicidad de contrastes
Anlisis de la varianza
Comparaciones mltiples
Mltiples contrastes aumentan el riesgo global:
r = 1-(1-)k K r12510501001000
0,050,080,140,190,320,370,53
Anlisis de la varianza
Comparaciones mltiples. Soluciones
Comparaciones simultneas (se utiliza el mismoestadstico para cada par de comparaciones)
Procedimientos secuenciales (se comparan lasmedias dos a dos ordenadas crecientemente)
Anlisis de la varianza
Mtodo de la menor diferencia significativa (LSD)
Similar a construir el IC mediante la t de Student
Necesita homogeneidad de varianzas (test deLevene significativo)
El intervalo de confianza al nivel 1- para i-j seconstruye como:
212 11
/,/ ))//(( jirnji nnMCItyy +
Anlisis de la varianza
Mtodo de Tukey (HSD)
Se aplica cuando se quieren comparar todos lospares de posibles medias i j con ij
Cuando todos los n son iguales globalmente setiene 1- de confianza. Si no es superior.
Se calcula21 /
)//()min(max nMCIyyq ji =
Anlisis de la varianza
Mtodo de Tukey (HSD) (cont.)
q es una cota entre la comparacin de cualquiermedia
Procedimiento: Para comparar i j con ij, sedetermina la diferencia francamente ms significativa(Honesty Significant Difference, HSD) entre
SPSS da los valores de HSD y se puede construirun IC como:
e ji yy
HSDyy ji
Anlisis de la varianza
Mtodo de Bonferroni
Correccin del total por el nmero de contrastes arealizarRecomendable con pocas comparaciones
Otros:
ScheffNewman-KeulsDuncan,
Anlisis de la varianza
Con SPSS
Anlisis de la varianzaComparaciones mltiples
Variable dependiente: PULSOBonferroni
-3,4250 3,8481 1,000 -16,4328 9,5828-6,7500 3,8481 1,000 -19,7578 6,25783,9000 3,8481 1,000 -9,1078 16,90783,5000 3,8481 1,000 -9,5078 16,5078
-2,3250 3,8481 1,000 -15,3328 10,68283,4250 3,8481 1,000 -9,5828 16,4328
-3,3250 3,8481 1,000 -16,3328 9,68287,3250 3,8481 1,000 -5,6828 20,33286,9250 3,8481 1,000 -6,0828 19,93281,1000 3,8481 1,000 -11,9078 14,10786,7500 3,8481 1,000 -6,2578 19,75783,3250 3,8481 1,000 -9,6828 16,3328
10,6500 3,8481 ,190 -2,3578 23,657810,2500 3,8481 ,237 -2,7578 23,25784,4250 3,8481 1,000 -8,5828 17,4328
-3,9000 3,8481 1,000 -16,9078 9,1078-7,3250 3,8481 1,000 -20,3328 5,6828
-10,6500 3,8481 ,190 -23,6578 2,3578-,4000 3,8481 1,000 -13,4078 12,6078
-6,2250 3,8481 1,000 -19,2328 6,7828-3,5000 3,8481 1,000 -16,5078 9,5078-6,9250 3,8481 1,000 -19,9328 6,0828
-10,2500 3,8481 ,237 -23,2578 2,7578,4000 3,8481 1,000 -12,6078 13,4078
-5,8250 3,8481 1,000 -18,8328 7,18282,3250 3,8481 1,000 -10,6828 15,3328
-1,1000 3,8481 1,000 -14,1078 11,9078-4,4250 3,8481 1,000 -17,4328 8,58286,2250 3,8481 1,000 -6,7828 19,23285,8250 3,8481 1,000 -7,1828 18,8328
(J) EQUIPO2,003,004,005,006,001,003,004,005,006,001,002,004,005,006,001,002,003,005,006,001,002,003,004,006,001,002,003,004,005,00
(I) EQUIPO1,00
2,00
3,00
4,00
5,00
6,00
Diferencia demedias (I-J) Error tpico Sig. Lmite inferior
Lmitesuperior
Intervalo de confianza al95%
Si no hay homogeneidad de varianzasComparaciones mltiples
Variable dependiente: PULSOTamhane
-3,4250 3,8481 1,000 -30,4128 23,5628-6,7500 3,8481 ,978 -30,0599 16,55993,9000 3,8481 1,000 -21,8060 29,60603,5000 3,8481 1,000 -25,0622 32,0622
-2,3250 3,8481 1,000 -28,2142 23,56423,4250 3,8481 1,000 -23,5628 30,4128
-3,3250 3,8481 1,000 -28,1511 21,50117,3250 3,8481 ,938 -23,6423 38,29236,9250* 3,8481 ,031 ,7055 13,14451,1000 3,8481 1,000 -6,4526 8,65266,7500 3,8481 ,978 -16,5599 30,05993,3250 3,8481 1,000 -21,5011 28,1511
10,6500 3,8481 ,769 -14,5857 35,885710,2500 3,8481 ,563 -16,1621 36,66214,4250 3,8481 ,994 -19,3310 28,1810
-3,9000 3,8481 1,000 -29,6060 21,8060-7,3250 3,8481 ,938 -38,2923 23,6423
-10,6500 3,8481 ,769 -35,8857 14,5857-,4000 3,8481 1,000 -32,8980 32,0980
-6,2250 3,8481 ,979 -36,0722 23,6222-3,5000 3,8481 1,000 -32,0622 25,0622-6,9250* 3,8481 ,031 -13,1445 -,7055
-10,2500 3,8481 ,563 -36,6621 16,1621,4000 3,8481 1,000 -32,0980 32,8980
-5,8250 3,8481 ,135 -13,3070 1,65702,3250 3,8481 1,000 -23,5642 28,2142
-1,1000 3,8481 1,000 -8,6526 6,4526-4,4250 3,8481 ,994 -28,1810 19,33106,2250 3,8481 ,979 -23,6222 36,07225,8250 3,8481 ,135 -1,6570 13,3070
(J) EQUIPO2,003,004,005,006,001,003,004,005,006,001,002,004,005,006,001,002,003,005,006,001,002,003,004,006,001,002,003,004,005,00
(I) EQUIPO1,00
2,00
3,00
4,00
5,00
6,00
Diferencia demedias (I-J) Error tpico Sig. Lmite inferior
Lmitesuperior
Intervalo de confianza al95%
La diferencia entre las medias es significativa al nivel .05.*.
Anlisis de la varianza
Ejercicio: Con los datos de hipertensin,
Entre qu frmacos existen diferencias?
Anlisis de la varianza
Qu hacer si no podemos aplicar ANOVA?
Pruebas no parametricas Kruskal-Wallis, Friedman,
(Ver sesin 7 con Vctor Moreno)