36
Análisis multivariado explicativo II

T5b. Contraste Hip multivariadas, gradiente directo e indirecto, métodos no-paramétricos

Embed Size (px)

Citation preview

Análisis multivariado

explicativo II

• Los métodos multivariados explicativos, al igual que la contraparte uni o bivariada, buscan identificar una señal de estructuración en los datos. Esta señal puede provenir de la inclusión en el análisis de una variable externa, independiente o de diferencias en la composición misma de los datos, sin referencia directa a una variable explicativa específica.

La aproximación al testeo de hipótesis a partir de métodos multivariados puede seguir dos estrategias:

•Indirecto: Análisis multivariado seguido de contraste de los resultados en relación a una/s variables independientes.

•Directo: Realización del análisis multivariado en simultáneo

al ajuste de una o más variables independientes, tal que el resultado está directamente asociado a éstas.

Algunos métodos de inferencia bi

y multivariados

Métodos paramétricos

• Análisis discriminante

• Análisis de la varianza.

• Análisis Multivariado de la Varianza (MANOVA).

• Regresión múltiple

no-Paramétricos

• Análisis multivariado no paramétrico (NPMANOVA)

• Análisis de di-similitudes (ANOSIM) (no paramétrico)

• Análisis de Correspondencia canónica

• Test de Mantel.

Análisis de la varianza

• Si bien este método no es estrictamente multivariado, puede analizar distintos grupos de variables dependientes a la vez en relación a una más variables independientes denominadas FACTORES.

• El procedimiento de análisis de la varianza es la base de otros procedimientos multivariados tanto paramétricos(MANOVA) como no paramétricos(NPMANOVA).

• El análisis de la varianza presenta la ventaja de

que permite vincular variables continuas con

variables categóricas independientes.

• Está vinculado al análisis de contraste de medias

mediante el test de la t y la regresión.

El objetivo del análisis de la varianza es contrastar

cuándo tres o más medias poblacionales son

similares (Ho). La hipótesis alternativa del test

(Ha) sostiene que al menos uno de los grupos,

es distinto.

• El test asume muestras provenientes de muestreo aleatorio, iguales varianzas en los grupos y distribución normal de los residuos (errores de ajuste).

• Una distribución no-normal de los residuos puede vincularse con que el modelo empleado no ha sido el correcto y que el ajuste no explica parte sustancial de la varianza.

• El test estima las diferencias en la variación entre grupos. Donde la varianza es la suma de los cuadrados de la distancia (x-media) de los individuos a su media.

• La suma de cuadrados se realiza entre individuos de cada grupo (suma de cuadrados dentro de los grupos) y entre ellos (suma de cuadrado entre grupos) en relación a la gran media (media de todos los grupos). Cuando más grande es la diferencia entre la variación entre grupos en relación a la variación interna, más probable es detectar una diferencia estadísticamente significativa.

1

1

k

i ii

k

ii

n xx

n

=

=

∑=∑

( ) ( )2

1

k

i ii

SS B n x x=

= −∑

Gran Media: Gran Media: PromedioPromedio de de todostodos los los

valoresvalores sin sin tomartomar en en cuentacuenta la la divisidivisióónn

dentrodentro de de factoresfactores..

VariacionVariacion entre entre gruposgrupos, SS(B): , SS(B):

VariacionVariacion entre la media de entre la media de

cadacada grupogrupo y la y la grangran mediamedia

VariacionVariacion intra intra grupogrupo, SS(W): , SS(W):

VariacionVariacion total total dentrodentro de los de los

gruposgrupos en en relacirelacióónn a los a los gradosgrados

de de libertadlibertad de de cadacada muestramuestra

( ) 2

1

k

i ii

SS W df s=

= ∑

• Posteriormente debemos poner en relación la varianza dentro y entre grupos con los grados de libertad de la muestra.

• Esto de denomina Media de Cuadrados y se obtiene estimando a razón de la varianza entre grupos y dentro de los grupos en relación a los grados de libertad (n casos-1) y (n grupos-1).

Medida de ajuste, el estadístico F.

• El valor de F (también F de Fisher) es

equivalente a la razón entre las medias de

cuadrados entre grupos y dentro de los grupos.

Cuanto mayor es la diferencia entre grupos en

relación a la variación dentro de los grupos,

mayor será el valor de F

• El estadístico F siempre es positivo y su

distribución es asimétrica hacia la derecha.

Valores altos de F sugieren significancia.

• Si el valor de F asociado al test es significativo, esto significa que al menos un caso es diferente a los demás.

• Para establecer estas diferencias se deben observar las relaciones entre pares de casos. En PAST esta comparación se realiza mediante el test HSD (HonestlySignificant Difference) de Tukey.

• Validación de los supuestos:

• Si los supuestos de ANOVA no se cumplen, es

probable estar contrastando equivocadamente los

resultados y observar diferencias donde no las haya

(error de tipo 1).

• Uno del los métodos más comunes (y

probablemente el procedimiento más importante)

para controlar los supuestos es el test de Levene

de homogeneidad y es equivalente a realizar un

ANOVA sobre los residuos del ajuste del modelo.

• Si Levene no se cumple es conveniente emplear

una alternativa no paramétrica de ANOVA, como

Kruskal-Wallis, que estima diferencias entre

medianas, o ANOVA basado en el test de Welch.

Ejemplo ANOVA

• Caso: Volumen de núcleos por calidad:

• Existen diferencias en volumen vinculados a la calidad de la roca?

• Exploración de los datos

• Ajuste del modelo de ANOVA

• Análisis de resultados

• Control de los supuestos

Análisis discriminante

• A partir de dos grupos multivariados y una o más variables independientes el análisis discriminante busca determinar el eje que produzca la máxima separación entre ellos a partir de sus variables continuas.

• Las variables independientes son usualmente niveles de una variable categórica.

• Este análisis y su versión canónica, (para más de dos grupos), supone distribuciones multivariadas normales.

• Para que este test sea eficiente es aconsejable tener más casos que variables, en algunos casos el doble, así como matrices de varianza-covarianza semejantes.

•La identificación del eje de

máxima separación (eje

discriminante), es utilizado

como herramienta

clasificatoria.

•El porcentaje de clasificación

correcta dado por el eje

discriminante se determina en

relación a la variable

independiente utilizada.

•Cuanto menor sea el error

clasificatorio de este eje

discriminante, mejor la

variable/s independiente/s

utilizada explicará los datos.

•En caso de más de una

variable independiente el eje

discriminante surge de una

combinación lineal de éstas,

con los datos originales.

• El test de la T multivariado (Hotelling) puede

emplearse para determinar si las diferencias

observadas en la distribución de los valores de

la variable dependiente a lo largo del eje

discriminante son significativas.

cuanto mayor el porcentaje de

clasificación correcta más probable encontrar

diferencias significativas.

• Una forma considerada muy eficiente para

determinar la robustez de modelo, es dejar

alternativamente un caso a la vez y reclasificar

interadamente. Esto sirve también para explorar

la incidencia de casos individuales.

Ejemplo

• Comparación entre grupos cronológicos de artefactos.

• Transformación de los datos y empleo de variables resultantes de Coordenadas principales (gradiente indirecto).

• Determinación previa de los grupos

• Ajuste del modelo

• Interpretación

• Control de los supuestos.

Críticas a los métodos

paramétricos

• Normalidad multivariada

• Falta de flexibilidad

• Datos continuos, distancias euclidianas.

Entonces.?

•Estos métodos fueron desarrollados por ecólogos de

poblaciones y biólogos para explorar diferencias en la

estructura de comunidades, empleado datos provenientes de conteos (cantidad de especies) o datos nominales.

•Asimismo, puede ser de interés emplear datos bajo distintas transformaciones (con el fin de resaltar alguna de

sus propiedades) o bajo distintos tipos de distancia y no sólo la Euclidiana.

•Esto permite dar peso diferencial a distintos aspectos de la estructura de los datos.

•Las diferencias observadas son testeadas mediante

permutaciones de la matriz original y la estimación repetida del estadístico.

Métodos multivariados no

paramétricos

Esquema analítico (Anderson 2002)

Marti Anderson

MANOVA no paramétrico y ANOSIM y

SIMPER

• Emplea distancias al centroide (media multivariada) de cada individuo a los grupo al que pertenece. Si la distancia promedio entre grupos es mayor que la distancia promedio de cada individuo al centro (dispersión) la diferencia entre grupos es significativa.

• Por este motivo, el test es sensible a la dispersión dentro de cada grupo multivariado (asume que la dispersión es homogénea entre grupos, al igual que en el análisis de la varianza). Si este supuesto no se cumple, puede llegarse a conclusiones erróneas.

• Puede emplear distintas distancias y datos cuali-cuantitativos

• El valor de P se alcanza mediante permutaciones de la matriz original

• El test no paramétrico da el estadístico F al

igual que el ANOVA, cuanto más alto el valor del

test, más posible que el resultado sea

significativo

• Si se emplear distancias euclidianas y se

cumplen los supuestos, el resultado es

equivalente a los métodos paramétricos, aunque

en general estos métodos poseen menos poder

(son más propensos al error del tipo II)

Distancias NPMANOVA

Suma de los cuadros entre las distancias de los grupos al centroide de la distribución en relación a la suma de las distancias entre cada individuo y la media de cada grupo ■

ANOSIM

• El análisis de similitudes es un test no paramétrico que permite

definir si dos o más conjuntos multivariados difieren a partir de la abundancia de las distintas clases que los componen (Anderson 2001).

• Si se observan diferencias significativas, pueden compararse luego los conjuntos por pares.

•Este test no utiliza las distancias crudas (como

NPMANOVA) entre casos sino que las transforma en rangos (Anderson 2001).

•Posteriormente, compara si el rango medio de la distancia

entre los conjuntos es mayor que el rango medio de la distancia entre casos dentro de cada grupo, dando un valor

R=1 cuando dos o más grupos son idénticos y cercano a 0 cuanto más difieren entre sí

rb es el rango medio de las distancias entre grupos y rw el rango medio de

todas las distancias dentro de los

grupos.

SIMPER (Porcentaje de di-Similitud)

• Si el ANOSIM señala diferencias significativas, es posible analizar la estructura interna de los conjuntos e identificar cómo las clases analizadas aportan a las diferencias entre muestras en distinto grado.

• Este método permite definir en qué porcentaje distintas clases aportan a la diferencia relativa entre dos o más conjuntos de muestras multivariadas, medidas a partir de su abundancia.

• En el análisis de distintas muestras multivariadas de abundancia (o composición), compuestas por muestreos realizados en distintos sectores, SIMPER permite explorar la estructuración de la diversidad como una medida de la abundancia o composición relativa de clases entre dos o más conjuntos.

• Cuanto más distinta sea la frecuencia de clases, expresadas como valores promedio entre dos o más grupos que sean comparados, mayor es el porcentaje de di-similitud entre ellos

Ejemplo. NPMANOVA, ANOSIM y

SIMPER

• Caso Instrumentos del holoceno medio vsholoceno medio-tardío

• Existen diferencias estadísticamente significativas entre bloques temporales?

• Cómo se comportan los distintos métodos?

• Cuáles artefactos contribuyen más a las diferencias observadas?

Discusión

• Ambos NPMANOVA y ANOSIM pueden ser utilizados para estudiar la estructura de las muestras

• Según. NPMANOVA es más robusto que ANOSIM y el test de Mantel en identificar la estructura poblacional en presencia de dispersión.

Análisis de Correspondencia

canónica

Pierre Legendre

• El análisis de correspondencia es un

procedimiento no paramétrico para datos

de abundancia o presencia-ausencia

•Emplea Chi2 para obtener la distancia entre casos a

partir de las variables y simultáneamente encontrar la

mejor correlación en función de una o más variables

independientes que lo constriñen, por lo que se

denomina “canónico”

•El resultado son “ejes canónicos” u ordenamiento de

las variables dependientes y los casos a partir de las

independientes.

• El procedimiento actúa correlacionando dos o

más conjuntos de datos (variables dependientes e

independientes) durante el proceso de estimación

de las coordenadas principales.

• Esto permite extraer las estructuras de los datos

que estén más relacionadas con las variables

independientes.

• Posteriormente, la varianza explicada mediante

esta nueva estructura es contrastada mediante

permutaciones de la varianza explicada en

relación con la varianza total del modelo.

• Cada eje canónico explicará una parte decreciente de la variabilidad total, al igual que en el análisis de correspondencias, aunque en esta ocasión es posible establecer su significación estadística.

• La relación entre casos, variables dependientes e independientes puede visualizarse en un triplot.

Ejemplo

• Frecuencia de instrumentos por latitud+variables ambientales.

• Transformar datos

• Transformar variables independientes

• Realizar ajuste.

Resumen

• Los métodos multivariados permiten describir y contrastar la existencia de patrones complejos relacionados a la existencia de más de dos grupos multivariados, o la relación entre éstos y variables independientes

• Al mismo tiempo, el procedimiento evita realizar múltiples test de hipótesis, lo que infla el error de tipo I

• Existen requerimientos/supuestos que deben ser controlados para cada método, sean o no de tipo paramétrico