METODOS ESTADISTICOS MULTIVARIANTES

3.- ANALISIS FACTORIAL

METODOS ESTADISTICOSMULTIVARIANTES

RENE MALUENDA MOYA

1.- OBJETIVO DEL ANALISIS FACTORIAL

El Análisis Factorial tiene como objetivo simplificar las múltiples y complejasrelaciones que pueden existir entre un conjunto de variables observadas X1,X2,….XP.

Para ello trata de encontrar dimensiones comunes o factores que ligan ovinculan a las aparentemente variables no relacionadas

Se trata de encontrar un conjunto de k < p factores no directamenteobservables, F1, F2,……………,Fk que expliquen suficientemente a lasvariables observadas perdiendo el mínimo de información de modo que:

En consecuencia, el Análisis Factorial es una técnica de reducción de datosque examina la interdependencia de variables y proporciona conocimiento dela estructura subyacente de los datos

Las relaciones entre las variables observadas X1, X2,….XP vienen dadas por sumatriz de correlaciones R, de modo que, en el análisis factorial se puede partirde una serie de coeficientes de correlación para el conjunto de variablesobservadas y, a continuación, estudiar si subyace algún patrón de relacionestal que los datos puedan ser reordenados a un conjunto menos de factoresque podemos considerar como variables que recogen y resumen lasinterrelaciones observadas.

1.- Supongamos que hemos tomado veinte medidas antropométricas delcuerpo de una persona: Estatura, longitud del tronco y de las extremidades,ancho de hombros, peso, etc. Es intuitivo pensar que todas estas medidasno son independientes entre sí, y que conocidas alguna de ellas, podemosprever con poco error las restantes. Una explicación de este hecho es que lasdimensiones del cuerpo humano dependen de ciertos factores, y si estosfuesen conocidos, podríamos prever las dimensiones con un cierto pequeñoerror.

2.- Ejemplos

2.- Supongamos que estamos interesados en estudiar el desarrollo humanode los países mundo, y que disponemos de muchas variables económicas,sociales y demográficas, en general dependientes entre sí, que estánrelacionadas con el desarrollo. Podemos preguntarnos si el desarrollo de unpaís depende de un pequeño número de factores tales que, conocidos susvalores, podríamos prever el conjunto de las variables de cada país.

3.- Supongamos que medimos, con distintas pruebas, la capacidad mental deun individuo para procesar información y resolver problemas. Podemospreguntarnos si existen unos factores, no directamente observables, queexplican los resultados observados. El conjunto de estos factores será lo quellamamos inteligencia y es importante conocer cuántas dimensiones distintastiene este concepto y cómo caracterizarlas y medirlas3.-

Ejemplo gráficoComo ejemplo ilustrativo, supongamos que tenemos nueve variables observables X1, X2, ……., X9que se intentan resumir por tres factores no observables F1, F2 y F3. Analizando las relaciones entrelas variables se observa que las variables X1, X3, X4, y X6 están fuertemente correlacionadas con otraF1 que, por lo tanto, constituirá el primer factor. De manera similar las variables X2 y X7 se agrupanen el segundo factor F2. Las variables restantes, X5, X8 y X9 se agrupan en el tercer factor F3

3.- ANALISIS FACTORIAL COMPONENTES PRINCIPALES

El Análisis Factorial ( AF) está relacionado con los Componentes Principales (CP),en cuanto a que ambos reducen la cantidad de variables, pero existen ciertasdiferencias.

En primer lugar los CP se construyen para explicar las varianzas (que expliquenla mayor parte de la variabilidad) , mientras que el AF se construyen para lascovarianzas o correlaciones entre las variables (interrelaciones entre lasvariables).

En segundo lugar, las CP son una herramienta Descriptiva, mientras que el AFpresupone un modelo estadístico formal de generación de los datos, querequiere la formulación de hipótesis estadísticas y la aplicación de métodos deInferencia Estadística

4.- Modelo Estadístico del AFEl objetivo del Análisis Factorial (AF) es caracterizar las p variables en X entérminos de un número pequeño de k factores comunes F, los cuales impactana todas las variables, y un conjunto de errores o factores específicos ε, loscuales afectan solo a la variable X.

Consideremos las variables observables X1, X2, X3, …….., Xp como variablestipificadas o estandarizadas (con media cero y varianza igual a 1) y vamos aformalizar la relación entre variables observables y factores definiendo elmodelo factorial de la siguiente forma:

En este modelo, F1, F2, ……, Fk son los factores comunes; e1, e2, …….., ek son losfactores únicos o factores específicos; “ljh” es el peso del factor “h” en lavariable “j”, denominado también carga factorial o saturación de la variable “j”en el factor “h”.

Según la formulación del modelo, cada una de las “p” variables observables esuna combinación lineal de “k” factores comunes (F) a todas las variables (k < p)y de un factor único para cada variables (e). Así entonces, todas las variablesoriginales están influenciadas por todos los factores comunes (F), mientras quecada para cada variable existe un factor único que es específico para esavariable.

Tanto los factores comunes como los específicos son variables noobservables.

4.- Modelo Estadístico del AFEl objetivo del Análisis Factorial (AF) es caracterizar las p variables en X entérminos de un número pequeño de k factores comunes F, los cuales impactana todas las variables, y un conjunto de errores o factores específicos ε, loscuales afectan solo a la variable X.

Consideremos las variables observables X1, X2, X3, …….., Xp como variablestipificadas o estandarizadas (con media cero y varianza igual a 1) y vamos aformalizar la relación entre variables observables y factores definiendo elmodelo factorial de la siguiente forma:

En este modelo, F1, F2, ……, Fk son los factores comunes; e1, e2, …….., ek son losfactores únicos o factores específicos; “ljh” es el peso del factor “h” en lavariable “j”, denominado también carga factorial o saturación de la variable “j”en el factor “h”.

Según la formulación del modelo, cada una de las “p” variables observables esuna combinación lineal de “k” factores comunes (F) a todas las variables (k < p)y de un factor único para cada variables (e). Así entonces, todas las variablesoriginales están influenciadas por todos los factores comunes (F), mientras quecada para cada variable existe un factor único que es específico para esavariable.

Tanto los factores comunes como los específicos son variables noobservables.

EL MODELO ESCRITO MATRICIALMENTE

5.- HIPOTESIS EN EL MODELO FACTORIAL

Considera los factores comunes F1, F2, ……, Fk como variables tipificadas demedia cero y varianza igual a 1.Los factores F1, F2, ……, Fk no están correlacionados entre sí.

De acuerdo a lo anterior, la matriz de Varianzas – Covarianzas de los factorescomunes es la Matriz Identidad (E [ FF`] = I ) y la esperanza o valor esperadodel vector de factores comunes es el vector cero (E [ F] = 0).

También se supone además que la matriz de Varianzas – Covarianzas de losfactores específicos (e), es una matriz diagonal, lo que implica que las varianzasde los factores únicos pueden ser distintas pero que estos factores únicos estánincorrelacionados entre sí.

E[ee`] = Ω es una matriz diagonal; E [ e ] = 0

EL MODELO ESCRITO MATRICIALMENTE

5.- HIPOTESIS EN EL MODELO FACTORIAL

Considera los factores comunes F1, F2, ……, Fk como variables tipificadas demedia cero y varianza igual a 1.Los factores F1, F2, ……, Fk no están correlacionados entre sí.

De acuerdo a lo anterior, la matriz de Varianzas – Covarianzas de los factorescomunes es la Matriz Identidad (E [ FF`] = I ) y la esperanza o valor esperadodel vector de factores comunes es el vector cero (E [ F] = 0).

También se supone además que la matriz de Varianzas – Covarianzas de losfactores específicos (e), es una matriz diagonal, lo que implica que las varianzasde los factores únicos pueden ser distintas pero que estos factores únicos estánincorrelacionados entre sí.

E[ee`] = Ω es una matriz diagonal; E [ e ] = 0

También se debe de tener en cuenta que para poder realizar inferenciasque permitan distinguir, para cada variable, entre los factores comunes y elfactor único, es necesario suponer que los factores comunes (F) estánincorrelacionados con el factor único. Es decir, que la matriz de varianzas-covarianzas entre los factores comunes y los factores únicos es la matrizcero. (E[F e` ] = 0)

6.- TERMINOLOGÍA DERIVADA DE LAS HIPOTESIS:

COMUNALIDAD Y ESPECIFICIDAD

Dado que las variables X son estandarizadas, su matriz de Varianzas-Covarianzas es igual a la matriz de Correlación poblacional R, matriz quepuede descomponerse de la forma siguiente:

En esta descomposición podemos observar que la varianza de “Xj” se puedeexpresar como:

Tenemos la descomposición de la varianza poblacional de la Variable Xj como

6.- TERMINOLOGÍA DERIVADA DE LAS HIPOTESIS:

COMUNALIDAD Y ESPECIFICIDAD

Dado que las variables X son estandarizadas, su matriz de Varianzas-Covarianzas es igual a la matriz de Correlación poblacional R, matriz quepuede descomponerse de la forma siguiente:

7.- ALGUNOS METODOS DE OBTENCIÓN DE LOS FACTORES

METODO DEL FACTOR PRINCIPAL:

Una vez obtenidos los pesos (cargas factoriales o saturaciones) del primerfactor, que es el que más contribuye a la varianza de las variables, se eliminasu influencia considerando un nuevo modelo factorial.

Se repite el proceso hasta obtener los pesos de todos los factores, es decir,la matriz factorial, al menos hasta que la varianza total explicada por losfactores comunes sea igual o próxima a la suma de las Comunalidades.

METODO DEL CENTROIDE

En este método se elige el primer factor de modo que pase por el centro degravedad (centroide) de las variables sin unicidades. Se tiene entonces elmodelo factorial

El centro de gravedad o centroide tiene coordenadas

Si exigimos que el primer factor pase por C, el centroide tendrá todas suscomponentes nulas, excepto la primera

METODOS DE LAS COMPONENTES PRINCIPALES

La teoría de Componentes principales estudiada anteriormente puedeutilizarse para la obtención de los factores en el modelo factorial. Es precisono confundir la Teoría General de Componentes Principales, con una de susaplicaciones para la obtención de factores en el modelo factorial.

Recordemos que en el Análisis de Componentes Principales, ACP, se disponede una muestra de tamaño “n” acerca de “p” variables X1, X2, . ……., Xp(Estandarizadas o no) inicialmente correlacionadas, para posteriormenteobtener a partir de ellas un número k < p de variables incorrelacionadas, quesean combinación lineal de las variables iniciales y que expliquen la mayorparte de su variabilidad.











Pero el sistema de ecuaciones anterior es reversible, siendo posible expresarlas variables Xj en función de las componentes principales Zj de la siguientemanera:

La matriz de coeficientes de este segundo sistema es la matriz traspuesta de lamatriz de coeficientes del sistema anterior, pudiendo utilizarse este segundosistema para la estimación de los factores. El único problema que podríapresentarse es que las componentes Zj no estén estandarizadas, condición quesi se ha exigido a los factores comunes. Este problema se resuelve utilizandocomponentes principales tipificadas, definidas por:















8.- ROTACIÓN DE LOS FACTORESEl trabajo en el AF persigue que los factores comunes tangan una interpretaciónclara, porque de esa manera se analizan mejor las interrelaciones existentesentre las variables originales.

Dado que lo anterior no es fácil, se idearon los procedimientos de Rotación deFactores para que, a partir de la solución inicial, obtener unos factores quesean más fáciles de interpretar.

En la solución inicial cada uno de los factores comunes están correlacionadosen mayor o menor medida con cada una de las variables originales. Con losFactores Rotados, se trata que cada una de las variables originales tenga unacorrelación lo más próxima a 1 que sea posible con uno de los factorescomunes y correlaciones próximas a cero con el resto de los factores.




De esta manera entonces, cada factor tendrá una correlación alta con un grupode variables y baja con el resto de variables. Examinando las características delas variables de un grupo asociado a un determinado factor, se puedenencontrar rasgos comunes que permitan identificar el factor y darle unadenominación que responda a esos rasgos comunes.

Si se consigue identificar claramente estos rasgos, se habrá dado un importantepaso, ya que con los factores comunes no sólo se reducirá la dimensionalidad delproblema, sino que también se conseguirá desvelar la naturaleza de lasinterrelaciones existentes entre las variables originales.

Formas básicas de realizar rotación de los Factores:

• Rotación Ortogonal:

Los ejes se rotan de forma que quede preservada la incorrelación entre losfactores. Los ejes rotados quedan perpendiculares entre sí.

• Rotación Oblicua:

En esta rotación los ejes no son perpendiculares y los factores yda no estánincorrelacionados, con lo cual se pierde una propiedad deseable e los factores.Sin embargo en algunas oportunidades esta pérdida suele compensarse conuna asociación más nítida de cada una de las variables con su factor.

ROTACIONES ORTOGONALESMÉTODO VARIMAX:Este método obtiene los ejes de los “factores comunes” maximizando lasuma de las varianzas de las cargas factoriales al cuadrado de cada factor.Maximiza la varianza de las cargas cuadradas en cada columna.

Una propiedad importante del método Varimax es que, después de aplicado,queda inalterada, tanto la varianza total explicada por los factores, como lacomunalidad década una de las variables. La nueva matriz correspondetambién a factores ortogonales y tiende a simplificar la matriz factorial porcolumnas, siendo muy adecuado cuando el número de factores es pequeño.

MÉTODO QUARTIMAXSe hace máxima la suma de las cuartas potencias de todas las cargasfactoriales:

MÉTODO EQUIMAX

Intenta alcanzar una posición o balance intermedio entre los dos métodos derotación anteriores. En resumen, intenta alcanzar un balance entre filas ycolumnas

Documents

METODOS ESTADISTICOS MULTIVARIANTES