40
CARLOS VÉLIZ CAPUÑAY métodos estadísticos multivariantes para la investigación Análisis multivariante

Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

Embed Size (px)

DESCRIPTION

En la actualidad, muchas de las investigaciones y aplicaciones que se realizan en diferentes campos del conocimiento dan lugar a bases de datos estadísticos que corresponden a muchas variables. La información que es posible obtener de estas bases de datos es más rica cuando se considera la extracción de los patrones que pueden existir conjuntamente entre los valores de las variables. En este sentido, los diversos métodos y modelos estadísticos multivariantes son muy útiles para el investigador. Los métodos estadísticos multivariantes que se desarrollan en este texto permiten el estudio de las interrelaciones que pueden existir entre los valores de las variables, la explicación de valores de una variable en términos de los valores de otras variables y el análisis de las relaciones estructurales que entre variables no medibles se puedan construir, facilitando de este modo la presentación y comprensión de la información extraída de los datos.

Citation preview

Page 1: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

Visite nuestro sitio en http://latinoamerica.cengage.com

ISBN-13: 978-987-3889-19-6ISBN-10: 987-3889-19-1

9 7 8 9 8 7 3 8 8 9 1 9 6

Análisis m

ultivariantem

étodos estadísticos multivariantes para la investigación

En la actualidad, muchas de las investigaciones y aplicaciones que se rea-lizan en diferentes campos del conocimiento dan lugar a bases de datos estadísticos que corresponden a muchas variables. La información que es posible obtener de estas bases de datos es más rica cuando se con-sidera la extracción de los patrones que pueden existir conjuntamente entre los valores de las variables. En este sentido, los diversos métodos y modelos estadísticos multivariantes son muy útiles para el investigador.

Los métodos estadísticos multivariantes que se desarrollan en este texto permiten el estudio de las interrelaciones que pueden existir entre los valores de las variables, la explicación de valores de una variable en tér-minos de los valores de otras variables y el análisis de las relaciones estructurales que entre variables no medibles se puedan construir, faci-litando de este modo la presentación y comprensión de la información extraída de los datos.

En el presente material, el lector encontrará las siguientes herramientas:

• Análisis de componentes principales• Análisis factorial exploratorio• Análisis de conglomerados• Escalamiento multidimensional• Modelo de regresión lineal• Análisis discriminante• Modelo de regresión logística• Análisis univariado y multivariado de la varianza• Análisis de ecuaciones estructurales• Análisis de clases latentes

Véliz

C A R L O S V É L I Z C A P U Ñ A Y

métodos estadísticosmultivariantes para la

investigación

Análisismultivariante

Page 2: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz
Page 3: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

C A R L O S V É L I Z C A P U Ñ A Y

métodos estadísticosmultivariantes para la

investigación

Análisismultivariante

Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur

Page 4: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

Análisis multivariante:

Métodos estadísticos multivariantes

para la investigación

Carlos Véliz Capuñay

Presidente de Cengage Learning

Latinoamérica:

Fernando Valenzuela Migoya

Director Editorial para

Latinoamérica:

Ricardo H. Rodríguez

Editora de Adquisiciones para

Latinoamérica:

Claudia C. Garay Castro

Gerente de Manufactura para

Latinoamérica:

Antonio Mateos Martínez

Gerente Editorial de Contenidos

en Español:

Pilar Hernández Santamarina

Gerente de Proyectos Especiales:

Luciana Rabuff etti

Coordinador de Manufactura:

Rafael Pérez González

Editores:

Cinthia Chávez Ceballos

Natalia Herrero

Juan Pablo Rodríguez Velázquez

Diseño de portada:

Daniela Torres Arroyo

Imagen de portada:

Shutterstock

Composición tipográfi ca:

Heriberto Gachuz Chávez

© D.R. 2017 por Cengage Learning Editores, S.A.

de C.V., una Compañía de Cengage Learning, Inc.

Corporativo Santa Fe

Av. Santa Fe núm. 505, piso 12

Col. Cruz Manca, Santa Fe

C.P. 05349, México, D.F.

Cengage Learning® es una marca registrada

usada bajo permiso.

DERECHOS RESERVADOS. Ninguna parte de

este trabajo amparado por la Ley Federal del

Derecho de Autor, podrá ser reproducida,

transmitida, almacenada o utilizada en

cualquier forma o por cualquier medio, ya sea

gráfi co, electrónico o mecánico, incluyendo,

pero sin limitarse a lo siguiente: fotocopiado,

reproducción, escaneo, digitalización,

grabación en audio, distribución en Internet,

distribución en redes de información o

almacenamiento y recopilación en sistemas

de información a excepción de lo permitido

en el Capítulo III, Artículo 27 de la Ley Federal

del Derecho de Autor, sin el consentimiento

por escrito de la Editorial.

Véliz Capuñay, Carlos

Análisis multivariante : métodos estadísticos

multivariantes para la investigación / Carlos Véliz

Capuñay. – 1a ed. – Ciudad Autónoma de

Buenos Aires : Cengage Learning Argentina, 2015.

Libro digital, PDF

Archivo Digital: descarga y online

ISBN: 978-987-3889-32-5

1. Estadísticas. 2. Análisis Estadístico. 3. Método

Estadístico. I. Título

CDD 310

Visite nuestro sitio en:

http://latinoamerica.cengage.com

Impreso en México1 2 3 4 5 6 7 19 18 17 16

Page 5: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

A Mirtha, Jessi y José Carlos

Page 6: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz
Page 7: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

v

Índice general

1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Análisis multivariante o multivariado . . . . . . . . . . . . . . . . . . . . . 2 1.3. Vector de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4. Covarianzas y correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4.1. Autovalores y autovectores de � . . . . . . . . . . . . . . . . . . . . . . .8 1.5. La distribución normal multivariada . . . . . . . . . . . . . . . . . . . . 10 1.6. Similaridad y distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.1. Similaridad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6.2. Distancia entre dos elementos A y B . . . . . . . . . . . . . . . . . . . .13

2. Componentes principales y análisis factorial. . . . . . . 17 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Análisis de componentes principales . . . . . . . . . . . . . . . . . . . . . 17 2.2.1. Conceptos fundamentales para la construcción

de los componentes principales . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.2. Elección del número de componentes principales . . . . . . . . . . . 20 2.2.3. Interpretación de los componentes principales. . . . . . . . . . . . . 21 2.2.4. Observaciones respecto de los resultados . . . . . . . . . . . . . . . . 21 2.3. Análisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.1. El análisis factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.3. Las comunalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.4. Extracción de factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3.5. Interpretación de los factores . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.6. Rotación de factores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.7. Número de factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3.8. Importancia de cada factor . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3.9. Puntuaciones factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Page 8: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

vi

Índice general

2.3.10. Validación de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.3.11. Número de elementos de la muestra. . . . . . . . . . . . . . . . . . . . 39 2.3.12. Consideraciones generales a seguir en un análisis factorial . . . . 39

3. Análisis de conglomerados. . . . . . . . . . . . . . . . . . . . . . 49 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.2. Técnica jerárquica aglomerativa . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.1. Limitaciones a los métodos jerárquicos. . . . . . . . . . . . . . . . . . 55 3.3. Técnicas no jerárquicas: El método de K medias . . . . . . . . . . . . 55 3.4. Recomendaciones prácticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.1. Número de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4.2. Variables estandarizadas y categóricas . . . . . . . . . . . . . . . . . . 59 3.4.3. Validación de los conglomerados . . . . . . . . . . . . . . . . . . . . . . 59 3.4.4. Interpretación de los resultados . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.5. La reducción de la dimensión y la formación de los conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4. Escalamiento multidimensional . . . . . . . . . . . . . . . . . . 63 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2. Tipos de escalamiento multidimensional . . . . . . . . . . . . . . . . . . 64 4.3. El escalamiento multidimensional básico o métrico . . . . . . . . . . . 65 4.4. El escalamiento multidimensional no métrico . . . . . . . . . . . . . . . 71 4.5. Elección e interpretación de las dimensiones del espacio

métrico de la confi guración. . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5. El modelo de regresión lineal . . . . . . . . . . . . . . . . . . . 75 5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.2. El modelo de regresión lineal simple . . . . . . . . . . . . . . . . . . . . . 76 5.2.1. Estimación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2.2. Adecuación del modelo a nivel de muestra . . . . . . . . . . . . . . . 82 5.2.3. Adecuación del modelo a la población . . . . . . . . . . . . . . . . . . 84 5.2.4. Verifi cación de los supuestos del modelo. . . . . . . . . . . . . . . . . 85

Page 9: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

vii

Índice general

5.2.5. Utilización del modelo: estimación de la respuesta media e individual de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.2.6. Consideraciones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.3. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.3.1. Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.3.2. Adecuación del modelo a los elementos de la muestra . . . . . . . 91 5.3.3. Adecuación del modelo a los elementos de la población . . . . . . 92 5.3.4. Verifi cación de los supuestos del modelo. . . . . . . . . . . . . . . . . 93 5.3.5. Usos del modelo para la predicción . . . . . . . . . . . . . . . . . . . . 93 5.3.6. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.4. Modelos especiales de regresión. . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.1. Modelos de regresión polinomiales . . . . . . . . . . . . . . . . . . . . 100 5.4.2. Modelos de regresión con variables independientes cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6. Análisis discriminante . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.2. El análisis discriminante lineal . . . . . . . . . . . . . . . . . . . . . . . . 108 6.2.1. La discriminante lineal de Fisher para dos grupos . . . . . . . . . 109 6.2.2. Regla de clasifi cación y la discriminante lineal de Fisher . . . . 110 6.2.3. Etapas del análisis discriminante . . . . . . . . . . . . . . . . . . . . . 111 6.3. El clasifi cador de Bayes y la discriminante lineal . . . . . . . . . . . 116 6.3.1. El clasifi cador de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.3.2. Clasifi cación a partir de los costos por mala clasifi cación . . . . 117 6.3.3. El clasifi cador de Bayes para distribuciones normales . . . . . . 118

7. Regresión logística binaria . . . . . . . . . . . . . . . . . . . . . 121 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.2. El modelo de regresión logística binaria . . . . . . . . . . . . . . . . . . 123 7.3. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . 127 7.3.1. Evaluación de la adecuación del modelo a los datos disponibles y a la población . . . . . . . . . . . . . . . . . . . . . . . . 128 7.4. Interpretación de los resultados. . . . . . . . . . . . . . . . . . . . . . . . 130

Page 10: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

viii

Índice general

7.5. Evaluación de la capacidad predictiva del modelo. . . . . . . . . . . 134 7.5.1. El método “holdout” o de validación cruzada . . . . . . . . . . . . 134 7.5.2. Tabla de confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 7.5.3. Curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.5.4. La curva de ganancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

8. ANOVA de un solo factor . . . . . . . . . . . . . . . . . . . . . 141 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 8.2. El modelo ANOVA de un solo factor . . . . . . . . . . . . . . . . . . . . 142 8.2.1. El método de Bonferroni para comparar, a posteriori, las medias de los tratamientos . . . . . . . . . . . . . . . . . . . . . . 146

9. MANOVA de un solo factor . . . . . . . . . . . . . . . . . . . 149 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 9.2. MANOVA de un solo factor . . . . . . . . . . . . . . . . . . . . . . . . . . 150 9.2.1. Medida de bondad de ajuste del modelo. . . . . . . . . . . . . . . . 152 9.2.2. Pruebas a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

10. Modelos de ecuaciones estructurales . . . . . . . . . . . 155 10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 10.2. Fases del análisis de las ecuaciones estructurales. . . . . . . . . . 165 10.2.1. Especifi cación del modelo . . . . . . . . . . . . . . . . . . . . . . . 165 10.2.2. Identifi cación del modelo . . . . . . . . . . . . . . . . . . . . . . . 165 10.2.3. Estimación de los parámetros del modelo . . . . . . . . . . . . 166 10.2.4. Análisis de la adecuación del modelo . . . . . . . . . . . . . . . 169 10.3. Tamaño de la muestra y los supuestos del modelo. . . . . . . . . 172 10.4. Variables nominales y ordinales. . . . . . . . . . . . . . . . . . . . . . 173 10.5. Interpretabilidad y nueva especifi cación del modelo . . . . . . . 173

Page 11: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

ix

Índice general

11. Clases latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 11.2. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 11.3. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.4. Adecuación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.5. Regresión con clases latentes. . . . . . . . . . . . . . . . . . . . . . . . 190

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

Page 12: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz
Page 13: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

xi

Prólogo

El presente texto tiene su origen en las exposiciones que en varias ocasiones he presentado a grupos de profesionales de diversas especialidades y alumnos universitarios de pregrado y posgrado que requerían de herramientas para el análisis de datos relacionados con diferentes trabajos aplicativos y de investi-gación en campos como la industria, la sociología, la banca, la mercadotecnia, la biología, la epidemiología, etcétera.

Los capítulos 2 y 3 están referidos al desarrollo de métodos que se utilizan para encontrar interdependencias entre un conjunto de variables. El capítulo 2, que corresponde al análisis factorial y al análisis de componentes principales, está relacionado a técnicas para reducir la dimensión y facilitar la interpreta-ción de los datos. En el capítulo 3, dedicado al análisis de conglomerados, se desarrollan las técnicas para agrupar elementos de una muestra o de una po-blación.

En el capítulo 4 se introducen conceptos relativos al escalamiento multi-dimensional. Se presentan técnicas basadas en distancias y similitudes que permiten el “posicionamiento” de los elementos.

Los capítulos 5, 6 y 7 están escritos para introducir métodos de regresión y clasifi cación supervisados; es así como se desarrolla:

• El modelo de regresión lineal simple y múltiple (Capítulo 5)• El modelo de regresión logística (Capítulo 6) y• El modelo discriminante lineal (Capítulo 7).

En los capítulos 8 y 9 se estudian los modelos ANOVA y MANOVA, res-pectivamente, muy útiles para analizar las relaciones que pueden existir entre variables númericas y categóricas.

En el capítulo 10 se desarrollan los modelos confi rmatorios, conocidos como modelos causales o de ecuaciones estructurales, muy útiles en la modelación de relaciones entre variables latentes. Dentro de esta línea, en el capítulo 11, se trata el modelo básico de clases latentes y el modelo de regresión para clases latentes.

Aun cuando en el capítulo 1 se introducen conceptos básicos necesarios para la comprensión del texto, el lector puede revisarlos en la amplia biblio-grafía que se presenta en este libro.

Page 14: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

xii

Prólogo

Para fi nalizar, en el desarrollo de los diferentes ejemplos han sido utilizados los paquetes estadísticos SPSS, AMOS y diversas librerías del paquete R entre las que destaca el poLCA para el desarrollo de clases latentes.

Agradezco a CENTRUM, GRADUATE BUSINESS SCHOOL, PONTI-FICIA UNIVERSIDAD CATÓLICA DEL PERÚ, por el apoyo que me ha brindado para la publicación de este texto.

Carlos Véliz Capuñay

Page 15: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

1

CAPÍTULO 1CONCEPTOS BÁSICOS

1.1. Introducción

En el afán de conocer y explicar el mundo, los investigadores recolectan datos cuya propiedad esencial es la variabilidad. Estos datos aparecen cuando al estudiar alguna propiedad de los elementos de una población, se asigna a cada uno de ellos, bajo cierta regla, un número real. Esta correspondencia defi ne el concepto de variable y cuando se realiza se dice que se ha asignado una es-cala de medida. Dependiendo de la regla que se use, se tienen diferentes escalas de medida. Entre ellas están las escalas nominales, ordinales, intervalares y de razón.

• Escalas nominales. Se tiene una escala nominal si el número asignado es sólo una etiqueta. Según esta escala, las propiedades que tienen los nú-meros asignados no tienen signifi cación pero permiten agrupar a los elementos en clases o categorías.

Con este tipo de escala se pueden realizar operaciones de conteo de elementos en cada categoría y construir tablas cruzadas.

• Escalas ordinales. Se tiene una escala ordinal cuando el orden de los números asignados tiene signifi cado en la realidad que se estudia.

Asignando a cada vendedor de una tienda el número 1 si logró las ventas más altas, el número 2 si logró ventas intermedias y el número 3 si logró las ventas más bajas, se tendrá una escala ordinal.

• Escalas intervalares. Si la diferencia de los números asignados tiene sentido en la realidad que se estudia, entonces se tiene una escala inter-valar. Para este tipo de escala, el 0 se asigna de manera arbitraria y no indica ausencia de la propiedad que se está midiendo.

En una escala intervalar, la relación de las diferencias entre los núme- ros asignados es independiente de la unidad de medida que se use. Con esta escala no tiene sentido indicar que un elemento A tiene el doble o triple de la propiedad en estudio que un elemento B. Un ejemplo clásico de esta escala se refi ere a la de temperaturas “grados Fahrenheit” (F).

• Escalas de razón. Se tiene una escala de este tipo cuando los cocientes de los números asignados tienen sentido en la realidad que se estudia. Con estas escalas se pueden realizar todas las operaciones aritméticas y el 0 tiene un signifi cado: indica ausencia de la propiedad en estudio.

Page 16: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

2

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

El conocimiento de las escalas es un asunto importante porque la aplica-ción de los distintos procedimientos estadísticos que se usan para el análisis de datos dependerá del tipo de escala utilizado.

Se puede establecer un orden jerárquico entre las escalas estudiadas; con la escala de más alta jerarquía (la escala de razón) se realizan la mayor canti- dad de operaciones. La escala nominal es la de menor jerarquía.

De acuerdo con las escalas de medida, las variables suelen clasifi carse en cualitativas si la asignación de medida se refi ere a una escala nominal u or-dinal y en cuantitativas si la asignación se refi ere a una escala intervalar o de razón. Estas nominaciones se transfi eren a los datos que se obtienen como valores de las variables.

Por su lado y de acuerdo con el conjunto de valores que toma una varia-ble, éstas se suelen clasifi car en variables discretas y variables continuas. El conjunto de valores de las variables discretas es fi nito o infi nito enumerable, mientras que los valores de las variables continuas pueden ser cualesquiera de los elementos de un intervalo o de la unión de intervalos.

Generalmente los procedimientos clásicos de la estadística permiten el aná-lisis de datos que tienen cierta estructura; sin embargo, en la actualidad se recogen datos que no tienen una estructura determinada. Así, se tienen como datos no estructurados a: los discursos, las imágenes, las funciones, etcétera. Los datos no estructurados necesitan tratamientos especiales para su análisis (estos no son objeto del desarrollo de este texto).

La estadística es un proceso que, a partir de los objetivos de una investi-gación, trata de explicar la variabilidad de un conjunto de datos. Cuando se trata de estudiar la variabilidad de los valores de cada variable de manera aislada, se tiene un estudio univariado y es así como se usan: las tablas de frecuencias, los gráfi cos de sectores circulares, los gráfi cos de barras, los histo-gramas, y los resúmenes numéricos como la moda, la mediana, la media, la varianza, la desviación estándar, los percentiles, etcétera. Los conceptos de probabilidad, de variable aleatoria, de esperanza y varianza de una variable aleatoria, así como la consideración de modelos de distribuciones como la bi-nomial, la Poisson, la distribución normal, la t de Student, la F de Snedecor, la chi cuadrado, etcétera, son muy importantes en los estudios univariados para inferir propiedades de las muestras aleatorias de toda la población.

1.2. Análisis multivariante o multivariado

En la actualidad es común recolectar de un grupo de individuos los valores de muchas variables a la vez y la información que se extrae de estos datos pue-de ser el resultado de analizar cada una de las variables de manera aislada; sin embargo, son los análisis conjuntos de todas las variables a la vez los que

Page 17: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

3

Capítulo 1. Conceptos básicos

proporcionan una información más rica y revelan patrones de la estructura conjunta de los datos. El análisis multivariante o multivariado proporciona una serie de técnicas y modelos con este propósito. Algunas de esas técnicas son de carácter exploratorio pero de mucha utilidad, porque los patrones de los da-tos disponibles que a través de ellas se generan suelen servir como bases para sustentar y explicar propiedades y teorías que más adelante pueden ser objeto de evaluaciones de carácter inferencial y que sirven para toda la población.

En este texto se presentan algunas técnicas multivariadas de carácter ex-ploratorio como el análisis de componentes principales, el análisis factorial, el análisis de conglomerados y el escalamiento multidimensional. También se presentan modelos como: el modelo de regresión lineal, el modelo ANOVA, el modelo MANOVA, el de regresión logística, el análisis discriminante, el mode-lo de ecuaciones estructurales y el de clases latentes, que bien pueden aplicarse de manera inferencial cuando se cumplen los supuestos que estos exigen.

Las variables con las que generalmente se trabaja son variables medibles directamente y sus valores suelen estar medidos en las escalas nominal, ordi-nal, intervalar o de razón. Sin embargo, también se utilizan variables latentes, esto es, variables que no se pueden medir directamente pero si a través de variables medibles directamente. Las variables latentes aparecen, por ejemplo, cuando se analiza la fi delidad de un cliente, la religiosidad o el rendimiento escolar.

Por ejemplo, para cada elemento de un grupo formado por 1000 clientes de un banco se recogen datos correspondientes a las variables: edad, sueldo, número de hijos, años de estudio, tiempo de experiencia laboral, monto de un préstamo solicitado, etcétera. Se trata de estudiar cada variable y las re-laciones que entre ellas puedan existir; de esta manera se puede analizar, en un caso, si la edad infl uye para obtener el préstamo solicitado. En general, este tipo de datos se llaman multivariados y se presentan en tablas como la siguiente en donde, para cada elemento o unidad i de la población, se tienen los valores xi1, xi2, . . . , xip de las variables X1, X2, . . . , Xp, respectivamente. Esta tabla, que contiene valores de p variables para una muestra de n indivi-duos, puede expresarse como una matriz X de n fi las y p columnas.

Unidad X1 X2 . . . Xj. . . Xp

1 x11 x12 . . . x1j . . . x1p. . . . . . . . . . . . . . . . . . . . .i xi1 xi2 . . . xij

. . . xip

. . . . . . . . . . . . . . . . . . . . .n xn1 xn2 . . . xnj

. . . xnp

Tabla 1.1 Tabla de datos multivariados

Page 18: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

4

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

Ejemplo: califi caciones

Un ejemplo de datos multivariados aparece en la siguiente tabla. Correspon-den a las califi caciones de una muestra de 20 alumnos universitarios en los cursos de Matemáticas (Mat.), Lengua y Literatura (LLit.), Física (Fís.), Estadística (Est.) y Filosofía (Fil.).

Alumno Mat. LLit. Fís. Est. Fil.1 15 16 16 15 142 17 14 15 16 163 13 15 12 13 154 18 16 17 17 155 14 13 16 15 146 18 16 17 16 157 15 14 14 14 148 16 11 12 14 129 17 16 13 15 1510 18 12 14 15 1311 12 13 15 13 1212 13 16 12 13 1513 14 17 17 16 1614 12 18 13 13 1715 13 15 12 12 1416 14 16 13 13 1317 16 17 15 15 1618 16 15 15 16 1619 15 14 14 16 1320 17 17 14 17 16

Tabla 1.2 Tabla de califi caciones universitarias

Una serie de resúmenes numéricos que se defi nen para los datos multiva-riados permite la extracción de la información contenida en ellos. Algunas de estas medidas, extensiones de resúmenes numéricos de la estadística univariada, se introducen a continuación.

1.3. Vector de medias

Uno de los resúmenes numéricos que más se utiliza es el vector de medias. El vector de medias para un conjunto de p variables numéricas X1, X2 , . . . , Xp

Page 19: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

5

Capítulo 1. Conceptos básicos

se defi ne como el vector μ, formado con los valores esperados E(Xi) de cada variable Xi. La transpuesta de este vector es:

μt = (E(X1), E(X2), . . . , E(Xp)).

Este vector puede ser estimado, usando los datos de una muestra, con el vector de medias muestrales. La transpuesta de este vector es:

xt = (x1, x2, . . . , xp),

donde cada xi es una media muestral de la variable Xi.En general, la transpuesta At de una matriz A es una matriz cuyas fi las

son las columnas de la matriz A y cuyas columnas son las fi las de esta matriz.Para el ejemplo anterior, el vector de medias muestrales es:

xt = (15.15, 15.05, 14.30, 14.70, 14.55)

1.4. Covarianzas y correlaciones

El análisis multivariado permite el estudio de interrelaciones en un grupo de variables, como ocurre en el análisis de componentes principales, el análisis factorial, el análisis de conglomerados y el escalamiento multidimensional. También se usa para encontrar relaciones que sirvan para explicar la varia-bilidad de los valores de una o de un grupo de variables en términos de otro grupo de variables como, por ejemplo, en el análisis de regresión lineal, el análisis discriminante y el modelo de ecuaciones estructurales. En esta tarea suelen usarse dos medidas muy importantes: la covarianza y la correlación.

Recogidos los valores respectivos (xi, yi) de las variables X y Y, la repre-sentación gráfi ca de estos valores en un sistema de coordenadas cartesiano, y obtenida al colocar xi en el eje X y yi en el eje Y, se llama diagrama de disper-

sión. Estos diagramas permiten observar si existen relaciones entre los valores muestrales de dos variables numéricas, indicándose que existe concordancia cuando a los valores altos de una variable acompañan valores altos de la otra variable; en cambio existe discordancia cuando a valores altos de una variable acompañan valores bajos de la otra variable. La evaluación de esta concordan-cia o discordancia se hace mediante un índice que se llama covarianza.

La covarianza entre dos variables es una medida de la relación lineal que pueda existir entre los valores de dos variables numéricas.

Para las variables numéricas X y Y, defi nidas en la misma población, la co-varianza se defi ne como el valor esperado de los productos de las desviaciones de los valores de cada variable respecto de su media correspondiente,

Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))]

Page 20: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

6

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

Valores altos positivos de la covarianza indican una relación lineal y alto grado de concordancia lineal entre los valores de las variables.

La covarianza entre X y Y se denota con σXY.Si X = Y, la covarianza es igual a la varianza de la variable X y se denota

con σ2X.

Una propiedad importante indica que la covarianza es una medida simé-trica, es decir,

σXY = Cov(X, Y ) = Cov(Y, X) = σYX

Otra propiedad indica los valores entre los cuales varía la covarianza,

−σXσY <− − Cov(X, Y ) <− σXσY

donde σX y σY son las desviaciones estándar de X y Y, respectivamente.Las covarianzas entre p variables numéricas X1, X2, . . . , Xp se escriben en

una matriz cuadrada � de orden p,

� =

σ21 σ12 . . . σ1p

σ21 σ22

. . . σ2p... ... ... ...σp1 σp2 . . . σ2

p

En cada entrada i − j de la matriz se escribe la covarianza de las variables Xi y Xj; ésta se denota con σij. En la diagonal aparecen las varianzas de cada una de las variables. La varianza de Xi se denota con σ2

i mientras que con σi

se denota a su desviación estándar.� es una matriz simétrica (σij = σji) y se conoce con el nombre de matriz

de varianzas − covarianzas o simplemente matriz de covarianzas.La covarianza de Xi y Xj se estima a partir de las muestras conjuntas x1i,

x2i, . . . , xni y x1i, x2i, . . . , xnj de las respectivas variables. Un estimador de la covarianza σij es:

sij = 1n − 1 �n

k=1(xki − xi)(xkj − xj)

En particular, un estimador de la varianza σ2i de Xi es sii. Se denota con s2

i.

De este modo se tiene que la matriz:

� =

s21 s12 . . . s1p

s21 s22

. . . s2p... ... ... ...sp1 sp2 . . . s2

p

Page 21: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

7

Capítulo 1. Conceptos básicos

cuyas entradas son los estimadores sij de las covarianzas σij, es una matriz que estima a la matriz de covarianzas �.

Una de las difi cultades de las covarianzas radica en su interpretación. No se puede indicar si la covarianza es grande o pequeña, pues depende de las unidades de medida con las que se trabaje. Para evitar esta difi cultad, la co-varianza se expresa de manera relativa y es así como aparece la correlación

entre dos variables, medida con la cual se evalúa la fuerza de la relación lineal que pudiera existir entre las variables.

La correlación ρij entre las variables Xi y Xj se defi ne como:

ρij = σij

σiσj

La correlación ρij es un número que varía entre −1 y 1.Si la correlación es −1 o 1, la relación lineal entre las dos variables es

perfecta. No existe relación lineal entre las dos variables si la correlación es 0. Valores de la correlación cercanos a 1 indican que a valores altos de una va-riable acompañan valores altos de la otra variable, en cambio cuando la co-rrelación es cercana a −1, a valores altos de una variable acompañan valores bajos de la otra variable.

La matriz de correlaciones para un grupo de p variables numéricas se forma como en el caso de las covarianzas. Esta es una matriz simétrica y se denota con ρ.

Se comprueba que las covarianzas de dos variables estandarizadas es igual a la correlación de las variables iniciales.

La matriz que estima a la matriz ρ se denota con R y se forma con los estimadores de ρij,

rij = sij

sisj

donde si es el estimador de la desviación estándar σi de Xi.El estimador rij se conoce como índice de correlación de Pearson de Xi

y Xj.Una generalización del índice de correlación lineal es el índice de correla-

ción lineal múltiple. Éste es una medida de la relación lineal entre una variable numérica Xi y un grupo de variables también numéricas X2, . . . , Xp y se defi ne como:

Ri.23...p = 1 − (1 − r2i2)(1 − r2

i3.2) . . . (1 − rip.23...(p−1))

Aquí, rij es el índice de correlación lineal de Pearson entre las variables Xi y Xj, mientras que rip.23...(p−1) es la correlación lineal parcial de las variables

Page 22: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

8

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

Xi con Xp dejando fi jas al resto de las variables. Esta medida se defi ne recur-sivamente de la siguiente manera:

r12.3 = r12 − r13r23

�(1 − r 213)(1 − r 2

23)

r12.34 = r12.3 − r14.3r24.3

�(1 − r 214.3)(1 − r 2

24.3)

r12.34...p = r12.34...(p−1) − r1p.34...(p−1)r2p.34...(k−1)

�(1 − r 21k.34...(p−1))(1 − r 2

2p.34...(p−1))

Para dos variables ordinales, defi nidas conjuntamente, se defi ne el índice de correlación llamado índice de correlación de Spearman. Este índice se defi ne con base en el orden de los valores.

1.4.1. Autovalores y autovectores de ��

En el desarrollo de varias de las técnicas multivariadas se utilizan los con-ceptos de autovector y autovalor de una matriz, por ello es conveniente la presentación de estas ideas.

Para una matriz cuadrada A de orden p, se defi ne autovector como el vec-tor v que satisface la relación Av = λv, donde λ es un número real.

El valor λ se llama autovalor de A, correspondiente al autovector v.Ocurre que para la matriz �, por tener ciertas propiedades, sus autovalores

son no negativos, al igual que para la matriz de correlaciones ρ.

Ejemplo: califi cación de una agencia bancaria

A continuación se tiene una tabla de datos A para una muestra pequeña de 10 unidades y 4 variables. Estos datos corresponden a las califi caciones que 10 usuarios han realizado de una agencia bancaria en cuatro aspectos:

X1 = “Seguridad”,

X2 = “Atención”,

X3 = “Accesibilidad”,

X4 = “Comodidad”.

Page 23: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

9

Capítulo 1. Conceptos básicos

Unidad X1 X2 X3 X4

1 8 9 5 72 4 3 2 33 7 6 3 44 9 10 3 15 2 3 6 86 6 4 6 57 3 2 4 48 1 3 5 69 7 6 7 810 2 3 1 4

Tabla 1.3 Tabla de califi caciones de una agencia bancaria

Para estos datos, el vector de medias muestrales x es el vector cuya trans-puesta x t está formada por las medias muestrales de X1, X2, X3 y X4, respec-tivamente,

x t = (4.9, 4.9, 4.8, 5)

La matriz S de covarianzas muestrales que resulta es:

S =

8.1000 6.9926 0.6873 −1.33186.9926 7.6555 0.3581 −1.00080.6873 0.3581 3.7333 3.3329

−1.3318 −1.0008 3.3329 5.1111

La matriz R de correlaciones muestrales es:

R =

1 0.888 0.125 −0.2070.888 1 0.067 −0.1600.125 0.067 1 0.763

−0.207 −0.160 0.763 1

Los autovalores de la matriz R que resultan son:

λ1 = 1.996, λ2 = 1.716, λ3 = 0.208 y λ4 = 0.080.

Page 24: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

10

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

Las transpuestas de los autovectores ui con i = 1, 2, 3 y 4, correspondien-tes a los autovalores λi con i = 1, 2, 3 y 4, respectivamente, son:

ut

1 = (0.6460, 0.6418, −0.1691, −0.3769), ut

2 = (0.2723, 0.2644, 0.7027, 0.6017)

ut

3 = (−0.2117, 0.4210, −0.6164, 0.6307), ut

4 = (−0.6808, 0.5833, 0.3123, −0.3130).

En lenguaje R, el cálculo de la matriz de correlaciones y de sus autovalores y autovectores se realiza usando los siguientes códigos:

#Lectura de la tabla A csv #Previamente, escribir la tabla A en el formato csv (comma separated values)> A = read.csv(“/Users/carlosveliz/A.csv”)#Para calcular la matriz de correlaciones de A>S = cor(A) # Para calcular los autovalores y autovectores de la matriz de correlaciones de S>eigen(S)

1.5. La distribución normal multivariada

Como en el caso de la distribución normal para una variable, la distribución normal multivariada juega un rol muy importante en la estadística multiva-riada.

Para p variables continuas X1, X2, . . . , Xp, la función de densidad normal

multivariada de vector de medias μ y matriz de covarianzas � y para un vec-tor xt = (x1, x2, . . . , xp) de valores de las variables se defi ne como:

f(x, μ, �) = (2π)−p/2det(�)−1/2exp(−1/2(x − μ)t �−1(x − μ)),

donde:

det(�) es el determinante de la matriz � de covarianzas de las variables.

En la práctica μ y � son parámetros que no se conocen y deben ser esti-mados.

Page 25: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

49

CAPÍTULO 3ANÁLISIS DE CONGLOMERADOS

3.1. Introducción

El análisis de conglomerados o taxonomía numérica comprende una serie de técnicas descriptivas del análisis multivariado. Tiene por objetivo la clasifi ca-ción o agrupamiento de individuos u objetos en clases o conglomerados a par-tir de mediciones realizadas en ellos, de tal manera que dentro de los grupos se reúnan los elementos más homogéneos y que entre los grupos exista la mayor heterogeneidad. El resultado es la clasifi cación de entidades a partir de sus atributos en grupos que no son defi nidos a priori, sino que son descubiertos por el análisis.

La clasifi cación aparece en diversas disciplinas y es una herramienta que se aplica para comprender y abordar los fenómenos de manera diferenciada, de ahí la importancia de este análisis. Así se forman grupos de clientes de un banco con base en su edad, salario, tipo y número de tarjetas que poseen, etcétera. Se pueden formar grupos de usuarios de servicios de salud, teniendo en cuenta la edad, la presión arterial sistólica, el nivel de colesterol, etc. La clasifi cación se aplica en Sicología, para agrupar individuos según su per-sonalidad; en Urbanismo, para clasifi car ciudades de acuerdo con variables demográfi cas y fi scales; en Biología, para clasifi car plantas, animales, etcétera; en Mercadotecnia, para formar segmentos de clientes (segmentación de mer-cados) que tienen comportamientos de compra semejantes y así poder diseñar estrategias de ventas que mejor se adapten a cada segmento formado; en Fi-nanzas se usa, por ejemplo, para encontrar grupos de acciones que presenten oportunidades de inversión, basándose en las tasas de retorno, volatilidad, índice beta, etcétera. Con ayuda de la computadora, las técnicas para formar los conglomerados se extienden ahora para datos más complejos y es así que se obtienen, por ejemplo, conglomerados de discursos y documentos, células humanas, etcétera.

Los métodos para formar conglomerados que se tratan en este capítulo se agrupan dentro de las llamadas técnicas automáticas no supervisadas, pues no existe una variable que sirva para comparar los resultados que se obtengan.

El análisis de conglomerados es importante si los grupos obtenidos tienen signifi cación dentro del trabajo que se realiza. De ahí que las variables que se utilicen para el análisis deban ser escogidas y tratadas de manera cuidadosa, antes de ser utilizadas. El análisis exploratorio de los datos (transformacio- nes, estudio de datos anómalos, etcétera) y la aplicación de los métodos de

Page 26: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

50

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

reducción de la dimensionalidad son de mucha ayuda en las etapas prelimi-nares de aplicación de este análisis, pues sugieren, en muchos casos, la confi gu-ración de los conglomerados fi nales.

En general, las técnicas para formar conglomerados se aplican:

• En la formación de jerarquías entre los elementos al usar las similitudes entre ellos. Estas jerarquías se estructuran ubicando a los elementos en grupos que aparecen en diferentes niveles, de tal manera que un grupo que está en un nivel superior contiene a grupos que están en niveles inferiores.

• En la formación de particiones de elementos de conjuntos.• En la búsqueda de variables o conceptos que infl uyen en la agrupación

de los elementos o variables.• En la exploración de datos con la fi nalidad de generar hipótesis.• En la detección de datos “aislados” , que distan signifi cativamente de las

otras observaciones (outliers, en el idioma inglés).

Las técnicas para formar conglomerados son diversas; las que se tratan en esta sección se pueden dividir en:

• Técnicas jerárquicas aglomerativas, con las que se forman grupos sucesi-vos partiendo de tantos grupos como elementos se tengan hasta formar un único grupo con todos los elementos.

• Técnicas no jerárquicas, con las que se forma un número preestablecido de grupos. Entre los métodos no jerárquicos destaca el método de K-

medias que permite la formación de un número K de grupos previamente determinado.

3.2. Técnica jerárquica aglomerativa

El algoritmo que corresponde a esta técnica se resume en los siguientes pasos:

1. Se parte de tantos conglomerados como elementos existan.2. Se calculan las distancias entre los conglomerados iniciales.3. Con los dos conglomerados más próximos se forma un nuevo grupo.4. Con los nuevos elementos se procede como en los pasos 2 y 3 hasta

obtener un solo grupo formado con todos los elementos.

En el procedimiento para aplicar el paso 4 deberá elegirse una de las dis-tancias entre conglomerados (del vecino más cercano, del vecino más lejano, de los promedios, etcétera).

Page 27: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

51

Capítulo 3. Análisis de conglomerados

Los pasos que se siguen para llevar a cabo la partición de los elementos se representan mediante un diagrama llamado dendrograma.

La elección de la distancia a utilizar entre elementos o conglomerados es una tarea difícil de llevar a cabo. La recomendación es probar con la distancia y el método de agrupamiento que más se ajusten a la naturaleza de los datos y a su interpretación.

En los ejemplos que siguen se hace uso del software SPSS y del R.

Ejemplo: técnica jerárquica

Para ilustrar los conceptos revisados, a continuación se aplica el método je-rárquico aglomerativo, la distancia euclidiana y el criterio de los vecinos más cercanos para la formación de conglomerados.

Se consideran 6 clientes de una entidad fi nanciera para los cuales se han calculado los valores de las variables:

X1: “Edad”X2: “Sueldo mensual”

Los valores de las variables aparecen en la siguiente tabla:

Edad Sueldo1 28 28002 35 35003 33 47004 50 55005 48 45006 25 7000

Tabla 3.1 Tabla de datos de clientes de una entidad fi nanciera

La matriz de distancias euclidianas entre los clientes es la siguiente:

1 2 3 4 5 61 0.002 700.035 0.0003 1900.007 1200.002 0.0004 2700.090 2000.056 800.181 0.005 1700.118 1000.084 200.562 1000.02 0.0006 4200.001 3500.014 2300.014 1500.208 2500.106 0.000

Tabla 3.2 Matriz de distancias euclidianas de los clientes de una entidad fi nanciera

Page 28: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

52

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

En la matriz se observa que los elementos más cercanos son el elemento 3 y el elemento 5. Uniendo estos elementos se tiene un nuevo elemento [3, 5].

Con el criterio del vecino más cercano se obtienen las distancias entre los elementos: [3, 5], 1, 2, 4, y 6. Las nuevas distancias son:

d(1, [3, 5]) � min(d(1, 3), d(1, 5)) � 1700.118

d(2, [3, 5]) � min(d(2, 3), d(2, 5)) � 1000.084

d(4, [3, 5]) � min(d(4, 3), d(4, 5)) � 800.181

d(6, [3, 5]) � min(d(6, 3), d(6, 5)) � 2300.014

Con las distancias entre los elementos [3, 5], 1, 2, 4 y 6 se tiene la nueva matriz de distancias:

[3, 5] 1 2 4 6[3, 5] 0.00

1 1700.18 0.002 1000.08 700.03 0.004 800.18 2700.09 2000.06 0.00

6 2300.01 4200.00 3500.01 1500.21 0.00

Tabla 3.3 Matriz de distancias euclidianas de los clientes de una entidad fi nanciera con el criterio del vecino más cercano

Después de observar esta matriz se deberán juntar el elemento 1 con el elemento 2, con lo que se obtendrá el elemento [1, 2].

Con el mismo criterio de los vecinos más cercanos se obtiene la nueva ma-triz de distancias con los elementos: [3, 5], [1, 2], 4 y 6. Observando esta matriz se deberá juntar el elemento [3, 5] con el elemento 4, formándose el elemento [[3, 5], 4].

La nueva matriz de distancias se forma con los elementos [[3, 5], 4], [1, 2] y 6. Si el proceso se termina en esta etapa se habrán formado los tres grupos: {3, 5, 4}, {1, 2} y {6}.

En la etapa posterior se juntan los elementos [[3, 5], 4] y [1, 2]. La matriz fi nal de distancias se forma con los elementos [ [3, 5], 4, [1, 2] ] y 6, y termina con el grupo formado por los 6 elementos iniciales.

El dendrograma que aparece en la siguiente fi gura muestra los pasos a seguir en la formación jerárquica de los conglomerados:

Page 29: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

53

Capítulo 3. Análisis de conglomerados

Figura 3.1 Dendrograma

Las líneas verticales indican la distancia en que los elementos se unen. Si el dendrograma se corta a un nivel de distancia a, se obtienen los grupos {3, 5, 4}, {1, 2} y {6}.

Para este ejemplo, se obtienen resultados iguales si se usa el método de agrupamiento del vecino más lejano.

Ejemplo: calorías, grasas y proteínas

En este ejemplo se considera la cantidad diaria de calorías (kcal), grasas (g) y proteínas (g) en las unidades indicadas que consumen en promedio 19 países de América Latina. Los datos fueron reportados por la Organización de las Naciones Unidas para la Alimentación, FAO, entre los años 1990 y 1992.

Tomando en cuenta las variables indicadas y usando la distancia euclidiana y el método del vecino más lejano, se determinó el agrupamiento jerárquico de los países. La tabla de los datos y el dendrograma que se obtuvieron aparecen a continuación:

País Calorías Grasas Proteínas

Argentina 2948 103 97Bolivia 2031 51 52Brasil 2791 82 64Chile 2535 65 70Colombia 2632 62 60

3 5 4 1 2 6

a

Continúa...

Page 30: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

54

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

Pan.

Hon.

RDo.

Gua.

Nic. Bo

l.Pe

r.Ur

u.Co

l.Pa

r. Ven.

Ecu.

Chi.

ESa. Arg.

Cub.

Bra.

CRi.

Méx

Enlace completo o del vecino más lejano

País Calorías Grasas ProteínasCosta Rica 2870 78 69Cuba 3003 77 66Ecuador 2539 90 52El Salvador 2526 58 68Guatemala 2282 42 58Honduras 2307 61 56México 3190 84 80Nicaragua 2290 52 55Panamá 2238 65 59Paraguay 2618 68 91Perú 1881 34 50R. Dominicana 2273 65 50Uruguay 2684 96 83Venezuela 2586 95 65

Tabla 3.4 Consumo de calorías, grasas y proteínas en 19 países

Los grupos claramente formados son:

Grupo I: Panamá, Honduras, República Dominicana, Guatemala y Nicaragua.

Grupo II: Bolivia y Perú. Grupo III: Uruguay, Colombia, Paraguay, Venezuela, Ecuador, Chile

y El Salvador. Grupo IV: México, Argentina, Cuba, Brasil y Costa Rica.

Figura 3.2: Dendrograma

Page 31: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

55

Capítulo 3. Análisis de conglomerados

3.2.1. Limitaciones a los métodos jerárquicos

Los métodos jerárquicos presentan los siguientes inconvenientes:

• No se puede corregir la mala ubicación temprana de los elementos, pues las etapas que se realizan no se vuelven a repetir.

• Tienen poca estabilidad. Las soluciones varían signifi cativamente cuan-do se quitan algunos atributos o cuando se eligen diferentes distancias.

• Los datos atípicos infl uyen sensiblemente en los resultados.

3.3. Técnicas no jerárquicas: el método de K medias

Las técnicas no jerárquicas permiten la formación de conglomerados cuyo nú-mero K es previamente fi jado. Un método particular es el método K-medias

cuyo proceso se desarrolla a continuación.Suponiendo que se tiene una muestra de N elementos para los cuales están

defi nidas p variables numéricas,

1. Se forman al azar K grupos y para cada grupo se calculan los cen- troides o puntos cuyas coordenadas son las medias aritméticas de las p variables.

2. Usando la distancia euclidiana y para cada elemento se calcula su dis-tancia a cada uno de los centroides, reasignándolos al grupo cuyo cen-troide es el más cercano. Los nuevos centroides de los nuevos grupos formados se recalculan.

3. Si la distancia entre los centroides iniciales y los nuevos centroides es pequeña (digamos, E) o si se ha completado un número fi jo de iteracio-nes, el proceso termina. De otro modo, se repite el paso 2.

Ejemplo: K-Medias

Para este ejemplo se utilizó la información del ejemplo anterior proporcio- nada por la FAO. Usando el paquete estadístico R y aplicando el método de K medias, los países se agruparon en K = 3 grupos como sigue:

Grupo 1: Argentina, Costa Rica, Cuba y México. Grupo 2: Brasil, Chile, Colombia, Ecuador, El Salvador, Paraguay,

Uruguay y Venezuela. Grupo 3: Bolivia, Guatemala, Honduras, Nicaragua, Panamá, Perú,

R. Dominicana.

Page 32: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

56

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

Las medias de las variables para cada grupo aparecen a continuación y dan una idea del perfi l de cada uno de ellos:

Conglomerado 1 Conglomerado 2 Conglomerado 3Calorías 3002.75 2613.87 2186.00Grasas 88.00 74.50 52.85Proteínas 78.00 69.12 54.28

Tabla 3.5 Medias del consumo de calorías, grasas y proteínas en cada conglomerado

El conglomerado 1 es el que más consume calorías, grasas y proteínas.

Ejemplo: tasas de desempleo

Para este ejemplo se han utilizado los datos correspondientes a las tasas de desempleo de 17 países de América Latina según la OIT, mismos que se utili-zaron en el capítulo anterior y que corresponden a los años 2000, 2001, . . . , 2009.

Usando el software estadístico SPSS y aplicando el método K-medias para tres grupos, se obtuvieron los siguientes conglomerados:

Conglomerado 1: Argentina, Colombia, Panamá, R. Dominicana, Uruguay, Venezuela.Conglomerado 2: Brasil, Chile, Ecuador, Nicaragua, Paraguay y Perú. Conglomerado 3: Bolivia, C. Rica, El Salvador, Honduras, México.

Tasas de desempleodurante el año

MediasConglomerado 1

MediasConglomerado 2

MediasConglomerado 3

2000 14.85 5.48 8.572001 16.13 5.84 9.722002 17.07 5.96 11.172003 16.92 6.12 10.682004 14.95 6.24 9.872005 13.33 6.64 8.622006 11.87 5.78 8.382007 10.22 5.40 7.722008 9.20 5.22 7.732009 10.00 6.82 8.32

Tabla 3.6 Perfi l de los conglomerados

Page 33: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

57

Capítulo 3. Análisis de conglomerados

Si se usan los dos primeros componentes principales de las variables X1, X2, . . . , X9, que corresponden a las series de las tasas de desempleo de los años 2000, 2001, . . . , 2009, respectivamente, se tendrá que los tres conglo-merados obtenidos por el método K-medias son los mismos que los derivados de las nueve variables originales.

Ejemplo: paquetes turísticos

Una empresa de turismo realizó una encuesta en una muestra de 100 clientes para averiguar la importancia que estos asignan a ciertos aspectos cuando realizan un viaje turístico. Las variables consideradas fueron:

X1 = “Importancia que se otorga al entorno”.

X2 = “Importancia que se otorga a la gastronomía”.

X3 = “Importancia que se otorga al costo del viaje”.

X4 = “Importancia que se otorga a la diversión nocturna”.

X5 = “Importancia que se otorga al alojamiento”.

X6 = “Importancia que se otorga al arte y la cultura”.

Los puntajes para los cinco primeros clientes se consignan en la siguiente tabla:

Clientes X1 X2 X3 X4 X5 X6

1 7.63 7.63 8.47 11.06 3.39 61.02

2 30.20 4.50 3.25 18.05 13.53 11.28

3 22.72 6.32 46.18 21.52 10.76 25.32

4 20.63 3.32 25.68 19.81 10.76 8.49

5 40.91 6.11 7.37 4.31 6.42 27.27

... ... ... ... ... ... ...

Tabla 3.7 Puntajes de los cinco primeros clientes

Usando el método no jerárquico se formaron tres grupos o conglomerados.

Page 34: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

58

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

En la siguiente tabla se observa el perfi l de cada conglomerado, usando las medias de las variables.

Variables Congl. 1 Congl. 2 Congl. 3X1: Imp. entorno 9.24 16.63 46.85X2: Imp. gastronomía 6.12 11.29 7.62X3: Imp. costo viaje 14.79 38.15 8.34X4: Imp. distracción noct. 32.95 8.30 10.56X5: Imp. alojamiento 7.63 10.63 14.37X6: Imp. arte y cultura 24.41 13.55 9.58

Tabla 3.8 Perfi l de los conglomerados

Se observa que los elementos del conglomerado 1 le dan mayor importancia a la distracción nocturna, al arte y la cultura y le otorgan menor importan-cia a la gastronomía.

Los elementos del conglomerado 2 le dan mayor importancia al costo del viaje y al entorno pero menor importancia a la vida nocturna.

Los elementos del conglomerado 3 le dan importancia al entorno y al alo-jamiento pero menor importancia a la gastronomía.

3.4. Recomendaciones prácticas

3.4.1. Número de conglomerados

El número de conglomerados y los resultados que se obtienen con estas téc-nicas son cuestiones que deben tomarse con cuidado y que no son tan fáciles como parecen. Por lo general, no se trata de encontrar simplemente un número óptimo de conglomerados que funcionen bien desde el punto de vista teórico, sino también que sean fáciles de interpretar y que funcionen en la práctica. La recomendación es iniciar el agrupamiento con el método jerárquico y utilizar un número K de conglomerados que sean interpretables. Posteriormente, se sugiere aplicar un método no jerárquico usando el número de conglomerados previamente encontrado.

Si las técnicas de agrupamiento se usan para encontrar datos atípicos, antes de buscar un número óptimo de conglomerados habrá que explorar con-glomerados o segmentos que tengan un número pequeño de elementos.

Cuando las técnicas de conglomerados se aplican para segmentar mer-cados, es recomendable tener a lo más ocho segmentos; si esto no ocurre, la segmen- tación se vuelve compleja.

Page 35: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

59

Capítulo 3. Análisis de conglomerados

Si se aplica el método de K-medias para determinar el número K, se acos-tumbra usar el índice defi nido por:

F = B(K ) − B(K + 1)

B(K + 1)/(n − K − 1) ,

en donde:

B(K ) = �K

k=1 �p

j=1 �nk

i=1(xijk − x jk)2,

K = es el número de conglomerados,nk = es el número de elementos en el k - ésimo conglomerado,

xijk = es el valor que le corresponde al i - ésimo elemento en la variable j en el k -ésimo conglomerado.

Este índice, llamado seudo F, expresa la dispersión dentro de los conglo-merados para todas las variables.

Si el índice F para K conglomerados es mayor que 10, se deberá considerar un conglomerado más.

En todo caso, el investigador deberá tener en cuenta que son las considera- ciones externas y las restricciones prácticas las que infl uyen en la elección del número de conglomerados.

3.4.2. Variables estandarizadas y categóricas

Las medidas de distancia son altamente infl uenciadas por las unidades de medida de cada variable. Las variables con mayores unidades tienen mayor infl uencia en la distancia. Para evitar este inconveniente, se acostumbra estan-darizar previamente las variables, quitando las unidades de medida.

Los métodos descritos son válidos cuando las variables son numéricas; cuando las variables son categóricas, éstas pueden transformarse a varia-bles cuantitativas usando el análisis de correspondencias. (El análisis de co-rrespondencias es una técnica multivariada análoga al análisis factorial en donde las variables que se utilizan son categóricas.)

3.4.3. Validación de los conglomerados

La técnica de agrupamiento utilizada deberá producir conglomerados que in-ternamente sean homogéneos pero heterogéneos entre ellos. Es posible que los resultados cumplan con este requerimiento; sin embargo, no se gana mucho si los agrupamientos no aportan buena información al investigador. Se persigue que la técnica permita:

Page 36: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

60

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

• Producir aglomeraciones signifi cativas que aporten información para cumplir con los objetivos inicialmente propuestos por el investigador. Ello se puede revisar con los resúmenes numéricos de las variables en cada conglomerado o usando variables adicionales que no han sido uti-lizadas en el desarrollo de la técnica.

• Producir conglomerados que sean insensibles a cambios en alguno de los atributos que se han considerado en el desarrollo de la técnica.

3.4.4. Interpretación de los resultados

Una vez construidos los conglomerados, el investigador debe completar la tarea al describir e interpretar los conglomerados formados. Los conglomera-dos pueden describirse al analizar los resúmenes numéricos de las variables que se han usado en cada conglomerado construido. La interpretación de los conglomerados se facilita cuando se usan variables auxiliares que no se han utilizado en su construcción; “cruzando” las categorías de la variable con los conglomerados si la variable auxiliar es categórica o comparando las medias de la variable en cada conglomerado cuando la variable es numérica.

Los árboles de clasifi cación, Breiman y otros ( 1984), son usados a menudo para interpretar los conglomerados. Un árbol de clasifi cación es una meto-dología de clasifi cación supervisada que consta de una variable depediente categórica y un grupo de variables independientes, y que permite predecir las categorías de la variable dependiente a partir de las variables independientes. La construcción de los árboles genera reglas de clasifi cación a partir de los re-sultados. Usando los conglomerados formados como categorías y las variables iniciales como variables independientes, se pueden seguir las reglas generadas para interpretar el contenido de los conglomerados.

3.4.5. La reducción de la dimensión y la formación de los conglomerados

Los conglomerados pueden formarse al reducir previamente la dimensión mediante el análisis factorial o el de componentes principales, para luego usar los factores en la aplicación del procedimiento. Esto facilita la aplicación de los algoritmos; sin embargo, los conglomerados que se forman no son fá-ciles de interpretar y su formación puede ser infl uenciada por los primeros fac-tores que explican la mayor variabilidad. La ventaja que ofrecen los factores aparece cuando su número se reduce a tal punto que se pueden representar gráfi camente los datos y las variables.

Page 37: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

61

Capítulo 3. Análisis de conglomerados

2

Núm. de conglomerados

4 126 8 10 14

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Sum

a de

cua

drad

os d

e los

gru

pos

Ejemplo: mapa de pobreza

Esta vez la base de datos A, introducida en la sección de componentes prin-cipales, es usada para obtener conglomerados mediante el método “k-medias”.

Figura 3.3 El “codo” indica que el número de conglomerados adecuado es 3.

A partir de lo sugerido en el gráfi co anterior, se han obtenido tres con-glomerados: el conglomerado 1, que contiene a los departamentos con menor desarrollo, el conglomerado 2, formado con los departamentos con desarrollo intermedio y el conglomerado 3, que contiene los departamentos con mayor desarrollo.

Congl. 1 Congl. 2 Congl. 3Población rural 0.5733 0.3409 0.0938Población sin agua 0.4400 0.3409 0.1475Población sin desagüe ni letrinas 0.2917 0.2663 0.1088Población sin electricidad 0.4933 0.2663 0.1388Mujeres analfabetas 0.2617 0.1245 0.0537Niños desnutridos 0.4017 0.2509 0.0850

Tabla 3.9 Perfi les de los conglomerados: medias de las variables en cada conglomerado

Conglomerados:

Conglomerado 1: Amazonas, Apurimac, Ayacucho, Cajamarca, Huancave- lica y Huánuco.

Page 38: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

62

MÉTODOS ESTADÍSTICOS MULTIVARIANTES PARA LA INVESTIGACIÓN

Conglomerado 2: Ancash, Cusco, Junin, La Libertad, Loreto, Madre de Dios, Piura, Puno, San Martín y Tacna.Conglomerado 3: Arequipa, Callao, Ica, Lambayeque, Lima, Tacna y Tumbes.

Las medias de los indicadores en cada conglomerado aparecen en la tabla anterior.

Nota: los cálculos anteriores se realizaron con el lenguaje estadístico R. Los códigos utilizados aparecen a continuación:

># Lectura de los datos

> A = read.csv(“/Users/carlosveliz/A.csc”, header = T)

# Determinación del número de conglomerados

> FF = (nrow(A[,−1])−1)*sum(apply(A[,−1], 2, var))

> for (i in 2:15) FF[i]<−sum(kmeans(A[,−1], centers=i )$withinss)

> plot(1:15, FF, type = “b” , xlab = “Número de Conglomerados”, y lab = “Suma de cuadrados dentro de los grupos”)

# Obtención de los conglomerados

> cl = kmeans(A[,−1], 3)

# Obtención de los centroides de los conglomerados

> aggregate(A[,−1], by = list(cl$cluster), FUN=mean)

Page 39: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

63

CAPÍTULO 4ESCALAMIENTO MULTIDIMENSIONAL

4.1. Introducción

El escalamiento multidimensional involucra una serie de técnicas multivarian-tes de interdependencia de variables que permiten, con el mayor grado posi-ble de fi delidad, el posicionamiento de n objetos (periódicos, políticos, ideas, etcétera) en un espacio métrico de baja dimensión, a partir de las distancias o de las similitudes que entre ellos establece un grupo de individuos. La con-fi guración resultante se crea a partir de la minimización de una función de pérdida llamada Stress. El escalamiento multidimensional permite, por ejem-plo, ubicar n periódicos en un espacio euclidiano de dos dimensiones de tal manera que, si un individuo considera que dos de los periódicos son similares, la distancia entre ellos en este espacio será más pequeña que la distancia entre otro par cualquiera de los periódicos considerados. Las proximidades evalua-das numéricamente se interpretan con mayor facilidad de manera visual. Estas técnicas comenzaron a desarrollarse en el campo de la Sicología en el siglo XIX, pero posteriormente se aplicaron a diversos campos e incluso suplieron a otras técnicas multivariadas.

Un ejemplo geométrico común relacionado con el escalamiento multidi-mensional es el siguiente: se dispone de un mapa en dos dimensiones en donde se encuentran representadas K ciudades. Utilizando un escalímetro para leer las distancias en el mapa, se puede construir una matriz cuadrada con las dis-tancias euclidianas calculadas entre las ciudades. Sin embargo, si esta matriz de distancias estuviera disponible, no sería tan fácil situar a las K ciudades en el mapa de tal manera que se refl ejen, aun de manera aproximada, las distan-cias que se observan en la matriz.

El escalamiento multidimensional resuelve el problema al posicionar a las ciudades en un espacio euclidiano en donde las distancias que se observan son muy cercanas a las distancias originales. Esta idea se replica en diferen-tes campos, como en el análisis de mercados, para “posicionar” productos, marcas o servicios partiendo de matrices de distancias construidas con base en mediciones directas de atributos o partiendo de matrices de similaridades (o disimilaridades) al no conocer los atributos o al no utilizar preguntas que pudieran infl uir en las personas entrevistadas.

Siguiendo el proceso descrito, en lugar de representar las preferencias de productos, ideas, servicios, etcétera, en una sola dimensión (escalas unidi-mensionales), se crean mapas perceptuales. Estos facilitan el estudio de una serie de problemas complejos que se presentan en las Ciencias Sociales y que

Page 40: Análisis Multivariantes. Métodos estadísticos multivariantes para la Investigación. 1a. Ed. C. Véliz

Visite nuestro sitio en http://latinoamerica.cengage.com

Análisis m

ultivariantem

étodos estadísticos multivariantes para la investigación

En la actualidad, muchas de las investigaciones y aplicaciones que se rea-lizan en diferentes campos del conocimiento dan lugar a bases de datos estadísticos que corresponden a muchas variables. La información que es posible obtener de estas bases de datos es más rica cuando se con-sidera la extracción de los patrones que pueden existir conjuntamente entre los valores de las variables. En este sentido, los diversos métodos y modelos estadísticos multivariantes son muy útiles para el investigador.

Los métodos estadísticos multivariantes que se desarrollan en este texto permiten el estudio de las interrelaciones que pueden existir entre los valores de las variables, la explicación de valores de una variable en tér-minos de los valores de otras variables y el análisis de las relaciones estructurales que entre variables no medibles se puedan construir, faci-litando de este modo la presentación y comprensión de la información extraída de los datos.

En el presente material, el lector encontrará las siguientes herramientas:

• Análisis de componentes principales• Análisis factorial exploratorio• Análisis de conglomerados• Escalamiento multidimensional• Modelo de regresión lineal• Análisis discriminante• Modelo de regresión logística• Análisis univariado y multivariado de la varianza• Análisis de ecuaciones estructurales• Análisis de clases latentes

Véliz

C A R L O S V É L I Z C A P U Ñ A Y

métodos estadísticosmultivariantes para la

investigación

Análisismultivariante

ISBN-13: 978-987-3889-32-5ISBN-10: 987-3889-32-9

9 7 8 9 8 7 3 8 8 9 3 2 5