SPSS Orientado a Mercados

Esta obra esta bajo una licencia reconocimiento-no comercial 2.5

Colombia de creativecommons. Para ver una copia de esta

licencia, visite http://creativecommons.org/licenses/by/2.5/co/ o

envié una carta a creative commons, 171second street, suite 30 San

Francisco, California 94105, USA

SPSS ORIENTADO A LA

GESTION DE MERCADOS

Autores:

MARTHA GUEVARA PEÑUELA

HÉCTOR JAVIER CORTÉS SUÁREZ

Director Unidad Informática: Henry Martínez Sarmiento

Tutor Investigación: Maria Alejandra Enríquez

Coordinadores: Maria Alejandra Enríquez

Leydi Diana Rincón Rincón

Coordinador Servicios Web: Daniel Alejandro Ardila

Analista de Infraestructura

y Comunicaciones: Adelaida Amaya

Analista de Sistemas de

Información: Álvaro Enrique Palacios Villamil

Líder de Gestión de

Recurso Humano: Islena del Pilar Gonzalez

UNIVERSIDAD NACIONAL COLOMBIA

FACULTAD DE CIENCIAS ECONÓMICAS

UNIDAD DE INFORMÁTICA Y COMUNICACIONES

BOGOTÁ D.C.

ENERO DE 2006

http://creativecommons.org/licenses/by/2.5/co/

SPSS ORIENTADO A LA

GESTION DE MERCADOS

Director Unidad Informática: Henry Martínez Sarmiento

Tutor Investigación: María Alejandra Enríquez

Auxiliares de Investigación:

Adriana Lucia Castelblanco

Alexis de Jesús Moros

Andrés Ricardo Romero

Brayan Ricardo Rojas

Carlos Hernán Porras

Catherin Cruz Pinzón

Cristian Gerardo Gil

Daniel Alejandro Melo

Diana Patricia García

Diego Fernando Rubio

Edwin Montaño

German David Riveros

Guillermo Alberto Ariza

Juan Felipe Rincón

Leidy Viviana Avilés

Leydy Johana Poveda

Liliana Paola Rincón

Luis Alfonso Nieto

Luz Karina Ramos

Maria Teresa Mayorga

Miller Giovanny Franco

Nubia Yolima Cucarian

Rafael Leonardo Saavedra

Sandra Liliana Barrios

Sandra Milena Cárdenas

Sandra Mónica Bautista

Sonia Janeth Ramírez

Yaneth Adriana Cañón

Este trabajo es resultado del esfuerzo de todo el

equipo perteneciente a la Unidad de Informática.

Se prohíbe la reproducción parcial o total de este

documento, por cualquier tipo de método fotomecánico

y/o electrónico, sin previa autorización de la

Universidad Nacional de Colombia.




BOGOTÁ D.C.

ENERO 2006

SPSS Aplicado a la Gestión de Mercados


FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES

1

Tabla De Contenido

Tabla De Contenido........................................................................................................................ 1

Tabla De Ilustraciones Y Tablas ................................................................................................... 5

Resumen ............................................................................................................................................ 9

Abstract ............................................................................................................................................. 9

Introducción .................................................................................................................................... 10

Objetivos ......................................................................................................................................... 11

OBJETIVO GENERAL .............................................................................................................. 11

OBJETIVOS ESPECIFICOS ...................................................................................................... 11

1. Marco Teórico ...................................................................................................................... 12

1.1. SPSS ................................................................................................................................. 12

1.2. Segmentación De Mercados ................................................................................... 13

1.2.1. Proceso de Segmentación de mercados................................................... 14

1.2.2. Tipos de Segmentación de mercados ....................................................... 14

1.2.3. Segmentación de mercados usando SPSS ................................................ 15

2. Árboles De Clasificación .................................................................................................. 16

2.1. Pasos ................................................................................................................................... 18

3. Análisis Cluster O Análisis De Conglomerados Para La Segmentación De

Mercados ......................................................................................................................................... 19

3.1. Pasos para el análisis de Conglomerados ............................................................... 19

3.1.1. Formulación del Problema ................................................................................ 20

3.1.2. Selección de una Medida de Similitud ............................................................ 20

3.1.3. Estandarización de Datos ................................................................................. 20

3.1.4. Supuestos del Análisis ........................................................................................ 20




2

3.1.5. Selección del Procedimiento de Agrupación ................................................ 20

3.1.6. Decisión del Número de Conglomerados .................................................... 21

3.1.7. Interpretación y Elaboración del Perfil de los Clusters ............................. 21

3.1.8. Validación de Conglomerados Obtenidos .................................................... 22

4. Análisis De Conglomerados En Dos Fases ..................................................................... 23

4.1. Pasos para el análisis de conglomerados en dos fases ........................................ 23

4.2. Medida de distancia ..................................................................................................... 24

4.3. Número de conglomerados: ..................................................................................... 24

4.4. Recuento de variables continuas .............................................................................. 25

4.5. Criterio de conglomeración: ..................................................................................... 25

4.6. Opciones ....................................................................................................................... 25

4.7. Asignación de memoria: ............................................................................................. 26

4.8. Tipificación de variables: ............................................................................................ 26

4.9. Opciones avanzadas .................................................................................................... 26

4.10. Gráficos: ......................................................................................................................... 26

4.11. Resultados ..................................................................................................................... 27

4.12. Ejemplo .............................................................................................................................. 32

4.11.1. Conglomerados en dos fases ........................................................................... 33

4.11.2. Perfiles de los conglomerados ......................................................................... 35

4.11.3. Frecuencias........................................................................................................... 36

4.11.4. Importancia de los atributos ............................................................................ 36

4.11.5. Porcentaje Intra-conglomerado ...................................................................... 36

4.11.6. Variación Intra-conglomerado ......................................................................... 37

4.11.7. Importancia según agrupación ......................................................................... 40




3

5. Análisis De Conglomerados Jerárquico ........................................................................... 44

5.1. Pasos para el análisis de conglomerados jerárquico ............................................ 45

5.2. Dendrograma:............................................................................................................... 45

5.3. Clases de métodos de Conglomeración ................................................................ 45

5.4. Medida ............................................................................................................................ 47

5.4.1. Medida de intervalo............................................................................................ 47

5.4.2. Medida de Frecuencias: ........................................................................................ 48

5.4.3. Medida Binaria: .................................................................................................... 48

5.5. Ejemplo: ......................................................................................................................... 48

5.5.1. Gráficos................................................................................................................. 49

5.5.2. Método de conglomeración ............................................................................. 50

5.5.3. Conglomerados jerárquicos ............................................................................. 51

5.5.4. Vinculación de centroides................................................................................. 51

5.5.5. Dendrograma ...................................................................................................... 53

6. Conglomerados De K Medias ............................................................................................ 55

6.1. Preparando el análisis ................................................................................................. 56

6.2. Resultados del análisis ................................................................................................ 59

7. Análisis Factorial Para La Reducción De Datos ..................................................... 65

7.1. Que Buscar Cuando Se Realiza Un Analisis Factorial ......................................... 65

7.2. Principios ....................................................................................................................... 66

7.3. Análisis factorial en SPSS ............................................................................................ 66

7.4. Etapas en un análisis factorial. ................................................................................... 67

7.4.1. Extracción de factores. ...................................................................................... 68

7.4.2. Rotación De Factores ........................................................................................ 70




4

7.4.3. Descriptivos ......................................................................................................... 71

8. Conclusiones ......................................................................................................................... 81

9. Bibliografia .............................................................................................................................. 82




5

Tabla De Ilustraciones Y Tablas

Ilustración 1. Ejemplo de árbol de Clasificación generado por SPSS 16

Ilustración 2. Conglomerados en dos Fases 24

Ilustración 3. Conglomerados en dos fases: Opciones 25

Ilustración 4. Conglomerados en dos fases: Gráficos 27

Ilustración 5. Conglomerados en dos fases: Resultados 27

Ilustración 6. Variación Intra- Conglomerado 30

Ilustración 7. Ajuste de Bonferroni aplicado 31

Ilustración 8. Ajuste de Bonferroni Aplicado2 32

Ilustración 9. Análisis de Conglomerados en dos Fases 33

Ilustración 10. Conglomerados en dos fases: Gráficos 33

Ilustración 11. Tamaño de los Conglomerados 36

Ilustración 12. Porcentaje dentro del Conglomerado de sexo 37

Ilustración 13. Variación Intra- Conglomerado 1 38

Ilustración 14.Variación Intra-Conglomerado 2 39

Ilustración 15. Variación Intra-Conglomerado 3 39

Ilustración 16.Variación Intra-Conglomerado 4 40

Ilustración 17. Ajuste de Bonferroni Aplicado-Sexo 41

Ilustración 18. Ajuste de Bonferroni Aplicado- Salario Actual 41

Ilustración 19. Ajuste de Bonferroni Aplicado: Salario Inicial 42

Ilustración 20. Ajuste de Bonferroni aplicado: Meses desde el contrato 42

Ilustración 21. AJuste de Bonferroni: Experiencia Previa en meses 43

Ilustración 22. Métodos de enlace para el Conglomerado 46




6

Ilustración 23. Métodos de Agrupación por Aglomeración 47

Ilustración 24. Menú: Análisis de Conglomerados Jerárquico 49

Ilustración 25.Análisis de Conglomerados Jerárquicos: Estadísticos 49

Ilustración 26. Análisis de Conglomerados Jerárquicos: Gráficos 50

Ilustración 27. Métodos de Conglomeración 50

Ilustración 28. Diagrama de témpanos Vertical 53

Ilustración 29. Dendograma 54

Ilustración 30. Diagrama de dispersión primer grupo 55

Ilustración 31. Diagrama de dispersión segundo grupo 56

Ilustración 32. Ruta conglomerados K medias 57

Ilustración 33. Cuadro de dialogo K medias 57

Ilustración 34. Iterar 58

Ilustración 35. Guardar 58

Ilustración 36. Opciones 59

Ilustración 37. Grafico de dispersión conglomerados finales primer grupo 63

Ilustración 38. Grafico de dispersión conglomerados finales segundo grupo 64

Ilustración 39. Análisis factorial 67

Ilustración 40. matriz de covarianza 67

Ilustración 41. Cuadro de dialogo análisis factorial 69

Ilustración 42. Cuadro de Dialogo Análisis factorial- Extracción 69

Ilustración 43. Cuadro de Dialogo Análisis factorial- Rotación. 71

Ilustración 44. Cuadro de Dialogo Análisis factorial- Descriptivos. 72

Ilustración 45. Detalle estadísticos. 74

Ilustración 46. Detalle matriz reproducida 76




7

Ilustración 47. Detalle varianza total 77

Ilustración 48. Grafico de sedimentación. 78

Ilustración 49. Analisis factorial- puntuaciones factoriales 80

Tabla 1. Agrupación Automática ................................................................................................ 28

Tabla 2. Distribución de los Conglomerados .......................................................................... 29

Tabla 3. Perfiles de los Conglomerados ................................................................................... 29

Tabla 4. Frecuencias de Conglomerados .................................................................................. 29

Tabla 5. Distribución de Conglomerados ................................................................................ 34

Tabla 6. Perfiles de los Conglomerados ................................................................................... 35

Tabla 7. Frecuencias de los Conglomerados ........................................................................... 36

Tabla 8. Resumen del procesamiento de los casos ................................................................ 50

Tabla 9. Matriz de Distancias ...................................................................................................... 51

Tabla 10. Historial de Conglomeración .................................................................................... 52

Tabla 11. Diagrama de témpanos Vertical ............................................................................... 52

Tabla 12. Cuadro conglomerados iniciales primer grupo ..................................................... 59

Tabla 13. Cuadro conglomerados iniciales segundo grupo .................................................. 59

Tabla 14. Cuadro historial de iteraciones primer grupo ...................................................... 60

Tabla 15. Cuadro historial de iteraciones segundo grupo.................................................... 60

Tabla 16. Conglomerados finales primer grupo...................................................................... 61

Tabla 17. Conglomerados finales segundo grupo ................................................................... 61

Tabla 18. ANOVA ......................................................................................................................... 61

Tabla 19. Casos por conglomerado primer grupo ................................................................. 62

Tabla 20. Casos por conglomerado segundo grupo .............................................................. 62




8

Tabla 21. Estadísticos descriptivos ............................................................................................. 72

Tabla 22. Comunalidades iniciales .............................................................................................. 73

Tabla 23. Matriz reproducida ...................................................................................................... 75

Tabla 24.Prueba KMO .................................................................................................................. 77

Tabla 25. Varianza total explicada .............................................................................................. 77

Tabla 26. Matriz de componentes. ............................................................................................. 79

Tabla 27. Matriz de componentes rotados .............................................................................. 80




9

Resumen

Esta investigación dedicada a varias herramientas útiles que incluye el programa

estadístico SPSS para la realización de una investigación de mercados, en este caso para

la realización de la segmentación de mercados.

El documento empieza con un pequeño marco teórico dedicado a la segmentación y a

explicar brevemente el programa, después se empieza a explicar concisamente un

modulo llamado Árboles de clasificación, para luego entrar de lleno al estudio por

conglomerados mediante una introducción a la forma en que se realizan generalmente,

y se describen tres formas para realizarlos, análisis de dos fases, el conglomerado

jerárquico y el sistema K medias. Para finalizar se explora el sistema de reducción de

datos mediante análisis factorial.

Abstract

This investigation is dedicated to several useful tools of the statistical program SPSS for

the accomplishment of an investigation of markets, in this case for the accomplishment

of the segmentation of markets includes.

The document begins with a little theoretical frame dedicated to the segmentation and

to explain the program briefly, later begins to explain concisely the modulate call

Answer Tree, soon to enter completely the cluster analysis by means of an

introduction the form in which they are made generally, and three forms are described to make them, analysis of two phases, the hierarchic cluster and system K means. In

order to finalize the system of reduction of data by factorial analysis is explored.




10

Introducción

SPSS es una potente herramienta para el análisis estadístico, la cual posee aplicaciones

para gran variedad de ciencias y áreas del conocimiento. Teniendo en cuenta los

módulos que esta herramienta presenta para el análisis y estudios de mercados, es

necesario implementar una línea de investigación dedicada al estudio de las ventajas y

aprovechamiento de los recursos ofrecidos.




11

Objetivos

OBJETIVO GENERAL

Aprovechar en mayor medida la licencia adquirida de SPSS por la Universidad Nacional

de Colombia a través del estudio de las herramientas de mercados que ofrece la

aplicación adquirida y brindar soporte a la carrera de administración para que sea de

amplia utilidad a la comunidad estudiantil.

OBJETIVOS ESPECIFICOS

Estudiar las diferentes funciones, módulos o herramientas específicas o aplicables al estudio de mercados que ofrece SPSS.

Generar un manual completo referente a las herramientas para el análisis y

gestión de mercados con la ayuda de SPSS.

Crear un programa detallado para la gestión de un curso libre o capacitación para la Facultad de Ciencias Económicas.




12

1. Marco Teórico

A nivel mundial la tendencia clave que afectará a la estrategia de mercadotecnia en el

siglo XXI será el comercio global; porque no hay duda alguna de que el mundo se está

convirtiendo en una economía global y en un mercado completamente abierto en

todos los países; en los cuáles la competencia ya no solo se centra con las empresas

productoras de la ciudad o del país sino con las empresas que están dedicadas a

satisfacer las mismas necesidades a los clientes potenciales.

Eso significa que la situación se va a volver más difícil. Cuando la competencia se

desarrolle globalmente, todo el mundo intentará arrebatarle el negocio a todo el

mundo. El siglo XXI hará que el siglo XX parezca una reunión para tomar el té. Se va a ver una serie de cambios masivos en respuesta a esos desarrollos globales. Aunque lo

que debiera suceder es exactamente lo contrario. Conceptualmente, cuanto más

grande es el mercado, más especializados debemos ser para poder tener éxito.1

Es aquí donde aparece la estrategia de mercados como una herramienta para que la

empresa pueda definir más claramente su segmento de mercado y pueda dirigir con

más eficiencia y eficacia sus esfuerzos para satisfacer a sus clientes de la mejor manera.

Es clave que las empresas logren profundizar en el conocimiento de su mercado para

que de esta forma pueda adaptar su oferta y su estrategia de mercado a los

requerimientos de éste. Es en este punto donde la segmentación entra o tomar parte

de todo proceso de planeación y toma como un factor primordial el reconocimiento de que el mercado es heterogéneo, y pretende dividirlo en grupos o segmentos

homogéneos, que pueden ser elegidos como un mercado objetivo de la empresa. Así

pues, la segmentación implica un proceso de diferenciación de las necesidades dentro

de un mercado.2

1.1. SPSS

El programa SPSS (Statistical Package for the Social Sciences) es un conjunto de

paquetes y herramientas de tratamiento de datos y análisis estadístico. Al igual, que el

resto de aplicaciones que utilizan como soporte el sistema operativo Windows y

1 Tomado de: http://www.coparmex.org.mx/contenidos/publicaciones/Entorno/2002/mar02/e.htm

2 REYES, Rafael. La Estrategia de Mercados en el Siglo XXI, Revista entorno No.163, Confederación

Patronal de la República Mexicana, México, Marzo 2002.




13

funcionan mediante menús desplegables y cuadros de dialogo que permiten hacer la

mayor parte del trabajo simplemente utilizando el Mouse.

SPSS es un paquete de software usado para conducir los análisis estadísticos, manipular

datos, generar tablas y gráficos que resumen datos.

Los análisis estadísticos se extienden desde estadística descriptiva básica, tales como

promedios y frecuencias, a la estadística deductiva avanzada, tales como modelos de la

regresión, análisis de variación y análisis factorial.

1.2. Segmentación De Mercados

La segmentación de mercado es un proceso que consiste en dividir el mercado total de

un bien o servicio en varios grupos más pequeños e internamente homogéneos. La

esencia de la segmentación es conocer realmente a los consumidores. Uno de los

elementos decisivos del éxito de una empresa es su capacidad de segmentar

adecuadamente su mercado.3

La segmentación es también un esfuerzo por mejorar la precisión del mercadeo de una

empresa. Es un proceso de incorporación: agrupar en un segmento de mercado a personas con necesidades semejantes.

El comportamiento del consumidor suele ser demasiado complejo como para

explicarlo con una o dos características, se deben tomar en cuenta varias dimensiones,

partiendo de las necesidades de los consumidores.

Las principales ayudas de la segmentación de mercados son:4

Permitir la identificación de las necesidades de los clientes específicamente dentro

de un sub-mercado y así mismo lograr un diseño más eficaz de la mezcla de

mercado para satisfacerlas de la mejor manera.

Al tener claramente definido el segmento de mercado al que se quiere dirigir la

oferta del producto se pueden establecer de una mejor manera el precio, la

selección de los canales de distribución y además los medios publicitarios que serán

usados.

Cuando una empresa pequeña esta pensando en penetrar un mercado puede lograr

una mejor posición si logra especializarse mas en la satisfacción de una necesidad

más especifica.

3 STANTON, ET AL. “Fundamentos de Marketing”, McGrawHIl, México, 1999.

4 KOTLER, Phillip. “Dirección de Marketing. La edición del milenio” PrenticeHall, México., 2001.




14

Al especificar el segmento se reducen el número de potenciales competidores.

La segmentación permite la especialización lo que puede generar oportunidades de

crecimiento y al mismo tiempo la creación de ventajas competitivas.

1.2.1. Proceso de Segmentación de mercados

Para la segmentación se deben realizar los siguientes pasos:

ESTUDIO:

Se examina el mercado para determinar las necesidades específicas satisfechas por las

ofertas actuales, las que no lo son y las que podrían ser reconocidas. Se llevan acabo

una investigación exploratoria y se organizan sesiones de grupos para entender mejor

las motivaciones, actitudes y conductas de los consumidores. Se reúnen datos sobre

los atributos y la importancia que se les da, conciencia de marca y calificaciones de

marcas, patrones de uso y actitudes hacia la categoría de los productos; así como,

datos demográficos, psicográficos, etc.

ANÁLISIS:

Se interpretan los datos para eliminar las variables y agrupar o construir el segmento

con los consumidores que comparten un requerimiento en particular y lo que los

distingue de los demás segmentos del mercado con necesidades diferentes.

PREPARACIÓN DE PERFILES:

Se prepara un perfil de cada grupo en términos de actitudes distintivas, conductas,

demografía, etc. Se nombra a cada segmento con base a su característica dominante. La

segmentación debe repetirse periódicamente porque los segmentos cambian. También

se investiga la jerarquía de atributos que los consumidores consideran al escoger una

marca, este proceso se denomina partición de mercados. Esto puede revelar

segmentos nuevos de mercado.5

1.2.2. Tipos de Segmentación de mercados6

Segmentación Geográfica: subdivisión de mercados con base en su ubicación. Posee

características mensurables y accesibles.

Segmentación Demográfica: se utiliza con mucha frecuencia y está muy relacionada

con la demanda y es relativamente fácil de medir. Entre las características

demográficas más conocidas están: la edad, el género, el ingreso y la escolaridad.

Segmentación Psicográfica: Consiste en examinar atributos relacionados con

pensamientos, sentimientos y conductas de una persona. Utilizando dimensiones de

5 Tomado de: http://www.monografias.com/trabajos13/segmenty/segmenty.shtml

6 STANTON, ob.cit.




15

personalidad, características del estilo de vida y valores.

Segmentación por comportamiento: se refiere al comportamiento relacionado con

el producto, utiliza variables como los beneficios deseados de un producto y la tasa

a la que el consumidor utiliza el producto.

1.2.3. Segmentación de mercados usando SPSS7

Para la realización de investigación de mercados se emplean las diferentes técnicas

estadísticas que proporciona SPSS, como el análisis cluster, análisis factorial,

segmentación de mercados con programas como CHAID y AnswerTree, análisis

discriminante, el análisis conjunto (CONJOINT), modelado de ecuaciones estructurales con un programa denominado AMOS, y el diseño de redes neuronales

con Neural Connection.

7 Market Segmentation Using SPSS®, SPSS Inc. Estados Unidos De America, 2003.




16

2. Árboles De Clasificación

Los árboles de clasificación son un Nuevo modulo que ofrece SPSS el cual permite

identificar grupos, descubrir relaciones entre los grupos y pronosticar eventos futuros.

Los árboles de clasificación y decisión se pueden usar para la segmentación,

estratificación, predicción, reducción de datos, examinar variables identificar

interacciones, fundir categorías y categorizar variables.

Los árboles pueden se usados para la creación de bases de datos para tomar

decisiones en mercadeos ya que se puede elegir alguna variable respuesta para la

segmentación, se pueden crear perfiles mediante cualquier atributo de las variables.

Además el apoyo a la investigación de mercados debido a que permite al realizar encuestas de satisfacción la creación de variables en escala que midan dicha

satisfacción, asimismo la creación de perfiles de niveles de satisfacción de acuerdo a las

respuestas de distintas preguntas. Se pueden crear grupos de riesgos basados en la

información que se posea de los clientes o trabajadores. Igualmente permite tener más

seguridad en el establecimiento de objetivos ya que permite realizar pronósticos.

Ilustración 1. Ejemplo de árbol de Clasificación generado por SPSS

El procedimiento de Árbol de Clasificación crea a un modelo de la clasificación tipo

árbol. Clasifica los casos en los grupos o predice valores de una pendiente (objetivo) la

variable basada en los valores de la variable independiente (predictora). El

procedimiento proporciona las herramientas para un análisis exploratorio y para la

confirmación de la clasificación.

El procedimiento puede usarse para:

SEGMENTACIÓN: Identifica personas que probablemente pertenecen a un grupo en

particular.




17

ESTRATIFICACIÓN: Asigna varias categorías a los casos tales como alto, medio y bajo

riesgo.

PREDICCIÓN: Crea las reglas y las usa para predecir los eventos futuros, como la

probabilidad que alguien solicite un préstamo o el valor de reventa potencial de un

vehículo o casa.

REDUCCION DE DATOS Y PROYECCION DE VARIABLES: Selecciona un

subconjunto útil de predictoras de un juego grande de variables para lograr construir

un modelo paramétrico formal.

IDENTIFICACIÓN DE LA INTERACCIÓN: Identifica relaciones que sólo pertenecen

subgrupos específicos y los especifica en un modelo paramétrico formal.

A diferencia de otros métodos de clasificación como el Análisis Cluster, AnswerTree

permite realizar clasificación de clientes en función de una variable criterio, así como

realizar pronósticos con probabilidades conocidas, por tal motivo, se considera una

herramienta con gran poder predictivo.

Ofrece la posibilidad de usar cuatro potentes algoritmos de segmentación y una

interfase intuitiva y fácil de manejar. Los resultados son sencillos de interpretar y

entender dada su interfaz grafica o presentación de los resultados en forma de árbol.

AnswerTree lee datos en distintos formatos a través de conexiones ODBC Standard y

puede ser ejecutado como un programa independiente o integrado dentro de SPSS

Base8.

Crea modelos ágilmente gracias a su asistente de árbol.

Además se pueden escoger entre tres distintos algoritmos predeterminado de

clasificación:

CHAID: Es un algoritmo estadístico multidireccional que explora datos rápida y

eficientemente, también construye segmentos y perfiles en función de la variable

respuesta establecida.

CHAID exhaustivo: examina todas las particiones posibles de una variable predoctora.

Árboles de clasificación y regresión (CRT): Produce subconjuntos de datos

homogéneos y precisos.

QUEST: Selecciona variables de manera insesgada y construye árboles binarios

precisos de manera rápida y eficiente.

8 http://www.spss.com/la/apps/data-mining2.htm




18

2.1. Pasos

¿Qué algoritmo seleccionar?

¿Cuál será la variable dependiente, target u objetivo?

Seleccionar las variables independientes. Por ejemplo, edad, sexo, salario, categoría

laboral, etc. que nos ayudarán a crear los perfiles.

Después de lo anterior, AnswerTree generará el árbol respectivo; el cual puede ser

aplicado a nuestra base de datos con el fin de generar listados de clientes que

responder a determinadas características. Por ejemplo. Clientes dispuestos a adquirir

determinado producto, satisfacción de los clientes, entre otras.




19

3. Análisis Cluster O Análisis De Conglomerados Para La Segmentación De Mercados

El análisis de Conglomerados o análisis Cluster o es una técnica estadística

exploratoria, multivariable, para el análisis de datos, diseñada para indicar las

agrupaciones naturales dentro de un grupo de datos y como tal, realizar segmentación

de mercados. Cluster sugiere varias maneras potencialmente útiles de agrupar a

clientes. Se conoce también como análisis de clasificación o taxonomía numérica.

Su origen se halla en la Biología y la botánica, por la necesidad de agrupar las especies

en familias lo más homogéneamente posible

El análisis cluster se ha desarrollado en diversos datos de marketing, como posición

geográfica, comportamiento del consumidor, rangos de productos, información de uso, necesidades o ventajas. En este sentido, éste análisis contribuye a la identificación de

grupos de consumidores con comportamientos semejantes, identificación de hábitos

de compra, identificación de grupos de productos competitivos, oportunidades de

mercado.

Por ejemplo, el análisis cluster puede ser empleado para identificar ciudades o

localidades para lanzar un nuevo producto. Se aplica el análisis a todo el mercado, de

allí se determinan grupos que reúnen determinadas características y se analiza cual de

ellos es el que más se acomoda al perfil de nuestro producto.

Para comprender de una forma sencilla, el análisis cluster se basa en el concepto

simple de repartir las observaciones de los datos en los grupos homogéneos basados en la proximidad o relación del uno al otro. Se pueden encontrar los siguientes tipos

análisis cluster: Conglomerados en dos fases, análisis de k medias y análisis de

conglomerados jerárquicos.

Entonces, surge una pregunta, ¿En que difiere el análisis de conglomerados del análisis

discriminante?, la respuesta es que el análisis de conglomerados como el discriminante

se basa en la clasificación. No obstante, el análisis discriminante requiere del

conocimiento previo de la participación en el grupo de cada caso analizado, con el fin

de desarrollar la regla de clasificación. Por el contrario, en el análisis de conglomerados

no hay información preliminar de la participación de los casos en los grupos. Esta

participación se define cuando se realiza el análisis.

Se debe decidir si se emplea un método de agrupación o un método de agregación.

3.1. Pasos para el análisis de Conglomerados

Para realizar análisis de conglomerados se debe tener en cuenta los siguientes pasos:




20

3.1.1. Formulación del Problema

Se debe tener claro en que variables se va a basar la agrupación. Si se incluyen

variables irrelevantes se puede distorsionar la solución de agrupación y sus posteriores

análisis. Un criterio para seleccionar las variables es la investigación previa y tener en

cuenta las hipótesis que se prueban.

3.1.2. Selección de una Medida de Similitud

Como el objeto del análisis de Conglomerados es agrupar dependiendo de la similitud,

se necesitan medidas para evaluar las diferencias y similitudes entre los objetos. La

medida de Similaridad permite realizar comparación entre objetos, donde los objetos

con distancias reducidas tienen mayor parecido que aquellos que tienen distancias

mayores, por lo tanto se agrupan dentro del mismo cluster.

Para medir la similitud entre los objetos de un análisis cluster existen tres métodos.

Medidas de Correlación

Medidas de Distancia Medidas de Asociación

Las medidas de correlación y las medidas de distancia requieren datos métricos, y las

medidas de asociación requieren datos no métricos.

3.1.3. Estandarización de Datos

Cuando se ha seleccionado la medida para cuantificar la similaridad entre objetos, se

debe realizar una estandarización de los datos, ya que las variables con mayor

desviación típica tienen un mayor impacto en el resultado final de similaridad. Por

ejemplo, si se quiere hacer un análisis del consumidor y conocer que variables afectan de una manera significativa su decisión de compra y se tienen las variables edad,

ingresos y gusto por el producto. Se puede notar que cada variable tiene una escala

diferente, años, pesos, escala de 1 a 10; si se realizara un gráfico de distancias la

variable más representativa seria sin duda los ingresos. En este orden de ideas, es

necesario ser consciente del peso implícito de las varibles que hacen parte del estudio

y realizar una estandarización de éstas.

3.1.4. Supuestos del Análisis

Se debe tener en cuenta la representividad de la muestra y multicolinealidad.

3.1.5. Selección del Procedimiento de Agrupación




21

Se encuentran dos tipos de procedimientos los jerárquicos y los no jerárquicos.

El análisis de conglomerado jerárquico se encarga de desarrollar una jerarquía o

estructura en forma de árbol, tal es el caso de los dendogramas que arroja el análisis

de conglomerado jerárquico en spss. Los métodos jerárquicos pueden ser por

Aglomeración o por División. Para el método de conglomerados no jerárquico el caso

de agrupación de k medias es el más representativo. Más adelante se explicará con más

detalle.

3.1.6. Decisión del Número de Conglomerados

Esta decisión es un poco subjetiva. Sin embargo, para el caso del análisis cluster

jerárquico, las distancias entre los clusters pueden ser una guía útil o calcular varias

soluciones de aglomeración para luego decidir cuál es la mejor.

En el caso del análisis cluster no jerárquico, se puede realizar un gráfico para comparar

el número de grupos con la relación entre la varianza total de los grupos y la varianza

entre los grupos. En la parte del gráfico que presente una curva se estaría indicando el

número idóneo de grupos.

Si aparece un grupo de un solo miembro, se debe estudiar su representatividad.

3.1.7. Interpretación y Elaboración del Perfil de los Clusters

En este paso se pretende examinar la variación de los clusters, donde se observan las

características de cada uno y se analizan las variables que intervienen en su

conformación.




22

El análisis de perfiles se encarga de describir las características propias de cada cluster

y no describe lo que determina la conformación de cada cluster.

3.1.8. Validación de Conglomerados Obtenidos

Este paso hace referencia al hecho de asegurarse que los cluster resultantes sean

representativos de la población, sean generalizables a otros objetos y estables con el

transcurso del tiempo.

Para realizar dicha validación se pueden realizar los siguientes pasos:

Realizar el análisis con los mismos datos y utilizar distintas medidas de distancia y comparar los resultados

Emplear distintos métodos de conglomerados y comparar resultados

Realizar submuestras, hacer análisis por separado y comparar resultados y centroides arrojados.




23

4. Análisis De Conglomerados En Dos Fases

Este procedimiento es una herramienta exploratoria que permite descubrir las

agrupaciones o conglomerados de un conjunto de datos. Es útil cuando se tienen

grandes archivos de datos.

Realiza Tratamiento o conglomerados de variables categóricas y continuas, selección

automática del número de conglomerados, construye un árbol de características de

conglomerados (CF) que resume los registros.

Este análisis es robusto, ya que tiene en cuenta la independencia y distribuciones de

probabilidad. Emplea una medida de distancia de probabilidad que asume que las

variables en el modelo de conglomerado son independientes. Además, se asume que

cada variable continua tiene una distribución normal y cada variable categórica tiene

distribución multinomial.

Para determinar el número más conveniente de conglomerados se emplea el criterio

Bayesiano de Schwarz's (BIC) o el criterio de información Akaike.

4.1. Pasos para el análisis de conglomerados en dos fases

Se llega al análisis de conglomerados en dos fases mediante el Menú analizar, Clasificar,

Conglomerado en dos fases.




24

Ilustración 2. Conglomerados en dos Fases

Como se puede notar hay dos cuadros para clasificar las variables categóricas y

continuas a analizar. En este caso se colocó como variable categórica el sector y como

variable continua los ingresos y la identificación del cliente.

4.2. Medida de distancia

Determina cómo se calcula la similaridad entre dos conglomerados.

Medida de Log-verosimilitud: Realiza una distribución de probabilidad entre las

variables.

Variables continuas => Distribución normal

Variables categóricas => Multinomiales

Medida Euclídea: Distancia según una "línea recta" entre dos conglomerados. Sólo se

puede utilizar cuando todas las variables son continuas.

4.3. Número de conglomerados:

Donde se especifica cómo se va a determinar el número de conglomerados

Determinar automáticamente: Como su nombre lo indica, determina automáticamente el

número "óptimo". Adicionalmente, se puede introducir un entero positivo para

especificar el número máximo de conglomerados.




25

Especificar número fijo: Permite establecer el número de conglomerados de la solución.

4.4. Recuento de variables continuas

Realiza un resumen del cuadro de diálogo de opciones donde se especifica las variables

para tipificar y asumidas como tipificadas.

4.5. Criterio de conglomeración:

Existen dos opciones: El criterio de información bayesiano (BIC) y el criterio de

información de Akaike (AIC).

4.6. Opciones

En la parte de opciones se desprende el siguiente cuadro de diálogo, donde se le puede

dar un Tratamiento a los valores atípicos durante la conglomeración.

Ilustración 3. Conglomerados en dos fases: Opciones

Si se selecciona la opción de realizar el tratamiento del ruido y el árbol CF se llena o

no puede aceptar ningún caso más en un nodo hoja y no hay ningún nodo hoja que se

pueda dividir se hará volver a desarrollar el árbol y los valores atípicos se colocan allí,

de lo contrario se descartan dichos valores.




26

4.7. Asignación de memoria:

Permite especificar la cantidad máxima de memoria en megabytes (MB) que puede

utilizar el algoritmo de conglomeración. Si se supera este máximo, utilizará el disco

para almacenar la información que no se pueda colocar en la memoria.

4.8. Tipificación de variables:

El algoritmo de conglomeración trabaja con variables continuas tipificadas. Las

variables continuas que no estén tipificadas deben colocarse en el espacio de variables

"Para tipificar" y las variables que estén tipificadas se colocan como variables “Asumidas

como tipificadas”.

4.9. Opciones avanzadas

Se aplican al árbol de características de conglomerados (CF)

Umbral del cambio en distancia inicial: Se emplea para incrementar la

distancia inicial del árbol de conglomerados.

Nº máximo de ramas (por nodo hoja): Número máximo de nodos que

puede tener una hoja.

Profundidad Máxima del árbol (Niveles): Número máximo de niveles que

puede tener un árbol. Máximo número posible de nodos: Indica el número máximo de nodos del

árbol CF que genera el procedimiento Cada nodo requiere como mínimo 16

Bytes.

Actualización del modelo de conglomerados: Esta opción permite

importar y actualizar modelos de conglomerados que se han generado en

análisis anteriores.

4.10. Gráficos:

Cuando se da click sobre la opción gráfico aparece el siguiente cuadro de diálogo:




27

Ilustración 4. Conglomerados en dos fases: Gráficos

En este caso se seleccionó la opción de grafico de prelación de importancia de las

variables y un nivel de confianza de 95%.

4.11. Resultados

Ilustración 5. Conglomerados en dos fases: Resultados

En el grupo de estadísticas se seleccionó criterio de información AIC o BIC.

Luego de determinar las variables, establecer las opciones, gráficos y resultados se da

click en aceptar y me proporciona los resultados.




28

En nuestro caso arrojo la siguiente tabla de agrupación automática:

Número de conglomerados

Criterio bayesiano de Schwarz (BIC)

Cambio en BIC(a)

Razón de cambios en

BIC(b)

Razón de medidas de distancia(c)

1 5373,494

2 3495,637 -1877,857 1,000 1,426

3 2191,641 -1303,996 ,694 5,795

4 2002,874 -188,767 ,101 1,128

5 1840,444 -162,430 ,086 1,115

6 1699,361 -141,083 ,075 1,360

7 1607,235 -92,126 ,049 1,217

8 1539,318 -67,917 ,036 1,025

9 1474,111 -65,207 ,035 1,423

10 1441,338 -32,773 ,017 1,000

11 1408,573 -32,765 ,017 1,203

12 1388,714 -19,859 ,011 1,013

13 1369,690 -19,024 ,010 1,352

14 1367,035 -2,656 ,001 1,103

15 1368,712 1,678 -,001 1,078

Tabla 1. Agrupación Automática

a Los cambios proceden del número anterior de conglomerados de la tabla.

b Las razones de los cambios están relacionadas con el cambio para la solución de los dos conglomerados.

c Las razones de las medidas de la distancia se basan en el número actual de conglomerados frente al número de conglomerados anterior.

Esta tabla resume el proceso por el cual se seleccionaron los conglomerados. El

criterio de conglomeración (En este caso Criterio bayesiano de Schwarz (BIC)) es

calculado para cada número potencial de conglomerados.

Los valores más pequeños del Criterio bayesiano de Schwarz (BIC) indican la mejor

solución de conglomerado. Sin embargo, se presentan problemas de conglomeración

ya que el BIC disminuye cuando se incrementan los conglomerados.

La siguiente tabla muestra la frecuencia de cada conglomerado, de los 100 datos fueron

excluidos 12 del análisis por ser valores perdidos. Los 1488 casos restantes fueron

distribuidos así: 476 para el primer conglomerado, 516 para el segundo conglomerado

y 496 para el tercer conglomerado.

N % de

combinados % del total

Conglomerado 1 476 32,0% 31,7%

2 516 34,7% 34,4%

3 496 33,3% 33,1%

Combinados 1488 100,0% 99,2%




29

Tabla 2. Distribución de los Conglomerados

Beneficios Número ID del cliente

Media Desv. típica Media Desv. típica

Conglomerado 1 $2,545.64 $1,032.650 786,21 457,140

2 $2,481.21 $977.318 813,82 461,348

3 $2,525.49 $975.901 804,24 472,507

Combinados $2,516.58 $994.586 801,79 463,595

Tabla 3. Perfiles de los Conglomerados

La tabla de perfiles de conglomerados presenta la media y desviación estándar de cada

conglomerado. El sector en el conglomerado 1 tiene unos beneficios o ingresos

medios de $2,545.64.

Sector

Tabla 4. Frecuencias de Conglomerados

La tabla de frecuencia de conglomerados por Sector presenta con mayor claridad las

propiedades de los conglomerados. El conglomerado tres comprende completamente

el Sector de Administración, el conglomerado 2 esta compuesto por el Sector Comercio.

Variación Intra-Conglomerado

El siguiente grafico resume el comportamiento de las frecuencias por conglomerado y

Casos excluidos 12 ,8%

Total 1500 100,0%

Administración Comercio Universidad

Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje

Conglomerado 1 0 ,0% 0 ,0% 476 100,0%

2 0 ,0% 516 100,0% 0 ,0%

3 496 100,0% 0 ,0% 0 ,0%

Combinados 496 100,0% 516 100,0% 476 100,0%




30

la media para cada uno de ellos.

496516476N =

Intervalos de confianza al 95% simultáneos para las medias

La línea de referencia es la media global = 2516,58

Conglomerado

321

Be

ne

ficio

s2700

2600

2500

2400

2300

Ilustración 6. Variación Intra- Conglomerado

Importancia Según Variable Continua

Conglomerado 1

El siguiente grafico representa la importancia según variable continua. Las variables se

ubican en el eje Y en orden descendente de acuerdo a la importancia. La línea vertical

punteada indica los valores críticos para determinar la significancia de cada variable.

Para considerar una variable significativa la t de student debe exceder la línea punteada

en dirección positiva o negativa.

Una t negativa indica que generalmente la variable toma valores más pequeños que sus

valores medios dentro del conglomerado, mientras que una t positiva indica que la

variable toma valores más grandes que los valores medios. En este conglomerado la

variable beneficios tiene valores positivos.

Desde que las medidas de importancia para todas las variables excedan el valor crítico

en el gráfico, se puede concluir que todas las variables continuas contribuyen a la

formación del conglomerado.




31

Importancia Según Variable Continua

Número de conglomerados en dos fases = 1

Ajuste de Bonferroni aplicado

Va

ria

ble

Número ID del client

Beneficios

t de Student

3

2

1

0

-1

-2

-3

Valor crítico

Estadístico de contr

aste

Ilustración 7. Ajuste de Bonferroni aplicado

Conglomerado 2

En este grafico se demuestra que las variables no son importantes para la formación

del conglomerado porque no alcanzan a exceder el valor crítico.




32

Número de conglomerados en dos fases = 2


Va

ria

ble

Beneficios

Número ID del client

t de Student

3

2

1

0

-1

-2

-3

Valor crítico


aste

Ilustración 8. Ajuste de Bonferroni Aplicado2

Empleando el análisis de Conglomerados Jerárquico en dos fases se dividieron los

sectores de acuerdo a los ingresos en tres grupos. Para obtener conglomerados más

selectos es conveniente emplear más variables por ejemplo, estrato, experiencia, nivel

de satisfacción, entre otras.

4.12. Ejemplo:

Con el archivo de datos de empleados analizar y aplicar conglomerado en dos fases

para las variables salario actual, salario inicial, meses desde el contrato y experiencia

previa a partir de la variable categórica sexo.

Se realizan los pasos que se mencionaron anteriormente, arroja el cuadro de diálogo y

se seleccionan las variables.




33

Ilustración 9. Análisis de Conglomerados en dos Fases

Después se especifica que realice gráfico de porcentajes intra-conglomerado y gráfico

de sectores de los conglomerados, que ordene las variables por conglomerado y arroje

medida de distancia chi-cuadrado o prueba t de significancia.

Ilustración 10. Conglomerados en dos fases: Gráficos

Se oprime aceptar y arroja los siguientes resultados, que el investigador debe analizar.

4.11.1. Conglomerados en dos fases

Del archivo de datos de empleados que tiene un total de 474 casos se realizó el




34

análisis de Conglomerados en dos fases. Como variable categórica se tomo el sexo y

como variable continua el salario actual, salario inicial, meses de contrato y experiencia

previa en meses. El siguiente cuadro de distribución de conglomerados muestra tres

conglomerados

Para el primer conglomerado hay 216 casos

Para el segundo conglomerado hay 194 casos

Para el tercer conglomerado hay 64 casos. No hay casos pedidos.

N % de

combinados % del total

Conglomerado 1 216 45,6% 45,6%

2 194 40,9% 40,9%

3 64 13,5% 13,5%

Combinados 474 100,0% 100,0%

Total 474 100,0%

Tabla 5. Distribución de Conglomerados





35

4.11.2. Perfiles de los conglomerados

Este cuadro representa la media y desviación estándar por cada variable continua de análisis. Por ejemplo,el conglomerado uno que representa

un 45,6% del total tiene una media de salario actual de $26,031.92 y una Desviación típica de $ 7,558.021, teniendo en cuenta que si se saca la

media del salario actual de todos los datos es de $34 419.57 y la desviación típica es de $17,075.661.

Centroides

Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses)

Media Desv. típica Media Desv. típica Media Desv. típica Media Desv. típica

Conglomerado 1 $26,031.92 $7,558.021 $13,091.97 $2,935.599 80,38 9,676 77,04 95,012

2 $31,866.01 $6,761.617 $16,069.64 $2,660.667 81,80 10,327 121,35 117,674

3 $70,468.36 $16,514.008 $33,128.91 $9,731.349 81,48 10,503 82,13 74,085

Combinados $34,419.57 $17,075.661 $17,016.09 $7,870.638 81,11 10,061 95,86 104,586

Tabla 6. Perfiles de los Conglomerados




36

4.11.3. Frecuencias

El conglomerado 1 esta compuesto por 216 casos o 100% de las mujeres.

El conglomerado 2 esta compuesto por 194 casos o 75,2% de los hombres

El conglomerado 3 esta compuesto por 64 casos, es decir 24.8% de hombres.

Sexo

Hombre Mujer

Frecuencia Porcentaje Frecuencia Porcentaje

Conglomerado 1 0 ,0% 216 100,0%

2 194 75,2% 0 ,0%

3 64 24,8% 0 ,0%

Combinados 258 100,0% 216 100,0%

Tabla 7. Frecuencias de los Conglomerados

4.11.4. Importancia de los atributos

Este gráfico muestra el tamaño de cada conglomerado. El conglomerado 1 tiene el 46%

de los casos, lo que equivale a 216

Tamaño de conglomerado

64 / 14%

194 / 41%

216 / 46%

3

2

1

Ilustración 11. Tamaño de los Conglomerados

4.11.5. Porcentaje Intra-conglomerado

En este grafico se muestra como la variable categorica sexo se distribuye entre los

conglomerados. Así: El conglomerado 1 esta conformado en un 100% por mujeres, el

conglomerado 2 esta conformado en 100% por hombres y el conglomerado 3 esta




37

conformado por el 100% de hombres. En el total de casos hay 43% de mujeres y 57%

aprox. de hombres.

Porcentaje dentro el Conglomerado de Sexo

Ilustración 12. Porcentaje dentro del Conglomerado de sexo

4.11.6. Variación Intra-conglomerado

A continuación se presentan los gráficos de variación al interior de cada

conglomerado. Es decir, el comportamiento de frecuencias por conglomerado o

medias de cada uno.




38

64194216N =



Conglomerado

321

Sa

lari

o a

ctu

al

80000

70000

60000

50000

40000

30000

20000

Ilustración 13. Variación Intra- Conglomerado 1

Este gráfico dice que en el primer conglomerado, compuesto por 216 personas, en su

totalidad mujeres, el salario actual varia entre 23000 y 27000.

En el conglomerado 2, compuesto por 194 hombres, el salario actual oscila entre $

32000 y $34000 y en el conglomerado 3 compuesto por 64 hombres el salario actual

varia entre 63000 y 75000 aprox. El salario promedio para todos los casos se

encuentra en 34419,57. Aquí se puede notar la importancia de los conglomerados

porque si se analizara de manera global el salario actual promedio sería $34419,57, sin

tener en cuenta que las mujeres no ganan más de $28000 y que hay un grupo de

hombres (64) que tienen un salario alto ($70000), que se aleja bastante del salario

actual medio.




39

64194216N =



Conglomerado

321

Me

se

s d

esd

e e

l co

ntr

ato

86

84

82

80

78

76

Ilustración 14.Variación Intra-Conglomerado 2

64194216N =



Conglomerado

321

Sa

lari

o in

icia

l

40000

30000

20000

10000

Ilustración 15. Variación Intra-Conglomerado 3




40

64194216N =



Conglomerado

321

Exp

erie

ncia

pre

via

(mes

es)

160

140

120

100

80

60

40

Ilustración 16.Variación Intra-Conglomerado 4

El gráfico muestra que el conglomerado 1, compuesto por las mujeres, tiene 78 meses

de experiencia. Y el conglomerado dos tiene 120 meses de experiencia y el

conglomerado 3 tiene 81,5 meses de experiencia. El bajo salario de las mujeres se

puede ver asociado a que tienen una experiencia menor. El salario del conglomerado 2

se asocia también a una mayor experiencia, pero en el caso del conglomerado tres no

hay asociación entre el salario actual y la experiencia, ya que tienen el salario más alto

pero su experiencia en meses es inferior a la del conglomerado dos.

4.11.7. Importancia según agrupación

Los siguientes son los gráficos que se crearon por conglomerados.




41

Sexo


Co

ng

lom

era

do

1

2

3

Chi-cuadrado

3002001000

Valor crítico


aste

Ilustración 17. Ajuste de Bonferroni Aplicado-Sexo

Salario actual


Co

ng

lom

era

do

1

3

2

t de Student

20100-10-20

Valor crítico


aste

Ilustración 18. Ajuste de Bonferroni Aplicado- Salario Actual

El anterior grafico representa la importancia según Conglomerado. Como se puede

notar los conglomerados se ubican en el eje Y dependiendo de su importancia. Debido

a que la t de Student excede los valores críticos se puede considerar que los

conglomerados 1, 2 y 3 son significativos, desde el punto de vista de la variable salario

actual.




42

En los conglomerados 1 y 2 se toman valores más pequeños que sus valores medios y

en el conglomerado tres se toman valores más grandes que los valores medios.

Salario inicial


Co

ng

lom

era

do

1

3

2

t de Student

20100-10-20-30

Valor crítico


aste

Ilustración 19. Ajuste de Bonferroni Aplicado: Salario Inicial

Para la variable salario inicial, los conglomerados son significativo

Meses desde el contrato


Co

ng

lom

era

do

1

2

3

t de Student

3210-1-2-3

Valor crítico


aste

Ilustración 20. Ajuste de Bonferroni aplicado: Meses desde el contrato

Para la variable Meses de Contrato, ningún conglomerado es significativo




43

Experiencia previa (meses)


Co

ng

lom

era

do

2

1

3

t de Student

43210-1-2-3-4

Valor crítico


aste

Ilustración 21. AJuste de Bonferroni: Experiencia Previa en meses

Para la variable Experiencia previa (meses), los conglomerados 1 y 2 son significativos,

mientras que el conglomerado 3 no es significativo.




44

5. Análisis De Conglomerados Jerárquico

Esta metodología trata de identificar grupos o segmentos relativamente homogéneos

de casos (o de variables) basándose en las características propias de cada uno,

mediante un algoritmo que comienza con cada caso o variable en particular y hace

diferentes combinaciones hasta dejar un grupo uniforme. El calculo de la distancia o

similaridad entre las variables o grupos se realiza mediante la técnica de Proximidades.

Con el análisis de conglomerados jerárquico, se pueden agrupar los consumidores de

un determinado producto en una ciudad para establecer estrategias de marketing.

Adicionalmente, podría agrupar ciudades en diferentes grupos de acuerdo a sus

características de consumo, cultura, labor de recompra, etc., para generar estrategias

similares donde existen segmentos con comportamientos afines y así ser más eficientes

en el momento de lanzar estrategias.

El criterio base para cada conglomerado es la distancia. Las variables que se encuentran

más cercanas a otras deben pertenecer al mismo conglomerado, y las variables que se

encuentran más dispersas deben pertenecer a conglomerados diferentes.

Este procedimiento es útil para encontrar agrupaciones naturales de casos o variables.

Tiene mayor efectividad cuando el archivo de datos a analizar contiene un número

pequeño de datos (Menos de 100 datos) para ser conglomerado.

Para un conjunto de datos, los conglomerados que se construyen dependen de la

especificación de los siguientes parámetros:

Método de Conglomeración: Define los criterios para la formación de conglomerados.

Por ejemplo, al calcular la distancia entre dos conglomerados, se pueden usar las

variables más cercanas entre conglomerados o el par de variables más cercanas.

Media: Define la formula para calcular la distancia. Por ejemplo, la medida de distancia

Euclidea calcula la distancia como una "línea recta" entre dos conglomerados. La

medida de intervalo asume que las variables son escalas, la medida de cuenta asume

que hay números discretos; y la medida binaria asume que las variables toman

únicamente dos valores.

Estandarización: Permite igualar los resultados de variables medidas en diferentes

escalas.

Los fabricantes de automóviles necesitan poder estimar el mercado actual para

determinar la competencia probable para sus vehículos. Si los automóviles se agrupan

según los datos disponibles, esta tarea puede ser automática empleando el análisis

cluster.

Se busca información de varios fabricantes y modelos de vehículos en el archivo de

spss. Empleando el análisis de conglomerados Jerárquico se pueden agrupar los

automóviles de más altas ventas según sus precios y propiedades físicas.




45

Primero es necesario definir que casos se van a analizar, para tal motivo se debe abrir

el archivo que contiene los casos, luego acceder al menú Datos, Seleccionar Casos y

de allí filtrar los datos mediante una muestra aleatoria de datos o si cumplen una serie

de condiciones, luego se realiza al análisis de conglomerado Jerárquico como tal.

5.1. Pasos para el análisis de conglomerados jerárquico

Se realiza mediante el menú Analizar, clasificar, Conglomerados jerárquicos.

Para conglomerar casos se debe seleccionar como mínimo una variable numérica, para

conglomerar variables, se deben seleccionar como por lo menos tres variables

numéricas.

En la opción de “etiquetar los datos mediante” se puede seleccionar una variable de

identificación para etiquetar los datos, esta opción sólo se activa cuando se

conglomeran variables.

5.2. Dendrograma:

Representa paso por paso la solución de conglomeración Jerárquica, muestra los

conglomerados que se combinan y los valores de los coeficientes de distancia. Las

líneas verticales simbolizan combinación de casos. Son empleados para evaluar la

cohesión de los conglomerados que se han creado y determinar el número adecuado

de conglomerados que deben permanecer en el estudio.

En la parte izquierda se muestran los casos. En el eje horizontal se muestra la distancia

entre los conglomerados cuando se efectúa la unión, las líneas verticales representan

los grupos que están unidos. La posición de la línea en la escala indica las distancias en

las que se unieron los grupos.

El árbol de clasificación para determinar el número de conglomerados es un proceso

subjetivo. Generalmente se comienza buscando los intervalos entre las uniones a lo

largo del eje horizontal.

5.3. Clases de métodos de Conglomeración

En el link de Método de Conglomeración las opciones disponibles son:

Vinculación Inter-grupos

Vinculación intra-grupos

Vecino más próximo,

Vecino más lejano

Agrupación de centroides

Agrupación de medianas

Método de Ward




46

Ilustración 22. Métodos de enlace para el Conglomerado9

El método de enlace sencillo se basa en la distancia mínima o la regla del vecino más

próximo, los primeros objetos conglomerados son aquellos que tienen una distancia

mínima. Este método pierde efectividad cuando los conglomerados no están bien

definidos

El método del enlace completo se basa en la distancia máxima entre los objetos o el

método del vecino más lejano.

En el método del enlace promedio la distancia de los conglomerados se determina

por el promedio de las distancias entre los dos pares de objetos

Los Métodos de Varianza tratan generar conglomerados con el fin de reducir la varianza dentro de los grupos. El procedimiento Ward es empleado con frecuencia.

Para cada uno de los conglomerados se calculan las medias de las variables. Luego, se

calcula la distancia euclidiana cuadrada para las medias de los grupos.

9 Figura tomada de Artículos de estadística CRM, Data Mining, investigación mercados, satisfacciófghetn

clientes__.htm




47

Ilustración 23. Métodos de Agrupación por Aglomeración10

En el Método Centroide, la distancia entre dos grupos es la distancia entre sus

centroides.

5.4. Medida

Existen tres posibles casos de medida: Intervalo, Frecuencia, binaria.

5.4.1. Medida de intervalo

Para los datos de intervalo existen las siguientes medidas:

Distancia euclídea: La raíz cuadrada de la suma de los cuadrados de las diferencias

entre los valores de los elementos. Ésta medida viene predeterminada para los

datos de intervalo.

Distancia euclídea al cuadrado: La suma de los cuadrados de las diferencias entre los

valores de los elementos.

Correlación de Pearson: La correlación producto-momento entre dos vectores de

valores.

Coseno: El coseno del ángulo entre dos vectores de valores.

Chebychev: La diferencia absoluta máxima entre los valores de los elementos.

Bloque: La suma de las diferencias absolutas entre los valores de los elementos. Se

le conoce como la distancia de Manhattan.

Minkowski: p-ésima raíz de la suma de las diferencias absolutas elevada a la

potencia p-ésima entre los valores de los elementos.

Personalizada: r-ésima raíz de la suma de las diferencias absolutas elevada a la

potencia p-ésima entre los valores de los elementos.

10 Figura tomada de Artículos de estadística CRM, Data Mining, investigación mercados, satisfacciófghetn

clientes__.htm




48

5.4.2. Medida de Frecuencias:

Las opciones disponibles son:

Medida de chi-cuadrado: Esta medida se basa en la prueba de chi cuadrado de

igualdad para dos conjuntos de frecuencias. Ésta medida viene por defecto.

Medida de Phi-cuadrado: Esta medida es igual a la medida de chi-cuadrado

normalizada por la raíz cuadrada de la frecuencia combinada.

5.4.3. Medida Binaria:

Las opciones disponibles son:

Distancia euclídea, Distancia euclídea al cuadrado, Diferencia de tamaño, Diferencia de

configuración, Varianza, Dispersión, Forma, Concordancia simple, Correlación phi de 4

puntos, Lambda, D de Anderberg, Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2,

Lance y Williams, Ochiai, Rogers y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y

Sneath 2, Sokal y Sneath 3, Sokal y Sneath 4, Sokal y Sneath 5, Y de Yule y Q de Yule.

Si se desea, se puede cambiar los campos Presente y Ausente para especificar los

valores que indican que una característica está presente o ausente. El procedimiento

ignorará todos los demás valores.

En el caso de que se desee saber si un cliente tiene un determinado servicio es

conveniente elegir medidas binarias, por ejemplo Simple matching y Jaccard.

5.5. Ejemplo:

Del una muestra del 10% del archivo Coches. Sav identificar las variables más

homogéneas mediante el análisis de Conglomerados Jerárquico, con el fin de

determinar las variables que tienen una mayor influencia para el comprador y la

relación entre ellas en el momento de adquirir carro.

Se accede al menú de Conglomerados Jerárquico, se pasan las variables a analizar al

lado derecho y se selecciona la opción de conglomerar variables.




49

Ilustración 24. Menú: Análisis de Conglomerados Jerárquico

Luego se accede a la opción de estadísticos que arroja el siguiente cuadro de diálogo:

Ilustración 25.Análisis de Conglomerados Jerárquicos: Estadísticos

Si se desea se puede seleccionar la opción de Historial de Conglomeración y Matriz de

distancias, para tener mayor claridad del origen de los resultados.

5.5.1. Gráficos

Al acceder al link de Gráficos se activa la siguiente ventana, donde se puede

seleccionar Dendograma y la cantidad de conglomerados que se desea obtener.




50

Ilustración 26. Análisis de Conglomerados Jerárquicos: Gráficos

5.5.2. Método de conglomeración

En la parte inferior del cuadro conglomerado Jerárquico se visualiza la opción de

método, que al hacer clic aparece el siguiente cuadro de diálogo:

Ilustración 27. Métodos de Conglomeración

Para este ejemplo, se empleó como método de conglomeración agrupación de

centroides y como medida de intervalo Distancia euclídea al cuadrado.

Cuando se ejecuta el procedimiento presenta los siguientes resultados:

Tabla 8. Resumen del procesamiento de los casos

Casos

Validos Perdidos Total

N Porcentaje N Porcentaje N Porcentaje

52 100,0% 0 ,0% 52 100,0%




51

En esta tabla se resume la cantidad de datos analizados y los casos perdidos.

5.5.3. Conglomerados jerárquicos

Tabla 9. Matriz de Distancias

En la matriz de distancias se mide, como su nombre lo indica, la distancia entre cada

una de las variables, por este motivo la distancias entre las mismas variables es cero.

Los valores representan la similaridad o disimilaridad entre cada par de variables. Los

valores más grandes indican que las variables son muy diferentes, como es el caso de

las variables Cilindrada en cc y Peso Total (kg) que presentan una alta disimilaridad

con respecto a las demás variables. No obstante, se nota la alta similaridad entre las

variables país de origen con la Aceleración 0 a 100 km/h (segundos) y con el

Número de Cilindros y la variable Número de cilindros con la variable Aceleración

0 a 100 km/h (segundos). De estos resultados, se puede concluir que para el

comprador es importante la aceleración y el número de cilindros de los autos y estas

variables tienen una alta relación con el país de origen.

5.5.4. Vinculación de centroides

Caso Archivo matricial de entrada

Cilindrada en cc Potencia (CV) Peso total (kg)

Aceleración 0 a 100 km/h (segundos)

Año del modelo

País de origen

Número de cilindros

Cilindrada en cc ,000 591455574,000 335180113,000 626687223,940 607976848,000

630723266,000

629228337,000

Potencia (CV) 591455574,000 ,000 41450837,000 536234,140 156730,000 665212,000 619725,000

Peso total (kg) 335180113,000 41450837,000 ,000 50971884,740 45192481,000 52284171,00

0 51875656,000

Aceleración 0 a 100 km/h (segundos)

626687223,940 536234,140 50971884,740 ,000 192437,740 9612,140 5809,140

Año del modelo

607976848,000 156730,000 45192481,000 192437,740 ,000 285960,000 260343,000

País de origen 630723266,000 665212,000 52284171,000 9612,140 285960,000 ,000 925,000

Número de cilindros

629228337,000 619725,000 51875656,000 5809,140 260343,000 925,000 ,000

Etapa

Conglomerado que se combina

Coeficientes

Etapa en la que el conglomerado aparece

por primera vez

Próxima etapa

Conglomerado 1

Conglomerado 2

Conglomerado 1

Conglomerado 2

1 6 7 925,000 0 0 2

2 4 6 7479,390 0 1 4

3 2 5 156730,000 0 0 4




52

Tabla 10. Historial de Conglomeración

Esta tabla es un resumen numérico de la solución del conglomerado que muestra

como se juntan los casos por conglomerados en cada fase del análisis.

En la etapa 1 se combina el caso 6 con el caso 7 porque tienen las distancias más

pequeñas. La próxima etapa hace referencia a la siguiente etapa en la que aparecerá el

conglomerado. En la etapa 4 se unen los conglomerados creados en la etapa 3 y 2, esto

se puede observar en las filas que especifican la etapa en la que el conglomerado

aparece por primera vez (En la tabla se encuentran de color rojo). El conglomerado

resultante aparece nuevamente en la fase 5.

Dependiendo de los casos la anterior tabla se va haciendo más larga, sin embargo es

importante y más fácil observar la columna de coeficientes que observar los intervalos

en el dendrograma. Una buena solución de conglomerado arroja saltos repentinos o

inesperados en el coeficiente de distancia.


Caso

Pe

so

to

tal (k

g)

N

úm

ero

de

cili

nd

ros

Pa

ís d

e o

rig

en

Acele

ració

n 0

a 1

00

km

/h (

se

gundos)

Añ

o d

el m

od

elo

Po

ten

cia

(C

V)

Cili

nd

rad

a e

n c

c

1 X X X X X X X X X X X X X

2 X X X X X X X X X X X X

3 X X X X X X X X X X X

4 X X X X X X X X X X

5 X X X X X X X X X

6 X X X X X X X X

Tabla 11. Diagrama de témpanos Vertical

En esta tabla se da una representación de cómo los casos se unen en cada fase del

análisis. No obstante, antes de hacer el análisis es conveniente ir al menú edición,

opciones, procesos y activar la opción de permitir el Autoprocesamiento y Cluster_Table_Icicle_Create para que arroje el Diagrama de témpanos en forma de

gráfico y sea mucho más fácil de analizar.

4 2 4 385653,227 3 2 5

5 2 3

48245686,422

4 0 6

6 1 2

563416670,937

0 5 0




53

Diagrama de témpanos vertical


1

2

3

4

5

6

Peso tota

l (k

g)

Núm

ero

de c

ilin

dro

s

País

de o

rigen

Acele

ració

n 0

a 1

00 k

m/h

(segundos)

Año d

el m

odelo

Pote

ncia

(C

V)

Cilin

dra

da e

n c

c

Caso

Ilustración 28. Diagrama de témpanos Vertical

En cada fase se unen dos conglomerados y cada barra blanca representa el límite entre

conglomerados. En este caso, las variables peso total y número de cilindros hacen

presencia en el conglomerado 1 y 2, las variables número de cilindros y país de origen

se encuentran en todos los conglomerados, la variable país de origen y Aceleración 0 a

100 km/h (segundos) se encuentran en 5 conglomerados, las variables potencia y

cilindrada en cc se encuentran sólo en el primer conglomerado.

Dentro de las filas cada parte negra indica que los casos son agrupados como un conglomerado. En el conglomerado 1 se encuentran todas las variables, en el

conglomerado 2 se encuentran el conglomerado de la variable cilindrada y el otro

conglomerado agrupa las demás variables.

En el conglomerado tres se pueden distinguir tres grupos de variables,

Peso

Cilindrada

Nro de cilindros, país de origen, aceleración, año del modelo, y potencia.

Y así sucesivamente en el conglomerado 4, 5 y 6.

5.5.5. Dendrograma

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S *

* * * * *

Dendrogram using Centroid Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25




54

Label Num +---------+---------+---------+---------+---------+

ORIGEN 6

CILINDR 7

ACEL 4

CV 2

AÑO 5

PESO 3

MOTOR 1

Ilustración 29. Dendograma

Este dendograma o diagrama de árbol representa los pasos para llegar a la solución de

conglomerados jerárquicos, muestra la combinación de las variables, se puede notar

que las variables origen, cilindrada, aceleración, potencia y año presentan similaridad, mientras que las variables aceleración, peso y motor presentan disimilaridad, ya que la

distancia a la que se unieron estas variables es alta.




55

6. Conglomerados De K Medias

Esta herramienta trata de identificar grupos de casos relativamente homogéneos

basándose en las características seleccionadas y empleando algoritmos, para lo cual es

indispensable introducir el número de conglomerados que se desea obtener.

Este método de agrupación que se basa en la distancia que existe entre un grupo de

casos y un caso específico central denominado “centroide”, Este tipo de clasificación es

útil cuando se posee un gran número de casos y se puede utilizar de manera

exploratoria para comenzar a identificar grupos de casos.

Para realizar un ejemplo, se tiene la base de datos de Ruspini11. Lo primero que se

debe hacer para tener una idea acerca de cuantos conglomerados se puedan obtener

de los datos que se tiene es la realización de un diagrama de dispersión, este se realiza

en la herramienta gráficos interactivos Gráficos de dispersión, en este caso se

contrastan las variables 2 y 3:

0 50 100 150

V3

0

25

50

75

100

V2

Ilustración 30. Diagrama de dispersión primer grupo

11 Datos simulados por Ruspini Ruspini, E.H. (1970), "Numerical Methods for Fuzzy Clustering,"

Information Science, 2, 319-350. Representan 75 datos bidimensionales simulados de cuatro

distribuciones distintas




56

Se puede observar claramente que los casos se agrupan en cuatro conjuntos, esta

información es importante para elegir el número de conglomerados que se desea

realizar.

Al contrastar las variables V1 y V2 se obtiene el siguiente grafico:

0 25 50 75 100

V2

0

25

50

75

V1

Ilustración 31. Diagrama de dispersión segundo grupo

En este caso no son tan claros los grupos que se desean realizar pero si se observa muy bien existen espacios entre algunos datos que pueden ayudar a la realización del

conglomerado en este caso 3

6.1. Preparando el análisis

De esta forma procedemos a realizar la clasificación de conglomerados mediante el

sistema K medias; para utilizar este procedimiento se va al menú analizar clasificar

conglomerado de k medias.




57

Ilustración 32. Ruta conglomerados K medias

Ya en el cuadro de dialogo se eligen las variables con las que se quieren realizar los

conglomerados y se trasladan a las listas de variables, las variables de cadena sólo

pueden utilizarse para etiquetar datos.

Ilustración 33. Cuadro de dialogo K medias

En la opción de Nº de Conglomerados se encuentra por defecto 2, si se desea un

número mayor de conglomerados se puede introducir el nuevo número, para las

primeras variables se realizaran 4 conglomerados y para el segundo grupo 3.




58

Este tipo de clasificación tiene dos métodos para realizar la aglomeración:

Iterar y clasificar: Esta técnica exploratoria no se queda solo con el primer

centro que encuentra sino que sigue buscando dentro de la base para buscar el

mas conveniente se pueden realizar varias iteraciones, están predeterminadas

10; se pueden utilizar mas pero de todos modos el proceso de iteración se

detendrá cuando el cambio entre los centros llegue a cero, aunque esta opción

también se puede cambiar a gusto del investigador, en la opción iterar.

Clasificar: Esta opciones conforma con los centros obtenidos inicialmente al activa esta opción se desactiva Iterar en el cuadro de dialogo.

Iterar: En este link se especifica el número máximo de iteraciones y criterio de

convergencia, además se puede seleccionar la opción de usar medias actualizadas.

Ilustración 34. Iterar

Guardar: Permite guardar el conglomerado de pertenencia (el conglomerado al cual

pertenece cada caso) y la distancia de este desde centro del conglomerado. Esta es

información es de gran ayuda para la construcción de diagramas de dispersión por

conglomerados. Para este ejemplo se seleccionan las dos opciones para ver más

claramente los conglomerados en un futuro diagrama de dispersión.

Ilustración 35. Guardar

Opciones: En la parte de estadísticos se puede escoger si se quiere tener en la

respuesta los centros que obtuvo inicialmente, si se quiere obtener una tabla de

resumen del análisis de varianza de los casos para la realización de un análisis

descriptivo. La información del conglomerado muestra los casos utilizados para la

aglomeración y su conglomerado asignado.




59

Ilustración 36. Opciones

Luego se comienza a realizar el conglomerado de k medias como tal, donde se

especifica un número de conglomerados igual a 4 y en opciones que realice la tabla

anova.

6.2. Resultados del análisis

Después de preparar el análisis se pueden obtener los siguientes resultados:

Centros iniciales de los conglomerados

21 63 126 155

83 5 111 55

V3

V2

1 2 3 4

Conglomerado

Tabla 12. Cuadro conglomerados iniciales primer grupo

Centros iniciales de los conglomerados

1 68 60

4 58 117

V1

V2

1 2 3

Conglomerado

Tabla 13. Cuadro conglomerados iniciales segundo grupo

La anterior tabla muestra los centros de conglomerados iniciales y muestra los valores

centrales para cada una de las variables en sus distintos conglomerados

El historial de iteraciones muestra el progreso del proceso de conglomeración en cada

etapa. En las primeras interacciones el centro de conglomerado cambia en grandes

proporciones, mientras que en las últimas interacciones se presentan ajustes menores

hasta llegar a cero a la convergencia que se haya seleccionado en las opciones de

iteración.




60

Historial de iteracionesa

14,157 15,275 16,972 14,253

,000 ,000 ,000 ,000

Iterac ión

1

2

1 2 3 4

Cambio en los centros de los conglomerados

Se ha logrado la conv ergencia debido a que los

centros de los conglomerados no presentan ningún

cambio o éste es pequeño. El cambio máximo de

coordenadas absolutas para cualquier centro es de

,000. La iteración actual es 2. La distancia mínima

entre los centros iniciales es de 63,063.

a.

Tabla 14. Cuadro historial de iteraciones primer grupo

Historial de iteracionesa

25,574 15,641 16,264

2,283 2,344 2,293

,755 1,083 ,000

,752 1,115 ,000

,000 ,000 ,000

Iterac ión

1

2

3

4

5

1 2 3

Cambio en los centros de los

conglomerados

Se ha logrado la conv ergencia debido a que los

centros de los conglomerados no presentan ningún

cambio o éste es pequeño. El cambio máximo de

coordenadas absolutas para cualquier centro es de

,000. La iteración actual es 5. La distancia mínima

entre los centros iniciales es de 59,540.

a.

Tabla 15. Cuadro historial de iteraciones segundo grupo

En el segundo grupo de variables es más notorio el proceso de iteración, y para ambos

grupos se puede observar en la información que ofrece el programa el cambio máximo

absoluto para cualquier centro y la distancia mínima que existe entre los centros que

se plantaron al inicio.

Posteriormente de las iteraciones se puede observar los centros de conglomerados

finales para el estudio:




61

Centros de los conglomerados finales

19 65 115 146

69 20 98 44

V3

V2

1 2 3 4

Conglomerado

Tabla 16. Conglomerados finales primer grupo

Centros de los conglomerados finales

18 57 53

28 64 100

V1

V2

1 2 3

Conglomerado

Tabla 17. Conglomerados finales segundo grupo

Como en las opciones se eligió que mostrara la tabla Anova, esta aparece en el

resultado final e indica que variables contribuyen en mayor medida a la solución del

conglomerado, teniendo muy en cuenta la explicación que el mismo programa da

sobre su interpretación:

ANOVA

56590,892 3 81,004 71 698,620 ,000

20573,380 3 100,419 71 204,874 ,000

V3

V2

Media

cuadrát ica gl

Conglomerado

Media

cuadrát ica gl

Error

F Sig.

Las pruebas F sólo se deben ut ilizar con una f inalidad descriptiva puesto que los

conglomerados han s ido elegidos para maximizar las dif erencias entre los casos en

dif erentes conglomerados. Los niv eles crít icos no son corregidos, por lo que no

pueden interpretarse como pruebas de la hipótesis de que los centros de los

conglomerados son iguales.

Tabla 18. ANOVA

Finalmente muestra que cantidad de casos han sido asignados a los diferentes

conglomerados que se han creado




62

Número de casos en cada conglomerado

15,000

20,000

17,000

23,000

75,000

,000

1

2

3

4

Conglomerado

Válidos

Perdidos

Tabla 19. Casos por conglomerado primer grupo

En este caso se puede ver que al primer conglomerado se le asignaron 15 casos de los

75 incluidos en la base de datos, al segundo 20, al tercer conglomerado 17 y por

ultimo 23 casos al cuarto conglomerado, del mismo modo se puede observar el

numero de casos que se no se utilizaron por ser valores perdidos.

Número de casos en cada conglomerado

35,000

24,000

16,000

75,000

,000

1

2

3

Conglomerado

Válidos

Perdidos

Tabla 20. Casos por conglomerado segundo grupo

En este grupo de variables se interpretan de igual manera los casos por conglomerado

Para terminar el análisis es muy aclaratorio observar gráficamente como quedaron los

diferentes conglomerados, para esto fue que se guardaron los conglomerados de

pertenencia los cuales generaron una nueva variable llamada qcl_1 y cuya etiqueta es

Numero inicial de casos; con esta nueva variable como leyenda se diseña un nuevo

grafico de dispersión:




63

1 2 3

4

Número inicial de casos

0 50 100 150

V3

0

25

50

75

100

V2

Ilustración 37. Grafico de dispersión conglomerados finales primer grupo

De esta forma se puede observar muy claramente los cuatro conglomerados que se

crearon los cuales por ejemplo podrían definir los clientes de una empresa comercial

en los que la variable V2 podría representar las cantidades compradas y la variable V3

el precio, de esta forma la empresa tendría de la muestra seleccionada 4 grupos

distintos de clientes:

1. Los que compran mucho a un bajo precio

2. Los que compran poco cuando el precio se acerca o supera 50

3. Los que compran mucho cuando el precio supera los cien

4. Los que compran relativamente poco cuando el precio es mayor a cien.

De esta forma se puede ver que para la empresa es rentable tener precios mayores a

50 ya que en este rango de precios se encuentra su mayoría de clientes, además el

conglomerado tres que es el de mayor compra de productos supera el precio de 100

(de esto se deduce que la empresa vende un giffen12).

12 BIEN GIFFEN. Bien inferior en el que al aumentar su precio aumenta su demanda.




64

Para el segundo grupo de datos el grafico de dispersión da de la siguiente manera:

1 2 3

Número inicial de casos

0 25 50 75 100

V2

0

25

50

75

V1

Ilustración 38. Grafico de dispersión conglomerados finales segundo grupo

En este caso los conglomerados como ya se dijo no son tan claros como en el primer

grupo de variables, se puede observar como un caso en especial del conglomerado 3

parece que hace mas parte del conglomerado dos y como algunos del conglomerado 1 también parece que hacen mas parte del conglomerado 2; Pero como se puede

recordar al principio se aclaro que este tipo de clasificación era una manera de

explorar los datos.




65

7. Análisis Factorial Para La Reducción De Datos

En el área de la segmentación de mercados, el análisis factorial sirve especialmente

para ayudar a reducir las muchas variables disponibles a una base de las variables

compuestas (factores) con el propósito de realizar una segmentación tipo cluster,

análisis discriminante o una regresión logística. Mediante este método se toma un gran

número de variables y se investiga para ver si tiene un pequeño número de factores en

común que expliquen su ínter correlación y que cada grupo sea independiente entre si.

7.1. Que Buscar Cuando Se Realiza Un Análisis Factorial

Según Malhotra (1997)13 el Análisis Factorial puede aplicarse en diferentes campos del

marketing como:

Segmentación de Mercados: Para identificar las variables subyacentes en las

cuales se deben agrupar los clientes. Así, por ejemplo, los compradores de

automóviles nuevos pueden agruparse sobre la base de la importancia que dan

a la economía, la comodidad, el desempeño, el lujo, el servicio postventa, etc.

Investigación de Productos: Para identificar los atributos de las marcas que influyen en la elección del consumidor. La elección de un jabón de tocador se

puede determinar por la frescura, protección que proporciona, suavidad,

marca, entre otras.

Publicidad: Para comprender los hábitos de consumo del mercado meta. Los

consumidores de comida rápida pueden tener una audiencia específica de

programas de televisión, escuchar determinado tipo de música, tener gustos

similares que nos permiten clasificar nuestro grupo de interés.

Estudios sobre Precios: Para identificar las características de los consumidores

sensibles al precio. Estos consumidores pueden ser de clase media,

preocupados por la economía, caseros, vivir en un lugar determinado, etc.

Hay dos preguntas principales que se deben tener en cuenta cuando se realiza un

análisis factorial: ¿cuántos (si existen) factores hay? y que representan? Estas preguntas

están muy relacionadas porque en la práctica del estudio de mercados raramente se

conservaran los factores que no se puedan identificar y nombrar.

Al realizar el análisis se tiene muy en cuenta la interpretación del analista ya que el

13 Malhotra, Naresh K.. Investigación de mercados un enfoque práctico Naresh K. Malhotra ; tr. Verania

de Parres Cárdenas. 2a. ed..-- México: Prentice Hall: Pearson Educación: Addison Wesley 1997. Pág. 120




66

tendrá los criterios para decidir que factores se mantienen o se dejan.

7.2. Principios

La primera parte del análisis se basa en la matriz de correlaciones, la que muestra los

coeficientes de correlación (su variabilidad) entre cada par de variables.

El análisis factorial funciona mediante la matriz de correlaciones que relaciona las

variables que se descompondrán en factores. El argumento básico es que las variables

están correlacionadas porque comparten unos o más componentes comunes, y si no

fuera así no habría necesidad de realizar análisis factorial. Un modelo del uno-factor

para tres variables puede ser representado matemáticamente como sigue (Vs son las

variables, Fs son los factores, Es representan la variación que es única a cada uno

variable (sin correlación con el componente de E de los otros)):

Cada variable se compone del factor común (F1) multiplicado por un coeficiente (L1, L2,

L3 , los lambdas) más un componente único o aleatorio. Si el factor fuera medible (que

no es) esta ecuación sería una regresión simple.

7.3. Análisis factorial en SPSS

El análisis factorial intenta identificar variables subyacentes, o factores, que expliquen la

configuración de las correlaciones dentro de un conjunto de variables observadas. El

análisis factorial se suele utilizar en la reducción de los datos para identificar un

pequeño número de factores que explique la mayoría de la varianza observada en un

número mayor de variables manifiestas. También puede utilizarse para generar

hipótesis relacionadas con los mecanismos causales o para inspeccionar las variables

para análisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar

un análisis de regresión lineal).




67

Ilustración 39. Análisis factorial

El procedimiento de análisis factorial ofrece un alto grado de flexibilidad:

Existen siete métodos de extracción factorial disponibles.

Existen cinco métodos de rotación disponibles.

Existen tres métodos disponibles para calcular las puntuaciones factoriales; y las puntuaciones pueden guardarse como variables para análisis adicionales.

7.4. Etapas en un análisis factorial.

El método es desarrollado principalmente en cuatro pasos:

1. La matriz de correlación o de covarianza es calculada. En el caso de que una

variable muestre bajos coeficientes de correlación con las otras variables, esta

puede ser eliminada y, por lo tanto, obtener la nueva matriz de correlación. Sin

embargo, es necesario que observe los valores de su comunidad y las cargas

factoriales.

Ilustración 40. Matriz de covarianza




68

2. Las cargas factoriales son estimadas. En este parte, es necesario establecer el

método empleado para la extracción de los factores ya sea por componentes

principales u otro método de extracción.

3. Las cargas factoriales son rotadas a fin de obtener cargas más fácilmente

interpretables. Los métodos de rotación genera cargas para cada factor ya sea

grandes o pequeñas, pero no de valores intermedios. Esta rotación permite reducir

el número de factores a la estructura más simple que describe los datos, esto es,

encontrar una solución final.

4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados

para usarlos como variables de entrada en otros procedimientos.

7.4.1. Extracción de factores.

Para este caso se utilizara la base de datos mundo 95 que trae SPSS, es un estudio

realizado en 109 países acerca de datos demográficos.

Utilizamos las variables:

Esperanza de vida femenina

Mortalidad infantil (muertes por 1000 nacimientos vivos)

Personas Alfabetizadas (%)

Tasa de natalidad (por 1.000 habitantes)

Tasa de mortalidad (por 1.000 habitantes)

Fertilidad: número promedio de hijos

Habitantes en ciudades (%)

Log(10) de PIB_CAP

Aumento de la población (% anual)

Tasa Nacimientos/Defunciones

Log(10) de Población




69

Ilustración 41. Cuadro de dialogo análisis factorial

Son muchos los métodos que pueden emplearse para extraer los factores iniciales de la matriz de correlación. En general, estos métodos son complejos numéricamente. El

SPSS proporciona de siete métodos de extracción, sin embargo, el más ampliamente

usado en la práctica es el método de extracción por componentes principales.

Ilustración 42. Cuadro de Dialogo Análisis factorial- Extracción

1. Análisis de componentes principales. Método de extracción de factores

utilizado para formar combinaciones lineales no correlacionadas de las variables

observadas. La primera componente tiene la varianza máxima. Las componentes

sucesivas explican progresivamente proporciones menores de la varianza y no

están correlacionadas las unas con las otras. El análisis de componentes principales

se utiliza para obtener la solución factorial inicial. Puede utilizarse cuando una

matriz de correlaciones es singular.




70

2. Método de mínimos cuadrados no ponderados. Método de extracción

factorial que minimiza la suma de los cuadrados de las diferencias entre las matrices

de correlaciones observada y reproducida, ignorando las diagonales.

3. Método de mínimos cuadrados generalizados. Método de extracción de

factores que minimiza la suma de los cuadrados de las diferencias entre las matrices

de correlación observada y reproducida. Las correlaciones se ponderan por el

inverso de su unicidad, de manera que las variables que tengan un valor alto de

unicidad reciban un peso menor que las que tengan un valor bajo de unicidad.

4. Método de máxima verosimilitud. Método de extracción factorial que

proporciona las estimaciones de los parámetros que con mayor probabilidad han

producido la matriz de correlaciones observada, si la muestra procede de una

distribución normal multivariada. Las correlaciones se ponderan por el inverso de

la unicidad de las variables y se emplea un algoritmo iterativo.

5. Factorización de ejes principales. Método de extracción de factores que parte

de la matriz de correlaciones original con los cuadrados de los coeficientes de

correlación múltiple insertados en la diagonal principal como estimaciones iniciales

de las comunalidades. Las saturaciones factoriales resultantes se utilizan para

estimar de nuevo las comunalidades y reemplazan a las estimaciones previas en la

diagonal de la matriz. Las iteraciones continúan hasta que los cambios en las

comunalidades, de una iteración a la siguiente, satisfagan el criterio de convergencia

para la extracción.

6. Alfa. Método de extracción factorial que considera a las variables incluidas en el

análisis como una muestra del universo de las variables posibles. Este método

maximiza el Alfa de Cronbach para los factores.

7. Factorización imagen. Método de extracción de factores, desarrollado por

Guttman y basado en la teoría de las imágenes. La parte común de una variable,

llamada la imagen parcial, se define como su regresión lineal sobre las restantes

variables, en lugar de ser una función de los factores hipotéticos.

7.4.2. Rotación De Factores

Con frecuencia es muy difícil interpretar los factores iniciales. Por consiguiente la

solución inicial se rota con el propósito de generar una solución que permita la interpretación. Existen dos amplios tipos de rotación: (1) rotación ortogonal, que

mantiene a los factores no correlacionados entre sí y (2) rotación oblicua, la cual

permite que los factores se correlacionen entre sí, la idea básica de la rotación es

generar factores que tengan algunas variables muy correlacionadas y otras poco

correlacionadas. Esto evita tener el problema de factores con todas las variables que

presentan correlaciones de medio rango y, por tanto, permite una interpretación más

fácil. El SPSS dispone de cinco métodos de rotación.




71

Ilustración 43. Cuadro de Dialogo Análisis factorial- Rotación.

1. Método varimax. Método de rotación ortogonal que minimiza el número de variables que tienen saturaciones altas en cada factor. Simplifica la interpretación de

los factores.

2. Criterio Oblimin directo. Método para la rotación oblicua (no ortogonal.

Cuando delta es igual a cero (el valor por defecto) las soluciones son las más

oblicuas. A medida que delta se va haciendo más negativo, los factores son menos

oblicuos. Para anular el valor por defecto 0 para delta, introduzca un número

menor o igual que 0,8.

3. Método quartimax. Método de rotación que minimiza el número de factores

necesarios para explicar cada variable. Simplifica la interpretación de las variables

observadas.

4. Método equamax. Método de rotación que es combinación del método varimax,

que simplifica los factores, y el método quartimax, que simplifica las variables. Se

minimiza tanto el número de variables que saturan alto en un factor como el

número de factores necesarios para explicar una variable.

5. Rotación promax. Rotación oblicua que permite que los factores estén

correlacionados. Puede calcularse más rápidamente que una rotación oblimin

directa, por lo que es útil para conjuntos de datos grandes.

7.4.3. Descriptivos

Esta opción permite obtener estadísticos descriptivos de las variables que usamos para

el análisis factorial además de varias opciones estadísticas y matriciales para un mejor

estudio de la matriz de correlaciones.




72

Ilustración 44. Cuadro de Dialogo Análisis factorial- Descriptivos.

Descriptivos univariados: muestra para cada variable, número de casos validos, la desviación estándar y la media.

Estadísticos descriptivos

69,94 10,695 105

43,317 38,3699 105

78,14 23,056 105

26,124 12,3582 105

9,62 4,277 105

3,551 1,8909 105

57,02 24,010 105

3,4086 ,62725 105

1,696 1,1929 105

3,1868 2,09158 105

4,1252 ,65961 105

Esperanza de v ida

f emenina

Mortalidad inf antil

(muertes por 1000

nac imientos v iv os)

Personas Alf abetizadas

(%)

Tasa de natalidad (por 1.

000 habitantes)

Tasa de mortalidad (por

1.000 habitantes)

Fert ilidad: número

promedio de hijos

Habitantes en c iudades

(%)

Log(10) de PIB_CAP

Aumento de la población

(% anual)

Tasa

Nacimientos/Def unc iones

Log(10) de Poblac ión

Media

Desv iac ión

típica N del análisis

Tabla 21. Estadísticos descriptivos

Como se puede observar son los estadísticos para cada variable que interviene en el

estudio.

Solución inicial: con esta opción se obtienen las comunalidades iniciales, los




73

autovalores de la matriz analizada y los porcentajes de varianza que esta

relacionada a cada factor que ha sido extraído; las comunalidades son la

proporción de la varianza que puede ser explicada por el modelo factorial en

cada variable, en este caso se puede observar que son altos los niveles que

posee cada variable que fue utilizada para la extracción de los factores en este

caso.

Comunalidades

1,000 ,965

1,000 ,944

1,000 ,857

1,000 ,965

1,000 ,911

1,000 ,927

1,000 ,719

1,000 ,813

1,000 ,958

1,000 ,951

1,000 ,939

Esperanza de v ida

f emenina

Mortalidad inf ant il

(muertes por 1000



(%)


000 habitantes)


1.000 habitantes)


promedio de hijos

Habitantes en ciudades

(%)

Log(10) de PIB_CAP

Aumento de la población

(% anual)

Tasa

Nacimientos/Def unciones


Inic ial Extracción

Método de extracción: Análisis de Componentes principales.

Tabla 22. Comunalidades iniciales

Dentro de los estadísticos que ofrece la matriz de correlaciones tenemos:

Coeficientes: Muestra los coeficientes de correlación de cada variable.

Determinante: Añade a la matriz de correlaciones su determinante, el cual sirve

para analizar la pertinencia del análisis ya que si este es muy cercano a cero

indica que las variables utilizadas están linealmente relacionadas, pero si este es

cero indica dependencia lineal entre ellas lo cual no sirve para la realización del

análisis.




74

Ilustración 45. Detalle estadísticos.

Para el caso se puede observar que el determinante es muy cercano a cero 1.506

x10-8 lo que indica que este estudio factorial es muy indicado para este caso.

Reproducida: La matriz reproducida es la matriz de correlaciones que se

obtiene de la solución factorial, en la diagonal de esta matriz se encuentran la

comunalidades finales inmediatamente debajo se muestra la matriz de

correlacione residuales que tiene la diferencia de de las correlaciones

observadas y las reproducidas, si el modelo es bueno los factores con residuos

altos debe ser pequeño, Si el modelo es bueno y el numero de factores el

adecuado esta la matriz de correlaciones debe poderse reproducir.

Coeficientes de cada variable

Determinante




75

Correlaciones reproducidas

,703b

,800 ,703 -,790 ,563 -,676 -,570 ,000 -,658 -,270 ,790

,800 ,975b

,878 -,958 ,656 -,867 -,703 -,070 -,856 -,077 ,959

,703 ,878 ,838b

-,874 ,671 -,873 -,502 -,274 -,856 -,011 ,847

-,790 -,958 -,874 ,946b

-,672 ,872 ,652 ,119 ,858 ,096 -,939

,563 ,656 ,671 -,672 ,646b

-,735 -,183 -,423 -,700 -,202 ,614

-,676 -,867 -,873 ,872 -,735 ,951b

,374 ,469 ,927 -,055 -,821

-,570 -,703 -,502 ,652 -,183 ,374 ,937b

-,551 ,403 -,034 -,741

,000 -,070 -,274 ,119 -,423 ,469 -,551 ,939b

,428 -,162 ,006

-,658 -,856 -,856 ,858 -,700 ,927 ,403 ,428 ,907b

-,099 -,814

-,270 -,077 -,011 ,096 -,202 -,055 -,034 -,162 -,099 ,935b -,081

,790 ,959 ,847 -,939 ,614 -,821 -,741 ,006 -,814 -,081 ,950b

-,034 -,049 ,046 ,056 ,041 ,048 ,004 ,050 ,097 -,036

-,034 -,012 -,004 -,008 ,001 ,000 -,011 ,009 -,008 ,023

-,049 -,012 -,028 -,117 ,004 ,017 ,003 -,010 -,039 -,039

,046 -,004 -,028 ,025 -,003 -,016 -,005 -,014 ,010 ,002

,056 -,008 -,117 ,025 ,067 ,014 ,069 ,105 ,118 ,030

,041 ,001 ,004 -,003 ,067 ,011 -,003 ,049 ,036 ,012

,048 ,000 ,017 -,016 ,014 ,011 ,041 ,021 ,031 -,002

,004 -,011 ,003 -,005 ,069 -,003 ,041 ,002 ,027 -,012

,050 ,009 -,010 -,014 ,105 ,049 ,021 ,002 ,055 ,020

,097 -,008 -,039 ,010 ,118 ,036 ,031 ,027 ,055 ,002

-,036 ,023 -,039 ,002 ,030 ,012 -,002 -,012 ,020 ,002


(%)

Esperanza de v ida

f emenina


(%)


(muertes por 1000


Producto interior bruto

per-capita


000 habitantes)


1.000 habitantes)

Tasa



promedio de hijos


Esperanza de v ida

masculina


(%)

Esperanza de v ida

f emenina


(%)


(muertes por 1000



per-capita


000 habitantes)


1.000 habitantes)

Tasa



promedio de hijos


Esperanza de v ida

masculina

Correlac ión reproducida

Residuala

Habitantes en

ciudades (%)

Esperanza de

v ida f emenina

Personas

Alfabetizadas

(%)

Mortalidad

inf ant il

(muertes por

1000

nac imientos

v ivos)

Producto

interior bruto

per-capita

Tasa de

natalidad

(por 1.000

habitantes)

Tasa de

mortalidad

(por 1.000

habitantes)

Tasa

Nacimientos/

Def unciones

Fert ilidad:

número

promedio

de hijos

Log(10) de

Población

Esperanza

de v ida

masculina

Método de extracción: Análisis de Componentes principales.

Los residuos se calculan entre las correlaciones observadas y reproduc idas. Hay 9 (16,0%) residuales no redundantes con v alores absolutos may ores que 0,05.a.

Comunalidades reproducidasb.

Tabla 23. Matriz reproducida




76

Ilustración 46. Detalle matriz reproducida

KMO y Prueba de esfericidad de Bartlett: Kaiser-Meyer-Olkin (KMO) es la medida de adecuación maestral este toma valores entre 0 y 1; los datos

menores a 0.5 dan al investigador la noción de que no es muy buena idea

realizar el análisis factorial con los datos que se tienen. La prueba de esfericidad

es el estadístico de prueba para la hipótesis nula de que la matriz de

correlaciones es una matriz identidad, lo que querría decir que no existen

correlaciones significativas entre las variables lo que supone que la realización

de análisis factorial no seria adecuado.

Diagonal de Comunalidades

Residuos




77

KMO y prueba de Bartlett

,862

1785,571

55

,000

Medida de adecuación muestral de

Kaiser-Mey er-Olkin.

Chi-cuadrado

aproximado

gl

Sig.

Prueba de esf ericidad

de Bartlet t

Tabla 24.Prueba KMO

Después del cuadro de varianza total explicada la cual nos permite ver cuales factores

son los mas apropiados para el estudio, aquellos cuyos autovalores sean mayores que

1y que preferiblemente al realizar la suma de las saturaciones y la rotación de factores

sigan siendo mayores que 1 y logren explicar en gran cantidad la varianza total de las

variables.

Varianza total explicada

6,887 62,610 62,610 6,887 62,610 62,610 6,874 62,488 62,488

1,790 16,275 78,885 1,790 16,275 78,885 1,773 16,118 78,606

1,049 9,539 88,425 1,049 9,539 88,425 1,080 9,819 88,425

,567 5,151 93,576

,292 2,654 96,230

,171 1,553 97,783

,106 ,961 98,744

,074 ,676 99,420

,038 ,349 99,770

,016 ,150 99,920

,009 ,080 100,000

Componente

1

2

3

4

5

6

7

8

9

10

11

Total

% de la

v arianza % acumulado Total

% de la

v arianza % acumulado Total

% de la

v arianza % acumulado

Autov alores iniciales

Sumas de las saturac iones al cuadrado

de la extracción

Suma de las saturaciones al cuadrado

de la rotac ión

Método de extracción: Anális is de Componentes principales.

Tabla 25. Varianza total explicada

Ilustración 47. Detalle varianza total




78

Para este ejemplo podemos ver como el primer factor explica gran cantidad de la

varianza y que además se cuenta con otros dos factores que sirven para el modelo ya

que el total supera 1 y además entre los tres logran explicar el 88.42% de la varianza

total de las variables del modelo.

Este cuadro se puede ver de una manera grafica mediante el grafico de sedimentación:

1 2 3 4 5 6 7 8 9 10 11

Número de componente

0

1

2

3

4

5

6

7

Au

tov

alo

rGráfico de sedimentación

Ilustración 48. Grafico de sedimentación.

Este es el grafico de los autovalores generados por el análisis y al verlo ya se puede

hacer una idea de los factores que más explicarían el modelo, ya que cuando la grafica

se torna muy plana estos son componentes residuales que no son importantes para el

análisis.

Una de las partes más importantes del análisis es la matriz de componentes o

estructura factorial ya que su nombre cambia dependiendo el método de extracción

utilizado ya que esta nos permite ver las correlaciones o saturaciones que mas explica

cada factor y de esta manera ver que variables están mas relacionadas con cada factor

y de esta manera podemos nombrar cada factor para su estudio.




79

Matriz de componentesa

,978 ,134 ,024

-,969 -,082 ,009

,952 ,207 ,037

-,926 ,301 -,055

,910 -,096 ,034

-,909 ,264 -,109

,798 ,179 -,184

,716 -,283 -,232

-,202 ,947 ,045

-,616 -,701 -,256

-,071 -,231 ,936

Esperanza de v ida

f emenina


(muertes por 1000

nacimientos v iv os)

Esperanza de v ida

masculina


000 habitantes)


(%)


promedio de hijos


(%)


per-capita

Tasa



1.000 habitantes)


1 2 3

Componente

Método de extracción: Anális is de componentes principales.

3 componentes extraídosa.

Tabla 26. Matriz de componentes.

En esta tabla podemos observar que las esperanzas de vida masculina y femenina,

personas alfabetizadas, habitantes en ciudades y producto interno bruto saturan

positivamente el primer factor y como la mortalidad infantil y la tasa de natalidad lo

hacen negativamente en este caso podríamos denominar el factor como calidad de vida

y esperanza de vida. El segundo factor es saturado por la tasa de

nacimientos/defunciones y por la tasa de mortalidad, este factor se podría denominar

simplemente tasa de nacimientos/defunciones y el tercer factor solamente es saturado

por el log 10 de la población; como se puede ver todos los factores son

independientes entre ellos lo que comprueba que el análisis es apropiado para este

caso.




80

Y además es importante tener en cuenta la matriz ya rotada:

Matriz de componentes rotadosa

,970 ,179 -,026

-,964 -,121 ,049

,941 ,253 -,028

-,940 ,243 -,088

-,922 ,197 -,134

,914 -,048 ,029

,786 ,176 -,235

,725 -,290 -,191

-,247 ,928 -,132

-,586 -,764 -,101

-,044 -,050 ,964

Esperanza de v ida

f emenina


(muertes por 1000


Esperanza de v ida

masculina


000 habitantes)


promedio de hijos


(%)


(%)


per-capita

Tasa



1.000 habitantes)


1 2 3

Componente

Método de extracción: Anális is de componentes principales.

Método de rotación: Normalización Varimax con Kaiser.

La rotación ha conv ergido en 4 iteraciones.a.

Tabla 27. Matriz de componentes rotados

En este caso las saturaciones no cambian mucho lo que permite seguir con los factores

que ya se habían elegido.

Para finalizar el análisis entre las opciones que ofrece la reducción factorial esta el cálculo de las puntuaciones que servirán para la realización de la regresión lineal con

los nuevos factores que se obtuvieron

Ilustración 49. Analisis factorial- puntuaciones factoriales




81

8. Conclusiones

El análisis de conglomerados jerárquicos y el análisis de conglomerados de k medias

son métodos de análisis de tipo aglomerativo, ya que parten de casos

individuales y van agrupando casos hasta llegar a grupos o conglomerados

homogéneos.

Si se tiene un gran número de casos para conglomerar es conveniente emplear el método de conglomerado jerárquico en dos fases.

Si se tiene un gran número de casos para conglomerar y todas las variables son

escalares se puede emplear el análisis de Análisis de Conglomerados de K Medias.

Si se desea examinar la estructura de las variables y son variables escalares, se puede realizar mediante el análisis factorial.




82

9. Bibliografia

REYES, Rafael. La Estrategia de Mercados en el Siglo XXI, Revista entorno No.163,

Confederación Patronal de la República Mexicana, México, Marzo 2002.

STANTON, ET AL. “Fundamentos de Marketing”, McGrawHIl, México, 1999.

KOTLER, Phillip. “Dirección de Marketing. La edición del milenio” PrenticeHall,

México., 2001

Market Segmentation Using SPSS®, SPSS Inc. Estados Unidos De America, 2003.

Malhotra, Naresh K.. Investigación de mercados un enfoque práctico Naresh K.

Malhotra ; tr. Verania de Parres Cárdenas. 2a. ed..-- México : Prentice Hall : Pearson

Educación : Addison Wesley 1997.

http://www.spss.com/la/apps/data-mining2.htm

http://www.estadistico.com/arts.html?20001023

http://www.spss.com/la/apps/data-mining2.htm

Documents

SPSS Orientado a Mercados