View
18
Download
2
Tags:
Embed Size (px)
DESCRIPTION
Análisis estadísticos en SPSS para la investigación de mercado,
Citation preview
Esta obra esta bajo una licencia reconocimiento-no comercial 2.5
Colombia de creativecommons. Para ver una copia de esta
licencia, visite http://creativecommons.org/licenses/by/2.5/co/ o
envié una carta a creative commons, 171second street, suite 30 San
Francisco, California 94105, USA
SPSS ORIENTADO A LA
GESTION DE MERCADOS
Autores:
MARTHA GUEVARA PEÑUELA
HÉCTOR JAVIER CORTÉS SUÁREZ
Director Unidad Informática: Henry Martínez Sarmiento
Tutor Investigación: Maria Alejandra Enríquez
Coordinadores: Maria Alejandra Enríquez
Leydi Diana Rincón Rincón
Coordinador Servicios Web: Daniel Alejandro Ardila
Analista de Infraestructura
y Comunicaciones: Adelaida Amaya
Analista de Sistemas de
Información: Álvaro Enrique Palacios Villamil
Líder de Gestión de
Recurso Humano: Islena del Pilar Gonzalez
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
BOGOTÁ D.C.
ENERO DE 2006
SPSS ORIENTADO A LA
GESTION DE MERCADOS
Director Unidad Informática: Henry Martínez Sarmiento
Tutor Investigación: María Alejandra Enríquez
Auxiliares de Investigación:
Adriana Lucia Castelblanco
Alexis de Jesús Moros
Andrés Ricardo Romero
Brayan Ricardo Rojas
Carlos Hernán Porras
Catherin Cruz Pinzón
Cristian Gerardo Gil
Daniel Alejandro Melo
Diana Patricia García
Diego Fernando Rubio
Edwin Montaño
German David Riveros
Guillermo Alberto Ariza
Juan Felipe Rincón
Leidy Viviana Avilés
Leydy Johana Poveda
Liliana Paola Rincón
Luis Alfonso Nieto
Luz Karina Ramos
Maria Teresa Mayorga
Miller Giovanny Franco
Nubia Yolima Cucarian
Rafael Leonardo Saavedra
Sandra Liliana Barrios
Sandra Milena Cárdenas
Sandra Mónica Bautista
Sonia Janeth Ramírez
Yaneth Adriana Cañón
Este trabajo es resultado del esfuerzo de todo el
equipo perteneciente a la Unidad de Informática.
Se prohíbe la reproducción parcial o total de este
documento, por cualquier tipo de método fotomecánico
y/o electrónico, sin previa autorización de la
Universidad Nacional de Colombia.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
BOGOTÁ D.C.
ENERO 2006
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
1
Tabla De Contenido
Tabla De Contenido........................................................................................................................ 1
Tabla De Ilustraciones Y Tablas ................................................................................................... 5
Resumen ............................................................................................................................................ 9
Abstract ............................................................................................................................................. 9
Introducción .................................................................................................................................... 10
Objetivos ......................................................................................................................................... 11
OBJETIVO GENERAL .............................................................................................................. 11
OBJETIVOS ESPECIFICOS ...................................................................................................... 11
1. Marco Teórico ...................................................................................................................... 12
1.1. SPSS ................................................................................................................................. 12
1.2. Segmentación De Mercados ................................................................................... 13
1.2.1. Proceso de Segmentación de mercados................................................... 14
1.2.2. Tipos de Segmentación de mercados ....................................................... 14
1.2.3. Segmentación de mercados usando SPSS ................................................ 15
2. Árboles De Clasificación .................................................................................................. 16
2.1. Pasos ................................................................................................................................... 18
3. Análisis Cluster O Análisis De Conglomerados Para La Segmentación De
Mercados ......................................................................................................................................... 19
3.1. Pasos para el análisis de Conglomerados ............................................................... 19
3.1.1. Formulación del Problema ................................................................................ 20
3.1.2. Selección de una Medida de Similitud ............................................................ 20
3.1.3. Estandarización de Datos ................................................................................. 20
3.1.4. Supuestos del Análisis ........................................................................................ 20
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
2
3.1.5. Selección del Procedimiento de Agrupación ................................................ 20
3.1.6. Decisión del Número de Conglomerados .................................................... 21
3.1.7. Interpretación y Elaboración del Perfil de los Clusters ............................. 21
3.1.8. Validación de Conglomerados Obtenidos .................................................... 22
4. Análisis De Conglomerados En Dos Fases ..................................................................... 23
4.1. Pasos para el análisis de conglomerados en dos fases ........................................ 23
4.2. Medida de distancia ..................................................................................................... 24
4.3. Número de conglomerados: ..................................................................................... 24
4.4. Recuento de variables continuas .............................................................................. 25
4.5. Criterio de conglomeración: ..................................................................................... 25
4.6. Opciones ....................................................................................................................... 25
4.7. Asignación de memoria: ............................................................................................. 26
4.8. Tipificación de variables: ............................................................................................ 26
4.9. Opciones avanzadas .................................................................................................... 26
4.10. Gráficos: ......................................................................................................................... 26
4.11. Resultados ..................................................................................................................... 27
4.12. Ejemplo .............................................................................................................................. 32
4.11.1. Conglomerados en dos fases ........................................................................... 33
4.11.2. Perfiles de los conglomerados ......................................................................... 35
4.11.3. Frecuencias........................................................................................................... 36
4.11.4. Importancia de los atributos ............................................................................ 36
4.11.5. Porcentaje Intra-conglomerado ...................................................................... 36
4.11.6. Variación Intra-conglomerado ......................................................................... 37
4.11.7. Importancia según agrupación ......................................................................... 40
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
3
5. Análisis De Conglomerados Jerárquico ........................................................................... 44
5.1. Pasos para el análisis de conglomerados jerárquico ............................................ 45
5.2. Dendrograma:............................................................................................................... 45
5.3. Clases de métodos de Conglomeración ................................................................ 45
5.4. Medida ............................................................................................................................ 47
5.4.1. Medida de intervalo............................................................................................ 47
5.4.2. Medida de Frecuencias: ........................................................................................ 48
5.4.3. Medida Binaria: .................................................................................................... 48
5.5. Ejemplo: ......................................................................................................................... 48
5.5.1. Gráficos................................................................................................................. 49
5.5.2. Método de conglomeración ............................................................................. 50
5.5.3. Conglomerados jerárquicos ............................................................................. 51
5.5.4. Vinculación de centroides................................................................................. 51
5.5.5. Dendrograma ...................................................................................................... 53
6. Conglomerados De K Medias ............................................................................................ 55
6.1. Preparando el análisis ................................................................................................. 56
6.2. Resultados del análisis ................................................................................................ 59
7. Análisis Factorial Para La Reducción De Datos ..................................................... 65
7.1. Que Buscar Cuando Se Realiza Un Analisis Factorial ......................................... 65
7.2. Principios ....................................................................................................................... 66
7.3. Análisis factorial en SPSS ............................................................................................ 66
7.4. Etapas en un análisis factorial. ................................................................................... 67
7.4.1. Extracción de factores. ...................................................................................... 68
7.4.2. Rotación De Factores ........................................................................................ 70
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
4
7.4.3. Descriptivos ......................................................................................................... 71
8. Conclusiones ......................................................................................................................... 81
9. Bibliografia .............................................................................................................................. 82
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
5
Tabla De Ilustraciones Y Tablas
Ilustración 1. Ejemplo de árbol de Clasificación generado por SPSS 16
Ilustración 2. Conglomerados en dos Fases 24
Ilustración 3. Conglomerados en dos fases: Opciones 25
Ilustración 4. Conglomerados en dos fases: Gráficos 27
Ilustración 5. Conglomerados en dos fases: Resultados 27
Ilustración 6. Variación Intra- Conglomerado 30
Ilustración 7. Ajuste de Bonferroni aplicado 31
Ilustración 8. Ajuste de Bonferroni Aplicado2 32
Ilustración 9. Análisis de Conglomerados en dos Fases 33
Ilustración 10. Conglomerados en dos fases: Gráficos 33
Ilustración 11. Tamaño de los Conglomerados 36
Ilustración 12. Porcentaje dentro del Conglomerado de sexo 37
Ilustración 13. Variación Intra- Conglomerado 1 38
Ilustración 14.Variación Intra-Conglomerado 2 39
Ilustración 15. Variación Intra-Conglomerado 3 39
Ilustración 16.Variación Intra-Conglomerado 4 40
Ilustración 17. Ajuste de Bonferroni Aplicado-Sexo 41
Ilustración 18. Ajuste de Bonferroni Aplicado- Salario Actual 41
Ilustración 19. Ajuste de Bonferroni Aplicado: Salario Inicial 42
Ilustración 20. Ajuste de Bonferroni aplicado: Meses desde el contrato 42
Ilustración 21. AJuste de Bonferroni: Experiencia Previa en meses 43
Ilustración 22. Métodos de enlace para el Conglomerado 46
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
6
Ilustración 23. Métodos de Agrupación por Aglomeración 47
Ilustración 24. Menú: Análisis de Conglomerados Jerárquico 49
Ilustración 25.Análisis de Conglomerados Jerárquicos: Estadísticos 49
Ilustración 26. Análisis de Conglomerados Jerárquicos: Gráficos 50
Ilustración 27. Métodos de Conglomeración 50
Ilustración 28. Diagrama de témpanos Vertical 53
Ilustración 29. Dendograma 54
Ilustración 30. Diagrama de dispersión primer grupo 55
Ilustración 31. Diagrama de dispersión segundo grupo 56
Ilustración 32. Ruta conglomerados K medias 57
Ilustración 33. Cuadro de dialogo K medias 57
Ilustración 34. Iterar 58
Ilustración 35. Guardar 58
Ilustración 36. Opciones 59
Ilustración 37. Grafico de dispersión conglomerados finales primer grupo 63
Ilustración 38. Grafico de dispersión conglomerados finales segundo grupo 64
Ilustración 39. Análisis factorial 67
Ilustración 40. matriz de covarianza 67
Ilustración 41. Cuadro de dialogo análisis factorial 69
Ilustración 42. Cuadro de Dialogo Análisis factorial- Extracción 69
Ilustración 43. Cuadro de Dialogo Análisis factorial- Rotación. 71
Ilustración 44. Cuadro de Dialogo Análisis factorial- Descriptivos. 72
Ilustración 45. Detalle estadísticos. 74
Ilustración 46. Detalle matriz reproducida 76
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
7
Ilustración 47. Detalle varianza total 77
Ilustración 48. Grafico de sedimentación. 78
Ilustración 49. Analisis factorial- puntuaciones factoriales 80
Tabla 1. Agrupación Automática ................................................................................................ 28
Tabla 2. Distribución de los Conglomerados .......................................................................... 29
Tabla 3. Perfiles de los Conglomerados ................................................................................... 29
Tabla 4. Frecuencias de Conglomerados .................................................................................. 29
Tabla 5. Distribución de Conglomerados ................................................................................ 34
Tabla 6. Perfiles de los Conglomerados ................................................................................... 35
Tabla 7. Frecuencias de los Conglomerados ........................................................................... 36
Tabla 8. Resumen del procesamiento de los casos ................................................................ 50
Tabla 9. Matriz de Distancias ...................................................................................................... 51
Tabla 10. Historial de Conglomeración .................................................................................... 52
Tabla 11. Diagrama de témpanos Vertical ............................................................................... 52
Tabla 12. Cuadro conglomerados iniciales primer grupo ..................................................... 59
Tabla 13. Cuadro conglomerados iniciales segundo grupo .................................................. 59
Tabla 14. Cuadro historial de iteraciones primer grupo ...................................................... 60
Tabla 15. Cuadro historial de iteraciones segundo grupo.................................................... 60
Tabla 16. Conglomerados finales primer grupo...................................................................... 61
Tabla 17. Conglomerados finales segundo grupo ................................................................... 61
Tabla 18. ANOVA ......................................................................................................................... 61
Tabla 19. Casos por conglomerado primer grupo ................................................................. 62
Tabla 20. Casos por conglomerado segundo grupo .............................................................. 62
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
8
Tabla 21. Estadísticos descriptivos ............................................................................................. 72
Tabla 22. Comunalidades iniciales .............................................................................................. 73
Tabla 23. Matriz reproducida ...................................................................................................... 75
Tabla 24.Prueba KMO .................................................................................................................. 77
Tabla 25. Varianza total explicada .............................................................................................. 77
Tabla 26. Matriz de componentes. ............................................................................................. 79
Tabla 27. Matriz de componentes rotados .............................................................................. 80
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
9
Resumen
Esta investigación dedicada a varias herramientas útiles que incluye el programa
estadístico SPSS para la realización de una investigación de mercados, en este caso para
la realización de la segmentación de mercados.
El documento empieza con un pequeño marco teórico dedicado a la segmentación y a
explicar brevemente el programa, después se empieza a explicar concisamente un
modulo llamado Árboles de clasificación, para luego entrar de lleno al estudio por
conglomerados mediante una introducción a la forma en que se realizan generalmente,
y se describen tres formas para realizarlos, análisis de dos fases, el conglomerado
jerárquico y el sistema K medias. Para finalizar se explora el sistema de reducción de
datos mediante análisis factorial.
Abstract
This investigation is dedicated to several useful tools of the statistical program SPSS for
the accomplishment of an investigation of markets, in this case for the accomplishment
of the segmentation of markets includes.
The document begins with a little theoretical frame dedicated to the segmentation and
to explain the program briefly, later begins to explain concisely the modulate call
Answer Tree, soon to enter completely the cluster analysis by means of an
introduction the form in which they are made generally, and three forms are described to make them, analysis of two phases, the hierarchic cluster and system K means. In
order to finalize the system of reduction of data by factorial analysis is explored.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
10
Introducción
SPSS es una potente herramienta para el análisis estadístico, la cual posee aplicaciones
para gran variedad de ciencias y áreas del conocimiento. Teniendo en cuenta los
módulos que esta herramienta presenta para el análisis y estudios de mercados, es
necesario implementar una línea de investigación dedicada al estudio de las ventajas y
aprovechamiento de los recursos ofrecidos.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
11
Objetivos
OBJETIVO GENERAL
Aprovechar en mayor medida la licencia adquirida de SPSS por la Universidad Nacional
de Colombia a través del estudio de las herramientas de mercados que ofrece la
aplicación adquirida y brindar soporte a la carrera de administración para que sea de
amplia utilidad a la comunidad estudiantil.
OBJETIVOS ESPECIFICOS
Estudiar las diferentes funciones, módulos o herramientas específicas o aplicables al estudio de mercados que ofrece SPSS.
Generar un manual completo referente a las herramientas para el análisis y
gestión de mercados con la ayuda de SPSS.
Crear un programa detallado para la gestión de un curso libre o capacitación para la Facultad de Ciencias Económicas.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
12
1. Marco Teórico
A nivel mundial la tendencia clave que afectará a la estrategia de mercadotecnia en el
siglo XXI será el comercio global; porque no hay duda alguna de que el mundo se está
convirtiendo en una economía global y en un mercado completamente abierto en
todos los países; en los cuáles la competencia ya no solo se centra con las empresas
productoras de la ciudad o del país sino con las empresas que están dedicadas a
satisfacer las mismas necesidades a los clientes potenciales.
Eso significa que la situación se va a volver más difícil. Cuando la competencia se
desarrolle globalmente, todo el mundo intentará arrebatarle el negocio a todo el
mundo. El siglo XXI hará que el siglo XX parezca una reunión para tomar el té. Se va a ver una serie de cambios masivos en respuesta a esos desarrollos globales. Aunque lo
que debiera suceder es exactamente lo contrario. Conceptualmente, cuanto más
grande es el mercado, más especializados debemos ser para poder tener éxito.1
Es aquí donde aparece la estrategia de mercados como una herramienta para que la
empresa pueda definir más claramente su segmento de mercado y pueda dirigir con
más eficiencia y eficacia sus esfuerzos para satisfacer a sus clientes de la mejor manera.
Es clave que las empresas logren profundizar en el conocimiento de su mercado para
que de esta forma pueda adaptar su oferta y su estrategia de mercado a los
requerimientos de éste. Es en este punto donde la segmentación entra o tomar parte
de todo proceso de planeación y toma como un factor primordial el reconocimiento de que el mercado es heterogéneo, y pretende dividirlo en grupos o segmentos
homogéneos, que pueden ser elegidos como un mercado objetivo de la empresa. Así
pues, la segmentación implica un proceso de diferenciación de las necesidades dentro
de un mercado.2
1.1. SPSS
El programa SPSS (Statistical Package for the Social Sciences) es un conjunto de
paquetes y herramientas de tratamiento de datos y análisis estadístico. Al igual, que el
resto de aplicaciones que utilizan como soporte el sistema operativo Windows y
1 Tomado de: http://www.coparmex.org.mx/contenidos/publicaciones/Entorno/2002/mar02/e.htm
2 REYES, Rafael. La Estrategia de Mercados en el Siglo XXI, Revista entorno No.163, Confederación
Patronal de la República Mexicana, México, Marzo 2002.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
13
funcionan mediante menús desplegables y cuadros de dialogo que permiten hacer la
mayor parte del trabajo simplemente utilizando el Mouse.
SPSS es un paquete de software usado para conducir los análisis estadísticos, manipular
datos, generar tablas y gráficos que resumen datos.
Los análisis estadísticos se extienden desde estadística descriptiva básica, tales como
promedios y frecuencias, a la estadística deductiva avanzada, tales como modelos de la
regresión, análisis de variación y análisis factorial.
1.2. Segmentación De Mercados
La segmentación de mercado es un proceso que consiste en dividir el mercado total de
un bien o servicio en varios grupos más pequeños e internamente homogéneos. La
esencia de la segmentación es conocer realmente a los consumidores. Uno de los
elementos decisivos del éxito de una empresa es su capacidad de segmentar
adecuadamente su mercado.3
La segmentación es también un esfuerzo por mejorar la precisión del mercadeo de una
empresa. Es un proceso de incorporación: agrupar en un segmento de mercado a personas con necesidades semejantes.
El comportamiento del consumidor suele ser demasiado complejo como para
explicarlo con una o dos características, se deben tomar en cuenta varias dimensiones,
partiendo de las necesidades de los consumidores.
Las principales ayudas de la segmentación de mercados son:4
Permitir la identificación de las necesidades de los clientes específicamente dentro
de un sub-mercado y así mismo lograr un diseño más eficaz de la mezcla de
mercado para satisfacerlas de la mejor manera.
Al tener claramente definido el segmento de mercado al que se quiere dirigir la
oferta del producto se pueden establecer de una mejor manera el precio, la
selección de los canales de distribución y además los medios publicitarios que serán
usados.
Cuando una empresa pequeña esta pensando en penetrar un mercado puede lograr
una mejor posición si logra especializarse mas en la satisfacción de una necesidad
más especifica.
3 STANTON, ET AL. “Fundamentos de Marketing”, McGrawHIl, México, 1999.
4 KOTLER, Phillip. “Dirección de Marketing. La edición del milenio” PrenticeHall, México., 2001.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
14
Al especificar el segmento se reducen el número de potenciales competidores.
La segmentación permite la especialización lo que puede generar oportunidades de
crecimiento y al mismo tiempo la creación de ventajas competitivas.
1.2.1. Proceso de Segmentación de mercados
Para la segmentación se deben realizar los siguientes pasos:
ESTUDIO:
Se examina el mercado para determinar las necesidades específicas satisfechas por las
ofertas actuales, las que no lo son y las que podrían ser reconocidas. Se llevan acabo
una investigación exploratoria y se organizan sesiones de grupos para entender mejor
las motivaciones, actitudes y conductas de los consumidores. Se reúnen datos sobre
los atributos y la importancia que se les da, conciencia de marca y calificaciones de
marcas, patrones de uso y actitudes hacia la categoría de los productos; así como,
datos demográficos, psicográficos, etc.
ANÁLISIS:
Se interpretan los datos para eliminar las variables y agrupar o construir el segmento
con los consumidores que comparten un requerimiento en particular y lo que los
distingue de los demás segmentos del mercado con necesidades diferentes.
PREPARACIÓN DE PERFILES:
Se prepara un perfil de cada grupo en términos de actitudes distintivas, conductas,
demografía, etc. Se nombra a cada segmento con base a su característica dominante. La
segmentación debe repetirse periódicamente porque los segmentos cambian. También
se investiga la jerarquía de atributos que los consumidores consideran al escoger una
marca, este proceso se denomina partición de mercados. Esto puede revelar
segmentos nuevos de mercado.5
1.2.2. Tipos de Segmentación de mercados6
Segmentación Geográfica: subdivisión de mercados con base en su ubicación. Posee
características mensurables y accesibles.
Segmentación Demográfica: se utiliza con mucha frecuencia y está muy relacionada
con la demanda y es relativamente fácil de medir. Entre las características
demográficas más conocidas están: la edad, el género, el ingreso y la escolaridad.
Segmentación Psicográfica: Consiste en examinar atributos relacionados con
pensamientos, sentimientos y conductas de una persona. Utilizando dimensiones de
5 Tomado de: http://www.monografias.com/trabajos13/segmenty/segmenty.shtml
6 STANTON, ob.cit.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
15
personalidad, características del estilo de vida y valores.
Segmentación por comportamiento: se refiere al comportamiento relacionado con
el producto, utiliza variables como los beneficios deseados de un producto y la tasa
a la que el consumidor utiliza el producto.
1.2.3. Segmentación de mercados usando SPSS7
Para la realización de investigación de mercados se emplean las diferentes técnicas
estadísticas que proporciona SPSS, como el análisis cluster, análisis factorial,
segmentación de mercados con programas como CHAID y AnswerTree, análisis
discriminante, el análisis conjunto (CONJOINT), modelado de ecuaciones estructurales con un programa denominado AMOS, y el diseño de redes neuronales
con Neural Connection.
7 Market Segmentation Using SPSS®, SPSS Inc. Estados Unidos De America, 2003.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
16
2. Árboles De Clasificación
Los árboles de clasificación son un Nuevo modulo que ofrece SPSS el cual permite
identificar grupos, descubrir relaciones entre los grupos y pronosticar eventos futuros.
Los árboles de clasificación y decisión se pueden usar para la segmentación,
estratificación, predicción, reducción de datos, examinar variables identificar
interacciones, fundir categorías y categorizar variables.
Los árboles pueden se usados para la creación de bases de datos para tomar
decisiones en mercadeos ya que se puede elegir alguna variable respuesta para la
segmentación, se pueden crear perfiles mediante cualquier atributo de las variables.
Además el apoyo a la investigación de mercados debido a que permite al realizar encuestas de satisfacción la creación de variables en escala que midan dicha
satisfacción, asimismo la creación de perfiles de niveles de satisfacción de acuerdo a las
respuestas de distintas preguntas. Se pueden crear grupos de riesgos basados en la
información que se posea de los clientes o trabajadores. Igualmente permite tener más
seguridad en el establecimiento de objetivos ya que permite realizar pronósticos.
Ilustración 1. Ejemplo de árbol de Clasificación generado por SPSS
El procedimiento de Árbol de Clasificación crea a un modelo de la clasificación tipo
árbol. Clasifica los casos en los grupos o predice valores de una pendiente (objetivo) la
variable basada en los valores de la variable independiente (predictora). El
procedimiento proporciona las herramientas para un análisis exploratorio y para la
confirmación de la clasificación.
El procedimiento puede usarse para:
SEGMENTACIÓN: Identifica personas que probablemente pertenecen a un grupo en
particular.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
17
ESTRATIFICACIÓN: Asigna varias categorías a los casos tales como alto, medio y bajo
riesgo.
PREDICCIÓN: Crea las reglas y las usa para predecir los eventos futuros, como la
probabilidad que alguien solicite un préstamo o el valor de reventa potencial de un
vehículo o casa.
REDUCCION DE DATOS Y PROYECCION DE VARIABLES: Selecciona un
subconjunto útil de predictoras de un juego grande de variables para lograr construir
un modelo paramétrico formal.
IDENTIFICACIÓN DE LA INTERACCIÓN: Identifica relaciones que sólo pertenecen
subgrupos específicos y los especifica en un modelo paramétrico formal.
A diferencia de otros métodos de clasificación como el Análisis Cluster, AnswerTree
permite realizar clasificación de clientes en función de una variable criterio, así como
realizar pronósticos con probabilidades conocidas, por tal motivo, se considera una
herramienta con gran poder predictivo.
Ofrece la posibilidad de usar cuatro potentes algoritmos de segmentación y una
interfase intuitiva y fácil de manejar. Los resultados son sencillos de interpretar y
entender dada su interfaz grafica o presentación de los resultados en forma de árbol.
AnswerTree lee datos en distintos formatos a través de conexiones ODBC Standard y
puede ser ejecutado como un programa independiente o integrado dentro de SPSS
Base8.
Crea modelos ágilmente gracias a su asistente de árbol.
Además se pueden escoger entre tres distintos algoritmos predeterminado de
clasificación:
CHAID: Es un algoritmo estadístico multidireccional que explora datos rápida y
eficientemente, también construye segmentos y perfiles en función de la variable
respuesta establecida.
CHAID exhaustivo: examina todas las particiones posibles de una variable predoctora.
Árboles de clasificación y regresión (CRT): Produce subconjuntos de datos
homogéneos y precisos.
QUEST: Selecciona variables de manera insesgada y construye árboles binarios
precisos de manera rápida y eficiente.
8 http://www.spss.com/la/apps/data-mining2.htm
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
18
2.1. Pasos
¿Qué algoritmo seleccionar?
¿Cuál será la variable dependiente, target u objetivo?
Seleccionar las variables independientes. Por ejemplo, edad, sexo, salario, categoría
laboral, etc. que nos ayudarán a crear los perfiles.
Después de lo anterior, AnswerTree generará el árbol respectivo; el cual puede ser
aplicado a nuestra base de datos con el fin de generar listados de clientes que
responder a determinadas características. Por ejemplo. Clientes dispuestos a adquirir
determinado producto, satisfacción de los clientes, entre otras.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
19
3. Análisis Cluster O Análisis De Conglomerados Para La Segmentación De Mercados
El análisis de Conglomerados o análisis Cluster o es una técnica estadística
exploratoria, multivariable, para el análisis de datos, diseñada para indicar las
agrupaciones naturales dentro de un grupo de datos y como tal, realizar segmentación
de mercados. Cluster sugiere varias maneras potencialmente útiles de agrupar a
clientes. Se conoce también como análisis de clasificación o taxonomía numérica.
Su origen se halla en la Biología y la botánica, por la necesidad de agrupar las especies
en familias lo más homogéneamente posible
El análisis cluster se ha desarrollado en diversos datos de marketing, como posición
geográfica, comportamiento del consumidor, rangos de productos, información de uso, necesidades o ventajas. En este sentido, éste análisis contribuye a la identificación de
grupos de consumidores con comportamientos semejantes, identificación de hábitos
de compra, identificación de grupos de productos competitivos, oportunidades de
mercado.
Por ejemplo, el análisis cluster puede ser empleado para identificar ciudades o
localidades para lanzar un nuevo producto. Se aplica el análisis a todo el mercado, de
allí se determinan grupos que reúnen determinadas características y se analiza cual de
ellos es el que más se acomoda al perfil de nuestro producto.
Para comprender de una forma sencilla, el análisis cluster se basa en el concepto
simple de repartir las observaciones de los datos en los grupos homogéneos basados en la proximidad o relación del uno al otro. Se pueden encontrar los siguientes tipos
análisis cluster: Conglomerados en dos fases, análisis de k medias y análisis de
conglomerados jerárquicos.
Entonces, surge una pregunta, ¿En que difiere el análisis de conglomerados del análisis
discriminante?, la respuesta es que el análisis de conglomerados como el discriminante
se basa en la clasificación. No obstante, el análisis discriminante requiere del
conocimiento previo de la participación en el grupo de cada caso analizado, con el fin
de desarrollar la regla de clasificación. Por el contrario, en el análisis de conglomerados
no hay información preliminar de la participación de los casos en los grupos. Esta
participación se define cuando se realiza el análisis.
Se debe decidir si se emplea un método de agrupación o un método de agregación.
3.1. Pasos para el análisis de Conglomerados
Para realizar análisis de conglomerados se debe tener en cuenta los siguientes pasos:
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
20
3.1.1. Formulación del Problema
Se debe tener claro en que variables se va a basar la agrupación. Si se incluyen
variables irrelevantes se puede distorsionar la solución de agrupación y sus posteriores
análisis. Un criterio para seleccionar las variables es la investigación previa y tener en
cuenta las hipótesis que se prueban.
3.1.2. Selección de una Medida de Similitud
Como el objeto del análisis de Conglomerados es agrupar dependiendo de la similitud,
se necesitan medidas para evaluar las diferencias y similitudes entre los objetos. La
medida de Similaridad permite realizar comparación entre objetos, donde los objetos
con distancias reducidas tienen mayor parecido que aquellos que tienen distancias
mayores, por lo tanto se agrupan dentro del mismo cluster.
Para medir la similitud entre los objetos de un análisis cluster existen tres métodos.
Medidas de Correlación
Medidas de Distancia Medidas de Asociación
Las medidas de correlación y las medidas de distancia requieren datos métricos, y las
medidas de asociación requieren datos no métricos.
3.1.3. Estandarización de Datos
Cuando se ha seleccionado la medida para cuantificar la similaridad entre objetos, se
debe realizar una estandarización de los datos, ya que las variables con mayor
desviación típica tienen un mayor impacto en el resultado final de similaridad. Por
ejemplo, si se quiere hacer un análisis del consumidor y conocer que variables afectan de una manera significativa su decisión de compra y se tienen las variables edad,
ingresos y gusto por el producto. Se puede notar que cada variable tiene una escala
diferente, años, pesos, escala de 1 a 10; si se realizara un gráfico de distancias la
variable más representativa seria sin duda los ingresos. En este orden de ideas, es
necesario ser consciente del peso implícito de las varibles que hacen parte del estudio
y realizar una estandarización de éstas.
3.1.4. Supuestos del Análisis
Se debe tener en cuenta la representividad de la muestra y multicolinealidad.
3.1.5. Selección del Procedimiento de Agrupación
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
21
Se encuentran dos tipos de procedimientos los jerárquicos y los no jerárquicos.
El análisis de conglomerado jerárquico se encarga de desarrollar una jerarquía o
estructura en forma de árbol, tal es el caso de los dendogramas que arroja el análisis
de conglomerado jerárquico en spss. Los métodos jerárquicos pueden ser por
Aglomeración o por División. Para el método de conglomerados no jerárquico el caso
de agrupación de k medias es el más representativo. Más adelante se explicará con más
detalle.
3.1.6. Decisión del Número de Conglomerados
Esta decisión es un poco subjetiva. Sin embargo, para el caso del análisis cluster
jerárquico, las distancias entre los clusters pueden ser una guía útil o calcular varias
soluciones de aglomeración para luego decidir cuál es la mejor.
En el caso del análisis cluster no jerárquico, se puede realizar un gráfico para comparar
el número de grupos con la relación entre la varianza total de los grupos y la varianza
entre los grupos. En la parte del gráfico que presente una curva se estaría indicando el
número idóneo de grupos.
Si aparece un grupo de un solo miembro, se debe estudiar su representatividad.
3.1.7. Interpretación y Elaboración del Perfil de los Clusters
En este paso se pretende examinar la variación de los clusters, donde se observan las
características de cada uno y se analizan las variables que intervienen en su
conformación.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
22
El análisis de perfiles se encarga de describir las características propias de cada cluster
y no describe lo que determina la conformación de cada cluster.
3.1.8. Validación de Conglomerados Obtenidos
Este paso hace referencia al hecho de asegurarse que los cluster resultantes sean
representativos de la población, sean generalizables a otros objetos y estables con el
transcurso del tiempo.
Para realizar dicha validación se pueden realizar los siguientes pasos:
Realizar el análisis con los mismos datos y utilizar distintas medidas de distancia y comparar los resultados
Emplear distintos métodos de conglomerados y comparar resultados
Realizar submuestras, hacer análisis por separado y comparar resultados y centroides arrojados.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
23
4. Análisis De Conglomerados En Dos Fases
Este procedimiento es una herramienta exploratoria que permite descubrir las
agrupaciones o conglomerados de un conjunto de datos. Es útil cuando se tienen
grandes archivos de datos.
Realiza Tratamiento o conglomerados de variables categóricas y continuas, selección
automática del número de conglomerados, construye un árbol de características de
conglomerados (CF) que resume los registros.
Este análisis es robusto, ya que tiene en cuenta la independencia y distribuciones de
probabilidad. Emplea una medida de distancia de probabilidad que asume que las
variables en el modelo de conglomerado son independientes. Además, se asume que
cada variable continua tiene una distribución normal y cada variable categórica tiene
distribución multinomial.
Para determinar el número más conveniente de conglomerados se emplea el criterio
Bayesiano de Schwarz's (BIC) o el criterio de información Akaike.
4.1. Pasos para el análisis de conglomerados en dos fases
Se llega al análisis de conglomerados en dos fases mediante el Menú analizar, Clasificar,
Conglomerado en dos fases.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
24
Ilustración 2. Conglomerados en dos Fases
Como se puede notar hay dos cuadros para clasificar las variables categóricas y
continuas a analizar. En este caso se colocó como variable categórica el sector y como
variable continua los ingresos y la identificación del cliente.
4.2. Medida de distancia
Determina cómo se calcula la similaridad entre dos conglomerados.
Medida de Log-verosimilitud: Realiza una distribución de probabilidad entre las
variables.
Variables continuas => Distribución normal
Variables categóricas => Multinomiales
Medida Euclídea: Distancia según una "línea recta" entre dos conglomerados. Sólo se
puede utilizar cuando todas las variables son continuas.
4.3. Número de conglomerados:
Donde se especifica cómo se va a determinar el número de conglomerados
Determinar automáticamente: Como su nombre lo indica, determina automáticamente el
número "óptimo". Adicionalmente, se puede introducir un entero positivo para
especificar el número máximo de conglomerados.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
25
Especificar número fijo: Permite establecer el número de conglomerados de la solución.
4.4. Recuento de variables continuas
Realiza un resumen del cuadro de diálogo de opciones donde se especifica las variables
para tipificar y asumidas como tipificadas.
4.5. Criterio de conglomeración:
Existen dos opciones: El criterio de información bayesiano (BIC) y el criterio de
información de Akaike (AIC).
4.6. Opciones
En la parte de opciones se desprende el siguiente cuadro de diálogo, donde se le puede
dar un Tratamiento a los valores atípicos durante la conglomeración.
Ilustración 3. Conglomerados en dos fases: Opciones
Si se selecciona la opción de realizar el tratamiento del ruido y el árbol CF se llena o
no puede aceptar ningún caso más en un nodo hoja y no hay ningún nodo hoja que se
pueda dividir se hará volver a desarrollar el árbol y los valores atípicos se colocan allí,
de lo contrario se descartan dichos valores.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
26
4.7. Asignación de memoria:
Permite especificar la cantidad máxima de memoria en megabytes (MB) que puede
utilizar el algoritmo de conglomeración. Si se supera este máximo, utilizará el disco
para almacenar la información que no se pueda colocar en la memoria.
4.8. Tipificación de variables:
El algoritmo de conglomeración trabaja con variables continuas tipificadas. Las
variables continuas que no estén tipificadas deben colocarse en el espacio de variables
"Para tipificar" y las variables que estén tipificadas se colocan como variables “Asumidas
como tipificadas”.
4.9. Opciones avanzadas
Se aplican al árbol de características de conglomerados (CF)
Umbral del cambio en distancia inicial: Se emplea para incrementar la
distancia inicial del árbol de conglomerados.
Nº máximo de ramas (por nodo hoja): Número máximo de nodos que
puede tener una hoja.
Profundidad Máxima del árbol (Niveles): Número máximo de niveles que
puede tener un árbol. Máximo número posible de nodos: Indica el número máximo de nodos del
árbol CF que genera el procedimiento Cada nodo requiere como mínimo 16
Bytes.
Actualización del modelo de conglomerados: Esta opción permite
importar y actualizar modelos de conglomerados que se han generado en
análisis anteriores.
4.10. Gráficos:
Cuando se da click sobre la opción gráfico aparece el siguiente cuadro de diálogo:
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
27
Ilustración 4. Conglomerados en dos fases: Gráficos
En este caso se seleccionó la opción de grafico de prelación de importancia de las
variables y un nivel de confianza de 95%.
4.11. Resultados
Ilustración 5. Conglomerados en dos fases: Resultados
En el grupo de estadísticas se seleccionó criterio de información AIC o BIC.
Luego de determinar las variables, establecer las opciones, gráficos y resultados se da
click en aceptar y me proporciona los resultados.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
28
En nuestro caso arrojo la siguiente tabla de agrupación automática:
Número de conglomerados
Criterio bayesiano de Schwarz (BIC)
Cambio en BIC(a)
Razón de cambios en
BIC(b)
Razón de medidas de distancia(c)
1 5373,494
2 3495,637 -1877,857 1,000 1,426
3 2191,641 -1303,996 ,694 5,795
4 2002,874 -188,767 ,101 1,128
5 1840,444 -162,430 ,086 1,115
6 1699,361 -141,083 ,075 1,360
7 1607,235 -92,126 ,049 1,217
8 1539,318 -67,917 ,036 1,025
9 1474,111 -65,207 ,035 1,423
10 1441,338 -32,773 ,017 1,000
11 1408,573 -32,765 ,017 1,203
12 1388,714 -19,859 ,011 1,013
13 1369,690 -19,024 ,010 1,352
14 1367,035 -2,656 ,001 1,103
15 1368,712 1,678 -,001 1,078
Tabla 1. Agrupación Automática
a Los cambios proceden del número anterior de conglomerados de la tabla.
b Las razones de los cambios están relacionadas con el cambio para la solución de los dos conglomerados.
c Las razones de las medidas de la distancia se basan en el número actual de conglomerados frente al número de conglomerados anterior.
Esta tabla resume el proceso por el cual se seleccionaron los conglomerados. El
criterio de conglomeración (En este caso Criterio bayesiano de Schwarz (BIC)) es
calculado para cada número potencial de conglomerados.
Los valores más pequeños del Criterio bayesiano de Schwarz (BIC) indican la mejor
solución de conglomerado. Sin embargo, se presentan problemas de conglomeración
ya que el BIC disminuye cuando se incrementan los conglomerados.
La siguiente tabla muestra la frecuencia de cada conglomerado, de los 100 datos fueron
excluidos 12 del análisis por ser valores perdidos. Los 1488 casos restantes fueron
distribuidos así: 476 para el primer conglomerado, 516 para el segundo conglomerado
y 496 para el tercer conglomerado.
N % de
combinados % del total
Conglomerado 1 476 32,0% 31,7%
2 516 34,7% 34,4%
3 496 33,3% 33,1%
Combinados 1488 100,0% 99,2%
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
29
Tabla 2. Distribución de los Conglomerados
Beneficios Número ID del cliente
Media Desv. típica Media Desv. típica
Conglomerado 1 $2,545.64 $1,032.650 786,21 457,140
2 $2,481.21 $977.318 813,82 461,348
3 $2,525.49 $975.901 804,24 472,507
Combinados $2,516.58 $994.586 801,79 463,595
Tabla 3. Perfiles de los Conglomerados
La tabla de perfiles de conglomerados presenta la media y desviación estándar de cada
conglomerado. El sector en el conglomerado 1 tiene unos beneficios o ingresos
medios de $2,545.64.
Sector
Tabla 4. Frecuencias de Conglomerados
La tabla de frecuencia de conglomerados por Sector presenta con mayor claridad las
propiedades de los conglomerados. El conglomerado tres comprende completamente
el Sector de Administración, el conglomerado 2 esta compuesto por el Sector Comercio.
Variación Intra-Conglomerado
El siguiente grafico resume el comportamiento de las frecuencias por conglomerado y
Casos excluidos 12 ,8%
Total 1500 100,0%
Administración Comercio Universidad
Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje
Conglomerado 1 0 ,0% 0 ,0% 476 100,0%
2 0 ,0% 516 100,0% 0 ,0%
3 496 100,0% 0 ,0% 0 ,0%
Combinados 496 100,0% 516 100,0% 476 100,0%
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
30
la media para cada uno de ellos.
496516476N =
Intervalos de confianza al 95% simultáneos para las medias
La línea de referencia es la media global = 2516,58
Conglomerado
321
Be
ne
ficio
s2700
2600
2500
2400
2300
Ilustración 6. Variación Intra- Conglomerado
Importancia Según Variable Continua
Conglomerado 1
El siguiente grafico representa la importancia según variable continua. Las variables se
ubican en el eje Y en orden descendente de acuerdo a la importancia. La línea vertical
punteada indica los valores críticos para determinar la significancia de cada variable.
Para considerar una variable significativa la t de student debe exceder la línea punteada
en dirección positiva o negativa.
Una t negativa indica que generalmente la variable toma valores más pequeños que sus
valores medios dentro del conglomerado, mientras que una t positiva indica que la
variable toma valores más grandes que los valores medios. En este conglomerado la
variable beneficios tiene valores positivos.
Desde que las medidas de importancia para todas las variables excedan el valor crítico
en el gráfico, se puede concluir que todas las variables continuas contribuyen a la
formación del conglomerado.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
31
Importancia Según Variable Continua
Número de conglomerados en dos fases = 1
Ajuste de Bonferroni aplicado
Va
ria
ble
Número ID del client
Beneficios
t de Student
3
2
1
0
-1
-2
-3
Valor crítico
Estadístico de contr
aste
Ilustración 7. Ajuste de Bonferroni aplicado
Conglomerado 2
En este grafico se demuestra que las variables no son importantes para la formación
del conglomerado porque no alcanzan a exceder el valor crítico.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
32
Número de conglomerados en dos fases = 2
Ajuste de Bonferroni aplicado
Va
ria
ble
Beneficios
Número ID del client
t de Student
3
2
1
0
-1
-2
-3
Valor crítico
Estadístico de contr
aste
Ilustración 8. Ajuste de Bonferroni Aplicado2
Empleando el análisis de Conglomerados Jerárquico en dos fases se dividieron los
sectores de acuerdo a los ingresos en tres grupos. Para obtener conglomerados más
selectos es conveniente emplear más variables por ejemplo, estrato, experiencia, nivel
de satisfacción, entre otras.
4.12. Ejemplo:
Con el archivo de datos de empleados analizar y aplicar conglomerado en dos fases
para las variables salario actual, salario inicial, meses desde el contrato y experiencia
previa a partir de la variable categórica sexo.
Se realizan los pasos que se mencionaron anteriormente, arroja el cuadro de diálogo y
se seleccionan las variables.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
33
Ilustración 9. Análisis de Conglomerados en dos Fases
Después se especifica que realice gráfico de porcentajes intra-conglomerado y gráfico
de sectores de los conglomerados, que ordene las variables por conglomerado y arroje
medida de distancia chi-cuadrado o prueba t de significancia.
Ilustración 10. Conglomerados en dos fases: Gráficos
Se oprime aceptar y arroja los siguientes resultados, que el investigador debe analizar.
4.11.1. Conglomerados en dos fases
Del archivo de datos de empleados que tiene un total de 474 casos se realizó el
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
34
análisis de Conglomerados en dos fases. Como variable categórica se tomo el sexo y
como variable continua el salario actual, salario inicial, meses de contrato y experiencia
previa en meses. El siguiente cuadro de distribución de conglomerados muestra tres
conglomerados
Para el primer conglomerado hay 216 casos
Para el segundo conglomerado hay 194 casos
Para el tercer conglomerado hay 64 casos. No hay casos pedidos.
N % de
combinados % del total
Conglomerado 1 216 45,6% 45,6%
2 194 40,9% 40,9%
3 64 13,5% 13,5%
Combinados 474 100,0% 100,0%
Total 474 100,0%
Tabla 5. Distribución de Conglomerados
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS
UNIDAD DE INFORMÁTICA Y COMUNICACIONES
35
4.11.2. Perfiles de los conglomerados
Este cuadro representa la media y desviación estándar por cada variable continua de análisis. Por ejemplo,el conglomerado uno que representa
un 45,6% del total tiene una media de salario actual de $26,031.92 y una Desviación típica de $ 7,558.021, teniendo en cuenta que si se saca la
media del salario actual de todos los datos es de $34 419.57 y la desviación típica es de $17,075.661.
Centroides
Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses)
Media Desv. típica Media Desv. típica Media Desv. típica Media Desv. típica
Conglomerado 1 $26,031.92 $7,558.021 $13,091.97 $2,935.599 80,38 9,676 77,04 95,012
2 $31,866.01 $6,761.617 $16,069.64 $2,660.667 81,80 10,327 121,35 117,674
3 $70,468.36 $16,514.008 $33,128.91 $9,731.349 81,48 10,503 82,13 74,085
Combinados $34,419.57 $17,075.661 $17,016.09 $7,870.638 81,11 10,061 95,86 104,586
Tabla 6. Perfiles de los Conglomerados
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
36
4.11.3. Frecuencias
El conglomerado 1 esta compuesto por 216 casos o 100% de las mujeres.
El conglomerado 2 esta compuesto por 194 casos o 75,2% de los hombres
El conglomerado 3 esta compuesto por 64 casos, es decir 24.8% de hombres.
Sexo
Hombre Mujer
Frecuencia Porcentaje Frecuencia Porcentaje
Conglomerado 1 0 ,0% 216 100,0%
2 194 75,2% 0 ,0%
3 64 24,8% 0 ,0%
Combinados 258 100,0% 216 100,0%
Tabla 7. Frecuencias de los Conglomerados
4.11.4. Importancia de los atributos
Este gráfico muestra el tamaño de cada conglomerado. El conglomerado 1 tiene el 46%
de los casos, lo que equivale a 216
Tamaño de conglomerado
64 / 14%
194 / 41%
216 / 46%
3
2
1
Ilustración 11. Tamaño de los Conglomerados
4.11.5. Porcentaje Intra-conglomerado
En este grafico se muestra como la variable categorica sexo se distribuye entre los
conglomerados. Así: El conglomerado 1 esta conformado en un 100% por mujeres, el
conglomerado 2 esta conformado en 100% por hombres y el conglomerado 3 esta
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
37
conformado por el 100% de hombres. En el total de casos hay 43% de mujeres y 57%
aprox. de hombres.
Porcentaje dentro el Conglomerado de Sexo
Ilustración 12. Porcentaje dentro del Conglomerado de sexo
4.11.6. Variación Intra-conglomerado
A continuación se presentan los gráficos de variación al interior de cada
conglomerado. Es decir, el comportamiento de frecuencias por conglomerado o
medias de cada uno.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
38
64194216N =
Intervalos de confianza al 95% simultáneos para las medias
La línea de referencia es la media global = 34419,57
Conglomerado
321
Sa
lari
o a
ctu
al
80000
70000
60000
50000
40000
30000
20000
Ilustración 13. Variación Intra- Conglomerado 1
Este gráfico dice que en el primer conglomerado, compuesto por 216 personas, en su
totalidad mujeres, el salario actual varia entre 23000 y 27000.
En el conglomerado 2, compuesto por 194 hombres, el salario actual oscila entre $
32000 y $34000 y en el conglomerado 3 compuesto por 64 hombres el salario actual
varia entre 63000 y 75000 aprox. El salario promedio para todos los casos se
encuentra en 34419,57. Aquí se puede notar la importancia de los conglomerados
porque si se analizara de manera global el salario actual promedio sería $34419,57, sin
tener en cuenta que las mujeres no ganan más de $28000 y que hay un grupo de
hombres (64) que tienen un salario alto ($70000), que se aleja bastante del salario
actual medio.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
39
64194216N =
Intervalos de confianza al 95% simultáneos para las medias
La línea de referencia es la media global = 81,11
Conglomerado
321
Me
se
s d
esd
e e
l co
ntr
ato
86
84
82
80
78
76
Ilustración 14.Variación Intra-Conglomerado 2
64194216N =
Intervalos de confianza al 95% simultáneos para las medias
La línea de referencia es la media global = 17016,09
Conglomerado
321
Sa
lari
o in
icia
l
40000
30000
20000
10000
Ilustración 15. Variación Intra-Conglomerado 3
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
40
64194216N =
Intervalos de confianza al 95% simultáneos para las medias
La línea de referencia es la media global = 95,86
Conglomerado
321
Exp
erie
ncia
pre
via
(mes
es)
160
140
120
100
80
60
40
Ilustración 16.Variación Intra-Conglomerado 4
El gráfico muestra que el conglomerado 1, compuesto por las mujeres, tiene 78 meses
de experiencia. Y el conglomerado dos tiene 120 meses de experiencia y el
conglomerado 3 tiene 81,5 meses de experiencia. El bajo salario de las mujeres se
puede ver asociado a que tienen una experiencia menor. El salario del conglomerado 2
se asocia también a una mayor experiencia, pero en el caso del conglomerado tres no
hay asociación entre el salario actual y la experiencia, ya que tienen el salario más alto
pero su experiencia en meses es inferior a la del conglomerado dos.
4.11.7. Importancia según agrupación
Los siguientes son los gráficos que se crearon por conglomerados.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
41
Sexo
Ajuste de Bonferroni aplicado
Co
ng
lom
era
do
1
2
3
Chi-cuadrado
3002001000
Valor crítico
Estadístico de contr
aste
Ilustración 17. Ajuste de Bonferroni Aplicado-Sexo
Salario actual
Ajuste de Bonferroni aplicado
Co
ng
lom
era
do
1
3
2
t de Student
20100-10-20
Valor crítico
Estadístico de contr
aste
Ilustración 18. Ajuste de Bonferroni Aplicado- Salario Actual
El anterior grafico representa la importancia según Conglomerado. Como se puede
notar los conglomerados se ubican en el eje Y dependiendo de su importancia. Debido
a que la t de Student excede los valores críticos se puede considerar que los
conglomerados 1, 2 y 3 son significativos, desde el punto de vista de la variable salario
actual.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
42
En los conglomerados 1 y 2 se toman valores más pequeños que sus valores medios y
en el conglomerado tres se toman valores más grandes que los valores medios.
Salario inicial
Ajuste de Bonferroni aplicado
Co
ng
lom
era
do
1
3
2
t de Student
20100-10-20-30
Valor crítico
Estadístico de contr
aste
Ilustración 19. Ajuste de Bonferroni Aplicado: Salario Inicial
Para la variable salario inicial, los conglomerados son significativo
Meses desde el contrato
Ajuste de Bonferroni aplicado
Co
ng
lom
era
do
1
2
3
t de Student
3210-1-2-3
Valor crítico
Estadístico de contr
aste
Ilustración 20. Ajuste de Bonferroni aplicado: Meses desde el contrato
Para la variable Meses de Contrato, ningún conglomerado es significativo
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
43
Experiencia previa (meses)
Ajuste de Bonferroni aplicado
Co
ng
lom
era
do
2
1
3
t de Student
43210-1-2-3-4
Valor crítico
Estadístico de contr
aste
Ilustración 21. AJuste de Bonferroni: Experiencia Previa en meses
Para la variable Experiencia previa (meses), los conglomerados 1 y 2 son significativos,
mientras que el conglomerado 3 no es significativo.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
44
5. Análisis De Conglomerados Jerárquico
Esta metodología trata de identificar grupos o segmentos relativamente homogéneos
de casos (o de variables) basándose en las características propias de cada uno,
mediante un algoritmo que comienza con cada caso o variable en particular y hace
diferentes combinaciones hasta dejar un grupo uniforme. El calculo de la distancia o
similaridad entre las variables o grupos se realiza mediante la técnica de Proximidades.
Con el análisis de conglomerados jerárquico, se pueden agrupar los consumidores de
un determinado producto en una ciudad para establecer estrategias de marketing.
Adicionalmente, podría agrupar ciudades en diferentes grupos de acuerdo a sus
características de consumo, cultura, labor de recompra, etc., para generar estrategias
similares donde existen segmentos con comportamientos afines y así ser más eficientes
en el momento de lanzar estrategias.
El criterio base para cada conglomerado es la distancia. Las variables que se encuentran
más cercanas a otras deben pertenecer al mismo conglomerado, y las variables que se
encuentran más dispersas deben pertenecer a conglomerados diferentes.
Este procedimiento es útil para encontrar agrupaciones naturales de casos o variables.
Tiene mayor efectividad cuando el archivo de datos a analizar contiene un número
pequeño de datos (Menos de 100 datos) para ser conglomerado.
Para un conjunto de datos, los conglomerados que se construyen dependen de la
especificación de los siguientes parámetros:
Método de Conglomeración: Define los criterios para la formación de conglomerados.
Por ejemplo, al calcular la distancia entre dos conglomerados, se pueden usar las
variables más cercanas entre conglomerados o el par de variables más cercanas.
Media: Define la formula para calcular la distancia. Por ejemplo, la medida de distancia
Euclidea calcula la distancia como una "línea recta" entre dos conglomerados. La
medida de intervalo asume que las variables son escalas, la medida de cuenta asume
que hay números discretos; y la medida binaria asume que las variables toman
únicamente dos valores.
Estandarización: Permite igualar los resultados de variables medidas en diferentes
escalas.
Los fabricantes de automóviles necesitan poder estimar el mercado actual para
determinar la competencia probable para sus vehículos. Si los automóviles se agrupan
según los datos disponibles, esta tarea puede ser automática empleando el análisis
cluster.
Se busca información de varios fabricantes y modelos de vehículos en el archivo de
spss. Empleando el análisis de conglomerados Jerárquico se pueden agrupar los
automóviles de más altas ventas según sus precios y propiedades físicas.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
45
Primero es necesario definir que casos se van a analizar, para tal motivo se debe abrir
el archivo que contiene los casos, luego acceder al menú Datos, Seleccionar Casos y
de allí filtrar los datos mediante una muestra aleatoria de datos o si cumplen una serie
de condiciones, luego se realiza al análisis de conglomerado Jerárquico como tal.
5.1. Pasos para el análisis de conglomerados jerárquico
Se realiza mediante el menú Analizar, clasificar, Conglomerados jerárquicos.
Para conglomerar casos se debe seleccionar como mínimo una variable numérica, para
conglomerar variables, se deben seleccionar como por lo menos tres variables
numéricas.
En la opción de “etiquetar los datos mediante” se puede seleccionar una variable de
identificación para etiquetar los datos, esta opción sólo se activa cuando se
conglomeran variables.
5.2. Dendrograma:
Representa paso por paso la solución de conglomeración Jerárquica, muestra los
conglomerados que se combinan y los valores de los coeficientes de distancia. Las
líneas verticales simbolizan combinación de casos. Son empleados para evaluar la
cohesión de los conglomerados que se han creado y determinar el número adecuado
de conglomerados que deben permanecer en el estudio.
En la parte izquierda se muestran los casos. En el eje horizontal se muestra la distancia
entre los conglomerados cuando se efectúa la unión, las líneas verticales representan
los grupos que están unidos. La posición de la línea en la escala indica las distancias en
las que se unieron los grupos.
El árbol de clasificación para determinar el número de conglomerados es un proceso
subjetivo. Generalmente se comienza buscando los intervalos entre las uniones a lo
largo del eje horizontal.
5.3. Clases de métodos de Conglomeración
En el link de Método de Conglomeración las opciones disponibles son:
Vinculación Inter-grupos
Vinculación intra-grupos
Vecino más próximo,
Vecino más lejano
Agrupación de centroides
Agrupación de medianas
Método de Ward
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
46
Ilustración 22. Métodos de enlace para el Conglomerado9
El método de enlace sencillo se basa en la distancia mínima o la regla del vecino más
próximo, los primeros objetos conglomerados son aquellos que tienen una distancia
mínima. Este método pierde efectividad cuando los conglomerados no están bien
definidos
El método del enlace completo se basa en la distancia máxima entre los objetos o el
método del vecino más lejano.
En el método del enlace promedio la distancia de los conglomerados se determina
por el promedio de las distancias entre los dos pares de objetos
Los Métodos de Varianza tratan generar conglomerados con el fin de reducir la varianza dentro de los grupos. El procedimiento Ward es empleado con frecuencia.
Para cada uno de los conglomerados se calculan las medias de las variables. Luego, se
calcula la distancia euclidiana cuadrada para las medias de los grupos.
9 Figura tomada de Artículos de estadística CRM, Data Mining, investigación mercados, satisfacciófghetn
clientes__.htm
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
47
Ilustración 23. Métodos de Agrupación por Aglomeración10
En el Método Centroide, la distancia entre dos grupos es la distancia entre sus
centroides.
5.4. Medida
Existen tres posibles casos de medida: Intervalo, Frecuencia, binaria.
5.4.1. Medida de intervalo
Para los datos de intervalo existen las siguientes medidas:
Distancia euclídea: La raíz cuadrada de la suma de los cuadrados de las diferencias
entre los valores de los elementos. Ésta medida viene predeterminada para los
datos de intervalo.
Distancia euclídea al cuadrado: La suma de los cuadrados de las diferencias entre los
valores de los elementos.
Correlación de Pearson: La correlación producto-momento entre dos vectores de
valores.
Coseno: El coseno del ángulo entre dos vectores de valores.
Chebychev: La diferencia absoluta máxima entre los valores de los elementos.
Bloque: La suma de las diferencias absolutas entre los valores de los elementos. Se
le conoce como la distancia de Manhattan.
Minkowski: p-ésima raíz de la suma de las diferencias absolutas elevada a la
potencia p-ésima entre los valores de los elementos.
Personalizada: r-ésima raíz de la suma de las diferencias absolutas elevada a la
potencia p-ésima entre los valores de los elementos.
10 Figura tomada de Artículos de estadística CRM, Data Mining, investigación mercados, satisfacciófghetn
clientes__.htm
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
48
5.4.2. Medida de Frecuencias:
Las opciones disponibles son:
Medida de chi-cuadrado: Esta medida se basa en la prueba de chi cuadrado de
igualdad para dos conjuntos de frecuencias. Ésta medida viene por defecto.
Medida de Phi-cuadrado: Esta medida es igual a la medida de chi-cuadrado
normalizada por la raíz cuadrada de la frecuencia combinada.
5.4.3. Medida Binaria:
Las opciones disponibles son:
Distancia euclídea, Distancia euclídea al cuadrado, Diferencia de tamaño, Diferencia de
configuración, Varianza, Dispersión, Forma, Concordancia simple, Correlación phi de 4
puntos, Lambda, D de Anderberg, Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2,
Lance y Williams, Ochiai, Rogers y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y
Sneath 2, Sokal y Sneath 3, Sokal y Sneath 4, Sokal y Sneath 5, Y de Yule y Q de Yule.
Si se desea, se puede cambiar los campos Presente y Ausente para especificar los
valores que indican que una característica está presente o ausente. El procedimiento
ignorará todos los demás valores.
En el caso de que se desee saber si un cliente tiene un determinado servicio es
conveniente elegir medidas binarias, por ejemplo Simple matching y Jaccard.
5.5. Ejemplo:
Del una muestra del 10% del archivo Coches. Sav identificar las variables más
homogéneas mediante el análisis de Conglomerados Jerárquico, con el fin de
determinar las variables que tienen una mayor influencia para el comprador y la
relación entre ellas en el momento de adquirir carro.
Se accede al menú de Conglomerados Jerárquico, se pasan las variables a analizar al
lado derecho y se selecciona la opción de conglomerar variables.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
49
Ilustración 24. Menú: Análisis de Conglomerados Jerárquico
Luego se accede a la opción de estadísticos que arroja el siguiente cuadro de diálogo:
Ilustración 25.Análisis de Conglomerados Jerárquicos: Estadísticos
Si se desea se puede seleccionar la opción de Historial de Conglomeración y Matriz de
distancias, para tener mayor claridad del origen de los resultados.
5.5.1. Gráficos
Al acceder al link de Gráficos se activa la siguiente ventana, donde se puede
seleccionar Dendograma y la cantidad de conglomerados que se desea obtener.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
50
Ilustración 26. Análisis de Conglomerados Jerárquicos: Gráficos
5.5.2. Método de conglomeración
En la parte inferior del cuadro conglomerado Jerárquico se visualiza la opción de
método, que al hacer clic aparece el siguiente cuadro de diálogo:
Ilustración 27. Métodos de Conglomeración
Para este ejemplo, se empleó como método de conglomeración agrupación de
centroides y como medida de intervalo Distancia euclídea al cuadrado.
Cuando se ejecuta el procedimiento presenta los siguientes resultados:
Tabla 8. Resumen del procesamiento de los casos
Casos
Validos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
52 100,0% 0 ,0% 52 100,0%
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
51
En esta tabla se resume la cantidad de datos analizados y los casos perdidos.
5.5.3. Conglomerados jerárquicos
Tabla 9. Matriz de Distancias
En la matriz de distancias se mide, como su nombre lo indica, la distancia entre cada
una de las variables, por este motivo la distancias entre las mismas variables es cero.
Los valores representan la similaridad o disimilaridad entre cada par de variables. Los
valores más grandes indican que las variables son muy diferentes, como es el caso de
las variables Cilindrada en cc y Peso Total (kg) que presentan una alta disimilaridad
con respecto a las demás variables. No obstante, se nota la alta similaridad entre las
variables país de origen con la Aceleración 0 a 100 km/h (segundos) y con el
Número de Cilindros y la variable Número de cilindros con la variable Aceleración
0 a 100 km/h (segundos). De estos resultados, se puede concluir que para el
comprador es importante la aceleración y el número de cilindros de los autos y estas
variables tienen una alta relación con el país de origen.
5.5.4. Vinculación de centroides
Caso Archivo matricial de entrada
Cilindrada en cc Potencia (CV) Peso total (kg)
Aceleración 0 a 100 km/h (segundos)
Año del modelo
País de origen
Número de cilindros
Cilindrada en cc ,000 591455574,000 335180113,000 626687223,940 607976848,000
630723266,000
629228337,000
Potencia (CV) 591455574,000 ,000 41450837,000 536234,140 156730,000 665212,000 619725,000
Peso total (kg) 335180113,000 41450837,000 ,000 50971884,740 45192481,000 52284171,00
0 51875656,000
Aceleración 0 a 100 km/h (segundos)
626687223,940 536234,140 50971884,740 ,000 192437,740 9612,140 5809,140
Año del modelo
607976848,000 156730,000 45192481,000 192437,740 ,000 285960,000 260343,000
País de origen 630723266,000 665212,000 52284171,000 9612,140 285960,000 ,000 925,000
Número de cilindros
629228337,000 619725,000 51875656,000 5809,140 260343,000 925,000 ,000
Etapa
Conglomerado que se combina
Coeficientes
Etapa en la que el conglomerado aparece
por primera vez
Próxima etapa
Conglomerado 1
Conglomerado 2
Conglomerado 1
Conglomerado 2
1 6 7 925,000 0 0 2
2 4 6 7479,390 0 1 4
3 2 5 156730,000 0 0 4
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
52
Tabla 10. Historial de Conglomeración
Esta tabla es un resumen numérico de la solución del conglomerado que muestra
como se juntan los casos por conglomerados en cada fase del análisis.
En la etapa 1 se combina el caso 6 con el caso 7 porque tienen las distancias más
pequeñas. La próxima etapa hace referencia a la siguiente etapa en la que aparecerá el
conglomerado. En la etapa 4 se unen los conglomerados creados en la etapa 3 y 2, esto
se puede observar en las filas que especifican la etapa en la que el conglomerado
aparece por primera vez (En la tabla se encuentran de color rojo). El conglomerado
resultante aparece nuevamente en la fase 5.
Dependiendo de los casos la anterior tabla se va haciendo más larga, sin embargo es
importante y más fácil observar la columna de coeficientes que observar los intervalos
en el dendrograma. Una buena solución de conglomerado arroja saltos repentinos o
inesperados en el coeficiente de distancia.
Número de conglomerados
Caso
Pe
so
to
tal (k
g)
N
úm
ero
de
cili
nd
ros
Pa
ís d
e o
rig
en
Acele
ració
n 0
a 1
00
km
/h (
se
gundos)
Añ
o d
el m
od
elo
Po
ten
cia
(C
V)
Cili
nd
rad
a e
n c
c
1 X X X X X X X X X X X X X
2 X X X X X X X X X X X X
3 X X X X X X X X X X X
4 X X X X X X X X X X
5 X X X X X X X X X
6 X X X X X X X X
Tabla 11. Diagrama de témpanos Vertical
En esta tabla se da una representación de cómo los casos se unen en cada fase del
análisis. No obstante, antes de hacer el análisis es conveniente ir al menú edición,
opciones, procesos y activar la opción de permitir el Autoprocesamiento y Cluster_Table_Icicle_Create para que arroje el Diagrama de témpanos en forma de
gráfico y sea mucho más fácil de analizar.
4 2 4 385653,227 3 2 5
5 2 3
48245686,422
4 0 6
6 1 2
563416670,937
0 5 0
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
53
Diagrama de témpanos vertical
Número de conglomerados
1
2
3
4
5
6
Peso tota
l (k
g)
Núm
ero
de c
ilin
dro
s
País
de o
rigen
Acele
ració
n 0
a 1
00 k
m/h
(segundos)
Año d
el m
odelo
Pote
ncia
(C
V)
Cilin
dra
da e
n c
c
Caso
Ilustración 28. Diagrama de témpanos Vertical
En cada fase se unen dos conglomerados y cada barra blanca representa el límite entre
conglomerados. En este caso, las variables peso total y número de cilindros hacen
presencia en el conglomerado 1 y 2, las variables número de cilindros y país de origen
se encuentran en todos los conglomerados, la variable país de origen y Aceleración 0 a
100 km/h (segundos) se encuentran en 5 conglomerados, las variables potencia y
cilindrada en cc se encuentran sólo en el primer conglomerado.
Dentro de las filas cada parte negra indica que los casos son agrupados como un conglomerado. En el conglomerado 1 se encuentran todas las variables, en el
conglomerado 2 se encuentran el conglomerado de la variable cilindrada y el otro
conglomerado agrupa las demás variables.
En el conglomerado tres se pueden distinguir tres grupos de variables,
Peso
Cilindrada
Nro de cilindros, país de origen, aceleración, año del modelo, y potencia.
Y así sucesivamente en el conglomerado 4, 5 y 6.
5.5.5. Dendrograma
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S *
* * * * *
Dendrogram using Centroid Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
54
Label Num +---------+---------+---------+---------+---------+
ORIGEN 6
CILINDR 7
ACEL 4
CV 2
AÑO 5
PESO 3
MOTOR 1
Ilustración 29. Dendograma
Este dendograma o diagrama de árbol representa los pasos para llegar a la solución de
conglomerados jerárquicos, muestra la combinación de las variables, se puede notar
que las variables origen, cilindrada, aceleración, potencia y año presentan similaridad, mientras que las variables aceleración, peso y motor presentan disimilaridad, ya que la
distancia a la que se unieron estas variables es alta.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
55
6. Conglomerados De K Medias
Esta herramienta trata de identificar grupos de casos relativamente homogéneos
basándose en las características seleccionadas y empleando algoritmos, para lo cual es
indispensable introducir el número de conglomerados que se desea obtener.
Este método de agrupación que se basa en la distancia que existe entre un grupo de
casos y un caso específico central denominado “centroide”, Este tipo de clasificación es
útil cuando se posee un gran número de casos y se puede utilizar de manera
exploratoria para comenzar a identificar grupos de casos.
Para realizar un ejemplo, se tiene la base de datos de Ruspini11. Lo primero que se
debe hacer para tener una idea acerca de cuantos conglomerados se puedan obtener
de los datos que se tiene es la realización de un diagrama de dispersión, este se realiza
en la herramienta gráficos interactivos Gráficos de dispersión, en este caso se
contrastan las variables 2 y 3:
0 50 100 150
V3
0
25
50
75
100
V2
Ilustración 30. Diagrama de dispersión primer grupo
11 Datos simulados por Ruspini Ruspini, E.H. (1970), "Numerical Methods for Fuzzy Clustering,"
Information Science, 2, 319-350. Representan 75 datos bidimensionales simulados de cuatro
distribuciones distintas
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
56
Se puede observar claramente que los casos se agrupan en cuatro conjuntos, esta
información es importante para elegir el número de conglomerados que se desea
realizar.
Al contrastar las variables V1 y V2 se obtiene el siguiente grafico:
0 25 50 75 100
V2
0
25
50
75
V1
Ilustración 31. Diagrama de dispersión segundo grupo
En este caso no son tan claros los grupos que se desean realizar pero si se observa muy bien existen espacios entre algunos datos que pueden ayudar a la realización del
conglomerado en este caso 3
6.1. Preparando el análisis
De esta forma procedemos a realizar la clasificación de conglomerados mediante el
sistema K medias; para utilizar este procedimiento se va al menú analizar clasificar
conglomerado de k medias.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
57
Ilustración 32. Ruta conglomerados K medias
Ya en el cuadro de dialogo se eligen las variables con las que se quieren realizar los
conglomerados y se trasladan a las listas de variables, las variables de cadena sólo
pueden utilizarse para etiquetar datos.
Ilustración 33. Cuadro de dialogo K medias
En la opción de Nº de Conglomerados se encuentra por defecto 2, si se desea un
número mayor de conglomerados se puede introducir el nuevo número, para las
primeras variables se realizaran 4 conglomerados y para el segundo grupo 3.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
58
Este tipo de clasificación tiene dos métodos para realizar la aglomeración:
Iterar y clasificar: Esta técnica exploratoria no se queda solo con el primer
centro que encuentra sino que sigue buscando dentro de la base para buscar el
mas conveniente se pueden realizar varias iteraciones, están predeterminadas
10; se pueden utilizar mas pero de todos modos el proceso de iteración se
detendrá cuando el cambio entre los centros llegue a cero, aunque esta opción
también se puede cambiar a gusto del investigador, en la opción iterar.
Clasificar: Esta opciones conforma con los centros obtenidos inicialmente al activa esta opción se desactiva Iterar en el cuadro de dialogo.
Iterar: En este link se especifica el número máximo de iteraciones y criterio de
convergencia, además se puede seleccionar la opción de usar medias actualizadas.
Ilustración 34. Iterar
Guardar: Permite guardar el conglomerado de pertenencia (el conglomerado al cual
pertenece cada caso) y la distancia de este desde centro del conglomerado. Esta es
información es de gran ayuda para la construcción de diagramas de dispersión por
conglomerados. Para este ejemplo se seleccionan las dos opciones para ver más
claramente los conglomerados en un futuro diagrama de dispersión.
Ilustración 35. Guardar
Opciones: En la parte de estadísticos se puede escoger si se quiere tener en la
respuesta los centros que obtuvo inicialmente, si se quiere obtener una tabla de
resumen del análisis de varianza de los casos para la realización de un análisis
descriptivo. La información del conglomerado muestra los casos utilizados para la
aglomeración y su conglomerado asignado.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
59
Ilustración 36. Opciones
Luego se comienza a realizar el conglomerado de k medias como tal, donde se
especifica un número de conglomerados igual a 4 y en opciones que realice la tabla
anova.
6.2. Resultados del análisis
Después de preparar el análisis se pueden obtener los siguientes resultados:
Centros iniciales de los conglomerados
21 63 126 155
83 5 111 55
V3
V2
1 2 3 4
Conglomerado
Tabla 12. Cuadro conglomerados iniciales primer grupo
Centros iniciales de los conglomerados
1 68 60
4 58 117
V1
V2
1 2 3
Conglomerado
Tabla 13. Cuadro conglomerados iniciales segundo grupo
La anterior tabla muestra los centros de conglomerados iniciales y muestra los valores
centrales para cada una de las variables en sus distintos conglomerados
El historial de iteraciones muestra el progreso del proceso de conglomeración en cada
etapa. En las primeras interacciones el centro de conglomerado cambia en grandes
proporciones, mientras que en las últimas interacciones se presentan ajustes menores
hasta llegar a cero a la convergencia que se haya seleccionado en las opciones de
iteración.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
60
Historial de iteracionesa
14,157 15,275 16,972 14,253
,000 ,000 ,000 ,000
Iterac ión
1
2
1 2 3 4
Cambio en los centros de los conglomerados
Se ha logrado la conv ergencia debido a que los
centros de los conglomerados no presentan ningún
cambio o éste es pequeño. El cambio máximo de
coordenadas absolutas para cualquier centro es de
,000. La iteración actual es 2. La distancia mínima
entre los centros iniciales es de 63,063.
a.
Tabla 14. Cuadro historial de iteraciones primer grupo
Historial de iteracionesa
25,574 15,641 16,264
2,283 2,344 2,293
,755 1,083 ,000
,752 1,115 ,000
,000 ,000 ,000
Iterac ión
1
2
3
4
5
1 2 3
Cambio en los centros de los
conglomerados
Se ha logrado la conv ergencia debido a que los
centros de los conglomerados no presentan ningún
cambio o éste es pequeño. El cambio máximo de
coordenadas absolutas para cualquier centro es de
,000. La iteración actual es 5. La distancia mínima
entre los centros iniciales es de 59,540.
a.
Tabla 15. Cuadro historial de iteraciones segundo grupo
En el segundo grupo de variables es más notorio el proceso de iteración, y para ambos
grupos se puede observar en la información que ofrece el programa el cambio máximo
absoluto para cualquier centro y la distancia mínima que existe entre los centros que
se plantaron al inicio.
Posteriormente de las iteraciones se puede observar los centros de conglomerados
finales para el estudio:
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
61
Centros de los conglomerados finales
19 65 115 146
69 20 98 44
V3
V2
1 2 3 4
Conglomerado
Tabla 16. Conglomerados finales primer grupo
Centros de los conglomerados finales
18 57 53
28 64 100
V1
V2
1 2 3
Conglomerado
Tabla 17. Conglomerados finales segundo grupo
Como en las opciones se eligió que mostrara la tabla Anova, esta aparece en el
resultado final e indica que variables contribuyen en mayor medida a la solución del
conglomerado, teniendo muy en cuenta la explicación que el mismo programa da
sobre su interpretación:
ANOVA
56590,892 3 81,004 71 698,620 ,000
20573,380 3 100,419 71 204,874 ,000
V3
V2
Media
cuadrát ica gl
Conglomerado
Media
cuadrát ica gl
Error
F Sig.
Las pruebas F sólo se deben ut ilizar con una f inalidad descriptiva puesto que los
conglomerados han s ido elegidos para maximizar las dif erencias entre los casos en
dif erentes conglomerados. Los niv eles crít icos no son corregidos, por lo que no
pueden interpretarse como pruebas de la hipótesis de que los centros de los
conglomerados son iguales.
Tabla 18. ANOVA
Finalmente muestra que cantidad de casos han sido asignados a los diferentes
conglomerados que se han creado
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
62
Número de casos en cada conglomerado
15,000
20,000
17,000
23,000
75,000
,000
1
2
3
4
Conglomerado
Válidos
Perdidos
Tabla 19. Casos por conglomerado primer grupo
En este caso se puede ver que al primer conglomerado se le asignaron 15 casos de los
75 incluidos en la base de datos, al segundo 20, al tercer conglomerado 17 y por
ultimo 23 casos al cuarto conglomerado, del mismo modo se puede observar el
numero de casos que se no se utilizaron por ser valores perdidos.
Número de casos en cada conglomerado
35,000
24,000
16,000
75,000
,000
1
2
3
Conglomerado
Válidos
Perdidos
Tabla 20. Casos por conglomerado segundo grupo
En este grupo de variables se interpretan de igual manera los casos por conglomerado
Para terminar el análisis es muy aclaratorio observar gráficamente como quedaron los
diferentes conglomerados, para esto fue que se guardaron los conglomerados de
pertenencia los cuales generaron una nueva variable llamada qcl_1 y cuya etiqueta es
Numero inicial de casos; con esta nueva variable como leyenda se diseña un nuevo
grafico de dispersión:
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
63
1 2 3
4
Número inicial de casos
0 50 100 150
V3
0
25
50
75
100
V2
Ilustración 37. Grafico de dispersión conglomerados finales primer grupo
De esta forma se puede observar muy claramente los cuatro conglomerados que se
crearon los cuales por ejemplo podrían definir los clientes de una empresa comercial
en los que la variable V2 podría representar las cantidades compradas y la variable V3
el precio, de esta forma la empresa tendría de la muestra seleccionada 4 grupos
distintos de clientes:
1. Los que compran mucho a un bajo precio
2. Los que compran poco cuando el precio se acerca o supera 50
3. Los que compran mucho cuando el precio supera los cien
4. Los que compran relativamente poco cuando el precio es mayor a cien.
De esta forma se puede ver que para la empresa es rentable tener precios mayores a
50 ya que en este rango de precios se encuentra su mayoría de clientes, además el
conglomerado tres que es el de mayor compra de productos supera el precio de 100
(de esto se deduce que la empresa vende un giffen12).
12 BIEN GIFFEN. Bien inferior en el que al aumentar su precio aumenta su demanda.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
64
Para el segundo grupo de datos el grafico de dispersión da de la siguiente manera:
1 2 3
Número inicial de casos
0 25 50 75 100
V2
0
25
50
75
V1
Ilustración 38. Grafico de dispersión conglomerados finales segundo grupo
En este caso los conglomerados como ya se dijo no son tan claros como en el primer
grupo de variables, se puede observar como un caso en especial del conglomerado 3
parece que hace mas parte del conglomerado dos y como algunos del conglomerado 1 también parece que hacen mas parte del conglomerado 2; Pero como se puede
recordar al principio se aclaro que este tipo de clasificación era una manera de
explorar los datos.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
65
7. Análisis Factorial Para La Reducción De Datos
En el área de la segmentación de mercados, el análisis factorial sirve especialmente
para ayudar a reducir las muchas variables disponibles a una base de las variables
compuestas (factores) con el propósito de realizar una segmentación tipo cluster,
análisis discriminante o una regresión logística. Mediante este método se toma un gran
número de variables y se investiga para ver si tiene un pequeño número de factores en
común que expliquen su ínter correlación y que cada grupo sea independiente entre si.
7.1. Que Buscar Cuando Se Realiza Un Análisis Factorial
Según Malhotra (1997)13 el Análisis Factorial puede aplicarse en diferentes campos del
marketing como:
Segmentación de Mercados: Para identificar las variables subyacentes en las
cuales se deben agrupar los clientes. Así, por ejemplo, los compradores de
automóviles nuevos pueden agruparse sobre la base de la importancia que dan
a la economía, la comodidad, el desempeño, el lujo, el servicio postventa, etc.
Investigación de Productos: Para identificar los atributos de las marcas que influyen en la elección del consumidor. La elección de un jabón de tocador se
puede determinar por la frescura, protección que proporciona, suavidad,
marca, entre otras.
Publicidad: Para comprender los hábitos de consumo del mercado meta. Los
consumidores de comida rápida pueden tener una audiencia específica de
programas de televisión, escuchar determinado tipo de música, tener gustos
similares que nos permiten clasificar nuestro grupo de interés.
Estudios sobre Precios: Para identificar las características de los consumidores
sensibles al precio. Estos consumidores pueden ser de clase media,
preocupados por la economía, caseros, vivir en un lugar determinado, etc.
Hay dos preguntas principales que se deben tener en cuenta cuando se realiza un
análisis factorial: ¿cuántos (si existen) factores hay? y que representan? Estas preguntas
están muy relacionadas porque en la práctica del estudio de mercados raramente se
conservaran los factores que no se puedan identificar y nombrar.
Al realizar el análisis se tiene muy en cuenta la interpretación del analista ya que el
13 Malhotra, Naresh K.. Investigación de mercados un enfoque práctico Naresh K. Malhotra ; tr. Verania
de Parres Cárdenas. 2a. ed..-- México: Prentice Hall: Pearson Educación: Addison Wesley 1997. Pág. 120
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
66
tendrá los criterios para decidir que factores se mantienen o se dejan.
7.2. Principios
La primera parte del análisis se basa en la matriz de correlaciones, la que muestra los
coeficientes de correlación (su variabilidad) entre cada par de variables.
El análisis factorial funciona mediante la matriz de correlaciones que relaciona las
variables que se descompondrán en factores. El argumento básico es que las variables
están correlacionadas porque comparten unos o más componentes comunes, y si no
fuera así no habría necesidad de realizar análisis factorial. Un modelo del uno-factor
para tres variables puede ser representado matemáticamente como sigue (Vs son las
variables, Fs son los factores, Es representan la variación que es única a cada uno
variable (sin correlación con el componente de E de los otros)):
Cada variable se compone del factor común (F1) multiplicado por un coeficiente (L1, L2,
L3 , los lambdas) más un componente único o aleatorio. Si el factor fuera medible (que
no es) esta ecuación sería una regresión simple.
7.3. Análisis factorial en SPSS
El análisis factorial intenta identificar variables subyacentes, o factores, que expliquen la
configuración de las correlaciones dentro de un conjunto de variables observadas. El
análisis factorial se suele utilizar en la reducción de los datos para identificar un
pequeño número de factores que explique la mayoría de la varianza observada en un
número mayor de variables manifiestas. También puede utilizarse para generar
hipótesis relacionadas con los mecanismos causales o para inspeccionar las variables
para análisis subsiguientes (por ejemplo, para identificar la colinealidad antes de realizar
un análisis de regresión lineal).
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
67
Ilustración 39. Análisis factorial
El procedimiento de análisis factorial ofrece un alto grado de flexibilidad:
Existen siete métodos de extracción factorial disponibles.
Existen cinco métodos de rotación disponibles.
Existen tres métodos disponibles para calcular las puntuaciones factoriales; y las puntuaciones pueden guardarse como variables para análisis adicionales.
7.4. Etapas en un análisis factorial.
El método es desarrollado principalmente en cuatro pasos:
1. La matriz de correlación o de covarianza es calculada. En el caso de que una
variable muestre bajos coeficientes de correlación con las otras variables, esta
puede ser eliminada y, por lo tanto, obtener la nueva matriz de correlación. Sin
embargo, es necesario que observe los valores de su comunidad y las cargas
factoriales.
Ilustración 40. Matriz de covarianza
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
68
2. Las cargas factoriales son estimadas. En este parte, es necesario establecer el
método empleado para la extracción de los factores ya sea por componentes
principales u otro método de extracción.
3. Las cargas factoriales son rotadas a fin de obtener cargas más fácilmente
interpretables. Los métodos de rotación genera cargas para cada factor ya sea
grandes o pequeñas, pero no de valores intermedios. Esta rotación permite reducir
el número de factores a la estructura más simple que describe los datos, esto es,
encontrar una solución final.
4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados
para usarlos como variables de entrada en otros procedimientos.
7.4.1. Extracción de factores.
Para este caso se utilizara la base de datos mundo 95 que trae SPSS, es un estudio
realizado en 109 países acerca de datos demográficos.
Utilizamos las variables:
Esperanza de vida femenina
Mortalidad infantil (muertes por 1000 nacimientos vivos)
Personas Alfabetizadas (%)
Tasa de natalidad (por 1.000 habitantes)
Tasa de mortalidad (por 1.000 habitantes)
Fertilidad: número promedio de hijos
Habitantes en ciudades (%)
Log(10) de PIB_CAP
Aumento de la población (% anual)
Tasa Nacimientos/Defunciones
Log(10) de Población
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
69
Ilustración 41. Cuadro de dialogo análisis factorial
Son muchos los métodos que pueden emplearse para extraer los factores iniciales de la matriz de correlación. En general, estos métodos son complejos numéricamente. El
SPSS proporciona de siete métodos de extracción, sin embargo, el más ampliamente
usado en la práctica es el método de extracción por componentes principales.
Ilustración 42. Cuadro de Dialogo Análisis factorial- Extracción
1. Análisis de componentes principales. Método de extracción de factores
utilizado para formar combinaciones lineales no correlacionadas de las variables
observadas. La primera componente tiene la varianza máxima. Las componentes
sucesivas explican progresivamente proporciones menores de la varianza y no
están correlacionadas las unas con las otras. El análisis de componentes principales
se utiliza para obtener la solución factorial inicial. Puede utilizarse cuando una
matriz de correlaciones es singular.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
70
2. Método de mínimos cuadrados no ponderados. Método de extracción
factorial que minimiza la suma de los cuadrados de las diferencias entre las matrices
de correlaciones observada y reproducida, ignorando las diagonales.
3. Método de mínimos cuadrados generalizados. Método de extracción de
factores que minimiza la suma de los cuadrados de las diferencias entre las matrices
de correlación observada y reproducida. Las correlaciones se ponderan por el
inverso de su unicidad, de manera que las variables que tengan un valor alto de
unicidad reciban un peso menor que las que tengan un valor bajo de unicidad.
4. Método de máxima verosimilitud. Método de extracción factorial que
proporciona las estimaciones de los parámetros que con mayor probabilidad han
producido la matriz de correlaciones observada, si la muestra procede de una
distribución normal multivariada. Las correlaciones se ponderan por el inverso de
la unicidad de las variables y se emplea un algoritmo iterativo.
5. Factorización de ejes principales. Método de extracción de factores que parte
de la matriz de correlaciones original con los cuadrados de los coeficientes de
correlación múltiple insertados en la diagonal principal como estimaciones iniciales
de las comunalidades. Las saturaciones factoriales resultantes se utilizan para
estimar de nuevo las comunalidades y reemplazan a las estimaciones previas en la
diagonal de la matriz. Las iteraciones continúan hasta que los cambios en las
comunalidades, de una iteración a la siguiente, satisfagan el criterio de convergencia
para la extracción.
6. Alfa. Método de extracción factorial que considera a las variables incluidas en el
análisis como una muestra del universo de las variables posibles. Este método
maximiza el Alfa de Cronbach para los factores.
7. Factorización imagen. Método de extracción de factores, desarrollado por
Guttman y basado en la teoría de las imágenes. La parte común de una variable,
llamada la imagen parcial, se define como su regresión lineal sobre las restantes
variables, en lugar de ser una función de los factores hipotéticos.
7.4.2. Rotación De Factores
Con frecuencia es muy difícil interpretar los factores iniciales. Por consiguiente la
solución inicial se rota con el propósito de generar una solución que permita la interpretación. Existen dos amplios tipos de rotación: (1) rotación ortogonal, que
mantiene a los factores no correlacionados entre sí y (2) rotación oblicua, la cual
permite que los factores se correlacionen entre sí, la idea básica de la rotación es
generar factores que tengan algunas variables muy correlacionadas y otras poco
correlacionadas. Esto evita tener el problema de factores con todas las variables que
presentan correlaciones de medio rango y, por tanto, permite una interpretación más
fácil. El SPSS dispone de cinco métodos de rotación.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
71
Ilustración 43. Cuadro de Dialogo Análisis factorial- Rotación.
1. Método varimax. Método de rotación ortogonal que minimiza el número de variables que tienen saturaciones altas en cada factor. Simplifica la interpretación de
los factores.
2. Criterio Oblimin directo. Método para la rotación oblicua (no ortogonal.
Cuando delta es igual a cero (el valor por defecto) las soluciones son las más
oblicuas. A medida que delta se va haciendo más negativo, los factores son menos
oblicuos. Para anular el valor por defecto 0 para delta, introduzca un número
menor o igual que 0,8.
3. Método quartimax. Método de rotación que minimiza el número de factores
necesarios para explicar cada variable. Simplifica la interpretación de las variables
observadas.
4. Método equamax. Método de rotación que es combinación del método varimax,
que simplifica los factores, y el método quartimax, que simplifica las variables. Se
minimiza tanto el número de variables que saturan alto en un factor como el
número de factores necesarios para explicar una variable.
5. Rotación promax. Rotación oblicua que permite que los factores estén
correlacionados. Puede calcularse más rápidamente que una rotación oblimin
directa, por lo que es útil para conjuntos de datos grandes.
7.4.3. Descriptivos
Esta opción permite obtener estadísticos descriptivos de las variables que usamos para
el análisis factorial además de varias opciones estadísticas y matriciales para un mejor
estudio de la matriz de correlaciones.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
72
Ilustración 44. Cuadro de Dialogo Análisis factorial- Descriptivos.
Descriptivos univariados: muestra para cada variable, número de casos validos, la desviación estándar y la media.
Estadísticos descriptivos
69,94 10,695 105
43,317 38,3699 105
78,14 23,056 105
26,124 12,3582 105
9,62 4,277 105
3,551 1,8909 105
57,02 24,010 105
3,4086 ,62725 105
1,696 1,1929 105
3,1868 2,09158 105
4,1252 ,65961 105
Esperanza de v ida
f emenina
Mortalidad inf antil
(muertes por 1000
nac imientos v iv os)
Personas Alf abetizadas
(%)
Tasa de natalidad (por 1.
000 habitantes)
Tasa de mortalidad (por
1.000 habitantes)
Fert ilidad: número
promedio de hijos
Habitantes en c iudades
(%)
Log(10) de PIB_CAP
Aumento de la población
(% anual)
Tasa
Nacimientos/Def unc iones
Log(10) de Poblac ión
Media
Desv iac ión
típica N del análisis
Tabla 21. Estadísticos descriptivos
Como se puede observar son los estadísticos para cada variable que interviene en el
estudio.
Solución inicial: con esta opción se obtienen las comunalidades iniciales, los
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
73
autovalores de la matriz analizada y los porcentajes de varianza que esta
relacionada a cada factor que ha sido extraído; las comunalidades son la
proporción de la varianza que puede ser explicada por el modelo factorial en
cada variable, en este caso se puede observar que son altos los niveles que
posee cada variable que fue utilizada para la extracción de los factores en este
caso.
Comunalidades
1,000 ,965
1,000 ,944
1,000 ,857
1,000 ,965
1,000 ,911
1,000 ,927
1,000 ,719
1,000 ,813
1,000 ,958
1,000 ,951
1,000 ,939
Esperanza de v ida
f emenina
Mortalidad inf ant il
(muertes por 1000
nac imientos v iv os)
Personas Alf abetizadas
(%)
Tasa de natalidad (por 1.
000 habitantes)
Tasa de mortalidad (por
1.000 habitantes)
Fert ilidad: número
promedio de hijos
Habitantes en ciudades
(%)
Log(10) de PIB_CAP
Aumento de la población
(% anual)
Tasa
Nacimientos/Def unciones
Log(10) de Población
Inic ial Extracción
Método de extracción: Análisis de Componentes principales.
Tabla 22. Comunalidades iniciales
Dentro de los estadísticos que ofrece la matriz de correlaciones tenemos:
Coeficientes: Muestra los coeficientes de correlación de cada variable.
Determinante: Añade a la matriz de correlaciones su determinante, el cual sirve
para analizar la pertinencia del análisis ya que si este es muy cercano a cero
indica que las variables utilizadas están linealmente relacionadas, pero si este es
cero indica dependencia lineal entre ellas lo cual no sirve para la realización del
análisis.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
74
Ilustración 45. Detalle estadísticos.
Para el caso se puede observar que el determinante es muy cercano a cero 1.506
x10-8 lo que indica que este estudio factorial es muy indicado para este caso.
Reproducida: La matriz reproducida es la matriz de correlaciones que se
obtiene de la solución factorial, en la diagonal de esta matriz se encuentran la
comunalidades finales inmediatamente debajo se muestra la matriz de
correlacione residuales que tiene la diferencia de de las correlaciones
observadas y las reproducidas, si el modelo es bueno los factores con residuos
altos debe ser pequeño, Si el modelo es bueno y el numero de factores el
adecuado esta la matriz de correlaciones debe poderse reproducir.
Coeficientes de cada variable
Determinante
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
75
Correlaciones reproducidas
,703b
,800 ,703 -,790 ,563 -,676 -,570 ,000 -,658 -,270 ,790
,800 ,975b
,878 -,958 ,656 -,867 -,703 -,070 -,856 -,077 ,959
,703 ,878 ,838b
-,874 ,671 -,873 -,502 -,274 -,856 -,011 ,847
-,790 -,958 -,874 ,946b
-,672 ,872 ,652 ,119 ,858 ,096 -,939
,563 ,656 ,671 -,672 ,646b
-,735 -,183 -,423 -,700 -,202 ,614
-,676 -,867 -,873 ,872 -,735 ,951b
,374 ,469 ,927 -,055 -,821
-,570 -,703 -,502 ,652 -,183 ,374 ,937b
-,551 ,403 -,034 -,741
,000 -,070 -,274 ,119 -,423 ,469 -,551 ,939b
,428 -,162 ,006
-,658 -,856 -,856 ,858 -,700 ,927 ,403 ,428 ,907b
-,099 -,814
-,270 -,077 -,011 ,096 -,202 -,055 -,034 -,162 -,099 ,935b -,081
,790 ,959 ,847 -,939 ,614 -,821 -,741 ,006 -,814 -,081 ,950b
-,034 -,049 ,046 ,056 ,041 ,048 ,004 ,050 ,097 -,036
-,034 -,012 -,004 -,008 ,001 ,000 -,011 ,009 -,008 ,023
-,049 -,012 -,028 -,117 ,004 ,017 ,003 -,010 -,039 -,039
,046 -,004 -,028 ,025 -,003 -,016 -,005 -,014 ,010 ,002
,056 -,008 -,117 ,025 ,067 ,014 ,069 ,105 ,118 ,030
,041 ,001 ,004 -,003 ,067 ,011 -,003 ,049 ,036 ,012
,048 ,000 ,017 -,016 ,014 ,011 ,041 ,021 ,031 -,002
,004 -,011 ,003 -,005 ,069 -,003 ,041 ,002 ,027 -,012
,050 ,009 -,010 -,014 ,105 ,049 ,021 ,002 ,055 ,020
,097 -,008 -,039 ,010 ,118 ,036 ,031 ,027 ,055 ,002
-,036 ,023 -,039 ,002 ,030 ,012 -,002 -,012 ,020 ,002
Habitantes en ciudades
(%)
Esperanza de v ida
f emenina
Personas Alf abetizadas
(%)
Mortalidad inf ant il
(muertes por 1000
nac imientos v iv os)
Producto interior bruto
per-capita
Tasa de natalidad (por 1.
000 habitantes)
Tasa de mortalidad (por
1.000 habitantes)
Tasa
Nacimientos/Def unciones
Fert ilidad: número
promedio de hijos
Log(10) de Población
Esperanza de v ida
masculina
Habitantes en ciudades
(%)
Esperanza de v ida
f emenina
Personas Alf abetizadas
(%)
Mortalidad inf ant il
(muertes por 1000
nac imientos v iv os)
Producto interior bruto
per-capita
Tasa de natalidad (por 1.
000 habitantes)
Tasa de mortalidad (por
1.000 habitantes)
Tasa
Nacimientos/Def unciones
Fert ilidad: número
promedio de hijos
Log(10) de Población
Esperanza de v ida
masculina
Correlac ión reproducida
Residuala
Habitantes en
ciudades (%)
Esperanza de
v ida f emenina
Personas
Alfabetizadas
(%)
Mortalidad
inf ant il
(muertes por
1000
nac imientos
v ivos)
Producto
interior bruto
per-capita
Tasa de
natalidad
(por 1.000
habitantes)
Tasa de
mortalidad
(por 1.000
habitantes)
Tasa
Nacimientos/
Def unciones
Fert ilidad:
número
promedio
de hijos
Log(10) de
Población
Esperanza
de v ida
masculina
Método de extracción: Análisis de Componentes principales.
Los residuos se calculan entre las correlaciones observadas y reproduc idas. Hay 9 (16,0%) residuales no redundantes con v alores absolutos may ores que 0,05.a.
Comunalidades reproducidasb.
Tabla 23. Matriz reproducida
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
76
Ilustración 46. Detalle matriz reproducida
KMO y Prueba de esfericidad de Bartlett: Kaiser-Meyer-Olkin (KMO) es la medida de adecuación maestral este toma valores entre 0 y 1; los datos
menores a 0.5 dan al investigador la noción de que no es muy buena idea
realizar el análisis factorial con los datos que se tienen. La prueba de esfericidad
es el estadístico de prueba para la hipótesis nula de que la matriz de
correlaciones es una matriz identidad, lo que querría decir que no existen
correlaciones significativas entre las variables lo que supone que la realización
de análisis factorial no seria adecuado.
Diagonal de Comunalidades
Residuos
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
77
KMO y prueba de Bartlett
,862
1785,571
55
,000
Medida de adecuación muestral de
Kaiser-Mey er-Olkin.
Chi-cuadrado
aproximado
gl
Sig.
Prueba de esf ericidad
de Bartlet t
Tabla 24.Prueba KMO
Después del cuadro de varianza total explicada la cual nos permite ver cuales factores
son los mas apropiados para el estudio, aquellos cuyos autovalores sean mayores que
1y que preferiblemente al realizar la suma de las saturaciones y la rotación de factores
sigan siendo mayores que 1 y logren explicar en gran cantidad la varianza total de las
variables.
Varianza total explicada
6,887 62,610 62,610 6,887 62,610 62,610 6,874 62,488 62,488
1,790 16,275 78,885 1,790 16,275 78,885 1,773 16,118 78,606
1,049 9,539 88,425 1,049 9,539 88,425 1,080 9,819 88,425
,567 5,151 93,576
,292 2,654 96,230
,171 1,553 97,783
,106 ,961 98,744
,074 ,676 99,420
,038 ,349 99,770
,016 ,150 99,920
,009 ,080 100,000
Componente
1
2
3
4
5
6
7
8
9
10
11
Total
% de la
v arianza % acumulado Total
% de la
v arianza % acumulado Total
% de la
v arianza % acumulado
Autov alores iniciales
Sumas de las saturac iones al cuadrado
de la extracción
Suma de las saturaciones al cuadrado
de la rotac ión
Método de extracción: Anális is de Componentes principales.
Tabla 25. Varianza total explicada
Ilustración 47. Detalle varianza total
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
78
Para este ejemplo podemos ver como el primer factor explica gran cantidad de la
varianza y que además se cuenta con otros dos factores que sirven para el modelo ya
que el total supera 1 y además entre los tres logran explicar el 88.42% de la varianza
total de las variables del modelo.
Este cuadro se puede ver de una manera grafica mediante el grafico de sedimentación:
1 2 3 4 5 6 7 8 9 10 11
Número de componente
0
1
2
3
4
5
6
7
Au
tov
alo
rGráfico de sedimentación
Ilustración 48. Grafico de sedimentación.
Este es el grafico de los autovalores generados por el análisis y al verlo ya se puede
hacer una idea de los factores que más explicarían el modelo, ya que cuando la grafica
se torna muy plana estos son componentes residuales que no son importantes para el
análisis.
Una de las partes más importantes del análisis es la matriz de componentes o
estructura factorial ya que su nombre cambia dependiendo el método de extracción
utilizado ya que esta nos permite ver las correlaciones o saturaciones que mas explica
cada factor y de esta manera ver que variables están mas relacionadas con cada factor
y de esta manera podemos nombrar cada factor para su estudio.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
79
Matriz de componentesa
,978 ,134 ,024
-,969 -,082 ,009
,952 ,207 ,037
-,926 ,301 -,055
,910 -,096 ,034
-,909 ,264 -,109
,798 ,179 -,184
,716 -,283 -,232
-,202 ,947 ,045
-,616 -,701 -,256
-,071 -,231 ,936
Esperanza de v ida
f emenina
Mortalidad inf ant il
(muertes por 1000
nacimientos v iv os)
Esperanza de v ida
masculina
Tasa de natalidad (por 1.
000 habitantes)
Personas Alf abetizadas
(%)
Fert ilidad: número
promedio de hijos
Habitantes en ciudades
(%)
Producto interior bruto
per-capita
Tasa
Nacimientos/Def unciones
Tasa de mortalidad (por
1.000 habitantes)
Log(10) de Población
1 2 3
Componente
Método de extracción: Anális is de componentes principales.
3 componentes extraídosa.
Tabla 26. Matriz de componentes.
En esta tabla podemos observar que las esperanzas de vida masculina y femenina,
personas alfabetizadas, habitantes en ciudades y producto interno bruto saturan
positivamente el primer factor y como la mortalidad infantil y la tasa de natalidad lo
hacen negativamente en este caso podríamos denominar el factor como calidad de vida
y esperanza de vida. El segundo factor es saturado por la tasa de
nacimientos/defunciones y por la tasa de mortalidad, este factor se podría denominar
simplemente tasa de nacimientos/defunciones y el tercer factor solamente es saturado
por el log 10 de la población; como se puede ver todos los factores son
independientes entre ellos lo que comprueba que el análisis es apropiado para este
caso.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
80
Y además es importante tener en cuenta la matriz ya rotada:
Matriz de componentes rotadosa
,970 ,179 -,026
-,964 -,121 ,049
,941 ,253 -,028
-,940 ,243 -,088
-,922 ,197 -,134
,914 -,048 ,029
,786 ,176 -,235
,725 -,290 -,191
-,247 ,928 -,132
-,586 -,764 -,101
-,044 -,050 ,964
Esperanza de v ida
f emenina
Mortalidad inf ant il
(muertes por 1000
nac imientos v iv os)
Esperanza de v ida
masculina
Tasa de natalidad (por 1.
000 habitantes)
Fert ilidad: número
promedio de hijos
Personas Alf abetizadas
(%)
Habitantes en ciudades
(%)
Producto interior bruto
per-capita
Tasa
Nacimientos/Def unciones
Tasa de mortalidad (por
1.000 habitantes)
Log(10) de Población
1 2 3
Componente
Método de extracción: Anális is de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.
La rotación ha conv ergido en 4 iteraciones.a.
Tabla 27. Matriz de componentes rotados
En este caso las saturaciones no cambian mucho lo que permite seguir con los factores
que ya se habían elegido.
Para finalizar el análisis entre las opciones que ofrece la reducción factorial esta el cálculo de las puntuaciones que servirán para la realización de la regresión lineal con
los nuevos factores que se obtuvieron
Ilustración 49. Analisis factorial- puntuaciones factoriales
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
81
8. Conclusiones
El análisis de conglomerados jerárquicos y el análisis de conglomerados de k medias
son métodos de análisis de tipo aglomerativo, ya que parten de casos
individuales y van agrupando casos hasta llegar a grupos o conglomerados
homogéneos.
Si se tiene un gran número de casos para conglomerar es conveniente emplear el método de conglomerado jerárquico en dos fases.
Si se tiene un gran número de casos para conglomerar y todas las variables son
escalares se puede emplear el análisis de Análisis de Conglomerados de K Medias.
Si se desea examinar la estructura de las variables y son variables escalares, se puede realizar mediante el análisis factorial.
SPSS Aplicado a la Gestión de Mercados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONÓMICAS UNIDAD DE INFORMÁTICA Y COMUNICACIONES
82
9. Bibliografia
REYES, Rafael. La Estrategia de Mercados en el Siglo XXI, Revista entorno No.163,
Confederación Patronal de la República Mexicana, México, Marzo 2002.
STANTON, ET AL. “Fundamentos de Marketing”, McGrawHIl, México, 1999.
KOTLER, Phillip. “Dirección de Marketing. La edición del milenio” PrenticeHall,
México., 2001
Market Segmentation Using SPSS®, SPSS Inc. Estados Unidos De America, 2003.
Malhotra, Naresh K.. Investigación de mercados un enfoque práctico Naresh K.
Malhotra ; tr. Verania de Parres Cárdenas. 2a. ed..-- México : Prentice Hall : Pearson
Educación : Addison Wesley 1997.
http://www.spss.com/la/apps/data-mining2.htm
http://www.estadistico.com/arts.html?20001023