Upload
jmmredondo
View
1.538
Download
0
Embed Size (px)
Citation preview
1
AnAnáálise de Clusterslise de Clusters
Mestrado em GestãoAnálise de Dados para Negócios I
2009/2010
Andreia DionísioCesaltina Pires
SumSumááriorio
1. Estatística Multivariada
2. Análise de Clusters –definição e aplicações
3. Análise de clusters – ideias básicas
4. Etapas na análise de clusters
5. Selecção das variáveis
6. Selecção das medidas de semelhança/distância
1. Medidas de correlação
2. Medidas de distância
3. Medidas de Associação
7. Selecção do algoritmo
1. Métodos hierárquicos
2. Métodos não hierárquicos
3. Combinação dos 2 métodos
8. Escolha do número de clusters
9. Interpretação e caracterização dos clusters
10. Validação dos resultados
11. Análise de clusters no SPSS – exemplo
2
• Análise factorial
• Análise de clusters• Análise de variância multivariada
• Análise de correspondências
• Análise de regressão
• Análise discriminante
• Modelos de equações estruturais
A Estatística Multivariada incluí todas as técnicas estatísticas que analisam simultaneamenteduas ou mais variáveis para os indivíduos ou objectos em análise.
1. Estatística Multivariada
Análise factorial
O objectivo da análise factorial é identificar a estrutura subjacente a um conjunto de variáveis em análise. A ideia érepresentar ou representar ou descrever as varidescrever as variááveis iniciais a partir de um nveis iniciais a partir de um núúmero menor de mero menor de varivariááveis hipotveis hipotééticas (ticas (os factores) com a menor perda de informa) com a menor perda de informaçção ão posspossíível.vel.
– Pode ser vista como uma técnica exploratória para reduzir a dimensão dos dados.
– Mas também pode ser usada como técnica confirmatória . Se a teoria sugerir um certo número de factores subjacentes, podemos usar a análise factorial para testar essa teoria.
– Em muitos campos da gestão há conceitos que são difíceis de medir. Suponhamos que arranjamos várias formas de medir esse conceito. Podemos testar se essas medidas definem 1 único factor (consistência interna).
3
Análise factorialInquérito à satisfação dos trabalhadores com 30 perguntas acerca da satisfação em relação a vários aspectos. Será que é possível identificar factores subjacentes àsatisfação dos trabalhadores?
Satisfação com as características do trabalho
Satisfação com o ambiente de trabalho
Satisfação com as recompensas
Um estudo para identificar grupos estratégicos continha 16 variáveis relacionadas com as opções estratégicas das empresas e com os seus recursos. Obtiveram-se os seguintes factores:
Tamanho e diversificação geográfica
Diferenciação em qualidade
Idade e experiência da empresa
Integração vertical
Muitas vezes os factores têm significado e podem corresponder a conceitos que não podem ser medidos por uma única variável.
Análise discriminante
O objectivo da análise discriminante é descobrir as características que distinguem dois ou mais grupos de indivíduos, de forma a que, conhecidas as características de um novo indivíduo se possa prever a que grupo pertence.
Depois de seleccionar as variáveis que se julga serem importantes para discriminar os grupos identificam-se as funções discriminantes. Estas funções são depois usadas para prever a que grupo é que pertence um novo indivíduo.
Exemplo: um banco está interessado em identificar o que distingue o grupo de clientes de risco elevado em termos de crédito do grupo com risco de crédito baixo. Se conhecermos as características de um novo cliente do banco é possível prever a que grupo é que ele pertence.
4
Análise discriminante
Sim410000
Sim28500
Sim47000
Sim46000
Sim25500
Não45000
Sim54500
Sim24000
Não23000
Não12500
Possui frigorífico
Agregado familiar
Rendimento da família
O Rendimento por si só não permite distinguir o grupo das famílias que possui frigorífico das que não possui. O tamanho do agregado familiar também évariável discriminante.
0
2000
4000
6000
8000
10000
12000
0 1 2 3 4 5 6
Agregado familiar
Ren
dim
ento
Função discriminante
Análise de regressão
0 1 1 2 2 3 3 ...i i i i k ki iY X X X Xβ β β β β ε= + + + + + +
A teoria económica indica que muitos fenómenos podem ser influenciados por diversos factores, daí a necessidade que o modelo integre mais variáveis explicativas.
A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de regressão simples, ou seja :
-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas(ainda que nem sempre faça sentido que certas variáveis tomem o valor zero);-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis explicativas, assumindo que todas as outras se mantêm constantes.
5
Análise de regressão
0 1 1 2 2 3 3 ...i i i i k ki iY X X X Xβ β β β β ε= + + + + + +
A teoria económica indica que muitos fenómenos podem ser influenciados por diversos factores, daí a necessidade que o modelo integre mais variáveis explicativas.
A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de regressão simples, ou seja :
-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas(ainda que nem sempre faça sentido que certas variáveis tomem o valor zero);-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis explicativas, assumindo que todas as outras se mantêm constantes.
AnAnáálise de Clusterslise de Clusters
- Originalmente usada na Biologia – classificação de organismos
Em que consiste?Em que consiste?OrganizaOrganizaçção de um conjunto de indivão de um conjunto de indivííduos, para os quais duos, para os quais ééconhecida informaconhecida informaçção detalhada, em grupos relativamente ão detalhada, em grupos relativamente homoghomogééneos. Podem agruparneos. Podem agrupar--se casos ou varise casos ou variááveis.veis.
AplicaAplicaççõesões•Segmentação de mercados a partir de características geográficas, demográficas e psicográficas dos consumidores;•Identificação de mercados potenciais para determinados produtos;•Determinação de mercados idênticos em diferentes países;•Encontrar grupos de consumidores que possam servir de referência na previsão de vendas…
6
AnAnáálise de Clusterslise de Clusters
Dado um conjunto de Dado um conjunto de nn indivindivííduos, para os quais existe duos, para os quais existe informainformaçção sob a forma de ão sob a forma de pp varivariááveis a anveis a anáálise de clusters lise de clusters procede ao agrupamento dos indivprocede ao agrupamento dos indivííduos em funduos em funçção da ão da informainformaçção existente, de tal modo que os indivão existente, de tal modo que os indivííduos duos pertencentes a um mesmo grupo são tão semelhantes pertencentes a um mesmo grupo são tão semelhantes quanto possquanto possíível e mais semelhantes entre si do que face a vel e mais semelhantes entre si do que face a elementos de outros grupos.elementos de outros grupos.
Quais os objectos de anQuais os objectos de anáálise:lise:1. Casos– semelhanças e utilização conjunta com análise
discriminante2. Variáveis– semelhanças com análise factorial
AnAnáálise de Clusterslise de ClustersEtapasEtapas
1. Selecção dos indivíduos ou amostra a serem agrupados –Formulação do problema a estudar;
2. Definição das variáveis (informação para classificar e agrupar os indivíduos);
3. Selecção das medidas de semelhança ou distância entre cada 2 indivíduos;
4. Selecção do algoritmo de partição/classificação a usar;5. Interpretação dos resultados;6. Validação dos resultados obtidos.
7
1 1 -- DefiniDefiniçção das varião das variááveisveis
Colocam-se 2 problemas:
a) Qual o objecto de estudo? Há que escolher as variáveis mais significativas para dar resposta ao problema colocado
b) Tipo de variáveis a usar? Estão definidas em que escala?
A escala diferente das variáveis pode originar problemas.
ColocamColocam--se 2 problemasse 2 problemas:
a) Qual o objecto de estudo? Há que escolher as variáveis mais significativas para dar resposta ao problema colocado
b) Tipo de variáveis a usar? Estão definidas em que escala?
A escala diferente das variáveis pode originar problemas.
Possível Solução: Standartização ( )0,1x
Z Nµ
σ−= ≈
Pode ser problemática pois reduz as diferenças entre os indivíduos, anulando agrupamentos naturais que possam existir
Pode ser problemática pois reduz as diferenças entre os indivíduos, anulando agrupamentos naturais que possam existir
2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância
Os índices de semelhança/distância devem respeitar as propriedades das medidas métricas:
1. Simetria2. Desigualdade triangular3. Diferenciabilidade de não idênticas4. Indiferenciabilidade
As categorias:�Coeficiente de correlação�Medidas de distância�Coeficiente de associação�Medidas de semelhança probabilística
Mais usadas na análise de clusters
8
2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância
Coeficiente de correlaCoeficiente de correlaçção de ão de PearsonPearson
( )( )
( ) ( )1
2 2
1
n.º de variáveis
variável para o indivíduo
p
iv i jv jv
ij p
iv i jv jv
iv
x x x xR
x x x x
p
x v i
=
=
− −=
− −
∑
∑Puramente linearNão é métrica.
2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância
Medidas de DistânciaMedidas de Distância
( )2
1
p
ij iv jvv
d x x=
= −∑Distância Euclidiana
( )22
1
p
ij iv jvv
d x x=
= −∑Distância Euclidiana ao Quadrado
1
p
ij iv jvv
d x x=
= −∑Distância Absoluta ou City-Block Metric
1/
1
rrp
ij iv jvv
d x x=
= − ∑Distância de Minkowski
maxij iv jvv
d x x= −Distância de Chebischev
9
2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância
Medidas de AssociaMedidas de Associaççãoão
Usadas para definir semelhança entre indivíduos caracterizados por variáveis qualitativas do tipo boleano (binárias).
0
1
p = a+b+c+db+da+cTotais
c+ddc
a+bba
Totais01Indivíduo j
Indivíduo i
“a” número de características que assumem valor 1 em ambos os indivíduos
Coeficientes de emparelhamento simples:
ij ij
a d b cs d
a b c d a b c d
+ += =+ + + + + +
3 3 -- SelecSelecçção do algoritmoão do algoritmoProcesso de cluster
HierárquicoNão Hierárquico
(K-Means)
Aglomerativo Divisivo
Método do Centróide
Método da variância
Mét . ligação em cadeia (linkage)
Single Linkage
Complete Linkage
Average Linkage
Método de Ward’s
Entrada sequencial Entrada paralela Optimização
10
3 3 -- SelecSelecçção do algoritmoão do algoritmo
MMéétodo hiertodo hieráárquico rquico –– envolve a construenvolve a construçção de uma hierarquia em ão de uma hierarquia em áárvore e pode ser usado em casos ou em varirvore e pode ser usado em casos ou em variááveisveis
Método aglomerativo– o processo de clusters inicia-se com n grupos de apenas 1 indivíduo que vão sendo agrupados até se encontrar um grupo que inclui a totalidade dos indivíduos.
Método divisivo - o processo de clusters inicia-se com 1 grupo de n indivíduos que vão sendo desagrupados até se encontrarem n grupos com 1 indivíduo.
3 3 -- SelecSelecçção do algoritmoão do algoritmo
No método aglomerativo, podemos optar por diversas abordagens:
Métodos de ligação em Cadeia (linkage)
Método do vizinho mais próximo ou single linkage ou nearest neighbor –dois grupos são reagrupados num só de acordo com a distância mínima entre eles.
Método do vizinho mais afastado ou complete linkage ou furthest neighbor–inverso ao anterior, em que é considerada a distância entre os elementos mais afastados.
11
3 3 -- SelecSelecçção do algoritmoão do algoritmo
No método aglomerativo, podemos optar por diversas abordagens:
Métodos de ligação em Cadeia (linkage)
Método da média de grupo ou average linkage between groups –o critério de formação de grupo é a medida das distâncias entre todos os pares de indivíduos constituídos por elementos dos 2 grupos.
3 3 -- SelecSelecçção do algoritmoão do algoritmoNo método aglomerativo, podemos optar por diversas abordagens:
Método do centróide– a distância entre dois grupos é determinada entre os seus centróides. O centróide de um novo grupo é a combinação ponderada dos centróides dos 2 grupos separados. As ponderações são proporcionais às dimensões dos grupos. O centróide é o valor médio da variável/caso num dado cluster.
Método da variância– trabalha com o critério de Ward. Neste calculam-se inicialmente as médias das variáveis de cada grupo, em seguida calcula-se a distância euclidiana ao quadrado. Seguidamente calculam-se as distâncias para todos os indivíduos e optimiza-se a variância mínima dentro dos grupos.
12
3 3 -- SelecSelecçção do algoritmoão do algoritmo
Método não hierárquico (K-Means)–exige que antecipadamente se defina o número de clusters que conterão todos os casos. Só pode ser usado para casos e apresenta melhor robustez quando se têm grandes amostras (n>200).
A maior desvantagem consiste no facto de a selecção dos centros ser arbitrária.
Entrada sequencial– inicia-se seleccionando um centro de cluster que inclui todos os indivíduos que estão à sua volta, depois selecciona-se outro centro de cluster… e assim sucessivamente.Um centro de cluster é um ponto inicial de partida do processo de formação de clusters não hierárquico.
Entrada paralela – os centros dos clusters são determinados em simultâneo.
Optimização– Permite novas reafectações dos indivíduos aos clusters.
4 4 –– ValidaValidaçção dos resultadosão dos resultados
Método hierárquico -deve utilizar-se o dendograma para determinar o número adequado de clusters
Método não hierárquico (K-Means)–exige que antecipadamente se defina o número de clusters que conterão todos os casos, o que é muito subjectivo. Um método alternativo será a comparação gráfica do número de clusters com o coeficiente de fusão (valor numérico de semelhança ou distância para o qual vários casos se unem para formar um grupo) – cria-se o gráfico do cotovelo.
O problema do gráfico do cotovelo surge quando a representação gráfica mostra apenas pequenos saltos e não existe maneira de avaliar graficamente o número óptimo de clusters.
13
4 4 –– ValidaValidaçção dos resultadosão dos resultados
Outras formas de validação:
•Repartir a amostra em 2 e comparar resultados
•Efectuar a análise de clusters com os mesmos dados e medir distâncias
diferentes na formação do cluster
•Usar métodos diferentes
•Apagar algumas variáveis aleatoriamente e efectuar a análise
•No método não hierárquico, o cluster pode depender da ordem dos dados. Pode
alterar-se a ordem das observações e verificar se há mudanças significativas nos
resultados.
As variáveis que contribuem significativamente para as diferenças entre os clusters podem ser identificadas via análise discriminante.
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSCaso: Compras
Suponha-se que se pretende fazer análise de cluster e começar pelo método hierárquico. Há que seleccionar “Hierarchical Cluster”
14
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSClica-se em “Plots” e selecciona-se a opção Dendogram e Icicle, para podermos ter acesso ao Dendograma e ao Icicle.
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSEntretanto, há que seleccionar a medida de distância ou semelhança a ter em conta. O mais usual é escolher a medida Squared Euclidean Distancee o método da média de grupo ou average linkage between groups.
Se houver necessidade de estandardizar variáveis
15
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSO calendário de agregação fornece a informação sobre os objectos ou casos que são combinados em cada estágio (etapa) do processo hierárquico de agregação.Na primeira linha podemos ver que os casos 14 e 16 são combinados neste estágio. A distância euclidiana ao quadrado entre eles é indicada na coluna Coefficients.
Agglomeration Schedule
14 16 2,000 0 0 3
6 7 2,000 0 0 7
10 14 3,000 0 1 8
2 13 3,000 0 0 14
5 11 3,000 0 0 9
3 8 3,000 0 0 15
6 12 4,000 2 0 10
4 10 4,333 0 3 11
5 9 4,500 5 0 121 6 5,000 0 7 13
4 19 7,250 8 0 17
5 20 7,333 9 0 14
1 17 8,250 10 0 15
2 5 10,750 4 12 18
1 3 11,300 13 6 16
1 15 14,000 15 0 19
4 18 20,200 11 0 18
2 4 38,611 14 17 19
1 2 48,292 16 18 0
Stage1
2
3
45
6
7
8
9
10
11
12
13
14
15
1617
18
19
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster FirstAppears
Next Stage
A coluna Stage Cluster First Appearsindica o estágio em que um cluster é formado pela primeira vez. A coluna Nest Stageindica o próximo estágio em que o cluster actual écombinado com outro.
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 14 ��
16 ����
10 � ���
4 ��� ���������������
19 ����� ���������������������
18 �������������������
2 ���������� �����������
13 �
5 ���� ������������������������������
11 � ���
9 ��� ����
20 �����
3 ������������
8 �
6 ���� ���
7 �
12 �������� ������������������������������������
1 ��� ����
17 �������
15 �������������
3 clusters
4 clusters
16
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSDepois podemos usar o coeficiente de determinação, através das tabelas ANOVA para cada número de clusters.
ANOVA
58,588 4 14,647 22,055 ,000
9,962 15 ,664
68,550 19
30,886 4 7,721 16,751 ,000
6,914 15 ,461
37,800 19
69,488 4 17,372 34,921 ,000
7,462 15 ,497
76,950 19
32,871 4 8,218 11,279 ,000
10,929 15 ,729
43,800 19
46,250 4 11,563 13,656 ,000
12,700 15 ,847
58,950 19
35,160 4 8,790 17,840 ,000
7,390 15 ,493
42,550 19
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
C. é engraçado
C. é mau
Comprar e comer
Comprar bem
Não me importo
Poupar comparandopreços
Sum ofSquares df Mean Square F Sig.
5 clusters
25 0,831clustersR =24 0,804clustersR =23 0, 758clustersR =22 0, 475clustersR =
R2 =Variação explicada
Variação total=
Soma dos quadrados entre os grupos
Soma dos quadrados total
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Para analisar os cluster, podemos utilizar uma tabela com esses dados.
17
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Cluster Membership
1 1 1 1
2 2 2 2
1 1 1 1
3 3 3 2
2 2 2 2
1 1 1 1
1 1 1 1
1 1 1 1
2 2 2 2
3 3 3 2
2 2 2 2
1 1 1 1
2 2 2 2
3 3 3 2
4 1 1 1
3 3 3 2
1 1 1 1
5 4 3 2
3 3 3 2
2 2 2 2
Case1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
5 Clusters 4 Clusters 3 Clusters 2 ClustersObtém-se uma tabela que se denomina “Cluster Membership”.Esta tabela indica o cluster a que cada caso pertence.
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSPodemos usar o “gráfico do cotovelo”
2,00019
2,00018
3,00017
3,00016
3,00015
3,00014
4,00013
4,33312
4,50011
5,00010
7,2509
7,3338
8,2507
10,7506
11,3005
14,0004
20,2003
38,6112
48,2921
CoefAglomeração
N.ºClusters
0,000
10,000
20,000
30,000
40,000
50,000
60,000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
N.º Clusters
Coe
f agl
omer
ação
3 ou 4 clusters
18
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Método não hierárquico
Há que seleccionar a técnica K-Means Cluster
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Método não hierárquico Introduzir as variáveis
Definir o número de iterações, caso se tenha escolhido o Método “ IterateandClassify”
Seleccionar o número de clusters
19
Cluster Membership
3 1,414
2 1,323
3 2,550
1 1,404
2 1,848
3 1,225
3 1,500
3 2,121
2 1,756
1 1,143
2 1,041
3 1,581
2 2,598
1 1,404
3 2,828
1 1,624
3 2,598
1 3,555
1 2,154
2 2,102
Case Number1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Cluster Distance
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Método não hierárquico
Esta tabela mostra o cluster a que pertence cada caso e a distância a que cada caso estádo centro do cluster.
O caso 18 é o mais afastado do centro do cluster 1, sendo a distância de 3,455.
O caso 13 é o mais afastado do centro do cluster 2, sendo a distância de 2,598.
O caso 15 é o mais afastado do centro do cluster 3, sendo a distância de 2,828.
Final Cluster Centers
4 2 6
6 3 4
3 2 6
6 4 3
4 6 2
6 3 4
C. é engraçado
C. é mau
Comprar e comer
Comprar bem
Não me importo
Poupar comparandopreços
1 2 3
Cluster
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Método não hierárquico
Esta tabela fornece as médias estandardizadas das variáveis para cada cluster. As médias de cada cluster definem o centro do cluster.
Distances between Final Cluster Centers
5,568 5,698
5,568 6,928
5,698 6,928
Cluster1
2
3
1 2 3 Fornece as distâncias entre clusters. Os clusters mais afastados entre si são C2 e C3. os mais próximos são C1 e C2.
20
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Método não hierárquico
A média da Variável 1 é a que mais se afasta ao longo dos 3 clusters, tendo o maior valor da estatística F.
ANOVA
29,108 2 ,608 17 47,888 ,000
13,546 2 ,630 17 21,505 ,000
31,392 2 ,833 17 37,670 ,000
15,713 2 ,728 17 21,585 ,000
22,538 2 ,816 17 27,614 ,000
12,171 2 1,071 17 11,363 ,001
C. é engraçado
C. é mau
Comprar e comer
Comprar bem
Não me importo
Poupar comparandopreços
Mean Square df
Cluster
Mean Square df
Error
F Sig.
The F tests should be used only for descriptive purposes because the clusters have been chosen tomaximize the differences among cases in different clusters. The observed significance levels are notcorrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Between Cluster Within Cluster
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
Método não hierárquico
Esta tabela mostra o número de casos (indivíduos) existente em cada cluster
Number of Cases in each Cluster
6,000
6,000
8,000
20,000
,000
1
2
3
Cluster
Valid
Missing
21
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados
Pode usar-se a análise estatística em “Cross Tabs” onde em linha se têm as variáveis e em coluna Cluster Membership.
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados
Case Processing Summary
20 100,0% 0 ,0% 20 100,0%
20 100,0% 0 ,0% 20 100,0%
20 100,0% 0 ,0% 20 100,0%
20 100,0% 0 ,0% 20 100,0%
20 100,0% 0 ,0% 20 100,0%
20 100,0% 0 ,0% 20 100,0%
C. é engraçado * ClusterNumber of Case
C. é mau * ClusterNumber of Case
Comprar e comer *Cluster Number of Case
Comprar bem * ClusterNumber of Case
Não me importo *Cluster Number of Case
Poupar comparandopreços * Cluster Numberof Case
N Percent N Percent N Percent
Valid Missing Total
Cases
22
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados
C. é engraçado * Cluster Number of Case Crosstabula tion
0 2 0 2
,0% 100,0% ,0% 100,0%
0 4 0 4
,0% 100,0% ,0% 100,0%
3 0 0 3
100,0% ,0% ,0% 100,0%
3 0 1 4
75,0% ,0% 25,0% 100,0%
0 0 2 2
,0% ,0% 100,0% 100,0%
0 0 3 3
,0% ,0% 100,0% 100,0%
0 0 2 2
,0% ,0% 100,0% 100,0%
6 6 8 20
30,0% 30,0% 40,0% 100,0%
Count
% within C. é engraçado
Count
% within C. é engraçado
Count
% within C. é engraçado
Count
% within C. é engraçado
Count
% within C. é engraçado
Count
% within C. é engraçado
Count
% within C. é engraçado
Count
% within C. é engraçado
1
2
3
4
5
6
7
C. éengraçado
Total
1 2 3
Cluster Number of Case
Total
6 respondentes pertencem ao Cluster 1.
4 respondentes atribuíram a classificação
4 a esta variável
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados
Quem atribuiu a classificação 1 e 2 ficou no cluster 2. os respondentes que atribuíram a classificação 3 e 4 ficaram no cluster 1 e os restantes ficaram no cluster 3.
23
AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados
Este caso apresenta-se muito afastado do respectivo cluster e tudo indica tratar-se do caso 18.
1 2 3
Cluster Number of Case
1,00000
2,00000
3,00000
Dis
tan
ce o
f C
ase
fro
m it
s C
lass
ific
atio
n C
lust
er C
ente
r
Caso compras
AnAnáálise de Clusters no SPSSlise de Clusters no SPSS
O Cluster 1 caracteriza-se por consumidores que consideram que fazer compras é algo de mau para o orçamento, tentam fazer bem as suas compras, comparando preços pois pretendem poupar.
XPoupar comparando preços
XCompras não têm importância
XComprar bem
XComprar e comer
XComprar é mau
XComprar é engraçado
C3C2C1
O Cluster 2 caracteriza-se essencialmente por ter indivíduos que não dão qualquer importância às compras
O Cluster 3 caracteriza-se por ter indivíduos para os quais as compras são algo de engraçado e que procuram associar as compras com a acção de comer.