23
1 An Aná lise de Clusters lise de Clusters Mestrado em Gestão Análise de Dados para Negócios I 2009/2010 Andreia Dionísio Cesaltina Pires Sum Sumá rio rio 1. Estatística Multivariada 2. Análise de Clusters – definição e aplicações 3. Análise de clusters – ideias básicas 4. Etapas na análise de clusters 5. Selecção das variáveis 6. Selecção das medidas de semelhança/distância 1. Medidas de correlação 2. Medidas de distância 3. Medidas de Associação 7. Selecção do algoritmo 1. Métodos hierárquicos 2. Métodos não hierárquicos 3. Combinação dos 2 métodos 8. Escolha do número de clusters 9. Interpretação e caracterização dos clusters 10. Validação dos resultados 11. Análise de clusters no SPSS – exemplo

Analise Clusters2010

Embed Size (px)

Citation preview

Page 1: Analise Clusters2010

1

AnAnáálise de Clusterslise de Clusters

Mestrado em GestãoAnálise de Dados para Negócios I

2009/2010

Andreia DionísioCesaltina Pires

SumSumááriorio

1. Estatística Multivariada

2. Análise de Clusters –definição e aplicações

3. Análise de clusters – ideias básicas

4. Etapas na análise de clusters

5. Selecção das variáveis

6. Selecção das medidas de semelhança/distância

1. Medidas de correlação

2. Medidas de distância

3. Medidas de Associação

7. Selecção do algoritmo

1. Métodos hierárquicos

2. Métodos não hierárquicos

3. Combinação dos 2 métodos

8. Escolha do número de clusters

9. Interpretação e caracterização dos clusters

10. Validação dos resultados

11. Análise de clusters no SPSS – exemplo

Page 2: Analise Clusters2010

2

• Análise factorial

• Análise de clusters• Análise de variância multivariada

• Análise de correspondências

• Análise de regressão

• Análise discriminante

• Modelos de equações estruturais

A Estatística Multivariada incluí todas as técnicas estatísticas que analisam simultaneamenteduas ou mais variáveis para os indivíduos ou objectos em análise.

1. Estatística Multivariada

Análise factorial

O objectivo da análise factorial é identificar a estrutura subjacente a um conjunto de variáveis em análise. A ideia érepresentar ou representar ou descrever as varidescrever as variááveis iniciais a partir de um nveis iniciais a partir de um núúmero menor de mero menor de varivariááveis hipotveis hipotééticas (ticas (os factores) com a menor perda de informa) com a menor perda de informaçção ão posspossíível.vel.

– Pode ser vista como uma técnica exploratória para reduzir a dimensão dos dados.

– Mas também pode ser usada como técnica confirmatória . Se a teoria sugerir um certo número de factores subjacentes, podemos usar a análise factorial para testar essa teoria.

– Em muitos campos da gestão há conceitos que são difíceis de medir. Suponhamos que arranjamos várias formas de medir esse conceito. Podemos testar se essas medidas definem 1 único factor (consistência interna).

Page 3: Analise Clusters2010

3

Análise factorialInquérito à satisfação dos trabalhadores com 30 perguntas acerca da satisfação em relação a vários aspectos. Será que é possível identificar factores subjacentes àsatisfação dos trabalhadores?

Satisfação com as características do trabalho

Satisfação com o ambiente de trabalho

Satisfação com as recompensas

Um estudo para identificar grupos estratégicos continha 16 variáveis relacionadas com as opções estratégicas das empresas e com os seus recursos. Obtiveram-se os seguintes factores:

Tamanho e diversificação geográfica

Diferenciação em qualidade

Idade e experiência da empresa

Integração vertical

Muitas vezes os factores têm significado e podem corresponder a conceitos que não podem ser medidos por uma única variável.

Análise discriminante

O objectivo da análise discriminante é descobrir as características que distinguem dois ou mais grupos de indivíduos, de forma a que, conhecidas as características de um novo indivíduo se possa prever a que grupo pertence.

Depois de seleccionar as variáveis que se julga serem importantes para discriminar os grupos identificam-se as funções discriminantes. Estas funções são depois usadas para prever a que grupo é que pertence um novo indivíduo.

Exemplo: um banco está interessado em identificar o que distingue o grupo de clientes de risco elevado em termos de crédito do grupo com risco de crédito baixo. Se conhecermos as características de um novo cliente do banco é possível prever a que grupo é que ele pertence.

Page 4: Analise Clusters2010

4

Análise discriminante

Sim410000

Sim28500

Sim47000

Sim46000

Sim25500

Não45000

Sim54500

Sim24000

Não23000

Não12500

Possui frigorífico

Agregado familiar

Rendimento da família

O Rendimento por si só não permite distinguir o grupo das famílias que possui frigorífico das que não possui. O tamanho do agregado familiar também évariável discriminante.

0

2000

4000

6000

8000

10000

12000

0 1 2 3 4 5 6

Agregado familiar

Ren

dim

ento

Função discriminante

Análise de regressão

0 1 1 2 2 3 3 ...i i i i k ki iY X X X Xβ β β β β ε= + + + + + +

A teoria económica indica que muitos fenómenos podem ser influenciados por diversos factores, daí a necessidade que o modelo integre mais variáveis explicativas.

A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de regressão simples, ou seja :

-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas(ainda que nem sempre faça sentido que certas variáveis tomem o valor zero);-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis explicativas, assumindo que todas as outras se mantêm constantes.

Page 5: Analise Clusters2010

5

Análise de regressão

0 1 1 2 2 3 3 ...i i i i k ki iY X X X Xβ β β β β ε= + + + + + +

A teoria económica indica que muitos fenómenos podem ser influenciados por diversos factores, daí a necessidade que o modelo integre mais variáveis explicativas.

A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de regressão simples, ou seja :

-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas(ainda que nem sempre faça sentido que certas variáveis tomem o valor zero);-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis explicativas, assumindo que todas as outras se mantêm constantes.

AnAnáálise de Clusterslise de Clusters

- Originalmente usada na Biologia – classificação de organismos

Em que consiste?Em que consiste?OrganizaOrganizaçção de um conjunto de indivão de um conjunto de indivííduos, para os quais duos, para os quais ééconhecida informaconhecida informaçção detalhada, em grupos relativamente ão detalhada, em grupos relativamente homoghomogééneos. Podem agruparneos. Podem agrupar--se casos ou varise casos ou variááveis.veis.

AplicaAplicaççõesões•Segmentação de mercados a partir de características geográficas, demográficas e psicográficas dos consumidores;•Identificação de mercados potenciais para determinados produtos;•Determinação de mercados idênticos em diferentes países;•Encontrar grupos de consumidores que possam servir de referência na previsão de vendas…

Page 6: Analise Clusters2010

6

AnAnáálise de Clusterslise de Clusters

Dado um conjunto de Dado um conjunto de nn indivindivííduos, para os quais existe duos, para os quais existe informainformaçção sob a forma de ão sob a forma de pp varivariááveis a anveis a anáálise de clusters lise de clusters procede ao agrupamento dos indivprocede ao agrupamento dos indivííduos em funduos em funçção da ão da informainformaçção existente, de tal modo que os indivão existente, de tal modo que os indivííduos duos pertencentes a um mesmo grupo são tão semelhantes pertencentes a um mesmo grupo são tão semelhantes quanto possquanto possíível e mais semelhantes entre si do que face a vel e mais semelhantes entre si do que face a elementos de outros grupos.elementos de outros grupos.

Quais os objectos de anQuais os objectos de anáálise:lise:1. Casos– semelhanças e utilização conjunta com análise

discriminante2. Variáveis– semelhanças com análise factorial

AnAnáálise de Clusterslise de ClustersEtapasEtapas

1. Selecção dos indivíduos ou amostra a serem agrupados –Formulação do problema a estudar;

2. Definição das variáveis (informação para classificar e agrupar os indivíduos);

3. Selecção das medidas de semelhança ou distância entre cada 2 indivíduos;

4. Selecção do algoritmo de partição/classificação a usar;5. Interpretação dos resultados;6. Validação dos resultados obtidos.

Page 7: Analise Clusters2010

7

1 1 -- DefiniDefiniçção das varião das variááveisveis

Colocam-se 2 problemas:

a) Qual o objecto de estudo? Há que escolher as variáveis mais significativas para dar resposta ao problema colocado

b) Tipo de variáveis a usar? Estão definidas em que escala?

A escala diferente das variáveis pode originar problemas.

ColocamColocam--se 2 problemasse 2 problemas:

a) Qual o objecto de estudo? Há que escolher as variáveis mais significativas para dar resposta ao problema colocado

b) Tipo de variáveis a usar? Estão definidas em que escala?

A escala diferente das variáveis pode originar problemas.

Possível Solução: Standartização ( )0,1x

Z Nµ

σ−= ≈

Pode ser problemática pois reduz as diferenças entre os indivíduos, anulando agrupamentos naturais que possam existir

Pode ser problemática pois reduz as diferenças entre os indivíduos, anulando agrupamentos naturais que possam existir

2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância

Os índices de semelhança/distância devem respeitar as propriedades das medidas métricas:

1. Simetria2. Desigualdade triangular3. Diferenciabilidade de não idênticas4. Indiferenciabilidade

As categorias:�Coeficiente de correlação�Medidas de distância�Coeficiente de associação�Medidas de semelhança probabilística

Mais usadas na análise de clusters

Page 8: Analise Clusters2010

8

2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância

Coeficiente de correlaCoeficiente de correlaçção de ão de PearsonPearson

( )( )

( ) ( )1

2 2

1

n.º de variáveis

variável para o indivíduo

p

iv i jv jv

ij p

iv i jv jv

iv

x x x xR

x x x x

p

x v i

=

=

− −=

− −

∑Puramente linearNão é métrica.

2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância

Medidas de DistânciaMedidas de Distância

( )2

1

p

ij iv jvv

d x x=

= −∑Distância Euclidiana

( )22

1

p

ij iv jvv

d x x=

= −∑Distância Euclidiana ao Quadrado

1

p

ij iv jvv

d x x=

= −∑Distância Absoluta ou City-Block Metric

1/

1

rrp

ij iv jvv

d x x=

= − ∑Distância de Minkowski

maxij iv jvv

d x x= −Distância de Chebischev

Page 9: Analise Clusters2010

9

2 2 -- SelecSelecçção das medidas de semelhanão das medidas de semelhançça ou distânciaa ou distância

Medidas de AssociaMedidas de Associaççãoão

Usadas para definir semelhança entre indivíduos caracterizados por variáveis qualitativas do tipo boleano (binárias).

0

1

p = a+b+c+db+da+cTotais

c+ddc

a+bba

Totais01Indivíduo j

Indivíduo i

“a” número de características que assumem valor 1 em ambos os indivíduos

Coeficientes de emparelhamento simples:

ij ij

a d b cs d

a b c d a b c d

+ += =+ + + + + +

3 3 -- SelecSelecçção do algoritmoão do algoritmoProcesso de cluster

HierárquicoNão Hierárquico

(K-Means)

Aglomerativo Divisivo

Método do Centróide

Método da variância

Mét . ligação em cadeia (linkage)

Single Linkage

Complete Linkage

Average Linkage

Método de Ward’s

Entrada sequencial Entrada paralela Optimização

Page 10: Analise Clusters2010

10

3 3 -- SelecSelecçção do algoritmoão do algoritmo

MMéétodo hiertodo hieráárquico rquico –– envolve a construenvolve a construçção de uma hierarquia em ão de uma hierarquia em áárvore e pode ser usado em casos ou em varirvore e pode ser usado em casos ou em variááveisveis

Método aglomerativo– o processo de clusters inicia-se com n grupos de apenas 1 indivíduo que vão sendo agrupados até se encontrar um grupo que inclui a totalidade dos indivíduos.

Método divisivo - o processo de clusters inicia-se com 1 grupo de n indivíduos que vão sendo desagrupados até se encontrarem n grupos com 1 indivíduo.

3 3 -- SelecSelecçção do algoritmoão do algoritmo

No método aglomerativo, podemos optar por diversas abordagens:

Métodos de ligação em Cadeia (linkage)

Método do vizinho mais próximo ou single linkage ou nearest neighbor –dois grupos são reagrupados num só de acordo com a distância mínima entre eles.

Método do vizinho mais afastado ou complete linkage ou furthest neighbor–inverso ao anterior, em que é considerada a distância entre os elementos mais afastados.

Page 11: Analise Clusters2010

11

3 3 -- SelecSelecçção do algoritmoão do algoritmo

No método aglomerativo, podemos optar por diversas abordagens:

Métodos de ligação em Cadeia (linkage)

Método da média de grupo ou average linkage between groups –o critério de formação de grupo é a medida das distâncias entre todos os pares de indivíduos constituídos por elementos dos 2 grupos.

3 3 -- SelecSelecçção do algoritmoão do algoritmoNo método aglomerativo, podemos optar por diversas abordagens:

Método do centróide– a distância entre dois grupos é determinada entre os seus centróides. O centróide de um novo grupo é a combinação ponderada dos centróides dos 2 grupos separados. As ponderações são proporcionais às dimensões dos grupos. O centróide é o valor médio da variável/caso num dado cluster.

Método da variância– trabalha com o critério de Ward. Neste calculam-se inicialmente as médias das variáveis de cada grupo, em seguida calcula-se a distância euclidiana ao quadrado. Seguidamente calculam-se as distâncias para todos os indivíduos e optimiza-se a variância mínima dentro dos grupos.

Page 12: Analise Clusters2010

12

3 3 -- SelecSelecçção do algoritmoão do algoritmo

Método não hierárquico (K-Means)–exige que antecipadamente se defina o número de clusters que conterão todos os casos. Só pode ser usado para casos e apresenta melhor robustez quando se têm grandes amostras (n>200).

A maior desvantagem consiste no facto de a selecção dos centros ser arbitrária.

Entrada sequencial– inicia-se seleccionando um centro de cluster que inclui todos os indivíduos que estão à sua volta, depois selecciona-se outro centro de cluster… e assim sucessivamente.Um centro de cluster é um ponto inicial de partida do processo de formação de clusters não hierárquico.

Entrada paralela – os centros dos clusters são determinados em simultâneo.

Optimização– Permite novas reafectações dos indivíduos aos clusters.

4 4 –– ValidaValidaçção dos resultadosão dos resultados

Método hierárquico -deve utilizar-se o dendograma para determinar o número adequado de clusters

Método não hierárquico (K-Means)–exige que antecipadamente se defina o número de clusters que conterão todos os casos, o que é muito subjectivo. Um método alternativo será a comparação gráfica do número de clusters com o coeficiente de fusão (valor numérico de semelhança ou distância para o qual vários casos se unem para formar um grupo) – cria-se o gráfico do cotovelo.

O problema do gráfico do cotovelo surge quando a representação gráfica mostra apenas pequenos saltos e não existe maneira de avaliar graficamente o número óptimo de clusters.

Page 13: Analise Clusters2010

13

4 4 –– ValidaValidaçção dos resultadosão dos resultados

Outras formas de validação:

•Repartir a amostra em 2 e comparar resultados

•Efectuar a análise de clusters com os mesmos dados e medir distâncias

diferentes na formação do cluster

•Usar métodos diferentes

•Apagar algumas variáveis aleatoriamente e efectuar a análise

•No método não hierárquico, o cluster pode depender da ordem dos dados. Pode

alterar-se a ordem das observações e verificar se há mudanças significativas nos

resultados.

As variáveis que contribuem significativamente para as diferenças entre os clusters podem ser identificadas via análise discriminante.

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSCaso: Compras

Suponha-se que se pretende fazer análise de cluster e começar pelo método hierárquico. Há que seleccionar “Hierarchical Cluster”

Page 14: Analise Clusters2010

14

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSClica-se em “Plots” e selecciona-se a opção Dendogram e Icicle, para podermos ter acesso ao Dendograma e ao Icicle.

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSEntretanto, há que seleccionar a medida de distância ou semelhança a ter em conta. O mais usual é escolher a medida Squared Euclidean Distancee o método da média de grupo ou average linkage between groups.

Se houver necessidade de estandardizar variáveis

Page 15: Analise Clusters2010

15

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSO calendário de agregação fornece a informação sobre os objectos ou casos que são combinados em cada estágio (etapa) do processo hierárquico de agregação.Na primeira linha podemos ver que os casos 14 e 16 são combinados neste estágio. A distância euclidiana ao quadrado entre eles é indicada na coluna Coefficients.

Agglomeration Schedule

14 16 2,000 0 0 3

6 7 2,000 0 0 7

10 14 3,000 0 1 8

2 13 3,000 0 0 14

5 11 3,000 0 0 9

3 8 3,000 0 0 15

6 12 4,000 2 0 10

4 10 4,333 0 3 11

5 9 4,500 5 0 121 6 5,000 0 7 13

4 19 7,250 8 0 17

5 20 7,333 9 0 14

1 17 8,250 10 0 15

2 5 10,750 4 12 18

1 3 11,300 13 6 16

1 15 14,000 15 0 19

4 18 20,200 11 0 18

2 4 38,611 14 17 19

1 2 48,292 16 18 0

Stage1

2

3

45

6

7

8

9

10

11

12

13

14

15

1617

18

19

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster FirstAppears

Next Stage

A coluna Stage Cluster First Appearsindica o estágio em que um cluster é formado pela primeira vez. A coluna Nest Stageindica o próximo estágio em que o cluster actual écombinado com outro.

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 14 ��

16 ����

10 � ���

4 ��� ���������������

19 ����� ���������������������

18 �������������������

2 ���������� �����������

13 �

5 ���� ������������������������������

11 � ���

9 ��� ����

20 �����

3 ������������

8 �

6 ���� ���

7 �

12 �������� ������������������������������������

1 ��� ����

17 �������

15 �������������

3 clusters

4 clusters

Page 16: Analise Clusters2010

16

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSDepois podemos usar o coeficiente de determinação, através das tabelas ANOVA para cada número de clusters.

ANOVA

58,588 4 14,647 22,055 ,000

9,962 15 ,664

68,550 19

30,886 4 7,721 16,751 ,000

6,914 15 ,461

37,800 19

69,488 4 17,372 34,921 ,000

7,462 15 ,497

76,950 19

32,871 4 8,218 11,279 ,000

10,929 15 ,729

43,800 19

46,250 4 11,563 13,656 ,000

12,700 15 ,847

58,950 19

35,160 4 8,790 17,840 ,000

7,390 15 ,493

42,550 19

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

C. é engraçado

C. é mau

Comprar e comer

Comprar bem

Não me importo

Poupar comparandopreços

Sum ofSquares df Mean Square F Sig.

5 clusters

25 0,831clustersR =24 0,804clustersR =23 0, 758clustersR =22 0, 475clustersR =

R2 =Variação explicada

Variação total=

Soma dos quadrados entre os grupos

Soma dos quadrados total

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Para analisar os cluster, podemos utilizar uma tabela com esses dados.

Page 17: Analise Clusters2010

17

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Cluster Membership

1 1 1 1

2 2 2 2

1 1 1 1

3 3 3 2

2 2 2 2

1 1 1 1

1 1 1 1

1 1 1 1

2 2 2 2

3 3 3 2

2 2 2 2

1 1 1 1

2 2 2 2

3 3 3 2

4 1 1 1

3 3 3 2

1 1 1 1

5 4 3 2

3 3 3 2

2 2 2 2

Case1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

5 Clusters 4 Clusters 3 Clusters 2 ClustersObtém-se uma tabela que se denomina “Cluster Membership”.Esta tabela indica o cluster a que cada caso pertence.

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSPodemos usar o “gráfico do cotovelo”

2,00019

2,00018

3,00017

3,00016

3,00015

3,00014

4,00013

4,33312

4,50011

5,00010

7,2509

7,3338

8,2507

10,7506

11,3005

14,0004

20,2003

38,6112

48,2921

CoefAglomeração

N.ºClusters

0,000

10,000

20,000

30,000

40,000

50,000

60,000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

N.º Clusters

Coe

f agl

omer

ação

3 ou 4 clusters

Page 18: Analise Clusters2010

18

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Método não hierárquico

Há que seleccionar a técnica K-Means Cluster

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Método não hierárquico Introduzir as variáveis

Definir o número de iterações, caso se tenha escolhido o Método “ IterateandClassify”

Seleccionar o número de clusters

Page 19: Analise Clusters2010

19

Cluster Membership

3 1,414

2 1,323

3 2,550

1 1,404

2 1,848

3 1,225

3 1,500

3 2,121

2 1,756

1 1,143

2 1,041

3 1,581

2 2,598

1 1,404

3 2,828

1 1,624

3 2,598

1 3,555

1 2,154

2 2,102

Case Number1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Cluster Distance

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Método não hierárquico

Esta tabela mostra o cluster a que pertence cada caso e a distância a que cada caso estádo centro do cluster.

O caso 18 é o mais afastado do centro do cluster 1, sendo a distância de 3,455.

O caso 13 é o mais afastado do centro do cluster 2, sendo a distância de 2,598.

O caso 15 é o mais afastado do centro do cluster 3, sendo a distância de 2,828.

Final Cluster Centers

4 2 6

6 3 4

3 2 6

6 4 3

4 6 2

6 3 4

C. é engraçado

C. é mau

Comprar e comer

Comprar bem

Não me importo

Poupar comparandopreços

1 2 3

Cluster

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Método não hierárquico

Esta tabela fornece as médias estandardizadas das variáveis para cada cluster. As médias de cada cluster definem o centro do cluster.

Distances between Final Cluster Centers

5,568 5,698

5,568 6,928

5,698 6,928

Cluster1

2

3

1 2 3 Fornece as distâncias entre clusters. Os clusters mais afastados entre si são C2 e C3. os mais próximos são C1 e C2.

Page 20: Analise Clusters2010

20

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Método não hierárquico

A média da Variável 1 é a que mais se afasta ao longo dos 3 clusters, tendo o maior valor da estatística F.

ANOVA

29,108 2 ,608 17 47,888 ,000

13,546 2 ,630 17 21,505 ,000

31,392 2 ,833 17 37,670 ,000

15,713 2 ,728 17 21,585 ,000

22,538 2 ,816 17 27,614 ,000

12,171 2 1,071 17 11,363 ,001

C. é engraçado

C. é mau

Comprar e comer

Comprar bem

Não me importo

Poupar comparandopreços

Mean Square df

Cluster

Mean Square df

Error

F Sig.

The F tests should be used only for descriptive purposes because the clusters have been chosen tomaximize the differences among cases in different clusters. The observed significance levels are notcorrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

Between Cluster Within Cluster

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

Método não hierárquico

Esta tabela mostra o número de casos (indivíduos) existente em cada cluster

Number of Cases in each Cluster

6,000

6,000

8,000

20,000

,000

1

2

3

Cluster

Valid

Missing

Page 21: Analise Clusters2010

21

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados

Pode usar-se a análise estatística em “Cross Tabs” onde em linha se têm as variáveis e em coluna Cluster Membership.

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados

Case Processing Summary

20 100,0% 0 ,0% 20 100,0%

20 100,0% 0 ,0% 20 100,0%

20 100,0% 0 ,0% 20 100,0%

20 100,0% 0 ,0% 20 100,0%

20 100,0% 0 ,0% 20 100,0%

20 100,0% 0 ,0% 20 100,0%

C. é engraçado * ClusterNumber of Case

C. é mau * ClusterNumber of Case

Comprar e comer *Cluster Number of Case

Comprar bem * ClusterNumber of Case

Não me importo *Cluster Number of Case

Poupar comparandopreços * Cluster Numberof Case

N Percent N Percent N Percent

Valid Missing Total

Cases

Page 22: Analise Clusters2010

22

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados

C. é engraçado * Cluster Number of Case Crosstabula tion

0 2 0 2

,0% 100,0% ,0% 100,0%

0 4 0 4

,0% 100,0% ,0% 100,0%

3 0 0 3

100,0% ,0% ,0% 100,0%

3 0 1 4

75,0% ,0% 25,0% 100,0%

0 0 2 2

,0% ,0% 100,0% 100,0%

0 0 3 3

,0% ,0% 100,0% 100,0%

0 0 2 2

,0% ,0% 100,0% 100,0%

6 6 8 20

30,0% 30,0% 40,0% 100,0%

Count

% within C. é engraçado

Count

% within C. é engraçado

Count

% within C. é engraçado

Count

% within C. é engraçado

Count

% within C. é engraçado

Count

% within C. é engraçado

Count

% within C. é engraçado

Count

% within C. é engraçado

1

2

3

4

5

6

7

C. éengraçado

Total

1 2 3

Cluster Number of Case

Total

6 respondentes pertencem ao Cluster 1.

4 respondentes atribuíram a classificação

4 a esta variável

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados

Quem atribuiu a classificação 1 e 2 ficou no cluster 2. os respondentes que atribuíram a classificação 3 e 4 ficaram no cluster 1 e os restantes ficaram no cluster 3.

Page 23: Analise Clusters2010

23

AnAnáálise de Clusters no SPSSlise de Clusters no SPSSInterpretação dos resultados

Este caso apresenta-se muito afastado do respectivo cluster e tudo indica tratar-se do caso 18.

1 2 3

Cluster Number of Case

1,00000

2,00000

3,00000

Dis

tan

ce o

f C

ase

fro

m it

s C

lass

ific

atio

n C

lust

er C

ente

r

Caso compras

AnAnáálise de Clusters no SPSSlise de Clusters no SPSS

O Cluster 1 caracteriza-se por consumidores que consideram que fazer compras é algo de mau para o orçamento, tentam fazer bem as suas compras, comparando preços pois pretendem poupar.

XPoupar comparando preços

XCompras não têm importância

XComprar bem

XComprar e comer

XComprar é mau

XComprar é engraçado

C3C2C1

O Cluster 2 caracteriza-se essencialmente por ter indivíduos que não dão qualquer importância às compras

O Cluster 3 caracteriza-se por ter indivíduos para os quais as compras são algo de engraçado e que procuram associar as compras com a acção de comer.