Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Klaszterelemzés az SPSS-ben
Petrovics PetraDoktorandusz
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis
• Olyan dimenziócsökkentő eljárás, amellyeladattömböket – megfigyelési egységeket –tudunk viszonylag homogén csoportokbatudunk viszonylag homogén csoportokbasorolni, klasszifikálni.
• Cél: megmutatni, hogy léteznek olyancsoportok, amelyek jobban hasonlítanakegymáshoz, mint más csoportok tagjai.
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Gyakorlati alkalmazási területei
• Piacszegmentálás1. Releváns piac meghatározása
2. Szegmentáció alapjául szolgáló ismérvek meghatározása
3. Szegmentálás (Faktor-, klaszteranalízis)3. Szegmentálás (Faktor-, klaszteranalízis)
4. 1 csoportba került fogyasztók jellemzése
• Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség)
• Új termék lehetőségeinek feltárása
• Tesztpiacok kiválasztása
• Adatcsökkentés
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis folyamata
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Feladat
TK/286. oldal (Sajtos-Mitev)
• Levesport gyártó vállalat fogyasztóitkérdezték megkérdezték meg• Név: String
• Főzős: 1-7-ig terjedő skálán mennyit főz
• Házias: 1-7-ig terjedő skálán mennyire házias
• Nem: 1: férfi, 2: nő
• Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Név Főzős Házias Nem Lakhely Kereset
1 Béla 1 3 1 3 30002 Jenő 2 3 1 1 15003 Bea 5 5 2 2 20004 Marci 2 4 1 3 10005 Ubul 4 4 1 1 70006 Zsuzsa 2 7 2 1 80007 Rita 2 6 2 2 70008 Zoli 3 4 1 3 15009 Dávid 2 2 1 1 50009 Dávid 2 2 1 1 5000
10 Robi 6 5 1 3 100011 Kriszti 3 3 2 3 200012 Zsófi 6 6 2 2 400013 Géza 7 1 1 2 800014 Éva 6 7 2 1 100015 Dóra 5 7 2 1 300016 Vera 1 6 2 2 6000
Nem: 1-férfi, 2-nőLakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
SPSS
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• A klaszterelemzés célja:
A levesporfogyasztókat bizonyos ismérvek alapján csoportokba
rendezni.
1. • A probléma megfogalmazása
• Vizsgálandó elemek kiválasztása:
Sokaság nagysága: Pl. Magyarország levespor-fogyasztói
Mintanagyság meghatározása
Mintavétel módjának meghatározása
Most itt: n=16 fő (nem reprezentatív)
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• Reprezentatív-e a minta?
Itt NEM nem vonhatunk le következtetéseket a
sokaságra vonatkozóan
2. • A klaszteranalízis feltételeinek vizsgálata I.
sokaságra vonatkozóan
• Kiugró adatok (outliers)– Olyan abnormális megfigyelések, amelyek nem jellemzők a
sokaságra;
– Alulprezentálják az alapsokaságban levő csoport nagyságát.
Analyze / Classify / Hierarchical
Cluster / Method: Nearest neighbour
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• Skálák– Hasonló skálázási adatok az összehasonlíthatók
– Célszerű: azonos mértékegység
(ok: nagyobb szórás nagyobb hatást mutat)
2. • A klaszteranalízis feltételeinek vizsgálata II.
(ok: nagyobb szórás nagyobb hatást mutat)
Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk;
A jövedelmet hasonlítanánk össze a főzéssel, stb.
Ha eltér: standardizálni! Ha:
- a válaszok egymáshoz képesti relatív fontossága a lényeges,- hasonló profilokat keresünk,- nem érdekel a „válaszadó stílusa hatás”.
x
ii
s
xxz
−=
Átlaga 0, szórása 1
Összehasonlítható adatok
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical
Cluster / Method…
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
2. • A klaszteranalízis feltételeinek vizsgálata III.
• Erősen korrelálnak az elemzésbe bevontváltozók egymással?
Analyze / Regression/ Linear …
Multikollinearitás
Analyze / Regression/ Linear …
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Bináris változók esetén Metrikus változók esetén
Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték
Euklidészitávolság
Russel and Rao Euklidészi távolság Pearson korreláció
Négyzetes Egyszerű illesztés Négyzetes
3. • Hasonlósági és távolságmérték meghatározása
Négyzetes euklidészi távolság
Egyszerű illesztés Négyzetes euklidészi távolság
Variancia Jaccard City block
Yule Csebisev
Analyze / Classify / Hierarchical
Cluster / Method
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Forgy:
kezdőpont�magpont
4. • Klasztermódszer kiválasztása
Hierarchikus
Agglomeratív
(Összevonó)Divízív (Felosztó)
Nem hierarchikus
�magpont(Összevonó)
Lánc módszer
Egyszerű
Teljes
Átlagos
Variancia módszer
Ward-féleeljárás
Centroidmódszer
Az elemek közötti távolság átlaga
A legtávolabbi 2 elem távolsága
A legközelebbi 2 elem távolsága
A centroidok (kp.) közötti távolság
Forrás: Malhotra [2001]
Pl: Belson: kettéosztás
A klasztereken belüli szórásnégyzet növekedése a legkisebb
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Hierarchikus módszer Nem hierarchikus módszer
Előnyös a használata, ha:
• nem tudjuk előre, hányklasztert szeretnénk létrehozni
• a mintavételi egységek száma magas
• kevésbé függ kiugró értékektől
• kevésbé függ távolságmértékektől
• kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó
Hátránya
• Érzékeny a kiugró értékekre • A klaszterek számát előre kell meghatározni
• Klaszterközéppont kiválasztása
• Függ a megfigyelések sorrendjétől
Kombinált használat:1. Hierarchikus: klaszterek ideális száma2. Kiugró elemek kiszűrése3. Nem hierarchikus csoportosítás
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster
A szerintünk releváns
Az összevonás lépései
releváns változók
Ha az egyes egységeket el szeretnénk nevezni
Megfigyelési egységeket / változókat szeretnénk összevonni
Távolságmátrix
Jégcsapdiagram meghatározott klasztertartományra
Ne használd,
lefagy a gép!
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Outlierek kiszűrése miatt!
Távolságmérték
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Output
Rita Vera
Az új közös klasztermelyik lépésben jelenik
Az összevonás lépései
melyik lépésben jelenikmeg legközelebb(az alacsonyabb szám a
nyilvántartási szám)
Az összevonásra kerültklaszter melyik lépésbenjelenik meg előszörMilyen távolságok
alapján vonták össze a klasztert
Túl nagy ugrás
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Vertical Icecle – Jégcsap diagram
3
Nagy elemszám esetében nehezen kezelhető.
Alulról kezdjük értelmezni:Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
Géza ~
kiugró érték
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Dendogram
Legkisebb távolság alapján von össze
Kiugró értékek kezelése
Géza ~
kiugró érték
Abnormális? Ki kell zárni?
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Kiugró elemek törlése
Data / Select Cases / If condition is satisfied…
Ez marad benn.
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical Cluster / Method: Ward
•Metrikus változók•Metrikus változók
• Nincs kiugró érték
• Nincs korreláció a változók között
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
a. Kutatói tapasztalat
b. Távolságok
5. • Klaszterek számának meghatározása
b. Távolságok
c. Könyökkritérium
d. Klaszterek relatív mértéke
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
b) Távolság ( Dendogram)
Ahol a koefficiens értéke hirtelen megnő
De: törekedjünk 5 körüli értéknél körüli értéknél meghatározni a klaszterek számát
⇒ 2 v. 3 klaszter
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
c) Könyökkritérium
ÁbraszerkesztésLine
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
⇒ 12. lépés után
n - stagetöréspont
3 klaszter
(n-1) elem
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Analyze / Classify / Hierarchical
Cluster / Save…
Konkrét klaszterszám
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Graphs / Scatter/Dot…
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
6.• Klaszterek értelmezése, jellemzése
• Klasztercentroidok és szórások
Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek ⇒ vegyes kapcsolat
Analyze / Compare Means / MeansAnalyze / Compare Means / Means
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• Demográfiai vizsgálat (nem, lakhely)
Minőségi-minőségi ismérv ⇒ asszociáció
Analyze / Descriptive Statistics / Crosstabs
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• Mennyiségi (kereset) +minőségi (cluster) ismérvek ⇒ vegyes kapcsolat (ANOVA)
Analyze / Compare Means / Means
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
6.• Klaszterek jellemzése, elnevezése
1. klaszter 2. klaszter 3. klaszter
Klasztereljá-rásba bevont változók
Sokat főz Nem Igen Nem
Házias Nem Igen Igenváltozók Házias Nem Igen Igen
Csak a jellemzésbe bevont változók
NemTúlnyomórészt
férfiakTúlnyomórészt
nőkNők
Lakhely ? Nagy város Megyeszékhely
KeresetAlacsony(3000€)
Alacsony(2200€)
Magas(7667€)
ElnevezésNemtörődö-
mökHázi tündérek
Rohanó
üzletasszonyok
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Graphs / Pie…
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• Más távolságmérték
• Más klasztereljárások
• Változók elhagyása
7.• Klaszterelemzés érvényességének ellenőrzése
• Változók elhagyása
• A minta 2 részre bontása
• Az esetek sorrendjének megváltoztatása
• Nem hierarchikus klaszterelemzés…
Folyt. köv. órán
Miskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi KarMiskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Köszönöm a figyelmet!Köszönöm a figyelmet!