18
บทนำ ประเภทของกำรจัดกลุ่มหรือแบ่งกลุ่ม เทคนิคการจัดกลุ่มมีหลายเทคนิค ในที่นี้จะกล่าวถึงเทคนิคการจัดกลุ่ม 2 ประเภท ใหญ่ ๆ ดังนี1. กำรจัดกลุ่มตัวแปร เป็นเทคนิคที่ใช้จัดกลุ่มตัวแปรหลาย ๆ ตัวที่มีความสัมพันธ์ออกเป็นกลุ่มย่อย ๆ โดยที่ตัวแปรที่อยู่ในกลุ่มหรือเรียกว่าปัจจัยเดียวกันจะต้องมีส่วนร่วมกันหรือสัมพันธ์กัน ในที่นี้จะ กล่าวถึง 2 เทคนิค คือ 1.1. การวิเคราะห์ดัวยประกอบหลัก (Principal Component Analysis) 1.2 การวิเคราะห์ปัจจัย (Factor Analysis) 2. กำรจัดกลุ่มข้อมูล เป็นเทคนิคที่ใช้จัดกลุ่มคน สัตว์ สิ่งของ องค์กร ฯลฯ ที่เหมือนกันหรือ คล้ายกันไว้ในกลุ่มเดียวกัน แต่ต่างกันจะต้องอยู่คนละกลุ่ม การศึกษาความคล้ายพิจารณาจาก ตัวแปรที่ใช้ในการจัดกลุ่ม ซึ่งมีหลายเทคนิคเช่นกัน ในที่นี้จะกล่าวถึง 3 เทคนิค คือ 2.1 การวิเคราะห์กลุ่ม (Cluster Analysis) 2.2 การวิเคราะห์จาแนกกลุ่ม (Discriminant Analysis) 2.3 การวิเคราะห์ด้วยถดถอยโลจิสติก (Logistic Regression Analysis) เทคนิคทั้ง 3 เทคนิคข้างต้นมีรายละเอียดทั้งวัตถุประสงค์ และหลักการวิเคราะห์ แตกต่างกันสาหรับเทคนิคการวิเคราะห์กลุ่มนั้นสามารถใช้ในการจัดกลุ่มข้อมูล หรือคน สัตว์ สิ่งของ ฯลฯ หรือใช้ในการจัดกลุ่มตัวแปรก็ได้ แต่ส่วนใหญ่จะนิยมใช้ในการจัดกลุ่มข้อมูล มากกว่าตัวแปร โดยการจัดกลุ่มตัวแปรนิยมใช้เทคนิคการวิเคราะห์ปัจจัย กำรวิเครำะห์กลุ่มข้อมูลด้วยเทคนิค (Cluster Analysis) 1. ควำมหมำยของกำรวิเครำะห์กลุ่ม (Cluster Analysis) การวิเคราะห์กลุ่ม ( Cluster Analysis) เป็นเทคนิคการแบ่งกลุ่มหน่วยข้อมูล หรือ เป็นการแบ่งคน สัตว์ สิ่งของ องค์กร ฯลฯ ออกเป็นกลุ่มย่อยอย่างน้อย 2 กลุ่ม โดยมี

การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

  • Upload
    others

  • View
    23

  • Download
    0

Embed Size (px)

Citation preview

Page 1: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

บทน ำ ประเภทของกำรจดกลมหรอแบงกลม เทคนคการจดกลมมหลายเทคนค ในทนจะกลาวถงเทคนคการจดกลม 2 ประเภทใหญ ๆ ดงน 1. กำรจดกลมตวแปร เปนเทคนคทใชจดกลมตวแปรหลาย ๆ ตวทมความสมพนธออกเปนกลมยอย ๆ โดยทตวแปรทอยในกลมหรอเรยกวาปจจยเดยวกนจะตองมสวนรวมกนหรอสมพนธกน ในทนจะกลาวถง 2 เทคนค คอ

1.1. การวเคราะหดวยประกอบหลก (Principal Component Analysis) 1.2 การวเคราะหปจจย (Factor Analysis)

2. กำรจดกลมขอมล เปนเทคนคท ใชจดกลมคน สตว สงของ องคกร ฯลฯ ท เหมอนกนหรอ คลายกนไวในกลมเดยวกน แตตางกนจะตองอยคนละกลม การศกษาความคลายพจารณาจากตวแปรทใชในการจดกลม ซงมหลายเทคนคเชนกน ในทนจะกลาวถง 3 เทคนค คอ 2.1 การวเคราะหกลม (Cluster Analysis) 2.2 การวเคราะหจ าแนกกลม (Discriminant Analysis) 2.3 การวเคราะหดวยถดถอยโลจสตก (Logistic Regression Analysis) เทคนคทง 3 เทคนคขางตนมรายละเอยดทงวตถประสงค และหลกการวเคราะหแตกตางกนส าหรบเทคนคการวเคราะหกลมนนสามารถใชในการจดกลมขอมล หรอคน สตว สงของ ฯลฯ หรอใชในการจดกลมตวแปรกได แตสวนใหญจะนยมใชในการจดกลมขอมลมากกวาตวแปร โดยการจดกลมตวแปรนยมใชเทคนคการวเคราะหปจจย

กำรวเครำะหกลมขอมลดวยเทคนค (Cluster Analysis) 1. ควำมหมำยของกำรวเครำะหกลม (Cluster Analysis) การวเคราะหกลม (Cluster Analysis) เปนเทคนคการแบงกลมหนวยขอมล หรอเปนการแบงคน สตว สงของ องคกร ฯลฯ ออกเปนกลมยอยอยางนอย 2 กลม โดยม

Page 2: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

หลกเกณฑในการแบงดงน “ใหหนวยทอยในกลมเดยวกนมลกษณะทสนใจเหมอนกนหรอคลายกน แตหนวยทอยตางกลมกนจะมลกษณะทสนใจตางกน” ค าวาลกษณะทสนใจอาจจะมหลาย ๆ ตวแปร เชน ถาสนใจความคดเหนทางดานการเมอง จะมค าถามหลาย ๆ ค าถามดานการเมอง และจะน าค าตอบเหลาน นมาแบงกลม (กลยา วานชยบญชา. 2552 : 286) การจด Case (หมายถง คน สตว สงของ หรอ องคกร ฯลฯ) หรอเปนการจดตวแปรออกเปนกลมยอย ๆ ตงแต 2 กลมขนไป Case ทอยในกลมเดยวกนจะมลกษณะทเหมอนกนหรอคลายกน สวน Case ทอยตางกลมกนจะมลกษณะทแตกตางกน ตวแปรทอยในกลมเดยวกน จะมความสมพนธกนมากกวาตวแปรทอยตางกลมกน ตวแปรทอยตำงกลมกน จะมความสมพนธกนนอยหรอไมมความสมพนธกนเลย

เชน มวตถประสงคทจะจดสงของ (Object) n สงใหอยเปนกลม ๆ โดยทสงของทอยในกลมเดยวกนมลกษณะคลายกน (Similarity) หรอใกลชดกน (Closeness) ดงตวอยางผงขอมลขางลางน

ตวแปรท 1 ตวแปรท 2… ตวแปรท K… ตวแปรท P หนวยท 1: X11 X12 X1k X1p หนวยท 2: X21 X22 X2k X2p

. . . . . หนวยท j: Xj1 Xj2 Xjk Xjp

. . . . . หนวยท n: Xn1 Xn2 Xnk Xnp

โดยท Xjk หมายถง การวดหรอคาครงท j ของตวแปร k

จะเหนวาแตละหนวยถกวดดวยตวแปร p ตว หนวยทในทนกคอ สงของท นนเอง ในการวเคราะหจดกลมอาจเรยกทบศพท เชน item case หรอ object แลวแตวา ค าไหนสอความหมายไดมากกวากน อยางไรกตาม การวเคราะหจดกลมนอกจากจะจดสงของใหอยเปนกลม ๆ แลว เรายงสามารถใชแนวคดนจดตวแปร p ตวใหอยเปนกลม ๆ ไดดวย 2. วตถประสงคของกำรแบงกลมขอมลดวยเทคนคกำรวเครำะหกลม (Cluster Analysis)

Page 3: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

การวเคราะหกลมเปนเทคนคทใชในการจดกลมโดยไมทราบมากอนวาควรมกกลม แตจะแบงตามคาของตวแปรทน ามาใชในการแบง โดยใหหนวยท อยในกลมเดยวกน มความคลายกนในตวแปรทศกษา แตหนวยทอยตางกลมกนจะมความตางกน ดงเชนในตวอยางท 1 คนทอยในกลมเดยวกนมอายและรายไดใกลเคยงกน ส าหรบวตถประสงคของการจดกลมหรอจดกลมจะขนกบสาขาทจะน าไปประยกตใชดงน ดำนกำรแพทย

1. จดกลมคนไขตามอาการหรอความรนแรงของโรค เพอใชวธการรกษาทแตกตางกนตามความรนแรงของโรค

2. จดกลมโรงพยาบาลทมประสทธภาพคลายกนไวดวยกน 3. จดกลมประเทศตาง ๆ ตามความเจรญดานสาธารณสข โดยใชตวแปรหรอ

ดชนดานสาธารณสข เชน อตราคนปวยโรคตาง ๆ อาย เฉลย คารกษาพยาบาลเฉลยตอประชากร 1 คน เปนตน

ดำนกำรตลำด 1. แบงผบรโภคหรอลกคาตามพฤตกรรมการบรโภคสนคาตาง ๆ โดยใหลกคาทม

พฤตกรรมการบรโภคหรอการซอสนคาทคลายกนอยในกลมเดยวกน สวนลกคาทมพฤตกรรมการบรโภคตางกนจะอยตางกลมกน เมอจดกลมแลวจะท าใหสามารถวางแผนกลยทธทางการตลาดส าหรบลกคาแตละกลมไดอยางมประสทธภาพ ตวแปรทน ามาใชในการจดกลมอาจใชตวแปรดานพฤตกรรมตาง ๆ ของลกคา

2. ใชวางแผนทางดานการตลาดในพนททแตกตางกน โดยเรมตนดวยการใชเทคนคการวเคราะหกลมแบงพนท หรอจงหวดทประชากรมพฤตกรรมการบรโภคคลายกน หรอมลกษณะประชากรศาสตรคลายกน เชน จ านวนประชากร รายไดเฉลย ขนาดพนท อาชพ ทศนคตของคนในพนท หรอเปนพนททมสภาพเศรษฐกจคลายกนไวในกลมเดยวกน

ดำนกำรศกษำ จดกลมนกเรยนตามผลการเรยน (GPAX) ระดบสตปญญา (IQ) ระดบการศกษาของผปกครอง เพอใหไดนกเรยนในกลมเดยวกน ผลการเรยน ระดบสตปญญา และระดบการศกษาของผปกครองใกลเคยงกน สวนนกเรยนทอยตางกลมกนจะมผลการเรยนระดบสตปญญา และการศกษาของผปกครองตางกน เพอใหครผสอนสามารถวางแผนหรอเลอก

Page 4: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

เนอหา วธการสอนตามความเหมาะสมของแตละกลม โดยตางกลมกนอาจตองใช วธการสอนทแตกตางกน เพอท าใหเกดผลสมฤทธมากทสด

การน าเทคนคการวเคราะหกลมไปใชในงานดานตาง ๆ นนจะพบวาการเลอกตวแปรทน ามาใชในการจดกลมนนมความส าคญมาก ถาผวจยเลอกตวแปรทไมไดท าใหคนทอยตางกลมกนมความแตกตางกนแลว จะท าใหไมสามารถจดกลมไดถกตอง เชน ดานการตลาด ซงเปนการจดกลมพนทหรอจงหวด ผวจยจะตองศกษาวาตวแปรใดบางทมอทธพลทท าใหกลมตาง เชน จ านวนประชากร รายไดเฉลย อาชพ สภาวะเศรษฐกจ ฯลฯ เขามาใชในการจดกลม หรอดานการแพทย ซงเปนการจดกลมประเภท โดยใชขอมลดานสาธารณสข ตวแปรทใชอาจเปนจ านวนแพทยตอจ านวนประชากร จ านวนเภสชกรและพยาบาลตอจ านวนประชากร จ านวนเตยงในโรงพยาบาลตอจ านวนประชากร อตราคนปวย อายเฉลย คารกษาพยาบาล เปนตน โดยตองการจดกลมประเทศทมระบบสาธารณสขคลายกนอยในกลมเดยวกน เมอท าการจดกลมแลว ควรจะศกษาลกษณะของบคคล หรอขององคกรทอย ในกลมเดยวกน เพอน ามาใชวางแผนงานตอไป สชาต ประสทธรฐสนธ(2540) ไดกลาวถงวตถประสงคของ เทคนควธ Cluster Analysis วา เทคนค Cluster Analysis มวตถประสงคทส าคญอย 2 ประการ คอ การจดกลมหนวยวเคราะห การจดกลมตวแปร ซงมความสอดคลองกบ กลยา วานชยบญชา (2548) และสามารถกลาวโดยรวมคอ เพอจดกลม Case ซงจะเปนประโยชนในงานดานตาง ๆ เ ชน การตลาด การแพทย การปกครอง ฯลฯ ดงตวอยางตอไปน ตวอยำงท 1 ใชศกษาพฤตกรรมการบรโภคของกลมผบรโภคทอยตางกลมกน ซงจะท าใหสามารถวางกลยทธทางการตลาดไดอยางมประสทธภาพมากขน การทจะสามารถแยกกลมผบรโภคออกเปนกลมยอยได จะตองพจารณาถงตวแปรทใชในการจดกลมผบรโภค ทจะท าใหผทอยตางกลมกนมพฤตกรรมการบรโภคทแตกตางกน ตวแปรดงกลาวอาจจะประกอบดวยอาชพอาย รายได เปนตน ตวอยำงท 2 ใชวางแผนเพอการทดสอบตลาด เชน อาจจะมการจดกลมพนทหรอจงหวดโดยรวมพนท หรอจงหวดทคลายกนไวดวยกน เพอจะไดก าหนดกลยทธทางการตลาดทแตกตางกนส าหรบพนททอยทตางกลมกน ส าหรบตวแปรทควรน ามาพจารณาในการจดกลมอาจจะเปนจ านวนประชากร รายไดเฉลย อาชพของคนในพนท พฤตกรรม ทศนคตของคนในพนท เปนตน

Page 5: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

ตวอยำงท 3 การเปรยบเทยบรถยนตยหอตาง ๆ โดยท 1 Case คอ รถยนต 1 ยหอ ซงพจารณาจากตวแปร เชน ความถในการซอม ลกสบ ระบบเบรก คาใชจายตอกโลเมตร ราคา เปนตน ตวอยำงท 4 การจดกลมประเทศ อาจใชดชนทางดานสาธารณสข เปนตวแปรทใชในการจดกลม เชน จ านวนแพทย เภสชกร พยาบาล จ านวนเตยงในโรงพยาบาล สดสวนของไขมน และแปงในอาหาร ในทน 1 Case คอ 1 ประเทศ โดยใหประเทศทมระบบสาธารณสขคลายกนอยดวยกน ถาประเทศทมระบบสาธารณสขตางกนจะอยตางกลมกน จากตวอยางท 1 และ 2 ขางตน จะพบวาการเลอกตวแปรเพอน ามาใชจดกลม Case มความส าคญมาก เพราะถาผวจยเลอกตวแปรทไมไดท า Case แตกตางกนแลว จะท าใหไมสามารถจดกลมไดถกตอง การเลอกจะตองพจารณาวาตวแปรใดบางทมอทธพลท าใหเกดความแตกตาง ในตวอยางท 2 การจดกลมจงหวด ถาไมไดน าตวแปร จ านวนประชากร รายได อาชพ เขามาพจารณาจดกลมกอาจไมสามารถสรางเกณฑในการจดกลมไดถกตอง และเมอแบง Case เปนกลมยอยแลว จะสามารถศกษาถง Profile หรอลกษณะของกลมยอยแตละกลมได เพอน ามาใชวางแผนดานการตลาดตอไป (กรณทเปนเรองการศกษาพฤตกรรมผบรโภค) เมอใชจดกลมตวแปร การจดกลมตวแปรทมความสมพนธกนไวดวยกน จะเปนการลดจ านวนขอมลทมจ านวนมากใหนอยลง ท าใหงายตอการวเคราะห เชน เดมม 100 Case 20 ตวแปร รวมขอมลทงหมด 2,000 คา (100 × 20) แตถาจดกลมตวแปร 20 ตว เหลอเพยง 3 กลม จะท าใหขอมลลดลงเหลอเพยง 300 คา (3 × 100) นอกจากนน การจดกลมตวแปรท าใหทราบวาตวแปรใดบางทมความสมพนธกน การเปลยนแปลงของตวแปรบางตวยอมมผลกระทบตอตวแปรอน ๆ ทมความสมพนธกบตวแปรดงกลาว 3. คณสมบตของเทคนควธ Cluster Analysis สชาต ประสทธรฐสนธ(2540)ไดกลาวถงคณสมบตของเทคนควธ Cluster Analysis ไวหลายประการดวยกนซงมรายละเอยดดงน 3.1 ควำมตองกำรทำงดำนขอมล ส าหรบการวเคราะหจดกลมหนวยวเคราะหผวจยอาจใชขอมลทระบหนวยวเคราะหและตวแปรตามทจดเกบมาไดเลย เชน การวเคราะหทไดกลาวมาแลวของตน สวนการวเคราะหจดกลมตวแปร ผวจยไมอาจจะใชแฟมขอมลดงกลาวไดโดยใชเมตรกแสดงความสมพนธระหวางตวแปร แทนได

Page 6: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

3.2 แนวคดพนฐำน สงส าคญทสดของการวเคราะหการจดกลมคอ ตวแปรทใช หากผวจยไมไดเกบขอมลเกยวกบตวแปรทส าคญ ๆ ผลทไดกจะไมดหรอท าใหไขวเขวได ทงนเพราะตวแปร ทเลอกไวตงแตแรกจะเปนสงทก าหนดคณสมบตของสงทระบความเปนกลมยอย เชน ในการจดกลมโรงเรยนในเมอง หากผวจยไมเกบขอมลเกยวกบ จ านวนนกเรยนและคร ขนาดของโรงเรยนกไมอาจเปนเกณฑในการจดกลมได 3.3 ควำมคลำยกนของหนวย ความคดเกยวกบความคลายของหนวยศกษา เปนเทคนคของการวเคราะหทางสถตหลายวธ โดยทวไปการวดความคลายจะพจารณาจากความหางระหวางวตถ หรอพจารณาจากความคลายกน 3.4 กำรวดควำมหำง วธการวดความหางสามารถวดไดหลายวธ วธการหนงทนยมวดกนมากกคอ วธทเรยกวา ระยะหางเชงยคลดยกก าลงสอง (Squared Euclidean distance) คอ ผลรวมของผลตางยกก าลงสองของทกตวแปร เชน ตองการดความหางกนของเบยร 2 ยหอ ซงเราทราบราคาตนทน และแคลอรของเบยรทง 2 ยหอ ตารางท 1 แสดงคาของแคลอรและตนทน (สชาต ประสทธรฐสนธ : 2540)

จากตารางท 1 ความแตกตางระหวางเบยรทง 2 คอ (114 - 157)2 + (43 - 48) 2 เทากบ 132 +52 หรอ 194 อยางไรกด ความแตกตางระหวางหนวยของการวดในแตละตวแปรกจะเปนปญหาในการวดคาความหาง ดงนน จงจ าเปนทจะตอง ท าใหตวแปรทกตวอยในมาตรวดเดยวกน คอการท าใหตวแปรทกตวมคาเฉลยเปน 0 และสวนเบยงแบนมาตรฐานเปน 1 ซงผลทไดคอ คาคะแนนมาตรฐาน ซงจะไดเปนคา ดงตารางท 2

ตารางท 2 แสดงคะแนนมาตรฐานของคาของแคลอรและตนทน(สชาต ประสทธรฐสนธ:2540)

Page 7: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

ไมวาจะท าการค านวณหาความหางหรอความคลายดวยวธใดกตาม ผวจยจะตองตดสนใจวาจะปรบสเกลตวใดบาง เพอท าใหตวแปรมสเกลเหมอนกน มฉะนนแลวคาความหางหรอความตางจะขนอยกบขนาดของมาตรวดของตวแปรทมขนาดใหญกวา ซงการปรบท าไดหลายวธ เชน การหารดวยคาเบยงเบนมาตรฐาน คาพสย คาเฉลย เมอท าการปรบคามาตรฐานแลว จงค านวณหาคาความตางหรอความคลายกนชนดตาง ๆ ซงวธตาง ๆ นนจะใหน าหนกของขอมลทตางกน ซงจะกลาวถงรายละเอยดของสตรทใชในการวเคราะหแตละวธตอไป 4. ประเภทของเทคนค Cluster Analysis เทคนค Cluster Analysis แบงเปนหลายประเภทหรอเทคนคยอย โดยเทคนคทใชกนมากม 2 เทคนค คอ 4.1 การวเคราะหกลมแบบขนตอน (Hierarchical Cluster Analysis) 4.2 การวเคราะหกลมแบบไมเปนขนตอน (Nonhierarchical Cluster Analysis หรอบางครงเรยกวา K – Means Cluster Analysis ) นอกจากน ย งม เท คน ค 2 Step Cluster Analysis และ เท คน คด งกล า วมวตถประสงค และวธการทแตกตางกน ซงจะไดกลาวถงเทคนค Hierarchical Cluster Analysis 4.1 เทคนค Hierarchical Cluster Analysis เปนเทคนคทนยมใชกนมากในการจดกลม Case หรอจดกลมตวแปร โดยมเงอนไขดงน 1. ในกรณทใชในการแบง Case นน จ านวน Case ตองไมมากนก (จ านวน Case ควรต ากวา 200 ถาตงแต 200 ขนไปใช K-Means Cluster)และจ านวนตวแปรตองไมมากเชนกน 2. ไมจ าเปนตองทราบจ านวนกลมมากอน 3. ไมจ าเปนเปนตองทราบวาตวแปรใดหรอ Case ใดอยกลมใดกอน หมำยเหต : เงอนไขในขอ 2 และขอ 3 จะตรงขามกบเงอนไขของเทคนค Discriminant ในบทท 3 ซงจาเปนตองทราบจานวนกลมมากอนและตองทราบ Case ใดอยกลมไหนมากอน เทคนค Hierarchical Cluster แบงเปน 2 เทคนคยอยคอ

1. Agglomerative Hierarchical Cluster Analysis 2. Divisive Hierarchical Cluster Analysis

Page 8: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

ส าหรบโปรแกรมส าเรจรปทวไป จะใชเทคนค Agglomerative Hierarchical Cluster Analysis

4.1.1 Agglomerative Hierarchical Cluster Analysis วธน เรมตนจะสมมตวาม n กลมยอย สงของ หรอ item ทมระยะสนทสด หรอคลายกนมากทสดจะรวมเขาดวยกนเปนกลมกอน จงเหลอ n-1 กลมยอย จากนนหาระยะทางหรอความคลายจาก n – 1 กลมยอยใหม แลวดวากลมยอยใดมระยะทางสนทสด หรอคลายกนมากทสดกรวมกลมยอยนนเขาดวยกน ท าเชนนตอ ๆ ไป ในทายทสดแลวจะมเพยง 1 กลมซงประกอบดวยสงของ n สง ใน Agglomerative Hierarchical Cluster Analysis จ ะม ว ธ ท เร ย ก ว า Linkage method ทเปนทรจกกนโดยทวไปม 3 วธคอ single linkage (หรอเรยกวา nearest neighbor) complete linkage (หรอ furthest neighbor) และ average linkage (หรอ average distance) แนวคดทง 3 วธอธบายดวยรปดงน

รปท 1 แนวคดทง 3 วธ จากรปท 1 จะเหนวา การจดกลมโดยวธ single linkage กลมทไดมาจากระยะทางทสนทสด ระหวางสงของหรอ item กลมทไดโดยวธ complete linkage มาจากระยะทางทยาวทสดส าหรบวธ average distance ไดจากระยะทางเฉลย 1. ขนตอนของเทคนค Hierarchical Cluster ส ำหรบกำรจดกลม Case

Page 9: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

กลยา วานชยบญชา(2552) ไดเสนอขนตอนของเทคนค Hierarchical Cluster ส าหรบการจดกลม Case ไว 3 ขนตอนดวยกนซงมรายและเอยดดงน ขนท 1 เลอกตวแปรหรอปจจยทคาดวามอทธพลทท าให Case ตางกน นนคอ ตวแปรนนจะท าใหสามารถจดกลม Case ไดชดเจน ขนตอนนเปนขนตอนทส าคญ ขนท 2 เลอกวธการวดระยะหางระหวาง Case แตละค หรอเลอกวธการค านวณเพอวดคาความคลายของ Case แตละค ขนท 3 เลอกหลกเกณฑในการรวมกลม หรอรวม Cluster 2. กำรวดควำมคลำย (Similarity Measure) ด งท ไดกล าวมาแลวถ งหลกเกณฑของเทคนค Cluster วาจะใชในการจด Case ทคลายกนไวในกลมเดยวกน หรอจดกลมตวแปรทสมพนธกนไวในกลมเดยวกน นนคอ จะมการวดความคลายกนของ Case ทละค ในกรณทเปนการจดกลม Case สวนการจดกลมตวแปร การวดความคลายจะเปนการวดความคลายของตวแปรแตละค คอ การหาคาสมประสทธสหสมพนธเมอตองการจดกลม Case จะตองหาความคลายของ Case ถง nC2 ค เมอมขอมล Case = n แตถาตองการจดกลมตวแปรจะตองหาความสมพนธของตวแปรทละครวมถง kC2 ค เมอมตวแปร k ตว การวดความคลายของ Case แตละคอาจจะวดดวยระยะหาง (Distance) หรอวดดวยคาความคลาย (Similarity) แตการวดความสมพนธของตวแปรจะวดดวยคาสมประสทธสหสมพนธเพยรสน (Pearson correlation)ส าหรบวธการค านวณระยะหาง หรอคาความคลายของ Case แตละค จะแตกตางกนเมอชนดของขอมลตางกน ซงชนดของขอมลหรอตวแปรทสามารถใชเทคนค Hierarchical Cluster ได ม 3 ประเภท คอ

2.1 ขอมลเปนสเกลอนตรภาค (Interval scale) หรอสเกลอตราสวน (Ratio scale)

2.2 ขอมลทอยในรปความถ (Count Data) 2.3 ขอมลอยในรป Binary นนคอ มได 2 คา คอ 0 กบ 1 หรอกลาวไดวา

ขอมลทน ามาใชในเทคนค Hierarchical จะเปนขอมลชนดตวเลข หรอเปนเชงปรมาณ (Interval หรอ Ratio scale) หรอขอมลอยในรปความถ หรอ Binary กรณทวดควำมคลำยดวยระยะหำง ถาระยะหางระหวาง Case คใดต า แสดงวา Case คนนอยใกลกน หรอมความคลายกน ควรจะจดใหอยในกลมหรอ Cluster เดยวกน ส าหรบวธการค านวณจะขนอยกบชนดของขอมลทง 3 ชนดขางตน

Page 10: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

กรณทวดควำมคลำยดวยของ Case ถาคาความคลายของ Case คใดมคามากแสดงวา Case คนนคลายกนมาก จงควรจดใหอยในกลมเดยวกน การค านวณคาความคลายจะแตกตางกน ถาชนดของขอมลแตกตางกน กรณทวดควำมคลำยของตวแปรดวยคำสมประสทธสหสมพนธ ถาตวแปรคใด มคาสมประสทธสหสมพนธมาก แสดงวาคนนสมพนธกนมากควรจดไวในกลมเดยวกน 3. หลกกำรกำรรวมกลม (Methods for Combining Cluster) ส าหรบหลกการในการรวมกลมของเทคนค Hierarchical Cluster นนมหลายวธ วธทนยมกนมาก คอ Agglomerative Hierarchical Cluster Analysis หรอในโปรแกรม SPSS เรยกวา Agglomerative Schedule ซงหลกการเกณฑของ Agglomerative schedule จะท าการรวมกลม Cluster อยางเปนขนตอนดงน กอนท าการวเคราะหจะก าหนดให 1 กลม หรอ 1 Cluster ม Case 1 Case นนคอ ถอวาแตละ Case เปน 1 Cluster จงมจ านวน Cluster เทากบจ านวนขอมลหรอจ านวน Case กรณทมจ านวนขอมล n Case จะม n Cluster หรอ n กลม ขนท 1 : รวม Case 2 Case ใหอยในกลมเดยวกน หรอ Cluster เดยวกน โดย พจารณาจากคาระยะหางหรอคาความคลาย ขนท 2 : พจารณาวาควรจะรวม Case ท 3 เขาอยในกลมเดยวกบ 2 Case แรก หรอควรจะรวม 2 Case ใหมเขาอยในกลมใหมอกกลมหนง โดยพจารณาจากคาระยะหางหรอคาความคลาย ท ำขนท 3, 4 , … โดยใชเกณฑเดยวกบขนท 2 นนคอ ในแตละขนอาจจะรวม Case ใหมเขาไปในกลมทมอยแลว หรอรวม Case ใหม 2 Case เปนกลมใหม ท าเชนนไปเรอย ๆ จนกระทงได ทก Case อยในกลมเดยวกน นนคอ สดทายมเพยง 1 กลม หรอ 1 Cluster และCase ใดทถกจดกลมแลวจะไมมการเปลยนแปลง

หลกเกณฑในกำรรวมกลม หลกเกณฑในการรวมกลมในแตละขนตอนขางตนมหลายวธ ในทนจะกลาวถงเฉพาะวธทมในโปรแกรม SPSS ซงจะปรากฏในค าสง Method ดงน 1. Between – groups Linkage ห ร อ เร ย ก ว า ว ธ Average Linkage Between Groups ห ร อ เร ย ก ก ว า UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)

Page 11: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

รปท 2 Average linkage

วธนจะค านวณหาระยะหางเฉลยของทกคของ Case โดยท Case หนงอย

ใน Cluster ท i สวนอก Case หนงอยใน Cluster ท j, i j ถา Cluster ท i มระยะหางเฉลยจาก Cluster ท j สนกวาระยะหางจาก Cluster อนจะน า Cluster ท i และ j รวมกนเปน Cluster เดยวกน 2. Within-group Linkage Technique หรอเรยกวา Average Linkage Within Groups Method วธนจะรวม Cluster เขาดวยกนถาระยะหางเฉลยระหวางทก Case ใน Cluster นน ๆ มคานอยทสด 3. Nearest Neighbor หรอเรยกวำ Single Linkage

รปท 3 : Single Linkage

วธนจะรวม Cluster 2 Cluster เขาดวยกนโดยพจารณาจากระยะหางทสนทสด โดยท dik เปนระยะหางทสนทสดระหวาง Cluster i และ k ในรปท 3 จะรวม Cluster i และ j เขาดวยกนเพราะ dij < dik

Page 12: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

4. Furthest Neighbor Technique หรอเรยกวา Complete Linkage

รปท 4 : Complete linkage วธนจะรวม Cluster 2 Cluster เขาดวยกนโดยพจารณาจากระยะหางทยาวทสด dik = ระยะหางทยาวทสดของ Cluster ท i และ k dij = ระยะหางทยาวทสดของ Cluster ท i และ j ในทน dij < dik จงรวม Cluster ท i และ j เขาเปน Cluster เดยวกน 5. Centroid Clustering

รปท 5 : Centroid Clustering

Page 13: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

วธนจะรวม Cluster 2 Cluster เขาดวยกนโดยพจารณาจากระยะหางของจดกลางของ Cluster (กลม) วธการนจะค านวณหาระยะหางระหวาง Centroid ของ Cluster ทละค ในทนจะเรยกคาเฉลย หรอคากลางของแตละ Cluster วา Centroid ของ Cluster เนองจากการจดกลมCase จะพจารณาจากตวแปรหลาย ๆ ตวพรอม ๆ กน จงเรยกคากลางหรอคาเฉลยวา Centroid ถาระยะหางระหวาง Centroid ของ Cluster คใดต าจะรวม Cluster คนนเขาเปน Cluster เดยวกน 6. Median Clustering วธนจะรวม Cluster 2 Cluster เขาดวยกน โดยใหแตละ Cluster ส าคญเทากน (ใหน าหนกเทากน) ในขณะทวธของ Centroid Clustering จะใหความส าคญแก Cluster มขนาดใหญมากกวา Cluster ทมขนาดเลก (ใหน าหนกไมเทากน) Median Clustering จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Clustering จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Cluster คใดต าจะรวม Cluster คนนเขาดวยกน 7. Ward’s Method หลกการของวธนจะพจารณาจากคา Sum of the squared within-cluster distance โดยจะรวม Cluster ทท าใหคา Sum of square within-cluster distance เพมขนนอยทสด โดยคา Square within-cluster distance คอคา Square Euclidean distance ของแตละ Case กบ Cluster Mean กำรพจำรณำเลอกจ ำนวนกลมทเหมำะสม ดงไดกลาวมาแลววา ผลลพธของเทคนค Cluster ไมไดใหคาสถต หรอผลการทดสอบสมมตฐานเพอใหตดสนใจหาจ านวนกลมทเหมาะสม ผวเคราะหจะตองพจารณาความเหมาะสมเอง โดยอาจใชระยะหาง หรอความคลาย โดยใช dendogram ซงผวเคราะหจะสามารถพจารณาจ านวนกลมจาก dengdogram โดยการก าหนดตวเลขระหวาง หรอความคลายเปนเกณฑ ในการตดสนใจ 1) การใช Dendogram ส าหรบ Dendogram ถาก าหนดระยะหางระหวางกลม เปนหนวยทแตกตางกนไปกจะไดจ านวน Cluster ทแตกตางกนไป คอยงระหางยงมาก

Page 14: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

จ านวน Cluster กจะเพมขน

รปท 6 : รปแสดงกำรใช Dendogram ในกำรจดกลม

2) การใช Multidimensional 3) การใช Discriminan 4.1.2 Divisive Hierarchical Cluster Analysis วธน เรมตนโดยสมมตวามกลมทประกอบดวยสงของหรอ item จ านวน n สง จากนนกจะแบงออกเปน 2 กลมชนดท สงของในกลมมระยะทางไกลทสด ขนตอไปกจะม 3 กลมยอย ท าเชนนตอไป จะเหนวาในทายทสดแลวจะม n กลมยอยซงแตละกลมยอยประกอบดวยสงของ 1 สง หนงสอสวนมากจะไมมรายละเอยดเกยวกบวธน

รปท 7 : รปแสดงกำรใช Dendogram ในกำรจดกลม

Page 15: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

ขอจ ำกดของวธ Agglomerative Hierarchical Cluster Analysis เนองจากวธ Agglomerative Hierarchical Cluster Analysis จะเรมตนใหจ านวน case = จ านวน cluster เชน ม n case = ม n cluster แลวคอย ๆ ลดจ านวน cluster ทละ 1 โดยรวมกลม 2 cluster ทคลายกนมากทสด หรอตางกนนอยทสดเขาดวยกน จงคอย ๆ ลดจ านวน cluster ครงละ 1 ดงนน ถาม n มาก เชน n = 1,000 คน จะตองท าการรวมกลม 999 ครงโดยเรมจากม 1,000 cluster แลวลดเหลอ 999 cluster , 998 cluster เปนเชนนไปเรอย ๆ จนเหลอ 1 cluster ซงจะท าใหเสยเวลามาก ดงนนโดยทวไปถามจ านวน case มากกวา 200 case จงไมนยมใชเทคนค Hierarchical Cluster 4.2 กำรว เค รำะห กล มแบบ ไม เป นข น ตอน (Nonhierarchical Cluster Analysis หรอ บำงครงเรยกวำ K – Means Cluster Analysis ) การจ าแนกกลมแบบ K-Means Cluster Analysis หรอทเรยกอกอยางวา การวเคราะหกลมแบบไมเปนขนตอน (Nonhierarchical Cluster Analysis) หรอ การแบงสวน (Partitioning) ซงเปนวธทแตกตางจากเทคนคการวเคราะหแบบเปนขนตอนคอ เทคนคHierarchical Cluster Analysis โดยวธนผวจยจะตองก าหนดเองวาจะตองแบงเปนกกลม เชน k กลม จงเรยกวธนวา K-Means Clustering โดย Hartigan (1975 อางถงใน กลยา วานชยบญชา, 2548) ไดศกษาขนตอนการวเคราะหของวธ K-Means สามารถสรปไดดงน ขนตอนการจดกลมดงน

1. จดสงของออกเปน K กลมคราว ๆ กอน 2. หา Centroid (ในทนคอคาเฉลย) ของแตละกลม เราจะจดสงของลงในกลม

ทอยใกล Centroid มากทสด ในกรณทกลมทจดไดในขอ 1. ไมเปนไปตามน เราตองกลบไปเรมทขอ 1. ใหม

3. กลบไปท าขอ 2. 4.2.1 หลกกำรของเทคนค K-Means Clustering เปนเทคนคการจ าแนก Case ออกเปนกลมยอย จะใชเมอมจ านวน Case มาก โดยจะตองก าหนดจ านวนกลมหรอจ านวน Cluster ทตองการ เชน ก าหนดใหม k กลม เทคนค K-Means จะมการท างานหลาย ๆ รอบ (Iteration) โดยในแตละรอบจะมการรวม Cases ใหไปอยในกลมใดกลมหนง โดยเลอกกลมท Case นนมระยะหางจากคากลางของกลมนอยทสด แลว

Page 16: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

ค านวณคากลางของกลมใหม จะท าเชนนจนกระทงคากลางของกลมไมเปลยนแปลง หรอครบจ านวนรอบทก าหนดไว 4.2.2 ชนดของตวแปรทใชในเทคนค K-Means Clustering ตวแปรทใชในเทคนค K-Means Clustering จะตองเปนตวแปรเชงปรมาณ คอ เปนสเกลอนตรภาค (Interval Scale) หรอสเกลอตราสวน (Ration Scale) โดยไมสามารถใชกบขอมลทอยในรปความถ หรอ Binary เหมอนเทคนค Hierarchical 4.2.3 ขนตอนกำรวเครำะหของวธ K-Means การวเคราะหจ าแนกกลมดวยเทคนควธ K-Means Clustering สามารถสรป ขนตอนของการวเคราะหได 4 ขนตอนดงน ขนท 1 จดกลมขอมลเปน k กลม ซงมการแบงไดหลายวธดงน

- แบงอยางสม - แบงดวยผศกษาเอง

ขนท 2 ค านวณหาจดกงกลางกลมของแตละกลม เชน จดกลางกลมของกลมท C คอ ขนท 3 มวธการพจารณา 2 แบบ โดยจะค านวณ.

แบบท 1 ค านวณหาระยะหางจากแตละหนวยไปยงจดกลางกลมของทกกลมและจะพจารณายายหนวยไปยงกลมทมระยะหางต าสด

แบบท 2 ค านวณระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลมทหนวยนนอย โดยให ESSZ (Error Sum Square) เทากบระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลม

โดยท C ( i ) หมายถง กลมของหนวยท i ESS = ผลบวกของระยะหางจากแตละหนวยในกลมไปยงจดกลาง

กลมรวมทกกลม กลมใดทมคา ESS ต า แสดงวาหนวยทอยในกลมนนมความคลายคลงกน

ขนท 4 การพจารณายายกลม จะใชเกณฑการยายตามคาทค านวณไดในขนท 3

Page 17: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

แบบท 1 จะท าการยายหนวยท i ไปยงกลมทท าใหระยะหางจากหนวยท i ไปยงจดกลางกลมมคาต าสด

แบบท 2 จะท าการยายหนวยท i ไปยงกลมทท าใหคา ESS มคาต าสดถาขนท 4 ไมมการยายกลมอกแลว แสดงวากลมทแบงไดนนเหมาะสมแลว แตถาในนนท 4 มการยายกลม กลมทมหนวยยายเขาหรอยายออกจะตองท าการค านวณหาจดกลางกลมใหมนนคอตองกลบไปท าขนท 2 4.2.4 ขอแตกตำงระหวำงเทคนค Hierarchical กบวธ K-Means กลยา วานชยบญชา (2548) ไดจ าแนกขอแตกตางระหวางเทคนค Hierarchical กบวธ K-Means ไวดงน 1. เทคนค K-Means ใชเมอมจ านวน Case หรอ จ ำนวนขอมลมำก โดยทวไปนยมใชเมอ n ≥ 200 เพราะเมอ n มาก เทคนค K-Means จะงายกวา และใชระยะเวลาในการค านวณนอยกวาการใชเทคนค Hierarchical หรอกลาวไดวาเมอมจ านวน Case ไมมากควรใชเทคนค Hierarchical 2. เทคนค K-Means นน ผใชจะตองก าหนดจ านวนกลมทแนนอนไวลวงหนา กรณทผวเคราะหยงไมแนใจวาควรมกกลมจงจะเหมาะสม ผวเคราะหอาจจะใชวธใดวธหนงดงตอไปน - ท าการวเคราะหดวยวธ K-Means หลายๆ ครง แตละครงก าหนด จ านวนกลมแตกตางกนไป เชน เปน 3, 4 หรอ 5 กลม แลวพจารณาหาจ านวนกลมทเหมาะสม แตเมอมขอมลมากวธนจะท าใหเสยเวลามาก ใชขอมลบางสวนท าการวเคราะหโดยวธ Hierarchical เพอหาจ านวนกลมทควรจะเปนจากนนจงใชเทคนค K-Means กบขอมลทงหมดทม 3. เทคนค Hierarchical นน ผวเคราะหจะ Standardized ขอมลหรอไมกได แตโดยวธ K-Means จะตองท าการ Standardized ขอมลกอนเสมอ 4. วธ K-Means จะหาระยะหางโดยวธ Euclidean Distance โดยอตโนมต ขณะท Hierarchical ผวเคราะหมสทธทจะเลอกวธการค านวณระยะหาง หรอความคลายได ขอแตกต ำงระห วำงกำรจ ำแนกกล มด วยเทคน ค Cluster Analysis และเทคน ค Discriminant Analysis เทคนคการแบงดวย Cluster Analysis ซงแบง Case ทคลายกนอย ในกลมเดยวกน และ Case ทตางกนอยตางกลมกน ซงคลายกบเทคนค Discriminant Analysis แตจะพบวายงมขอแตกตางระหวางเทคนคทง 2 ดงน

Page 18: การจัดกลุ่มด้วยเทคนิค Cluster Analysis · Analysis ว `า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่ส

ตารางท 3 ความแตกตางระหวางเทคนค Cluster & Discriminant

Cluster Analysis Discriminant Analysis

1. ไมจ าเปนตองทราบกอนวามกกลม 1. ตองทราบมากอนวามกกลม โดยผวจยเปนผจดกลมเอง และก าหนดเองวาจะมกกลม

2. ไมทราบมากอนวา Case ใดอยกลมไหน 2. ทราบมากอนวา Case ใดอยกลมไหนเนองจากผวจยเปนผจดกลมมากอน

3. ไมมสมการแสดงความสมพนธ 3. มสมการแสดงความสมพนธ

บรรณำนกรม กลยา วานชยบญชา. (2552). กำรวเครำะหขอมลหลำยตวแปร. กรงเทพมหานคร : ภาควชาสถต คณะพาณชยศาสตรและการบญช จฬาลงกรณมหาวทยาลย. พมพครงท 4. กลยา วานชยบญชา. (2552). สถตส ำหรบงำนวจย. กรงเทพมหานคร : ภาควชาสถต คณะพาณชยศาสตรและการบญช จฬาลงกรณมหาวทยาลย. พมพครงท 4. อ านวย มณศรวงศกล. (2541). Cluster Analysis. วารสารวจย มหาวทยาลยขอนแกน . อจฉราพร สหรญวงศ และรณชย คงสกนธ. (2541). แบบวด Hamilton Rating Scale for Depression : กำรวเครำะหกำรรวมกลม. วารสารสมาคมจตแพทย แหงประเทศไทย. Joseph F. Hair, Jr. , William C. Black , Barry J. Babin , Rolph E. Anderson . Multivariate Data Analysis . A GLOBAL PERSPECTIVE . Johnson , R.A. and Wichern , D.W. 1992 . Applied Multivariate Statistical Analysis . 3rd ed. Englewood Cliffs : Prentice-Hall . Norusis , M.J. 1985 . SPSSx Advance Statistics Guide . New York : McGraw-Hill.