12
Introduction to Data Mining with RapidMiner Studio 7 (data) 3 base|warehouse|mining http://www.dataminingtrend.com http://facebook.com/datacube.th Eakasit Pacharawongsakda, Ph.D. Certified RapidMiner Analyst (data) 3 base|warehouse|mining http://www.dataminingtrend.com http://facebook.com/datacube.th แนะนำการใช้งาน RapidMiner Studio 7 บท 1

Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

  • Upload
    lamnhan

  • View
    235

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

Introduction to Data Mining with RapidMiner Studio 7

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

Eakasit Pacharawongsakda, Ph.D.

Certified RapidMiner Analyst

(data)3 base|warehouse|mininghttp://www.dataminingtrend.com

http://facebook.com/datacube.th

แนะนำการใชงาน RapidMiner Studio 7

บทท 1

Page 2: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

หวขอตางๆ

1. แนะนำ Data Mining และ RapidMiner Studio 7

2. เรมตนใชงาน RapidMiner Studio 7

3. องคประกอบของ RapidMiner Studio 7

4. การจดการขอมลใน RapidMiner Studio 7

5. ตวอยางการสรางโมเดล Decision Tree

6. เอกสารอางอง (Reference)

3

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

1. แนะนำ Data Mining และ RapidMiner Studio 7

คงปฏเสธไมไดวาเราไดกาวเขาสยคทมขอมลขนาดมหาศาลซงเกดจากการใชงานในชวตประจำ

วนของเราเอง เชน การซอสนคาในซปเปอรมารเกต หรอ การใชงานเครอขายสงคม (social network) แบบตางๆ อาทเชน เฟซบค (Facebook) หรอ ทวตเตอร (Twitter) เมอขอมลมจำนวนมากขนยอมทำใหเกดความตองการนำขอมลเหลานมาใชเพอกอใหเกดประโยชนมากทสด วธ

การหนงทนยมใชกนมากในปจจบนคอการวเคราะหหาความสมพนธทซอนอยในขอมล วธการนคอ “การขดเหมองขอมล” (data mining) หรอเรยกทบศพทวา ดาตา ไมนนง (ซงในหนงสอเลมนผมขอเรยกชอทบศพทเพอใหเปนสากลและเขาใจไดงายกวาครบ) การวเคราะหขอมลดวยวธดาตา ไมนนงนมตวอยางความสำเรจใหเหนอยเยอะครบ แตผมขอยกตวอยางมาใหดสก 2

ตวอยางกอน โดยตวอยางแรกเปนตวอยางคลาสสกครบ นนกคอการทหางวอลมารท (Walmart) ไดทำการคนพบพฤตกรรมการซอสนคาของลกคาทเปนเพศชายวา ในชวงเยนของวนศกรลกคากลมนมกจะมาซอสนคาสองอยางควบคกนไป นนกคอ “เบยรและผาออม” โดยจากการวเคราะหเจาะลกลงไปกพบเหตผลวาการทสนคาสองอยางนมการซอรวมกนบอยๆ เพราะวา พอบานสวน

ใหญมกจะซอเบยรไปดมในชวงสดสปดาหและเกดคดถงลกนอยของตวเองขนมาจงซอผาออม

ตดไมตดมอไปดวย (ถาเปนบานเราอาจจะพบวาพฤตกรรมแบบนเกดขนเพราะพอบานถกภรรยาใชใหมาซอผาออมใหลกแลวอยากดมเบยรดวยหรอเปลากไมรนะครบ ^^) หลงจากทหางวอล

มารทรถงพฤตกรรมแบบนทางหางกสามารถทจะจดวางสนคาสองชนดนใหสามารถคนหาได

งายๆ หรอมองเหนไดงายเพอเพมโอกาสทลกคาจะไดซอตดไมตดมอกนไปดวยครบ สวนตวอยางทสองกยงคงมาจากหางสรรพสนคาเหมอนกนครบ นนคอหางทารเกต (Target) หางทารเกตนเปนหางทเกดขนมาทหลงทำใหการจะแขงขนกบหางวอลมารททมอยกอนแลวกคงไมใช

เรองงาย ดงนนทางหางจงพยายามหาวธทจะดงดดใหลกคามาซอสนคากบทางหางใหมากขนและรกษาฐานลกคาทมอยใหเชอใจและอยากกลบมาซอสนคาทหางของตนเองใหไดมากทสด จากการวจยทางการตลาดของหางทารเกตพบวา เมอครอบครวมสมาชกใหมเกดขนคนในครอบครวกจะเรมมการจบจายใชสอยมากขนเพอรองรบการขยายขนาดของครอบครว ดงนนเมอ

ทราบเชนนแลวทางหางทารเกตจงไดทำการวเคราะหพฤตกรรมของลกคาผหญงทมาซอสนคา

และพบวาเมอลกคาเหลานเรมตงครรภ ลกคาจะมพฤตกรรมการซอสนคาทเปลยนไป เชน เรมมการซอวตามนบำรงมากขน เปลยนไปกนอาหารทมประโยชน หรอแมกระทงซอตเสอผาเพม

4

Page 3: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

จากรปแบบพฤตกรรมลกษณะนทำใหทางหางสามารถสงโปรโมชนทเกยวกบการตงครรภหรอสนคา

สำหรบเดกใหกบลกคากลมนได นอกจากนหางทารเกทยงมความมนใจวาถาลกคาเชอใจทจะซอสนคาใหกบบตรทเกดขนใหมแลวลกคาเหลานกจะเชอใจซอสนคาชนดอนๆ ของทางหางไปอกเรอยๆ (รายละเอยดเพมเตมดไดจากหวขอ “เอกสารอางอง” ชวงทายของบทนครบ)

แนนอนวาถาเราอยในบรษทใหญๆ อยางหางวอลมารทหรอหางทารเกตการซอซอฟตแวรเชงพาณชย

ซงมราคาหลาย (สบ) ลานบาท เชน SAS Enterprise Miner หรอ IBM Intelligent Miner เพอมาทำการวเคราะหหาพฤตกรรมเหลานกคงไมใชเรองยากและกคมคากบการลงทน แตถาเราเปนเจาของกจการขนาดยอมถงปานกลาง (หรอทเรยกวา SME) หรอเปนนสต นกศกษา อาจารย การลงทนแบบนกอาจจะเปนไปไดยากมาก ดงนนในหนงสอเลมนผมจงอยากจะแนะนำใหรจกกบซอฟตแวรประเภท โอเพนซอรส (open source) ซงสามารถดาวนโหลดมาใชงานไดโดยไมมคาใชจาย หรอ ฟรนนเองครบ ถาพดถงซอฟตแวรประเภทโอเพนซอรสทใชในการวเคราะหขอมลดวยดาตา ไมนนงในประเทศไทยเรามกจะคนเคยกบซอฟตแวรทชอวา Weka มากกวา ผมเองคลกคลกบดาตา ไมนนงและไดลองใชงานซอฟตแวร Weka มาเปนระยะเวลาหลายปจนไดเขยนบทความการใชงาน Weka เบองตนลงในนตยสาร โอเพนซอรส ทเดย (OpenSource2Day) ซงเปนนตยสารเลมแรกและเลมเดยวในเมองไทยทเนนการใชงานซอฟตแวร โอเพนซอรส หลงจากนนผมกไดรางหลกสตรการใชงานซอฟตแวร Weka และจดการอบรมมาเปนจำนวนเกอบ 20 รน แมวาซอฟตแวร Weka จะใชงานไดงายและสะดวกมากถาตองการนำไปพฒนาตอยอดในระบบ web application ทพฒนาขนมาเอง แตในหลายๆ ครงผมมกจะพบกบขอจำกดทางการใชงานหรอการแสดงผลในรปแบบตางๆ และนนกเปนเหตผลหนงทผมไดเรมลองหาซอฟตแวร โอเพนซอรสอนๆ มาใชงานแทน Weka และผมกคดวาซอฟตแวร RapidMiner Studio 7 ทผมจะแนะนำการใชงานในหนงสอเลมนมสงทนาสนใจและทำงานไดเหนอกวาซอฟตแวร Weka ครบ ผมขอสรปขอทดกวาของซอฟตแวร RapidMiner Studio 7 ดงนครบ

• รองรบการใชงานไฟลไดหลายประเภท เชน ไฟล Excel 2007

• สามารถแสดงขอมลไดหลายรปแบบ เชน scatter plot 3D

• สามารถแสดงผลโมเดลทสวยงามและแกไขการแสดงผลใหสามารถอานไดงายขน

• สามารถบนทกไฟลโมเดลออกเปนไฟลภาพประเภทตางๆ เชน PNG, JPG หรอ PDF

• มวธการเตรยมขอมล (preprocess) และการวเคราะหไดหลากหลายรปแบบ

5

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

ดงนนในหวขอนผมจงขอแนะนำใหทานไดรจกกบซอฟตแวรทชอวา RapidMiner Studio 7 กอนทเราจะเรมตนใชงานกนในหวขอ “เรมตนใชงาน” ครบ

ซอฟตแวร RapidMiner Studio 7 แรกเรมพฒนาขนจากบรษททชอวา Rapid-I ในประเทศ

เยอรมน และเมอชวงปลายป 2013 ทผานมาไดรบทนกอนโตจากนกลงทนในประเทศสหรฐอเมรกาจงเปลยนชอบรษทจาก Rapid-I เปน RapidMiner แทน และยายสำนกงานใหญมาอยประเทศสหรฐอเมรกา เราสามารถดาวนโหลดซอฟตแวร RapidMiner Studio 7 ซงเปนเวอรชนปจจบนไดจากเวบไซต http://rapidminer.com ครบ และเลอกทเมน Download ดาน

ขวาบน (ดงแสดงในรปท 1-1)

รปท 1-1 เวบไซต rapidminer.com

6

คลกเมนดาวนโหลด

Page 4: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

หลงจากนนเลอกระบบปฏบตการทเราตองการจะใชงาน จากหนาตางในรปท 1-2

รปท 1-2 เลอกระบบปฏบตการทตองการตดตง

การตดตงซอฟตแวร RapidMiner Studio 7 สำหรบระบบปฏบตการตางๆ สามารถดขนตอนอยางละเอยดไดจาก http://docs.rapidminer.com/studio/installation/

2. เรมตนใชงาน RapidMiner Studio 7

เมอตองการเรมใชงานให double click ท icon เพอเรมใชงานซอฟตแวร หนาตาง Welcome ของ RapidMiner Studio 7 กจะแสดงออกมาดงในรปท 1-3 ครบ

7

เลอกระบบปฏบตการ (OS) ทตดตงในเครอง

รปท 1-3 แสดงหนาตาง Welcome ของ RapidMiner Studio 7

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

หลงจากนนจะพบกบหนาตางเรมตนการใชงานดงแสดงในรปท 1-4 ซงมเมนตางๆ ใหเราเลอกดงนครบ

GET STARTED แสดงคลปวดโอแนะนำการใชงาน RapidMiner Studio 7 เบองตน

LEARN แสดง Tutorial ตางๆ ทเราสามารถเลอกดไดครบ

NEW PROCESS เปนการเรมตนการใชงาน RapidMiner Studio 7 เมอคลกเลอกทเมน

น จะแสดง รายละเอยดดงในรปท 1-5 ครบ

OPEN PROCESS เปนการเลอกโพรเซส (Process) ทไดบนทกไวกลบมาใชงานอกครงครบ

8

A

B

C

D

A

B

C

D

รปท 1-4 แสดงหนาตางเรมตนการใชงานของ RapidMiner Studio 7

Page 5: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

3. องคประกอบตางๆ ของ RapidMiner Studio 7

ในขนตอนแรกนเราจะทำการสรางโพรเซสใหมขนมาเพอลองสรางโมเดลดวยเทคนค Decision Tree ครบ ดงนนในขนตอนแรกเราจะคลกทเมน NEW PROCESS กอน ซงกจะเหนโพรเซสตวอยางทเตรยมไวใหหลายโพรเซสครบ เชน โพรเซสสำหรบการทำ Direct Marketing หรอ Credit Risk ครบ แตตอนนเราจะคลกทเมน Blank Process หลงจากนนเราจะพบหนาจอดงแสดงในรปท 1-6 ซงเปนหนาจอหลกของ RapidMiner Studio 7 ซงเราสามารถออกแบบโพรเซสตางๆ ในหนาตางนครบ แตกอนจะไปดการสรางโพรเซสผมขอสรปองคประกอบตางๆ ของ RapidMiner Studio 7 ใหดกอนครบ

9

รปท 1-5 แสดงหนาตางตวอยางโพรเซสตางๆ เมอเลอก New Process

คลกทเมน NEW PROCESS

1

2

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

จากรปท 1-6 สามารถแบงสวนตางๆ ออกไดเปน 5 สวนใหญๆ ดงนครบ

10

Repository

A

Operator

B

Process

C

Parameter

D

help

E

รปท 1-6 แสดงองคประกอบหลกของหนาตาง Design

Repository

สวนนจะใชในการจดการไฟลตางๆ หลกการของ RapidMiner

Studio 7 จะเกบไฟลขอมลหรอโพรเซสตางๆ ไวใน โฟลเดอรเพอความสะดวกในการเรยกใชงานครงถดไป ในสวนของ Repository นจะแบงออกเปน 2 สวน ดงน

• สวนการเพมขอมลและจดการสวนตางๆ ของ Repository

• แสดง Repository ตางๆ ทไดสรางขนมา หรอมเตรยมไวใหแลว

b

a

b

A

a

Page 6: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

11

Operators

สวนนจะเกบโอเปอเรตอรในการใชงานตางๆ ไวเปนกลมตามหนาททคลายคลงกน และในสวนของโอเปอเรเตอรนยงมทสำหรบการคนหาโอเปอเรเตอรอกดวยครบ

โอเปอเรเตอรแตละตวจะประกอบดวย

ชอของโอเปอเรเตอร

อนพต พอรต (Input port) เปนสวนรบขอมล เขามาประมวลผล

เอาทพต พอรต (Output port) เปนสวนสง ผลลพธทประมวลได

ชออนพต พอรตและเอาทพต พอรตแสดง ดวยตวอกษร 3 ตวแรกของชอพอรต เชน exa ยอมาจาก example set

B

a

a b c

b

c

C

แสดงโพรเซสทกำลงทำงาน

เพม Note ในโพรเซส

เชอมโอเปอเรเตอรตางๆในโพรเซสแบบอตโนมต

แสดงการแนะนำโอเปอเรเตอร

Processสวนนเปนอกสวนทสำคญของ RapidMiner Studio เพราะหลกการทำงานของซอฟตแวรนคอ การนำโอเปอเรเตอรตางๆ มา ประกอบกนใหเปนโพรเซสขนมา

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

12

Parameters

สวนนจะเปนสวนทแสดงพารามเตอร

(parameter) ท เกยวของกบแตละโอเปอเรเตอร เชน โอเปอเรเตอร Read Excel ทใชเพออานไฟลประเภท Excel จะมพารามเตอรทเกยวของ เชน

ชอและทอยของไฟล Excel เปนตน

D

Help

สวนนจะเปนสวนทแสดงขอความชวย

เหลอหรอรายละเอยดของโอเปอเร

เตอรทเลอกใชงานอย ซงประกอบดวยรายละเอยดเบองตน ความหมาย

ของแตละพารามเตอร และตวอยางการใชงานในสวนทายสด

E

Page 7: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

เมนดานบนของหนาตาง Design มรายละเอยดดงนครบ

13

เมนสำหรบการสรางโพรเซสใหม

เมนสำหรบการโหลดไฟลตางๆ จาก Repository

เมนสำหรบการบนทกโพรเซส หรอบนทกโพรเซสเปนชอใหม

เมนสำหรบการทำ undo หรอ redo

เมนสำหรบสงใหโพรเซสทำงาน (run)

เมนสำหรบสงใหโพรเซสยกเลกทำงานชวคราว (stop)

เมนสำหรบปรบเปลยนมมมองของ RapidMiner Studio 7

ba a

b

หนา Design แสดงหนาสำหรบการสรางโพรเซส

หนา Results แสดงหนาผลลพธการทำงาน

เมนสำหรบแสดงวธการใชงานในรปแบบตางๆ

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

4. การจดการขอมลใน RapidMiner Studio 7

RapidMiner Studio 7 สามารถ import ขอมลประเภทตางๆ เขาไปใชงานได เชน ประเภท

CSV หรอ Excel โดยขอมลเหลานจะเกบไวใน Repository ทสรางไว ในบทนเราจะสราง Repository สำหรบเกบขอมลและโพรเซสทเราสรางขนไวครบ ขนตอนการสราง Repository มดงตอไปนครบ

• คลกทไอคอน หลงจากนนเลอกเมน Create repository

• เลอก New local repository

• กดปม Next

14

1

1

2

3

2

3

Page 8: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

• เปลยนชอ Alias เปน Chapter1

• คลกทปม Finish

หลงจากนนจะเหน Chapter1 ใหมเพมขนมาในสวนของ Repository ครบ ในขนตอนถดไปเราจะทำการ import ไฟล Excel ทเปนขอมลการตอบรบโปรโมชนของลกคาแตละรายซงประกอบดวย

• zipcode

• name

• age

• lifestyle

• family status

• car

• sports

• earnings

• label

15

4

5

4

3

Repository ทสรางขนมาใหม

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

5. ตวอยางการสรางโมเดล Decision Tree

ในหวขอนผมจะแนะนำการใชงาน RapidMiner Studio 7 เบองตนเพอสรางโมเดลการจำแนกประเภทขอมล (classification) โดยใชเทคนคทเรยกวา Decision Tree ครบ เทคนคนเปนทนยมใชเนองจากโมเดลทสรางไดสามารถแปลความหมายออกมาไดงายกวาโมเดลอนๆ ผมจะอธบายไปทละขนตอนและถาสวนไหนมความรเพมเตมทควรทราบผมกจะอธบายเพมในสวน “ขอมลเพมเตม (More Information)” ครบ เรามาเรมกนเลยดกวานะครบ

ในสวน Repository คลกทปม

เนองจากเราตองการอานขอมลจากไฟลประเภท Excel ดงนนคลกทปม

เลอกไฟล customer_response.xlsx และกดปม Next เพอไปขนตอนตอไป (สามารถดาวนโหลดไดจากเวบไซต http://dataminingtrend.com/2014/rapidminer-studio/chapter1/)

16

1

2

2

3

3

Page 9: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

ขนตอนนเราสามารถเลอก Worksheet ของไฟล Excel และและ cell ทเราตองการ import ขอมลเขาไปได สำหรบตวอยางนเราไมตองทำอะไรครบ เพราะมแค Worksheet ทชอวา RapidMiner Data เพยงอนเดยวและขอมลทงหมดไดเลอกไวแลวครบ ใหคลกท ปม Next ไดเลยครบ

หนาจอถดมาจะแสดงประเภทของขอมลและหนาทของแตละแอตทรบวตครบ สำหรบขอมลนมขอทตองแกไขเนองจากขอมล zip code ทเปนรหสไปรษณยในทนแสดงเปนตวเลขทงหมดทำให

ซอฟตแวรมองวาเปนขอมลประเภทตวเลข แตจรงๆ เราตองการใหเปนขอมลประเภท นอมนอล (nominal) (ใน RapidMiner Studio 7 จะเรยกขอมลทเปนประเภท categorical วาเปน nominal ครบ) ดงนนคลกทรปเฟองในสวนของแอตทรบวต zip code และเลอกเมน Change Type และเลอกเปนประเภท polynominal ครบ (polynominal คอ ขอมลทมคาแตกตางกนมากกวา 2 คา)

17

3

4

4.1

คลกขวาทแอตทรบวต zip code

4.2 4.3

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

ในขนตอนถดมาเราจะทำการเปลยนหนาทของแอตทรบวต label ใหเปนประเภทลาเบล (label) โดยการคลกขวาทแอตทรบวต label และเลอกเมน Change Role หลงจากนนหนาตางกำหนดหนาทของแอตทรบวตจะแสดงขนมาใหเราเลอกเปน label รายละเอยดของแอตทรบวตตางๆ อธบายในสวนของ ขอมลเพมเตม 1-1 เรองของแอตทรบวต ครบ

18

ขอมลเพมตม 1-1 เรองของแอตทรบวต ในหวขอนจะแนะนำคำศพทเกยวกบขอมลทนำเขามาใชงานใน RapidMiner Studio 7 โดยปกตแลว

ขอมลทเรามกจะนำมาวเคราะหจะอยในรปแบบของตารางดงในรปดานลางน

ในแตละคอลมนของตารางนจะเรยกวา แอตทรบวต (attribute) และแตละแถวของตารางจะเรยกวา

ตวอยาง (example) เราสามารถแบงแยกแอตทรบวตออกตามหนาทการใชงานไดเปน 2 แบบหลกคอ

1. แอตทรบวตทวไป (attribute) เปนแอตทรบวตปกตทจะใชในการสรางโมเดลหรอเรยกวาเปน

ฟเจอร (feature) หรอตวแปรตน (independent variable)

2. ลาเบล (label) แบบนจะเปนแอตทรบวตขนดพเศษทมกจะใชแสดงคำตอบของสงทเรา

ตองการจะสรางโมเดลมาทำนาย หรอ เรยกวา คลาส (class) หรอตวแปรตาม (dependent

variable)

zip code name age lifestyle family status play50168 Tom 62 cozily married no response66479 Jane 34 active married no response16592 Mark 69 healthy single response50068 Jimmy 57 cozily married response

แอตทรบวตทวไป ลาเบล

5

5

Page 10: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

หลงจากนนแอตทรบวต label จะเปลยนเปนสเขยวเพอแสดงวาเปนแอตทรบวตทมหนาทเปนประเภทลาเบล หลงจากนนกดปม Next เพอไปขนตอนสดทายของการ import ไดเลยครบ

ขนตอนสดทายของการ import คอตงชอของชดขอมลนครบ ซงเราจะบนทกเปนชอวา customer_response และเกบไวใน repositoy Chapter1 ทเราไดทำการสรางไวครบ

19

แสดงแอตทรบวตประเภทลาเบล

6

7.1

7.2

7

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

ขอมลท import เขาไปแลวจะแสดงใหเหนในหนาตาง Result ครบ

จากรปจะแสดงตารางขอมลท import เขามาและใชในการสรางโมเดล Decision Tree นอกจากนในหนาจอนยงมอกหลายสวนซงจะอธบายอยางละเอยดใน บทท 2 การจดการขอมล แตในบทนจะขออธบายสวนสำคญหลกๆ 4 สวนดงนครบ

แสดงจำนวนตวอยางและแอตทรบวตทปรากฏในขอมลซงในไฟลตวอยางนมจำนวน 100 ตวอยาง 1 แอตทรบวตประเภทลาเบลและ 8 แอตทรบวตทวไป

สวนการกรองขอมล (filter) ซงมใหเลอกไดวาจะดขอมลทงหมด หรอขอมลทมความผดพลาดอย เปนตน

ในสวนของตารางนเราสามารถคลกทชอแอตทรบวตเพอทำการเรยงลำดบขอมลได โดยตารางขอมลจะแบงแอตทรบวตออกเปน 2 แบบ คอ

• แอตทรบวตทเปนลาเบลแสดงดวยคอลมนสเขยว

• แอตทรบวตทวไปแสดงดวยคอลมนทเปนสเทา

20

8

A B

C

A

B

C

D

Page 11: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

แสดงคาสรปทางสถตของแอตทรบวตตางๆ เมอคลกทไอคอนนแลวหนาจอจะเปลยนไปแสดงดงในรปซงแสดงคาทางสถตของขอมลทอยในแตละแอตทรบวต โดยจะแสดงชอ ประเภทของขอมลทเกบอย กราฟแสดงคาความถของคาขอมลในแตละแอตทรบวต (รายละเอยดตดตามไดใน บทท 2 การจดการขอมล)

ขนตอนถดมาใหลากขอมล customer_response จากสวน Repository มาวางไวในสวน Process กอนครบ

21

D

9

9.1

9.2

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

สำหรบการสรางโมเดล Decision Tree ทำไดโดยการเลอก โอเปอเรเตอร Decision Tree จากสวนของ Operators เราสามารถหาโอเปอเรเตอรนไดโดยการพมพคำวา Decision Tree ในสวนของการคนหา (search) และกดปม Enter หลงจากนนโปเปอเรเตอร Decision Tree จะแสดงขนมาหรอจะเลอกจากหมวด Modeling > Classification and Regression > Tree Induction กไดครบ

ลากโอเปอเรเตอร Decision Tree มาวางในสวนของ Process และลากเสนเชอมจากพอรตทชอ

วา out (ซงยอมาจากคำวา output) ของโอเปอเรเตอร Retreive ไปยงพอรตทชอวา tra (ยอมาจากคำวา training) ของโอเปอเรเตอร Decision Tree เพอเปนการสงขอมลไปสรางโมเดล

หลงจากนนลากเสนเชอมจากพอรต mod (ยอมาจาก model) และพอรต exa (ยอมาจาก example) ของโอเปอเรเตอร Decsion Tree ไปยงพอรต res (ยอมาจาก result) ทงสองพอรตของ Main Process เพอไปแสดงในสวนของหนาจอผลลพธโดยพอรต mod จะทำการสงโมเดล

22

11

10

10.1

10.2

11.1

11.2

12

Page 12: Introduction to Data Mining บท# 1 แนะนำการใช้งาน ...dataminingtrend.com/2014/wp-content/uploads/2014/02/RM7_chapter1.pdfซอฟต์แวร์

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

Decision Tree ทสรางไดออกไปแสดงในรปตนไม และพอรต exa จะสงขอมลท import เขามา ไปแสดงในรปแบบตาราง

คลกปม Run เพอสงใหโพรเซสทำงานครบ

หลงจากนน RapidMiner Studio 7 จะทำการสรางโมเดลและแสดงออกมาในหนาตาง Results ดงนครบ

23

12

13

13

(data)3 base|warehouse|mining

Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th

Introduction to Data Mining with RapidMiner Studio 7

โมเดลของ Decision Tree ทสรางไดจะปรากฏขนมาดงแสดงในรปโดยในแทบนสวนสำคญทขออธบาย 3 สวนดงนครบ

• ในโมเดล Decision Tree จะมโหนดตางๆ อย 2 ประเภทคอ

• โหนดทเปนแอตทรบวตแสดงดวยรปสเหลยมทมมมโคง

• โหนดลาเบลแสดงดวยรปสเหลยมทมกราฟแสดงสตางๆ อยดวย ในตวอยางนม 2 ลาเบล คอ response และ no response ถาโมเดลตอบวาเปน response จะมกราฟสแดงปรากฏอยและ no response จะมกราฟสนำเงนปรากฏอยดวย

• สวนของ Zoom จะใชสำหรบการยอ (zoom out) หรอขยาย (zoom in) ครบ

• สวนของ Mode จะใชสำหรบปรบโหมดของการใชงานเมาส ซงม 2 โหมด คอ

• Transform mode โดยโหมดนเปนการใชเมาสในการเลอนตำแหนงของ Decision Tree ทงตน

• Picking mode โดยโหมดนเปนการใชเมาสเพอทำการลากโหนดทตองการเพอขยายให Decision Tree ดไดงายขน

6. เอกสารอางอง

• Foster Provost and Tom Fawcett, Data Science for Business What you need to know about data mining and data-analytic thinking, O'Reilly Media, July 2013

• Rapid-I, RapidMiner 5.0 Manual, 2010

หมายเหต

บทความนยนดใหแจกจายหรอสงตอไดแตขอสงวนลขสทธ ตาม พ.ร.บ. ลขสทธ พ.ศ. 2537 หามลอกเลยนแบบไมวาสวนหนงสวนใดของหนงสอ/เอกสารเลมน นอกจากจะไดรบอนญาตเปนลายลกษณอกษร

ดร. เอกสทธ พชรวงศศกดา หางหนสวนสามญ ดาตา ควบ

[email protected] http://facebook.com/datacube.th http://www.dataminingtrend.com

24