View
4
Download
0
Category
Preview:
Citation preview
คมอปฏบตการ
204123 - วทยาการขอมลเบองตน
(Introduction to Data Science)
อ.ดร.ปภงกร อนแกว
ภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตร
มหาวทยาลยเชยงใหม
Draft Version Last update: 7 MARCH 2020
i
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
สารบญ
เรอง สารบญ .......................................................................................................................................................... i
แนะนำเครองมอปฏบตการ .......................................................................................................................... 1
1. Microsoft Azure Machine Learning Studio (ML Studio) ................................................... 1
1.1. การเขาใชงานเบองตน ........................................................................................................ 1
1.2. การนำชดขอมลจากคอมพวเตอรสวนตวเขาส ML Studio ................................................. 3
1.3. การนำเขาโมดลจาก Azure AI Gallery ............................................................................. 5
1.4. การสรางการทดลอง ........................................................................................................... 7
1.5. สวนประกอบของหนาตางการทดลอง ................................................................................. 8
1.6. การออกแบบการทดลองเบองตน ........................................................................................ 9
ชดขอมลทใชในปฏบตการ ......................................................................................................................... 12
1. ชดขอมล Comic Characters .................................................................................................. 12
2. ชดขอมล 2004 New Car and Truck ..................................................................................... 13
3. ชดขอมล 120 Years of Olympic History athletes and Results ....................................... 14
4. ชดขอมล Iris ............................................................................................................................. 15
5. ชดขอมล Airfoil Self-Noise .................................................................................................... 15
6. ชดขอมล Mini Market Basket ................................................................................................ 16
7. ชดขอมล Simulated Online Shopping Carts ...................................................................... 16
8. ชดขอมล Mushroom .............................................................................................................. 17
9. ชดขอมล Carbon Nanotubes ................................................................................................ 20
10. ชดขอมล VIX Prices ................................................................................................................ 20
ปฏบตการท 1 การเตรยมแฟมขอมลและการนำเขาขอมลสเครองมอวเคราะหขอมล ................................ 21
1. ชดขอมลปฏบตการ ................................................................................................................... 21
ii
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
2. ขนตอนปฏบตการ ..................................................................................................................... 21
3. แบบฝกปฏบตการ ..................................................................................................................... 24
ปฏบตการท 2 การจดเตรยมขอมลกอนการวเคราะห ................................................................................ 25
1. ชดขอมลปฏบตการ ................................................................................................................... 25
2. ขนตอนปฏบตการ ..................................................................................................................... 25
3. แบบฝกปฏบตการ ..................................................................................................................... 29
ปฏบตการท 3 การคำนวณคาสถตเชงพรรณาจากตารางขอมลหลก .......................................................... 31
1. ชดขอมลปฏบตการ ................................................................................................................... 31
2. ขนตอนปฏบตการ ..................................................................................................................... 31
3. แบบฝกปฏบตการ ..................................................................................................................... 33
ปฏบตการท 4 การใชเครองมอวเคราะหกลมของขอมล ............................................................................. 34
1. ชดขอมลปฏบตการ ................................................................................................................... 34
2. ขนตอนปฏบตการ ..................................................................................................................... 34
3. แบบฝกปฏบตการ ..................................................................................................................... 38
ปฏบตการท 5 การใชเครองมอการวเคราะหตะกราตลาด.......................................................................... 40
1. ชดขอมลปฏบตการ ................................................................................................................... 40
2. ขนตอนปฏบตการ ..................................................................................................................... 40
3. แบบฝกปฏบตการ ..................................................................................................................... 42
ปฏบตการท 6 การใชเครองมอวเคราะหการจำแนกขอมล......................................................................... 44
1. ชดขอมลปฏบตการ ................................................................................................................... 44
2. ขนตอนปฏบตการ ..................................................................................................................... 44
3. แบบฝกปฏบตการ ..................................................................................................................... 48
ปฏบตการท 7 การใชเครองมอวเคราะหการถดถอย .................................................................................. 50
1. ชดขอมลปฏบตการ ................................................................................................................... 50
iii
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
2. ขนตอนปฏบตการ ..................................................................................................................... 50
3. แบบฝกปฏบตการ ..................................................................................................................... 55
ปฏบตการท 8 การใชเครองมอวเคราะหขอมลอนกรมเวลา ....................................................................... 56
1. ชดขอมลปฏบตการ ................................................................................................................... 56
2. ขนตอนปฏบตการ ..................................................................................................................... 56
3. แบบฝกปฏบตการ ..................................................................................................................... 62
ปฏบตการท 9 การนำโมเดลการวเคราะหขอมลไปใชงานผานบรการผานเวบ ............................................ 63
1. ชดขอมลปฏบตการ ................................................................................................................... 63
2. ขนตอนปฏบตการ ..................................................................................................................... 63
3. แบบฝกปฏบตการ ..................................................................................................................... 69
แนะนำเครองมอปฏบตการ
1. Microsoft Azure Machine Learning Studio (ML Studio) เปนเครองมอสำหรบการวเคราะหขอมลดวยวธการทางวทยาการขอมลในรปแบบเวบแอพพลเคชน
(Web Application) ทถกพฒนาข นโดยบรษทไมโครซอฟท เครองมอมลกษณะเปนพ นทท างาน
(Workspace) ทผใชสามารถสราง ทดสอบ และเผยแพรโมเดลส าหรบการวเคราะหขอมลของผใช ผาน
เครองมอแบบลาก-วาง ซงผใชไมจ าเปนตองมความสามารถทางดานการเขยนภาษาโปรแกรม
คอมพวเตอร ยงไปกวานนยงรอบรบการพฒนาโมดลตางๆ ดวยภาษาไพทอน (Python) หรอภาษาอาร
(R Programming Language) ซงท าใหการวเคราะหขอมลมความยดหยนมากยงขน สามารถเพมเตม
วธการวเคราะหขอมลขนสงได ทงนการประมวลผลทงหมดจะถกด าเนนการในลกษณะการประมวลผล
แบบคลาวด (Cloud Computing) ความเรวของการประมวลผลขนอยกบบรการทผใชเลอก อยางไรก
ตามหากการประมวลผลใชระยะเวลานานผใชสามารถออกจากโปรแกรมแลวกลบเขามาตดตามการ
ประมวลผลได โดยการท างานนนยงคงด าเนนการอย (สามารถศกษาขอมลเพมเตมไดท เวบไซต
https://docs.microsoft.com/en-us/azure/machine-learning/studio/) กระบวนวชาน นกศกษา
มหาวทยาลยเชยงใหมสามารถเขาใชเครองมอไดผานทางบญช อเมลของมหาวทยาลยโดยไมเสย
คาใชจาย
1.1. การเขาใชงานเบองตน
นกศกษาสามารถเขาใชงาน ML Studio ไดโดยไปยงเวบไซต https://studio.azureml.net/
คลกทปม Sign In จากนนเขาสระบบโดยใชบญชอเมลของมหาวทยาลยในการเขาสระบบ เมอเขาสระบบ
แลวจะปรากฏ พนทท างานของบญชนกศกษา ดงรปท 1
2
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
รปท 1 หนาตางพนททำงานของบญชผใช
ภายในหนาตางพ นทท างานประกอบดวยแถบหมวดหม (Section Tab) ทางดานซาย ซง
ประกอบดวย
• Projects แสดงรายการโครงการตางๆ ทผใชสรางขน ผใชสามารถเลอกและจดการโครงการ
ตางๆ ได
• Experiments แสดงรายการการทดลองตางๆ ทงทผใชสรางขนเองและตวอยางท ML Studio
เตรยมไวใหผใชไดศกษา
• Web Services แสดงรายการบรการออนไลนทผใชสรางขน เพอใหบคคลอนสามารถเขาใชงาน
โมเดลการวเคราะหขอมลจากการทดลองตางๆ ของผใช
• Notebooks แสดงรายการเอกสารจดบนทกทมค าอธบายและ รหสค าสง (Code) ทสามารถสง
ประมวลได ซงเปนเอกสารจดบนทกทผใชสรางขน
• Datasets แสดงรายการชดขอมลทผใชน าเขาสพนทท างานและชดขอมลทดลองท ML Studio
เตรยมไวให
• Trained Models แสดงรายการโมเดลส าหรบการวเคราะหขอมลตางๆ ทผใชสรางและจดเกบ
ไวส าหรบน าไปใชในงานอนๆ ตอไป
• Settings การตงคาตางๆ ส าหรบพนทท างานของผใช
3
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
เมอผใชคลกแถบหมวดหมแลว บรเวณพนทท างานจะเปลยนการแสดงผล ตามหมวดหมทถกเลอก
นกศกษาจะไดเรยนรวธการใชงานเครองมอตางๆ ในแตละแถบหมวดหมผานกจกรรมการทดลองตอไป
สวนแถบค าสงดานลางจะเปลยนไปตามงานทผใชก าลงท าอย มค าสงหนงทถกใชงานบอยครง
คอ ค าสง +NEW เปนค าสงส าหรบการสรางหรอน าเขาชดขอมล (Dataset) โมดล (Module) โครงการ
(Project) การทดลอง (Experiment) และเอกสารจดบนทก (Notebook) จากแหลงภายนอกเขาสพนท
ท างาน
1.2. การนำชดขอมลจากคอมพวเตอรสวนตวเขาส ML Studio1
สำหรบการนำเขาชดขอมลจากเครองของผใชเขาสพนทท างานใน ML Studio นน ผใชจะตอง
เตรยมแฟมขอมล โดย ML Studio รอบรบการนำเขาแฟมขอมลชนดตางๆ ดงน
• Plain text (.txt) • Comma-separated values (CSV) with a header (.csv) or without (.nh.csv) • Tab-separated values (TSV) with a header (.tsv) or without (.nh.tsv) • Excel file • Azure table • Hive table • SQL database table • OData values • SVMLight data (.svmlight) • Attribute Relation File Format (ARFF) data (.arff) • Zip file (.zip) • R object or workspace file (.RData)
โดยแฟมขอมลทจะนำเขาส ML Studio จะตองมขนาดรวมไมเกน 10 GB
1 แหลงขอมลจาก https://docs.microsoft.com/en-us/azure/machine-learning/studio/import-data คนเมอวนท 18 ธนวาคม 2562
4
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
การนำเขาขอมลจากเครองของผใชมขนตอน ดงน
1. คลกคำสง +NEW ตรงแถบคำสงดานลาง 2. จากนนเลอกตวเลอก DATASET และ FROM LOCAL FILE ตามลำดบ
รปท 2 ขนตอนการนำเขาแฟมขอมลจากเครองผใชงานเขาส ML Studio (1)
3. ในไดอะลอก Upload a new dataset dialog ทำการเลอกแฟมขอมลทตองการ 4. กรอกชอเรยกชดขอมล เลอกชนดแฟมขอมล และกรอกคำอธบายชดขอมล (ถาม) ในกรณทเปน
ชดขอมลทเคยถกนำเขาส ML Studio แลว และตองการปรบปรงชดขอมลนน ใหคลกเลอกตวเลอก This is the new version of an existing dataset และกรอกชอเรยกชดขอมล ใหตรงกบชอชดขอมลทตองการปรบปรง
5. จากนนคลกปม ตรงมมลางขวาของไดอะลอก
5
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
รปท 3 ขนตอนการนำเขาแฟมขอมลจากเครองผใชงานเขาส ML Studio (2)
6. ระยะเวลาในการอพโหลดแฟมขอมลขนอยกบขนาดแฟมขอมลและความเรวของการเชอมตอกบเครองใหบรการ (Server) ทงนผใชสามารถใชงาน ML Studio ไดขณะรอการอพโหลดแฟมขอมลโดยไมปดหนาตางจนกวาจะอพโหลดแฟมขอมลเสรจ
7. เมออพโหลดแฟมขอมลสำเรจ จะปรากฎชอชดขอมลในรายการชดขอมล สามารถดไดโดยการคลกแถบหมวดหม DATASETS
นอกจากจะสามารถนำเขาชดขอมลจากแฟมขอมลทมอยในเครองคอมพวเตอรสวนตวของผใชแลว ML Studio ยงมเครองมอทชวยในการนำเขาขอมลจากแหลงขอมลออนไลนอนๆ ไดอกดวย ซงสามารถศกษาขอมลเพมเตมไดจากเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio/import-data
1.3. การนำเขาโมดลจาก Azure AI Gallery
เครองมอในการวเคราะหขอมลใน ML Studio จะอยในรปโมดลททำหนาทเฉพาะอยาง เชน โมดล Fisher Linear Discriminant Analysis สำหรบการเลอกลกษณะเดน (Feature Selection) โมดล Summarize Data สำหรบคำนวณคาสถตเชงพรรณาของแตละตวแปรในชดขอมล และโมดลชดขอมลตางๆ เปนตน ใน ML Studio ไดเตรยมโมดลสำหรบใชเปนเครองมอวเคราะหดวยวธการตางๆ ทเปนทรจกและ
6
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
นยมใชกนอยางแพรหลาย โดยไมตองนำเขาโมดล อยางไรกตามผใชสามารถนำเขาโมดลอนๆ ทตองการได 2 วธคอ นำเขาโมดลจากภายนอกทพฒนาขนเอง และนำเขาโมดลทถกพฒนาและรวบรวมไวใน Azure AI Gallery ในทนจะกลาวถงการคนหาและนำเขาโมดลจาก Azure AI Gallery ซงมขนตอน ดงน
1. คลกคำสง +NEW ตรงแถบคำสงดานลาง 2. จากนนเลอกตวเลอก MUDULE จะปรากฏไดอะลอกสำหรบเลอกโมดล 3. ผใชสามารถคนหาโมดลไดโดยการกรอกคำคนในกลองขอความ Search custom modules จะ
ปรากฏรายการโมดลทคนหาดานลาง
รปท 4 การนำเขาโมดลจาก Azure AI Gallery (1)
4. นำเมาสไปวางบนโมดลทตองการ แลวคลก IMPORT MODULE
รปท 5 การนำเขาโมดลจาก Azure AI Gallery (2)
5. โมดลทถกนำเขา สามารถเรยกมาใชงานไดในขณะสรางการทดลอง โดยจะอยภายในหนาตางยอย Modules ภายใตกลม Custom
7
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
รปท 6 การนำเขาโมดลจาก Azure AI Gallery (3)
1.4. การสรางการทดลอง
การสรางการทดลองถอเปนขนตอนเรมตนกอนการทดลองซงนกศกษาจะตองทราบและสามารถทำไดดวยตนเอง การทดลองหนงๆ นนประกอบดวยขนตอนของการวเคราะหขอมลดวยวธทางวทยาการขอมลสำหรบแกปญหาใดปญหาหนงเทานน เราจะไมสรางการทดลองเพยงหนงการทดลองทใชสำหรบแกปญหาหลายปญหา การสรางการทดลองมขนตอน ดงน
1. คลกคำสง +NEW ตรงแถบคำสงดานลาง 2. จากนนเลอกตวเลอก EXPERIMENT และ Blank Experiment ตามลำดบ
รปท 7 ขนตอนการสรางการทดลอง (1)
8
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. จะปรากฏหนาตางสำหรบดำเนนการทดลอง ดงรปท 8 ผใชสามารถแกไขชอการทดลองไดโดยการคลกบรเวณ Experiment Title แลวแกไขช อการทดลองไดตามตองการ จากนนคลกปม SAVE ทแถบคำสงดานลาง
รปท 8 ขนตอนการสรางการทดลอง (2)
1.5. สวนประกอบของหนาตางการทดลอง
รปท 9 สวนประกอบของหนาตางการทดลอง
หนาตางการทดลองประกอบดวยสวนสำคญ ดงน
• Experiment Title ชอการทดลองซงผใชสามารถแกไขได • Experiment Status สถานะของการทดลอง • Commands คำสงตางๆ ไดแก
o RUN HISTORY รายการประวตการประมวลผลการทดลอง o SAVE คำสงบนทกการแกไข o SAVE AS คำสงบนทกการทดลองเปนชอการทดลองอน
Modules
Workspace
Experiment Title
Properties
Commands
Experiment Status
9
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
o DISCARD CHANGES คำสงยกเลกการแกไข o RUN คำสงดำเนนการประมวลผลการทดลอง
▪ RUN คำสงดำเนนการประมวลผลการทดลองทงหมด ▪ RUN SELECTED คำสงดำเนนการประมวลผลเฉพาะโมดลทเลอก
o DEPLOY WEB SERVICE คำสงสรางบรการออนไลนสำหรบการทดลอง o PUBLISH TO GALLERY คำสงเผยแพรการทดลองไปยงแกลลอรเวบไซต ML Studio
• Properties หนาตางยอยทจะแสดงคณสมบตของการทดลอง หรอโมดล ซงจะเปลยนแปลงไปตามโมดลทเลอก
• Modules รายการโมดลตางๆ สำหรบการวเคราะหขอมล ซงถกจดกลมไวเปนหมวดหม ผใชสามารถเลอกโมดลทตองการโดยลากโมดลทตองการวางไวบนพนททำการทดลอง (Workspace) รายละเอยดโมดลตางๆ สามารถศกษาไดจากเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/index
• Workspace พนททำการทดลอง ผใชสามารถลากโมดลจากรายการทางดานซายวางบนพนทการทดลอง เพอใหพนททำการทดลองมความเปนระเบยบ การวางโมดลในพนทการทดลองจะวางเรยงจากบนลงลางตามลำดบการทำงานกอน-หลง นอกจากนภายในพนททำการทดลองจะมหนาตางขนาดเลกบรเวณมมซายลางแสดงพนททำการทดลองทงหมดเพอใหเหนภาพรวมของการทดลอง ผใชยงสามารถยอ-ขยาย พนททำการทดลองไดโดยใชเครองมอในแถบมมมองบรเวณดานลางของพนททำการทดลอง
1.6. การออกแบบการทดลองเบองตน
การออกแบบขนตอนการวเคราะหขอมลทำไดโดยการลากโมดลจากรายการโมดลวางลงบนพนททำการทดลอง โดยปกตแลวขนตอนการทดลองจะเรมตนดวยชดขอมล ซงชดขอมลตางๆ ทนำเขาส ML Studio จะถกรวมไวในหมวดหม Saved Datasets สวนโมดลเครองมอการวเคราะหขอมลนนจะถกแยกจดหมวดหมตามประเภทการวเคราะห (รปท 9 หนาตาง Modules)
เมอมการลาก-วางโมดลลงในพนททำการทดลอง จะปรากฏกลองโมดลดงรปท 10 กลองโมดลหนงกลองประกอบดวยชอโมดล และโหนดสวนตอประสาน (Interface) โหนดดานบนกลองโมดลคอสวนตอประสานสำหรบขอมลเขา (Input Interface) และโหนดดานลางกลองโมดลคอสวนตอประสานขอมลออก (Output Interface) จำนวนโหนดสวนตอประสานจะมจำนวนแตกตางกนไปขนอยกบวธการวเคราะหขอมล
10
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
ทเลอก ผใชสามารถอานคำอธบายสวนตอประสานไดโดยการนำเมาสไปวางไวบนโหนดทตองการ จะปรากฏคำอธบายของสวนตอประสานนน
รปท 10 กลองโมดลบนพนททำการทดลอง
เมอมการเลอกกลองโมดลใดบนพนททำการทดลอง หนาตาง Properties จะแสดงพารามเตอรทจะตองกำหนดใหกบวธการวเคราะหขอมลทเลอก ในรปท 11 แสดงตวอยางของพารามเตอรของวธการเลอกลกษณะเดน (Feature Selection) ดวยวธ Fisher Linear Discriminant Analysis
รปท 11 พารามเตอรของวธการเลอกลกษณะเดน (Feature Selection) ดวยวธ Fisher Linear Discriminant Analysis
การตดตอกนระหวางโมดลตางๆ มลกษณะเปนการถายโอนขอมลเขา-ออกระหวางกน การตอประสานโมดลตางๆ เขาดวยกนทำไดโดยคลกทโหนดสวนตอประสานขอมลออกของกลองโมดลตนทาง แลวลากไปยงโหนดสวนตอประสานขอมลเขาของกลองโมดลปลายทาง เมอกลองโมดลสามารถเชอมตอกนไดจะปรากฏลกศรจากกลองตนทางมายงกลองปลายทางแทนการไหลของขอมล ดงรปท 12 ทงนผใชสามารถยกเลกการเชอมตอไดโดยการคลกเลอกเสนเชอมทตองการลบ จากนนคลกขวา เลอก Delete
Output Interface
Input Interface
11
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
รปท 12 การตอประสานระหวางโมดล 2 โมดล ลกศรเชอมระหวางโมดลแทนทศทางการไหลของขอมล
เมอตองการประมวลผลขอมลตามขนตอนทไดออกแบบไว สามารถทำไดโดยกลายคลก RUN ในแถบคำสง ระหวางทโปรแกรมทำการประมวลทโมดลใด จะปรากฏสญลกษณ บนกลองโมดล หากระหวางการประมวลผลเกดขอผดพลาดทโมดลใด จะปรากฏสญลกษณ บนกลองโมดล ซงสามารถดคำอธบายขอผดพลาดไดโดยคลกทสญลกษณ และเมอการประมวลผลของโมดลใดเสรจสนแลว จะปรากฏสญลกษณ บนกลองโมดล
นอกจากผใชยงสามารถดาวนโหลดผลลพธ (Download) บนทกผลลพธ (Save As…) แสดงภาพของผลลพธ (Visualize) ของแตละโมเดลไดโดยการคลกขวาตรงโหนดสวนตอประสานขอมลออกของโมดลทตองการ จากนนเลอกคำสงทตองการดำเนนการ
ชดขอมลทใชในปฏบตการ
1. ชดขอมล Comic Characters แฟมขอมล comics.csv เปนชดขอมลตวละครจากหนงสอการตนชด Marvel และ DC ซงถก
รวบรวมจากเวบไซต Marvel Wikia2 และ DC Wikia3 ประกอบขอมลทงหมด 23,272 ระเบยน มตวแปร (Variable) ดงน
ตวแปร คำอธบาย name ชอตวละคร id สถานะของตวระบอตลกษณของตวละคร มคาทเปนไปได คอ secret, public หรอ
no dual align แนวรวมของตวละคร มคาทเปนไปได คอ Good Bad หรอ Neutral eye สตาของตวละคร hair สผมของตวละคร gender เพศของตวละคร gsm เพศสภาพของตวละคร alive การมอยของตวละคร มคาทเปนไปได คอ alive หรอ deceased appearances จำนวนครงการปรากฏตวในหนงสอการตน first_appear เดอนและป (ค.ศ.) ทตวละครปรากฏตวขนครงแรก publisher ชอชดหนงสอการตนทตวละครถกตพมพ มคาทเปนไปได คอ marvel หรอ dc * คาขอมลสญหาย (Missing Data) ถกระบเปนคา NA
แหลงขอมล: ถกรวมมาจากชดขอมล 2 ชด คอ dc-wikia-data และ marvel-wikia-data ซงสามารถ ดาวน โหลดได จ าก เว บ ไซต https://github.com/fivethirtyeight/data/tree/master/comic-characters หมายเหต การรวมชดขอมลทง 2 ชด ซงมมาตรฐานการลงขอมลตางกน ทำใหตวแปร first_appear ในชดขอมล comics มความไมเปนมาตรฐานเดยวกน โดยตวละครจากชดหนงสอการตน Marvel ระบคาตวแปร first_appear ในรปแบบ เดอน-ป (mmm-yy) สวนตวละครจากชดหนงสอการตน DC ระบคาตวแปร first_appear ในรปแบบ ป, เดอน (yyyy, mmm) ขอมล first_appear ของบางตวละครไมสมบรณ คอ ระบเฉพาะป
2 https://marvel.fandom.com/wiki/Marvel_Database 3 https://dc.fandom.com/wiki/DC_Comics_Database
13
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
2. ชดขอมล 2004 New Car and Truck แฟมขอมล cars04.csv เปนชดขอมลรถยนตและรถบรรทกทออกจำหนายในป 2004 จำนวน
428 รน ประกอบดวยตวแปร (Variable) ดงน
ตวแปร คำอธบาย name ชอรนของรถยนตหรอรถบรรทก sports_car ตวระบวาเปน sports car หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE suv ตวระบวาเปน Sport Utility Vehicle หรอไม มคาทเปนไปได คอ TRUE หรอ
FALSE wagon ตวระบวาเปน Wagon หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE minivan ตวระบวาเปน Minivan หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE pickup ตวระบวาเปน Pickup หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE all_wheel ตวระบวาเปน All-Wheel Drive หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE rear_wheel ตวระบวาเปน Rear-Wheel Drive หรอไม มคาทเปนไปได คอ TRUE หรอ FALSE msrp ราคาขายปลกทแนะนำโดยผผลต (หนวย: ดอลลาร) dealer_cost ราคาขายจรง (หนวย: ดอลลาร) eng_size ขนาดเครองยนต (หนวย: ลตร) ncyl จำนวนกระบอกสบ (มคาเปน -1 เมอเปนเครองยนตโรทาร) horsepwr กำลงมา city_mpg คาความคมคาของรถยนตเมอขบในเมอง (หนวย: ไมลตอแกลลอน) hwy_mpg คาความคมคาของรถยนตเมอบนทางหลวง (หนวย: ไมลตอแกลลอน) weight นำหนก (หนวย: ปอนด) wheel_base ขนาดฐานลอ (หนวย: นว) length ความยาวตวรถ (หนวย: นว) width ความกวางตวรถ (หนวย: นว) * คาขอมลสญหาย (Missing Data) ถกระบเปนคา NA
แหลงขอมล: http://jse.amstat.org/datasets/04cars.dat.txt
14
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. ชดขอมล 120 Years of Olympic History athletes and Results แฟมขอมล athlete_events.csv เปนขอมลผลการแขงขนโอลมปก ระหวางป ค.ศ. 1896 ถง
2016 ซงรวบรวมมาจากเวบไซต www.sports-reference.com ประกอบดวยขอมล 271,116 ระเบยน มตวแปร (Variable) ดงน
ตวแปร คำอธบาย ID หมายเลขระบนกกฬา Name ชอนกกฬา Sex เพศ Age อาย Height ความสง (หนวย: เซนตเมตร) Weight นำหนก (หนวย: กโลกรม) Team ชอทม NOC คณะกรรมการโอลมปกแหงชาต (3-letter code) Games ชอเกมการแขงขน (ป-ฤดแขงขน) Year ปทจดการแขงขน Season ฤดแขงขน มคาทเปนไปได คอ Summer หรอ Winter City ประเทศเจาภาพ Sport ชนดกฬา Event ประเภทการแขงขน Medal รางวล มคาทเปนไปได คอ Gold Silver Bronze หรอ NA-ไมไดเหรยญรางวล * คาขอมลสญหาย (Missing Data) ถกระบเปนคา NA
แหลงขอมล: https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results
15
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
4. ชดขอมล Iris แฟมขอมล iris.csv เปนขอมลตวอยางของดอกไอรซ 3 สายพนธ ไดแก Setosa Versicolour
และ Virginica ทงหมด 150 ตวอยาง ประกอบดวยตวแปร (Variable) ดงน
ตวแปร คำอธบาย sepal_length ความยาวของกลบเลยง (หนวย: เซนตเมตร) sepal_width ความกวางของกลบเลยง (หนวย: เซนตเมตร) petal_length ความยาวของกลบดอก (หนวย: เซนตเมตร) petal_width ความกวางของกลบดอก (หนวย: เซนตเมตร) species สายพนธ คาทเปนไปได คอ Setosa Versicolour หรอ Virginica ชดขอมลนไมมคาสญหาย
แหลงขอมล: https://pennyanalytics.com/free-trial/
5. ชดขอมล Airfoil Self-Noise แฟมขอมล airfoil_self_noise.csv เปนชดขอมลจากการทดสอบทางอากาศพลศาสตรและ
เสยงของใบพดแพนอากาศ (airfoils blade) แบบสองและสามมตในอโมงคลมทไมมเสยงสะทอนกลบ ประกอบดวยขอมล 1,503 ระเบยน มตวแปร (Variable) ดงน
ตวแปร คำอธบาย frequency ความถ (หนวย: เฮรตซ) angle_of_attack มมของการปะทะ (หนวย: องศา) chord_length ความยาวของใบพดแพนอากาศ (หนวย: เมตร) free_stream_velocity ความเรวของของไหลทระยะใดๆ ทไกลจากวตถ (หนวย: เมตรตอ
วนาท) displacement_thickness ความหนาระยะขจดของดานดด (หนวย: เมตร) sound_pressure_level ระดบความดนเสยง (หนวย: เดซเบล) ชดขอมลนไมมคาสญหาย
แหลงขอมล: https://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noise
16
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
6. ชดขอมล Mini Market Basket แฟมขอมล mini_market_basket.csv เปนชดขอมลการจำหนายสนคาของรานสะดวกซอแหง
หนง ประกอบดวยขอมลตะกราสนคาจำนวน 202 ตะกรา มตวแปร (Variable) ดงน
ตวแปร คำอธบาย id หมายเลขตะกราสนคา items รายการสนคาในตะกราสนคา แตละรายการสนคาแยกดวยเครองหมาย comma (,)
แหลงขอมล: ขอมลชดนสรางขนโดยการสมขอมลจากชดขอมล Market Basket Optimisation สามารถเขาถงไดจากเวบไซต https://www.kaggle.com/roshansharma/market-basket-optimization
7. ชดขอมล Simulated Online Shopping Carts แฟมขอมล simulated_online_shopping_carts.csv เปนชดขอมลจำลองของการจำหนาย
สนคาของรานคาออนไลนแหงหนง ประกอบดวยขอมลตะกราสนคาจำนวน 100,000 ตะกรา มตวแปร (Variable) ดงน
ตวแปร คำอธบาย transaction_id หมายเลขรายการคา products รายการสนคาในรายการคา แตละรายการสนคาแยกดวยเครองหมาย comma (,)
แหลงขอมล: ชดขอมล simulated online shopping carts เปนชดขอมลทถกจำลองขนสำหรบใชประกอบการทดลองการหากฏความสมพนธ โดยใชโมดล Discover Association Rules ซงถกเผยแพรผาน Azure AI Gallery ในชอเรอง Frequently Bought Together Product Suggestions via Association Rule Mining สามารถเขาถงไดจากเวบไซต https://gallery.azure.ai/Experiment/Frequently-Bought-Together-Product-Suggestions-via-Association-Rule-Mining-1
17
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
8. ชดขอมล Mushroom แฟมขอมล mushrooms.csv เปนชดขอมลทรวบรวมตวอยางของเหด 23 ชนดในวงศ
Agaricus และ Lepiota แตละชนดถกระบวาเปนเหดชนดรบประทานได (Edible) หรอเหดพษ (Poisonous) ซงรวมเหดชนดทไมสามารถระบวารบประทานไดหรอไมและเหดชนดทไมแนะนำใหรบประทาน ชดขอมลนประกอบดวยตวอยางทงหมด 8,124 ตวอยาง มตวแปร (Variable) ดงน
ตวแปร คำอธบาย class ปายระบวาเปนเหดชนดทรบประทานได (Edible) หรอเปนพษ (Poisonous) ม
คาทเปนไปได คอ e แทน Edible หรอ p แทน Poisonous cap-shape ลกษณะหมวกเหด มคาทเปนไปได คอ
b แทน bell c แทน conical x แทน convex f แทน flat k แทน knobbed s แทน sunken
cap-surface พนผวของหมวกเหด มคาทเปนไปได คอ f แทน fibrous g แทน grooves y แทน scaly s แทน smooth
cap-color สของหมวกเหด มคาทเปนไปได คอ n แทน brown b แทน buff c แทน cinnamon g แทน gray r แทน green p แทน pink u แทน purple e แทน red w แทน white y แทน yellow
bruises รอยจำของเหด มคาทเปนไปได คอ t แทน เหดมรอยจำ หรอ n แทน เหดไมมรอยจำ
odor กลนของเหด คาทเปนไปได คอ a แทน almond l แทน anise c แทน creosote y แทน fishy f แทน foul m แทน musty n แทน none p แทน pungent s แทน spicy
gill-attachment การตดของครบ มคาทเปนไปได คอ a แทน attached d แทน descending f แทน free n แทน notched
gill-spacing ระยะหางของครบ มคาทเปนไปได คอ c แทน close หรอ w แทนcrowded หรอ d แทน distant
gill-size ขนาดของครบ มคาทเปนไปได คอ b แทน broad หรอ n แทน narrow gill-color สของครบ มคาทเปนไปได คอ
k แทน black n แทน brown b แทน buff h แทน chocolate g แทน gray r แทน green
18
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
ตวแปร คำอธบาย o แทน orange p แทน pink u แทน purple e แทน red w แทน white y แทน yellow
stalk-shape รปรางของกานเหด มคาทเปนไปได คอ e แทน enlarging หรอ t แทน tapering
stalk-root รปรางของฐานกานหรอโคนเหด มคาทเปนไปได คอ b แทน bulbous c แทน club u แทน cup e แทน equal z แทน rhizomorphs r แทน rooted ? แทน missing value*
stalk-surface-above-ring
พนผวของกานเหนอวงแหวนเหด มคาทเปนไปได คอ f แทน fibrous y แทน scaly k แทน silky s แทน smooth
stalk-surface-below-ring
พนผวของกานใตวงแหวนเหด มคาทเปนไปได คอ f แทน fibrous y แทน scaly k แทน silky s แทน smooth
stalk-color-above-ring
สของกานเหนอวงแหวนเหด มคาทเปนไปได คอ n แทน brown b แทน buff c แทน cinnamon g แทน gray o แทน orange p แทน pink e แทน red w แทน white y แทน yellow
stalk-color-below-ring
สของกานใตวงแหวนเหด มคาทเปนไปได คอ n แทน brown b แทน buff c แทน cinnamon g แทน gray o แทน orange p แทน pink e แทน red w แทน white y แทน yellow
veil-type ชนดของเยอหมกาน มคาทเปนไปได คอ p แทน partial หรอ u แทนuniversal
veil-color สของเยอหมกาน มคาทเปนไปได คอ n แทน brown o แทน orange w แทน white y แทน yellow
ring-number จำนวนวงแหวน มคาทเปนไปได คอ n แทน none หรอ o แทน one หรอ t แทน two
ring-type ชนดของวงแหวน มคาทเปนไปได คอ c แทน cobwebby e แทน evanescent f แทน flaring l แทน large n แทน none p แทน pendant s แทน sheathing z แทน zone
19
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
ตวแปร คำอธบาย spore-print-color
สของสปอร มคาทเปนไปได คอ k แทน black n แทน brown b แทน buff h แทน chocolate r แทน green o แทน orange u แทน purple w แทน white y แทน yellow
population ลกษณะการกระจายของประชากรเหด มคาทเปนไปได คอ a แทน abundant c แทน clustered n แทน numerous s แทน scattered v แทน several y แทน solitary
habitat ถนทอย มคาทเปนไปได คอ g แทน grasses l แทน leaves m แทน meadows p แทน paths u แทน urban w แทน waste d แทน woods
* คาขอมลสญหาย (Missing Data) ถกระบเปนคา ? แหลงขอมล: https://www.kaggle.com/uciml/mushroom-classification
20
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
9. ชดขอมล Carbon Nanotubes แฟมขอมล carbon_nanotubes.csv เปนชดขอมลทถกสรางขนดวยโปรแกรม CASTEP โดยใช
วธการการหาคาเหมาะทสดเชงเรขาคณตของทอนาโนคารบอน (CNT geometry optimization) ขอมลพกดเรมตนของอะตอมคารบอน (u, v, w) และ ไครลเวกเตอร (n, m) ถกปอนใหเปนขอมลเขาของโปรแกรม CASTEP และขอมลพกดของอะตอมคารบอน (u’, v’, w’) ทคำนวณไดเปนผลลพธจากโปรแกรม CASTEP ชดขอมลนประกอบดวยตวอยางทงหมด 10,721 ตวอยาง มตวแปร (Variable) ดงน
ตวแปร คำอธบาย CI_n คาพารามเตอร n ของไครลเวกเตอรทถกเลอกใช CI_m คาพารามเตอร m ของไครลเวกเตอรทถกเลอกใช Init_coor_u พกดเรมตนของอะตอมคารบอนแนวแกน u ทถกสรางขนโดยวธสม Init_coor_v พกดเรมตนของอะตอมคารบอนแนวแกน v ทถกสรางขนโดยวธสม Init_coor_w พกดเรมตนของอะตอมคารบอนแนวแกน w ทถกสรางขนโดยวธสม Cal_coor_u พกดของอะตอมคารบอนแนวแกน u ทถกคำนวณไดจากโปรแกรม CASTEP Cal_coor_v พกดของอะตอมคารบอนแนวแกน v ทถกคำนวณไดจากโปรแกรม CASTEP Cal_coor_w พกดของอะตอมคารบอนแนวแกน w ทถกคำนวณไดจากโปรแกรม CASTEP
แหลงขอมล: https://archive.ics.uci.edu/ml/datasets/Carbon+Nanotubes ขอมลเพมเตม: ACI, M , AVCI, M . (2016). ARTIFICIAL NEURAL NETWORK APPROACH FOR ATOMIC COORDINATE PREDICTION OF CARBON NANOTUBES. Applied Physics A, 122, 631.
10. ชดขอมล VIX Prices แฟมขอมล vix_prices.csv เปนชดขอมลราคาของดชนซงคำนวณโดยตลาดซอขายอนพนธ
Chicago Board Options Exchange (CBOE) ตงแตป ค.ศ.1990 ถงป ค.ศ. 2019 ชดขอมลนประกอบดวยตวอยางทงหมด 3,532 ตวอยาง มตวแปร (Variable) ดงน
ตวแปร คำอธบาย date ขอมลระบวน-เดอน-ปของขอมล ในรปแบบ mm/dd/yyyy vix_open ราคาเปดตลาดของ vix ณ วนทระบในตวแปร date vix_high ราคาสงสดของ vix ณ วนทระบในตวแปร date vix_low ราคาตำสดของ vix ณ วนทระบในตวแปร date vix_close ราคาปดตลาดของ vix ณ วนทระบในตวแปร date
แหลงขอมล: https://github.com/NathanMaton/vix_prediction
ปฏบตการท 1 การเตรยมแฟมขอมลและการนำเขาขอมลสเครองมอวเคราะหขอมล
วตถประสงค 1. เพอใหสามารถจดเตรยมขอมลใหอยในรปแบบทเหมาะสมสำหรบการนำไปวเคราะหดวย
เครองมอวเคราะหขอมลทางวทยาการขอมล 2. เพอใหสามารถนำขอมลเขาสเครองมอวเคราะหขอมลเพอประมวลผลตอไปได
1. ชดขอมลปฏบตการ − ชดขอมล Comic Characters (สำหรบการสาธต) − ชดขอมล 2004 New Car and Truck (สำหรบการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. เปดแฟมขอมล comics.csv ดวยโปรแกรม Microsoft Excel แถวขอมลแรกระบชอคอลมน (ตวแปร) แถวขอมลท 2 ถง 23,273 เปนระเบยนขอมลของตวละครแตละตว
2. ทำการแทนทขอมลในเซลลขอมลทมคา NA ดวยคา วางเปลา เนองจาก ML Studio กำหนดใหเซลลขอมลใดทเปนขอมลสญหาย ตองเปนเซลลวางเปลา
22
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. บนทกแฟมขอมล comics.csv 4. เปดโปรแกรม ML Studio (ดหวขอ Microsoft Azure Machine Learning Studio การ
เขาใชงานเบองตน) 5. นำชดขอมลจากแฟมขอมล comics.csv เขาส ML Studio (ดหวขอ Microsoft Azure
Machine Learning Studio การนำชดขอมลจากคอมพวเตอรสวนตวเขาส ML Studio) โดยกำหนดชอชดขอมลเปน “comics” และเลอกชนดของชดขอมลเปน “Generic CSV File with a header (.csv)”
6. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 1” (ดหวขอ Microsoft Azure Machine Learning Studio การสรางการทดลอง)
7. นำชดขอมล comics เขาสการทดลองโดยลากโมดลชดขอมล comics ทอยภายใต Saved Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace
8. เขาดขอมลในชดขอมล comics โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตางแสดงขอมลภายในชดขอมล ดงรป
จำนวนคอลมนและแถว
ตารางขอมล
Statistics และ Visualizations
23
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
9. ในหนาตางแสดงขอมล ประกอบดวยสวนตางๆ ดงน • จำนวนคอลมนและแถว แสดงจำนวนตวแปรและระเบยนขอมลตามลำดบ • ตารางขอมล ประกอบดวย
▪ ชอคอลมน เมอคลกทชอคอลมนขอมลในสวน Statistics และ Visualizations ซงอธบายขอมลทางสถตของตวแปรนนในชดขอมล
▪ การกระจายของขอมลในแตละตวแปร แสดงใตชอคอลมน ▪ ขอมลแตละระเบยน (อาจไมแสดงครบทกขอมล)
• Statistics และ Visualizations แสดงคาทางสถตและการกระจายของขอมล 10. สรปขอมลในชดขอมล comics โดยลากโมดล Summarize Data ทอยภายใต Statistical
Functions ในหนาตางยอย Modules มาวางบน Workspace (ไวดานลางกลองโมดลชดขอมล comics)
11. คลกท โหนดสวนตอประสานขอมลออก ของกลองโมดลชดขอมล comics แลวลากวางยง โหนดสวนตอประสานขอมลเขาของกลองโมดลชดขอมล Summarize Data
12. คลกคำสง RUN 13. เมอโปรแกรมประมวลผลเรยบรอย ดผลลพธของโมดล Summarize Data โดยการคลกทโหนด
สวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตาง ดงรป
24
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. แบบฝกปฏบตการ ใหนกศกษานำชดขอมล 2004 New Car and Truck จากแฟมขอมล cars04.csv เขาส
โปรแกรม ML Studio กำหนดชอชดขอมลเปน “Cars04” และสรางการทดลอง กำหนดชอเปน “Lab 1” โดยใหนำชดขอมล Cars04 เขาสการทดลอง และใชโมดล Summarize Data ในการสรปขอมลในชดขอมล
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_01_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ชอ Workspace
ปฏบตการท 2 การจดเตรยมขอมลกอนการวเคราะห
วตถประสงค 1. เพอใหสามารถแปลงชนดขอมล (Datatype) ของตวแปรใหอยรปแบบทเหมาะสมสำหรบ
การวเคราะหได 2. เพอใหสามารถจดการกบคาสญหาย (Missing Value) โดยวธการเตมคาขอมลหรอลบขอมล
ได
1. ชดขอมลปฏบตการ − ชดขอมล Comic Characters (สำหรบการสาธต) − ชดขอมล 120 Years of Olympic History athletes and Results (สำหรบการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. นำเขาชดขอมล Comic Characters จากแฟมขอมล comics.csv โดยเปลยนคาในเซลลทมคา NA เปนคาวางเปลาดวย และตงชอชดขอมลเปน comics (ดหวขอ ปฏบตการท 1)
2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 2” 3. นำชดขอมล comics เขาสการทดลองโดยลากโมดลชดขอมล comics ทอยภายใต Saved
Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. เขาดขอมลในชดขอมล comics โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก
Visualize จะปรากฏหนาตางแสดงขอมลภายในชดขอมล ดงรป
26
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
5. ตรวจสอบพรอมจดบนทกชนดขอมลและจำนวนคาสญหาย (Missing Values) ของแตละตวแปร โดยคลกทชอคอลมน แลวสงเกตคา Feature Type และ Missing Values ในหนาตางยอย Statistics
6. หากตองการเปลยนแปลงชนดขอมลของตวแปร สามารถทำไดโดยใชโมดล Edit Metadata (ภายใต Data Transformation Manipulation)
7. ลากโมดล Edit Metadata มาวางบน Workspace แลวเชอมโยงโมดลชดขอมล comics กบโมดล Edit Metadata โดยใหชดขอมล comics เปนขอมลเขา
8. คลกทโมดล Edit Metadata ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/edit-metadata)
9. คลก Launch column selector เพอเลอกตวแปรทตองการเปลยนชนดขอมล จะปรากฏไดอะลอก Select columns ดงรป
27
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
10. ในทนจะแกไขชนดขอมลของตวแปร eye และ hair โดยคลกเลอกตวแปร eye จากสวน AVALIABLE COLUMNS แลวคลกปม > ตอมาเลอกตวแปร hair จากสวน AVALIABLE COLUMNS แลวคลกปม > (สามารถเลอกตวแปรหลายตวพรอมกนกนโดยการกดปม CTRL พรอมกบคลกเลอก) จะสงเกตไดวาทงตวแปร eye และ hair ถกยายมายงสวน SELECTED COLUMNS เสรจแลวคลกปม
11. ตอมาเลอกชนดขอมลทตองการจากลสต Data type ในทนเลอกเปน String และกำหนดใหเปนขอมลทจดเปนกลม โดยเลอกตวเลอก Make categorical จากลสต Categorical กรณนจะทำใหตวแปร eye และ hair เปนขอมลทจดเปนกลม (Categorical Data)
12. คลก RUN แลวดผลลพธของโมดล Edit Metadata เปรยบเทยบกบผลลพธของโมดลชดขอมล comics จะพบวากอนการเรยกใชโมดล Edit Metadata ชนดของขอมลตวแปร eye และ hair เปน String Feature หลงจากการแปรชนดขอมลของตวแปรทงสองแลว ชนดของขอมลตวแปรเปน Categorical Feature ขอแนะนำ หากตองการเปลยนแปลงชนดขอมลตวแปรอนๆ เพมเตมสามารถทำไดโดยใชงานโมดล Edit Metadata โดยทสงผลลพธของโมดลกอนหนาเปนขอมลเขา ทำเชนนเปนทอดๆ จนกวาชนดขอมลของทกตวแปรเปนไปตามทตองการ
13. การจดการคาสญหาย (Missing Value) ทำไดโดยใชโมดล Clean Missing Data (ภายใต Data Transformation Manipulation)
14. เมอลากโมดล Clean Missing Data วางบน Workspace แลว เชอมโยงโมดล Edit Metadata กบโมดล Clean Missing Data โดยใหผลลพธจากโมดล Edit Metadata เปนขอมลเขาของโมดล Clean Missing Data และเพมขอความอธบาย (Comment) โดยการคลกขวาทโมดล เลอก Edit Comment พมพขอความอธบายเปน “For gsm”
28
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
15. คลกทโมดล Clean Missing Data ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/clean-missing-data)
16. คลก Launch column selector เพอเลอกตวแปรทตองการจดการกบคาสญหาย จะปรากฏไดอะลอก Select columns คลกท BY NAME เพอเลอกจากชอคอลมน
17. ทำการเลอกตวแปรทตองการ ในทนจะเลอกตวแปร gsm แลวคลก ปม ขอแนะนำ สามารถเลอกตวแปรเพอจดการกบคาสญหายไดครงละหลายตวแปร อยางไรกตามตวแปรเหลานนจะตองใชวธการจดการคาสญหายดวยวธเดยวกน หากตองการจดการคาสญหายของตวแปรอนๆ ดวยวธการไมเหมอนกน สามารถทำไดโดยใชงานโมดล Clean Missing Data แยกเฉพาะกลมตวแปรทใชวธการจดการคาสญหายเดยวกน โดยทสงผลลพธของโมดลกอนหนาเปนขอมลเขา ทำเชนนเปนทอดๆ
18. ตอมาเลอกวธการจดคาสญหายจากลสต Cleaning Mode เปน Remove entire column เนองจากสงเกตไดวาโดยสวนมากคา gsm ของขอมลทกแถวจจะสญหาย
19. คลก RUN แลวดผลลพธของโมดล Clean Missing Data โดยโมดลนใหผลลพธ 2 อยาง คอ 1) ชดขอมลมลทถกจดการคาสญหายแลว (Cleaned Dataset) สำหรบนำขอมลชดนไปใชในการวเคราะหตอไป และ 2) ตวแปลงขอมล (Cleaning Transformation) สำหรบนำไปใชกบขอมลชดใหมทมโครงสรางขอมลเดยวกนและตองใชวธการจดการกบคาสญหายดวยวธเดยวกน
20. คลกเลอก Visualize จากโหนดสวนตอประสานขอมลออกโหลดแรกของ โมดล Clean Missing Data จะพบวาคอลมน gsm หายไป
29
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
21. ตอมาทำการจดการคาสญหายของตวแปร appearance โดยการลากโมดล Clean Missing Data ใหมมาวางบน workspace และเพมขอความอธบาย (Comment) เปน For appearance แลวใหผลลพธของโมดล Clean Missing Data สำหรบตวแปร gsm เปนขอมลเขาของโมดล Clean Missing Data สำหรบตวแปร appearance
22. ทำการเลอกตวแปร appearance แลวเลอกวธการจดคาสญหายจากลสต Cleaning Mode เปน Replace with mean
23. คลก RUN แลวดผลลพธของโมดล Clean Missing Data สำหรบตวแปร appearance จะพบวาจำนวนขอมลสญหายของตวแปร appearance มคาเทากบ 0 (จากเดมมจำนวนขอมลสญหาย 1,451 ขอมล)
3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน
1. นำชดขอมล 120 Years of Olympic History athletes and Results จากแฟมขอมล athlete_events.csv เขาสโปรแกรม ML Studio (ทำการเปลยนคาระบขอมลสญหายจาก NA เปนคา วางเปลา ดวย) กำหนดชอชดขอมลเปน “athlete events”
2. สรางการทดลอง กำหนดชอเปน “Lab 2” โดยใหนำชดขอมล athlete events เขาสการทดลอง
3. จดบนทกชนดขอมลและจำนวนคาสญหายของแตละตวแปร 4. ทำการเปลยนชนดขอมล และจดการคาสญหายของแตละตวแปร ตามรายละเอยดในตาราง
ดานลางน
30
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
ตวแปร ชนดขอมล วธการจดการคาสญหาย ID String Feature (ไมม Missing Value) Name String Feature (ไมม Missing Value) Sex Categorical Feature (ไมม Missing Value) Age Numeric Feature (Integer) Replace with median Height Numeric Feature (Floating Point) Replace with mean Weight Numeric Feature (Floating Point) Replace with mean Team Categorical Feature (ไมม Missing Value) NOC Categorical Feature (ไมม Missing Value) Games String Feature (ไมม Missing Value) Year Numeric Feature (Integer) (ไมม Missing Value) Season Categorical Feature (ไมม Missing Value) City Categorical Feature (ไมม Missing Value) Sport Categorical Feature (ไมม Missing Value) Event String Feature (ไมม Missing Value) Medal Categorical Feature Custom substitution value
(Replacement value = None)
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_02_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ปฏบตการท 3 การคำนวณคาสถตเชงพรรณาจากตารางขอมลหลก
วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหขอมลในการคำนวณคาสถตเชงพรรณนา เพออธบาย
ลกษณะของขอมลได 2. เพอใหสามารถใชเครองมอวเคราะหขอมลในการคำนวณหาคาสหสมพนธ (Correlation)
ระหวางตวแปรได
1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล Airfoil Self-Noise (สำหรบการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. นำเขาชดขอมล Iris จากแฟมขอมล iris.csv ตงชอชดขอมลเปน iris 2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 3” 3. นำชดขอมล iris เขาสการทดลองโดยลากโมดลชดขอมล iris ทอยภายใต Saved Datasets
My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. เขาดขอมลในชดขอมล iris (คลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize)
ตรวจสอบชนดขอมล กำหนดใหแตละตวแปรตองมชนดขอมล ดงน
ตวแปร ชนดขอมล sepal_length Numeric Feature (Floating Point) sepal_width Numeric Feature (Floating Point) petal_length Numeric Feature (Floating Point) petal_width Numeric Feature (Floating Point) species Categorical Feature
32
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
5. ทำการแกไขชนดขอมลของตวแปร (ใชโมดล Edit Metadata) หากชนดขอมลเดมไมตรงกบชนดขอมลทกำหนด
6. คำนวณคาสถตเขงพรรณาของแตละตวแปรในชดขอมล iris โดยใชโมดล Summarize Data (อยภายใต Statistical Functions)
7. คลกคำสง RUN เมอโปรแกรมประมวลผลเรยบรอย ดผลลพธของโมดล Summarize Data โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตาง ดงรป
8. ศกษาคาสถตเชงพรรณาของตวละตวแปรจากผลลพธของโมดล Summarize Data 9. คำนวณคาสหสมพนธเชงเสนตรงของแตละคตวแปรในชดขอมล iris โดยใชโมดล Compute
Linear Correlation (อยภายใต Statistical Functions) 10. คลกคำสง RUN เมอโปรแกรมประมวลผลเรยบรอย ดผลลพธของโมดล Compute Linear
Correlation โดยการคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏหนาตาง ดงรป
11. ศกษาคาสหสมพนธเชงเสนตรงของแตละคตวแปรในชดขอมล iris จากผลลพธของโมดล Compute Linear Correlation
33
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน
1. ใหนกศกษานำชดขอมล Airfoil Self-Noise จากแฟมขอมล airfoil_self_noise.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “airfoil self-noise”
2. สรางการทดลอง กำหนดชอเปน “Lab 3” โดยใหนำชดขอมล airfoil self-noise เขาสการทดลอง
3. คำนวณคาสถตเขงพรรณาของแตละตวแปรในชดขอมล airfoil self-noise โดยใชโมดล Summarize Data แลวศกษาและอภปรายผลลพธ
4. คำนวณคาสหสมพนธเชงเสนตรงของแตละคตวแปรในชดขอมล airfoil self-noise โดยใชโมดล Compute Linear Correlation แลวศกษาและอภปรายผลลพธ
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_03_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ปฏบตการท 4 การใชเครองมอวเคราะหกลมของขอมล
วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหกลมขอมลดวยวธการ k-mean ได 2. เพอใหสามารถใชเครองมอวเคราะหกลมขอมลดวยวธการ Hierarchical Clustering ได 3. เพอใหสามารถใชเครองมอวเคราะหกลมขอมลดวยวธการ DBSCAN ได
1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล 2004 New Car and Truck (สำหรบการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 4” 2. นำชดขอมล iris เขาสการทดลองโดยลากโมดลชดขอมล iris มาวางบน Workspace 3. เขาดขอมลในชดขอมล iris (คลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize)
ตรวจสอบชนดขอมล กำหนดใหแตละตวแปรตองมชนดขอมล ดงน
ตวแปร ชนดขอมล sepal_length Numeric Feature (Floating Point) sepal_width Numeric Feature (Floating Point) petal_length Numeric Feature (Floating Point) petal_width Numeric Feature (Floating Point) species Categorical Feature
4. ทำการแกไขชนดขอมลของตวแปร (ใชโมดล Edit Metadata) หากชนดขอมลเดมไมตรงกบชนดขอมลทกำหนด
5. ในปฏบตการนจะเลอกใชขอมลตวแปร sepal_length sepal_width petal_length และ petal_width ในการวเคราะหกลม โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace
6. นำขอมลสงออกจากโมดล iris เปนขอมลนำเขาของโมดล Select Columns in Dataset
35
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
7. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก
8. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Select Columns in Dataset จะพบวาตารางขอมลเหลอเพยง 4 คอลมน ไดแก sepal_length sepal_width petal_length และ petal_width
9. ตอมาทำการวเคราะหกลมขอมลดวยวธการ k-mean โดยการลากโมดล K-Means Clustering (ภายใต Machine Learning Initialize Model Clustering) มาวางบน workspace
10. คลกทกลองโมดล K-Means Clustering ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/k-means-clustering)
11. กำหนดคาพารามเตอร Number of Centroids เปน 3 12. ตอมาลากโมดล Train Clustering Model (ภายใต Machine Learning Train) มาวางบน
workspace 13. นำขอมลสงออกจากโมดล K-Means Clustering เปนขอมลนำเขา Untrained model ของ
โมดล Train Clustering Model และนำขอมลสงออกจากโมดล Select Columns in Dataset เปนขอมลนำเขา Dataset ของโมดล Train Clustering Model
36
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
14. คลกทกลองโมดล Train Clustering Model ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปร sepal_length sepal_width petal_length และ petal_width เพอใชในการวเคราะหกลม จากนนคลก
15. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Train Clustering Model โดยคลกทโหนดสวนตอประสานขอมลออก Results dataset แลวเลอก Visualize จะปรากฏผลลพธดงรป
16. ตอมาทำการวเคราะหกลมขอมลดวยวธการ Hierarchical Clustering โดยการลากโมดล Fit Hierarchical Clusters (ภายใต Custom หากไมพบโมดลดงกลาวใหทำการนำเขามาจาก Azure AI Gallery ดเนอหาหวขอ การนำเขาโมดลจาก Azure AI Gallery) มาวางบน workspace
37
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
17. นำขอมลสงออกจากโมดล Select Columns in Dataset เปนขอมลนำเขา Dataset ของโมดล Fit Hierarchical Clusters
18. คลกทกลองโมดล Fit Hierarchical Clusters ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://gallery.azure.ai/CustomModule/Fit-Hierarchical-Clusters-1)
19. กำหนดคาพารามเตอร Number of clusters เปน 3 20. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Fit Hierarchical
Clusters โดยคลกทโหนดสวนตอประสานขอมลออก Clustered dataset แลวเลอก Visualize จะปรากฏผลลพธดงรป
21. ตอมาทำการวเคราะหกลมขอมลดวยวธการ DBSCAN โดยการลากโมดล Fit DBSCAN Clusters (ภายใต Custom หากไมพบโมดลดงกลาวใหทำการนำเขามาจาก Azure AI Gallery ดเนอหาหวขอ การนำเขาโมดลจาก Azure AI Gallery) มาวางบน workspace
22. นำขอมลสงออกจากโมดล Select Columns in Dataset เปนขอมลนำเขา Dataset ของโมดล Fit DBSCAN Clusters
23. คลกทกลองโมดล Fit DBSCAN Clusters ทหนาตางยอย Properties จะปรากฏฟอรมสำหรบกำหนดพารามเตอรของโมดล ดงน (สามารถศกษาเพมเตมไดทเวบไซต https://gallery.azure.ai/CustomModule/Fit-DBSCAN-Clusters-1)
หมายเลข Cluster ของขอมลแตละระเบยน
38
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
24. กำหนดคาพารามเตอร Epsilon เปน 0.5 25. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Fit DBSCAN Cluste
โดยคลกทโหนดสวนตอประสานขอมลออก Clustered dataset แลวเลอก Visualize จะปรากฏผลลพธดงรป
3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน
1. ใหนกศกษานำชดขอมล 2004 New Car and Truck จากแฟมขอมล cars04.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “cars04”
2. สรางการทดลอง กำหนดชอเปน “Lab 4” โดยใหนำชดขอมล cars04 เขาสการทดลอง 3. เตมคาสญหายของขอมลของทกตวแปรดวยวธการแทนคาดวยคาเฉลย (Replace with mean) 4. เลอกใชขอมลตวแปร msrp dealer_cost eng_size ncyl horsepwr city_mpg
hwy_mpg weight wheel_base length และ width ในการวเคราะหกลม โดยใชโมดล Select Columns in Dataset
5. ทำการวเคราะหกลมขอมลดวยวธการ k-mean กำหนดคาพารามเตอร Number of Centroids เปน 7 แลวศกษาและอภปรายผลลพธ
6. ทำการวเคราะหกลมขอมลดวยวธการ Hierarchical Clustering กำหนดคาพารามเตอร Number of clusters เปน 7 แลวศกษาและอภปรายผลลพธ
หมายเลข Cluster ของขอมลแตละระเบยน
39
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
7. ทำการวเคราะหกลมขอมลดวยวธการ DBSCAN กำหนดคาพารามเตอร Epsilon เปน 1 แลวศกษาและอภปรายผลลพธ
8. ทดลองเปลยนคาพารามเตอรตางๆ ของแตละวธการวเคราะหกลมขอมลเปนคาอนๆ และศกษาผลลพธทเกดขน ลองหาคำตอบวาพารามเตอรแตละตวสงผลตอผลลพธทเกดขนอยางไร
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_04_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ปฏบตการท 5 การใชเครองมอการวเคราะหตะกราตลาด
วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหตะกราตลาด (Market Basket Analysis) ในการหา
frequent item set ได 2. เพอใหสามารถใชเครองมอวเคราะหตะกราตลาด (Market Basket Analysis) ในการหากฏ
ความสมพนธ (Association Rule) ได
1. ชดขอมลปฏบตการ − ชดขอมล Mini Market Basket (สำหรบการสาธต) − ชดขอมล Simulated Online Shopping Carts (สำหรบการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. นำเขาชดขอมล Mini Market Basket จากแฟมขอมล mini_market_basket.csv ตงชอชดขอมลเปน mini market basket
2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 5” 3. นำชดขอมล mini market basket เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต
Saved Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. หา Frequent Item Sets ในชดขอมล mini market basket โดยลากโมดล Discover
Association Rules (ภายใต Custom หากไมพบโมดลดงกลาวใหทำการนำเขามาจาก Azure AI Gallery ดเนอหาหวขอ การนำเขาโมดลจาก Azure AI Gallery) มาวางยง workspace และเพมขอความอธบาย (Comment) โดยการคลกขวาทโมดล เลอก Edit Comment พมพขอความอธบายเปน “Find Frequent Item Sets”
5. นำขอมลสงออกจากโมดลขอมล mini market basket เปนขอมลนำเขา Dataset ของโมดล Discover Association Rules
6. คลกทกลองโมดล Discover Association Rules ทหนาตางยอย Properties จะปรากฏฟอรมสำหร บกำหนดพาราม เ ตอร ของ โมด ล (สามารถศ กษา เพ ม เต ม ได ท เ ว บ ไซต https://gallery.azure.ai/CustomModule/Discover-Association-Rules-1)
41
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
24. กำหนด Input Dataset Type เปน Items list แลวคลก Launch column selector เพอเลอกตวแปรทจดเกบรายการสนคาทตองการประมวลผล ในทนเลอกตวแปร items แลวคลก
7. กำหนดคาพารามเตอร ดงน • Minimal Support: 0.1 • Minimal Confidence: 0.1 • Minimal Number of Items in a Rule: 1 • Maximal Number of Items in a Rule: 5 • Return type: Frequent Itemsets
8. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Discover Association Rules โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
9. หากฏความสมพนธ (Association Rules) ในชดขอมล mini market basket โดยลากโมดล Discover Association Rules มาวางยง workspace และเพมขอความอธบาย (Comment) เปน “Find Association Rules”
10. นำขอมลสงออกจากโมดลขอมล mini market basket เปนขอมลนำเขา Dataset ของโมดล Discover Association Rules (สำหรบหากฏความสมพนธ)
25. คลกทกลองโมดล Discover Association Rules (สำหรบหากฏความสมพนธ) กำหนด Input Dataset Type เปน Items list แลวคลก Launch column selector เพอเลอกตวแปรทจดเกบรายการสนคาทตองการประมวลผล ในทนเลอกตวแปร items แลวคลก
11. กำหนดคาพารามเตอร ดงน • Minimal Support: 0.1 • Minimal Confidence: 0.1 • Minimal Number of Items in a Rule: 1
Frequent Item Sets
42
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
• Maximal Number of Items in a Rule: 5 • Return type: Rules
12. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Discover Association Rules (สำหรบหากฏความสมพนธ) โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน
1. ใหนกศกษานำชดขอมล Simulated Online Shopping Carts จากแฟมขอมล simulated_online_shopping_carts.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “simulated online shopping carts”
2. สรางการทดลอง กำหนดชอเปน “Lab 5” โดยใหนำชดขอมล simulated online shopping carts เขาสการทดลอง
3. หา Frequent Item Sets ในชดขอมล simulated online shopping carts จากตวแปร products โดยกำหนดคาพารามเตอร ดงน (เพมขอความอธบาย (Comment) โมดล เปน “Find Frequent Item Sets”
• Minimal Support: 0.01 • Minimal Confidence: 0.2 • Minimal Number of Items in a Rule: 1 • Maximal Number of Items in a Rule: 5
กฏความสมพนธถกอธบายในรปแบบ lhs rhs
43
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
4. หากฏความสมพนธ (Association Rules) ในชดขอมล simulated online shopping carts จากตวแปร products โดยกำหนดคาพารามเตอร ดงน (เพมขอความอธบาย (Comment) โมดล เปน “Find Association Rules”
• Minimal Support: 0.1 • Minimal Confidence: 0.2 • Minimal Number of Items in a Rule: 2 • Maximal Number of Items in a Rule: 5
5. ทดลองเปลยนคาพารามเตอรตางๆ ของโมดลการหา Frequent Item Sets และกฏความสมพนธเปนคาอนๆ และศกษาผลลพธทเกดขน ลองหาคำตอบวาพารามเตอรแตละตวสงผลตอผลลพธทเกดขนอยางไร
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_05_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ปฏบตการท 6 การใชเครองมอวเคราะหการจำแนกขอมล
วตถประสงค 1. เพอใหสามารถใชเครองมอแบงขอมลในการแบงชดขอมลเรยนร (Training Dataset) และ
ชดขอมลทดสอบ (Test Dataset) ได 2. เพอใหสามารถใชเครองมอวเคราะหการนำแนกขอมลได 3. เพอใหสามารถใชเครองมอวดประสทธภาพของวธการนำแนกขอมลได
1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล Mushroom (สำหรบการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. นำเขาชดขอมล Iris จากแฟมขอมล iris.csv ตงชอชดขอมลเปน iris 2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 6” 3. นำชดขอมล iris เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต Saved Datasets
My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. ในปฏบตการนจะสรางโมเดลสำหรบทำนายชนด (Specie) ของดอก iris กำหนดใหตวแปร
species เปนปายระบขอมล (Label) เปลยนแปลงชนดขอมลของตวแปร species โดยใชโมดล Edit Metadata (ภายใต Data Transformation Manipulation)
5. เลอกชนดขอมล เปน String และกำหนดใหเปนขอมลทจดเปนกลม โดยเลอกตวเลอก Make categorical จากลสต Categorical และเลอกตวเลอก Label จากลสต Fields
6. ทำการแบงชดขอมล iris ออกเปน 2 ชด คอ ชดขอมลเรยนร (Training Dataset) และชดขอมลทดสอบ (Test Dataset) โดยใชโมดล Split Data (ภายใต Data Transformation Sample and Split)
7. กำหนด Splitting mode เปน Split Rows กำหนดคาอตราสวนขอมลเรยนรตอขอมลทดสอบ (Fraction of rows in the first output dataset) เปน 0.7 และเลอก Randomized split จะทำใหขอมลออกจากโหนดสวนตอประสานขอมลออกท 1 มจำนวนรอยละ 70 ของขอมลทงหมด
45
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
(ใหถอวาเปนชดขอมลเรยนร) และ ขอมลออกจากโหนดสวนตอประสานขอมลออกท 2 มจำนวนรอยละ 30 ของขอมลทงหมด (ใหถอวาเปนชดขอมลทดสอบ)
13. ตอมาทำการสรางโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยการลากโมดล Multiclass Decision Forest (ภ า ย ใ ต Machine Learning Initialize Model Classification สามารถศกษาเพ มเต มได ท เว บไซต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/multiclass-decision-forest) มาวางบน workspace โดยกำหนดคาพารามเตอร ดงน
• Number of decision trees: 5 • Maximum depth of the decision trees: 10 • Number of random splits per node: 128 • Minimum number of samples per leaf node: 1 • พารามเตอรอนๆ ใชตามคาทกำหนดมาโดยอตโนมต
14. ตอมาลากโมดล Train Model (ภายใต Machine Learning Train) มาวางบน workspace 15. นำขอมลสงออกจากโมดล Multiclass Decision Forest เปนขอมลนำเขา Untrained model
ของโมดล Train Model และนำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 1 ซงเปนชดขอมลเรยนร เปนขอมลนำเขา Dataset ของโมดล Train Model
16. คลกทกลองโมดล Train Model ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปร species เพอใชเปนปายระบขอมล ซงเปนคาทตองการทำนาย จากนนคลก
17. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Train Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
46
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
18. ทำการทดสอบโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยใชโมดล Score Model (ภายใต Machine Learning Score) นำขอมลสงออกจากโมดล Train Model เปนขอมลนำเขา Trained model ของโมดล Score Model และนำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 2 ซงเปนชดขอมลทดสอบ เปนขอมลนำเขา Dataset ของโมดล Score Model
19. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Score Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
47
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
20. ทำการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยใชโมดล Evaluate Mode (ภายใต Machine Learning Evaluate) นำขอมลสงออกจากโมดล Score Model เปนขอมลนำเขา Scored dataset ของโมดล Evaluate Mode
21. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Evaluate Mode โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
คา species จรง คา species ททำนายได
48
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน
1. ใหนกศกษานำชดขอมล Mushrooms จากแฟมขอมล mushrooms.csv เขาสโปรแกรม ML Studio กำหนดชอชดขอมลเปน “mushrooms” กอนนำเขาขอมลทำการแทนทขอมลในเซลลขอมลทมคา ? ดวยคา วางเปลา
2. สรางการทดลอง กำหนดชอเปน “Lab 6” โดยใหนำชดขอมล mushrooms เขาสการทดลอง 3. ทำการเปลยนชนดขอมลของตวแปรทงหมด ยกเวนตวแปร class ใหเปนชนดขอมล
Categorical Feature
49
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
4. ทำการเปลยนชนดขอมลของตวแปร class ใหเปนชนดขอมล Categorical Feature และกำหนดใหเปนตวแปร Label
5. แบงขอมลออกเปน 2 ชด คอ ชดขอมลเรยนรและชดขอมลทดสอบ ในอตราสวน 7 ตอ 3 6. สรางโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest โดยกำหนดคาพารามเตอร ดงน
• Number of decision trees: 1 • Maximum depth of the decision trees: 32 • Number of random splits per node: 128 • Minimum number of samples per leaf node: 1 • Allow unknown values for categorical features: Select • พารามเตอรอนๆ ใชตามคาทกำหนดมาโดยอตโนมต
7. ดผลลพธจากการสรางโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest และอธบายโมเดล
8. ทำการทดสอบโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest กบชดขอมลทดสอบ (ใชโมดล Score Model)
9. ทำการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest (ใชโมดล Evaluate Mode)
10. ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมล 11. ทดลองเปลยนคาพารามเตอรของโมเดลสำหรบการจำแนกขอมลดวยวธ Decision Forest และ
ทำการทดสอบประสทธภาพของโมเดล ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดล
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_06_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ปฏบตการท 7 การใชเครองมอวเคราะหการถดถอย
วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหการถดถอยของขอมลได 2. เพอใหสามารถใชเครองมอวดประสทธภาพของวธการวเคราะหการถดถอยได
1. ชดขอมลปฏบตการ − ชดขอมล Carbon Nanotubes (สำหรบการสาธตและการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. นำเขาชดขอมล Carbon Nanotubes จากแฟมขอมล carbon_nanotubes.csv ตงชอชดขอมลเปน carbon nanotubes
2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 7” 3. นำชดขอมล carbon nanotubes เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต
Saved Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. ในปฏบตการนจะสรางโมเดลการวเคราะหการถดถอยเชงเสนตรง (Linear Regression
Model) เพอทำนายพกดของอะตอมคารบอนแนวแกน u ทถกคำนวณไดจากโปรแกรม CASTEP
𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑢 = 𝛽0 + (𝛽1 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑢) + (𝛽2 × 𝐶𝐼_𝑛) + (𝛽3 × 𝐶𝐼_𝑚) 5. ทำการแบงชดขอมล carbon nanotubes ออกเปน 2 ชด คอ ชดขอมลเรยนร (Training
Dataset) และชดขอมลทดสอบ (Test Dataset) โดยใชโมดล Split Data (ภายใต Data Transformation Sample and Split)
6. กำหนด Splitting mode เปน Split Rows กำหนดคาอตราสวนขอมลเรยนรตอขอมลทดสอบ (Fraction of rows in the first output dataset) เปน 0.7 และเลอก Randomized split จะทำใหขอมลออกจากโหนดสวนตอประสานขอมลออกท 1 มจำนวนรอยละ 70 ของขอมลทงหมด (ใหถอวาเปนชดขอมลเรยนร) และ ขอมลออกจากโหนดสวนตอประสานขอมลออกท 2 มจำนวนรอยละ 30 ของขอมลทงหมด (ใหถอวาเปนชดขอมลทดสอบ)
7. คลก RUN เพอทำการประมวลผล
51
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
8. เลอกตวแปรทจะใชในการสรางสมการถดถอยเชงเสนตรง นนคอ ตวแปร CI_n CI_m Init_coor_u และ Cal_coor_u โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace
9. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 1 ซงเปนชดขอมลเรยนร เปนขอมลนำเขาของโมดล Select Columns in Dataset
10. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For training dataset” 11. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch
column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 12. ตอมาทำการสร างโมเดลสำหรบสำหร บการว เคราะหการถดถอยเชงเส นตรง Linear
Regression โ ด ยกา รล าก โ มด ล Linear Regression (ภาย ใต Machine Learning Initialize Model Regression ส า ม า ร ถ ศ ก ษ า เ พ ม เ ต ม ไ ด ท เ ว บ ไ ซ ต https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/linear-regression) มาวางบน workspace โดยกำหนดคาพารามเตอร ดงน
• Solution method: Ordinary least squares • L2 regularization weight: 0.001 • Include intercept term: • พารามเตอรอนๆ ใชตามคาทกำหนดมาโดยอตโนมต
13. ตอมาลากโมดล Train Model (ภายใต Machine Learning Train) มาวางบน workspace 14. นำขอมลสงออกจากโมดล Linear Regression เปนขอมลนำเขา Untrained model ของโมดล
Train Model และนำขอมลสงออกจากโมดล Select Columns in Dataset ทเปนชดขอมลเรยนร เปนขอมลนำเขา Dataset ของโมดล Train Model
52
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
15. คลกทกลองโมดล Train Model ทหนาตางยอย Properties คลก Launch column selector แลวเลอกตวแปร Cal_coor_u เพอใชเปนตวแปรตาม (Dependent Variable) ซงเปนคาทตองการประมาณ จากนนคลก
16. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Train Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
จากผลลพธของโมดล Train Model ทำใหไดสมการถดถอยเชงเสนตรง เพอทำนายคาตวแปร Cal_coor_u คอ
𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑢 = −0.007597 + (1.015370 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑢)
+ (−0.000015 × 𝐶𝐼_𝑛) + (0.000010 × 𝐶𝐼_𝑚)
17. ทำการเตรยมขอมลทดสอบสำหรบทดสอบโมเดลการวเคราะหการถดถอยเชงเสนตรงทได โดยเลอกตวแปรทจะใชในการสรางสมการถดถอยเชงเสนตรง นนคอ ตวแปร CI_n CI_m Init_coor_u และ Cal_coor_u โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace
18. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 2 ซงเปนชดขอมลทดสอบ เปนขอมลนำเขาของโมดล Select Columns in Dataset
19. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For test dataset” 20. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch
column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 21. ทำการทดสอบโมเดลการวเคราะหการถดถอยเชงเสนตรงทไดโดยใชโมดล Score Model
(ภายใต Machine Learning Score) นำขอมลสงออกจากโมดล Train Model เปนขอมล
คาพารามเตอรทของโมเดลไดจากการเรยนรจากขอมลเรยนร
53
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
นำเขา Trained model ของโมดล Score Model และนำขอมลสงออกจากโมดล Select Columns in Dataset ทเปนชดขอมลทดสอบ เปนขอมลนำเขา Dataset ของโมดล Score Model
22. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Score Model โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
23. ทำการทดสอบประสทธภาพของโมเดลการวเคราะหการถดถอยเชงเสนตรง โดยใชโมดล Evaluate Mode (ภายใต Machine Learning Evaluate) นำขอมลสงออกจากโมดล Score Model เปนขอมลนำเขา Scored dataset ของโมดล Evaluate Mode
คา Cal_coor_u ทไดจากการประมาณคา
54
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
24. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Evaluate Mode โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
55
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน
1. กำหนดใหนกศกษาทำแบบฝกปฏบตการน ตอจากการทดลองสาธต โดยใหนกศกษาใชชดขอมล Carbon Nanotubes สรางโมเดลการวเคราะหการถดถอยเชงเสนตรง (Linear Regression Model) เพอทำนายพกดของอะตอมคารบอนแนวแกน v และ w ทถกคำนวณไดจากโปรแกรม CASTEP ดงตอไปน
𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑣 = 𝛽0 + (𝛽1 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑣) + (𝛽2 × 𝐶𝐼_𝑛) + (𝛽3 × 𝐶𝐼_𝑚) 𝐶𝑎𝑙_𝑐𝑜𝑜𝑟_𝑤 = 𝛽0 + (𝛽1 × 𝐼𝑛𝑖𝑡_𝑐𝑜𝑜𝑟_𝑤) + (𝛽2 × 𝐶𝐼_𝑛) + (𝛽3 × 𝐶𝐼_𝑚)
2. ดผลลพธจากการสรางโมเดลการวเคราะหการถดถอยเชงเสนตรง และจดบนทกสมการถอดถอยทได
3. ทำการทดสอบโมเดลการวเคราะหการถดถอยเชงเสนตรง กบชดขอมลทดสอบ (ใชโมดล Score
Model) 4. ทำการทดสอบประสทธภาพของโมเดลการวเคราะหการถดถอยเชงเสนตรง (ใชโมดล Evaluate
Mode) 5. ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมล
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_07_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ปฏบตการท 8 การใชเครองมอวเคราะหขอมลอนกรมเวลา
วตถประสงค 1. เพอใหสามารถใชเครองมอวเคราะหขอมลอนกรมเวลาได 2. เพอใหรวธการเพมหรอพฒนาเครองมอการวเคราะหขอมลดวยการพฒนาคำสงขนาดเลก
1. ชดขอมลปฏบตการ − ชดขอมล VIX Prices (สำหรบการสาธตและการฝกปฏบตการ)
2. ขนตอนปฏบตการ ขนตอนปฏบตการ มดงน
1. นำเขาชดขอมล VIX Prices จากแฟมขอมล vix_prices.csv ตงชอชดขอมลเปน vix prices 2. ทำการสรางการทดลอง โดยกำหนดชอการทดลองเปน “Practice 8” 3. นำชดขอมล vix prices เขาสการทดลองโดยลากโมดลชดขอมลซงทอยภายใต Saved
Datasets My Datasets ในหนาตางยอย Modules มาวางบน Workspace 4. ตรวจสอบชนดขอมลของตวแปร date โดยจะตองเปนชนดขอมล DateTime Feature หากไม
ใชใหทำการแกไขชนดขอมลใหถกตองโดยใชโมดล Edit Metadata 5. ทำการแบงชดขอมล vix prices ออกเปน 2 ชด คอ ชดขอมลเรยนร (Training Dataset) และ
ชดขอมลทดสอบ (Test Dataset) โดยใชโมดล Split Data (ภายใต Data Transformation Sample and Split)
6. ใหขอมลในชดขอมลเรยนรเปนขอมลหลงป ค.ศ.2005 สวนขอมลในชดขอมลทดสอบเปนขอมลระหวางป ค.ศ.2005 ถง 2019 ทำไดโดยเลอก Splitting mode เปน Relative Expressions และกำหนด Relational expression เปน \"date" < 1/1/2005
7. คลก RUN เพอทำการประมวลผล 8. ในปฏบตการนจะสรางโมเดล ARIMA ในการวเคราะหขอมลอนกรมเวลาเพอการทำนายคาใน
อนาคต โดยทำการวเคราะหขอมลราคาตำสดของดชนตลาดซอขายอนพนธ Chicago Board Options Exchange (CBOE)
57
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
9. เลอกตวแปรทจะใชในการสรางโมเดล ARIMA นนคอ ตวแปร date และ vix_low โดยใชโมดล Select Columns in Dataset (ภายใต Data Transformation Manipulation) ใหทำการลากโมดลดงกลาวมาวางบน workspace
10. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 1 ซงเปนชดขอมลเรยนร เปนขอมลนำเขาของโมดล Select Columns in Dataset
11. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For training dataset” 12. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch
column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 13. ทำการเตรยมขอมลทดสอบสำหรบทดสอบโมเดล ARIMA โดยเลอกตวแปรทจะใชในการ
ทดสอบ นนคอ ตวแปร date และ vix_low โดยใชโมดล Select Columns in Dataset 14. นำขอมลสงออกจากโมดล Split Data จากโหนดสวนตอประสานขอมลออกท 2 ซงเปนชดขอมล
ทดสอบ เปนขอมลนำเขาของโมดล Select Columns in Dataset 15. เพมคำอธบายให โมดล Select Columns in Dataset นวา “For test dataset” 16. คลกทกลองโมดล Select Columns in Dataset ทหนาตางยอย Properties คลก Launch
column selector แลวเลอกตวแปรทตองการนำมาใชวเคราะห จากนนคลก 17. คลก RUN เพอทำการประมวลผล 18. เปลยนชอคอลมน vix_low เปน data ทงในชดขอมลเรยนรและชดขอมลทดสอบทเปนผลลพธ
จากโมดล Select Columns in Dataset โดยใชโมดล Edit Metadata 19. คลกทกลองโมดล Edit Metadata ทหนาตางยอย Properties คลก Launch column
selector แลวเลอกตวแปร vix_low จากนนคลก เลอกตวเลอก Label จากลสต Fields และทกลองขอความ New column names กรอกขอความ “data” ทำเชนนสำหรบทงชดขอมลเรยนรและชดขอมลทดสอบ
20. คลก RUN เพอทำการประมวลผล 21. ตอมาทำการคำนวณคา autocorrelation function (ACF) และ partial autocorrelation
function (PACF) ในทนจะใชภาษาโปรแกรม R ในการพฒนาชดคำสงขนาดเลก โดยลากโมดล Execute R Script (ภายใต R Language Modules)
22. เพมคำอธบายให โมดล Execute R Script นวา “Plot ACF and PACF for low prices” 23. นำขอมลสงออกจากโมดล Edit Metadata สำหรบชดขอมลเรยนร จากโหนดสวนตอประสาน
ขอมลออก เปนขอมลนำเขาของโมดล Execute R Script (Plot ACF and PACF of low prices) แสดงตวอยางดงรป
58
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
24. คลกทกลองโมดล Execute R Script (Plot ACF and PACF of low prices) ทหนาตางยอย Properties ในชอง R Script ใหพมพชดคำสงดงน
ชดคำสง คำอธบาย dataset1 <- maml.mapInputPort(1) seasonality<-1 labels <- as.numeric(dataset1$data) timeseries <- ts(labels,frequency=seasonality) acf(timeseries, lag.max=24) pacf(timeseries, lag.max=24)
- นำขอมลจากโหนดสวนตอประสานขอมลเขาท 1 เกบไวในตวแปร dataset1 - สรางตวแปร timeseries เพ อเกบขอมลจากคอลมน data ใหอยในรปแบบอนกรมเวลา - คำนวณและแสดงกราฟของคา ACF และ PACF โดยกำหนดใหจำนวนขอมลยอยหลงทพจารณามากทสด 24 ขอมล ผลลพธจะแสดงทโหนดสวนตอประสานขอมลออกท 2
25. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกท 2 ของโมดล Execute R Script (Plot ACF and PACF of low prices) โดยคลกทโหนดสวนตอประสานขอมลออกท 2 แลวเลอก Visualize จะปรากฏกราฟแสดงคา ACF และ PACF ผลลพธดงรป
59
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
26. ตอมาทำการสรางโมเดล ARIMA สำหรบการวเคราะหขอมลอนกรมเวลา ในทน จะใชภาษาโปรแกรม R ในการพฒนาชดคำสงขนาดเลก โดยลากโมดล Execute R Script
27. เพมคำอธบายให โมดล Execute R Script นวา “ARIMA model for low prices” 28. นำขอมลสงออกจากโมดล Edit Metadata สำหรบชดขอมลเรยนร จากโหนดสวนตอประสาน
ขอมลออก เปนขอมลนำเขาท 1 ของโมดล Execute R Script (ARIMA model for low prices)
29. นำขอมลสงออกจากโมดล Edit Metadata สำหรบชดขอมลทดสอบ จากโหนดสวนตอประสานขอมลออก เปนขอมลนำเขาท 2 ของโมดล Execute R Script (ARIMA model for low prices)
30. คลกทกลองโมดล Execute R Script ทหนาตางยอย Properties ในชอง R Script ใหพมพชดคำสงดงน
ชดคำสง คำอธบาย library(forecast) library(ggplot2) dataset1 <- maml.mapInputPort(1) dataset2 <- maml.mapInputPort(2) seasonality<-1 labels <- as.numeric(dataset1$data) timeseries <- ts(labels,frequency=seasonality) model <- auto.arima(timeseries) numPeriodsToForecast <- dim(dataset2)[1] fc <- forecast(model, h=numPeriodsToForecast) forecastedData <- as.numeric(fc$mean) summary(model) autoplot(fc) output <- data.frame(time=dataset2$date, data=dataset2$data,forecast=forecastedData) data.set <- output attr(data.set$forecast, "feature.channel") <- "Regression Scores" attr(data.set$forecast, "score.type") <- "Assigned Labels" maml.mapOutputPort("data.set");
- นำเขาไลบลาร forecast และ ggplot2 - นำขอมลจากโหนดสวนตอประสานขอมลเขาท 1 และ 2 เ ก บ ไ ว ใ นต ว แปร dataset1 และ dataset2 ตามลำดบ - สรางตวแปร timeseries เพอเกบขอมลจากคอลมน data ใหอยในรปแบบอนกรมเวลา - สร างโมเดล ARIMA สำหรบการวเคราะหขอมลอนกรมเวลา timeseries - หาจำนวนขอมลในชดขอมลทดสอบ เกบไวในตวแปร numPeriodsToForecast - ทำการทำนายคาจำนวน numPeriodsToForecast โดยใชโมเดล ARIMA ทสรางขน - แสดงรายละเอยดของโมเดล ARIMA ทสรางขน และแสดงกราฟผลลพธของการทำนายคาในอนาคต ผลลพธจะแสดงทโหนดสวนตอประสานขอมลออกท 2 - นำผลลพธการทำนายคาและขอมลจรงในชดขอมลทดสอบสงออกไปยงสวนตอประสานขอมลออกท 1
60
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
31. คลก RUN เพอทำการประมวลผล 32. ดผลลพธจากขอมลออกท 1 ของโมดล Execute R Script (ARIMA model for low prices)
โดยคลกทโหนดสวนตอประสานขอมลออกท 1 แลวเลอก Visualize จะปรากฏผลลพธดงรป
33. ดผลลพธจากขอมลออกท 2 ของโมดล Execute R Script (ARIMA model for low prices) โดยคลกทโหนดสวนตอประสานขอมลออกท 2 แลวเลอก Visualize จะปรากฏผลลพธดงรป
คาทำนายราคาตำสดทไดจากการทำนายดวยโมเดล ARIMA
คา AIC AICc และ BIC สำหรบโมเดล ARIMA ทได
โมเดล ARIMA(p,d,q) ทไดจากการเรยนรของโปรแกรม
61
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
34. ทำการทดสอบประสทธภาพของโมเดล ARIMA โดยใชโมดล Evaluate Mode (ภายใต Machine Learning Evaluate) นำขอมลสงออกท 1 จากโมดล Execute R Script (ARIMA model for low prices) เปนขอมลนำเขา Scored dataset ของโมดล Evaluate Mode
35. คลก RUN เพอทำการประมวลผล แลวดผลลพธจากขอมลออกของโมดล Evaluate Mode โดยคลกทโหนดสวนตอประสานขอมลออก แลวเลอก Visualize จะปรากฏผลลพธดงรป
กราฟแสดงขอมลการทำนายของโมเดล ARIMA พรอมชวง
ความเชอมนท 80% และ 95%
62
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. แบบฝกปฏบตการ ใหนกศกษาทำแบบฝกปฏบตการ ตามลำดบขนตอนตอไปน
1. กำหนดใหนกศกษาทำแบบฝกปฏบตการน ตอจากการทดลองสาธต โดยใหนกศกษาใชชดขอมล VIX Prices สรางโมเดล ARIMA พรอมทงคำนวณและแสดงคา ACF และ PACF สำหรบการวเคราะหอนกรมเวลา บนตวแปร ราคาสงสดของ vix (vix_high) เพอทำนายคาราคาสงสดของ VIX ตงแตวนท 3 มกราคม ค.ศ.2005 ถง วนท 15 มกราคม ค.ศ. 2019
2. สงเกตผลลพธจากการคา ACF และ PACF และบนทกจำนวนคายอนหลงทสงผลตอคาราคาสงสดของ VIX อยางมนยสำคญ
3. สงเกตผลลพธจากการสรางโมเดล ARIMA บนทกคา hyperparameter ของโมเดล (p,d,q) ท
ไดจากโปรแกรม บนทกสมการโมเดล ARIMA ทได พรอมคา AIC AICc และ BIC ARIMA( , , ) =
AIC =
AICc =
BIC =
4. ทำการทดสอบประสทธภาพของโมเดล ARIMA (ใชโมดล Evaluate Mode) และบนทกคาวด
ประสทธภาพ Mean Absolute Error =
Root Mean Squared Error =
5. ศกษาและอธปรายผลการทดสอบประสทธภาพของโมเดลสำหรบการจำแนกขอมล
สงทตองสงเปนการบาน ภาพหนาจอ Workspace ของนกศกษาทใชทำแบบฝกปฏบตการ โดยใหเหนกลองโมดลทงหมดและชอ Workspace ซงเปนชอของนกศกษา ตงชอไฟลในรปแบบ Lab_08_id.jpg โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
ปฏบตการท 9 การนำโมเดลการวเคราะหขอมลไปใชงานผานบรการผานเวบ
วตถประสงค 1. เพอใหสามารถนำโมเดลการวเคราะหขอมลไปใชงานจรงได 2. เพอใหสามารถสรางและใชงานโปรแกรมเสรมของโปรแกรม Microsoft Office Excel
สำหรบใชงานโมเดลการวเคราะหขอมลได
1. ชดขอมลปฏบตการ − ชดขอมล Iris (สำหรบการสาธต) − ชดขอมล Mushroom (สำหรบการฝกปฏบตการ)
2. ขนตอนปฏบตการ จากปฏบตการท 6 เราไดสรางโมเดลสำหรบการทำนายชนด (species) ของดอก iris โดยใช
ขอมลความยาวของกลบเลยง (sepal_length) ความกวางของกลบเลยง (sepal_width) ความยาวของกลบดอก (petal_length) และ ความกวางของกลบดอก (petal_width) ในปฏบตการนจะทำการสรางบรการผานเวบ (Web Service) และโปรแกรมเสรมของโปรแกรม Microsoft Office Excel สำหรบนำโมเดลการจำแนกขอมลทสรางขนมาใชงานจรง
ขนตอนปฏบตการ มดงน
1. เปดการทดลอง Practice 6 (จากการทำปฏบตการท 6) ดงรป
64
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
2. ทำการบนทกเปนการทดลองใหม โดยคลกคำสง SAVE AS กำหนดชอการทดลองเปน “Practice 9” หมายเหต ในทน โมดล Score Model เปนโมดลทนำโมเดลการวเคราะหขอมลมาใชในการทำนายชนดของดอก iris จากขอมลใหม
3. คลกคำสง RUN เพอทำการประมวลผล 4. คลกคำสง SET UP WEB SERVICE แลวเลอก Predictive Web Service จะปรากฏโมดล Web
service input และ Web service output และมการเปลยนแปลงอนๆ ใน workspace (ดงรปดานลาง) โมดล Web service input เปนโมดลสวนตอประสานสำหรบรบขอมลเขาจากบรการผานเวบ และโมดล Web service output เปนโมดลสวนตอประสานสำหรบสงออกขอมลทเปนผลลพธของการประมวลผลไปยงบรการผานเวบ
5. คลก RUN เพอทำการประมวลผล อกครง 6. ตอมาคลก Deploy Web Service โปรแกรมจะทำการปรบใชการทดลองทสรางขนใหอยใน
รปแบบบรการผานเวบ และนำไปสหนาตาง DASHBOARD ดงรป
7. จากหนา DASHBOARD สามารถกลบไปยงหนาการทดลองโดยคลกท View snapshot หรอ View latest
65
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
8. เราสามารถกำหนดคาใหกบบรการผานเวบทสรางขนไดโดยคลกทแทบ CONFIGURATION จะปรากฏหนาตางดงรป
9. จากหนาตางน เราสามารถกำหนดชอและคำอธบายบรการ พรอมทงสามารถเลอกแสดงตวอยางขอมลทใชในการเรยนรของโมเดล (โดยเลอก YES ท ENABLE SAMPLE DATA?) และยงกำหนดคำอธบายขอมลเขา (Input) และขอมลออก (Output) ได
10. ในทนกำหนดการตงคา ดงน
Setting Value Display Name Practice 9 Service for Iris Classification Description This is a service for categorizing Iris data into
three species (setosa, versicolor and virginica) based on sepal and petal characteristics.
ENABLE SAMPLE DATA? YES 11. เมอกำหนดการตงแตเรยบรอยแลว คลก SAVE 12. ตอมาทำการทดสอบบรการเวบแอปพลเคชน โดยกลบไปยงแทบ DASHBOARD
คลก Test preview ในสวน Default Endpoint จะปรากฏหนาตางดงรป
66
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
13. กรอกคา sepal_length sepal_width petal_length และ petal_width จากนนคลก Text request-Response เพอทดสอบการทำงาน เมอประมวลผลเสรจแลวและไมเกดขอผดพลาด ผลลพธจะปรากฏในสวน Output1 ดงรป
14. ตอมาทำการกลบไปยงหนาตาง DASHBOARD ในสวน Default Endpoint จะสงเกตเหน API 2 ประเภท คอ
• REQUEST/RESPONSE เปนบรการสำหรบการประมวลผลขอมลโดยสงขอมลนำเขาทละขอมล
• BATCH EXECUTION เปนบรการสำหรบการประมวลผลขอมลโดยสงขอมลนำเขาแบบกลมขอมล
ซงสามารถเลอกให API ไดตามความเหมาะสม บรการผานเวบนนกพฒนาโปรแกรมสามารถเรยนใชงานไดผาน API ซงสามารถศกษารายละเอยดไดท https://docs.microsoft.com/en-us/azure/machine-learning/studio/consume-web-services
15. ในทนจะใชงาน API แบบ REQUEST/RESPONSE ผาน โปรแกรมเสรมของโปรแกรม Microsoft Office Excel โดยดานหลง REQUEST/RESPONSE จะสงเกตเหนวาสามารถดาวนโหลดแฟมขอมลสำหรบโปรแกรม Microsoft Office Excel ได ใหนกศกษาเลอกดาวนโหลดไฟลใหเหมาะสมกบโปรแกรม Microsoft Office Excel ของนกศกษา
16. เมอดาวนโหลดไฟล Excel เรยบรอยแลว จากนนทำการเปดไฟลทดาวนโหลดมา จะปรากฏหนาตาง ดงรป
67
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
17. จะสงเกตเหนหนาตางยอย Azure Machine Learning ทางดานขวา คลกท Practice 9 Service for Iris Classification หนาตางยอยจะแสดงผลดงรป
18. หนาตางยอย Azure Machine Learning จะถกแบงเปน 3 สวน คอ • VIEW SCHEMA เปนสวนแสดงคำอธบายขอมลนำเขา (Input) และขอมลทไดจากการ
ประมวลผล (Output) • PREDICT เปนสวนสำหรบเลอกขอมลนำเขาและสวนสำหรบแสดงขอมลผลลพธ • ERRORS เปนสวนแสดงขอผดพลาดจากการประมวลผล
19. คลก Use sample data ในสวน PREDICT จะปรากฏตวอยางขอมลในตาราง Excel นกศกษาสามารถใชตวอยางขอมลนในการสรางชดขอมล iris ชดใหม สำหรบวเคราะหการจำแนกขอมล
20. ใหนกศกษาใชขอมลจากแฟมขอมล iris_new.csv โดยคดลอกขอมลจากแฟมขอมลไปวางทบยงตวอยางขอมล พรองทงลบขอมล species แสดงตวอยาง ดงรป
68
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
21. หนาตางยอย Azure Machine Learning ในกลองขอความ Input: input 1 ใหเลอกชวงของขอมลนำเขา นนคอ Sheet1!A1:E46 (สามารถใชเครองมอ ในการเลอกชวงขอมลได)
22. หากชวงขอมลทเลอกครอบคลมชอคอลมนของตาราง ใหทำเครองหมาย ในชอง My data has headers
23. ตอมาทำการเลอกบรเวณสำหรบการแสดงผลลพธ โดยในกลองขอความ Output: output1 เลอกเซลลเรมตนสำหรบการแสดงผล ในทนเลอกเซลล G1 และทำเครองหมาย ในชอง Include headers
24. จากนนคลกปม Predict โปรแกรมจะทำการประมวลและแสดงผลลพธ ดงรป
หมายเหต ยงมเทคนคอกมากในการสรางบรการจากเวบสำหรบการนำโมเดลการวเคราะหขอมลไปใชงานจรง ซ งสามารถศกษาเพ มเตมไดท https://docs.microsoft.com/en-us/azure/machine-learning/studio/deploy-a-machine-learning-web-service
สวนแสดงผลลพธ
69
204123 - วทยาการขอมลเบองตน (Introduction to Data Science)
3. แบบฝกปฏบตการ 1. ใหนกศกษานำฝกปฏบตการท 6 ซงเปนการจำแนกชนดของเหด (กนได และ มพษ) บนชด
ขอมล Mushrooms บนทกเปน (Save As) การทดลองใหม กำหนดชอ Lab 9 2. ใหสรางบรการผานเวบ (Web Service) ของการทดลองน โดยกำหนดใหชอบรการเปน Lab 9
Service for Mushrooms Classification และอธบายบรการตามความเหมาะสม (กำหนดในสวน Configuration)
3. เมอสรางบรการผานเวบพรอมทงทดสอบการทำการเรยบรอยแลว ใหนกศกษาใชงานบรการดงกลาวผาน API แบบ REQUEST/RESPONSE จากโปรแกรมเสรมของโปรแกรม Microsoft Office Excel โดยดาวนโหลดแฟมขอมลสำหรบโปรแกรม Microsoft Office Excel และทำการวเคราะหขอมลทใหในแฟมขอมล mushrooms_new.csv
สงทตองสงเปนการบาน แฟมขอมล Excel ทบนทกผลลพธหลงจากการวเคราะหขอมลดวย บรการผานเวบสำหรบจำแนกจำแนกชนดของเหดแลว โดยตงชอไฟลในรปแบบ Lab_09_id.xlsx โดยแทน id ดวยรหสนกศกษา สงผานเวบไซต http://hw.cs.science.cmu.ac.th
Recommended