36
รายงานผลการวิจัย เรื่อง การสกัดและเก็บรวบรวมความสัมพันธ์ ส่วนของพืชสมุนไพร-สรรพคุณทางยาจากเอกสารบนเว็บ Extraction and Collection of ‚HerbPlantPart-MedicinalProperty Relation‛ from Web-Documents โดย รองศาสตราจารย์ ดร. ฉวีวรรณ เพ็ชรศิริ สาราญ ไผ่นวล รายงานการวิจัยนี้ได้รับทุนอุดหนุนจากมหาวิทยาลัยธุรกิจบัณฑิตย์ พ.ศ. 2560

รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

รายงานผลการวจย

เรอง

การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’

จากเอกสารบนเวบ

Extraction and Collection of ‚HerbPlantPart-MedicinalProperty Relation‛

from Web-Documents

โดย

รองศาสตราจารย ดร. ฉววรรณ เพชรศร

ส าราญ ไผนวล

รายงานการวจยนไดรบทนอดหนนจากมหาวทยาลยธรกจบณฑตย

พ.ศ. 2560

Page 2: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

ชอเรอง: การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ

ผวจย: รศ.ดร. ฉววรรณ เพชรศร สถาบน: มหาวทยาลยธรกจบณฑตย ปทพมพ: 2560 สถานทพมพ : มหาวทยาลยธรกจบณฑตย แหลงทเกบรายงานวจยฉบบสมบรณ: มหาวทยาลยธรกจบณฑตย จ านวนหนางานวจย: 27 หนา

บทคดยอ

จดประสงคของงานวจยนคอการสกดและเกบรวบรวมการสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบสมนไพรของหนวยงานหรอองคกรทเกยวของกบดแลรกษาพนธพชสมนไพรรวมทงการพฒนาผลตภณฑ ผลของงานวจยนคอองคความรคณสมบตหรอสรรพคณทางยาของพชสมนไพรบนพนฐานประโยคความเดยวหรออดย (EDU, Elementary Discourse Unit) จ านวนหลายๆประโยค ซงเปนเปนประโยชนตอชาวบานหรอบคคลทวไปในการใชรกษาสขภาพผานระบบถามตอบอตโนมต อยางไรกตามงานวจยนมสปญหาหลก: ปญหาแรกคอ ซงมกจะมลกษณะปญหาเปน Zero Anaphora (การละค าสรรพนามทใชอางองเอนทต เชน พชสมนไพร) และ Textual Ellipsis (การละค านาม เชน เอนทตพชสมนไพร) ปญหาทสองคอ การระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพรและปญหาทสามคอ การหาขอบเขตของ ทมแนวความคดสรรพคณทางยาสมนไพร ปญหาทส คอ การจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ทสกดไดอยางไรเพอท าใหสามารถเขาถงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ไดอยางไมซบซอน ดงนนส าหรบปญหาทหนงงานวจยนไดใชกฏทางฮวรสตค คอใชค านามทเปน Agent ของ EDU กอนหนา มาเปน Agent ของ EDU ทปรากฏ Zero Anaphora และการใช Topic name ส าหรบปญหาTextual Ellipsis สวนปญหาทสองงานวจยนเสนอการใช N-Word-Co ทสกดไดจากกรยาวลของ EDU ตางๆทมแนวความคดสรรพคณทางยา ของพชสมนไพร และเกบรวบรวมไวมาท าการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร นอกจากนงานวจยนใช N-Word-Co ทเกบรวบรวมนน กบ Similarity Score แกไขปญหาทสาม และงานวจยนไดใชเมตรกซทประกอบดวย ระหสพชสมนไพร , ชอพชสมนไพร, ชอสวนของพชสมนไพร, แนวความคดสรรพคณทางยา, และระหสความสมพนธ มาท าการเกบรวบรวมขอมลเปนตารางเพอแสดงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน CODASYL โดยการเรยงล าดบตาม ชอพชสมนไพรและ ชอสวนของพชสมนไพร ฉะนนผลลพธจากงานวจยทไดเสนอน สามารถสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยไดคาความแมนย า และคาระลก 90% และ77.5% ตามล าดบ

Page 3: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

Research Topic: Extraction and Collection of ‚HerbPlantPart-MedicinalProperty Relation‛ from Web-Documents

Researcher: Assoc. Prof. Chaveevan Pechsiri Institution: Dhurakij Pundit University Year of Publication: 2017 Place of Publication: Dhurakij Pundit University Place of Collection: Dhurakij Pundit University Number of Pages: 27

Abstract

This research aims to collect extracted Herb-MedicinalProperty relations from downloaded herbal-plant documents from several Thai herabal medicinal product associations for creating the herbal-medicinal-property-network based representation. An Herb-MedicinalProperty relation is a semantic relation between one herbal-plant-component concept and several herbal-medicinal-property-concept expressions on texts and vice versa. An herbal-plant-component occurrence is a noun-phrase expression and each herbal-medicinal-property concept occurrence is an event expression by a verb-phrase of an EDU (where ‘EDU’ is an elementary discourse unit which is a simple sentence or a clause). The extracted Herb-MedicinalProperty relations as the property knowledge represented by a diagram of an herbal-medicinal-property network are the essential information for the social health-care problems. In particularly, the herbal-medicinal-property network based representation benefits a recommendation system of solving health-problems on web-boards. The research has four problems: 1) the problems of the zero anaphora and the textual ellipsis for the herbal named-entity expression 2)how to identify an EDU with the herbal medicinal property concept 3)how to determine the boundary of several EDUs with the herbal medicinal property concepts 4)how to collect the extracted Herb-MedicinalProperty relations for facilely accessing through the relations for the herbal-medicinal-property-network representation. Therefore, we apply the heuristic rules for solving the first problem; using the previous noun as an agent to be the agent of the EDU containing the zero-anaphora agent and using the topic name to solve the textual ellipsis. We propose applying a co-occurrence of N-Words (or N-Word-Co) including N-Word-Co size learning on the verb phrase to identify EDU with the herbal medicinal property concept from the documents. We also apply the similarity-score determination for solving the boundary of several EDUs with the herbal medicinal property concepts. We then apply the matrix consisting 5 features of Herb ID, HerbName, HerbPlantPart Concept, Herbal-Medicinal-Property Concept, and Relation ID to create the network representation of the herbal-medicinal-property network liked CODASYL. The research results provide the 90% precision with 77.5% recall of the Herb-MedicinalProperty relation extraction from the documents.

Page 4: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

กตตกรรมประกาศ

ขอขอบพระคณ ผอ านวยการศนยบรการวจย มหาวทยาลยธรกจบณฑตยทใหโอกาสขาพเจาและอาจารย ส าราญ ไผนวล ท าการศกษาคนควาวจยเรอง ‚การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ‛ จนส าเรจ ขอขอบพระคณ คณบดวทยาลยนวตกรรมดานเทคโนโลยและวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย ทสนบสนนในเรองของเวลาทใชไปส าหรบงานวจยน ขอขอบพระคณ มหาวทยาลยธรกจบณฑตย ทใหเงนทนส าหรบสนบสนนโครงงานวจยน ทายทสด ขอขอบพระคณครอบครว ญาตพนองและเพอนๆ ทใหก าลงใจในการท าโครงงานวจยทมคาน

(รองศาสตราจารย ดร. ฉววรรณ เพชรศร) หวหนาโครงการ

18 ตลาคม 2560

Page 5: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

i

สารบญ

หนา

สารบญ i

สารบญตาราง iv

สารบญรป v

บทน า 1

1. ความเปนมาของปญหา 1

2. วตถประสงค 6

3. นยามค าศพท 6

4. ขอบเขตงานวจย 7

งานวจยทเกยวของ 8

ความรพนฐาน 8

1. Maximun Entropy 8

2. Similarity_Score 8

งานวจยกอนหนา 9

1. แนวทางแพตเทรนหรอกฎ (Pattern/Rule Based Approach) 9

2. แนวทางสถตรวมถงการเรยนรของเครอง (Statistical Based Approach

Including Machine Learning) 10

Page 6: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

ii

สารบญ (ตอ)

หนา

ปญหาการสกดความสมพนธ “สวนของพชสมนไพร-สรรพคณทางยา” จาก

เอกสารบนเวบ 12

ปญหาการสกดความสมพนธ 12

1. ปญหาการระบเอนทตพชสมนไพร (Herb-Plant Entity) และสวนของพช

สมนไพร (Herb-Plant Part) 12

2. ปญหาการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร 12

3. ปญหาการหาขอบเขตของ EDUs (EDU Boundary) ทมแนวความคด

สรรพคณทางยาสมนไพร 13

ปญหาการจดเกบความสมพนธ 14

กรรมวธด าเนนงาน 15

1. การเตรยมคลงขอมล (Corpus Preparation) 15

2. การเรยนรขอบเขต N-Word-Co (N-Word-Co Boundary Learning) 16

3. การสกด N- Word-Co (N-Word-Co Extraction) 17

4. การสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทาง

ยา’(HerbPlantPart-MedicinalProperty Relation Extraction) 20

Page 7: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

iii

สารบญ (ตอ)

5. การรวบรวมเกบสะสมและแทนความรเชงความสมพนธ ‘สวนของพช

สมนไพร-สรรพคณทางยา’ (Collection and Representation of

HerbPlantPart-MedicinalProperty Relation) 22

ผลการทดลองและการประเมนผล 24

1. การสกด N-Word-Co ทมแนวความคดสรรพคณทางยา 24

2. การสกด ความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จาก

คลงขอมล 24

สรป 26

เอกสารอางอง 27

Page 8: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

iv

สารบญตาราง

ตาราง หนา

1 ตวอยาง ลสต N-Word-Co 19

2 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’

ทเรยงโดย HerbName and HerbPlantPart Concept 22

3 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’

ทเรยงโดย Herbal-Medical-Property 23

Page 9: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

v

สารบญรป

รป หนา

1 แสดงความสมพนธเชงเนตเวรค ระหวางสวนของพชสมนไพร กบรายการ

สรรพคณทางยา 2

2 กรอบงานวจย 15

3 การก ากบค าของ N-Word-Co ทมแนวความคดสรรพคณทางยาสมนไพร

และNP1 ทมแนวความคดสวนของพชสมนไพร 16

4 อลกอรทมหาขอบเขต N-Word-Co 18

5 อลกอรทมหาขอบเขต การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยา

สมนไพร 21

Page 10: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

1

การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ

บทนา

1. ความเปนมาของปญหา สมนไพร ตามพจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2525 หมายถง พชทใช ทาเปนเครองยา

สมนไพรกาเนดมาจากธรรมชาตและมความหมายตอชวตมนษยโดยเฉพาะ ในทางสขภาพ อนหมายถงทงการสงเสรมสขภาพและการรกษาโรค สาหรบสมนไพรไทย โดยเฉพาะทเปนพชมมากกวา 1500 ชนด ซงมคณสมบตและสรรพคณแตกตางกนไปและถกบรรยายอยบนเวบไซดมากมาย ทาใหเสยเวลาไปกบการคนหาพชสมนไพรตางๆและสวนของพชสมนไพร (เชนราก ลาตน ใบ ดอก เมลด เปนตน) มความสมพนธหรอเกยวของกบสรรพคณตางๆทางยาอยางไรบาง หรอคนหาสรรพคณทางยาทตองการมอยในสวนไหนของพชสมนไพร ตวอยางสรรพคณทางยา เชน ลดไข บรรเทาอาการปวด แกปวดทอง เปนตน ดงนนงานวจยนจงมจดประสงคในการสกดและเกบรวบรวม ความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ (Herb-MedicinalProperty Relation) จากเอกสารบนเวบ เชน เวบไซดของโครงการอนรกษพนธกรรมพชอนเนองมาจากพระราชดารฯ (http://www.rspg.or.th/

plants_data/herbs/herbs_200.htm)และสารานกรมไทย(http://kanchanapisek.or.th/kp6/sub/

book/book.php?book=14&chap=10&page=chap10.htm) ฉะนนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดและเกบรวบรวมจากเวบไซดสศนยใหบรการความร (Knowledge

Service-Center Portal) โดยความสมพนธทสกดไดสามารถแทนดวยเครอขายสรรพคณทางยาของพชสมนไพร (Herbal-Medicinal-Property Network) ซงแสดงใหเหนความสมพนธเชงเนตเวรค (Network) หรอ CODASYL (Rayward and Bowden, 2004) ระหวางสวนของพชสมนไพรกบสรรพคณทางยา ดงแสดงในรปท 1 โดยมการปรากฏของเซต (Set Occurrence) แตละวงในเนตเวรค ประกอบดวย เจาของ (Owner) เซตทเปนวงบนเนตเวรค (เชน H1 เปนเจาของการปรากฏวงเนตเวรค H1-HC1k (H1-HC1k set occurrence)) และสมาชก(Member) ของเซตบนวงเนตเวรค (เชน HC11

HC12 HC13 เปนสมาชกของเซตบนวงเนตเวรค H1-HC1k)

Page 11: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

2

ดงนนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทแสดงดวยเครอขายสรรพคณทางยาของพชสมนไพรบนเวบไซดสศนยใหบรการความรทประชาชนทวไปสามารถเขาถงและสามารถสอบถามความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ ทสนใจเพอนาไปใชแกไขปญหาสขภาพ นอกจากนทเวบไซดสศนยใหบรการความรควรทจะเปนแหลงใหบรการความรดานอนๆอก เชน ความรเรองการเตรยมยาสมนไพรและความรวธการใชยาสมนไพร เปนตน อยางไรกตามความรเรองสรรพคณของสมนไพรปรากฏในเอกสารพชสมนไพรไทยในรปแบบของหลายๆ EDU (Elementary Discourse

Unit, คอประโยคงายๆ ธรรมดาไมซบซอน, Carlson and et. al, 2003) ดงตวอยางตอไปน EDU1: “กระเทยมเปนยาขบลมในลาไส ” EDU2: “[กระเทยม]แกไอ” EDU3: “[กระเทยม]ขบเสมหะ” EDU4: “[กระเทยม] ชวยยอยอาหาร ” EDU5: “[กระเทยม] รกษากลาก เกลอน” หมายเหต: สญลกษณ ‘[..]’ หมายถงการละคา

ดงนนจากตวอยางเอกสารพชสมนไพรไทยตอไปน

H1-HC1k set occurrence

MP2-HCjk set occurrence

MP1-HCjk set occurrence

H2-HC2k set occurrence

HC13

H1 (owner)

MP2 (owner)

HC11

HC12

MP1 (owner)

HC23

HC22

HC21 H2 (owner)

รปท1. แสดงความสมพนธเชงเนตเวรค ระหวางสวนของพชสมนไพร กบรายการสรรพคณทางยา(whereH1= ‘มะนาว/Lemon’, H2=‘สะเดา/Neem’, HC11=‘เมลดมะนาว/Lemon.seed’, HC12 = ‘รากมะนาว/Lemon.root’, HC13=‘ผลมะนาว/Lemon.fruit’, HC21= ‘เปลอกไมสะเดา/Neem.bark’,

HC22 = ‘รากสะเดา/Neem.root’, HC23=‘แกนไมสะเดา/Neem.heart-of-wood’, MP1=‘ละลายเสมหะ/clear-phlegm’, MP2=‘ลดไข/reduce-fever’)

Page 12: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

3

จากตวอยางเอกสารสมนไพรไทยขางตนพบวา การปรากฏของประโยคตางๆ (ทขดเสนใต)

แสดงสรรพคณหรอคณสมบตของพชสมนไพร ‘พรกไทย’ นนมลกษณะเปนกลมกระจายอยบนเอกสาร กลาวคอ จะทาอยางไรใหคอมพวเตอรสามารถระบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารดงกลาว ดงนนปญหาสาหรบงานวจยน (ดบทปญหาการสกด ‘ความสมพนธสวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ) ประกอบดวยสองปญหาหลกคอ ปญหาการสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารสมนไพร และปญหาการรวบรวมจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดเพอทาใหสามารถแสดงหรอแทนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขาย (รปท 1) ไดอยางมประสทธภาพ นอกจากนปญหาการสกด ‘ความสมพนธสวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารสมนไพร ประกอบดวยปญหายอย 3ปญหาคอ 1) ปญหาการระบเอนทตพชสมนไพร (Herb-

Plant Entity) และสวนของพชสมนไพร (Herb-Plant Part) ซงมกจะมลกษณะปญหาเปน Zero

Anaphora (การละคาสรรพนามทใชอางองเอนทตพชสมนไพร) และ Textual Ellipsis (การละคานามทเปนเอนทตพชสมนไพร) 2) ปญหาการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร 3)ปญหาการหาขอบเขตของ EDUs (EDU Boundary) ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร

งานวจยกอนหนาทเกยวกบการสกดความสมพนธเชงความหมาย (Sematic Relation) ทเกยวของกบการสกดคณสมบต/สรรพคณของเอนทตมดงตอไปน Weeber M. and Vos. R., 1998;

Fang et al.,2008; และ Paşca M., 2008 ; Haruechaiyasak et al., 2011;Riaz M. and Girju R.,

2014;Recupero, D.R et al., 2015 (ดในบทงานวจยทเกยวของ) โดยวธดงกลาวไมเหมาะสาหรบงานวจยนทมงสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ซงอยบนพนฐานการสกดความรเกยวกบสรรพคณทางยาของเอนทตพชสมนไพรไทยจากเอกสารภาษาไทย ซงบรรยายสรรพคณ

พรกไทย (Piper nigrum Linn.)

สรรพคณ เปลอกของพรกไทยมนายอยสาหรบยอยไขมน ดวยเหตนตาราโบราณจงเชอกนวา

พรกไทยสามารถลดความอวนได, พรกไทยชวยกระตนปมรบรสทลน เพอใหกระเพาะอาหาร

หลงนายอยไดมากขน, พรกไทยดามรสเผดอน เมอรบประทานเขาไปจะรสกอนวาบททอง ชวย

ขบลม ขบเหงอ ขบปสสาวะ แกทองอดทองเฟอ แกไขมาลาเรย แกอหวาตกโรค, ใชกานพรกไทย

10 กาน บดใหละเอยดแลวตมกบนา 8 แกว ใชเปนยาลางแผลทอณฑะ, สารพเพอรนในพรกไทย

สามารถใชเปนยาฆาแมลง ซงไมเปนอนตรายตอมนษยโดยนาผลพรกไทยมาทบใหแตกแลวใช

Page 13: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

4

เหลานในรปของกรยาวล ทมหลายๆกรยาวลอยตอเนองกนภายใตหวขอสมนไพรหนงชนด (คอหนงเอนทตสมนไพร) และการบรรยายสรรพคณทางยาของสมนไพรสวนใหญจะกลาวถงสวนของสมนไพรซงจะอยในรปของนามวลทสวนใหญมกจะละ (Zero Anaphora) เชน “เปลอกของพรกไทย…….[เปลอกของพรกไทย]ชวยขบลม [เปลอกของพรกไทย]ขบเหงอ [เปลอกของพรกไทย]ขบปสสาวะ [เปลอกของพรกไทย]แกทองอดทองเฟอ ….” ([..] หมายถงละคาทอยในวงเลบกามป)

ดงนนจากงานวจยกอนหนาและปญหางานวจยนทไดกลาวขางตน กรณปญหาการสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารสมนไพร ซงประกอบดวย 3 ปญหายอย โดยมปญหายอยแรกคอ ปญหา Zero Anaphora และ Textual Ellipsis ของการระบเอนทตพชสมนไพรและสวนของพชสมนไพร ปญหานสามารถแกไขโดยใชกฏทางฮวรสตค คอใชคานามทเปนเอเจน (Agent) ของ EDU กอนหนามาเปนเอเจนของ EDU ทปรากฏ Zero Anaphora สาหรบ Textual Ellipsis สามารถแกปญหาโดยใชคานามชอสมนไพรซงเปน Topic name สาหรบปญหายอยทสองคอปญหาการระบ EDU ทแสดงแนวความคดสรรพคณทางยาของพชสมนไพร โดย EDU

ดงกลาวมลกษณะรปแบบทางภาษาศาสตรดงน

EDU NP1 VP

VP Vprop VP| Vprop NP2 | Vprop NP2 VP| Vprop Adv| Vprop NP2 Adv

Vprop Vtreat | Vtreat Veffect | Vcause | Vcause Veffect | Vweak Winfo

NP1 Noun1 | Noun1 PlantName

NP2 Phrase | Phrase NP2

PhraseNoun2 | Noun3| Nounx | Adj |DiseaseName

Noun1{‘ราก/root’,‘ใบ/leaf’,‘ตน/plant’,‘ดอก/flower’,‘ผล/fruit’, ‘เมลด/seed’, …} Noun2{‘อาการ/symptom’,‘แผล/scar’,‘รอย/mark’,‘ไข/fever’,‘ผน/rash’,‘หนอง/pus’,‘อจจาระ/

stool’,‘เหงอ/sweat’,‘ลม/gas’, ‘กรด/acidity’,…}

Noun3{‘อวยวะ/organ’,‘บรเวณ/area’, ‘มนษย/human’,‘ศรษะ/head’, ‘หนาอก/chest’,

‘กระเพาะ/stomach’, …}

Nounx{‘xxx’}

(‘xxx’ is any noun words other than noun words of Noun1-Noun3)

PlantName{‘โหระพา/basil’, ‘ขง/ginger’, ‘ขมน/tumeric’, ...}

DiseaseName{‘โรคผวหนง/skin-disease’,‘โรคกระเพาะ/gastritis-disease’,…} Vtreat{‘บรรเทา/relieve’, ‘ขบ/release’, ‘ลด/reduce’, ‘แก/stop’, ‘แก/cure, treat’ ,

‘รกษา/cure,treat’, … }

Vcause {‘ทาให/cause’,‘ทาใหเกด/be caused by’ }

Page 14: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

5

Veffect{‘คลนไส/nauseate’,‘อาเจยน/vomit’,‘ปวด/pain’,‘เจบ/pain’, ‘แนน/constrict’,

‘คน/itchy’, …}

Vweak { ‘เปน/be’ , ‘ม/have’, ‘ใชเปน/be’}

Winfo { ‘ยา/medicine’, ‘สรรพคณ/property’ }

Adv{‘ยาก/difficultly’}; Adj{ ‘เหลว/watery’}

(เมอ NP1 และ NP2 คอนามวล; VP คอกรยาวล; Vprop คอกรยาทมแนวความคดคณสมบต; Vtreat คอเซตกรยาทมแนวความคดรกษา; Vcause คอเซตกรยาทมแนวความคดเหต; Veffect คอเซตกรยาทมแนวความคดผลหรออาการ; Vweak คอเซตกรยาออนซงตองตามดวยคาตางๆทใหสารสนเทศ (Winfo )

รวมกบกรยานเปนแนวความคดสรรพคณทางยา)

เนองจากภาษาไทยมจานวนคาศพทไมมากเทากบภาษาองกฤษ ฉะนนความหมายหรอแนวความคดเกยวกบเหตการณตางๆ ตวอยางเชน เหตการณเกยวกบสรรพคณทางยา สวนใหญเกดจากคาหลายคารวมกนใหความหมายของเหตการณนน เชน ‘ขบ+เหงอ’ ‘คลาย+กลามเนอ’ ‘ระงบ+อาการ+ปวด’ ‘รกษา+อาการ+คอ+อกเสบ’ ‘บรรเทา+อาการ+แผล+พพอง+อกเสบ’ เปนตน ฉะนนงานวจยนจงขอเสนอการสกด N-Word-Co (คอกกลมคาทเกดรวมกนมจานวน N คา) ทมแนวความคดสรรพคณทางยา (a medicinal-property concept) จากกรยาวลในเอกสารพชสมนไพรตางๆ โดย N-Word-Co แสดงหรอปรากฏเปนกลมคา wmpi ; i=1,2,..,N; ทอยตอเนองในเอกสารดงน.

N-Word-Co expression = wmp1 + wmp2 + wmp3+.. + wmpN

และมการใชกฎ N-Word-Co rule ตอไปนเพอกอใหเกด N-Word-Co

“If wmp1Vmp then wmp2,wmp3,..,wmpN Wmp

Else If wmp1Vweak wmp2Winfo then wmp3,..,wmpNWmp .”

(where Vmp = Vtreat Vcause; Vmp is the medicinal-property verb concept set;

Wmp=Noun2Noun3NounxPlantNameDiseaseNameVeffectAdj Adv;

Wmp is the medicinal-property word concept set)

ดงนน N-Word-Coทสกดได จะถกรวบรวมจดเกบเปนลสต (List) ของ N-Word-Co ทมแนวความคดสรรพคณทางยาสมนไพร ทงนเพอใชเปนแหลงคาศพทของกลมคาทเกดรวมกน และมแนวความคดสรรพคณทางยา ของพชสมนไพร

อยางไรกตาม การสกด N-Word-Co ทาใหเกดปญหาเพมขนอกสองปญหา คอ 1). ปญหาการระบกรยาวลทม N-Word-Co ปญหานสามารถแกไดโดยใช เซตของกรยาตอไปน Vcause , Veffect ,

Vweak , และ Winfo มาระบกรยาวลทม N-Word-Co และ 2). ปญหาการหาขอบเขตของ N-Word-

Page 15: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

6

Co หรอ ขนาด N-Word-Co (คอหาคาN) งานวจยนไดประยกตใช Maximum Entropy ซงเปนเทคนคการเรยนรของเครองมาเรยนรหาขนาด N-Word-Co ในกรยาวล

ดงนนลสตของ N-Word-Co จะถกนาไปใช ระบ EDU ทมแนวความคดสรรพคณทางยาของพชสมนไพร ดวยการหาคา Max-Similarity (candidat_N-Word-Co, List.N-Word-Co) 0.85 นอกจากนลสตของ N-Word-Co สามารถใชแกปญหายอยทสามคอปญหาการหาขอบเขตของ EDUs

ทมแนวความคดสรรพคณทางยาสมนไพร โดยการหาคา Max-Similarity (candidate_N-Word-Co,

List.N-Word-Co) หากมคา< 0.85 แสดงวาสนสดขอบเขต EDU ทมแนวความคดสรรพคณทางยา

และปญหาสดทาย คอ การรวบรวมจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดอยางไร เพอทาใหสามารถเขาถงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ไดอยางไมซบซอน เพอแสดงหรอแทนในรปแบบเครอขาย (รปท 1) ไดอยางมประสทธภาพ ดงนนงานวจยนใชเมตรกซทประกอบดวยฟเจอร (Feature) ตอไปน ชอพชสมนไพร ชอสวนของพชสมนไพร และสรรพคณทางยามาทาการเกบรวบรวมขอมลตามฟเจอร ทกาหนดเพอแสดงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน (Like Network Format)แบบ CODASYL

โดยการเรยงลาดบ (Sorting) ตามชอพชสมนไพรและ ชอสวนของพชสมนไพร (คอ Hi-HCik set

occurrence) ทาใหไดรายชอสรรพคณทางยาของแตละสวนของพชสมนไพร ในทางกลบกน ถาเรยงลาดบตามสรรพคณทางยา (คอ MPi-HCjk set occurrence) จะไดรายชอพชสมนไพรและ ชอสวนของพชสมนไพรของแตละสรรพคณทางยาสมนไพร 2. วตถประสงค

เพอสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทย

3. นยามคาศพท Medicinal Effect: ผลทางยาซงเปนคณสมบตของยา (Medicinal Property) หรอเรยกวาสรรพคณทางยา HerbPlantPart-MedicinalProperty Relation: ความสมพนธระหวางสรรพคณทางยากบสวนของพชสมนไพร N-Word-Co: การปรากฏรวมกน N คา ดวยแนวความคดสรรพคณทางยาสมนไพร

EDU: Elimentary Discourse Unit คอประโยคงายๆ ธรรมดาไมซบซอน NP: Noun Phrase Conceptคอความคดนามวล

VP: Verb Phrase Concept คอความคดกรยาวล

Corpus: คลงคา

Page 16: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

7

Concept: แนวความคด Machine Learning: การเรยนรของเครอง

4. ขอบเขตของการวจย

4.1. ขอมลทใชทาวจย คอ เอกสารภาษาไทยภายใตโดเมนพชสมนไพรไทยซงดาวนโหลดจากเวบ 4.2. เอกสารทใชมลกษณะเปนแบบกงโครงสราง

Page 17: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

8

งานวจยทเกยวของ

การวจยการสกดและเกบรวบรวมความสมพนธ “สวนของพชสมนไพร-สรรพคณทางยา” จากเอกสารบนเวบประกอบดวยความรพนฐาน และงานวจยกอนหนาดงน ความรพนฐาน

1) Maximum Entropy, ME

ตวแบบ ME ทาใหไดความรทวาตวแบบทดทสดคอ ตวแบบทสามารถสอดคลองกบเซทของขอบงคบ (Constrains) ทถกกาหนดโดยหลกฐานหรอสถานการณ มฉะนนตองเปนรปแบบเดยวกนเทาทจะเปนไปได (Csiszar 1996; Berger et al. 1996) Fleischman et al. (2003) ไดจาลองแบบดวยคาความนาจะเปนของบทบาทหนาททางความหมาย, r (semantic role, r), เมอบอกหรอใหคาเวคเตอร (Vector) ของ Feature x มาให ดงสมการ (3) ตอไปน

)],(exp[1)|(

0

xrfzxrp j

n

jj

x

เมอ Zx เปนคา Normalization Constant

fj(r,x) เปน Feature Function ทแมป (Map) แตละคา r และองคประกอบเวคเตอร (Vector Element) ใหกบคาทวภาค (Binary Value)

n เปนจานวน Feature Functions

j เปนคานาหนกของ Feature Functionsทกาหนดให

ดงนนการจดแบงประเภท/คลาส (class) ทไดสดทายคอ r (คลาสใช คลาสไมใช เปนตน) คานวนไดจาก ทมคาควานาจะเปนสงสดสาหรบเวคเตอรของฟเจอร x ใน(1) ทกาหนดใหนน กบคาความนาจะเปนสงสดเมอบอกคา Feature Vector ของ r มาให

2) Similarity_Score

การคานวนคาความเหมอน (Similarity_score) (Biggins et al., 2012) ในสมการ (2) ระหวางสองประโยค จากคาตางๆทอยในเซตของคาทเปนเนอความในประโยค (Content Word Set) ทงสองนน หลงจากการกาจดคาหยด (Stop Word) และ การหาแกนคา (Stemming Words)

(2) |2||1|

|21|_

SS

SSScoreSimilarity

(1)

Page 18: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

9

เมอ S1 คอประโยคทประกอบดวย แนวความคดของคาทอยในเซตของคาทเปนเนอความในประโยค S1 S2 คอประโยคทประกอบดวย แนวความคดของคาทอยในเซตของคาทเปนเนอความในประโยค S2 (โดย แนวความคดของคาสาหรบงานวจยนอยภายใต เวรดเนต (WordNet) และสารานกรมไทย หลงจากแปลภาษาไทยเปนภาษาองกฤษโดยใช Longdo.com )

งานวจยกอนหนา

ไดมงานวจยมากมายทไดเสนอเทคนคตางๆ สาหรบสกด “สวนของพชสมนไพร-สรรพคณทางยา” จากเอกสารบนเวบ เพอใชในการรกษาสขภาพ โดยแบงออกเปน 2 แนวทางคอ แนวทางแพทเทรนหรอกฎ (Pattern/Rule Based Approach) และแนวทางสถตรวมถงการเรยนรของเครอง (Statistical

Based Approach Including Machine Learning )

1. แนวทางแพทเทรนหรอกฎ (Pattern/Rule Based Approach)

Paşca M. (2008) ระบความรทเปนจรงเกยวกบคลาสวตถ (Object Class) ตางๆไดโดยการใช อสอะแพทเทรน (Is-A pattern) กบการสอบถามหรอควร (Query) ทมคยเวรด (Key Word) อยดวยทาการสกดตณสมบตตางๆทอยในรปนามวล จากเอกสารบนเวบและจากสวนบนทกควร (Query Log) ดวยคา precision 0.8 สาหรบ 100 คลาสทสามารถระบได จาก 5 คณสมบตหรอแอททรบวท (Attribute) ทสกดได

Haruechaiyasak et al., 2011 ไดประยกตใชเครองมอการทาเหมองขอความมาทาการสกดความสมพนธทเดน (Salient Relation) จากเอกสารพบเมด (PubMed Articles) ทสมพนธกบสมนไพรไทย โดยมการรจาความพนธบนพนฐานทางโครงสรางไวยกรณคอ “NP1 causal-verb NP2” เมอ NP1 คอ เนมเอนทต สมนไพร (Herb Name Entity) และ NP2 คอ เอนทตสรรพคณทางยา ความสมพนธทสกดไดแสดงออกมาในรปแบบเครอขายทมลกษณะเปนโครงสรางตนไมทแทนความสมพนธดานสรรพคณระหวางชอสมนไพร หรอ เนมเอนทต สมนไพร (NP1) ทเปนโหนดราก (Root Node) และเอนทตสรรพคณทางยาสมนไพร (NP2) เปนโหนดใบ (Leaf Node) รวมทงในทางกลบกนคอ NP1 เปนเอนทตสรรพคณทางยา NP2 เปนสมนไพร อยางไรกตาม เครองมอนไมสามารถประยกตใชกบงานวจยนซงสรรพคณทางยาสมนไพรมลกษณะเปนเหตการณทแสดงดวยกรยาวล

Page 19: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

10

2. แนวทางสถตรวมถงการเรยนรของเครอง (Statistical Based Approach Including Machine

Learning )

Weeber M. and Vos. R.(1998) ไดกลาวถงคณสมบตของฤทธยาจาเปนตองคานงถง 3 เรองหลกคอ ยา (A) ผลทแสดงออกทางกายภาพ (Physiological Effect)(B) และ โรค (C) และความสมพนธระหวาง 3 เรองดงกลาวเปน A -> B , B -> C, ทาใหได A -> C ดงนน Weeber M. and

Vos. R.(1998) เสนอการสกดความรทางการแพทยโดยการหาความสมพนธระหวางคา (ซงอยในรปของนามวล) A, B, และ C จากเอกสารทางการแพทยโดยใชแนวทางสถตดวยการแยกประเภทคากอนทจะทาการหาความสมพนธระหวางคา ซงไดคา precision =.08 recall =0.57

Fang et al.,(2008) ไดคนพบความสมพนธ (Association Discovery) ระหวางคานามตางๆทเปนชอยาสมนไพรจน โรค พนธกรรม ผลกระทบ (Side Effect) ของยาสมนไพรจน และสวนผสม โดยการวเคราะหการเกดรวมกน (Collocation Analysis) จากเอกสารทมการกากบ และมการนาเอา IE

(Information Extraction) และแบบจาลอง Swanson’s ABC (A -> Bและ B -> C ทาใหได ความสมพนธแบบการสงผาน (Transitive Association) คอ A -> C) มาประยกตใช โดยกาหนดให A คอพนธกรรม B คอ สวนผสมทสามารถควบคม A และ C คอ ยาสมนไพรจน เพอการบอกเปนนยของ A -> C เมอ A -> Bและ B -> C ปรากฏขนในเอกสารอยางมนยสาคญ ผลการวจยของ Fang et

al.,(2008) ได precision =0.91 อยางไรกตามวธของ Fang et al.,(2008)อยบนพนฐานของการใชแตเพยงนามวล

Riaz M. and Girju R.(2014) ไดใชโมเดลโปรแกรมเชงเสนแบบทคาตอบทดทสดเปนเลขจานวนเตม (ซงมลกษณะคลาย Naïve Bayes) มาทาการเรยนรความสมพนธเหตและผล (Causal

Relation)จากค กรยา-นามทไดกากบทงหมด (annotated verb-noun pairs) จากเฟรมเนต (FrameNet) และเวรดเนต(WordNet) รวมทงใชความรเกยวกบประเภทความหมาย (Semantic Class

knowledge) และทงปจจยตางๆทางภาษาศาสตร ตวอยางเชน “People died in hurricane” ม คานาม ‘hurricane’ และกรยา ‘die’ เปนความสมพนธเหตและผล อยางไรกตามความสมพนธเหตและผลของ Riaz M. and Girju R. มลกษณะเปนความสมพนธระหวางสองเหตการณโดยเหตการณหนงแสดงโดยคานาม และอกเหตการณหนงแสดงโดยคากรยา

Recupero, D.R et al.,(2015) ไดใช SHELDON ซงเปนเครองมอ NLP(Natural Language

Processing Tool) ทาการสกดความร โดยเฉพาะความรเกยวกบความสมพนธระหวางสองเอนทตทเปนคาศพทคานาม (two noun-term entities) นอกจากนมบางความสมพนธทตองคานงถงการใหคะแนนสาหรบเอนทตคาศพทคานามทมความคดเหนเชงลบเพอใชเปนทรกเกอ (Trigger) ตอบสนองตอความคดเหนเชงลบแลวทาใหเกดความสมพนธหรอความเชอมโยงกบคากรยา ‘Tell’ กบประโยคตวอยาง

อยางไรกตามจากงานวจยกอนหนาทงสองแนวทางนน (Weeber M. and Vos. R., 1998; Fang

et al.,2008; Paşca M., 2008ว Haruechaiyasak et al.,2011; Riaz M. and Girju R.2014;

Page 20: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

11

Recupero, D.R et al.,2015) ไมเหมาะสาหรบงานวจยนทมงสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ซงอยบนพนฐานการสกดความรเกยวกบสรรพคณทางยาของเอนทตพชสมนไพรไทยจากเอกสารภาษาไทยโดยมสรรพคณเหลานแสดงอยในรปของกรยาวล และหลายๆกรยาวลอยตอเนองกนและมความสมพนธกบหนงเอนทตสมนไพรหรอสวนของสมนไพรซงจะอยในรปของนามวลทสวนใหญมกจะละ

Page 21: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

12

ปญหาการสกดความสมพนธ “สวนของพชสมนไพร-สรรพคณทางยา” จากเอกสารบนเวบ

ปญหาการสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสาร ประกอบดวย 3 ปญหาหลกคอ

1) ปญหาการระบเอนทตพชสมนไพร (Herb-Plant Entity) และสวนของพชสมนไพร (Herb-Plant

Part) ซงมกจะมลกษณะปญหาเปน Zero Anaphora (การละคาสรรพนามทใชอางองเอนทตพชสมนไพร) และ Textual Ellipsis (การละคานามทเปนเอนทตพชสมนไพร)

ตวอยางท 1 ปญหา Zero Anaphora

กระเทยม EDU1: “(กลบกระเทยม)/NP1 ( ใชเปนยาขบลม)/VP”

EDU2 : “[(กลบกระเทยม)/NP1] (แกไอ)/VP”

คานามทอยภายในวงเลบกามป [..] คอ Zero Anaphora ซงปรากฎใน EDU2 ปญหานแกโดยอางองคานามทเปนประธานของ EDU กอนหนาซงกคอกระเทยม

ตวอยางท 2 ปญหา Textual Ellipsis

EDU3: “(ราก [กระเทยม])/NP1 (ใชเปนยาขบปสสาวะ)/VP”

คานามทอยภายในวงเลบกามป [..] คอ Textual Ellipsis ปญหานแกโดยอางองชอเรอง (Topic

name) ซงกคอกระเทยม

2) ปญหาการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร ตวอยางท 3 ตอไปน จะทราบไดอยางไรวา EDU ตางๆตอไปนม EDU อนไหนทมความคดสรรพคณทาง

ยาสมนไพร

Page 22: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

13

ตวอยางท 3 “พรกไทย (Piper nigrum Linn.)”

-สรรพคณ เปลอกของพรกไทยมนายอยสาหรบยอยไขมนEDU ดวยเหตนตาราโบราณจงเชอกนวาพรกไทยสามารถลดความ

อวนไดEDU พรกไทยชวยกระตนปมรบรสทลนEDU เพอใหกระเพาะอาหารหลงนายอยไดมากขน EDU พรกไทยดามรสเผด

อนEDU เมอรบประทานเขาไปEDU จะรสกอนวาบททองEDU ชวยขบลมEDU ขบเหงอ EDU ขบปสสาวะ EDU แกทองอด

ทองเฟอ EDU แกไขมาลาเรย EDU แกอหวาตกโรค EDU ใชกานพรกไทย 10 กานEDU บดใหละเอยด EDU แลวตมกบนา 8

แกว EDU ใชเปนยาลางแผลทอณฑะ EDU, สารพเพอรนในพรกไทยสามารถใชเปนยาฆาแมลง EDU ซงไมเปนอนตรายตอ

มนษย EDU โดยนาผลพรกไทยมาทบใหแตก EDU แลวใช EDU”

สรรพคณทางยาสมนไพรทปรากฏบนเอกสารสวนใหญแสดงออกมาในรปของเหตการณ (Event) ท

อธบายดวยกรยาวล ตวอยางเชน ‘ขบ+เหงอ’ ‘คลาย+กลามเนอ’ ‘ระงบ+อาการ+ปวด’ ‘รกษา+อาการ+คอ+อกเสบ’ ‘บรรเทา+อาการ+แผล+พพอง+อกเสบ’ เปนตน ฉะนนงานวจยนจงขอเสนอการสกด N-Word-Co (คอกกลมคาทเกดรวมกนมจานวน N คา มแนวความคดสรรพคณทางยา ) โดย N-

Word-Co ทสกดได จะถกรวบรวมจดเกบเปนลสต (List) ทงนเพอใชเปนแหลงคาศพทเกยวกบแนวความคดสรรพคณทางยาของพชสมนไพรในรปของ N-Word-Co อยางไรกตามการสกด N-

Word-Co ประกอบดวยสองปญหา คอ 1) ปญหาการระบกรยาวลทม N-Word-Co 2) ปญหาการหาขอบเขตของ N-Word-Co ฉะนนงานวจยนแกปญหาทงสองนโดยการใช เซตของกรยาตอไปน Vcause , Veffect , Vweak , และ Winfo มาระบกรยาวลทม N-Word-Co และไดประยกตใช Maximum

Entropy ซงเปนเทคนคการเรยนรของเครองมาเรยนรหาขนาด N-Word-Co ในกรยาวล ดงนนลสตของ N-Word-Co จะถกนาไปใช ระบ EDU ทมแนวความคดสรรพคณทางยาของพชสมนไพร ดวยการหาคา Max-Similarity (candidat_N-Word-Co, List.N-Word-Co) 0.85

3) ปญหาการหาขอบเขตของ EDUs (EDU Boundary) ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร

จากตวอยางท 3 จะทราบไดอยางไรวาสรรพคณทางยาสมนไพรตอไปน .........เมอรบประทานเขาไปEDU จะรสกอนวาบททองEDU ชวยขบลมEDU ขบเหงอ EDU ขบปสสาวะ EDU แกทองอด

ทองเฟอ EDU แกไขมาลาเรย EDU แกอหวาตกโรค EDU ใชกานพรกไทย 10 กานEDU ................... ม “แกอหวาตกโรค EDU” เปนขอบเขตของ EDUs ทมแนวความคดสรรพคณทางยาสมนไพร ปญหานแกไขโดยใช N-Word-Co List โดยการหาคา Max-Similarity (candidate_N-Word-Co,

List.N-Word-Co) หากมคา< 0.85 แสดงวาสนสดขอบเขต EDU ทมแนวความคดสรรพคณทางยา

Page 23: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

14

ปญหาการจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดอยางไร เพอทาใหสามารถเขาถงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ไดอยางไมซบซอน เพอแสดงหรอแทนในรปแบบเครอขาย (รปท 1) ไดอยางมประสทธภาพ ดงนนงานวจยนใชเมตรกซทประกอบดวยฟเจอร (Feature) ตอไปน Herb ID , HerbName (ชอพชสมนไพร), HerbPlantPartConcept (ชอสวนของพชสมนไพร), Herbal-Medicinal-Property Concept (ความคดสรรพคณทางยา) , และ Relation ID มาทาการเกบรวบรวมขอมลเปนตาราง เพอแสดงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน (Like Network Format)แบบ CODASYL โดยการเรยงลาดบ (Sorting) ตาม ชอพชสมนไพรและ ชอสวนของพชสมนไพร (คอ Hi-HCik set occurrence) ทาใหไดรายชอสรรพคณทางยาของแตละสวนของพชสมนไพร ในทางกลบกน ถาเรยงลาดบตามสรรพคณทางยา (คอ MPi-HCjk set occurrence) จะไดรายชอ พชสมนไพรและ ชอสวนของพชสมนไพรของแตละสรรพคณทางยาสมนไพร

Page 24: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

15

กรรมวธดาเนนงาน

ระบบงานโดยสรปสาหรบการการสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบประกอบดวยขนตอนตางๆดงตอไปน (ดงแสดงในรปท2) ขนตอนการเตรยมคลงขอมล (Corpus Preparation) ขนตอนการเรยนรขอบเขต N-Word-Co (N-Word-Co Boundary

Learning) ขนตอนการสกด N- Word-Co ขนตอน การสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ (HerbPlantPart-MedicinalProperty Relation Extraction) และขนตอนการรวบรวมเกบสะสมและแทนความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ (Collection and Representation of HerbPlantPart-MedicinalProperty Relation)

การทดลอง (ตามกรอบแนวคดการวจย) 1) การเตรยมคลงคา (Corpus Preparation)

ขอมลภาษาไทยทใชในการวจยนเปนขอมลทางดานพชสมนไพรไทย สามารถดาวโหลดไดจากเวบไซต เวบไซดของโครงการอนรกษพนธกรรมพชอนเนองมาจากพระราชดารฯ (http://www.rspg.or.th/plants_data/herbs/herbs_200.htm) และสารานกรมไทย (http://kancha

napisek.or.th/kp6/sub/book/book.php?book=14&chap=10&page=chap10.htm) แลวผานขนตอนการเตรยมคลงคา ทมการกากบ tag ตงแตระดบคาโดยใชโปรแกรมตดคาจาก Niast Lab (ของภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยเกษตรศาสตร) จนถงระดบประโยค จานวน 3,600 EDUs ซงแบงออกเปน 3 สวน คอ สวนท 1 จานวน 2000 EDUs สาหรบการเรยนรหาเซตกรยาสรรพคณทางยาสมนไพรซงประกอบดวย Vtreat และ Vcause และการเรยนรหาขนาด N-

Word-Co (ทมแนวความคดสรรพคณทางยาสมนไพร) เพอใชระบ EDU ทมแนวความคดสรรพคณ

Corpus preparation

Text Word net

N-Word-Co Boundary Learning

N-Word-Co Boundary Model

HerbPlantPart-MedicinalProperty Relation Extraction

N-Word-Co Identification

N-Word-Co Boundary

HerbPlantPart-MedicinalProperty Relation Representation (Like-

Network Representation)

Thai

Collected HerbPlantPart-MedicinalProperty Relation

Collection of N-Word-Co Expression MatrixExtraction of N-Word-Co with Herbal-

Medicinal-Property Concept

รปท2. กรอบงานวจย

Page 25: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

16

ทางยาสมนไพร สวนท 2 จานวน 1000 EDUs สาหรบสกด N-Word-Co และรวบรวม เปนลสต N-

Word-Co เพอใชสาหรบสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ และสวนท 3 จานวน 600 EDUs สาหรบสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’

2) การเรยนรขอบเขต N-Word-Co (N-Word-Co Boundary Learning) นาคลงคาสวนท 1 มาทาการกากบคาทเกยวของกบ N-Word-Co พรอมแนวความคดสรรพคณทางยาสมนไพร รวมทง NP1ทแสดงแนวความคดสวนของพชสมนไพรหลงจากทผาน หาแกนคา และกาจดคาหยด ดงแสดงในรปท 3 โดยใช WordNet(http://word-net.princeton.edu/obtain) และ Thai-Herb-

Encyclopedia (http://kanchanapisek.or.th/kp6/BOOK14/chapter10/chap10.htm)หลงจากแปลภาษาไทยเปนภาษาองกฤษโดย Lexitron (Thai-English Dictionary)

(http://lexitron.nectec.or.th/)

การเรยนรหาขนาดของ N-Word-Co ของ VP ของ EDU โดย เครองจกรเรยนร Maximum Entropy (ME) (Berger et al.,1996) ซงเปนการหาคาความนาจะเปนของสวนความหมาย r (semantic role, r) เมอกาหนดเวคเตอรของฟเจอร x ดงสมการ (1) ของหวของานวจยทเกยวของ

รปท3. การกากบคาของ N-Word-Co ทมแนวความคดสรรพคณทางยาสมนไพร และNP1 ท

มแนวความคดสวนของพชสมนไพร

“ตนสะเดา…………… ผลสะเดาทาให อยากรบประทานอาหารตลอดเวลา EDU1ทาใหสดชนEDU2 รากแกเสมหะตดคอEDU3เปลอกใชเปนยาแกไขอยางดEDU4…” “Neem Tree……………… A neem fruit makes [you] always feel like to eat food.EDU1 [The neem fruit] makes you being fresh EDU2 Root clears phlegm sticking in throat.EDU3Bark is used as a antipyretic drug EDU4…” <Topic_name Entity-concept=neem tree/herb>ตนสะเดา</Topic_name>………… <EDU1 ><NP1 concept= neem fruit/herb-component>ผล/ncn สะเดา/herbNE </NP1> <VP medicinalPropertyType=Y> <N-Word-CoExpression N=4 words concept= ‘have an appetite’> < w-mp1: setType=‘cause-verb’ ; concept=’make’ boundary =‘yes’>ทาให </w-mp1> < w-mp2: setType=‘effect-verb’ ; concept= ‘feel like’ boundary =‘yes’>อยาก</ w-mp2> < w-mp3: setType=‘effect-verb’ ; concept=‘eat’ boundary =‘yes’>รบประทาน</ w-mp3> < w-mp4: setType=‘noun2’ ; concept= ‘food’ boundary= ‘yes’>อาหาร</ w-mp4> < w-mp5: setType=‘noun2’ ; concept= ‘always’ boundary= ‘no’>ตลอดเวลา</ w-mp5> </N-Word-CoExpression ></VP> </EDU1> <EDU2><NP1 concept= neem fruit/herb-component></NP1> <VP medicinalPropertyType=Y><N-Word-CoExpression N=2words concept= ‘feel refreshed’> < w-mp1: setType=‘cause-verb’ ; concept=’make’ boundary =‘yes’>ทาให </ w-mp1> < w-mp2: setType=‘effect-verb’ ; concept= ‘be fresh’ boundary =‘yes’>สดชน</ w-mp2> </N-Word-CoExpression >)/VP </EDU2> <EDU3 ><NP1 concept= root/herb-component>ราก/ncn </NP1> <VP medicinalPropertyType=Y> <N-Word-CoExpression N=2words concept= ‘clear phlegm’> < w-mp1: setType=‘treat-verb’ ; concept=’clear’ boundary=‘yes’>แก</ w-mp1> < w-mp2: setType=‘noun2’ ; concept= ‘phlegm’ boundary =‘yes’>เสมหะ</ w-mp2> < w-mp3: setType=‘effect-verb’ ; concept=‘stick’ boundary =‘no’>ตด</ w-mp3> < w-mp4: setType=‘noun3’ ; concept= ‘throat’ boundary= ‘no’>คอ</ w-mp4> </N-Word-CoExpression ></VP> </EDU3> …………………… The N-Word-CoExpression tag is the word boundary tag of each N-Word-Co expression. The w-mpi tag is the medicinal-property-word-i tag where i=1,2,..,num. . The [..] symbol or means ellipsis (Zero Anaphora)

Page 26: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

17

จาก (1) สามารถนามาประยกตใชกบงานวจยนเพอหาคลาส r วาขอบเขตสนสดหรอไม เมอ p(r|x) คอ คาความนาจะเปนสงสด (argmax p(r|x)) เพอทหาขนาดของ N-Word-Co หรอ คลาสขอบเขตของ N-Word-Co วาเปนคลาส ending หรอ continuing จากกรยาวลทงหมดในคลงคาทเตรยมไว กอนทจะมการเรยนรขนาดของ N-Word-Co จะตองมการหาจดเรมตนของ N-Word-Co โดยใช กฎ N-

Word-Co rule กบ VP (ทไดกลาวในหวขอ 5 ความเปนมาของปญหา) หลงจากทผาน หาแกนคา และกาจดคาหยด ดงนน r คอ คลาสขอบเขตของ N-Word-Co เมอ r =0 แสดงวาขอบเขตสนสด (ending) มฉะนน r =1 (continuing) และ x เปนไบนารเวคเตอรของฟเจอรแนวความคดคา (A

binary vector of word-concept features) และ x เปนเวคเตอรทมคคา(คแนวความคดคา, wmpi

wmpi+1) โดยเฉพาะแนวความคดสรรพคณทางยาสมนไพร รวมอยดวย เมอ wmpiWmp และ wmpi+1Wmp ;

if wmp1Vmp then i=2,3,..,N or if wmp1Vweak wmp2Winfo then i=3,4,..,N ดงแสดงใน

(2) โดยทกคคา ไดจากการเลอนกรอบหนาตางทมขนาดสองคาอยตดกนไปดวยระยะทางหนงคาบน VP หลงจากทผาน หาแกนคา และกาจดคาหยด

)),(),(

),(),(exp(1

)|(

11,1,

11,1,

1,,

1,,maxarg

n

jmpjimpyesj

n

jmpjimpyesj

n

jmpjimpnoj

n

jmpjimpyesj

r

wrfwrf

wrfwrfz

xrp

3) การสกด N- Word-Co (Extraction of N-Word-Co with Herbal-Medicinal-Property

Concept) เพอสะสมเปนลสต N-Word-Co เนองจาก N-Word-Co แสดงถงเหตการณดวยกรยาวล การหาคาเรมตนของ N-Word-Co ซงเปนคากรยาสามารถหาไดดวยการใช กฎ N-Word-Co rule (หลงจากทผาน หาแกนคา และกาจดคาหยด)

มาระบหา EDU ทมกรยาตวแรกของ VP เปนสมาชกใน Vmp ดงน : If (wmp1Vmp )

( wmp1Vweak wmp2Winfo ) then wmp1 is the first word of N-Word-Co

เมอพบ VP มคาแรกเปนไปตามกฎ N-Word-Co rule การหาขอบเขตของ N-Word-Coกจะเรมขนโดยใชคา λ ทไดจากการเรยนรกบฟงกชนฟเจอรสาหรบการหาขนาด N-Word-Co ดงแสดงในสมการ (2) คานวณหาขอบเขต N-Word-Co หรอ ขนาด N-Word-Co ตามอลกอรทมทแสดงในรปท3

(2)

Page 27: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

18

สวนการหาแนวคดของ N-Word-Co เกยวกบ สรรพคณทางยาสมนไพร สามารถหาไดจาก Vtreat ,

Veffect, Vcause , Vweak , Noun2, Noun3, และ Adj แตไมรวมคาทปรากฏอยเสมอเหมอนบอกเปนนย (Cue word) เชน ‘ยา/medicine’ และ ‘สรรพคณ/property’ โดยแนวความคดตางๆทเกยวกบสรรพคณทางยาสมนไพรไดจากการอางอง WordNet และ Thai-Herb-Encyclopedia หลงผานการแปลภาษาไทยเปนภาษาองกฤษดวย Lexitron ดงนน N-Word-Co ทสกดไดพรอมกบแนว ความคดทประมวลได ดงแสดงในตารางท 1 ซงใชสาหรบการสกดความรเชงความสมพนธ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสาร

Assume that each EDU is represented by (NP1 VP). NP1 Noun1 | Noun1 Herb-Name ; where Noun1 is the plant component set. Vmp=VtreatVcause; Wmp=Noun2Noun3 NounxName-EntityVeffectAdjAdv where Vmp is the medicinal-property verb concept set and Wmp is the medicinal-property word concept set. Winfo ={‘ยา/medicine’, ‘สรรพคณ/property’} N_WORD_CO_BOUNDARY_DETERMIATON /*by ME 1 NWC ; i=1 /* NWC is the N-Word-Co expression.

/* NP1word is a word occurrence on NP1. /* wmpi is a word at the ithelement of VP & i=1,2,..endOfVerbPhrase

2 If(NP1wordNoun1)(wmpi Vmp ) 3 { NWC wmpi 4 Else If (NP1wordNoun1)(wmpi Vweak )

(wmpi+1Winfo ) 5 NWC wmpi + wmpi+1; 6 i= i+1; 7 r1 /* r is the N-Word-CO boundary classes

(r=0:boundary is ending,otherwise r=1)

8 while (r=1)(wmpi Wmp)(i endOfVerbPhrase)do 9 { NWC NWC wmpi ; i i + 1; 10

Equation(2)

11

} return NWC

รปท4. อลกอรทมหาขอบเขต N-Word-Co

Page 28: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

19

ตารางท 1 ตวอยาง ลสต N-Word-Co

Verb phrase example

N-Word-Co List

N-Word-Co Expression N-Word-Co Concept

“ดอกกระเจยบแดงลดความดนเลอดของผปวย/The rosella flower reduces blood pressure of patients.”

VP=“ลด/reduce-Vtreat ความดน/ pressure-Noun2 เลอด/blood-Noun3 ของ/of-prep ผปวย/patients-Noun3”

‘ลด/reduce-Vtreat ความดน/pressure-Noun2 เลอด/blood-Noun3’

To reduce blood pressure

“ใบตาลงทาใหสายตาดขน/The Ivy-Gourd leaves improve better eyesight.”

VP=“ทาให/improve-Vcause สายตา/eyesight-Noun3 ดขน/better-Adj”

‘ทาให/improve-Vcause สายตา/eyesight-Noun3’

To improve eyesight

“ใบสะระแหนบรรเทาเจบคอรนแรง/The mint leaves relieve sore throat.”

VP=“บรรเทา/relieve-Vtreat เจบ/pain-Veffect คอ/throat-Noun3 รนแรง/badly-Adv”

‘บรรเทา/relieve-Vtreat เจบ/pain-Veffect คอ/throat-Noun3’

To relieve sore-throat

“ใบโหระพาขบของเสยในรปแบบเหงอ/The sweet basil leaves excrete waste in the form of sweat.”

VP=“ขบ/excrete-Vtreat ของเสย/ waste-Nounx ใน/in-prep รปแบบ/form-Nounx เหงอ/sweat-Noun2”

‘ขบ/excrete-Vtreat ของเสย/xxx-Nounx รปแบบ/xxx-Nounx เหงอ/sweat-Noun2’

To excrete sweat

“ขงใชเปนสมนไพรขบเหงอ/Ginger is an herb for sweating”

VP=“ใชเปน/be-Vweak สมนไพร/herb-Winfo ขบ/excrete-Vtreat เหงอ/sweat-Noun2”

‘ใชเปน/be-Vweak สมนไพร/herb-Winfo ขบ/excrete-Vtreat เหงอ/sweat-Noun2’

To excrete sweat

“รางจดเปนสมนไพรถอนพษทกชนด/ Thunbergia is an herb for counteracting of all poisons.”

VP=“เปน/be-Vweak สมนไพร/herb-Winfo ถอน/counteract-Vtreat พษ/poison-Noun2”

‘ใชเปน/be-Vweak สมนไพร/herb-Winfo ถอน/counteract-Vtreat พษ/poison-Noun2’

To counteract poison

Page 29: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

20

4) การสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’(HerbPlantPart-

MedicinalProperty Relation Extraction) การสกดความรเชงความสมพนธ นประกอบ 3 ขนตอน บนพนฐานการอางอง WordNet และ Thai-

Herb-Encyclopedia หลงผานการแปลภาษาไทยเปนภาษาองกฤษดวย Lexitron : (1) การระบชอพชสมนไพรและสวนของพชสมนไพร (2) การระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร (3) การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร

4.1. การระบชอพชสมนไพรและสวนของพชสมนไพร

ชอพชสมนไพรไดชอเรอง (Topic name) ของเอกสาร เชน‘โหระพา/Basil’ ‘ขง/Ginger’

‘สะเดา/Neem’ เปนตน สาหรบสวนของพชสมนไพร ไดจาก NP1ของ EDU เชน ‘ใบโหระพา/Basil

leaves’ ‘เหงาขง/A Ginger root stock’ เปนตน แตถามปญหา Zero-Anaphora และ Textual Ellipsis เกดขน กสามารถแกไขโดยใช Agent หรอประธานของ EDU กอนหนา สาหรบการเกด Zero-

Anaphora สวนกรณ Textual Ellipsis สามารถแกไขโดยการอางถงชอของชอเรอง นอกจากน Product Derivative (ผลผลตทพฒนามา) กสามารถอางถง Agent ของ EDU กอนหนา และชอเรองได ตวอยางเชน

Topic name: มะขามปอม/ Indian Goose-Berry

EDU1: “เมลดมะขามปอมมาเผา/ Indian goose-berry seeds are burnt.”

EDU2: “เมลดนนมาผสมกบนามนพช/The seeds are mixed with vegetable oil.”

EDU3: “นามนผสมนใชทาแกคน/The mixed oil is applied to stop itching.”

จากตวอยางนามนผสมใน EDU3 คอ NP1 และเปน Product Derivative อางถง ‘เมลดมะขามปอม’

4.2. การระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร

ถา NP1 ของ EDU มแนวความคด สวนของพชสมนไพร อยใน Noun1 ทาให VP ของ EDU น ใชหา แนวความคดสรรพคณทางยาสมนไพร จากลสต N-Word-Co ในตารางท1 ไดโดยใช กฎ N-Word-Co rule แลวตามดวย การหาร ขนาด N-Word-Co ได Candidate N-Word-Co ซงถกนาไปหาแนวความคดสรรพคณทางยาสมนไพรโดยการหาคา Max Similarity Score (MaxSimScore) ในสมการ (3) (Biggins et al., 2012) กบ N-Word-Co ทสะสม (N-Word-Co collected) ในลสต N-

Word-Co ถาคา MaxSimScore 0.85 แสดงวา เกดคทเหมอนกนมากทสด เพอทจะไดแนวความคดสรรพคณทางยาสมนไพร

(3) 𝑀𝑎𝑥𝑆𝑖𝑚𝑆𝑐𝑜𝑟𝑒 = max𝑀𝑎𝑡𝑟𝑖𝑥𝑆𝑖𝑧𝑒 |𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑜𝑙𝑙𝑒𝑐𝑡𝑒𝑑 ∩ 𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 ||𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑜𝑙𝑙𝑒𝑐𝑡𝑒𝑑 | × |𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 |

Page 30: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

21

4.3.การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร

ขนตอนนเปนการหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร หลงจากทสามารถระบ EDU หรอ EDUi ทมแนวความคดสรรพคณทางยาสมนไพรได (ตามหวขอ 4.2) โดยการหาแนวความคด สวนของพชสมนไพรใน NP1 ของ EDUi+1 (กลาวคอมแนวคดเดยวกนกบ NP1 ของ EDUi) และ VP ของ EDUi+1 ม Candidate N-Word-Co ทตรงกบ N-Word-Co ทสะสมในลสต N-

Word-Co ดวยคา Max Similarity Score จากนนกดาเนนการ หวขอ 4.3 นไปเรอยๆกบ EDU

ถดไป จนกระทง แนวความคด สวนของพชสมนไพรใน NP1 ของ EDU ถดไป (EDUi+1 ) ไมเทากบของ EDU กอนหนา หรอ VP ของ EDU ถดไป (EDUi+1 ) ไมม/ม Candidate N-Word-Co ทไมอยในลสต N-Word-Co นนกคอสนสดของขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร ดงแสดงในอลกอรทมการหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร (รปท 4)

Assume that each EDU is represented by (NP1 VP) after stemming words and the stop word removal. L is a list of EDUs. WM is an N-Word-Co Matrix. Rel is a list of HerbalMedicinalProperty Rel. NP1 consists of HerbalPlantComponent +HerbalPlantName TopicName is a herbal-plant name as the document topic name. HMPB is an herbal-medicinal-property concept boundary HERBAL_MEDICINAL_PROPERTY_RELATION_EXTRACTIONS 1 i=1 ; j=1; k=1; h=1; HMPB= 2 while i Length[l] do 3 {If NP1i = */solvingZeroAnaphora 4 NP1i.HerbalPlantComponent = NP1i-1.HerbalPlantComponent; 5 If NP1i.HerbalPlantName= */solvingTexualEllipsis 6 NP1i.HerbalPlantName= TopicName; 7 }; 8 i=1 ; HCj=NP1i.HerbalPlantComponent; temp=HCj; 9 while i Length[l] do 10 {while (temp=HCj)(i Length[l])do 11 {CNWCj = Determine_Candidate_NWordCo(VPi);12 For k=1 to nwcMatrixSize 13 if MaxSimScore(CNWCj, WM.NWordCoExpk)0.8 14 Conceptj= WM.NWordCoConceptk ;15 If Conceptj 16 {HMPB HMPB Conceptj ; Conceptj = }; 17 j=j+1; i=i+1; HCj=NP1i.HerbalPlantComponent; 18 } 19 Relh NP1i-1 HMPB; h=h+1; 20 If tempHCj 21 temp=HCj; 22 } Return Relh

รปท 5. อลกอรทมหาขอบเขต การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร

Page 31: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

22

5) การรวบรวมเกบสะสมและแทนความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ (Collection and Representation of HerbPlantPart-MedicinalProperty Relation)

หลงจากนนกลบไปดาเนนการหวขอท 1 – หวขอท 4 จนจบเอกสาร กทาใหได ความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ตามสานตางของพช ฉะนนความรเชงความสมพนธ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดจากเอกสารพชสมนไพรตางๆ กถกรวบรวมสะสมในรปของเมตรกซ ทประกอบดวย 4 ฟเจอรคอ HerbName, HerbPlantPart Concept, HerbalMedical-

Property Concept, และ Relation ID ดงแสดงใน ตารางท 2 ซงสามารถแสดงหรอแทนความความสมพนธ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน (รปท 1)โดยเรยงตาม HerbName และ HerbPlantPart Concept ทาใหไดรายชอสรรพคณทางยาของแตละสวนของพชสมนไพร (คอ Hi-HCik set occurrence, รปท 1) และ ถาเรยงลาดบตาม Herbal-Medical-

Property จะไดรายชอ พชสมนไพรและ ชอสวนของพชสมนไพรของแตละสรรพคณทางยาสมนไพร (ตารางท3) ซงกคอ (MPi-HCjk set occurrence, รปท 1)

ตารางท 2 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทเรยงโดยHerbName and HerbPlantPart Concept

Herb ID HerbName.

HerbPlantPart Concept

Herbal-Medicinal-Property Concept

Relation ID SortedBy PlantName&

PlantPart 37 โหระพา/Basil whole ReleaseGas 37whRG 37 โหระพา/Basil whole RelieveNauseate 37whRN 37 โหระพา/Basil whole ExcreateSweat 37whES 37 โหระพา/Basil whole ReduceFever 37whRF 37 โหระพา/Basil whole ReduceInflame 37whRI 37 โหระพา/Basil whole RelieveCough 37whRC 38 สะเดา/Neem leaf HaveAppetite 38leHA 38 สะเดา/Neem leaf ReleaseGas 38leRG 38 สะเดา/Neem leaf ClearPhlegm 38leCP 38 สะเดา/Neem bark ReduceFever 38baRF 39 มะนาว/lime seed ClearPhlegm 39seCP 39 มะนาว/lime seed ReduceFever 39seRF 39 มะนาว/lime root ReduceFever 39rtRF 39 มะนาว/lime juice ClearPhlegm 39juCP 39 มะนาว/lime juice RelieveCough 39juRC 40 ขง/Ginger rootStock ExcreateSweat 40rtsES 40 ขง/Ginger rootStock ReduceFever 40rtsRF 40 ขง/Ginger rootStock ReleaseGas 40rtsRG 40 ขง/Ginger rootSt ck StopVomit 40rtsSV … … … … …

Page 32: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

23

ตารางท 3 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทเรยงโดย Herbal-Medical-Property

Herb ID HerbName.

HerbPlantPart Concept

Herbal-Medicinal-Property Concept

Relation ID SortedBy Herbal-Medical-Property

39 มะนาว/lime juice ClearPhlegm CP39ju 39 มะนาว/lime seed ClearPhlegm CP39se 38 สะเดา/Neem leaf ClearPhlegm CP38le 37 โหระพา/Basil whole ExcreateSweat ES37wh 40 ขง/Ginger rootStock ExcreateSweat ES40rts 38 สะเดา/Neem leaf HaveAppetite HA38le 37 โหระพา/Basil whole ReduceFever RF37wh 40 ขง/Ginger rootStock ReduceFever RF40rts 39 มะนาว/lime root ReduceFever RF39rt 39 มะนาว/lime seed ReduceFever RF39se 38 สะเดา/Neem bark ReduceFever RF38ba 37 โหระพา/Basil whole ReduceInflame RI37wh 37 โหระพา/Basil whole ReleaseGas RG37wh 40 ขง/Ginger rootStock ReleaseGas RG40rts 38 สะเดา/Neem leaf ReleaseGas RG38le 37 โหระพา/Basil whole RelieveCough RC37wh 39 มะนาว/lime juice RelieveCough RC39ju 37 โหระพา/Basil whole RelieveNauseate RN37wh 40 ขง/Ginger rootStock StopVomit SV40rts … … … … …

Page 33: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

24

ผลการทดลองและการประเมนผล

คลงขอมลภาษาไทยภายใตโดเมนพชสมนไพรไทยจานวน 1600EDUs (ซงดาวนโหลดจากเวบพชสมนไพรไทย สามารถแบงออกเปน 2 สวนคอ 1000EDUs สาหรบประเมนการสกด N-Word-Co ท

มแนวความคดสรรพคณทางยาจากเอกสารภาษาไทย ดวยคาความแมนยา (Precision) และคาระลก (Recall) และ 600EDUs สาหรบประเมนการสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยนนดวยคาความแมนยา และคาระลก โดยการประเมนทงสองดงกลาวใชผเชยวชาญ 3 ทานตดสนดวยวธการลงคะแนนเสยงขางมาก (Max Win Voting) ดงน

1) การสกด N-Word-Co ทมแนวความคดสรรพคณทางยา คาความแมนยา และคาระลก ของการสกด N-Word-Co ทมแนวความคดสรรพคณทางยาจากเอกสารภาษาไทยคอ 88.9% และ79.4% ตามลาดบ สาเหตทมคาระลกตา เพราะปญหา Anaphora ดงตวอยางตอไปน

EDU1:“ใบโหระพา/Basil leaves บรรเทา/relieve อาการ/symptom ดงกลาวขางตน/as mentioned above” (“Basil leaves relieve the symptom as mentioned above.”)

ซงมกลมคาตอไปน ‘ดงกลาวขางตน/as mentioned above’ เปน Anaphora

2) การสกด ความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากคลงขอมล โดยการใชN-Word-Co List ทถกตอง มาทาการสกด ความรเชงความสมพนธ ‘สวนของพชสมนไพร-

สรรพคณทางยา’ จากคลงขอมลสาหรบทดสอบนน ได ดวยคาความแมนยา และคาระลก ของการสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยคอ 90% และ77.5% ตามลาดบ สาเหตทม คาระลก ตาเพราะปญหา ตอไปน

a) ปญหา NP1 ซงประกอบดวยประโยคยอย. “ใบชมเหดเทศ/Alata leaf ซงมฤทธเปนยาระบายออนๆ/ which has an effect as a soft laxative สามารถนาไปตม/can be boiled นา/water กนได/eatable”

(“An Alata leaf which has an effect as a soft laxative can be boiled with water for drinking.”)

ซงม NP1 คอ ‘ใบชมเหดเทศ/Alata leaf ซงมฤทธเปนยาระบายออนๆ/ which has an effect as a soft

laxative’มประโยคยอยคอ ‘ซงมฤทธเปนยาระบายออนๆ/ which has an effect as a soft laxative’

b) ปญหา NP2 ซงมหลาย Noun2 ปรากฏดวยแนวความคดหลกเดยวกนแตแตกตางในรายละเอยด ดงน

Page 34: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

25

EDU1: “(ใบเสลดพงพอน/Hophead leaf)/NP1 (ถอน/counteract (พษไข/fever-poison พษแมลง/insect-poison และพษง/cobra-poison)/NP2)/VP” (“A Hophead leaf counteracts in a fever-poison, an insect poison, and a cobra-poison.”)

ซง NP2 มหลาย Noun2 ทมแนวความคดหลกคอ ‘พษ/poison’ แตไมเหมอนกนในรายละเอยด เชน พษไข/fever-poison พษแมลง/insect-poison พษง/cobra-poison

ดงนนการสกดความรเชงความสมพนธจากเอกสารสาหรบงานวจยนมวธการหลกบนพนฐานของเหตการณทแสดงออกดวยกรยาวลซงสามารถประยกตใชไดกบภาษาอน นอกจากนความรเชงความ สมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’สามารถถกจดเกบรวบรวมในรปแบบ Matrix เพองายตอการเขาถงขอมลสาหรบการสรางตวแทนองคความรเชงความสมพนธดวยเครอขายวงแหวน เสมอน ซงงายสาหรบการทาความเขาใจในการแกไขปญหาสขภาพ

Page 35: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

26

สรป

งานวจยนมงเนนการสกดและเกบรวบรวม ความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ (Herb-MedicinalProperty Relation) จากเอกสารบนเวบตางๆทเผยแพรองคความรเกยวกบพชสมนไพรไทย และควรเปนเวบของหนวยงานหรอองคกรทเปนทรจกของคนทวไป เชน เวบไซดของโครงการอนรกษพนธกรรมพชอนเนองมาจากพระราชดารฯ (http://www.rspg.or.th/plants_data/ herbs/herbs_200.htm)และสารานกรมไทย(http://kanchanapisek.or.th/kp6/sub/book/book.php? book=14&chap=10&page=chap10.htm) เนองจากพชสมนไพรไทยมอยมากมายหลายขนดซงมคณสมบตและสรรพคณแตกตางกนไปตามสายพนธ และแมแตสายพนธเดยวกนกยงแตกตางกนตามสวนประกอบของพช เชน ราก ใบ ดอก ผล เปนตน ดงเชนตามผลงานวจยนทไดสกดและเกบรวบรวมความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ ไวในลกษณะตารางทสามารถแสดงหรอแทนความสมพนธดงกลาวออกมาในรปแบบความสมพนธเชงเนตเวรค ซงทาใหสามารถเขาใจไดงายขน และงายตอการเขาถงระบบฐานขอมลสาหรบระบบตอบถามอตโนมต ตวอยางเชน คาถาม:ขอรายชอสมนไพรและสวนของสมนไพร แก/บรรเทาอาการไอ คาถาม:ใบโหระพามสรรพคณทางยาอะไรบาง เปนตน ฉะนนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดและเกบรวบรวมจากงานวจยนสามารถนาไปพฒนาตอใหเขากบระบบตอบถามอตโนมต สาหรบศนยใหบรการความร (Knowledge Service-Center Portal) แกชมชน อยางไรกตามงานวจยทเกยวกบภาษาไทยยงมขอจากดมากมาย เชน การไมมตวคน การละคา การละวล เปนตน ทาใหเปนอปสรรคตอพฒนาแอปพลเคชนตางๆบนเวบเชน ระบบสอบถามองคความรอตโนมต หรอ ระบบตอบถามอตโนมต เปนตน ดงนนจงเปนเหตผลหนงทงานวจยนใชกลมของแกนคาทรวมเปน N-Word-Co และมแนวความคดสรรพคณทางยาทาหนาทแทนประโยคทมแนวความคดสรรพคณทางยา ฉะนนเมอประโยคคาถามม N-

Word-Co ทกลาวมาขางตนอยดวย กจะทาใหสมารถวเคราะหคาถามไดเรวขน อยางไรกตามงานวจยนสามารถสกด ไดดวยคาความแมนยา และคาระลก 88.9% และ79.4% ตามลาดบจากเอกสารภาษาไทย และใช N-Word-Co ทสกดไดถกตองสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยไดคาความแมนยา และคาระลก 90% และ77.5% ตามลาดบ ทงนทมคาระลกตาเพราะปญหาประโยคความซอน และปญหานามวล และบางครงรวมไปถงการละนามวล เปนตน งานวจยนนอกจากสามารถนาไปประยกตกบระบบถาม-ตอบอตโนมตเกยวกบความรสรรพคณทางยาของพชสมนไพรไทย แลวยงสามารถเชอมตอกบระบบการวนฉยและการแกปญหาอตโนมต (Automatic Diagnosis and Problem-Solving System) เพอใหความรและสนบสนนการตดสนใจในการแกใขปญหาเบองตนใหกบผใช

Page 36: รายงานผลการวิจัย เรื่อง ส่วน ...libdoc.dpu.ac.th/research/Chaveevan.Pec.60.pdfสม นไพร) ปญหาท สองค

27

บรรณานกรม

Berger A.L., Della Pietra S.A., and Della Pietra V.J.(1996). A Maximum Entropy approach to natural language processing. In Computer Linguistics, vol.22,no.1, p.39–71.

Biggins S., Mohammed S., and Oakley S. (2012). University Of Sheffield:Two Approaches to Semantic Text Similarity. In: Proc. of First Joint Conference on Lexical and Computational Semantics, Montre al, Canada, p. 655–661.

Carlson L., Marcu D., Okurowski M. E.(2003). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. In Current Directions in Discourse and Dialogue, p.85-112.

Chanlekha H. and Kawtrakul A.(2004). Thai Named Entity Extraction by incorporating Maximum Entropy Model with Simple Heuristic Information. IJCNLP’ 2004 proceedings, p.1-7.

Chareonsuk J., Sukvakree T., and Kawtrakul A.(2005). Elementary Discourse unit Segmentation for Thai using Discourse Cue and Syntactic Information. NCSEC 2005 proceedings , p.85-90.

Fang Y-C, Huang H-C, Chen H-H, and Juan H-F.(2008). TCMGeneDIT: a database for associated traditional Chinese medicine, gene and disease information using text mining. BioMed Central Complementary and Alternative Medicine.,8:58.

Haruechaiyasak C., Pailai J., Viratyosin W., and Kongkachandra R.(2011). ThaiHerbMiner: A Thai Herbal Medicine Mining and Visualizing Tool. In Proc. Of the 2011Workshopon Biomedical Natural Language Processing, Portland,Oregon,USA,June23-24,,ACL-HLT2011,p.186–187.

Paşca M. (2008).Turning Web Text and Search Queries into Factual Knowledge: Hierarchical Class Attribute Extraction. In Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, p.1225-1230.

Recupero D.R., Nuzzolese A.G., Consoli S., Presutti V., Peroni S., and Mongiovì M. (2015). Extracting knowledge from text using SHELDON, a Semantic Holistic framEwork for LinkeD ONtology data. The International World Wide Web Conference Committee (IW3C2), Florence, Italy, p.235–238.

Riaz M. and Girju R.(2014). Recognizing Causality in Verb- Noun Pairs via Noun and Verb Semantics. In Proceedings of the EACL 2014 Workshop on Computational Approaches to Causality in Language BioNLP 2014, USA , p.48-57.

Sudprasert S. and Kawtrakul A. (2003).. Thai Word segmentation based on Global and Local Unsupervised Learning. NCSEC 2003 proceeding, p.1-8,