Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
รายงานผลการวจย
เรอง
การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’
จากเอกสารบนเวบ
Extraction and Collection of ‚HerbPlantPart-MedicinalProperty Relation‛
from Web-Documents
โดย
รองศาสตราจารย ดร. ฉววรรณ เพชรศร
ส าราญ ไผนวล
รายงานการวจยนไดรบทนอดหนนจากมหาวทยาลยธรกจบณฑตย
พ.ศ. 2560
ชอเรอง: การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ
ผวจย: รศ.ดร. ฉววรรณ เพชรศร สถาบน: มหาวทยาลยธรกจบณฑตย ปทพมพ: 2560 สถานทพมพ : มหาวทยาลยธรกจบณฑตย แหลงทเกบรายงานวจยฉบบสมบรณ: มหาวทยาลยธรกจบณฑตย จ านวนหนางานวจย: 27 หนา
บทคดยอ
จดประสงคของงานวจยนคอการสกดและเกบรวบรวมการสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบสมนไพรของหนวยงานหรอองคกรทเกยวของกบดแลรกษาพนธพชสมนไพรรวมทงการพฒนาผลตภณฑ ผลของงานวจยนคอองคความรคณสมบตหรอสรรพคณทางยาของพชสมนไพรบนพนฐานประโยคความเดยวหรออดย (EDU, Elementary Discourse Unit) จ านวนหลายๆประโยค ซงเปนเปนประโยชนตอชาวบานหรอบคคลทวไปในการใชรกษาสขภาพผานระบบถามตอบอตโนมต อยางไรกตามงานวจยนมสปญหาหลก: ปญหาแรกคอ ซงมกจะมลกษณะปญหาเปน Zero Anaphora (การละค าสรรพนามทใชอางองเอนทต เชน พชสมนไพร) และ Textual Ellipsis (การละค านาม เชน เอนทตพชสมนไพร) ปญหาทสองคอ การระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพรและปญหาทสามคอ การหาขอบเขตของ ทมแนวความคดสรรพคณทางยาสมนไพร ปญหาทส คอ การจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ทสกดไดอยางไรเพอท าใหสามารถเขาถงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ไดอยางไมซบซอน ดงนนส าหรบปญหาทหนงงานวจยนไดใชกฏทางฮวรสตค คอใชค านามทเปน Agent ของ EDU กอนหนา มาเปน Agent ของ EDU ทปรากฏ Zero Anaphora และการใช Topic name ส าหรบปญหาTextual Ellipsis สวนปญหาทสองงานวจยนเสนอการใช N-Word-Co ทสกดไดจากกรยาวลของ EDU ตางๆทมแนวความคดสรรพคณทางยา ของพชสมนไพร และเกบรวบรวมไวมาท าการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร นอกจากนงานวจยนใช N-Word-Co ทเกบรวบรวมนน กบ Similarity Score แกไขปญหาทสาม และงานวจยนไดใชเมตรกซทประกอบดวย ระหสพชสมนไพร , ชอพชสมนไพร, ชอสวนของพชสมนไพร, แนวความคดสรรพคณทางยา, และระหสความสมพนธ มาท าการเกบรวบรวมขอมลเปนตารางเพอแสดงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน CODASYL โดยการเรยงล าดบตาม ชอพชสมนไพรและ ชอสวนของพชสมนไพร ฉะนนผลลพธจากงานวจยทไดเสนอน สามารถสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยไดคาความแมนย า และคาระลก 90% และ77.5% ตามล าดบ
Research Topic: Extraction and Collection of ‚HerbPlantPart-MedicinalProperty Relation‛ from Web-Documents
Researcher: Assoc. Prof. Chaveevan Pechsiri Institution: Dhurakij Pundit University Year of Publication: 2017 Place of Publication: Dhurakij Pundit University Place of Collection: Dhurakij Pundit University Number of Pages: 27
Abstract
This research aims to collect extracted Herb-MedicinalProperty relations from downloaded herbal-plant documents from several Thai herabal medicinal product associations for creating the herbal-medicinal-property-network based representation. An Herb-MedicinalProperty relation is a semantic relation between one herbal-plant-component concept and several herbal-medicinal-property-concept expressions on texts and vice versa. An herbal-plant-component occurrence is a noun-phrase expression and each herbal-medicinal-property concept occurrence is an event expression by a verb-phrase of an EDU (where ‘EDU’ is an elementary discourse unit which is a simple sentence or a clause). The extracted Herb-MedicinalProperty relations as the property knowledge represented by a diagram of an herbal-medicinal-property network are the essential information for the social health-care problems. In particularly, the herbal-medicinal-property network based representation benefits a recommendation system of solving health-problems on web-boards. The research has four problems: 1) the problems of the zero anaphora and the textual ellipsis for the herbal named-entity expression 2)how to identify an EDU with the herbal medicinal property concept 3)how to determine the boundary of several EDUs with the herbal medicinal property concepts 4)how to collect the extracted Herb-MedicinalProperty relations for facilely accessing through the relations for the herbal-medicinal-property-network representation. Therefore, we apply the heuristic rules for solving the first problem; using the previous noun as an agent to be the agent of the EDU containing the zero-anaphora agent and using the topic name to solve the textual ellipsis. We propose applying a co-occurrence of N-Words (or N-Word-Co) including N-Word-Co size learning on the verb phrase to identify EDU with the herbal medicinal property concept from the documents. We also apply the similarity-score determination for solving the boundary of several EDUs with the herbal medicinal property concepts. We then apply the matrix consisting 5 features of Herb ID, HerbName, HerbPlantPart Concept, Herbal-Medicinal-Property Concept, and Relation ID to create the network representation of the herbal-medicinal-property network liked CODASYL. The research results provide the 90% precision with 77.5% recall of the Herb-MedicinalProperty relation extraction from the documents.
กตตกรรมประกาศ
ขอขอบพระคณ ผอ านวยการศนยบรการวจย มหาวทยาลยธรกจบณฑตยทใหโอกาสขาพเจาและอาจารย ส าราญ ไผนวล ท าการศกษาคนควาวจยเรอง ‚การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ‛ จนส าเรจ ขอขอบพระคณ คณบดวทยาลยนวตกรรมดานเทคโนโลยและวศวกรรมศาสตร มหาวทยาลยธรกจบณฑตย ทสนบสนนในเรองของเวลาทใชไปส าหรบงานวจยน ขอขอบพระคณ มหาวทยาลยธรกจบณฑตย ทใหเงนทนส าหรบสนบสนนโครงงานวจยน ทายทสด ขอขอบพระคณครอบครว ญาตพนองและเพอนๆ ทใหก าลงใจในการท าโครงงานวจยทมคาน
(รองศาสตราจารย ดร. ฉววรรณ เพชรศร) หวหนาโครงการ
18 ตลาคม 2560
i
สารบญ
หนา
สารบญ i
สารบญตาราง iv
สารบญรป v
บทน า 1
1. ความเปนมาของปญหา 1
2. วตถประสงค 6
3. นยามค าศพท 6
4. ขอบเขตงานวจย 7
งานวจยทเกยวของ 8
ความรพนฐาน 8
1. Maximun Entropy 8
2. Similarity_Score 8
งานวจยกอนหนา 9
1. แนวทางแพตเทรนหรอกฎ (Pattern/Rule Based Approach) 9
2. แนวทางสถตรวมถงการเรยนรของเครอง (Statistical Based Approach
Including Machine Learning) 10
ii
สารบญ (ตอ)
หนา
ปญหาการสกดความสมพนธ “สวนของพชสมนไพร-สรรพคณทางยา” จาก
เอกสารบนเวบ 12
ปญหาการสกดความสมพนธ 12
1. ปญหาการระบเอนทตพชสมนไพร (Herb-Plant Entity) และสวนของพช
สมนไพร (Herb-Plant Part) 12
2. ปญหาการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร 12
3. ปญหาการหาขอบเขตของ EDUs (EDU Boundary) ทมแนวความคด
สรรพคณทางยาสมนไพร 13
ปญหาการจดเกบความสมพนธ 14
กรรมวธด าเนนงาน 15
1. การเตรยมคลงขอมล (Corpus Preparation) 15
2. การเรยนรขอบเขต N-Word-Co (N-Word-Co Boundary Learning) 16
3. การสกด N- Word-Co (N-Word-Co Extraction) 17
4. การสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทาง
ยา’(HerbPlantPart-MedicinalProperty Relation Extraction) 20
iii
สารบญ (ตอ)
5. การรวบรวมเกบสะสมและแทนความรเชงความสมพนธ ‘สวนของพช
สมนไพร-สรรพคณทางยา’ (Collection and Representation of
HerbPlantPart-MedicinalProperty Relation) 22
ผลการทดลองและการประเมนผล 24
1. การสกด N-Word-Co ทมแนวความคดสรรพคณทางยา 24
2. การสกด ความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จาก
คลงขอมล 24
สรป 26
เอกสารอางอง 27
iv
สารบญตาราง
ตาราง หนา
1 ตวอยาง ลสต N-Word-Co 19
2 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’
ทเรยงโดย HerbName and HerbPlantPart Concept 22
3 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’
ทเรยงโดย Herbal-Medical-Property 23
v
สารบญรป
รป หนา
1 แสดงความสมพนธเชงเนตเวรค ระหวางสวนของพชสมนไพร กบรายการ
สรรพคณทางยา 2
2 กรอบงานวจย 15
3 การก ากบค าของ N-Word-Co ทมแนวความคดสรรพคณทางยาสมนไพร
และNP1 ทมแนวความคดสวนของพชสมนไพร 16
4 อลกอรทมหาขอบเขต N-Word-Co 18
5 อลกอรทมหาขอบเขต การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยา
สมนไพร 21
1
การสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ
บทนา
1. ความเปนมาของปญหา สมนไพร ตามพจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2525 หมายถง พชทใช ทาเปนเครองยา
สมนไพรกาเนดมาจากธรรมชาตและมความหมายตอชวตมนษยโดยเฉพาะ ในทางสขภาพ อนหมายถงทงการสงเสรมสขภาพและการรกษาโรค สาหรบสมนไพรไทย โดยเฉพาะทเปนพชมมากกวา 1500 ชนด ซงมคณสมบตและสรรพคณแตกตางกนไปและถกบรรยายอยบนเวบไซดมากมาย ทาใหเสยเวลาไปกบการคนหาพชสมนไพรตางๆและสวนของพชสมนไพร (เชนราก ลาตน ใบ ดอก เมลด เปนตน) มความสมพนธหรอเกยวของกบสรรพคณตางๆทางยาอยางไรบาง หรอคนหาสรรพคณทางยาทตองการมอยในสวนไหนของพชสมนไพร ตวอยางสรรพคณทางยา เชน ลดไข บรรเทาอาการปวด แกปวดทอง เปนตน ดงนนงานวจยนจงมจดประสงคในการสกดและเกบรวบรวม ความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ (Herb-MedicinalProperty Relation) จากเอกสารบนเวบ เชน เวบไซดของโครงการอนรกษพนธกรรมพชอนเนองมาจากพระราชดารฯ (http://www.rspg.or.th/
plants_data/herbs/herbs_200.htm)และสารานกรมไทย(http://kanchanapisek.or.th/kp6/sub/
book/book.php?book=14&chap=10&page=chap10.htm) ฉะนนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดและเกบรวบรวมจากเวบไซดสศนยใหบรการความร (Knowledge
Service-Center Portal) โดยความสมพนธทสกดไดสามารถแทนดวยเครอขายสรรพคณทางยาของพชสมนไพร (Herbal-Medicinal-Property Network) ซงแสดงใหเหนความสมพนธเชงเนตเวรค (Network) หรอ CODASYL (Rayward and Bowden, 2004) ระหวางสวนของพชสมนไพรกบสรรพคณทางยา ดงแสดงในรปท 1 โดยมการปรากฏของเซต (Set Occurrence) แตละวงในเนตเวรค ประกอบดวย เจาของ (Owner) เซตทเปนวงบนเนตเวรค (เชน H1 เปนเจาของการปรากฏวงเนตเวรค H1-HC1k (H1-HC1k set occurrence)) และสมาชก(Member) ของเซตบนวงเนตเวรค (เชน HC11
HC12 HC13 เปนสมาชกของเซตบนวงเนตเวรค H1-HC1k)
2
ดงนนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทแสดงดวยเครอขายสรรพคณทางยาของพชสมนไพรบนเวบไซดสศนยใหบรการความรทประชาชนทวไปสามารถเขาถงและสามารถสอบถามความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ ทสนใจเพอนาไปใชแกไขปญหาสขภาพ นอกจากนทเวบไซดสศนยใหบรการความรควรทจะเปนแหลงใหบรการความรดานอนๆอก เชน ความรเรองการเตรยมยาสมนไพรและความรวธการใชยาสมนไพร เปนตน อยางไรกตามความรเรองสรรพคณของสมนไพรปรากฏในเอกสารพชสมนไพรไทยในรปแบบของหลายๆ EDU (Elementary Discourse
Unit, คอประโยคงายๆ ธรรมดาไมซบซอน, Carlson and et. al, 2003) ดงตวอยางตอไปน EDU1: “กระเทยมเปนยาขบลมในลาไส ” EDU2: “[กระเทยม]แกไอ” EDU3: “[กระเทยม]ขบเสมหะ” EDU4: “[กระเทยม] ชวยยอยอาหาร ” EDU5: “[กระเทยม] รกษากลาก เกลอน” หมายเหต: สญลกษณ ‘[..]’ หมายถงการละคา
ดงนนจากตวอยางเอกสารพชสมนไพรไทยตอไปน
H1-HC1k set occurrence
MP2-HCjk set occurrence
MP1-HCjk set occurrence
H2-HC2k set occurrence
HC13
H1 (owner)
MP2 (owner)
HC11
HC12
MP1 (owner)
HC23
HC22
HC21 H2 (owner)
รปท1. แสดงความสมพนธเชงเนตเวรค ระหวางสวนของพชสมนไพร กบรายการสรรพคณทางยา(whereH1= ‘มะนาว/Lemon’, H2=‘สะเดา/Neem’, HC11=‘เมลดมะนาว/Lemon.seed’, HC12 = ‘รากมะนาว/Lemon.root’, HC13=‘ผลมะนาว/Lemon.fruit’, HC21= ‘เปลอกไมสะเดา/Neem.bark’,
HC22 = ‘รากสะเดา/Neem.root’, HC23=‘แกนไมสะเดา/Neem.heart-of-wood’, MP1=‘ละลายเสมหะ/clear-phlegm’, MP2=‘ลดไข/reduce-fever’)
3
จากตวอยางเอกสารสมนไพรไทยขางตนพบวา การปรากฏของประโยคตางๆ (ทขดเสนใต)
แสดงสรรพคณหรอคณสมบตของพชสมนไพร ‘พรกไทย’ นนมลกษณะเปนกลมกระจายอยบนเอกสาร กลาวคอ จะทาอยางไรใหคอมพวเตอรสามารถระบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารดงกลาว ดงนนปญหาสาหรบงานวจยน (ดบทปญหาการสกด ‘ความสมพนธสวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบ) ประกอบดวยสองปญหาหลกคอ ปญหาการสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารสมนไพร และปญหาการรวบรวมจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดเพอทาใหสามารถแสดงหรอแทนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขาย (รปท 1) ไดอยางมประสทธภาพ นอกจากนปญหาการสกด ‘ความสมพนธสวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารสมนไพร ประกอบดวยปญหายอย 3ปญหาคอ 1) ปญหาการระบเอนทตพชสมนไพร (Herb-
Plant Entity) และสวนของพชสมนไพร (Herb-Plant Part) ซงมกจะมลกษณะปญหาเปน Zero
Anaphora (การละคาสรรพนามทใชอางองเอนทตพชสมนไพร) และ Textual Ellipsis (การละคานามทเปนเอนทตพชสมนไพร) 2) ปญหาการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร 3)ปญหาการหาขอบเขตของ EDUs (EDU Boundary) ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร
งานวจยกอนหนาทเกยวกบการสกดความสมพนธเชงความหมาย (Sematic Relation) ทเกยวของกบการสกดคณสมบต/สรรพคณของเอนทตมดงตอไปน Weeber M. and Vos. R., 1998;
Fang et al.,2008; และ Paşca M., 2008 ; Haruechaiyasak et al., 2011;Riaz M. and Girju R.,
2014;Recupero, D.R et al., 2015 (ดในบทงานวจยทเกยวของ) โดยวธดงกลาวไมเหมาะสาหรบงานวจยนทมงสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ซงอยบนพนฐานการสกดความรเกยวกบสรรพคณทางยาของเอนทตพชสมนไพรไทยจากเอกสารภาษาไทย ซงบรรยายสรรพคณ
พรกไทย (Piper nigrum Linn.)
สรรพคณ เปลอกของพรกไทยมนายอยสาหรบยอยไขมน ดวยเหตนตาราโบราณจงเชอกนวา
พรกไทยสามารถลดความอวนได, พรกไทยชวยกระตนปมรบรสทลน เพอใหกระเพาะอาหาร
หลงนายอยไดมากขน, พรกไทยดามรสเผดอน เมอรบประทานเขาไปจะรสกอนวาบททอง ชวย
ขบลม ขบเหงอ ขบปสสาวะ แกทองอดทองเฟอ แกไขมาลาเรย แกอหวาตกโรค, ใชกานพรกไทย
10 กาน บดใหละเอยดแลวตมกบนา 8 แกว ใชเปนยาลางแผลทอณฑะ, สารพเพอรนในพรกไทย
สามารถใชเปนยาฆาแมลง ซงไมเปนอนตรายตอมนษยโดยนาผลพรกไทยมาทบใหแตกแลวใช
4
เหลานในรปของกรยาวล ทมหลายๆกรยาวลอยตอเนองกนภายใตหวขอสมนไพรหนงชนด (คอหนงเอนทตสมนไพร) และการบรรยายสรรพคณทางยาของสมนไพรสวนใหญจะกลาวถงสวนของสมนไพรซงจะอยในรปของนามวลทสวนใหญมกจะละ (Zero Anaphora) เชน “เปลอกของพรกไทย…….[เปลอกของพรกไทย]ชวยขบลม [เปลอกของพรกไทย]ขบเหงอ [เปลอกของพรกไทย]ขบปสสาวะ [เปลอกของพรกไทย]แกทองอดทองเฟอ ….” ([..] หมายถงละคาทอยในวงเลบกามป)
ดงนนจากงานวจยกอนหนาและปญหางานวจยนทไดกลาวขางตน กรณปญหาการสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารสมนไพร ซงประกอบดวย 3 ปญหายอย โดยมปญหายอยแรกคอ ปญหา Zero Anaphora และ Textual Ellipsis ของการระบเอนทตพชสมนไพรและสวนของพชสมนไพร ปญหานสามารถแกไขโดยใชกฏทางฮวรสตค คอใชคานามทเปนเอเจน (Agent) ของ EDU กอนหนามาเปนเอเจนของ EDU ทปรากฏ Zero Anaphora สาหรบ Textual Ellipsis สามารถแกปญหาโดยใชคานามชอสมนไพรซงเปน Topic name สาหรบปญหายอยทสองคอปญหาการระบ EDU ทแสดงแนวความคดสรรพคณทางยาของพชสมนไพร โดย EDU
ดงกลาวมลกษณะรปแบบทางภาษาศาสตรดงน
EDU NP1 VP
VP Vprop VP| Vprop NP2 | Vprop NP2 VP| Vprop Adv| Vprop NP2 Adv
Vprop Vtreat | Vtreat Veffect | Vcause | Vcause Veffect | Vweak Winfo
NP1 Noun1 | Noun1 PlantName
NP2 Phrase | Phrase NP2
PhraseNoun2 | Noun3| Nounx | Adj |DiseaseName
Noun1{‘ราก/root’,‘ใบ/leaf’,‘ตน/plant’,‘ดอก/flower’,‘ผล/fruit’, ‘เมลด/seed’, …} Noun2{‘อาการ/symptom’,‘แผล/scar’,‘รอย/mark’,‘ไข/fever’,‘ผน/rash’,‘หนอง/pus’,‘อจจาระ/
stool’,‘เหงอ/sweat’,‘ลม/gas’, ‘กรด/acidity’,…}
Noun3{‘อวยวะ/organ’,‘บรเวณ/area’, ‘มนษย/human’,‘ศรษะ/head’, ‘หนาอก/chest’,
‘กระเพาะ/stomach’, …}
Nounx{‘xxx’}
(‘xxx’ is any noun words other than noun words of Noun1-Noun3)
PlantName{‘โหระพา/basil’, ‘ขง/ginger’, ‘ขมน/tumeric’, ...}
DiseaseName{‘โรคผวหนง/skin-disease’,‘โรคกระเพาะ/gastritis-disease’,…} Vtreat{‘บรรเทา/relieve’, ‘ขบ/release’, ‘ลด/reduce’, ‘แก/stop’, ‘แก/cure, treat’ ,
‘รกษา/cure,treat’, … }
Vcause {‘ทาให/cause’,‘ทาใหเกด/be caused by’ }
5
Veffect{‘คลนไส/nauseate’,‘อาเจยน/vomit’,‘ปวด/pain’,‘เจบ/pain’, ‘แนน/constrict’,
‘คน/itchy’, …}
Vweak { ‘เปน/be’ , ‘ม/have’, ‘ใชเปน/be’}
Winfo { ‘ยา/medicine’, ‘สรรพคณ/property’ }
Adv{‘ยาก/difficultly’}; Adj{ ‘เหลว/watery’}
(เมอ NP1 และ NP2 คอนามวล; VP คอกรยาวล; Vprop คอกรยาทมแนวความคดคณสมบต; Vtreat คอเซตกรยาทมแนวความคดรกษา; Vcause คอเซตกรยาทมแนวความคดเหต; Veffect คอเซตกรยาทมแนวความคดผลหรออาการ; Vweak คอเซตกรยาออนซงตองตามดวยคาตางๆทใหสารสนเทศ (Winfo )
รวมกบกรยานเปนแนวความคดสรรพคณทางยา)
เนองจากภาษาไทยมจานวนคาศพทไมมากเทากบภาษาองกฤษ ฉะนนความหมายหรอแนวความคดเกยวกบเหตการณตางๆ ตวอยางเชน เหตการณเกยวกบสรรพคณทางยา สวนใหญเกดจากคาหลายคารวมกนใหความหมายของเหตการณนน เชน ‘ขบ+เหงอ’ ‘คลาย+กลามเนอ’ ‘ระงบ+อาการ+ปวด’ ‘รกษา+อาการ+คอ+อกเสบ’ ‘บรรเทา+อาการ+แผล+พพอง+อกเสบ’ เปนตน ฉะนนงานวจยนจงขอเสนอการสกด N-Word-Co (คอกกลมคาทเกดรวมกนมจานวน N คา) ทมแนวความคดสรรพคณทางยา (a medicinal-property concept) จากกรยาวลในเอกสารพชสมนไพรตางๆ โดย N-Word-Co แสดงหรอปรากฏเปนกลมคา wmpi ; i=1,2,..,N; ทอยตอเนองในเอกสารดงน.
N-Word-Co expression = wmp1 + wmp2 + wmp3+.. + wmpN
และมการใชกฎ N-Word-Co rule ตอไปนเพอกอใหเกด N-Word-Co
“If wmp1Vmp then wmp2,wmp3,..,wmpN Wmp
Else If wmp1Vweak wmp2Winfo then wmp3,..,wmpNWmp .”
(where Vmp = Vtreat Vcause; Vmp is the medicinal-property verb concept set;
Wmp=Noun2Noun3NounxPlantNameDiseaseNameVeffectAdj Adv;
Wmp is the medicinal-property word concept set)
ดงนน N-Word-Coทสกดได จะถกรวบรวมจดเกบเปนลสต (List) ของ N-Word-Co ทมแนวความคดสรรพคณทางยาสมนไพร ทงนเพอใชเปนแหลงคาศพทของกลมคาทเกดรวมกน และมแนวความคดสรรพคณทางยา ของพชสมนไพร
อยางไรกตาม การสกด N-Word-Co ทาใหเกดปญหาเพมขนอกสองปญหา คอ 1). ปญหาการระบกรยาวลทม N-Word-Co ปญหานสามารถแกไดโดยใช เซตของกรยาตอไปน Vcause , Veffect ,
Vweak , และ Winfo มาระบกรยาวลทม N-Word-Co และ 2). ปญหาการหาขอบเขตของ N-Word-
6
Co หรอ ขนาด N-Word-Co (คอหาคาN) งานวจยนไดประยกตใช Maximum Entropy ซงเปนเทคนคการเรยนรของเครองมาเรยนรหาขนาด N-Word-Co ในกรยาวล
ดงนนลสตของ N-Word-Co จะถกนาไปใช ระบ EDU ทมแนวความคดสรรพคณทางยาของพชสมนไพร ดวยการหาคา Max-Similarity (candidat_N-Word-Co, List.N-Word-Co) 0.85 นอกจากนลสตของ N-Word-Co สามารถใชแกปญหายอยทสามคอปญหาการหาขอบเขตของ EDUs
ทมแนวความคดสรรพคณทางยาสมนไพร โดยการหาคา Max-Similarity (candidate_N-Word-Co,
List.N-Word-Co) หากมคา< 0.85 แสดงวาสนสดขอบเขต EDU ทมแนวความคดสรรพคณทางยา
และปญหาสดทาย คอ การรวบรวมจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดอยางไร เพอทาใหสามารถเขาถงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ไดอยางไมซบซอน เพอแสดงหรอแทนในรปแบบเครอขาย (รปท 1) ไดอยางมประสทธภาพ ดงนนงานวจยนใชเมตรกซทประกอบดวยฟเจอร (Feature) ตอไปน ชอพชสมนไพร ชอสวนของพชสมนไพร และสรรพคณทางยามาทาการเกบรวบรวมขอมลตามฟเจอร ทกาหนดเพอแสดงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน (Like Network Format)แบบ CODASYL
โดยการเรยงลาดบ (Sorting) ตามชอพชสมนไพรและ ชอสวนของพชสมนไพร (คอ Hi-HCik set
occurrence) ทาใหไดรายชอสรรพคณทางยาของแตละสวนของพชสมนไพร ในทางกลบกน ถาเรยงลาดบตามสรรพคณทางยา (คอ MPi-HCjk set occurrence) จะไดรายชอพชสมนไพรและ ชอสวนของพชสมนไพรของแตละสรรพคณทางยาสมนไพร 2. วตถประสงค
เพอสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทย
3. นยามคาศพท Medicinal Effect: ผลทางยาซงเปนคณสมบตของยา (Medicinal Property) หรอเรยกวาสรรพคณทางยา HerbPlantPart-MedicinalProperty Relation: ความสมพนธระหวางสรรพคณทางยากบสวนของพชสมนไพร N-Word-Co: การปรากฏรวมกน N คา ดวยแนวความคดสรรพคณทางยาสมนไพร
EDU: Elimentary Discourse Unit คอประโยคงายๆ ธรรมดาไมซบซอน NP: Noun Phrase Conceptคอความคดนามวล
VP: Verb Phrase Concept คอความคดกรยาวล
Corpus: คลงคา
7
Concept: แนวความคด Machine Learning: การเรยนรของเครอง
4. ขอบเขตของการวจย
4.1. ขอมลทใชทาวจย คอ เอกสารภาษาไทยภายใตโดเมนพชสมนไพรไทยซงดาวนโหลดจากเวบ 4.2. เอกสารทใชมลกษณะเปนแบบกงโครงสราง
8
งานวจยทเกยวของ
การวจยการสกดและเกบรวบรวมความสมพนธ “สวนของพชสมนไพร-สรรพคณทางยา” จากเอกสารบนเวบประกอบดวยความรพนฐาน และงานวจยกอนหนาดงน ความรพนฐาน
1) Maximum Entropy, ME
ตวแบบ ME ทาใหไดความรทวาตวแบบทดทสดคอ ตวแบบทสามารถสอดคลองกบเซทของขอบงคบ (Constrains) ทถกกาหนดโดยหลกฐานหรอสถานการณ มฉะนนตองเปนรปแบบเดยวกนเทาทจะเปนไปได (Csiszar 1996; Berger et al. 1996) Fleischman et al. (2003) ไดจาลองแบบดวยคาความนาจะเปนของบทบาทหนาททางความหมาย, r (semantic role, r), เมอบอกหรอใหคาเวคเตอร (Vector) ของ Feature x มาให ดงสมการ (3) ตอไปน
)],(exp[1)|(
0
xrfzxrp j
n
jj
x
เมอ Zx เปนคา Normalization Constant
fj(r,x) เปน Feature Function ทแมป (Map) แตละคา r และองคประกอบเวคเตอร (Vector Element) ใหกบคาทวภาค (Binary Value)
n เปนจานวน Feature Functions
j เปนคานาหนกของ Feature Functionsทกาหนดให
ดงนนการจดแบงประเภท/คลาส (class) ทไดสดทายคอ r (คลาสใช คลาสไมใช เปนตน) คานวนไดจาก ทมคาควานาจะเปนสงสดสาหรบเวคเตอรของฟเจอร x ใน(1) ทกาหนดใหนน กบคาความนาจะเปนสงสดเมอบอกคา Feature Vector ของ r มาให
2) Similarity_Score
การคานวนคาความเหมอน (Similarity_score) (Biggins et al., 2012) ในสมการ (2) ระหวางสองประโยค จากคาตางๆทอยในเซตของคาทเปนเนอความในประโยค (Content Word Set) ทงสองนน หลงจากการกาจดคาหยด (Stop Word) และ การหาแกนคา (Stemming Words)
(2) |2||1|
|21|_
SS
SSScoreSimilarity
(1)
9
เมอ S1 คอประโยคทประกอบดวย แนวความคดของคาทอยในเซตของคาทเปนเนอความในประโยค S1 S2 คอประโยคทประกอบดวย แนวความคดของคาทอยในเซตของคาทเปนเนอความในประโยค S2 (โดย แนวความคดของคาสาหรบงานวจยนอยภายใต เวรดเนต (WordNet) และสารานกรมไทย หลงจากแปลภาษาไทยเปนภาษาองกฤษโดยใช Longdo.com )
งานวจยกอนหนา
ไดมงานวจยมากมายทไดเสนอเทคนคตางๆ สาหรบสกด “สวนของพชสมนไพร-สรรพคณทางยา” จากเอกสารบนเวบ เพอใชในการรกษาสขภาพ โดยแบงออกเปน 2 แนวทางคอ แนวทางแพทเทรนหรอกฎ (Pattern/Rule Based Approach) และแนวทางสถตรวมถงการเรยนรของเครอง (Statistical
Based Approach Including Machine Learning )
1. แนวทางแพทเทรนหรอกฎ (Pattern/Rule Based Approach)
Paşca M. (2008) ระบความรทเปนจรงเกยวกบคลาสวตถ (Object Class) ตางๆไดโดยการใช อสอะแพทเทรน (Is-A pattern) กบการสอบถามหรอควร (Query) ทมคยเวรด (Key Word) อยดวยทาการสกดตณสมบตตางๆทอยในรปนามวล จากเอกสารบนเวบและจากสวนบนทกควร (Query Log) ดวยคา precision 0.8 สาหรบ 100 คลาสทสามารถระบได จาก 5 คณสมบตหรอแอททรบวท (Attribute) ทสกดได
Haruechaiyasak et al., 2011 ไดประยกตใชเครองมอการทาเหมองขอความมาทาการสกดความสมพนธทเดน (Salient Relation) จากเอกสารพบเมด (PubMed Articles) ทสมพนธกบสมนไพรไทย โดยมการรจาความพนธบนพนฐานทางโครงสรางไวยกรณคอ “NP1 causal-verb NP2” เมอ NP1 คอ เนมเอนทต สมนไพร (Herb Name Entity) และ NP2 คอ เอนทตสรรพคณทางยา ความสมพนธทสกดไดแสดงออกมาในรปแบบเครอขายทมลกษณะเปนโครงสรางตนไมทแทนความสมพนธดานสรรพคณระหวางชอสมนไพร หรอ เนมเอนทต สมนไพร (NP1) ทเปนโหนดราก (Root Node) และเอนทตสรรพคณทางยาสมนไพร (NP2) เปนโหนดใบ (Leaf Node) รวมทงในทางกลบกนคอ NP1 เปนเอนทตสรรพคณทางยา NP2 เปนสมนไพร อยางไรกตาม เครองมอนไมสามารถประยกตใชกบงานวจยนซงสรรพคณทางยาสมนไพรมลกษณะเปนเหตการณทแสดงดวยกรยาวล
10
2. แนวทางสถตรวมถงการเรยนรของเครอง (Statistical Based Approach Including Machine
Learning )
Weeber M. and Vos. R.(1998) ไดกลาวถงคณสมบตของฤทธยาจาเปนตองคานงถง 3 เรองหลกคอ ยา (A) ผลทแสดงออกทางกายภาพ (Physiological Effect)(B) และ โรค (C) และความสมพนธระหวาง 3 เรองดงกลาวเปน A -> B , B -> C, ทาใหได A -> C ดงนน Weeber M. and
Vos. R.(1998) เสนอการสกดความรทางการแพทยโดยการหาความสมพนธระหวางคา (ซงอยในรปของนามวล) A, B, และ C จากเอกสารทางการแพทยโดยใชแนวทางสถตดวยการแยกประเภทคากอนทจะทาการหาความสมพนธระหวางคา ซงไดคา precision =.08 recall =0.57
Fang et al.,(2008) ไดคนพบความสมพนธ (Association Discovery) ระหวางคานามตางๆทเปนชอยาสมนไพรจน โรค พนธกรรม ผลกระทบ (Side Effect) ของยาสมนไพรจน และสวนผสม โดยการวเคราะหการเกดรวมกน (Collocation Analysis) จากเอกสารทมการกากบ และมการนาเอา IE
(Information Extraction) และแบบจาลอง Swanson’s ABC (A -> Bและ B -> C ทาใหได ความสมพนธแบบการสงผาน (Transitive Association) คอ A -> C) มาประยกตใช โดยกาหนดให A คอพนธกรรม B คอ สวนผสมทสามารถควบคม A และ C คอ ยาสมนไพรจน เพอการบอกเปนนยของ A -> C เมอ A -> Bและ B -> C ปรากฏขนในเอกสารอยางมนยสาคญ ผลการวจยของ Fang et
al.,(2008) ได precision =0.91 อยางไรกตามวธของ Fang et al.,(2008)อยบนพนฐานของการใชแตเพยงนามวล
Riaz M. and Girju R.(2014) ไดใชโมเดลโปรแกรมเชงเสนแบบทคาตอบทดทสดเปนเลขจานวนเตม (ซงมลกษณะคลาย Naïve Bayes) มาทาการเรยนรความสมพนธเหตและผล (Causal
Relation)จากค กรยา-นามทไดกากบทงหมด (annotated verb-noun pairs) จากเฟรมเนต (FrameNet) และเวรดเนต(WordNet) รวมทงใชความรเกยวกบประเภทความหมาย (Semantic Class
knowledge) และทงปจจยตางๆทางภาษาศาสตร ตวอยางเชน “People died in hurricane” ม คานาม ‘hurricane’ และกรยา ‘die’ เปนความสมพนธเหตและผล อยางไรกตามความสมพนธเหตและผลของ Riaz M. and Girju R. มลกษณะเปนความสมพนธระหวางสองเหตการณโดยเหตการณหนงแสดงโดยคานาม และอกเหตการณหนงแสดงโดยคากรยา
Recupero, D.R et al.,(2015) ไดใช SHELDON ซงเปนเครองมอ NLP(Natural Language
Processing Tool) ทาการสกดความร โดยเฉพาะความรเกยวกบความสมพนธระหวางสองเอนทตทเปนคาศพทคานาม (two noun-term entities) นอกจากนมบางความสมพนธทตองคานงถงการใหคะแนนสาหรบเอนทตคาศพทคานามทมความคดเหนเชงลบเพอใชเปนทรกเกอ (Trigger) ตอบสนองตอความคดเหนเชงลบแลวทาใหเกดความสมพนธหรอความเชอมโยงกบคากรยา ‘Tell’ กบประโยคตวอยาง
อยางไรกตามจากงานวจยกอนหนาทงสองแนวทางนน (Weeber M. and Vos. R., 1998; Fang
et al.,2008; Paşca M., 2008ว Haruechaiyasak et al.,2011; Riaz M. and Girju R.2014;
11
Recupero, D.R et al.,2015) ไมเหมาะสาหรบงานวจยนทมงสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ซงอยบนพนฐานการสกดความรเกยวกบสรรพคณทางยาของเอนทตพชสมนไพรไทยจากเอกสารภาษาไทยโดยมสรรพคณเหลานแสดงอยในรปของกรยาวล และหลายๆกรยาวลอยตอเนองกนและมความสมพนธกบหนงเอนทตสมนไพรหรอสวนของสมนไพรซงจะอยในรปของนามวลทสวนใหญมกจะละ
12
ปญหาการสกดความสมพนธ “สวนของพชสมนไพร-สรรพคณทางยา” จากเอกสารบนเวบ
ปญหาการสกดความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสาร ประกอบดวย 3 ปญหาหลกคอ
1) ปญหาการระบเอนทตพชสมนไพร (Herb-Plant Entity) และสวนของพชสมนไพร (Herb-Plant
Part) ซงมกจะมลกษณะปญหาเปน Zero Anaphora (การละคาสรรพนามทใชอางองเอนทตพชสมนไพร) และ Textual Ellipsis (การละคานามทเปนเอนทตพชสมนไพร)
ตวอยางท 1 ปญหา Zero Anaphora
กระเทยม EDU1: “(กลบกระเทยม)/NP1 ( ใชเปนยาขบลม)/VP”
EDU2 : “[(กลบกระเทยม)/NP1] (แกไอ)/VP”
คานามทอยภายในวงเลบกามป [..] คอ Zero Anaphora ซงปรากฎใน EDU2 ปญหานแกโดยอางองคานามทเปนประธานของ EDU กอนหนาซงกคอกระเทยม
ตวอยางท 2 ปญหา Textual Ellipsis
EDU3: “(ราก [กระเทยม])/NP1 (ใชเปนยาขบปสสาวะ)/VP”
คานามทอยภายในวงเลบกามป [..] คอ Textual Ellipsis ปญหานแกโดยอางองชอเรอง (Topic
name) ซงกคอกระเทยม
2) ปญหาการระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร ตวอยางท 3 ตอไปน จะทราบไดอยางไรวา EDU ตางๆตอไปนม EDU อนไหนทมความคดสรรพคณทาง
ยาสมนไพร
13
ตวอยางท 3 “พรกไทย (Piper nigrum Linn.)”
-สรรพคณ เปลอกของพรกไทยมนายอยสาหรบยอยไขมนEDU ดวยเหตนตาราโบราณจงเชอกนวาพรกไทยสามารถลดความ
อวนไดEDU พรกไทยชวยกระตนปมรบรสทลนEDU เพอใหกระเพาะอาหารหลงนายอยไดมากขน EDU พรกไทยดามรสเผด
อนEDU เมอรบประทานเขาไปEDU จะรสกอนวาบททองEDU ชวยขบลมEDU ขบเหงอ EDU ขบปสสาวะ EDU แกทองอด
ทองเฟอ EDU แกไขมาลาเรย EDU แกอหวาตกโรค EDU ใชกานพรกไทย 10 กานEDU บดใหละเอยด EDU แลวตมกบนา 8
แกว EDU ใชเปนยาลางแผลทอณฑะ EDU, สารพเพอรนในพรกไทยสามารถใชเปนยาฆาแมลง EDU ซงไมเปนอนตรายตอ
มนษย EDU โดยนาผลพรกไทยมาทบใหแตก EDU แลวใช EDU”
สรรพคณทางยาสมนไพรทปรากฏบนเอกสารสวนใหญแสดงออกมาในรปของเหตการณ (Event) ท
อธบายดวยกรยาวล ตวอยางเชน ‘ขบ+เหงอ’ ‘คลาย+กลามเนอ’ ‘ระงบ+อาการ+ปวด’ ‘รกษา+อาการ+คอ+อกเสบ’ ‘บรรเทา+อาการ+แผล+พพอง+อกเสบ’ เปนตน ฉะนนงานวจยนจงขอเสนอการสกด N-Word-Co (คอกกลมคาทเกดรวมกนมจานวน N คา มแนวความคดสรรพคณทางยา ) โดย N-
Word-Co ทสกดได จะถกรวบรวมจดเกบเปนลสต (List) ทงนเพอใชเปนแหลงคาศพทเกยวกบแนวความคดสรรพคณทางยาของพชสมนไพรในรปของ N-Word-Co อยางไรกตามการสกด N-
Word-Co ประกอบดวยสองปญหา คอ 1) ปญหาการระบกรยาวลทม N-Word-Co 2) ปญหาการหาขอบเขตของ N-Word-Co ฉะนนงานวจยนแกปญหาทงสองนโดยการใช เซตของกรยาตอไปน Vcause , Veffect , Vweak , และ Winfo มาระบกรยาวลทม N-Word-Co และไดประยกตใช Maximum
Entropy ซงเปนเทคนคการเรยนรของเครองมาเรยนรหาขนาด N-Word-Co ในกรยาวล ดงนนลสตของ N-Word-Co จะถกนาไปใช ระบ EDU ทมแนวความคดสรรพคณทางยาของพชสมนไพร ดวยการหาคา Max-Similarity (candidat_N-Word-Co, List.N-Word-Co) 0.85
3) ปญหาการหาขอบเขตของ EDUs (EDU Boundary) ทมแนวความคดสรรพคณทางยาสมนไพรของเอนทตพชสมนไพร
จากตวอยางท 3 จะทราบไดอยางไรวาสรรพคณทางยาสมนไพรตอไปน .........เมอรบประทานเขาไปEDU จะรสกอนวาบททองEDU ชวยขบลมEDU ขบเหงอ EDU ขบปสสาวะ EDU แกทองอด
ทองเฟอ EDU แกไขมาลาเรย EDU แกอหวาตกโรค EDU ใชกานพรกไทย 10 กานEDU ................... ม “แกอหวาตกโรค EDU” เปนขอบเขตของ EDUs ทมแนวความคดสรรพคณทางยาสมนไพร ปญหานแกไขโดยใช N-Word-Co List โดยการหาคา Max-Similarity (candidate_N-Word-Co,
List.N-Word-Co) หากมคา< 0.85 แสดงวาสนสดขอบเขต EDU ทมแนวความคดสรรพคณทางยา
14
ปญหาการจดเกบความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดอยางไร เพอทาใหสามารถเขาถงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ไดอยางไมซบซอน เพอแสดงหรอแทนในรปแบบเครอขาย (รปท 1) ไดอยางมประสทธภาพ ดงนนงานวจยนใชเมตรกซทประกอบดวยฟเจอร (Feature) ตอไปน Herb ID , HerbName (ชอพชสมนไพร), HerbPlantPartConcept (ชอสวนของพชสมนไพร), Herbal-Medicinal-Property Concept (ความคดสรรพคณทางยา) , และ Relation ID มาทาการเกบรวบรวมขอมลเปนตาราง เพอแสดงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน (Like Network Format)แบบ CODASYL โดยการเรยงลาดบ (Sorting) ตาม ชอพชสมนไพรและ ชอสวนของพชสมนไพร (คอ Hi-HCik set occurrence) ทาใหไดรายชอสรรพคณทางยาของแตละสวนของพชสมนไพร ในทางกลบกน ถาเรยงลาดบตามสรรพคณทางยา (คอ MPi-HCjk set occurrence) จะไดรายชอ พชสมนไพรและ ชอสวนของพชสมนไพรของแตละสรรพคณทางยาสมนไพร
15
กรรมวธดาเนนงาน
ระบบงานโดยสรปสาหรบการการสกดและเกบรวบรวมความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารบนเวบประกอบดวยขนตอนตางๆดงตอไปน (ดงแสดงในรปท2) ขนตอนการเตรยมคลงขอมล (Corpus Preparation) ขนตอนการเรยนรขอบเขต N-Word-Co (N-Word-Co Boundary
Learning) ขนตอนการสกด N- Word-Co ขนตอน การสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ (HerbPlantPart-MedicinalProperty Relation Extraction) และขนตอนการรวบรวมเกบสะสมและแทนความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ (Collection and Representation of HerbPlantPart-MedicinalProperty Relation)
การทดลอง (ตามกรอบแนวคดการวจย) 1) การเตรยมคลงคา (Corpus Preparation)
ขอมลภาษาไทยทใชในการวจยนเปนขอมลทางดานพชสมนไพรไทย สามารถดาวโหลดไดจากเวบไซต เวบไซดของโครงการอนรกษพนธกรรมพชอนเนองมาจากพระราชดารฯ (http://www.rspg.or.th/plants_data/herbs/herbs_200.htm) และสารานกรมไทย (http://kancha
napisek.or.th/kp6/sub/book/book.php?book=14&chap=10&page=chap10.htm) แลวผานขนตอนการเตรยมคลงคา ทมการกากบ tag ตงแตระดบคาโดยใชโปรแกรมตดคาจาก Niast Lab (ของภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยเกษตรศาสตร) จนถงระดบประโยค จานวน 3,600 EDUs ซงแบงออกเปน 3 สวน คอ สวนท 1 จานวน 2000 EDUs สาหรบการเรยนรหาเซตกรยาสรรพคณทางยาสมนไพรซงประกอบดวย Vtreat และ Vcause และการเรยนรหาขนาด N-
Word-Co (ทมแนวความคดสรรพคณทางยาสมนไพร) เพอใชระบ EDU ทมแนวความคดสรรพคณ
Corpus preparation
Text Word net
N-Word-Co Boundary Learning
N-Word-Co Boundary Model
HerbPlantPart-MedicinalProperty Relation Extraction
N-Word-Co Identification
N-Word-Co Boundary
HerbPlantPart-MedicinalProperty Relation Representation (Like-
Network Representation)
Thai
Collected HerbPlantPart-MedicinalProperty Relation
Collection of N-Word-Co Expression MatrixExtraction of N-Word-Co with Herbal-
Medicinal-Property Concept
รปท2. กรอบงานวจย
16
ทางยาสมนไพร สวนท 2 จานวน 1000 EDUs สาหรบสกด N-Word-Co และรวบรวม เปนลสต N-
Word-Co เพอใชสาหรบสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ และสวนท 3 จานวน 600 EDUs สาหรบสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’
2) การเรยนรขอบเขต N-Word-Co (N-Word-Co Boundary Learning) นาคลงคาสวนท 1 มาทาการกากบคาทเกยวของกบ N-Word-Co พรอมแนวความคดสรรพคณทางยาสมนไพร รวมทง NP1ทแสดงแนวความคดสวนของพชสมนไพรหลงจากทผาน หาแกนคา และกาจดคาหยด ดงแสดงในรปท 3 โดยใช WordNet(http://word-net.princeton.edu/obtain) และ Thai-Herb-
Encyclopedia (http://kanchanapisek.or.th/kp6/BOOK14/chapter10/chap10.htm)หลงจากแปลภาษาไทยเปนภาษาองกฤษโดย Lexitron (Thai-English Dictionary)
(http://lexitron.nectec.or.th/)
การเรยนรหาขนาดของ N-Word-Co ของ VP ของ EDU โดย เครองจกรเรยนร Maximum Entropy (ME) (Berger et al.,1996) ซงเปนการหาคาความนาจะเปนของสวนความหมาย r (semantic role, r) เมอกาหนดเวคเตอรของฟเจอร x ดงสมการ (1) ของหวของานวจยทเกยวของ
รปท3. การกากบคาของ N-Word-Co ทมแนวความคดสรรพคณทางยาสมนไพร และNP1 ท
มแนวความคดสวนของพชสมนไพร
“ตนสะเดา…………… ผลสะเดาทาให อยากรบประทานอาหารตลอดเวลา EDU1ทาใหสดชนEDU2 รากแกเสมหะตดคอEDU3เปลอกใชเปนยาแกไขอยางดEDU4…” “Neem Tree……………… A neem fruit makes [you] always feel like to eat food.EDU1 [The neem fruit] makes you being fresh EDU2 Root clears phlegm sticking in throat.EDU3Bark is used as a antipyretic drug EDU4…” <Topic_name Entity-concept=neem tree/herb>ตนสะเดา</Topic_name>………… <EDU1 ><NP1 concept= neem fruit/herb-component>ผล/ncn สะเดา/herbNE </NP1> <VP medicinalPropertyType=Y> <N-Word-CoExpression N=4 words concept= ‘have an appetite’> < w-mp1: setType=‘cause-verb’ ; concept=’make’ boundary =‘yes’>ทาให </w-mp1> < w-mp2: setType=‘effect-verb’ ; concept= ‘feel like’ boundary =‘yes’>อยาก</ w-mp2> < w-mp3: setType=‘effect-verb’ ; concept=‘eat’ boundary =‘yes’>รบประทาน</ w-mp3> < w-mp4: setType=‘noun2’ ; concept= ‘food’ boundary= ‘yes’>อาหาร</ w-mp4> < w-mp5: setType=‘noun2’ ; concept= ‘always’ boundary= ‘no’>ตลอดเวลา</ w-mp5> </N-Word-CoExpression ></VP> </EDU1> <EDU2><NP1 concept= neem fruit/herb-component></NP1> <VP medicinalPropertyType=Y><N-Word-CoExpression N=2words concept= ‘feel refreshed’> < w-mp1: setType=‘cause-verb’ ; concept=’make’ boundary =‘yes’>ทาให </ w-mp1> < w-mp2: setType=‘effect-verb’ ; concept= ‘be fresh’ boundary =‘yes’>สดชน</ w-mp2> </N-Word-CoExpression >)/VP </EDU2> <EDU3 ><NP1 concept= root/herb-component>ราก/ncn </NP1> <VP medicinalPropertyType=Y> <N-Word-CoExpression N=2words concept= ‘clear phlegm’> < w-mp1: setType=‘treat-verb’ ; concept=’clear’ boundary=‘yes’>แก</ w-mp1> < w-mp2: setType=‘noun2’ ; concept= ‘phlegm’ boundary =‘yes’>เสมหะ</ w-mp2> < w-mp3: setType=‘effect-verb’ ; concept=‘stick’ boundary =‘no’>ตด</ w-mp3> < w-mp4: setType=‘noun3’ ; concept= ‘throat’ boundary= ‘no’>คอ</ w-mp4> </N-Word-CoExpression ></VP> </EDU3> …………………… The N-Word-CoExpression tag is the word boundary tag of each N-Word-Co expression. The w-mpi tag is the medicinal-property-word-i tag where i=1,2,..,num. . The [..] symbol or means ellipsis (Zero Anaphora)
17
จาก (1) สามารถนามาประยกตใชกบงานวจยนเพอหาคลาส r วาขอบเขตสนสดหรอไม เมอ p(r|x) คอ คาความนาจะเปนสงสด (argmax p(r|x)) เพอทหาขนาดของ N-Word-Co หรอ คลาสขอบเขตของ N-Word-Co วาเปนคลาส ending หรอ continuing จากกรยาวลทงหมดในคลงคาทเตรยมไว กอนทจะมการเรยนรขนาดของ N-Word-Co จะตองมการหาจดเรมตนของ N-Word-Co โดยใช กฎ N-
Word-Co rule กบ VP (ทไดกลาวในหวขอ 5 ความเปนมาของปญหา) หลงจากทผาน หาแกนคา และกาจดคาหยด ดงนน r คอ คลาสขอบเขตของ N-Word-Co เมอ r =0 แสดงวาขอบเขตสนสด (ending) มฉะนน r =1 (continuing) และ x เปนไบนารเวคเตอรของฟเจอรแนวความคดคา (A
binary vector of word-concept features) และ x เปนเวคเตอรทมคคา(คแนวความคดคา, wmpi
wmpi+1) โดยเฉพาะแนวความคดสรรพคณทางยาสมนไพร รวมอยดวย เมอ wmpiWmp และ wmpi+1Wmp ;
if wmp1Vmp then i=2,3,..,N or if wmp1Vweak wmp2Winfo then i=3,4,..,N ดงแสดงใน
(2) โดยทกคคา ไดจากการเลอนกรอบหนาตางทมขนาดสองคาอยตดกนไปดวยระยะทางหนงคาบน VP หลงจากทผาน หาแกนคา และกาจดคาหยด
)),(),(
),(),(exp(1
)|(
11,1,
11,1,
1,,
1,,maxarg
n
jmpjimpyesj
n
jmpjimpyesj
n
jmpjimpnoj
n
jmpjimpyesj
r
wrfwrf
wrfwrfz
xrp
3) การสกด N- Word-Co (Extraction of N-Word-Co with Herbal-Medicinal-Property
Concept) เพอสะสมเปนลสต N-Word-Co เนองจาก N-Word-Co แสดงถงเหตการณดวยกรยาวล การหาคาเรมตนของ N-Word-Co ซงเปนคากรยาสามารถหาไดดวยการใช กฎ N-Word-Co rule (หลงจากทผาน หาแกนคา และกาจดคาหยด)
มาระบหา EDU ทมกรยาตวแรกของ VP เปนสมาชกใน Vmp ดงน : If (wmp1Vmp )
( wmp1Vweak wmp2Winfo ) then wmp1 is the first word of N-Word-Co
เมอพบ VP มคาแรกเปนไปตามกฎ N-Word-Co rule การหาขอบเขตของ N-Word-Coกจะเรมขนโดยใชคา λ ทไดจากการเรยนรกบฟงกชนฟเจอรสาหรบการหาขนาด N-Word-Co ดงแสดงในสมการ (2) คานวณหาขอบเขต N-Word-Co หรอ ขนาด N-Word-Co ตามอลกอรทมทแสดงในรปท3
(2)
18
สวนการหาแนวคดของ N-Word-Co เกยวกบ สรรพคณทางยาสมนไพร สามารถหาไดจาก Vtreat ,
Veffect, Vcause , Vweak , Noun2, Noun3, และ Adj แตไมรวมคาทปรากฏอยเสมอเหมอนบอกเปนนย (Cue word) เชน ‘ยา/medicine’ และ ‘สรรพคณ/property’ โดยแนวความคดตางๆทเกยวกบสรรพคณทางยาสมนไพรไดจากการอางอง WordNet และ Thai-Herb-Encyclopedia หลงผานการแปลภาษาไทยเปนภาษาองกฤษดวย Lexitron ดงนน N-Word-Co ทสกดไดพรอมกบแนว ความคดทประมวลได ดงแสดงในตารางท 1 ซงใชสาหรบการสกดความรเชงความสมพนธ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสาร
Assume that each EDU is represented by (NP1 VP). NP1 Noun1 | Noun1 Herb-Name ; where Noun1 is the plant component set. Vmp=VtreatVcause; Wmp=Noun2Noun3 NounxName-EntityVeffectAdjAdv where Vmp is the medicinal-property verb concept set and Wmp is the medicinal-property word concept set. Winfo ={‘ยา/medicine’, ‘สรรพคณ/property’} N_WORD_CO_BOUNDARY_DETERMIATON /*by ME 1 NWC ; i=1 /* NWC is the N-Word-Co expression.
/* NP1word is a word occurrence on NP1. /* wmpi is a word at the ithelement of VP & i=1,2,..endOfVerbPhrase
2 If(NP1wordNoun1)(wmpi Vmp ) 3 { NWC wmpi 4 Else If (NP1wordNoun1)(wmpi Vweak )
(wmpi+1Winfo ) 5 NWC wmpi + wmpi+1; 6 i= i+1; 7 r1 /* r is the N-Word-CO boundary classes
(r=0:boundary is ending,otherwise r=1)
8 while (r=1)(wmpi Wmp)(i endOfVerbPhrase)do 9 { NWC NWC wmpi ; i i + 1; 10
Equation(2)
11
} return NWC
รปท4. อลกอรทมหาขอบเขต N-Word-Co
19
ตารางท 1 ตวอยาง ลสต N-Word-Co
Verb phrase example
N-Word-Co List
N-Word-Co Expression N-Word-Co Concept
“ดอกกระเจยบแดงลดความดนเลอดของผปวย/The rosella flower reduces blood pressure of patients.”
VP=“ลด/reduce-Vtreat ความดน/ pressure-Noun2 เลอด/blood-Noun3 ของ/of-prep ผปวย/patients-Noun3”
‘ลด/reduce-Vtreat ความดน/pressure-Noun2 เลอด/blood-Noun3’
To reduce blood pressure
“ใบตาลงทาใหสายตาดขน/The Ivy-Gourd leaves improve better eyesight.”
VP=“ทาให/improve-Vcause สายตา/eyesight-Noun3 ดขน/better-Adj”
‘ทาให/improve-Vcause สายตา/eyesight-Noun3’
To improve eyesight
“ใบสะระแหนบรรเทาเจบคอรนแรง/The mint leaves relieve sore throat.”
VP=“บรรเทา/relieve-Vtreat เจบ/pain-Veffect คอ/throat-Noun3 รนแรง/badly-Adv”
‘บรรเทา/relieve-Vtreat เจบ/pain-Veffect คอ/throat-Noun3’
To relieve sore-throat
“ใบโหระพาขบของเสยในรปแบบเหงอ/The sweet basil leaves excrete waste in the form of sweat.”
VP=“ขบ/excrete-Vtreat ของเสย/ waste-Nounx ใน/in-prep รปแบบ/form-Nounx เหงอ/sweat-Noun2”
‘ขบ/excrete-Vtreat ของเสย/xxx-Nounx รปแบบ/xxx-Nounx เหงอ/sweat-Noun2’
To excrete sweat
“ขงใชเปนสมนไพรขบเหงอ/Ginger is an herb for sweating”
VP=“ใชเปน/be-Vweak สมนไพร/herb-Winfo ขบ/excrete-Vtreat เหงอ/sweat-Noun2”
‘ใชเปน/be-Vweak สมนไพร/herb-Winfo ขบ/excrete-Vtreat เหงอ/sweat-Noun2’
To excrete sweat
“รางจดเปนสมนไพรถอนพษทกชนด/ Thunbergia is an herb for counteracting of all poisons.”
VP=“เปน/be-Vweak สมนไพร/herb-Winfo ถอน/counteract-Vtreat พษ/poison-Noun2”
‘ใชเปน/be-Vweak สมนไพร/herb-Winfo ถอน/counteract-Vtreat พษ/poison-Noun2’
To counteract poison
20
4) การสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’(HerbPlantPart-
MedicinalProperty Relation Extraction) การสกดความรเชงความสมพนธ นประกอบ 3 ขนตอน บนพนฐานการอางอง WordNet และ Thai-
Herb-Encyclopedia หลงผานการแปลภาษาไทยเปนภาษาองกฤษดวย Lexitron : (1) การระบชอพชสมนไพรและสวนของพชสมนไพร (2) การระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร (3) การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร
4.1. การระบชอพชสมนไพรและสวนของพชสมนไพร
ชอพชสมนไพรไดชอเรอง (Topic name) ของเอกสาร เชน‘โหระพา/Basil’ ‘ขง/Ginger’
‘สะเดา/Neem’ เปนตน สาหรบสวนของพชสมนไพร ไดจาก NP1ของ EDU เชน ‘ใบโหระพา/Basil
leaves’ ‘เหงาขง/A Ginger root stock’ เปนตน แตถามปญหา Zero-Anaphora และ Textual Ellipsis เกดขน กสามารถแกไขโดยใช Agent หรอประธานของ EDU กอนหนา สาหรบการเกด Zero-
Anaphora สวนกรณ Textual Ellipsis สามารถแกไขโดยการอางถงชอของชอเรอง นอกจากน Product Derivative (ผลผลตทพฒนามา) กสามารถอางถง Agent ของ EDU กอนหนา และชอเรองได ตวอยางเชน
Topic name: มะขามปอม/ Indian Goose-Berry
EDU1: “เมลดมะขามปอมมาเผา/ Indian goose-berry seeds are burnt.”
EDU2: “เมลดนนมาผสมกบนามนพช/The seeds are mixed with vegetable oil.”
EDU3: “นามนผสมนใชทาแกคน/The mixed oil is applied to stop itching.”
จากตวอยางนามนผสมใน EDU3 คอ NP1 และเปน Product Derivative อางถง ‘เมลดมะขามปอม’
4.2. การระบ EDU ทมแนวความคดสรรพคณทางยาสมนไพร
ถา NP1 ของ EDU มแนวความคด สวนของพชสมนไพร อยใน Noun1 ทาให VP ของ EDU น ใชหา แนวความคดสรรพคณทางยาสมนไพร จากลสต N-Word-Co ในตารางท1 ไดโดยใช กฎ N-Word-Co rule แลวตามดวย การหาร ขนาด N-Word-Co ได Candidate N-Word-Co ซงถกนาไปหาแนวความคดสรรพคณทางยาสมนไพรโดยการหาคา Max Similarity Score (MaxSimScore) ในสมการ (3) (Biggins et al., 2012) กบ N-Word-Co ทสะสม (N-Word-Co collected) ในลสต N-
Word-Co ถาคา MaxSimScore 0.85 แสดงวา เกดคทเหมอนกนมากทสด เพอทจะไดแนวความคดสรรพคณทางยาสมนไพร
(3) 𝑀𝑎𝑥𝑆𝑖𝑚𝑆𝑐𝑜𝑟𝑒 = max𝑀𝑎𝑡𝑟𝑖𝑥𝑆𝑖𝑧𝑒 |𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑜𝑙𝑙𝑒𝑐𝑡𝑒𝑑 ∩ 𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 ||𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑜𝑙𝑙𝑒𝑐𝑡𝑒𝑑 | × |𝑁𝑊𝑜𝑟𝑑𝐶𝑜𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑒 |
21
4.3.การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร
ขนตอนนเปนการหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร หลงจากทสามารถระบ EDU หรอ EDUi ทมแนวความคดสรรพคณทางยาสมนไพรได (ตามหวขอ 4.2) โดยการหาแนวความคด สวนของพชสมนไพรใน NP1 ของ EDUi+1 (กลาวคอมแนวคดเดยวกนกบ NP1 ของ EDUi) และ VP ของ EDUi+1 ม Candidate N-Word-Co ทตรงกบ N-Word-Co ทสะสมในลสต N-
Word-Co ดวยคา Max Similarity Score จากนนกดาเนนการ หวขอ 4.3 นไปเรอยๆกบ EDU
ถดไป จนกระทง แนวความคด สวนของพชสมนไพรใน NP1 ของ EDU ถดไป (EDUi+1 ) ไมเทากบของ EDU กอนหนา หรอ VP ของ EDU ถดไป (EDUi+1 ) ไมม/ม Candidate N-Word-Co ทไมอยในลสต N-Word-Co นนกคอสนสดของขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร ดงแสดงในอลกอรทมการหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร (รปท 4)
Assume that each EDU is represented by (NP1 VP) after stemming words and the stop word removal. L is a list of EDUs. WM is an N-Word-Co Matrix. Rel is a list of HerbalMedicinalProperty Rel. NP1 consists of HerbalPlantComponent +HerbalPlantName TopicName is a herbal-plant name as the document topic name. HMPB is an herbal-medicinal-property concept boundary HERBAL_MEDICINAL_PROPERTY_RELATION_EXTRACTIONS 1 i=1 ; j=1; k=1; h=1; HMPB= 2 while i Length[l] do 3 {If NP1i = */solvingZeroAnaphora 4 NP1i.HerbalPlantComponent = NP1i-1.HerbalPlantComponent; 5 If NP1i.HerbalPlantName= */solvingTexualEllipsis 6 NP1i.HerbalPlantName= TopicName; 7 }; 8 i=1 ; HCj=NP1i.HerbalPlantComponent; temp=HCj; 9 while i Length[l] do 10 {while (temp=HCj)(i Length[l])do 11 {CNWCj = Determine_Candidate_NWordCo(VPi);12 For k=1 to nwcMatrixSize 13 if MaxSimScore(CNWCj, WM.NWordCoExpk)0.8 14 Conceptj= WM.NWordCoConceptk ;15 If Conceptj 16 {HMPB HMPB Conceptj ; Conceptj = }; 17 j=j+1; i=i+1; HCj=NP1i.HerbalPlantComponent; 18 } 19 Relh NP1i-1 HMPB; h=h+1; 20 If tempHCj 21 temp=HCj; 22 } Return Relh
รปท 5. อลกอรทมหาขอบเขต การหาขอบเขต EDU ทมแนวความคดสรรพคณทางยาสมนไพร
22
5) การรวบรวมเกบสะสมและแทนความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ (Collection and Representation of HerbPlantPart-MedicinalProperty Relation)
หลงจากนนกลบไปดาเนนการหวขอท 1 – หวขอท 4 จนจบเอกสาร กทาใหได ความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ตามสานตางของพช ฉะนนความรเชงความสมพนธ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดจากเอกสารพชสมนไพรตางๆ กถกรวบรวมสะสมในรปของเมตรกซ ทประกอบดวย 4 ฟเจอรคอ HerbName, HerbPlantPart Concept, HerbalMedical-
Property Concept, และ Relation ID ดงแสดงใน ตารางท 2 ซงสามารถแสดงหรอแทนความความสมพนธ‘สวนของพชสมนไพร-สรรพคณทางยา’ ในรปแบบเครอขายเหมอน (รปท 1)โดยเรยงตาม HerbName และ HerbPlantPart Concept ทาใหไดรายชอสรรพคณทางยาของแตละสวนของพชสมนไพร (คอ Hi-HCik set occurrence, รปท 1) และ ถาเรยงลาดบตาม Herbal-Medical-
Property จะไดรายชอ พชสมนไพรและ ชอสวนของพชสมนไพรของแตละสรรพคณทางยาสมนไพร (ตารางท3) ซงกคอ (MPi-HCjk set occurrence, รปท 1)
ตารางท 2 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทเรยงโดยHerbName and HerbPlantPart Concept
Herb ID HerbName.
HerbPlantPart Concept
Herbal-Medicinal-Property Concept
Relation ID SortedBy PlantName&
PlantPart 37 โหระพา/Basil whole ReleaseGas 37whRG 37 โหระพา/Basil whole RelieveNauseate 37whRN 37 โหระพา/Basil whole ExcreateSweat 37whES 37 โหระพา/Basil whole ReduceFever 37whRF 37 โหระพา/Basil whole ReduceInflame 37whRI 37 โหระพา/Basil whole RelieveCough 37whRC 38 สะเดา/Neem leaf HaveAppetite 38leHA 38 สะเดา/Neem leaf ReleaseGas 38leRG 38 สะเดา/Neem leaf ClearPhlegm 38leCP 38 สะเดา/Neem bark ReduceFever 38baRF 39 มะนาว/lime seed ClearPhlegm 39seCP 39 มะนาว/lime seed ReduceFever 39seRF 39 มะนาว/lime root ReduceFever 39rtRF 39 มะนาว/lime juice ClearPhlegm 39juCP 39 มะนาว/lime juice RelieveCough 39juRC 40 ขง/Ginger rootStock ExcreateSweat 40rtsES 40 ขง/Ginger rootStock ReduceFever 40rtsRF 40 ขง/Ginger rootStock ReleaseGas 40rtsRG 40 ขง/Ginger rootSt ck StopVomit 40rtsSV … … … … …
23
ตารางท 3 แสดงเมตรกซของ ความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทเรยงโดย Herbal-Medical-Property
Herb ID HerbName.
HerbPlantPart Concept
Herbal-Medicinal-Property Concept
Relation ID SortedBy Herbal-Medical-Property
39 มะนาว/lime juice ClearPhlegm CP39ju 39 มะนาว/lime seed ClearPhlegm CP39se 38 สะเดา/Neem leaf ClearPhlegm CP38le 37 โหระพา/Basil whole ExcreateSweat ES37wh 40 ขง/Ginger rootStock ExcreateSweat ES40rts 38 สะเดา/Neem leaf HaveAppetite HA38le 37 โหระพา/Basil whole ReduceFever RF37wh 40 ขง/Ginger rootStock ReduceFever RF40rts 39 มะนาว/lime root ReduceFever RF39rt 39 มะนาว/lime seed ReduceFever RF39se 38 สะเดา/Neem bark ReduceFever RF38ba 37 โหระพา/Basil whole ReduceInflame RI37wh 37 โหระพา/Basil whole ReleaseGas RG37wh 40 ขง/Ginger rootStock ReleaseGas RG40rts 38 สะเดา/Neem leaf ReleaseGas RG38le 37 โหระพา/Basil whole RelieveCough RC37wh 39 มะนาว/lime juice RelieveCough RC39ju 37 โหระพา/Basil whole RelieveNauseate RN37wh 40 ขง/Ginger rootStock StopVomit SV40rts … … … … …
24
ผลการทดลองและการประเมนผล
คลงขอมลภาษาไทยภายใตโดเมนพชสมนไพรไทยจานวน 1600EDUs (ซงดาวนโหลดจากเวบพชสมนไพรไทย สามารถแบงออกเปน 2 สวนคอ 1000EDUs สาหรบประเมนการสกด N-Word-Co ท
มแนวความคดสรรพคณทางยาจากเอกสารภาษาไทย ดวยคาความแมนยา (Precision) และคาระลก (Recall) และ 600EDUs สาหรบประเมนการสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยนนดวยคาความแมนยา และคาระลก โดยการประเมนทงสองดงกลาวใชผเชยวชาญ 3 ทานตดสนดวยวธการลงคะแนนเสยงขางมาก (Max Win Voting) ดงน
1) การสกด N-Word-Co ทมแนวความคดสรรพคณทางยา คาความแมนยา และคาระลก ของการสกด N-Word-Co ทมแนวความคดสรรพคณทางยาจากเอกสารภาษาไทยคอ 88.9% และ79.4% ตามลาดบ สาเหตทมคาระลกตา เพราะปญหา Anaphora ดงตวอยางตอไปน
EDU1:“ใบโหระพา/Basil leaves บรรเทา/relieve อาการ/symptom ดงกลาวขางตน/as mentioned above” (“Basil leaves relieve the symptom as mentioned above.”)
ซงมกลมคาตอไปน ‘ดงกลาวขางตน/as mentioned above’ เปน Anaphora
2) การสกด ความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากคลงขอมล โดยการใชN-Word-Co List ทถกตอง มาทาการสกด ความรเชงความสมพนธ ‘สวนของพชสมนไพร-
สรรพคณทางยา’ จากคลงขอมลสาหรบทดสอบนน ได ดวยคาความแมนยา และคาระลก ของการสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยคอ 90% และ77.5% ตามลาดบ สาเหตทม คาระลก ตาเพราะปญหา ตอไปน
a) ปญหา NP1 ซงประกอบดวยประโยคยอย. “ใบชมเหดเทศ/Alata leaf ซงมฤทธเปนยาระบายออนๆ/ which has an effect as a soft laxative สามารถนาไปตม/can be boiled นา/water กนได/eatable”
(“An Alata leaf which has an effect as a soft laxative can be boiled with water for drinking.”)
ซงม NP1 คอ ‘ใบชมเหดเทศ/Alata leaf ซงมฤทธเปนยาระบายออนๆ/ which has an effect as a soft
laxative’มประโยคยอยคอ ‘ซงมฤทธเปนยาระบายออนๆ/ which has an effect as a soft laxative’
b) ปญหา NP2 ซงมหลาย Noun2 ปรากฏดวยแนวความคดหลกเดยวกนแตแตกตางในรายละเอยด ดงน
25
EDU1: “(ใบเสลดพงพอน/Hophead leaf)/NP1 (ถอน/counteract (พษไข/fever-poison พษแมลง/insect-poison และพษง/cobra-poison)/NP2)/VP” (“A Hophead leaf counteracts in a fever-poison, an insect poison, and a cobra-poison.”)
ซง NP2 มหลาย Noun2 ทมแนวความคดหลกคอ ‘พษ/poison’ แตไมเหมอนกนในรายละเอยด เชน พษไข/fever-poison พษแมลง/insect-poison พษง/cobra-poison
ดงนนการสกดความรเชงความสมพนธจากเอกสารสาหรบงานวจยนมวธการหลกบนพนฐานของเหตการณทแสดงออกดวยกรยาวลซงสามารถประยกตใชไดกบภาษาอน นอกจากนความรเชงความ สมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’สามารถถกจดเกบรวบรวมในรปแบบ Matrix เพองายตอการเขาถงขอมลสาหรบการสรางตวแทนองคความรเชงความสมพนธดวยเครอขายวงแหวน เสมอน ซงงายสาหรบการทาความเขาใจในการแกไขปญหาสขภาพ
26
สรป
งานวจยนมงเนนการสกดและเกบรวบรวม ความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ (Herb-MedicinalProperty Relation) จากเอกสารบนเวบตางๆทเผยแพรองคความรเกยวกบพชสมนไพรไทย และควรเปนเวบของหนวยงานหรอองคกรทเปนทรจกของคนทวไป เชน เวบไซดของโครงการอนรกษพนธกรรมพชอนเนองมาจากพระราชดารฯ (http://www.rspg.or.th/plants_data/ herbs/herbs_200.htm)และสารานกรมไทย(http://kanchanapisek.or.th/kp6/sub/book/book.php? book=14&chap=10&page=chap10.htm) เนองจากพชสมนไพรไทยมอยมากมายหลายขนดซงมคณสมบตและสรรพคณแตกตางกนไปตามสายพนธ และแมแตสายพนธเดยวกนกยงแตกตางกนตามสวนประกอบของพช เชน ราก ใบ ดอก ผล เปนตน ดงเชนตามผลงานวจยนทไดสกดและเกบรวบรวมความสมพนธ ‘พช/สวนของพชสมนไพร-สรรพคณทางยา’ ไวในลกษณะตารางทสามารถแสดงหรอแทนความสมพนธดงกลาวออกมาในรปแบบความสมพนธเชงเนตเวรค ซงทาใหสามารถเขาใจไดงายขน และงายตอการเขาถงระบบฐานขอมลสาหรบระบบตอบถามอตโนมต ตวอยางเชน คาถาม:ขอรายชอสมนไพรและสวนของสมนไพร แก/บรรเทาอาการไอ คาถาม:ใบโหระพามสรรพคณทางยาอะไรบาง เปนตน ฉะนนความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ ทสกดไดและเกบรวบรวมจากงานวจยนสามารถนาไปพฒนาตอใหเขากบระบบตอบถามอตโนมต สาหรบศนยใหบรการความร (Knowledge Service-Center Portal) แกชมชน อยางไรกตามงานวจยทเกยวกบภาษาไทยยงมขอจากดมากมาย เชน การไมมตวคน การละคา การละวล เปนตน ทาใหเปนอปสรรคตอพฒนาแอปพลเคชนตางๆบนเวบเชน ระบบสอบถามองคความรอตโนมต หรอ ระบบตอบถามอตโนมต เปนตน ดงนนจงเปนเหตผลหนงทงานวจยนใชกลมของแกนคาทรวมเปน N-Word-Co และมแนวความคดสรรพคณทางยาทาหนาทแทนประโยคทมแนวความคดสรรพคณทางยา ฉะนนเมอประโยคคาถามม N-
Word-Co ทกลาวมาขางตนอยดวย กจะทาใหสมารถวเคราะหคาถามไดเรวขน อยางไรกตามงานวจยนสามารถสกด ไดดวยคาความแมนยา และคาระลก 88.9% และ79.4% ตามลาดบจากเอกสารภาษาไทย และใช N-Word-Co ทสกดไดถกตองสกดความรเชงความสมพนธ ‘สวนของพชสมนไพร-สรรพคณทางยา’ จากเอกสารภาษาไทยไดคาความแมนยา และคาระลก 90% และ77.5% ตามลาดบ ทงนทมคาระลกตาเพราะปญหาประโยคความซอน และปญหานามวล และบางครงรวมไปถงการละนามวล เปนตน งานวจยนนอกจากสามารถนาไปประยกตกบระบบถาม-ตอบอตโนมตเกยวกบความรสรรพคณทางยาของพชสมนไพรไทย แลวยงสามารถเชอมตอกบระบบการวนฉยและการแกปญหาอตโนมต (Automatic Diagnosis and Problem-Solving System) เพอใหความรและสนบสนนการตดสนใจในการแกใขปญหาเบองตนใหกบผใช
27
บรรณานกรม
Berger A.L., Della Pietra S.A., and Della Pietra V.J.(1996). A Maximum Entropy approach to natural language processing. In Computer Linguistics, vol.22,no.1, p.39–71.
Biggins S., Mohammed S., and Oakley S. (2012). University Of Sheffield:Two Approaches to Semantic Text Similarity. In: Proc. of First Joint Conference on Lexical and Computational Semantics, Montre al, Canada, p. 655–661.
Carlson L., Marcu D., Okurowski M. E.(2003). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. In Current Directions in Discourse and Dialogue, p.85-112.
Chanlekha H. and Kawtrakul A.(2004). Thai Named Entity Extraction by incorporating Maximum Entropy Model with Simple Heuristic Information. IJCNLP’ 2004 proceedings, p.1-7.
Chareonsuk J., Sukvakree T., and Kawtrakul A.(2005). Elementary Discourse unit Segmentation for Thai using Discourse Cue and Syntactic Information. NCSEC 2005 proceedings , p.85-90.
Fang Y-C, Huang H-C, Chen H-H, and Juan H-F.(2008). TCMGeneDIT: a database for associated traditional Chinese medicine, gene and disease information using text mining. BioMed Central Complementary and Alternative Medicine.,8:58.
Haruechaiyasak C., Pailai J., Viratyosin W., and Kongkachandra R.(2011). ThaiHerbMiner: A Thai Herbal Medicine Mining and Visualizing Tool. In Proc. Of the 2011Workshopon Biomedical Natural Language Processing, Portland,Oregon,USA,June23-24,,ACL-HLT2011,p.186–187.
Paşca M. (2008).Turning Web Text and Search Queries into Factual Knowledge: Hierarchical Class Attribute Extraction. In Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence, p.1225-1230.
Recupero D.R., Nuzzolese A.G., Consoli S., Presutti V., Peroni S., and Mongiovì M. (2015). Extracting knowledge from text using SHELDON, a Semantic Holistic framEwork for LinkeD ONtology data. The International World Wide Web Conference Committee (IW3C2), Florence, Italy, p.235–238.
Riaz M. and Girju R.(2014). Recognizing Causality in Verb- Noun Pairs via Noun and Verb Semantics. In Proceedings of the EACL 2014 Workshop on Computational Approaches to Causality in Language BioNLP 2014, USA , p.48-57.
Sudprasert S. and Kawtrakul A. (2003).. Thai Word segmentation based on Global and Local Unsupervised Learning. NCSEC 2003 proceeding, p.1-8,