Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
NU Science Journal 2013; 9(2) : 47 - 64
การวเคราะหประสทธภาพของระบบสบคนขอมลออนโทโลจทองเทยวดวยอลกอรทม ISG และ Name Variation Matching
นฤพนธ พนาวงศ และ จกรกฤษณ เสนห นมะหต*
Performance Analysis of an Ontology-Based Tourism Information System with ISG Algorithm and Name Variation Matching
Naruepon Panawong and Chakkrit Snae Namahoot*
ภาควชาวทยาการคอมพวเตอรและเทคโนโลยสารสนเทศ คณะวทยาศาสตร มหาวทยาลยนเรศวร จงหวดพษณโลก 65000
*Corresponding author. Email: [email protected]
บทคดยอ
เมอนกทองเทยวตองการสบคนขอมลทองเทยวสวนมากจะท าการสบคนผานเสรชเอนจนทไดรบความนยมอยางกเกล แตผลลพธทไดนนมจ านวนมากอาจตองเสยเวลาในการเขาถงขอมลจากหลายเวบไซตและผลลพธทไดอาจไมตรงกบความตองการ อกทงในบางเวบไซตน าเสนอขอมลบนเวบไซตทอาจมการเขยนไมถกตองตามหลกภาษาไทยหรอภาษาองกฤษกจะท าใหไดผลของการสบคนไมพบเวบไซตทเขยนไมถกตอง ดงนนผวจยจงไดน าออนโทโลจมาจดเกบขอมลทองเทยว ซงท าใหขอมลออนไลนทเนอหาเดยวกนแตมรปแบบการน าเสนอทแตกตางกนเพอสามารถเชอมโยงขอมลการทองเทยวตาง ๆ อยางมความสมพนธตอกน อกทงอลกอรทม ISG (Index of Similarity Group) จะถกน ามาใชในการกรองขอมลชอทสามารถเขยนไดหลายรปแบบหรอมความคลายคลงกน ทงค าพองรป พองเสยงหรอสะกดผดในภาษาไทยหรอภาษาองกฤษ เพอใหไดเวบไซตทเขยนผดถกคนพบ การวดประสทธภาพของอลกอรทม ISG และ Name Variation Matching ในงานวจยนจะใช F-Measure ซงจากผลการวจยพบวา อลกอรทม ISG และ Name Variation ทใชในการกรองขอมลชอแหลงทองเทยวของระบบสบคนขอมลออนโทโลจทองเทยวท งภาษาไทยและภาษาองกฤษนนมประสทธภาพไมแตกตางกน ซงอยในเกณฑด
ค าส าคญ: การสบคนขอมล ออนโทโลจ ขอมลออนโทโลจทองเทยว อลกอรทมเนมแมทชง
การวดประสทธภาพดวย F-Measure
48 NU Science Journal 2013; 9(2)
Abstract
To extract tourism information, most travelers rely on web search engines such as, Google, so they will face with a ton of web pages from results. Consequently, they have time consuming to access multiple websites and might not get what they need. Moreover, if keywords or Web site contents are misspelled in Thai or in English, the search results will consist of incomplete or incorrect information. To deal with these problems, we adopt an ontology to connect similar information for different platforms. The ISG algorithm (Index of Similarity Group) is used to make connections several forms in both Thai and English words, such as homograph, homophone and misspelling. In order to validate this algorithm and Name Variation Matching, F-Measure is used. The results show that ISG and Name Variation can classify attraction places information with names in Thai language as well as in English language effectively. Keywords: Information Retrieval, Ontology, Tourism Ontology, Name Matching Algorithm,
F-Measure
บทน า การทองเทยวถอเปนอตสาหกรรมบรการทท าใหประเทศมรายไดเพมขนและยงมบทบาทตอ
การพฒนาเศรษฐกจของชาตอกดวย ท งนในปจจบนพบวามขอมลทองเทยวเปนจ านวนมากทถกน าเสนอบนอนเทอรเนตและมรปแบบการน าเสนอทแตกตางกนออกไป เชน รปแบบขอความ รปแบบมลตมเดย เปนตน ซงในการคนหาขอมลทองเทยวเพอใหไดตรงกบความตองการของนกทองเทยวนนจงมความส าคญตอนกทองเทยวเปนอยางมาก โดยเฉพาะการปอนค าคนหาทบางครงมการเขยนผดโดยไมตงใจหรอการเขยนหรอสะกดค าไมถกตองตามหลกภาษาไทยหรอภาษาองกฤษ หรอมการใชค าคนหาทเปนชอเรยกอนๆ ของสถานทน นๆ เชน ว ดใหญ หมายถง วดพระศรรตนมหาธาตวรมหาวหาร สองแคว หมายถง จงหวดพษณโลก เปนตน ซงท าใหไดผลลพธตรงและไมตองกบความตองการปะปนกนอย
ในงานวจยนไดวเคราะหประสทธภาพของระบบสบคนขอมลออนโทโลจทองเทยวทน าอลกอรทม Name Variation Matching มาสรางค าทคลายคลงกนตามตวสะกดทสามารถเขยนแทนกนได เชน แมกก แมกน แมกบ แมกด และค าพองรป พองเสยง เชน พ คลาย ภ หรอ ร คลาย ล เพอแกปญหาค าทมการเขยนผดหรอไมถกตองตามหลกภาษาไทยและภาษาองกฤษ ท าใหเวบไซตทเขยน
NU Science Journal 2013; 9(2) 49
ผดสามารถถกคนพบ แตเนองจาก Name Variation ทถกสรางขนมจ านวนมาก ผวจยจงใชอลกอรทม ISG เพอกรองขอมลกอนน าไปสบคนในเวบไซตกเกล และวดประสทธภาพของอลกอรทม ISG และ Name Variation ดวย F-Measure วจารณวรรณกรรม
ออนโทโลจ ออนโทโลจไดกลายมาเปนทรจกและใชกนอยางแพรหลายในปจจบน เ ชน สาขา
ปญญาประดษฐ สาขาวชาคอมพวเตอรและสาขาวทยาศาสตรสารสนเทศ โดยเฉพาะอยางยงในขอบเขตสาขาทางดานระบบสารสนเทศ การรวบรวมสารสนเทศทางปญญา การสบคนขอมล การแทนความร การออกแบบฐานขอมล การจดการพนฐานองคความร และระบบการจดการฐานขอมล (Guarino, 1998; Andrade and Saltz, 1999, 2000) โดย Gruber (1993) ไดนยามความหมายของออน-โทโลจซงเปนทรจกกนอยางกวางขวางมากทสดวาออนโทโลจเปนรายละเอยดทชดเจนแนนอนของแนวความคด ดงนนเมอตองการแสดงหรอระบแนวความคดของวตถหรอสงของนน ๆ ควรจะแสดงรายละเอยดทชดเจนและแนนอน Chandrasekaran และคณะ (1999) อกทง Zhang และคณะ (2010) อธบายวาออนโทโลจเปนการรวมศาสตรทางดานปญญาประดษฐและภาษาเครองเขาไวดวยกนเพอทจะแบงปนความรและน าความรตาง ๆ กลบมาใชไดอก นอกจากนยงมการประมวลผลภาษาธรรมชาต การแทนความร (Smith and Welty, 2001) ทสามารถน ามาใชระหวางพฤตกรรมของมนษยและระบบคอมพวเตอรได อกทงยงเปนประโยชนในการสบคนขอมลและการจดการความร โดยรายละเอยดแสดงดวยคอนเซปตตางๆ ในโดเมนทสามารถก าหนดการอธบายไดดวยคลาส สลอต และเงอนไขของสลอตทเรยกวาฟาเซตส (Noy and McGuinness, 2001)
OWL (McGuinness and Harmelen, 2004) ถกสรางขนโดย W3C Web Ontology Working Group (WebOnt) เพอเปนสวนขยายตอจากภาษา RDF (Klyne and Carroll, 2004) ใชในการแกปญหาขอจ ากดในการระบเงอนไขใหกบความสมพนธระหวางคลาสในภาษา RDF ซง OWL นนจดเปนองคประกอบหนงของเวบเชงความหมายทใชในการบรรยายขอมลเชงความหมาย สามารถก าหนดโครงสรางขอมลในลกษณะล าดบชนและอธบายขอมล (Metadata) ทมความสมพนธในระบบฐานขอมลได อกท งยงสามารถใชผสมผสานกนระหวาง RDF และ XML (Extensible Markup Language) ขนอยกบลกษณะของการใชงานและรายละเอยดของขอมล ซงถกจดเกบเปนไฟลนามสกล .owl, .rdf และ .xml ตามล าดบ
50 NU Science Journal 2013; 9(2)
ปจจบนมนกวจยทไดออกแบบและพฒนาออนโทโลจดงตวอยางตอไปน Snae และคณะ(2007) ไดน าเสนอระบบ LOBO (Local Organization Business Ontology) ทใชหลกการออนโทโลจมาใชกบองคกรธรกจตางๆ เพอชวยในการสบคนสารสนเทศแบบพลวตและเปนการผสมผสานขององคประกอบทแตกตางกนในดานความหมาย เชน ชอองคกร สถานท ชวโมงธรกจ จ านวนพนกงาน ซงสามารถคดลอกขอมลโดยตรงจากแหลงขอมลทเปนแบบพลวตได อกทงระบบนไดใชวธเสนอแบบค าถามค าตอบในจงหวดพษณโลก เชน ขอบเขตของธรกจคออะไร จ านวนของบรษททใหบรการอนเทอรเนตเทาไหร โรงแรมทมมาตรฐานระดบสงสดไดแก มหางสรรพสนคาทอยใกลกบสถานรถไฟหรอไม (รศม 1 กโลเมตร) จ านวนบรษททเลกกจกรรมในป 2005 และจ านวนบรษททมพนกงานมากกวา 1000 คน ซงระบบสามารถรวบรวมและสมค าทนาจะอธบายถงสงทอยภายใตขอบเขตขององคกรและธรกจในพษณโลก ท าใหไดขอมลบรเวณขององคกรธรกจ สถานท ค าศพท และชอของธรกจ อกทงยงไดรวบรวมค านยามหรอค าอธบายส าหรบค าหรอชอเหลานนได เพอใหระบบสามารถจบคและแสดงความสมพนธของค าทเกยวกบองคกรธรกจได
Snae และ Brueckner (2007) ไดพฒนาระบบ LOWCOST (Local Organization Search With Consolidated Ontologies for Name, Space and Time) ทใชส าหรบการคนหาองคกรระดบทองถนดวยชอดวยหลกการออนโทโลจในการออกแบบเพอแกปญหารปแบบเวลาทเขยนในรปแบบตางกนใหอยในรปแบบมาตรฐานเดยวกนและน าทฤษฏเนมแมทชงมาแกปญหาชอ ชอสถานท ทมการเขยนแตกตางกนหรอคลายคลงกน ซงใชทงดานการออกเสยง (Phonetic Variation) และความแตกตางดานโครงสรางหรอรปแบบ (Form Variation) หรอขอผดพลาดในการสะกดชอทแตกตางกน (Spelling Variation) มาชวยจากค าทสามารถเขยนไดหลากหลาย โดยใชเครองมอทเรยกวา IT-TELL (Snae et al., 2006) รวมถงการเขยนชอในรปแบบชอเตมและชอยอ โดยระบบสามารถชวยในการคนหาประวตขององคกร ชอขององคกรทมการเขยนแตกตางกนหรอคลายคลงกนและการคนหาแบบ Temporal และ Spatial ได เพอใหไดค าตอบทถกตอง
Brueckner และคณะ (2008) ไดน าเสนอการออกแบบระบบการคนหาสถานทตางๆ ในแผนทกเกล โดยใชหลกการออนโทโลจเพอสนบสนนการคนหาจากค าคนหาทใชภาษาไทย ภาษาองกฤษและภาษาญปนและมใชหลกการเนมแมทชงดวยอลกอรทม Canonical Name Matching มาชวยในการแกปญหาการพมพชอทสามารถเขยนไดหลากหลายหรอคลายคลงกนเพอใหไดค าตอบทใกลเคยงมากทสดและแสดงผลลพธไดอยางรวดเรว อกท งยงจะไดแสดงผลการคนหาดวยแผนทกเกลโดยใช Geographic Markup Language (GML) and the Keyhole Markup Language (KML)
Dema (2008) ไดน าหลกการออนโทโลจมาใชในการสรางองคความรส าหรบการเดนทางและวางแผนทองเทยวใหกบนกทองเทยวในประเทศภฐาน (eTourPlan) ทจดเกบอยในรปแบบไฟล
NU Science Journal 2013; 9(2) 51
RDF และใช Partonomy Rules ในการเขารหสพนททางภมศาสตร พรอมทงจดการพนฐานของการคนหากจกรรมทองเทยว เทศกาล สถานททองเทยว ทพกและแนะน าเสนทางในการเดนทางไปยงสถานทๆ ตองการ อกทงยงไดน า OO jDREW (Object Oriented java Deductive Reasoning Engine for the Web) ซงเปนซอฟตแวรรหสเปด (Open Source) มาใชส าหรบจดการกฎตางๆ ทมเพอแสดงผลการคนหาขอมลการทองเทยวและวางแผนการทองเทยว ซงองคความรทใชในงานวจยนประกอบไปดวย 115 คลาส 73 แฟกซ และ 37 กฎ ทเกบขอมลการทองเทยวในประเทศภฐาน รวมไปถงการค านวณเสนทางระหวางจงหวด โดยมองคความร 3 สวน คอ การคนหาสถานททองเทยว (Search Engine) ระบบแนะน าการทองเทยว (Recommender System) และวางแผนการเดนทาง (Travel Planner) ซงท าการคนหาผานทาง OO jDREW เทานน
จฑามาศ ศรรชนกร และ ฤทธกร เลาอรณ (2549) ยงไดน าเสนอระบบการคนหาขอมลแบบซบซอนส าหรบขอมลการทองเทยวในประเทศไทย โดยใชน าเสนอในรปแบบของเวบเชงความหมายและมการออกแบบขอมลใหมความเชอมโยงความสมพนธกน เพอใหผใชไดผลลพธของคนหาขอมลในสถานทใกล ๆ กนแตการน าเสนอเปนเพยงขอมลทใชภาษาองกฤษเทานนยงไมรองรบการใชภาษาไทย อกทงยงไมรองรบการใชค าคนหาดวยชอเรยกอนๆ ได
นฤพนธ พนาวงศ และ จกรกฤษณ เสนห (2553) ไดออกแบบออนโทโลจทองเทยวประกอบดวย 10 คลาสคอคลาสจงหวด คลาสอ าเภอ คลาสต าบล คลาสเทศกาล คลาสสถานททองเทยว คลาสทพก คลาสการเดนทาง คลาสรานอาหาร คลาสรานขายของฝาก และคลาสรานขายสนคาหนงผลตภณฑหนงต าบล อกทงยงไดพฒนาระบบสบคนขอมลออนโทโลจทองเทยว โดยหากผใชตองการรขอมลแหลงทองเทยวในประเทศไทย ผใชจะปอนค าคนหาจากนนระบบจะดงความรและขอมลตางๆ ทถกเกบไวในออนโทโลจทองเทยวโดยผลลพธทไดนนจะถกน าไปคนหาผลลพธทมการเขยนหรอสะกดคลายคลงกนในเวบไซตตางๆ โดยใช Name Variation Matching Algorithm ประสทธภาพของงานนประเมนไดจากการพยายามท าใหขอมลตางๆ ทไดจากการคนหาทมการเขยนหรอสะกดคลายคลงกนหรอทเกยวของสามารถคนหาเจอไดครบถวนมากทสด และขอมลพนฐานของจงหวดนนๆ จะถกแสดงอยางมความสมพนธกนอยางถกตองครบถวน เชน ค าขวญประจ าจงหวด สญลกษณประจ าจงหวด ตนไมประจ าจงหวด เปนตน
ISG (Index of Similarity Group) ISG เปนอลกอรทมของแนมแมทชง (Name Matching Algorithm) ซงจะใชในการวดหรอ
เปรยบคาความคลายคลงกนระหวางชอโดยมสเกลจาก 0-1 (Snae, 2007) โดยหากคาความคลายคลงระหวางชอมคาเปน 1 หมายถงชอนนเหมอนกน คาความคลายคลงระหวางชอเขาใกล 1 มากเทาใด
52 NU Science Journal 2013; 9(2)
หมายถงชอทงสองมความคลายคลงกนมากเทานน คาความคลายคลงระหวางชอเขาใกล 0 หมายถงชอทงสองมความคลายคลงกนนอยเทานน และคาความคลายคลงระหวางชอมคาเปน 0 แสดงวาชอทงสองไมมความคลายคลงกนเลย อลกอรทมนยงถกน าไปใชในระบบตรวจสอบชอดโดยใชหลกการตงชอแบบทกษาปกรณและการจดกลม (จกรกฤษณ เสนห และ กนกกาญจน นมะหต, 2550) ซงเปนวธการเทยบตวอกษรอยางงาย ไมยงยากและไมซบซอน ท าใหการประมวลผลของการเปรยบเทยบชอและรายชอขอมลเปนไปอยางรวดเรว โดยมสมการในการค านวณดงตอไปน
…………………………………………………..……………(1)
เมอ I คอ จ านวนตวอกษรทเหมอนกนระหวางชอ D คอ ตวอกษรทแตกตางกนระหวางชอ
วธการและการออกแบบระบบ การออกแบบระบบสบคนออนโทโลจทองเทยวนนประกอบไปดวย 3 สวนคอ ออนโทโลจ
ทองเทยว อลกอรทม ISG และสถาปตยกรรมของระบบ การออกแบบออนโทโลจทองเทยว
ในงานวจยนผวจยไดท าการสรางออนโทโลจทองเทยวและจดเกบขอมลทองเทยวทงหมดโดยใชโปรแกรม Protégé และบนทกไวในไฟล OWL ดงรป 1 ซงมลกษณะของการจดเกบแบบ XML ทสามารถก าหนดคณสมบตของคลาสและมการสบทอดเปนคลาสยอยท าให OWL มประโยชนตอรปแบบของ XML Schema ดวย เพราะแสดงออกถงความหมายและความจรงไดมากกวา RDF, RDFS และ XML ดวยเหตนจงจ าเปนตองมการจดกลมขอมลตามความสมพนธไวดวยกนดวยหลกการ ออนโทโลจ โดยแสดงตวอยางการเกบขอมลของจงหวดพษณโลกในไฟล OWL ดงแสดงในรป 2
รป 1 ออนโทโลจทองเทยวโดยใชโปรแกรม Protégé
DII
ISG
NU Science Journal 2013; 9(2) 53
รป 1 แสดงออนโทโลจของขอมลทองเทยวทท าการแบงเปนคลาสตางๆ เชน คลาสจงหวด (ThaiProvince) คลาสเทศกาล (ThaiEvent) คลาสสถานททองเทยว (ThaiAttraction) คลาสทพก (ThaiAccommodation) คลาสการเดนทาง (ThaiTransportation) เปนตน
รป 2 ตวอยางการเกบขอมลในไฟล OWL (tourism.owl)
รป 2 แสดงตวอยางการเกบขอมลจงหวดพษณโลก โดยในแตละ Tag นนจะมคา Property ทแสดงถงการเกบขอมลภาษาไทย (xml:lang=“th”) และภาษาองกฤษ (xml:lang=“en”) หรอหากตองการเกบภาษาอนๆ กใหก าหนดในคา Property นได ซงสามารถอธบายในแตละ Tag ไดดงน
myont:hasNameOfProvince เกบชอจงหวด myont:hasTraditionalNameOfProvince เกบชอเดมหรอชอเรยกอนๆ ของจงหวด
54 NU Science Journal 2013; 9(2)
myont:hasMotto เกบค าขวญประจ าจงหวด myont:hasFlowers เกบชอดอกไมประจ าจงหวด myont:hasSeals เกบสญลกษณประจ าจงหวด myont:hasTree เกบชอตนไมประจ าจงหวด myont:hasURLOfProvince เกบทอยเวบไซตประจ าจงหวด myont:hasImageOfProvince เกบชอรปภาพ myont:hasLongtitudeOfProvince เกบคาลองตจด myont:hasLatitudeOfProvince เกบคาละตจด
ในงานวจยนไดใชอลกอรทม ISG (รปท 3) เพอหาคาความคลายคลงของชอจงหวดทมการสะกดผดหรอเขยนผดซงปรากฏอยในเวบไซตทองเทยวตางๆ บนอนเทอรเนต ซงจะชวยใหชอทมการเขยนผดหรอสะกดผดและปรากฏอยในขอมลทองเทยวสามารถถกสบคนพบในอนเทอรเนตได เชน ถาเราจะคนหาค าวา พษณโลก (Phitsanulok) อลกอรทมจะน าค าตางๆ ทไดจากอลกอรทม Name Variation Matching มาท าการคดกรองโดยค านวณความคลายคลง ดงตวอยางทแสดงในตาราง 1 และตาราง 2 โดยอลกอรทม ISG มหลกการท างานดงตอไปน 1. รบชอ 2 ชอและค านวณหาความยาวของชอทงสอง โดยยดชอทมความยาวสงสดเปนหลก 2. ก าหนดคาเรมตนของตวชต าแหนงอกษร คาความเหมอนและคาความแตกตาง ใหมคาเปน ศนย 3. ตรวจสอบตวชต าแหนงอกษรกบความยาวสงสดของชอ หากพบวาตวชต าแหนงมากกวาความยาวสงสดของชอแลวใหไปท างานขอท 8 4. ถาตวอกษรของชอทงสองเหมอนกนใหเพมคาความเหมอนในต าแหนงใดๆ 5. ถาตวอกษรของชอทงสองไมเหมอนกนใหเพมคาความแตกตาง 6. เพมคาตวชต าแหนงอกษร 7. กลบไปยงขอท 3 8. ค านวณหาคา ISG จากสตร 1
NU Science Journal 2013; 9(2) 55
รป 3 อลกอรทม ISG
ตาราง 1 ตวอยางการค านวณชอจงหวดพษณโลก (ภาษาไทย) ดวยอลกอรทม ISG
ล าดบ ชอทคลายคลง กบ จงหวด พษณโลก
จ านวนตวอกษรทเหมอนกน
(I)
จ านวนตวอกษรทแตกตางกน
(D)
คา ISG I/(I+D)
จ านวนรายการ ทพบ (กเกล, กนยายน 2554)
1. พษณโลก 8 0 1.0000 5,470,000 2. พษะณโลก 8 1 0.8889 110,000 3. พดษะณโลก 8 2 0.8000 76,200 4. พดสะณโลก 7 3 0.7000 2,290,000 5. พจสะณโลก 7 3 0.7000 2,200,000 6. พษนโลก 7 1 0.8750 931,000 7. พตสะณโลก 7 3 0.7000 106,000 8. พจสะนโลก 6 4 0.6000 10,100,000 9. พสสะนโลก 6 4 0.6000 1,230,000 10. พดโลก 5 3 0.6250 5,770,000 11. ภฎสะนโลก 4 6 0.4000 3,000,000 12. ภดศะนโลก 4 6 0.4000 197,000 13. พดสะนโรก 4 6 0.4000 15,300,000 14. พดศะนโรก 4 6 0.4000 1,200,000 15. พดโรก 3 5 0.3750 66,700,000
$len1 = strlen($var1); $len2 = strlen($var2); $pointer = 0; $same = 0; $diff = 0; Loop:
if ($pointer > $maxvarlen) return ($same/($same+$diff));
if ( comparechar($var1,$var2) > 0) $same++; else $diff++; $pointer++;
Goto Loop:
56 NU Science Journal 2013; 9(2)
ตาราง 2 ตวอยางการค านวณชอจงหวด Phitsanulok (ภาษาองกฤษ) ดวยอลกอรทม ISG
ล าดบ ชอทคลายคลงกบจงหวด
Phitsanulok
จ านวนตวอกษรทเหมอนกน
(I)
จ านวนตวอกษรทแตกตางกน
(D)
คา ISG I/(I+D)
จ านวนรายการ ทพบ (กเกล, กนยายน 2554)
1. phitsanulok 11 0 1.0000 1,240,000 2. phisanulok 10 1 0.9091 603,000 3. pitsanulok 10 1 0.9091 117,000 4. pisanulok 9 2 0.8182 17,200 5. phitsanurok 10 1 0.9091 1,910 6. phisanuklok 10 1 0.9091 105 7. phitzanulok 10 1 0.9091 53 8. phitsanoolok 10 2 0.8333 6 9. phitsanoklok 10 2 0.8333 3
10. phisanooklok 9 3 0.7500 1 11. pheedzanoorok 6 7 0.4615 0 12. pedzanoorok 5 6 0.4545 0 13. pedzanuroc 5 7 0.4167 0 14. peetzanooroc 5 7 0.4167 28 15. peedzanooroc 4 8 0.3333 0
ตาราง 1 และตาราง 2 แสดงตวอยางการการค านวณชอจงหวดพษณโลกทมการเขยน
หลากหลายแบบตามหลกการออกเสยงในภาษาไทยและภาษาองกฤษ พรอมแสดงตวอยางวธการค านวณคา ISG ระหวางชอ 2 ชอในภาษาไทยและชอภาษาองกฤษ โดยการเปรยบเทยบจะใชวธการเปรยบเทยบจากชอทมจ านวนตวอกษรมากทสด ตวอยางเชน พษณโลก กบ พดสะนโรก มตวอกษรทเหมอนกน 4 ตว คอ พ สระอ โ ก และมตวอกษรตางกน 6 ตว คอ สระอ ด ส สระอะ น ร และ phitsanulok กบ phisanuklok มตวอกษรเหมอนกน 10 ตว คอ p h i s a n u l o k และมตวอกษรตางกน 1 ตวคอ t
NU Science Journal 2013; 9(2) 57
สถาปตยกรรมของระบบสบคนขอมลออนโทโลจทองเทยว
รป 4 สถาปตยกรรมของระบบสบคนขอมลออนโทโลจทองเทยว
รป 4 แสดงสถาปตยกรรมของระบบสบคนขอมลออนโทโลจทองเทยว โดยมหลกการท างานดงตอไปน 1. ปอนชอจงหวดหรอชอแหลงทองเทยวทตองการคนหา 2. Name Variation Matching Algorithm จะสรางชอทสามารถเขยนไดหลากหลายหรอคลายคลงกนชอในขอท 1 และจดเกบลงฐานขอมล การท างานของ Name Variation Matching มดงตอไปน 2.1 ตรวจสอบวาเปนภาษาไทยหรอภาษาองกฤษ 2.2 กรณเปนภาษาไทยสรางชอจากความคลายคลงของพยญชนะและตวสะกด แตหากเปนภาษาองกฤษสรางชอจากความคลายคลงของตวอกษร (Snae et al., 2007; Snae and Brueckner, 2009) ดงแสดงตวอยางตามตาราง 3 และตวอยางโปรแกรมในรปท 5
58 NU Science Journal 2013; 9(2)
ตาราง 3 ตวอยางการท างานของอลกอรทม Name Variation Matching ล าดบ ค าคนหา ต าแหนงตวอกษร ตวอกษรทเปลยน เปลยนเปน ค าทได
1. พษณโลก 1 พ ภ ภษณโลก 2. พษณโลก 2 ษ ศ พศณโลก 3. ภษณโลก 2 ษ ศ ภศณโลก 4. พษณโลก 3 ณ น พษณโลก 5. ภษณโลก 3 ณ น ภษนโลก 6. พศณโลก 3 ณ น พศนโลก 7. ภศณโลก 3 ณ น ภศนโลก
$varname = strtolower($varname); $vlen = strlen($varname); for ($i = 0; $i < $vlen; $i++) { if ($varname[$i] == "พ") $namevar = substr($namevar,0,strpos($namevar,$varname[$i]))."ภ".substr($varname,$i+1); else if ($varname[$i] == "ษ") { $tmp = substr($namevar,0,strpos($namevar,$varname[$i])); $namevar = $tmp."ศ".substr($varname,$i+1); $namevar = $tmp."ส".substr($varname,$i+1); } }
รป 5 ตวอยางอลกอรทม Name Variation Matching 3. น าชอทไดจากขอท 2 ไปตรวจสอบชอทมความคลายคลงกนมากทสด และท าการคดกรอง ดวยอลกอรทม ISG ซงจะใชคา ISG ทมคามากกวาหรอเทากบ 0.5 ในการคดกรอง 4. น าชอตางๆ ทไดจากขอ 3 ไปท าการสบคนหาขอมลในกเกล โดยใชเทคนค web crawler ในการดงขอมลจากผลลพธของการคนหาจากกเกล 5. แสดงผลลพธของการสบคนจากขอ 4 6. น าผลลพธจากการแสดงในขอ 5 มาค านวณหาประสทธภาพของระบบดวย F-Measure 7. แสดงคาของ F-Measure
NU Science Journal 2013; 9(2) 59
การทดสอบและผลลพธ ในการวดประสทธภาพการสบคนผวจยไดใช F-Measure (Christen and Goiser, 2007)
ส าหรบค าคนหาในภาษาไทยและภาษาองกฤษ ซงท าการวเคราะหขอมลทองเทยวทนยมใน 20 จงหวด (ตาราง 4 และตาราง 5) แลวน าชอดงตวอยางในตาราง 4 และตาราง 5 ไปสบคนหาขอมลในกเกลซงไดผลลพธของรายการเวบไซตรวมกนทงหมดเปนจ านวน 1,148,348 รายการ แบงเปนเวบไซตจากค าคนหาภาษาองกฤษจ านวน 387,767 และเวบไซตจากค าคนหาภาษาไทยจ านวน 760,581 จากนนท าการวเคราะหประสทธภาพการสบคนตามสมการ (2) ดงตอไปน
…………………….……………...……………….(2)
เมอ P คอ True Positive/(True Positive + False Positive) R คอ True Positive/(True Positive + False Negative) True Positive คอ ค าคนหาทมคา ISG มากกวาหรอเทากบ 0.5 False Positive คอ ค าคนหาทมคา ISG มากกวาหรอเทากบ 0.5 และไมพบในกเกล True Negative คอ ค าคนหาทไมพบในกเกล False Negative คอ ค าคนหาทมคา ISG นอยกวา 0.5 และไมพบในกเกล
ตาราง 4 ตวอยางผลจากการกรองขอมลดวยอลกอรทม ISG (ภาษาไทย) ล าดบ ค าคนหา Variation ISG >= 0.5 พบในกเกล ไมพบในกเกล
1. พษณโลก 208 169 208 0 2. กาญจนบร 96 78 96 0 3. ขอนแกน 6 2 6 0 4. ชยภม 64 38 64 0 5. เชยงใหม 16 16 16 0 6. เพชรบร 224 124 220 4 7. ภเกต 17 4 16 1 8. สโขทย 73 33 72 1 9. สรนทร 588 250 588 0 10. หนองคาย 13 7 12 1
RPR*P
2measureF
60 NU Science Journal 2013; 9(2)
ตาราง 5 ตวอยางผลจากการกรองขอมลดวยอลกอรทม ISG (ภาษาองกฤษ) ล าดบ ค าคนหา Variation ISG >= 0.5 พบในกเกล ไมพบในกเกล
1. phitsanulok 341 312 83 258 2. kanchanaburi 91 86 61 30 3. khonkaen 58 39 46 12 4. chaiyaphum 37 36 29 8 5. chiangmai 43 22 28 15 6. phetchaburi 341 223 85 256 7. phuket 72 32 70 2 8. sukhothai 265 180 174 91 9. surin 37 19 36 1 10. nongkhai 109 80 86 23
จากตาราง 4 และตาราง 5 แสดงผลจากการกรองขอมลดวยอลกอรทม ISG ทงในภาษาไทยและภาษาองกฤษ โดยในชอง Variation แสดงจ านวนค าทสามารถเขยนไดหลากหลายรปแบบ โดยค าเหลานไดมาจากการท างานของ Name Variation Matching Algorithm ซงในแตละค าคนหานนจะไดจ านวนของ variation ไมเทานน ทงนเนองจากความยาวของค าคนหาทไมเทากนและจากการสะกดค าของภาษาไทย ท าใหบางค าทไดจากการท างานของอลกอรทม variation นนไมพบในกเกลเลย จากนนแสดงจ านวนของค าคนหาทมคา ISG >= 0.5 จ านวนค าทเขยนไดหลากหลายรปแบบทถกพบจากผลลพธของการสบคนจากเวบไซตกเกลและจ านวนค าทเขยนไดหลากหลายรปแบบทไมถกพบจากผลลพธของการสบคนจากเวบไซตกเกลตามล าดบ แตเนองจาก Name Variation ทถกสรางขนมจ านวนมาก ผวจยจงใชอลกอรทม ISG เพอกรองขอมลกอนน าไปสบคนในเวบไซตกเกล ตาราง 6 การวดประสทธภาพของอลกอรทมดวย F-Measure (ภาษาไทย) ล าดบ ค าคนหา T+ F+ T- F- P R F-Measure
1. พษณโลก 169 0 0 39 1.0000 0.8125 0.8966 2. กาญจนบร 78 0 0 18 1.0000 0.8125 0.8966 3. ขอนแกน 2 0 0 4 1.0000 0.3333 0.5000 4. ชยภม 38 0 0 26 1.0000 0.5938 0.7451 5. เชยงใหม 16 0 0 0 1.0000 1.0000 1.0000
NU Science Journal 2013; 9(2) 61
ตาราง 6 (ตอ) ล าดบ ค าคนหา T+ F+ T- F- P R F-Measure
6. เพชรบร 124 0 4 96 1.0000 0.5636 0.7209 7. ภเกต 4 0 1 12 1.0000 0.2500 0.4000 8. สโขทย 33 0 1 39 1.0000 0.4583 0.6286 9. สรนทร 250 0 0 338 1.0000 0.4252 0.5967 10. หนองคาย 7 0 1 5 1.0000 0.5833 0.7368
คาเฉลย 1.0000 0.5833 0.7121
ตาราง 7 การวดประสทธภาพของอลกอรทมดวย F-Measure (ภาษาองกฤษ) ล าดบ ค าคนหา T+ F+ T- F- P R F-Measure
1. phitsanulok 80 258 0 3 0.2367 0.9639 0.3800 2. kanchanaburi 60 26 4 1 0.6977 0.9836 0.8163 3. khonkaen 39 3 4 12 0.9286 0.7647 0.8387 4. chaiyaphum 29 7 1 0 0.8056 1.0000 0.8923 5. chiangmai 20 8 7 8 0.7143 0.7143 0.7143 6. phetchaburi 80 165 86 10 0.3265 0.8889 0.4776 7. phuket 32 0 2 38 1.0000 0.4571 0.6275 8. sukhothai 170 27 24 44 0.8629 0.7944 0.8273 9. surin 19 0 1 17 1.0000 0.5278 0.6909
10. nongkhai 60 7 16 26 0.8955 0.6977 0.7843 คาเฉลย 0.7468 0.7792 0.7049
จากตาราง 6 และตาราง 7 แสดงการวดประสทธภาพของอลกอรทมดวย F-Measure ทค านวณไดจากสมการ (2) ซงแสดงตวอยางการค านวณจงหวด “พษณโลก” ไดดงน F-Measure = 2*{{[169/(169+0)]*[169/(169+39)]}/ {[169/(169+0)]+[169/(169+39)]}} = 2*{{1*0.8125}/{1+0.8125}} = 2*{0.8125/1.8125} = 2* 0.4482 = 0.8964
62 NU Science Journal 2013; 9(2)
ส าหรบการค านวณชอภาษาไทยชออนและชอภาษาองกฤษนนจะมการค านวณเชนเดยวกนกบตวอยางชอจงหวด “พษณโลก” ในงานวจยนพบวาค าคนหาทมาจากภาษาไทยมคา F-Measure เทากบ 0.7121 หรอคดเปน 71.21% และค าคนหาทมาจากภาษาองกฤษมคา F-Measure เทากบ 0.7049 หรอคดเปน 70.49% ซงมคาใกลเคยงกนและถอวามประสทธภาพของระบบอยในเกณฑด บทสรปและขอเสนอแนะ
ในงานวจยนผวจยไดน าเสนอผลของการวเคราะหประสทธภาพของระบบสบคนขอมล ออนโทโลจทองเทยวโดยใชอลกอรทม Name Variation Matching และ ISG มาชวยในการกรองขอมลเพอใหไดขอมลทมความคลายคลงหรอใกลเคยงกบความตองการของผใชมากทสด โดยจะชวยใหขอมลทองเทยวทมการเขยนผดรปผดเสยง สามารถคนหาเจอไดในอนเทอรเนต อกทงผวจยยงไดท าการวเคราะหประสทธภาพของระบบสบคนขอมลออนโทโลจทองเทยวดวย F-Measure ซงพบวาระบบคนหาชอแหลงทองเทยวท งภาษาไทยและภาษาองกฤษมประสทธภาพใกลเคยงกนซงอยในเกณฑด
ในอนาคตผวจยจะท าการวเคราะหผลลพธทไดจากการสบคนในเวบไซตกเกลเพอเฉพาะเวบไซตเกยวกบทองเทยวเทานน ซงจะวเคราะหในแตละเวบดวยหลกการค านวณน าหนกค าในโครงสรางของเวบไซต (เกรยงกมล ค ามา และ จกรกฤษณ เสนห นมะหต, 2555) โดยใชค าคนหาจากออนโทโลจทองเทยวทออกแบบไวเพอใหไดผลทมความนาเชอถอมากยงขนและจะใชอลกอรทมนา-อฟเบย (Patil and Pawar, 2012) ส าหรบจดหมวดหมทองเทยวเพอใหสะดวกในการเขาถงเวบไซตทเกยวกบทองเทยวอยางมประสทธภาพ
เอกสารอางอง จกรกฤษณ เสนห และ กนกกาญจน นมะหต. (2550). ระบบตรวจสอบชอดโดยใชหลกการตงชอแบบ
ทกษาปกรณและการจดกลม. วารสารวทยาศาสตร มหาวทยาลยนเรศวร, 4(1), 89-106 เกรยงกมล ค ามา และ จกรกฤษณ เสนห นมะหต. (2555). ระบบวเคราะหเวบไซตอนาจารดวย กลมค าเชงความหมายค าอนาจารใน HTML Tags. การประชมวชาการระดบชาตวทยาศาสตร วจย ครงท 4, 17-21 จฑามาศ ศรรชนกร และ ฤทธกร เลาอรณ. (2549). ระบบการคนหาขอมลแบบซบซอนส าหรบขอมล
การทองเทยวในประเทศไทย. สบคนเมอ 20 ธนวาคม 2552, จาก http://cpe.kmutt.ac.th/previousproject/2006/26/Index.htm
NU Science Journal 2013; 9(2) 63
นฤพนธ พนาวงศ และ จกรกฤษณ เสนห. (2553). ระบบคนหาสถานททองเทยวในประเทศไทยดวย หลกการออนโทโลจและเนมแมทชง. Journal of Information Science and Technology, 1(2), 60-69
Andrade, H. and Saltz, J. (1999). Towards a Knowledge Base Management System KBMS: An Ontology-Aware Database Management System DBMS. Proceedings of the 14th Brazilian Symposium on Database, Florianopolis, Brazil, 27-39
Andrade, H. and Saltz, J. (2000). Query Optimization in Kess An Ontology-Based KBMS. Proceedings of the 15th Brazilian Symposium on Databases (SBBD’2000), Joao Pessoa, Brazil, 35-48
Brueckner, M., Snae, C. and Payakpate, J. (2008). Ontology-based name matching of toponyms for geographical information systems (ONTO-GIS). LADIS International Conference ICT, Society and Human Beings, Amsterdam, The Netherlands, Jul., 108-114
Chandrasekaran, B., Josephson, J.R. and Benjamins, V.R. (1999). What are ontologies And Why Do We Need Them. IEEE Intelligent System, 14(1), 20-26
Christen, P. and Goiser, K. (2007). Quality and complexity measures for data linkage and deduplication. Quality Measures in Data Mining, Studies in Computational Intelligence, 43, 127-151
Dema, T. (2008). eTourPlan: A knowledge-based tourist route and activity planner. Master thesis, M.Sc., University of New Brunswick, Canada.
Gruber, T.R. (1993). A Translation Approach to Portable Ontology Specification. Knowledge Acquisition, 5(2), 199-220
Guarino, N. (1998). Formal Ontology and Information Systems. In Proceedings of the Third Conference FOIS’98, ISO Press, Trento, Italy, 3-15
Klyne, G. and Carroll, J.J. (2004). Resource Description Framework (RDF): Concepts and Abstract Syntax, W3C Recommendation, W3C, February. Retrieved November 25 2010, from : http://www.w3.org/TR/2004/REC-rdf-concepts-20040210
McGuinness, D.L. and Harmelen, F.V. (2004). Owl Web Ontology Language Overview, World Wide Web Consortium (W3C) Recommendation. Retrieved November 25 2010, from : http://www.w3.org/TR/owl-features
Noy, N.F. and McGuinness, D.L. (2001). Ontology Development: A Guide to Creating Your First
64 NU Science Journal 2013; 9(2)
Ontology. Technical Report KSL-01-05, Stanford Knowledge Systems Laboratory Patil, A. S. and Pawar, B. V. (2012). Automated Classification of Web Sites using Naïve Bayesian Algorithm. Proceedings of the International MultiConference of Engineers and Computer Scientists 2012, 1, 519-523 Smith, B. and Welty, C. (2001). Formal Ontology in Information Systems. Proceedings of the
International conference on formal Ontology in Information Systems, Ogunquit, Maine, New York: ACM Press
Snae C. (2007). A Comparison and Analysis of Name Matching Algorithms. International Journal of Applied Science. Engineering and Technology, 4(1), 252-257
Snae, C. and Brueckner, M. (2007). LOWCOST: Local organization search with consolidated ontologies for name, space and time. in International Conference on Software Engineering, Innsbruck, Austria, Feb., 13-15
Snae, C. and Brueckner, M. (2009). Novel Phonetic Name Matching Algorithm with a Statistical Ontology for Analysing Names Given in Accordance with Thai Astrology. Informing Science and Information Technology, 6, 497-515
Snae, C., Brueckner, M. and Wongthongtham, P. (2007). Local organization and business ontology (LOBO). in IEEE International Conference on Digital Ecosystems and Technologies, Rydges Tradewinds Cairns, Australia, Feb., 292-295
Snae, C., Namahoot, K. and Brueckner, M. (2007). MetaSound: A New Phonetic Based Name Matching Algorithm for Thai Naming System. International Conference on Engineering, Applied Science and Technology (ICEAST 2007), Bangkok, Thailand Snae, C., Singhadech, N., Emapana B. and Brueckner, M. (2006). Interactive transliteration tools for explanation level language system (IT-TELLS). In International Technical Conference on Circuits/Systems Computers and Communication, Chiang Mai, Thailand, Jul., 245-248 Zhang, G., Jia, S., and Wang, Q. (2010). Construct ontology-based enterprise information metadata framework. Journal of Software, 5(3), 312-319