10
ﻮد، ﻣﻮرد ﭘﺬﯾﺮش ﻗﺮار ﮔﺮﻓﺘﻪ اﺳﺖ. ﻣﻮﻓﻘﯿﺖ روزاﻓﺰون ﺑﺎ ﺗﻘﺪﯾﻢ اﺣﺘﺮام دﮐﺘﺮ اﺑﺮاﻫﯿﻢ اﺻﻞ ﺳﻠﯿﻤﺎﻧﯽ رﺋﯿﺲ ﻫﻤﺎﯾﺶ ﺠﺎن، ﻣﻮﺳﺴﻪ آﻣﻮزش ﻋﺎﻟﯽ ﻣﻮجco ﺑﺮق- ﮐﺎﻣﭙﯿﻮﺗﺮ و ﻓﺘﺎوري اﻃﻼﻋﺎت و ﺑﺎ ﻗﺎﺑﻠﯿﺖ ﺗﻮﺳﻌﻪ ﺗﻮﺳﻂ ﮐﺎرﺑﺮ ﮔﻮاﻫﯽ ﭘﺬﯾﺮش ﻣﻘﺎﻟﻪ ر ﺪ ﻣﻘﺎﻟﻪ ﺟﻨﺎﺑﻌﺎﻟﯽ ﺗﺤﺖ ﻋﻨﻮان: ﺮاﻧﺲ ﻣﻬﻨﺪﺳﯽ ﺑﺮق و ﮐﺎﻣﭙﯿﻮﺗﺮ ﮐﻪ در ﺗﺎرﯾﺦ22 ﺧﺮداد ﻣﺎه ﺑﺮﮔﺰار ﻣﯽ ﺷﻮ وﻫﺶ از درﮔﺎه اﺣﺪﯾﺖ ﻣﺴﺌﻠﺖ ﻣﯽ ﻧﻤﺎﯾﯿﻢ. اوﻟﯿﻦ ﻫﻤﺎﯾﺶ ﻣﻬﻨﺪﺳﯽ ﺑﺮق و ﮐﺎﻣﭙﯿﻮﺗﺮ ﻣﻮﺳﺴﻪ آﻣﻮزش ﻋﺎل ﻣﻮج ﺧﺮداد ﻣﺎه1393 : اﺳﺘﺎن ﮔﯿﻼن،ﺷﻬﺮﺳﺘﺎن ﺑﻨﺪراﻧﺰﻟﯽ، ﻏﺎزﯾﺎن اﻧﺘﻬﺎي ﺧﯿﺎﺑﺎن آذرﺑﺎﯾﺠ دورﻧﮕﺎر: 3222810 - 0181 اﯾﻤﯿﻞ: [email protected] ﭼﻨﺪ زﺑﺎﻧﻪ ﻣﺘﻦ ﺑﺎ اﺳﺘﻔﺎده از ﺳﯿﺴﺘﻢ اﺳﺘﻨﺘﺎج ﻓﺎزي و ﺣﺴﯿﻦ ﺛﻤﺮدار* . 1 ، ﻣﻬﺪي ﺟﻮاﻧﻤﺮد2 ﺟﻨﺎب آﻗﺎي ﺣﺴﯿﻦ ﺛﻤﺮدار ﺑﺎ ﺳﻼم ﺑﺪﯾﻨﻮﺳﯿﻠﻪ ﺑﻪ اﺳﺘﺤﻈﺎر ﻣﯽ رﺳﺎﻧﺪ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﻈﺮ ﮐﻤﯿﺘﻪ داوري ﮐﻨﻔﺮ ﺷﻤﺎ را در ﻋﺮﺻﻪ ﻫﺎي داﻧﺶ و ﭘﮋو دﺑﯿﺮﺧﺎﻧﻪ ﻫﻤﺎﯾﺶ ﺧﻼﺻﻪ ﺳﺎز

خلاصه ساز چند زبانه متن با استفاده از سیستم استنتاج فازی و با قابلیت توسعه توسط کاربر

Embed Size (px)

Citation preview

گواهی پذیرش مقالهثمردارحسینآقايجناب

با سالم :بدینوسیله به استحظار می رساند مقاله جنابعالی تحت عنوان

موفقیت روزافزون . خرداد ماه برگزار می شود، مورد پذیرش قرار گرفته است22در تاریخ با توجه به نظر کمیته داوري کنفرانس مهندسی برق و کامپیوتر که .شما را در عرصه هاي دانش و پژوهش از درگاه احدیت مسئلت می نماییم

با تقدیم احترامابراهیم اصل سلیمانیدکتر

همایشرئیس

اولین همایش مهندسی برق و کامپیوتر

موجموسسه آموزش عال 1393ماه خرداد

انتهاي خیابان آذربایجان، موسسه آموزش عالی موج –استان گیالن،شهرستان بندرانزلی، غازیان :دبیرخانه همایش[email protected]: ایمیل 0181-3222810: دورنگار

کامپیوتر و فتاوري اطالعات- برق

خالصه ساز چند زبانه متن با استفاده از سیستم استنتاج فازي و با قابلیت توسعه توسط کاربر2مهدي جوانمرد، 1.*ثمردارحسین

گواهی پذیرش مقالهثمردارحسینآقايجناب

با سالم :بدینوسیله به استحظار می رساند مقاله جنابعالی تحت عنوان

موفقیت روزافزون . خرداد ماه برگزار می شود، مورد پذیرش قرار گرفته است22در تاریخ با توجه به نظر کمیته داوري کنفرانس مهندسی برق و کامپیوتر که .شما را در عرصه هاي دانش و پژوهش از درگاه احدیت مسئلت می نماییم

با تقدیم احترامابراهیم اصل سلیمانیدکتر

همایشرئیس

اولین همایش مهندسی برق و کامپیوتر

موجموسسه آموزش عال 1393ماه خرداد

انتهاي خیابان آذربایجان، موسسه آموزش عالی موج –استان گیالن،شهرستان بندرانزلی، غازیان :دبیرخانه همایش[email protected]: ایمیل 0181-3222810: دورنگار

کامپیوتر و فتاوري اطالعات- برق

خالصه ساز چند زبانه متن با استفاده از سیستم استنتاج فازي و با قابلیت توسعه توسط کاربر2مهدي جوانمرد، 1.*ثمردارحسین

گواهی پذیرش مقالهثمردارحسینآقايجناب

با سالم :بدینوسیله به استحظار می رساند مقاله جنابعالی تحت عنوان

موفقیت روزافزون . خرداد ماه برگزار می شود، مورد پذیرش قرار گرفته است22در تاریخ با توجه به نظر کمیته داوري کنفرانس مهندسی برق و کامپیوتر که .شما را در عرصه هاي دانش و پژوهش از درگاه احدیت مسئلت می نماییم

با تقدیم احترامابراهیم اصل سلیمانیدکتر

همایشرئیس

اولین همایش مهندسی برق و کامپیوتر

موجموسسه آموزش عال 1393ماه خرداد

انتهاي خیابان آذربایجان، موسسه آموزش عالی موج –استان گیالن،شهرستان بندرانزلی، غازیان :دبیرخانه همایش[email protected]: ایمیل 0181-3222810: دورنگار

کامپیوتر و فتاوري اطالعات- برق

خالصه ساز چند زبانه متن با استفاده از سیستم استنتاج فازي و با قابلیت توسعه توسط کاربر2مهدي جوانمرد، 1.*ثمردارحسین

و با قابلیت توسعه توسط فازيسیستم استنتاجاستفاده از بامتن خالصه ساز چند زبانهکاربر

2مهدي جوانمرد،1حسین ثمردار

[email protected]: پست الکترونیکی.دانشجوي کارشناسی ارشد دانشگاه پیام نور[email protected]: پست الکترونیکی.استادیار دانشگاه پیام نور2

چکیدهعمده از متن اصلی این امکان را به انسان می دهد تا بتواند خالصه ي متن را در حجمی بسیار کمتر اصلی واستخراج مطالب

و نکته مهم درباره این خالصه آن است که داراي کیفیتی قابل پذیرش باشد، چرا که شخص باید بتواند با خواندن .مطالعه کند.خالصه به مفهوم اصلی متن پی ببرد

بحث خالصه زبان چند زبانه که در این پژوهش مطرح . تنها روي یک زبان خاص کاربرد دارندروش هاي خالصه سازي موجود تمام به این صورت که با بررسی روش هاي خالصه . کامال جدید است که اتفاقا قابلیت پیاده سازي در واقعیت را هم داردمیشود بحثی

قسمت نتایج . سازي که تاکنون ارائه شده می توان به اشتراکاتی در مراحل کار پی برد که بر روي هر زبانی قابل اعمال می باشنداي شما تعجب بر انگیز خواهد بود چرا که در نهایت خالصه سازي داریم که روي هر زبانی که در آخر مقاله شرح داده شده است بر

کار میکند و کیفیت کار در بسیاري از موارد نزدیک به خالصه سازهاي معروفی نظیر ورد وکوپرنیکی می باشد که تخصصی بر روي .زبان انگلیسی پیاده سازي شده اند

همانگونه که توضیح داده خواهد شد اگر کاربري بخواهد از این . بر در این سیستم می باشدبحث دیگر اختیاري بودن وجود کارسیستم در زبان جدیدي که تاکنون خالصه روي متنی با این زبان انجام نشده، مانند زبان فارسی، استفاده کند هم می تواند بدون

که می تواند با تهیه چند لیست ساده براي سیستم در مورد این اما نکته اینجاست . دردسر نتیجه گرفته و خالصه را مشاهده کند.زبان جدید، کیفیت کار را براي این زبان براي همیشه بهبود ببخشد

از طرف دیگر به دلیل عدم قطعیتی که وجود دارد در این پژوهش سعی شده است تا بتوان با استفاده از منطق فازي روش انسان درصد به ایده آل شبیه 02/0درصد و جمله اي که 40/0ا که در منطق غیرفازي فرقی بین جمله اي که چر.دگونه را شبیه سازي کر

.را می شناسد که عادالنه نیست1و 0اند، نمی باشد و آن منطق فقط

، منطق فازيخالصه سازي ، چند زبانه ، کاربر محور ، پارامتر نحوي:واژه هاي کلیدي

مقدمه- ١حجمیدرانهاوريآگردواسنادازايمجموعهیاسندیکاجزايتریناستخراج برجستهوشناساییفرایندمتنسازيخالصه

داشتهراسنددرشدهمطرحمفهوموموضوعبهتعلقوتطابقاجزاء بیشتریناینکهمی باشدکمتر نسبت به متن اصلیبا توجه به مطالب فوق وجود سیستمی خودکار که توانایی خالصه سازي متن را داشته باشد و انسان را در تجزیه و . [1]باشند

يبه طور کلی روش هاي خالصه سازي را می توان به دو دسته. [2][3]تحلیل این اسناد یاري کند بسیار مفید می باشدextractive وabstractionدر روشهاي . تقسیم کردextractive ویژگی هایی را براي هر قسمت از متن مشخص می کنند و

براساس آن ویژگی ها و خصوصیات، میزان درجه ي اهمیت هر جزء از متن مشخص شده و در نهایت بهترین آن ها به عنوان اجزاء وط به پردازش زبان طبیعی معموالً از تکنیک هاي مربAbstractionدر مقابل در روش هاي . خالصه نهایی انتخاب می شوند

. استفاده می شود و رسیدن به آن معموالً به خاطر دشواري هاي مربوط به پردازش زبان طبیعی به طور کامل امکان پذیر نمی باشدبدلیل عدم وجود قطعیت در خالصه سازي . [4]روش هایی که در این دسته انجام می شوند معموالً ترکیبی از دو روش می باشند

ي اهمیت و در واقع از منطق فازي براي اندازه گیري درجه. شوداستفاده می[5]و براي برخورد با عدم قطعیت از منطق فازي متن سعی می شود یک و میزان ارتباط و همبستگی و همچنین مشخص کردن جمالت مهم براي ایجاد خالصه، استفاده می شود

.ایجاد شودخالصه با هم پوشانی بیشتر نسبت به متن اصلی

کارهاي مرتبط-۲[7]در . روش هایی براي خالصه سازي بر اساس متن بوسیله ي منطق فازي و سیستم استنتاج فازي آورده شده است[7][6]در

ها و توابع rule setبراي بهینه کردن Genetic Programmingاز منطق فازي استفاده شده است و از الگوریتم ژنتیک و .عضویت سیستم فازي استفاده شده است

نتایجی که از مقایسه ي روش هاي مبتنی بر فازي با سایر روش ها بدست آمده است پیشرفت قابل مالحظه اي را نشان می دهد ساختار در این مقاله از . یک نوع زبان پشتیبانی می کنندی که در کارهاي قبلی وجود دارد این است که تنها ازاما مشکل. [8]

کیفیت خالصه رادر عین حالدر تولید خالصه استفاده کرده ایم و سعی کرده ایم کهنحوي که قابل اعمال روي تمام زبان هاست.حفظ نماییمتا حد ممکن

روش ارائه شده-٣.آورده شده است1فلوچارت کلی خالصه ساز متنی که در این مقاله ارائه کرده ایم در شکل

در فاز پیش پردازش براي تبدیل متن اصلی به متنی که بعنوان ورودي به سیستم خالصه ساز داده می شود کارهاي زیر صورت می :گیردفقط کافی است که کاربر آشنا به این . این مرحله از جمله مراحلی است که با کمک کاربر صورت می گیرد: حذف کلمات زاید)الفلیست کرده که داراي ارزش معنایی نیستند و اطالعات خاصی را نشان نمی دهنداین زبان)usually(لمات معمولیک،خاصزبان

در زبان ...و ”the” ،“ex” ،“a“مانند . حذف شونداصلیدر یک فایل متنی قرار دهد تا توسط خالصه ساز این کلمات در متن.انگلیسی

همچنین فقط با .دارد و با تهیه نکردن لیست کلمات زاید تنها کمی از کیفیت کار کاسته می شودکاربر در انجام این کار اختیار .یک بار تهیه این لیست، کاربران آینده می توانند تا ابد از آن استفاده کرده یا حتی لیست را گسترش دهند

تمام حروف بزرگ را به کوچک یا بزرگ باشد اگر زبانی مانند زبان انگلیسی داراي دوگونه حرف کوچک و: case folding) ب.و در غیر اینصورت مانند زبان فارسی بدون اعمال کار خاصی ادامه می دهیمکوچک را به بزرگ تبدیل می کنیم

و از جمله کارهاي دیگري است که در مرحله پیش پردازش می تواند انجام شودstemmingمصدرسازي یاالزم به ذکر است البته الگوریتم مصدرساز .، اما از آنجا که خالصه سازي چند زبانه است در این مرحله کنار گذاشته می شودبسیار هم تاثیرگذار است

براي برخی زبان ها موجود می باشد اما از آنجایی که استاندارد خاصی از لحاظ زبان پیاده سازي و کیفیت کار وجود ندارد ترجیحا .بر کمک گرفته نشده استدر اینجا از کار

فلوچارت خالصه ساز ارائه شده)1(شکل

پارامترهااستخراج -3- 1.پس از این که فاز پیش پردازش تمام شد وارد فاز استخراج پارامترها می شویم که در ادامه پارامترها را توضیح می دهیم

1 -1 -3 -1TF/ISF

در خالصه TF/IDFمی باشد، ولی پارامتر TF/IDFو دراصل . الهام گرفته است)IR(این پارامتر درواقع از حوزه ي بازیابی متن براي . تغییر یافته استTF/ISFسازي متون چندگانه کاربرد دارد و جهت استفاده در این مقاله که متن تک سندي می باشد به

هر کلمه برابراست با تعداد تکرار کلمه در سند تقسیم TFمقدار . را براي هرکلمه محاسبه می کنیمTFمحاسبه این پارامتر ابتدا را براي هر کلمه بدست می آوریم که برابر است با تعداد جمالتی که شامل آن کلمه هستند ISFسپس مقدار . بر تعداد کل کلمات

: آورده شده است1در فرمول هر کلمه TF/ISFمقدار . تقسیم بر تعداد کل جمالت

)1(*lg ISFtermISFterm=TFtermTF/

این پارامتر . جمله را بدست می آوریمTF/ISFي کلمات آن را با هم جمع می کنیم و همهTF/ISFسپس براي هر جمله مقدار .در بین جمالت نرمال می کنیمTF/ISFبر ماکزیمم مقدار را با تقسیم

.این پارامتر از جمله پارامترهاي مشترك بین تمام زبان ها می باشد

1 Term Frequency / Inverse Sentence Frequency

و از جمله کارهاي دیگري است که در مرحله پیش پردازش می تواند انجام شودstemmingمصدرسازي یاالزم به ذکر است البته الگوریتم مصدرساز .، اما از آنجا که خالصه سازي چند زبانه است در این مرحله کنار گذاشته می شودبسیار هم تاثیرگذار است

براي برخی زبان ها موجود می باشد اما از آنجایی که استاندارد خاصی از لحاظ زبان پیاده سازي و کیفیت کار وجود ندارد ترجیحا .بر کمک گرفته نشده استدر اینجا از کار

فلوچارت خالصه ساز ارائه شده)1(شکل

پارامترهااستخراج -3- 1.پس از این که فاز پیش پردازش تمام شد وارد فاز استخراج پارامترها می شویم که در ادامه پارامترها را توضیح می دهیم

1 -1 -3 -1TF/ISF

در خالصه TF/IDFمی باشد، ولی پارامتر TF/IDFو دراصل . الهام گرفته است)IR(این پارامتر درواقع از حوزه ي بازیابی متن براي . تغییر یافته استTF/ISFسازي متون چندگانه کاربرد دارد و جهت استفاده در این مقاله که متن تک سندي می باشد به

هر کلمه برابراست با تعداد تکرار کلمه در سند تقسیم TFمقدار . را براي هرکلمه محاسبه می کنیمTFمحاسبه این پارامتر ابتدا را براي هر کلمه بدست می آوریم که برابر است با تعداد جمالتی که شامل آن کلمه هستند ISFسپس مقدار . بر تعداد کل کلمات

: آورده شده است1در فرمول هر کلمه TF/ISFمقدار . تقسیم بر تعداد کل جمالت

)1(*lg ISFtermISFterm=TFtermTF/

این پارامتر . جمله را بدست می آوریمTF/ISFي کلمات آن را با هم جمع می کنیم و همهTF/ISFسپس براي هر جمله مقدار .در بین جمالت نرمال می کنیمTF/ISFبر ماکزیمم مقدار را با تقسیم

.این پارامتر از جمله پارامترهاي مشترك بین تمام زبان ها می باشد

1 Term Frequency / Inverse Sentence Frequency

و از جمله کارهاي دیگري است که در مرحله پیش پردازش می تواند انجام شودstemmingمصدرسازي یاالزم به ذکر است البته الگوریتم مصدرساز .، اما از آنجا که خالصه سازي چند زبانه است در این مرحله کنار گذاشته می شودبسیار هم تاثیرگذار است

براي برخی زبان ها موجود می باشد اما از آنجایی که استاندارد خاصی از لحاظ زبان پیاده سازي و کیفیت کار وجود ندارد ترجیحا .بر کمک گرفته نشده استدر اینجا از کار

فلوچارت خالصه ساز ارائه شده)1(شکل

پارامترهااستخراج -3- 1.پس از این که فاز پیش پردازش تمام شد وارد فاز استخراج پارامترها می شویم که در ادامه پارامترها را توضیح می دهیم

1 -1 -3 -1TF/ISF

در خالصه TF/IDFمی باشد، ولی پارامتر TF/IDFو دراصل . الهام گرفته است)IR(این پارامتر درواقع از حوزه ي بازیابی متن براي . تغییر یافته استTF/ISFسازي متون چندگانه کاربرد دارد و جهت استفاده در این مقاله که متن تک سندي می باشد به

هر کلمه برابراست با تعداد تکرار کلمه در سند تقسیم TFمقدار . را براي هرکلمه محاسبه می کنیمTFمحاسبه این پارامتر ابتدا را براي هر کلمه بدست می آوریم که برابر است با تعداد جمالتی که شامل آن کلمه هستند ISFسپس مقدار . بر تعداد کل کلمات

: آورده شده است1در فرمول هر کلمه TF/ISFمقدار . تقسیم بر تعداد کل جمالت

)1(*lg ISFtermISFterm=TFtermTF/

این پارامتر . جمله را بدست می آوریمTF/ISFي کلمات آن را با هم جمع می کنیم و همهTF/ISFسپس براي هر جمله مقدار .در بین جمالت نرمال می کنیمTF/ISFبر ماکزیمم مقدار را با تقسیم

.این پارامتر از جمله پارامترهاي مشترك بین تمام زبان ها می باشد

1 Term Frequency / Inverse Sentence Frequency

طول جمله-2-1-3درواقع جمالت کوتاه را با پنالتی دادن حذف می کنیم و کـاري مـی کنـیم کـه در . این پارامتر درواقع تعداد کلمات جمله می باشد

.این پارامتر را با تقسیم بر بزرگترین جمله از نظر طول نرمال می کنیم. نیایندخالصه.این پارامتر از جمله پارامترهاي مشترك بین تمام زبان ها می باشد

موقعیت جمله-3-1-3در این جا کل سند بصـورت . در نظر بگیریم... می توانیم موقعیت جمله را نسبت به کل سند یا نسبت به بخش یا دریک پاراگراف و

شماره ي پاراگرافی که جملـه yمقدار . می باشدyو یک مقدار xفضاي دکارتی در نظر گرفته می شود و هرجمله داراي یک مقدار . پنج جمله ي اول هـر پـاراگراف مهـم هسـتند . نیز شماره ي جمله در آن پاراگراف می باشدxمقدار باشد ودر آن وجود دارد می

و بـه 5/4و جملـه ي دوم داراي ارزش 5/5ارزش جمالت هم معکوس شماره ي جمله می باشد، یعنـی جملـه ي اول داراي ارزش .[11]مین ترتیب می باشد ه

.بین تمام زبان ها می باشداین پارامتر از جمله پارامترهاي مشترك

شباهت به عنوان-4-1-3cosineسـپس از معیـار . از روش برداري استفاده می کنیم و کلمات عنوان را جدا می کنیم و کلمات جمله را هم جدا مـی کنـیم

براي محاسبه ي ایـن معیـار بـه ازاء . [12]تا نسبت شباهت کلمات عنوان به کلمات هر جمله را محاسبه کنیماستفاده می کنیمهر کلمه را بعنـوان مقـادیر انـدیس در TF/ISFهر جمله با عنوان برداري به طول ماکزیمم آن دو بردار در نظر می گیریم و مقدار

:شودمحاسبه می نشان داده شده است2ی که در فرمول سپس بصورت. بردار می گذاریم

)2(simToTitlesen=⎯⎯⎯⎯⎯⎯ . ⎯⎯⎯⎯⎯| |∗| |

.این پارامتر از جمله پارامترهاي مشترك بین تمام زبان ها می باشد

شباهت به کلمات کلیدي-5-1-3را بین بردار جمله ي مـورد نظـر و بـردار کلمـات cosineاین پارامتر نیز مانند پارامتر قبلی می باشد و براي محاسبه ي آن معیار

باشند را بعنوان کلمات کلیدي در نظر مـی TF/ISFکه داراي بیشترین مقدار ) کلماتی را(کلمه اي 10. کلیدي محاسبه می کنیم.گیریم

.جمله پارامترهاي مشترك بین تمام زبان ها می باشداین پارامتر از

انسجام متن به متن-6-1-3بـراي محاسـبه . این کار را براي تمام جمالت انجام می دهیم. به ازاء هر جمله مقادیر شباهت آن با جمالت دیگر را جمع می کنیم

ذکـر شـد، اسـتفاده مـی 3-1-5و3-1-4رهـاي و بصـورتی کـه در پارامت cosineي مقدار شباهت بین دو جملـه نیـز از روش .سپس این مقدار را با تقسیم بر ماکزیمم مقدار انسجام بدست آمده نرمال می کنیم.کنیم

.این پارامتر از جمله پارامترهاي مشترك بین تمام زبان ها می باشد

انسجام متن به مرکز-7-1-3سپس به ازاء هر جملـه . توضیح داده شد، بدست می آوریم3-1-3موقعیت جمله که در ابتدا جمله ي مرکز را با استفاده از پارامتر

.مقدار مشابهت آن را با جمله ي مرکزي بدست می آوریم و با تقسیم بر ماکزیمم مقدار بدست آمده آن را نرمال می کنیم.این پارامتر از جمله پارامترهاي مشترك بین تمام زبان ها می باشد

م خاصاس-8-1-3و trueاین پارامتر دودویی می باشد و جمله اي که داراي اسـم خـاص باشـد . اشاره می کند... در واقع اسم خاص به مردم، مکان و

از آن جا که هر جمله اي که داراي تعداد بیشتري حرف خاص باشد جمله ي بهتري می باشـد در . می باشدfalseدر غیراینصورت .می شوداین جا نیز از منطق فازي استفاده

ایـن پـارامتر از . در هر زبانی و براي هر کشوري پیدا کردن نام هاي خاص احتماال با انجام یک جستجوي ساده قابل دسترسی استرامترهایی است که کاربر وارد عمل شده، جستجو را انجام می دهد و اگر نتیجه اي نیافـت سیسـتم از آن صـرفنظر مـی آن دسته پا

.در یک فایل متنی قرار می دهدجهت استفاده در سیستم خالصه سازدر غیر اینصورت لیست اسامی را. کند.همیشه قابل استفاده و حتی قابل گسترش می باشدالزم به ذکر است که قرار دادن لیست توسط یک شخص براي این زبان

اطالعات غیر اساسی-9-1-3، که معمـوالً نیـز در ... و because ،while ،in additionمانند (speech markers)اگر عباراتی براي مثال در زبان انگلیسی

چرا که احتماال توضـیحات اضـافی .ابتداي جمله رخ می دهند، درجمله اي باشند آن جمله را داراي اطالعات غیراساسی می گوییمملـه اگر ج. می شوداین پارامتر نیز مانند پارامتر قبلی دودویی است و از منطق فازي استفاده .است که الزم نیست در خالصه بیایند

.بی فایده اندبراي ما می باشد که ... اي شامل این عبارات باشد درواقع جمالت تأکیدي، توضیحی، اثباتی یا این پارامتر از آن دسته پارامترهایی است که کاربر وارد عمل شده، این گونه کلمات را براي این زبان خاص پیدا کرده و در یک فایل

اسـتفاده مـی در غیر اینصورت در سیستم خالصه ساز. خالی بود سیستم از آن صرفنظر می کنداگر این لیست . متنی قرار می دهد.آورده شده است) 2(یک نمونه از فایلی که مثال براي زبان انگلیسی توسط کاربر قرار داده شده است در شکل .شود

.استفاده و حتی قابل گسترش می باشدالزم به ذکر است که قرار دادن لیست توسط یک شخص براي این زبان همیشه قابل

نمونه فایل قرار داده شده توسط کاربر براي زبان انگلیسی در پارامتر اطالعات غیر اساسی) 2(شکل

آنافورها-10-1-3هسـتند و اگـر جملـه اي مهمـی درواقع حاوي اطالعات غیـر نیزآنافورها. این پارامتر تکرار یک عبارت در جمالت متوالی می باشد

براي محاسبه ي آن هر جمله . ، پس بی فایده استي مرتبط با آن پوشش داده می شودشامل آنافور باشد، محتواي آن توسط جملهاین پارامتر نیـز دودویـی . آنافور می باشد، جملهرا با جمالت بعدي آن بررسی می کنیم اگر تا شش کلمه ي اول آن ها تکراري بود

.و از منطق فازي استفاده می شودfalseهست یا trueیک جمله یا است و

منطق فازي-4هايسیستمعنوان پایهبهنیزفازيمنطقباشدمیمعمولیمنطقبرمبتنیرهبخهايسیستمپایهکالسیکمنطقکههمانطور

منطقبوسیلهکردنمدلوشوداستفاده میفازيمنطقازقطعیتعدمبابرخوردبرايحقیقتدر.باشدمیمطرحفازيخبره.می باشدسختبسیارمعمولی

دوهايسیستمبرايمنطقاینالبته. غلطیادرست.مقداراستدودرآنمحدودیتداردعاديمنطقکهمشکالتیازیکیدر خالصه عاديمنطقضعفنقطهمهمترین.نیستمناسبندارندقطعیتکههاییسیستمبرايولیاستمناسببسیارحالته

بعنوان مثال این که بگوییم دو جمله از نظر معنایی .سازي این است که در پارامترهایی که ذکر شد بندرت دو حالته می باشندبگوییم دو جمله چقدر بهم شبیه کامالً به هم شبیه هستند یا نیستند صحیح نمی باشد و با استفاده از منطق فازي می توانیم

ر این روش از منطق فازي براي اندازه گیري درجه اهمیت و میزان ارتباط و همبستگی و همچنین مشخص کردن جمالت د.هستند.مهم براي ایجاد خالصه، استفاده می شود

)3(

)4(

)5(

نتایج- 5JAIR2 ،50از مجموعه مقاالت . سعی شده است تا از مجموعه مستندات استانداردي که وجود دارد استفاده شودمقالهدر این

پیاده در این . کلمه می باشد436ي این مجموعه میانگین تعداد کلمات در هر مقاله. صورت تصادفی انتخاب شده استمقاله به ارزیابی خالصه سازي به دو صورت درونی و . ي جداول، عکس ها و فرمول ها در فاز پیش پردازش حذف می شوندابتدا کلیهسازي

مرکز بر روي کیفیت خالصه می باشد در حالی که در ارزیابی بیرونی تمرکز بیشتر روي در ارزیابی درونی ت. بیرونی انجام می گیرد. تر می باشد وجود نداردجحدر واقع اجماعی بر روي این که کدام روش بهتر یا ار. ي خاص می باشدکارآیی سیستم در یک مساله

نیز مقالهدر این ،بدلیل مقایسه عادالنهوبی درونی کار می کننداما از آن جا که اکثر کارهایی که اخیراً انجام شده اند بر روي ارزیا

2 Journal of Artificial Intelligence Research

آنافورها-10-1-3هسـتند و اگـر جملـه اي مهمـی درواقع حاوي اطالعات غیـر نیزآنافورها. این پارامتر تکرار یک عبارت در جمالت متوالی می باشد

براي محاسبه ي آن هر جمله . ، پس بی فایده استي مرتبط با آن پوشش داده می شودشامل آنافور باشد، محتواي آن توسط جملهاین پارامتر نیـز دودویـی . آنافور می باشد، جملهرا با جمالت بعدي آن بررسی می کنیم اگر تا شش کلمه ي اول آن ها تکراري بود

.و از منطق فازي استفاده می شودfalseهست یا trueیک جمله یا است و

منطق فازي-4هايسیستمعنوان پایهبهنیزفازيمنطقباشدمیمعمولیمنطقبرمبتنیرهبخهايسیستمپایهکالسیکمنطقکههمانطور

منطقبوسیلهکردنمدلوشوداستفاده میفازيمنطقازقطعیتعدمبابرخوردبرايحقیقتدر.باشدمیمطرحفازيخبره.می باشدسختبسیارمعمولی

دوهايسیستمبرايمنطقاینالبته. غلطیادرست.مقداراستدودرآنمحدودیتداردعاديمنطقکهمشکالتیازیکیدر خالصه عاديمنطقضعفنقطهمهمترین.نیستمناسبندارندقطعیتکههاییسیستمبرايولیاستمناسببسیارحالته

بعنوان مثال این که بگوییم دو جمله از نظر معنایی .سازي این است که در پارامترهایی که ذکر شد بندرت دو حالته می باشندبگوییم دو جمله چقدر بهم شبیه کامالً به هم شبیه هستند یا نیستند صحیح نمی باشد و با استفاده از منطق فازي می توانیم

ر این روش از منطق فازي براي اندازه گیري درجه اهمیت و میزان ارتباط و همبستگی و همچنین مشخص کردن جمالت د.هستند.مهم براي ایجاد خالصه، استفاده می شود

)3(

)4(

)5(

نتایج- 5JAIR2 ،50از مجموعه مقاالت . سعی شده است تا از مجموعه مستندات استانداردي که وجود دارد استفاده شودمقالهدر این

پیاده در این . کلمه می باشد436ي این مجموعه میانگین تعداد کلمات در هر مقاله. صورت تصادفی انتخاب شده استمقاله به ارزیابی خالصه سازي به دو صورت درونی و . ي جداول، عکس ها و فرمول ها در فاز پیش پردازش حذف می شوندابتدا کلیهسازي

مرکز بر روي کیفیت خالصه می باشد در حالی که در ارزیابی بیرونی تمرکز بیشتر روي در ارزیابی درونی ت. بیرونی انجام می گیرد. تر می باشد وجود نداردجحدر واقع اجماعی بر روي این که کدام روش بهتر یا ار. ي خاص می باشدکارآیی سیستم در یک مساله

نیز مقالهدر این ،بدلیل مقایسه عادالنهوبی درونی کار می کننداما از آن جا که اکثر کارهایی که اخیراً انجام شده اند بر روي ارزیا

2 Journal of Artificial Intelligence Research

آنافورها-10-1-3هسـتند و اگـر جملـه اي مهمـی درواقع حاوي اطالعات غیـر نیزآنافورها. این پارامتر تکرار یک عبارت در جمالت متوالی می باشد

براي محاسبه ي آن هر جمله . ، پس بی فایده استي مرتبط با آن پوشش داده می شودشامل آنافور باشد، محتواي آن توسط جملهاین پارامتر نیـز دودویـی . آنافور می باشد، جملهرا با جمالت بعدي آن بررسی می کنیم اگر تا شش کلمه ي اول آن ها تکراري بود

.و از منطق فازي استفاده می شودfalseهست یا trueیک جمله یا است و

منطق فازي-4هايسیستمعنوان پایهبهنیزفازيمنطقباشدمیمعمولیمنطقبرمبتنیرهبخهايسیستمپایهکالسیکمنطقکههمانطور

منطقبوسیلهکردنمدلوشوداستفاده میفازيمنطقازقطعیتعدمبابرخوردبرايحقیقتدر.باشدمیمطرحفازيخبره.می باشدسختبسیارمعمولی

دوهايسیستمبرايمنطقاینالبته. غلطیادرست.مقداراستدودرآنمحدودیتداردعاديمنطقکهمشکالتیازیکیدر خالصه عاديمنطقضعفنقطهمهمترین.نیستمناسبندارندقطعیتکههاییسیستمبرايولیاستمناسببسیارحالته

بعنوان مثال این که بگوییم دو جمله از نظر معنایی .سازي این است که در پارامترهایی که ذکر شد بندرت دو حالته می باشندبگوییم دو جمله چقدر بهم شبیه کامالً به هم شبیه هستند یا نیستند صحیح نمی باشد و با استفاده از منطق فازي می توانیم

ر این روش از منطق فازي براي اندازه گیري درجه اهمیت و میزان ارتباط و همبستگی و همچنین مشخص کردن جمالت د.هستند.مهم براي ایجاد خالصه، استفاده می شود

)3(

)4(

)5(

نتایج- 5JAIR2 ،50از مجموعه مقاالت . سعی شده است تا از مجموعه مستندات استانداردي که وجود دارد استفاده شودمقالهدر این

پیاده در این . کلمه می باشد436ي این مجموعه میانگین تعداد کلمات در هر مقاله. صورت تصادفی انتخاب شده استمقاله به ارزیابی خالصه سازي به دو صورت درونی و . ي جداول، عکس ها و فرمول ها در فاز پیش پردازش حذف می شوندابتدا کلیهسازي

مرکز بر روي کیفیت خالصه می باشد در حالی که در ارزیابی بیرونی تمرکز بیشتر روي در ارزیابی درونی ت. بیرونی انجام می گیرد. تر می باشد وجود نداردجحدر واقع اجماعی بر روي این که کدام روش بهتر یا ار. ي خاص می باشدکارآیی سیستم در یک مساله

نیز مقالهدر این ،بدلیل مقایسه عادالنهوبی درونی کار می کننداما از آن جا که اکثر کارهایی که اخیراً انجام شده اند بر روي ارزیا

2 Journal of Artificial Intelligence Research

که خالصه سازي با استفاده از ماشین می باشد را نیز با مجموعه مقاله کیفیت ارزیابی این . از ارزیابی درونی استفاده می کنیممی 3Fارزیابی ما نیز بر اساس معیار معیار. ي آن به صورت دستی انجام شده است مقایسه می کنیمکه خالصهJAIRمقاالت

که در این جا از آن استفاده می کنیم Fو همچنین P , Rفرمول کلی . استفاده شده اندPو Rباشد که در آن مقادیر معیارهاي .نشان داده شده است5تا 3در فرمول

را ابتدا براي هر مقاله خالصه شده بطور جداگانه Fمعیار . می باشدRecallنیز Rو معیار 4همان دقتPکه در آن معیار نتایج خالصه ساز مطرح )1(در جدول . ي مجموعه مقاالت بدست می آوریممحاسبه می کنیم سپس میانگین آن را در بین همه

.آمده استمقالهشده در این

مقایسه نتایج خالصه ساز ارائه شده با نرم افزارهاي خالصه سازي موجود) 1(جدول

شده نسبت به نرم افزارهاي معروف خالصه سازي کیفیت قابل قبولی مطرحهمانگونه که مشاهده می شود خالصه ساز ماشینی ارائه شده است [13]عالوه بر مقایسه با نرم افزارهاي معروف کیفیت خالصه ساز ماشینی ارائه شده را با خالصه سازي که در. دارد

نشان داده شده )2(مقایسه انجام شده در جدول . ت نتایج را بررسی کرده است مقایسه می کنیمو بر روي همین مجموعه مقاال.می نامیمHuang Method،) 2(را در جدول ]13[روش ارائه شده در . است

Huangمقایسه کیفیت روش ارائه شده با روش )2(جدول

نیز مالحظه می کنید خالصه ساز ماشینی ارائه شده از روشهاي مطرح شده دیگر چیزي کم ندارد و )2(همانگونه که در جدولاز آن جایی که بحث . البته شاید این گونه به نظر برسد که باز هم داراي کیفیت عالی نیست.داراي کیفیت قابل قبولی می باشد

بان شناسی در آن مطرح می باشد و همچنین از طرف دیگر ي افراد متخصص زخالصه سازي غیر قطعی می باشد و بحث سلیقهي بازیابی اطالعات می آیند و لزوماً جهت کیفیت ارزیابی کافی نیستند و نمی معیارهاي ارزیابی که مطرح شده اند اساساً از حوزه

ا و روش هایی است که در فاز یکی از دالیل دیگر کیفیت قابل قبول نیز کمبود ابزاره. قضاوت کرد که اعداد کم می باشندتوان

3 Fitness4 Precision

توسط مابقی خالصه ساز ها استفاده 5که در فاز مصدریابیporter[14]بعنوان مثال الگوریتم . پیش پردازش استفاده می شوندي خود بهترین می اما از الگوریتم هایی است که در حوزه. می شود داراي اشکاالت بسیار زیادي است و هم چنین دقت پایینی دارد

به همین دلیل است که حتی حذف این مهم در این روش تاثیر چندانی روي . باشد و اکثر مقاالت از این الگوریتم استفاده می کنند.نتیجه نگذاشته است

پیشنهادات و کارهاي آتی- 6، بسیاري از روشمطرح استمشکل حل نشدهبه عنوانتوصیفی و محاسباتی هنوز هماز نقطه نظراز آنجایی که درك از متن

اگر چه .متن ندارندمفهوم و معناي ازیدرکاماري و احتمالی می باشد و این شیوه هاوجود ، تنها استخراجهاي خالصه سازي ماما براي بسیاري از متون که خالصه سازي انها موفقیت آمیز است ،ها بصورت این روشدر پاره اي از اوقات و براي بعضی از متون

اگر بتوان در خالصه سازي به معنا و اما .ه درك عمقی معنا و مفهوم متن دارد این روش ها جواب و نتیجه مناسبی ندارندنیاز بیکی از مشکالت .مفهوم متن توجه ویژه داشت و متن را با توجه به معنی خالصه کرد مطمئنا نتایج بسیار بهتري خواهیم داشت

کردن مجموعه مستندات استانداري است که بتوان نتیجه خالصه ساز را با آن ارزیابی موجود در زمینه خالصه سازي متن پیدابنابراین اکثر کارهاي انجام شده و مقاالت در . هرچند مجموعه مستندات استانداردي وجود دارد ولی قابل دسترسی نیستند. کرد

از . خالصه سازها زمان بر بودن آن ها می باشدمعایب یکی از.انجام می گیرند... این زمینه بر روي مجموعه مستندات خبري و علی رغم اینکه در ابتداي برنامه اطالعات از . انجام شدهمقالهاز جمله همین . طرفی این کارها پتانسیل موازي شدن بسیاري دارند

العاتی انجام می شود و حتی ي پردازش هاي بعدي بر روي بانک اطفایل خوانده شده و در بانک اطالعاتی ریخته می شود و کلیهکه این در پیاده سازي برنامه سعی شده الگوریتم ها و داده ساختارها به شکل بهینه انتخاب شوند باز هم برنامه زمان می گیرد

شاید بتوان گفت برنامه ها و الگوریتم هایی که در این زمینه . اتالف وقت در متن هاي باالي صد صفحه خود را نشان می دهندمی توان در آیندهبنابراین کار دیگري که. بخواهند رقابت کنند عالوه بر فاکتور کیفیت خروجی، فاکتور زمان نیز مهم می باشد

.ي سازي برنامه می باشدانجام داد مواز

مراجع. Vol. 3. John Benjamins Publishing Company, 2001.Automatic summarizationMani, Inderjeet.[1]

83, 2001.–, vol. 4, no. 1, pp. 82Information RetrievalE. Liddy, “Advances in automatic text summarization,”[2]

[3] P. P. Balage Filho, T. A. Salgueiro Pardo, and M. das Gracas Volpe Nunes, “Summarizing Scientific Texts:Experiments with Extractive Summarizers,” in Intelligent Systems Design and Applications, 2007. ISDA 2007.Seventh International Conference on, 2007, pp. 520–524.[4] J. Steinberger and K. Ježek, “Update summarization based on latent semantic analysis,” in Text, Speech andDialogue, 2009, pp. 77–84.[5] L. A. Zadeh, “From circuit theory to system theory,” Proceedings of the IRE, vol. 50, no. 5, pp. 856–865, 1962.[6] F. Kyoomarsi, H. Khosravi, E. Eslami, P. K. Dehkordy, and A. Tajoddin, “Optimizing Text SummarizationBased on Fuzzy Logic,” Seventh IEEE/ACIS International Conference on Computer and Information Science (icis2008), pp. 347–352, May 2008.

5 Stemming

[7] a. Kiani-B and M. R. Akbarzadeh-T, “Automatic Text Summarization Using Hybrid Fuzzy GA-GP,” 2006 IEEEInternational Conference on Fuzzy Systems, pp. 977–983, 2006.[8] F. Kyoomarsi, H. Khosravi, E. Eslami, and P. Khosravyan, “Optimizing Machine Learning Approach Based onFuzzy Logic in Text Summarization,” International Journal of Hybrid Information Technology, vol. 2, 2009.[9] P. Achananuparp, X. Hu, and X. Shen, “The evaluation of sentence similarity measures,” Data Warehousing andKnowledge Discovery, pp. 305–316, 2008.[10] M. M. Stark and R. F. Riesenfeld, “Wordnet: An electronic lexical database,” in Proceedings of 11thEurographics Workshop on Rendering, 1998.[11] L. Suanmali, M. S. Binwahlan, and N. Salim, “Sentence Features Fusion for Text Summarization Using FuzzyLogic,” 2009 Ninth International Conference on Hybrid Intelligent Systems, pp. 142–146, 2009.[12] S. Fisher and B. Roark, “Query-focused summarization by supervised sentence ranking and skewed worddistributions,” in Proceedings of the Document Understanding Conference, DUC-2006, New York, USA, 2006.[13] Huang, Hsun-Hui, Yau-Hwang Kuo, and Horng-Chang Yang. "Fuzzy-rough set aided sentence extractionsummarization." Innovative Computing, Information and Control, 2006. ICICIC'06. First International Conferenceon. Vol. 1. IEEE, 2006.[14] Porter, Martin. "The Porter stemming algorithm, 2005." See http://www. tartarus. org/~ martin/PorterStemmer.