16
اﯾـﻦ در ﻣﻘﺎﻟـﻪ ﺑﻬﻤﻦ ﻣـﺎه۱۳۹۶ درﯾﺎﻓـ در، ه ﻣﻬﺮﻣـﺎ۱۳۹۷ در و ﺑـﺎزﻧﮕﺮی آ ﺑﺎن ﭘﺬﯾﺮﻓﺘﻪ ﺎه ﺷﺪ. ۱ داﻧﺸﺠﻮ ی دﮐﺘﺮی ﻣﻬﻨﺪﺳﯽ ﻣﭙﯿﻮﺗﺮ، ﺻﻨﻌﺘ داﻧﺸﮕﺎه ﺷﺎﻫﺮود راﯾﺎﻧﺎﻣﻪ: [email protected] ۲ ﻣﻬﻨﺪﺳ داﻧﺸﮑﺪه ﮐﺎﻣﭙ ﯿﻮﺗﺮ، ﺻﻨﻌﺘ داﻧﺸﮕﺎه ﺷﺎﻫﺮود راﯾﺎﻧﺎﻣﻪ: [email protected] ۳ ﻣﻬﻨﺪﺳ داﻧﺸﮑﺪه ﮐﺎﻣﭙ ﯿﻮﺗﺮ، ﺻﻨﻌﺘ داﻧﺸﮕﺎه ﺷﺎﻫﺮود راﯾﺎﻧﺎﻣﻪ: [email protected] ﻣﺴﺌﻮل ﻧﻮﯾﺴﻨﺪه: ﺳﺮﺧﻲ ﻗﻨﺒﺮي ﻋﻠﻲ ﭼﮑ ﯿﺪه آﺷﮑﺎرﺳﺎز اﻣﺮوزه ی ﺑﺮﭼﺴﺐ و زﻧ اﺷ ﯿﺎء ﺗﺼﺎو در ﯾﺮ ﯾﮑﯽ ﭼﺎﻟﺶ از ﻫﺎ ی اﺳﺎﺳـ ﺑﺮﺧـ در ﮐﺎرﺑﺮدﻫـﺎ از ی ﯿﻨـﺎﯾﯽ ﻣﺎﺷـﯿﻦ ﻣـ ﺑﺎﺷـﺪ. در ﺳﺎل ﻫﺎ ی اﺧ ﯿﺮ از اﺳﺘﻔﺎده ﯾـﺎدﮔﯿﺮی ﻋﻤ ﯿـﻖ اﺳـﺖ ﮔﺮﻓﺘـﻪ ﻗـﺮار ﻣﺤﻘﻘـﺎن ﺗﻮﺟـﻪ ﻣـﻮرد. ﻫﻤـ در ﯿﻦ ا در راﺳـﺘﺎ، ﯾـﻦ ﺟﺪ اﺑﺘـﺪا ﻣﻘﺎﻟـﻪ ﯾـﺪﺗﺮﯾﻦ ﺷﺒﮑﻪ ﻫﺎ ی ﻋﻤ ﯿﻖ ﻣﻌﺮﻓ ﻣﻮﺟﻮد ﯽ، ﺗﺤﻠ آﻧﻬﺎ ﺿﻌﻒ و ﻗﻮت ﻧﻘﺎط ﺳﭙﺲ ﯿـﻞ ﺷـﻮد. ﺷـﺒﮑﻪ اداﻣـﻪ در ا ی ﺑﻬﺒـﻮد ﯾﺎﻓﺘـﻪ ﺷـﺒﮑﻪ ازR-FCN اراﺋﻪ ﺷﻮد. روش ﯿﺸﻨﻬﺎدی ﭘﺎ ﺑﺮ ﯾﻪ ﻣﻌﻤﺎر یResNet ﮐﺎﻧﻮﻟ ﺗﻤـﺎم ﺷﺒﮑﻪ و اﺳـﺖ ﻮﺷـﻦ. ا در ﯾـﻦ ﻣﻌﻤـﺎر روش، ی ﺟﺪ ﯾـﺪی ﻣﺒﺘﻨـ ﺑـﺮ ﻋﻤ ﺷﺒﮑﻪ ﯿﻖ ﺑﺮا ی ﯿﺸﻨﻬﺎد ﻧﺎﺣ ﯿﻪ ﮐﺎﻧﺪ ﯾﺪ روﺷ و ﺗﺮﮐ ﯿﺒﯽ ﻣﺒﺘﻨـ ﺑـﺮSVM ﻓـﺎز ی دو ﮐﻼﺳـﻪ وSVR ﺑـﺮا ی آﺷﮑﺎرﺳـﺎز ی ﺑﺮﭼﺴـﺐ و زﻧـ اﺷ ﯿﺎء اﺳﺖ ﺷﺪه اراﺋﻪ. ا در ﯾﻦ ز ﺗﺎﺑﻊ از روش ﯾﺎن ﺟﺪ ﯾﺪ ﮐﻮﺷ اﺧﺘﻼف ﻋﻨﻮان ﺑﺎ- اﺳﺖ ﺷﺪه اﺳﺘﻔﺎده ﺷﻮارﺗﺰ. ا ﯾﻦ ز ﺗـﺎﺑﻊ ﯾـﺎن ﻟﺤـﺎظ از ﺑﻬﺘﺮ ﻋﻤﻠﮑﺮد دﻗﺖ، و ﺳﺮﻋﺖ ی اﺳﺖ داده ﻧﺸﺎن ﺧﻮد از. روش ﯿﺸـﻨﻬﺎدی ﻣﻌﻤـﺎر ﺑـﺎ ی۱۰۱ - ResNet رو ﺑـﺮ ی داده ﻣﺠﻤﻮﻋـﻪSUN ﺑﺮا ی آﺷﮑﺎرﺳﺎز ی ﺑﺮﭼﺴﺐ و زﻧ۳۶ آزﻣﺎ ﻣﻮرد ﯾﺶ ﻧﺘﺎ و ﮔﺮﻓﺖ ﻗﺮار ﯾﺞ ا ﻋﻤﻠﮑـﺮد ﺑﻬﺒﻮد دﻫﻨﺪه ﻧﺸﺎن آﻣﺪه ﺑﺪﺳﺖ ﯾـﻦ ﻧﺴـﺒﺖ روش ﭘﺎ روش ﺑﻪ ﯾﻪ ﺷـﺒﮑﻪR-FCN اﺳـﺖ. رو ش ﯿﺸـﻨﻬﺎدی ﻣﻌ ﻟﺤـﺎظ از ﯿـﺎرmAP ﻋﻤﻠﮑـﺮد، ۳۸ / ۴۸ % ﺑـﺮا ﻣﺘﻮﺳـﻂ زﻣـﺎن ﻣـﺪت و ی ﻫـﺮ ﺗﺼﻮ ﯾﺮ۱۳ / ۰ ﺑﻬﺘﺮ ﺑﻪ ﻧﺴﺒﺖ و دارد، را ﯾﻦ ا در روش ﯾﻦ ﺗﻘﺮ ﺣﻮزه ﯾﺒﺎ۲ % و ﻋﻤﻠﮑﺮد در۰۴ / ۰ ﺛﺎﻧ ﯿﻪ اﺳﺖ ﮐﺮده ﻋﻤﻞ ﺑﻬﺘﺮ زﻣﺎن در. ﮐﻠﯿﺪواژه ﻫﺎ: آﺷﮑﺎرﺳﺎز ی ﺷﻨﺎﺳﺎ و ﯾﯽ اﺷ ﯿﺎء، ﯾﺎدﮔﯿﺮی ﻋﻤ ﯿﻖ،R-FCN ﻣﺎﺷ، ﯿﻦ ﭘﺸﺘ ﺑﺮدار ﯿﺒﺎن دودو ﯾﯽ ﻓﺎز ی،ﮐﻮﺷ اﺧﺘﻼف- ﺷﻮارﺗﺰ۱ ﻣﻘﺪﻣﻪ ﻣﻌﻨﺎ اﻃﻼﻋﺎت ﺧﻮدﮐﺎر آوردن ﺑﺪﺳﺖ ﯾﯽ ﺗﺼﻮ در ﯾﺮ ﯾﮑﯽ از در ﻣﻬﻢ ﻣﻮﺿﻮﻋﺎت ﯿﻨﺎﯾﯽ ﻣﺎﺷ ﯿﻦ ﺑﺎﺷﺪ. روش ﻫﺎ ی ز ﯾﺎدی ﺑﺪ ﯾﻦ ﺳﺎل در ﻣﻨﻈﻮر ﻫﺎ ی اﺧ ﯿﺮ ﻣﻌﺮﻓ اﺳﺖ ﺷﺪه] ۱ - ۳ .[ ﺑﺮﺧ در از روش ﻫﺎ ﯾﯽ ﮐﻪ ﯿﺸﺘﺮ ا در ﯾﻦ ﻣﻌﺮﻓ ﺣﻮزه ﻓﺮض ﺷﺪه، ﺷﻮد ﻫﺮ ﮐﻪ ﺗﺼﻮ ﯾﺮ ﺷﺎﻣﻞ ﻓﻘﻂ ﯾﮏ ﺑﺎﺷﺪ روش آن و ﻫﺎ و ﺑﺎ ﯾﮋﮔﯽ ﻫﺎی ﭘﺎ ﺳﻄﺢ ﯾﯿﻦ دﺳﺘﻪ ﻋﻤﻞ ﺑﻨﺪ ی اﻧﺠﺎم را دﻫﻨﺪ. ا ﯾﻦ روش ﻃﻮر ﺑﻪ ﻫﺎ ﺑﺮا ﻓﻘﻂ ﻣﻌﻤﻮل، ی دﺳﺘﻪ ﺑﻨﺪ ی ﺻﺤﻨﻪ ﻫﺎ ی اﺳﺘﻔﺎده ﻗﺎﺑﻞ ﻣﺤﺪود ﻫﺴﺘﻨﺪ. در ﺳﺎل ﻫﺎ ی اﺧ ﯿﺮ ﻧﻤﺎ از ﯾﺶ ﺑﺎﻻ ﺳﻄﺢ ی ﺗﺼﻮ ﯾﺮ ﭼﻨﺪ اﻧﺘﺨﺎب ﺑﺎ ﯾﻦ ﻧﺎﺣ ﯿﻪ ﮐﺎﻧﺪ ﯾﺪ ﺗﺼﻮ از ﯾﺮ دﺳﺘﻪ ﺟﻬﺖ ﺑﻨﺪ ی اﺳﺖ ﺷﺪه اﺳﺘﻔﺎده. ﻧﻤﺎ از اﺳﺘﻔﺎده ﯾﺶ ﺧﻮﺑ ﻋﻤﻠﮑﺮد ﺑﺎﻻ ﺳﻄﺢ دﺳﺘﻪ در را ﺑﻨﺪ ی ﺻﺤﻨﻪ ﺗﺼﻮ ﯾﺮ از اﺳﺖ داده ﻧﺸﺎن ﻮد. روش در ﻫﺎ ی ﻧﻮ ﯾﻦ ﺑﺮا ی دﺳﺘﻪ ﺑﻨﺪ ی ﻣﺪل از اﺳﺘﻔﺎده ﺻﺤﻨﻪ، ﻫﺎ ی ﻣﻮﺿ ﻮﻋﯽ ﻣﺘﻐ ﺗﻮﺳﻂ ﺷﺪه ﺳﺎﺧﺘﻪ ﯿﺮﻫﺎی اﺳﺖ ﺷﺪه ﻣﻄﺮح ﭘﻨﻬﺎن. ا در ﯾﻦ روش دﺳﺘﻪ ﻫﺎ ﺑﻨﺪ ی ﺗﺼﻮ ﯾﺮ ﺑﺮﭘﺎ ﯾﻪ ﻣﻌﻨﺎﺷﻨﺎﺳ ﺗﺼﻮ ﯾﺮ اﻧﺠﺎم ﺷﻮد. ا ﯾﻦ روش ﺑﺮا ﻫﺎ ی ﻣﻮارد ی ﮐﻪ ﮐﻼس ﺗﻌﺪاد ﻫﺎ ی ﻗﺮار اﺳﺘﻔﺎده ﻣﻮرد اﺳﺖ ﺑﺎﻻ ﺻﺤﻨﻪ ﮔﯿﺮﻧﺪ] ۴ - ۶ .[ دﺳﺘﻪ از ﻫﺪف ﺑﻨﺪ ی ﺗﺼﻮ ﯾﺮ، ﺗﻮﺻ ﯿﻒ ﺳﺮاﺳﺮ ی ﯾﮏ ﺗﺼﻮ ﯾﺮ ﺑﺎ ﺗﻮﺻ ﺑﺮﭼﺴﺐ ﯿﻒ ﮐﻨﻨﺪه اﺳﺖ. ﻓﻀﺎ ﺳﺎﺣﻞ، ی و ﺷﻬﺮ درون ﺑﺎز، ﯿﺮه ﻧﻤﻮﻧﻪ ﻫﺎ ﯾﯽ ﺑﺮﭼﺴﺐ از ﻫﺎ ی ﯾﮏ ﺗﺼﻮ ﯾﺮ ﻫﺴﺘﻨﺪ. ﺑﺮﭼﺴﺐ زﻧ ﺗﺼﻮ ﯾﺮ، ﺑﺮﭼﺴﺐ ﺑﻪ ﮔﺬار ی ﻣﺤﺘﻮا ﯾﯽ ﻣﺤﻠ ﯾﮏ ﺗﺼﻮ ﯾﺮ ﺗﺎﮐ ﯿﺪ دارد. ﺑﺮا ی ﻧﻤﻮﻧﻪ، ﯾﮏ ﺗﺼﻮ ﯾﺮ ﺗﻮاﻧﺪ ﺷﺎﻣﻞ" آﺳﻤﺎن" ، " ﻣﺎﺷ ﯿﻦ" ، " درﺧﺖ" و ﯿﺮه ﺑﺎﺷﺪ. ا ﯾﻦ ﻫﺴﺘﻨﺪ ﻣﺮﺗﺒﻂ ﻫﻢ ﺑﻪ ﻣﺴﺌﻠﻪ دو. www.ismvip.ir ﻣﺠﻠﻪ در آن ﻧﻬﺎﯾﯽ ﻗﺎﻟﺐ در ﻣﻘﺎﻟﻪ اﯾﻦ ﻣﺎﺷﯿﻦ ﭘﺮدازش و ﺑﯿﻨﺎﯾﯽ ﺷﺪ ﺧﻮاﻫﺪ ﭼﺎپ ﺗﺼﻮﯾﺮ اﻧﺘﺸﺎر ﺗﺎرﯾﺦ: آ ذر ﻣﺎه۱۳۹۷ ﻋﻤ ﺷﺒﮑﻪ ﺑﻬﺒﻮد ﯿﻖR-FCN آﺷﮑﺎرﺳﺎز در ی و ﺑﺮﭼﺴﺐ زﻧ اﺷ ﯿﺎء ﻋﻠ ﻗﻨﺒﺮ ی ﺳﺮﺧ۱ ﺣﻤ، ﯿﺪ ﺣﺴﻦ ﭘﻮر۲ ﻓﺎﺗﺢ ﻣﻨﺼﻮر، ۳

ءﺎﯿﺷا ﯽﻧزﺐﺴﭼﺮﺑjmvip.sinaweb.net/article_80238_60bdfdb040dc64ba6400e9566549096b.pdf · ۲۰۱۵ لﺎـﺳ رد ﻖـﯿﻘﺤﺗ ﻦﯾﺪﻨﭼ SPP-Net رد

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

بــازنگری و در۱۳۹۷مهرمــاه، دردریافــت ۱۳۹۶ مــاه بهمنمقالــه درایــن .شد اه پذیرفتهم بانآ شاهرود یدانشگاه صنعت مپیوتر،امهندسی ک دکتری یدانشجو ۱

[email protected] : رایانامه شاهرود یدانشگاه صنعت ،یوترکامپ یدانشکده مهندس ۲

[email protected] : رایانامه شاهرود یدانشگاه صنعت ،یوترکامپ یدانشکده مهندس ۳

[email protected] : رایانامه

علي قنبري سرخي: نویسنده مسئول

یدهچکدر . باشـد یمـ ماشـین ینـاییب یاز کاربردهـا یدر برخـ یاساسـ یها از چالش یکی یردر تصاو یاءاش یزن و برچسب یامروزه آشکارساز

یـدترینمقالـه ابتـدا جد یـنراسـتا، در ا یندر همـ. مـورد توجـه محققـان قـرار گرفتـه اسـت یـقعم یـادگیریاستفاده از یراخ یها سال R-FCNاز شـبکه یافتـهبهبـود یا در ادامـه شـبکه. شـود یم یـلسپس نقاط قوت و ضعف آنها تحل ی،موجود معرف یقعم یها شبکهبـر یمبتنـ یـدیجد یروش، معمـار یـندر ا. وشـن اسـتو شبکه تمـام کانول ResNet یمعمار یهبر پا یشنهادیروش پ. شود یارائه م

یزنـ و برچسـب یآشکارسـاز یبـرا SVRو کالسـهدو یفـازSVMبـر یمبتنـ یبیترک یو روش یدکاند یهناح یشنهادپ یبرا یقشبکه عماز لحـاظ یـانتـابع ز ینا. شوارتز استفاده شده است-یبا عنوان اختالف کوش یدجد یانروش از تابع ز یندر ا. ارائه شده است یاءاش

SUNمجموعـه داده یبـر رو ResNet-۱۰۱ یبـا معمـار یشـنهادیروش پ. از خود نشان داده است یسرعت و دقت، عملکرد بهترروش نسـبت یـنبدست آمده نشان دهنده بهبود عملکـرد ا یجقرار گرفت و نتا یشمورد آزما یش ۳۶ یزن و برچسب یآشکارساز یبرا

هـر یو مـدت زمـان متوسـط بـرا% ۳۸/۴۸، عملکـرد mAP یـاراز لحـاظ مع یشـنهادیش پرو. اسـت R-FCNشـبکه یهبه روش پا .در زمان بهتر عمل کرده است یهثان ۰۴/۰در عملکرد و % ۲ یباحوزه تقر ینروش در ا ینرا دارد، و نسبت به بهتر ۱۳/۰ یرتصو

شوارتز- یاختالف کوش ی،فاز ییدودو یبانبردار پشت ین، ماشR-FCN یق،عم یادگیری یاء،اش ییو شناسا یآشکارساز : ها کلیدواژه

مقدمه ۱از یکی یردر تصو ییبدست آوردن خودکار اطالعات معنا

ینبد یادیز یها روش. باشد یم ینماش یناییموضوعات مهم در باز یدر برخ]. ۳-۱[شده است یمعرف یراخ یها منظور در سال

که هر شود یشده، فرض م یحوزه معرف یندر ا یشترکه پ ییها روش های یژگیبا و ها و آن روش باشد یم یش یکفقط شامل یرتصو

ها به طور روش ینا. دهند یرا انجام م یبند عمل دسته یینسطح پا

محدود قابل استفاده یها صحنه یبند دسته یمعمول، فقط برا . هستند

ینبا انتخاب چند یرتصو یسطح باال یشاز نما یراخ یها سال در. استفاده شده است یبند جهت دسته یراز تصو یدکاند یهناح

صحنه یبند را در دسته یسطح باال عملکرد خوب یشاستفاده از نما یبند دسته یبرا یننو یها در روش. ود نشان داده استاز خ یرتصو

یرهایساخته شده توسط متغ وعیموض یها صحنه، استفاده از مدل یهبرپا یرتصو یبند ها دسته روش یندر ا. پنهان مطرح شده است

که یموارد یها برا روش ینا. شود یانجام م یرتصو یمعناشناس گیرند یصحنه باال است مورد استفاده قرار م یها تعداد کالس

]۴-۶.[ با یرتصو یک یسراسر یفتوص یر،تصو یبند هدف از دسته

باز، درون شهر و یساحل، فضا. است کننده یفبرچسب توص یزن برچسب. هستند یرتصو یک یها از برچسب ییها نمونه یرهغ

. دارد یدتاک یرتصو یک یمحل ییمحتوا یگذار به برچسب یر،تصو، "ینماش"، "آسمان"شامل تواند یم یرتصو یکنمونه، یبرا

. دو مسئله به هم مرتبط هستند ینا. باشد یرهو غ" درخت"

www.ismvip.ir

این مقاله در قالب نهایی آن در مجله

تصویر چاپ خواهد شدبینایی و پردازشماشین

۱۳۹۷ماه ذرآ: تاریخ انتشار

و یدر آشکارساز R-FCN یقبهبود شبکه عم یاءاش یزن برچسب

۳، منصور فاتح۲پور حسن ید، حم۱یسرخ یقنبر یعل

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

2

یبرا. است یضرور یمسائل امر ینحل مشترک ا یتالش برا یفاحتمال توص یابان،با برچسب خ یرتصو یکنمونه در

از یشترب" ساختمان" یا" انسان"، "ینماش"با حضور یرتصوحات ارائه شده، یبا توجه به توض. است" یاآب در" یا" ساحل"

یاربس یبند در باال بردن دقت دسته یرتصو یمحتوا بدست آوردنور به منظ یمقاله، راهکار ینراستا در ا یندر هم. است یرگذارتاث

, ۷[ شود یم یمعرف یرتصو یمحتوا یگذار و برچسب ییشناساموجود یاءاش یر،تصو یالزم به ذکر است که منظور از محتوا]. ۸

.باشد می یردر تصوموجـود یاءاشـ ییو شناسـا آشکارسـازی یبرا یستمس یک یطراح

ــا چــالش یر،در تصــو ــدهو پ یاساســ یه یردر تصــاو. دارد ای یچیقـرار یـهمحـل و زاو ، ینـهزم پس یـرنظ اییهـ یژگـیمعموال و یعیطب

یجزئـ یو همپوشـان یاءصحنه، تعدد اش ینورپرداز یاء،گرفتن اشمشـکل را دچار یاءاش یزن و برچسب آشکارسازیآنها، کار یکل یابــر هــا یســتمنــوع از س یــناســتفاده شــده در ا یهــا روش. کنــد یمــ

ا، ه روش ینهدف غالب ا. شوند یم یدهها سنج چالش یناساس ا ]. ۱۲-۹[ها است چالش ینفائق آمدن بر ا

یاء،اش تشخیصبه منظور ۲۰۱۴شده تا سال یمعرف های سیستم یاءمکـان اشـ ینتخمـ یبـرا یدکاند یهانتخاب ناح های یتمبه الگور

یاءاشــ تشــخیص هــای یســتمس ینتــر از مهم. وابســته بودنــد یاربســود اشـاره نمـ] ۱۴[ R-CNN Fastو ] SPPnet ]۱۳بـه توان یم

قرارگرفته یصنعت ردهایاز محققان و کارب یاریبس توجه موردکه یزمـان هـای یتمحـدود یلبه دل] ۱۴, ۱۳[ها روش یندر ا. است

را جسـتجو یرسراسـر تصـو توان ینم یاء،مختلف اش یها و حالت یوجـود شـ یـدکاند هـای یـهناح یـدراسـتا، ابتـدا با یندر همـ. کرد

یهـا به همـراه روش یقعم یاه استفاده از شبکه. استخراج شوند یهــا شــبکه یســبب بهبــود زمــان اجــرا اندیــد،ک یــهاســتخراج ناح

ینتـر همچنـان مهم یدکاند ینواح یینتع یشده است ول یصتشخ یندر همـ. شـود محسوب مـیها روش گونه ینا یمحاسبات یتنگنا

) RPN( 1یـدکاند یهناح یشنهادشبکه پ یک، ]۱۴[راستا در مقاله اسـتخراج شـده بـا هـای یژگـیشـبکه، و یندر ا. شده است یمعرف

بــه اشــتراک گذاشــته یرمختلــف از سراســر تصــو ایهــ کانولوشــنکــاهش یــهناح یشــنهادهایزمــان مربــوط بــه پ یجــه،درنت. شــود یمبـودن یشـ یـازو امت یاءاش یزمان مرزها طور هم به RPN. یابد یم

ای یــدهدر ا. کنــد یمــ بینــی یشپــ یراز تصــو یــترا در هــر موقعــاوت، مرجــع مت ــاال در شــبکه] ۱۵[ف ــا محاســبات ب یعصــب یه کـه کـرده اسـت یاناصل ب یکعنوان را به یهناح یهبر پا ولوشنکانبدسـت آمـده از یـدهایکاند یگـذار بـا اشـتراکرا محاسبات ینا

هــای یشدر آزما]. ۱۴, ۱۳[دهــد یشــدت کــاهش مــ کانولوشــن به یرخـ، ن]۱۴[ یعسـر R-CNN یـر،اخ یهـا انجام شـده در سـال

بدسـت عمیـق یهـا در استفاده از شبکه درنگ یب به زمان یکنزد ]. ۱۶[آورده است

1 Region Proposal Network

ساده های یژگیطورمعمول بر و به یدکاند یهناح یشنهادپ های روشاز یکــــی] ۱۷[ یانتخــــاب یجســــتجو. دارنــــد یــــهتک یعو ســــرــروف ــر مع ــا روش ینت ــنهادپ یه ــهناح یش ــه به ی صــورت اســت ک

سـطح های یژگیشده بر اساس و یطراح های یکسلابرپ یصانهحر رنگـی یو رنـگ در فضـاها ییشـدت روشـنا یـزانمانند م( یینپا

ییهـا با شبکه یسهروش در مقا یناما ا. کند یرا ادغام م) متفاوتروش یــراًاخ .کنــد مــیعمــل کنــدتر یع،ســر R-CNN مشــابه

EdgeBoxs ــنهادپ ــده در یش ــک، ]۱۸[ش ــ ی ــل ب ــتک ینتقاب یفی یـدوجـود مراحـل تول یـنبـا ا. کرده است و زمان را فراهم یدکانددر ) اجــرا زمــانازلحــاظ ( یــادیز یبــار محاســبات یــد،کاند ینــواح یدر واقع بدست آوردن نـواح. کنند یم یجادا یصتشخ یها شبکهــدکاند ــبات ی ــتمس یبارمحاس ــاال م یس ــرد یرا ب ــه،در نت. ب ــدبا یج یـــا قابل یســـتمیس ـــتب ـــل ی ـــان عم و آشکارســـازیانجـــام همزم

.نمود یطراح یزن برچسبهای اخیـر، یـک گـام مهـم های معرفی شده در سال در تمام روش

در واقـع بدسـت آوردن نـواحی . باشـد تشخیص نواحی کاندید میــی ــه م ــی در ک ــوند بخــش مهم ــرح ش ــوان شــی مط ــه عن ــد ب توانندر همــین راســتا همــانطور کــه در . باشــد بنــدی تصــویر مــی دســته

هـای اری و ساختار شـبکهکارهای پیشین اشاره شد، با تغییر معمعمیق عمل آشکارسازی و شناسایی به صورت همزمـان صـورت

هـایی بـه ماننـد انتخـاب نـواحی کاندیـد ولی چـالش. گرفته استنادرست، همپوشنانی نواحی کاندید، نواحی که به اشتباه به عنوان

بسیار زیاد نـواحی کاندیـد در ایـن زمینه انتخاب شده و تعداد پسدر همین راستا در این مقالـه از روش ترکیبـی . داردکاربرد وجود

از شبکه عمیق تمام کانولوشن و ماشـین بـردار پشـتیبان فـازی دو شـده ادهفاسـتکالس برای آشکارسـازی نـواحی مـرتبط بـه اشـیاء

و باشـد می وظیفه اصلی این روش تشخیص نواحی کاندید. استزمینـه و بـا پـستواننـد شـی باشـند که میدارد تاکید هایی احیهبر ن

.متفاوت هستند یهـا شـبکه یاجمـال یمقاله، در بخش دوم به معرف ینا ی ادامه در

پرداختــه یاءاشــ یبنــد و دســته آشکارســازی یبــرا یــقعم یعصــبارائــه یشــنهادیپ یشــبکه عصــب یمعمــار یدر گــام بعــد. شــود یم بعتـا یـکبـا یافتهبهبود R-FCN2بخش روش یندر ا. شود یمبخـش . اسـت شـده ارائـهآخر یهدر ساختار ال ییرغبا ت یدجد یانز

و انجـام شـده اسـت های سازی یادهو پ یجنتا یلچهارم شامل تحل یدر بخــش پــنجم معرفــ ینــدهآ یو کارهــا یــریگ یجــهنت یــتدر نها

.گردد یم

2 Region-based Fully Convolutional Networks(R-FCN)

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

3

اءیاش یزن و برچسب ارسازيآشكدرقیعمیشبکه هاهیانجام شده برپایاز کارهایکل یشما ۱شکل

آشکارسازیدر یقعم یها استفاده از شبکه ۱ یاءاش

بــه منظــور یــقعم یهــا اســتفاده از شــبکه یــراخ یهــا در ســالمــورد یرموجــود در تصــو یاءاشــ یگــذار و برچســب آشکارســازی ینماشـ ینـاییو ب یرو پژوهشـگران پـردازش تصـو ینتوجه محققـ

منتشـر شـده در یها مقالـهتکامـل یرس ۱شکل . قرار گرفته استتوسـط شـبکه بـا مفهـوم یشـ شناسـایی یبـرا یامجالت معتبر دن

مطرح شده در مرجع R-CNN یمعمار. دهد یق را نشان میعم یـهکانولوشـن برپا یـقعم یعصـب یهـا شـبکه یناز اولـ یکی] ۱۵[

ــهناح ــندر ا. اســت ی ــرا یمعمــار ی از شــبکه یاءاشــ یصتشــخ یبــقکانولوشــن عم ــاری ی ــا معم ــده اســت AlexNet ب ــتفاده ش اس

بــه بدســت آمــده یـدکاند یاز نــواح R-CNNشــبکه ). ۲شـکل ( یـندر ا. کنـد یاسـتفاده مـ] ۱۷[ یانتخـاب یجستجوروش کمک

اســتفاده یژگــیاســتخراج و یشــبکه کانولوشــن بــرا یــکروش از ینماشـ یـکاز یاءبرچسب اشـ یبند دسته یبرا ینهمچن. شود یم

. ده شده استاستفا ینریبا یخط یبانبردار پشتسـاختار یـنا. شده است یمعرف ۲۰۱۴در سال SPP-Net شبکه

خــود عملکــرد یشــینپ یهــا نســبت بــه شــبکه یاءاشــ یصدر تشــخاز شـبکه یعتربرابـر سـر ۶۰تـا ۲۰روش، یـنا]. ۱۳[دارد یبهتر

R-CNN یورود یرروش، انــدازه تصــو یــندر ا. کنــد یعمــل مــ

]۱۵[در مرجع ارائه شدهR-CNN شمای کلی از روش ۲شکل

ــد یم ــرمتغ توان ــا. باشــد ی ــ یدر کاره ــودن تصــ ی،قبل ــت ب ویرثاب

.ه استبود یضرور یامر 1متصل تمام یهال یبرا یورودقبـل 2ییفضـا-یهرم ینظرسنج یهال یک یروش، با طراح یندر ارفـع شـده یورود یرتمام متصل، مشکل ثابت بودن تصـو یهاز ال نشــان ۳در شــکل کــه ] ۱۳[روش مرجــع یکلــ یشــمادر . اســت

ییفضـا-یهرمـ یـهال یـککانولوشـن یه، بعد از الداده شده است یـدکاند یـههـر ناح یبـه ازا R-CNNدر شبکه . استشده یهتعبادعـا شـده ] ۱۳[در مرجع . شود یه مآموزش داد یقشبکه عم یک

. شـود یآمـوزش داده م یر،کـل تصـاو یشـبکه بـه ازا یـککه تنهـا مربوطــه اســتخراج و یکانولوشــن، نــواح یــهال یســپس از خروجــ

یارروش، سـرعت بسـ یـندر واقـع در ا. شـوند یم یگذار برچسب . است یافته بودبه

]۱۳[ع ارائه شده در مرج SPP-Netشمای کلی از روش ۳شکل

۲۰۱۵در سـال یـقتحق ینچند SPP-Netمطرح شده در یدها با -Fast بـه تـوان یهـا مـ شبکه ینا ینتر از معروف. شده است انجام

RCNN ]۱۴[ ،Faster R-CNN ]۱۹ [ وR-CNN minus R ]۲۰ [مطـرح شـده در یمعمار. اشاره کردFast-RCNN در

و یورود یرتصـو ی،معمار یندر ا. نشان داده شده است ۴شکل ــدینچ ــهناح ن ــوب ی ــوان ورود) RoI( 3مطل ــه عن شــبکه تمــام یب

نقشـه یـکبـه ینظرسـنج یهتوسط ال RoIهر . هستند کانولوشن

1 Fully connected 2 Spatial Pyramid Pooling Layer 3 Region-of-Interest (RoI)

R-CNN (2013)

Fast R-CNN (2015)

Faster R-CNN (2015)

R-CNN minus R (2015)

ProNet (2016)

SSD (2016)

YOLO (2016)

G-CNN (2016)

SSD + DSSD (2017)

YOLO 9000

(2017)

R-FCN (2017)

SPP-Net (2014)

د ن

ت ه،

و ب ر یC ی

ـه

زه ق

ر ده ن اه

ت، ش . ت

ر رد

2 3

واهد شد

یشـنهاپ یتر بـراینبـا چنـد ولشـنبـا قـدرت ییهـاشـبکه یـنا. کندهـا مکـان رفتن

تخـاب برچسـبدر واقـع د. شـود

هـای یـاسا و مقCNNسـتفاده از

یتصاص داده مـه آن بـا توجـه بـ

]۲۱[در مرجع

ح شـده در حـوزیـقعم یه عصـب

روش د یـنا یـکننـد بینی یشپ ک

ــت یــندر ا. اسبــه همــرا یوشــنقســمت یــنا فــهروش یـندر ا. ت

فاده شـده اسـتد یژگـیونقشـه

روش، عملکــر .داده است

]۲۲[مرجع

Single Shot MulResolution

ر چاپ خو

کارامـدتر یعصبوشـبکه تمـام کانه روش، از شـبکه

ک یاستفاده م یهحدر نظـر گـربا ءانت یبـرا .دهد یش یاستفاده م یهـا با مکـان یش

بـا اسـ یام بعـداخت یهبه هر ناح

مربـوط بـه یـهح .شود ی

Pro ارائه شده د

مطـرح یها شبکهشـبکه یـکها از کلـ یشـما. کنـدیکروش، ین اــ ی ــده یمعرف شکانولو یژگــی،و ه

یفـوظ. ده اســتسـبت ابعـاد اسـت

Faster R اسـتفن ینم را در چنـد

یــنا. کنــد ی مــF از خود نشان د

SS ارائه شده در

tiBox Detector (S

تصویرزش

عی ها شبکهش از ش و هـم چنـین

ر یـنا. ده استناح یشنهادپ یرا

یاه مربوط به اشیت اختصاص م

یدرخت یا یبشاریکمختلف از

در گـا. شـوند یـ یسب شو برچ

و نا یچسب شـیانتخاب م یشار

Netلی از روش

از ش یگرد یکی روش تنه ینا. تک یاسـتفاده مـ ی

در. شده استــخ یشــ یصتشهــر نقشــه یــاالشــد یــهتعب ترهــا

هـا و نسـ کـالسR-CNNدر ها

SSD مفهـوم یناتفــاوت اعمــالFaster R-CN

SD کلی از روش

SSD)

نایی و پردا

روش یندر ا. تیشـامل شـ یح

استفاده شد اسکندتر بر یول تر

به محدوده ازیمتفاوت های اس

آب یها از روشم یروش، نواح

اوت انتخاب مـبودن و یمال ش

برچ یتدر نها. دختار درخت آبش

شمای کل ۶شکل

]2SSD ]۲۲ کهاست یش خیص

یشـ یصتشخ ینشان داده ۷ل

ــرا ــن ب ت یولوشکننــده، بــ ینــیب ش

یلتاز ف یا موعــهکی دسـته ینـیب ش

ابه مفهوم لنگرهDتفاوت که ینمت 3یریپــذ یــککNNاز روش یر

شمای ۷شکل

بیناه ماشین

4

در گـام گاشــت

کیــ ــهتبط بـه

F یـک یژگـی،و

ینـواحRPN (

Fast-زده ین

،لنگـربـا ییها

۵شــکلFast را

]۱۴[ع

RCN در ــــددر . ست

CNN یبـرا د

سـاز بـادر . ــد

مرحلــهــر از یگ

P ]۲۱ [

]۱۹[ع

1 ancho

استنواحیامقیشتب

امتیایامقیشینا

متفااحتمشودساخ

ش

شبکتشخیبرا

شکلکانو

یشپمجم

یشپمشایبا اتفکبهتر

آن در مجله

د یژگـی،و ی شـهنگ یژگــیــردار وکــ دارد یخروجــمـرت ینـواح گـر

Faster-RCNNو یها راج نقشه

اسـتخراج ن یراN( یـهناح هادی

مشــابهر ادامــهیتخمــ یدوده شــ

.ده شـده اسـتها ان به محدوده

ش .کنـد یمـ یمسـter-RCNNه

ائه شده در مرجع

NNروش ی شـدهــــواح یـکاند ین

قرار گرفته است یNدر یهم هندسـیـدجد شکارسـاز

آشکارس یـنا ـبـــ یم یجــــادا کن

CNN م ینچنــدــت ــی. س ید یک۲۰۱ ،ProNet

ارائه شده در مرجع

ors

لب نهایی آ

نقش یـنا. شود یـام متصــل بــه بــ

Ro دو بــردار خیگد یخروجـو س Nشبکه . کند یم

که بعد از استخربـر یـهناح شـنهاد

یشـنهد از شبکه پدر. یــردگ یر مــ

محــد یبــا نــواحاستفا 1هوم لنگر

پنجره لغزا وسطسـبت ابعــاد تقس

شــده در شــبکه

Fast-RCNN ارا

R سـاده ششکلــــش تول ــــدنق ی

CN یمورد بررسکه اطالعات مه

آش یـکراسـتا، یـترک. شده اسـتیعتریر و ســــر

Nبــر یمبتنــ یــقتلف ــده ا ی ش

۶شــده در ســال

Faster-RCN ا

مقاله در قال

یم یلل ثابت تبدتمــا هــای یــهط ال

oIهــر یبکه بــراکـالس مـال هـر

را مشخص م یشبک یندر ا. ت

یشعنـوان شـبکه پبعد. شده است

قــرار RoI ینجمــرتبط بـ یــتقعروش از مفه ین

را تو شده نهادت از لحـاظ نس

یشــنهادروش پ.

Nی کلی از روش

R-CNN miــــه ، نق]۲۰[مقال

NNبر یمبتن یشاره شده است ک

یندر همـ. سـتش یمعرف کاندید

ــــر ــــرد بهت عملکیآشکارســازها

ــک ــور ی یتمالگش یمعرفــ یــقعم

NN کلی از روش

این م

با طول یژگیوتوســط یبعــدشــب. شــود یمــ

احتم یخروجیش ی ه محدود

شبکه تنها استعن بـا یا شبکه یهتعب یدکاندنظرســنج یــهال

RCNN موقیدر ا. شود یمیشنپ یهر ناحه

انـدازه متفـاوتــ یشــما یکل

.دهد ینشان م

شمای۴شکل

nus R شبکهــــت در م. اس

یها آشکارسازمقاله، اش ینانشده اس یدهد

ک احیهن یدتولSPP-Net ع

یســاز ســادهــادگیری یدر یعم یهــا شــبکه

شمایک ۵شکل

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

5

مطــرح شــده در یهــا از روش یگــرد یکــی] 1YOLO ]۲۳ روش RPN ییشـنهادبا دو شـبکه پ یقبل یها روش. است ۲۰۱۶سال یسـاز ینـهدر به یکنـد، سـخت 2خط لوله یلکالس، به دل ینو تخمهـر بخـش، یها برا لوله به آموزش خط یازمجزا و ن یها لوله خطبــه شکارســازی آمقالــه یــنراســتا، در ا یندر همــ. بودنــد یچیــدهپ

ینهمچنـ. در نظـر گرفتـه شـده اسـت ینمسـئله تخمـ یـکعنوان شده است که از لحاظ یمعرف یطراح یشبکه کانولوشن مجزا برا

بـه تعـداد یرروش، تصـو یـندر ا. اسـت یعساده و سر سازی یادهپ یشـ یـککه مرکز ی در صورت. شود یم یلتبد 3شبکه مشبک یثابت

یبـرا واندت یشبکه م ینا یردشبکه مشبک قرار بگ یکدر محدوده هـر شـبکه مشـبک یدر ادامـه بـرا. قابل قبول باشد یش یصتشخ

از کـه شـود یمحـدوده در نظـر گرفتـه مـ یثـابت قابل قبول، تعـداد. شــود مــیبــودن اســتفاده یشــ یصتشــخ یبــرا ۸شــکل یمعمــارــه ۲۴شــامل یشــنهادیپ یمعمــار ــهال دو کانولوشــن و الی تمــام ی یمـ GoogleNet یاول مشابه معمار یهال ۲۰ ، وباشد یمتصل م

با اندازه کوچک و یاءاش یصروش در تشخ ینا یتمحدود. باشدتـابع خطـا اسـتفاده شـده ینهمچنـ. با ابعاد متفاوت اسـت یاءاش

بـا نسـبت ابعـاد یاءاشـ یبرا ینیتخم یخطا یزانبوده و م ینیتخم ]. ۲۳[باشد یکسانتواند یمتفاوت م

]۲۳[ارائه شده در مرجع YOLO ششمای کلی از رو ۸شکل

ــهبرپا یصتشــخ یــکتکن یــک] G-CNN ]۲۴ روش و CNN یهمـانطور کـه در . است یدکاند یشنهادپ یتمبدون استفاده از الگور

چنـد شـبکه مشـبک یکبا G-CNN شود مینشان داده ۹شکل یتکـرار یونرگرسـ یـک. شـود یبا محدوده ثابت شروع م یاسهمقــرا ــا یب ــدوده و مق ییجابج ــاسمح ــور ی ــه منظ ــبکه ب عناصــر شمسـئله G-CNNدر واقـع . شود یآموزش داده م یاءاش خراجاست مشبک ثابت از شبکه یرکردن مس یدارا به عنوان پ یاءاش یصتشخ

بـا محـدوده G-CNN. کنـد یمـدل مـ یاءاطـراف اشـبه محدوده ،متفــاوت یــاسمشــبک بــا مق یهــا در شــبکه یــهناح ۱۸۰حــدود یـدمحـدوده تول k2بـا Fast R-CNNمشابه بـا روش یعملکرد

روش، یـندر واقع ا. دارد یدکاند یشنهادپ های یکتوسط تکن شدهــدل ــه پ یلب ــذف مرحل ــنهادح ــهناح یش ــواح ی ــداد ن ــاهش تع یو ک ۱۰شــکل . اســت Fast R-CNNاز روش یعترســر یشــنهادیپ

یندر ا. دهد یرا نشان م یش یصتشخ یروش برا ینای کل یشما نزولی یبو با استفاده از ش شود یم یفتابع هدف تعر یکروش

1 You Only Look Once (YOLO) 2 Pipeline 3 Grid

در مرحلـه G-CNNراسـتا، یندر همـ. شـود یمـ ینـهبه یتصادف یرا بـه محـدوده واقعـ ینتکرار، محدوده تخمـ یآموزش با تعداد

روش یـناده شده در ااستف CNNشبکه یمعمار. کند یم یکنزدAlexNet وVGG است .

]۲۴[ارائه شده در مرجع G-CNNمراحل انتخاب نواحی در ۹شکل

]۲۴[ارائه شده در مرجع G-CNNشمای کلی از روش ۱۰شکل

بـه روش تـوان یمـ ۲۰۱۷انجام شده در سال یکارها ینمهمتر ازSSD+DSSD ]۲۵[ ،YOLO9000 ]۲۳ [ وRFCN ]۲۶ [ــرد ــاره ک ــته 4DSSDدر روش . اش ــدا دس ــد پ ابت ــرفتهبن -۱۰۱ یشResidual ]۲۷ [یعسـر یصتشخیستم با س SSD ]۲۲ [یـبترک ــه شــبکه . شــده اســت ــ -۱۰۱SSD+Residualدر ادام ــا معرف یب

شــده تــا بتوانــد عملکــرد یــتتقو 5کــوسکانولوشــن مع هــای یــهال یصکوچـک و بهبـود عملکـرد تشـخ یاءاش یصدر تشخ را یخوبنشـان داده شـده ۱۱ در شـکل یشـنهادیروش پ. داشته باشـد یش

.است

]۲۵[ارائه شده در مرجع SSD+DSSDشمای کلی روش ۱۱شکل

و بهتــر یترقــو یعتر،ســر YOLOنســبت بــه YOLO9000 روش

بنـد ، دسـته]۲۸[ یا دسته یساز از نرمال این روشدر . بوده استلنگـر، آمـوزش یهـا باالتر، کانولوشن با محدوده یریپذ یکبا تفک

و یبنـــد سلســـله مراتبـــ اســـتفاده از دســـته یـــاس،مق ینبـــا چنـــد .استاستفاده شده آشکارسازیبا یبند اتصال دسته

4 Deconvolutional Single Shot Detector (DSSD) 5 deconvolution

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

6

یهـا بخش، استفاده از شـبکه ینبا توجه به مطالب ارائه شده در ا یــهال یلهبــه وســ تــوان یرا مــ یشــ یصتشــخ یبــرا یــقعم یعصــب

].۱۴[ نمــود یمتقســ یرشــبکهمطلــوب بــه دو ز یــهناح ینظرســنجـــته اول، ز ـــتقل از یرشـــبکهدس ـــام کانولوشـــن مس بـــا RoIsتم

ــر یرشــبکهمحاســبات و دســته دوم ز یگذار اشــتراک ــه ب RoI پایبـه لحـاظ ] ۸[ یـلتحل ینا. محاسبات است یگذار بدون اشتراک

] AlexNet ]۲۹مانند یبند طبقه یشگامپ های یاز معمار یخیتارــده اســت] VGG Nets ]۳۰ و ــنا. بدســت آم هــا از دو شــبکه یکانولوشــن کــه در یرشــبکهز یــک. اســت شــده یلتشــک یرشــبکهز

یگـرد یرشبکهشده و ز بیهتع ییفضا ینظرسنج یهال یکآن یانتهاــد ــهال ینشــامل چن ــام متصــل اســت ی ــابرا. تم ــهال ینآخــر ینبن یــد دســته یهــا در شــبکه ییفضــا ینظرســنج ــه ال یرتصــو یبن ــهب یشـوند یمـ یلتبـد یاءاشـ یصتشـخ یهـا در شبکه RoI ینظرسنج

ــا شــبکه]. ۱۹, ۱۴, ۱۳[ ــا ام ــد دســته یه ResNets یرتصــو یبنتمــام یــهخــود از ال یدر طراحــ] ۳۱ ,۳۲[ GoogleNetsو ] ۲۷[

بـه یـهال ینساختار، فقـط آخـر یندر ا. کند یکانولوشن استفاده م به شبکه یاءاش یصتشخ یبرا یهال ینا. صورت تمام متصل است

تمام کانولوشن های یهها، از ال نوع از شبکه یندر ا. شود یاضافه مــرا یکانولوشــن در معمــار یرشــبکهز ی،گــذار اشــتراک یجــادا یب

ــ یرشــبکهو ز یءشــ یصتشــخ ــر یمبتن ــدون ال RoIب ــهب ــ ی ی مخفاست که شده اشاره ]۲۶[حال، در مرجع ینبا ا. شود یاستفاده م

ید دارانـبرتـر شـبکه مطابقـت ندار یبنـد با دقت طبقه هک یاییاشمسـئله، در مقالـه یـناصـالح ا یبـرا. ترنـد یینپـا یصدقت تشـخ

ResNet ]۲۷[ــه، ال ــنج ی ــاز RoI ینظرس -Faster RآشکارسCNN ]۱۹ [هــای یـهدو مجموعـه ال ینبـ یرطبیعـیبـه صـورت غ

بـر یمبتنـ یرشـبکهز ،کـار یـنا .کانولوشن قرار گرفتـه شـده اسـتRoI شـود یبهبـود دقـت مـ سـببکه کند یم یجادرا ا یتر یقعم .

را یستمو سرعت س شود یاشتراک گذاشته نم RoIمحاسبات هر .دهد یکاهش م

در کــاربرد شناســایی ارائــه شــد مشــهور هــای روشاز دیگــر یکــیمعرفـی ۲۰۱۷در سـال ایـن روش . اسـت R-FCNروش شیاء ا

هــای روشعملکــرد را نســبت بــه ینروش بهتــرایــن .شــده اســت R-FCNدر روش . داشـته اسـت یـراخ یهـا مطرح شده در سال

کانولوشـن کـامال متصـل یها شبکه از، ]۲۶[مرجع ارائه شده در اسـتفاده شـده یءارآمد شـو ک یقدق یصتشخ یبرا یهبر ناح یمبتن یـهبر ناح یمبتن یقبل یبا آشکارسازها یسهروش در مقا ینا. استکـامال متصـل یهـا ، از کانولوشنFast / Faster R-CNNمانند

متمـا یبـاکـامال متصـل، تقر یها کانولوشـن یـنا. کنـد یاستفاده م یدنرسـ یبـرا. گذارند یبه اشتراک م یرمحاسبات را در تمام تصو

ــه ا ــنب ــوان نگاشــت یدف، از مفهــومهــ ی ــه عن ــازدهیامت یهــا ب ی یکل یشما ۱۲در شکل . استفاده شده است 1یتحساس به موقع

1 Position-Sensitive Score Maps

نشـان هـا کانـال ،روش یندر ا. روش نشان داده شده است یناز ا یهر کانال برا. باشند یم یورود یردر تصو RoIدهنده مکان هر

ارائــه شــده در یکلــ یمعمــار. شــده اســت یطراحــ یمکــان خاصــ . نشان داده شده است ۱۳، در شکل ]۲۶[مرجع

حساس به یازدهیامت یها نگاشتشمای کلی از روش ۱۲شکل

]۲۶[ارائه شده در مرجع تیموقع

]۲۶[ارائه شده در مرجع R-FCNشمای کلی از روش ۱۳شکل

ـــکهمـــانطور کـــه در شـــکل مشـــخص شـــده اســـت، شـــبکه یRPN]۱۹ [یشنهادپ یبرا RoIاسـتشـده یمعرفـ یـدکاند های.

RoIشـبکه یـندر ا. شـوند یاعمال مـ 2یازبه نقشه امت یدکاند یها یرتصـو یها هستند که بـرا کانولوشن یادگیری،قابل های الیهوزن . تاسـ یزنـاچ RoIمحاسـبه هـر ینههز. شوند یمحاسبه م یورود

RPN های یژگیشبکه، و یندر ا. شبکه تمام کانولوشن است یک یبـه اشـتراک گذاشـته مـ R-FCNو RPN یناستخراج شده بـ

ــود ــار. ش ــ R-FCN یمعم ــورب ــته ه منظ ــد دس ــه RoI یبن ــا ب ه یــهال ینآخــر. شــده اســت یطراحــ ینــه،زم و پس یاءاشــهای دســته

ــه ــازدهینگاشــت امت k2از یا کانولوشــن، مجموع ــه ی حســاس بدر . ارائـه خواهـد داد) C(هـر دسـته یبـراباشـد کـه می یتقعمو

از یا مجموعـه. اسـت k2(C+1) ،یخروجـ یهواقع تعداد کانال الk به یازامت یها نقشهk*k کننـده یفتوصـ ییشـبکه مشـبک فضـا

نـه نگاشـت ،k=3 بـه ازاینمونـه یبـرا. وابسته است یمکان نسبــازامت ــه ی ,... ,top-left, top-center,top-right{صــورت ب

bottom-right {ینآخر. شود یهر کالس اختصاص داده م یبرا

2 Score Maps

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

7

زنی اشیاء موجود در تصویرنمای کلی روش پیشنهادی برای تشخیص و برچسب: ۱۴شکل

یـتحسـاس بـه موقع RoI ینظرسـنج یـهال یـک، R-FCN یهال

کننــده یــدنولوشــن و تولکا یــهال ینآخــر یخروجــ یــهال یــنا. اســتاستفاده شـده یقشبکه عم. کند یم یعرا تجم RoIهر یاز برایامت-۱۰۱. اسـت] ResNet ]۹-۱۰۱ یمعمـار یدارامقالـه یندر ا

ResNet ینظرسـنج یهکانولوشن، به دنبال آن ال یهال ۱۰۰شامل یـندر ا. کالسه اسـت ۱۰۰۰تمام متصل یهو ال یمتوسط سراسر

محاسبه یبرا شنکانولو یهحذف شده و فقط الآخر یهمقاله دو الاز یکلـ یینمـا ۱جـدول . اسـتفاده شـده اسـت یژگـیو یهـا نقشه

یــهاول یدهــ وزن. دهــد یرا نشــان مــ ResNet یهــا ســاختار شــبکهکانولوشـن حاصـل از یهاول یها مقاله از وزن یناستفاده شده در ا

]. ۲۶[است ImageNetمجموعه یآموزش بر رو

ImageNetبرای آموزش ResNetری معما ۱جدول 101-layer 50-layer 34-layer 18-layer Output

sizeLayer name

2 Stride ,6477 × 112112×

Conv1

2 Stride Max pool 33 ×

5656 × Conv2.x 3

2561164336411

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

32561164336411

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

364336433

×⎥⎥⎦

⎢⎢⎣

⎡××

,, 26433

6433×⎥⎥⎦

⎢⎢⎣

⎡××

,,

4512111283312811

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

4512111283312811

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

412833

12833×⎥⎥⎦

⎢⎢⎣

⎡××

,,

21283312833

×⎥⎥⎦

⎢⎢⎣

⎡××

,,

2828 × Conv3.

x

231024112563325611

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

61024112563325611

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

62563325633

×⎥⎥⎦

⎢⎢⎣

⎡××

,,

22563325633

×⎥⎥⎦

⎢⎢⎣

⎡××

,,

1414×

Conv4.x

32048115123351211

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

3

2048115123351211

×

⎥⎥⎥⎥

⎢⎢⎢⎢

×××

,,,

35123351233

×⎥⎥⎦

⎢⎢⎣

⎡××

,,

25123351233

×⎥⎥⎦

⎢⎢⎣

⎡××

,,

77× Conv5.

x

Average pool, 1000-d fc, softmax11× 7.6*1093.8*109 3.6*109 1.8*109FLOPs

با معماری جدید R-FCNاستفاده از ۲ R-FCNداده شــد، شــبکه یحهمـانطور کــه در بخـش قبــل توضـ

یصتشـخ یارائـه شـده بـرا یـقعم یهـا شـبکه یـدتریناز جد یکیو شــبکه تمــام RPNشــبکه یــبشــبکه از ترک یــنا. اســت یاءاشــ

هـا بـا توجـه بـه شـبکه یـنا یخروج. کانولوشن ساخته شده است .دان شـده یـازدهیامت RoIهـر یبـرا ء،یاقرار گـرفتن اشـ یتموقع

بندی از تابع زیان آنتروپی متقابل اسـتفاده شـده کـه در رای طبقهباســتفاده شــده در 1یــانتــابع ز .نشــان داده شــده اســت) ۱(رابطــه ینتخمــ یــانشــده اســت و ز جمــع، RoIهــر یبــرا] ۲۶[مرجــع خروجـی y*) ۱(در رابطه .است) ۲(به صورت رابطه 2محدوده

امـین بعـد بـردار jنشـان دهنـده ) j(خروجی شـبکه و O مطلوب، c*=0. اسـت RoIبرچسـب مطلـوب c*،)۲(در رابطه . است

]در واقـع . زمینه است به معنی پس ]0>*c شـرط مشـخص کننـدهبرابر با یـک و c*زمینه، های غیر از پس در بخش. زمینه است پس

بــا همپوشــانی بــیش از RoIهــر . ی نــواحی صــفر اســت در بقیــهبا نـواحی مطلـوب، بـه عنـوان نمونـه مثبـت در نظـر گرفتـه % ۵۰ناحیـه تخمینـی و ناحیـه اببه ترتیب مقادیر مرتبط t*وt.شود می

ــوب )()log( .هســتندمطل ** cccls SSL ــل =− ــان آنتروپــی متقاب زی

),(. بندی است برای طبقه *ttLreg تابع زیـان تخمـین محـدوده بـر . است ]۱۴[مرجع اساس

)۱( ∑−=j

jj oyCEL )()*( )(logσ

)۲( [ ] ),()(),( **,,, * ttLcSLtSL regcclshwyx 0>+= λ

1 Loss Function 2 Box regression Loss

Conv

Conv

Conv

Feature Maps

RPN RoIs

RoIs

Per-RoI Class1

Class n

Class2

argMax {P(Classi|RoI)}

Score=P(Classi|RoI)

P(Class1|RoI)

P(Class2|RoI)

P(Classn|RoI)

SVM-fuzzy

SVR

SVR

SVR

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

8

.اند بیان شده) ۴(و ) ۳(تابع زیان تخمین محدوده در رابطه

)۳( { }∑

∈−

=hwyxi

ttLregii

smoothttL,,,

)(*

*),(1

)۴( ⎪⎩

⎪⎨⎧

−<

=otherwisex

xifxsmooth xL 50

150 2

1 . .

)(

استفاده شده که یک تابع زیان (.)L1ها از تابع زیان در این رابطهدلیـل اسـتفاده از نـرم یـک حساسـیت کمتـر آن بـه . است نرم یک

]۱۵[های پرت در مقایسه با نرم دو استفاده شـده در مرجـع داده .است

بکه بســیار تاثیرگــذاراســتفاده از تــابع زیــان مناســب، در دقــت شــبهبـود شـبکه به همین دلیـل در ایـن مقالـه راهکـاری بـرای. است

R-FCN معرفــی شــده اســتبــا اســتفاده از تــابع زیــان جدیــد. ، دوازده تابع زیان معروف را معرفـی و تحلیـل کـرده]۳۳[مرجع . هـای عمیـق را دارنـد تفاده در شبکهکه این توابع قابلیت اس است

دهـد کـه اسـتفاده از تـابع زیـان وابسـتگی نتایج حاصل نشـان میدر این مقاله به تحلیل و مقایسـه . زیادی به کاربرد مورد نظر دارد

و زیـان آنتروپـی 1شـوارتز-ی بین تابع زیان اختالف کوشـی رابطهیـان در شایان ذکر اسـت، ایـن تـابع ز. متقابل پرداخته شده است

استفاده R-FCNهای عمیق برای شناسایی اشیاء و روش شبکهدهنــد کــه تــابع زیــان اخــتالف هــا نشــان می آزمایش. نشــده اســت

شوارتز نسبت به زیان آنتروپی متقابل از لحاظ سـرعت و -کوشی یـانتـابع ز یبـه جـا در ایـن مقالـه. ]۳۳[ تـر اسـت عملکرد بهینـه

از تــابع اخــتالف )تــابع زیــان آنتروپــی( یاصــل R-FCNشــبکه ایـن تـابع زیـان بـه صـورت . شوارتز اسـتفاده شـده اسـت-یکوش

.]۳۴[تعریف شده است ) ۵(رابطه

)۵( 22 yo

yo jj

j

)(

)(logDCS

)*(

σ

σ∑−=

σخروجی شبکه، O خروجی مطلوب، y*)۵(در رابطه . امین بعد بردار استjنشان دهنده ) j(و 2تخمین احتمالی

زمینه به عنوان یک کالس مجـزا در نظـر گرفتـه پس R-FCNدر هـا را خـواهیم تعـداد کـالس در روش پیشنهادی نمـی. شده است

در همـین راسـتا یـک فـاز مجـزا بـرای جـدا نمـودن افزایش دهیم در همین راسـتا ابتـدا . زمینه با اشیاء در نظر گرفته شده است پس

کـه کـردیمطراحـی 3SVMمبتنـی بـر دوکالسـه یک سیستم فازیباشــد یــا نــه، در کنــد آیــا ناحیــه مربــوط بــه شــی مــی مشــخص مــی

انجام زنی برای این ناحیه لق به شی نباشد برچسبعورتی که متصمعمـوال بـرای هـر تصـویر تعـداد زیـادی ناحیـه کاندیـد . شـود نمی

تواننـد بـه عنـوان با این عمل فقط نـواحی کـه مـی .شود معرفی میــی ــرار م ــابی ق ــورد ارزی ــند م ــی باش ــد ش ــان .گیرن ــل زم ــن عم ای

1 Cauchy-Schwarz Divergence Loss (DCS) 2 Probability estimate 3 Support Vector Machine (SVM)

بــرای . دهـد را بسـیار کـاهش مـی بـرای کـل تصــویر زنـی برچسـبرویکـرد جدیــد اشـیاء از یــک امشـخص نمـودن نــواحی مـرتبط بــ

. پردازیم به تشریح آن می ۳-۱ بخشاستفاده شد که در RoIاز رای دهــی بــرای انتخــاب برچســب هــر R-FCNروش

اسـتفاده SVR4ولـی در روش پیشـنهادی از . استفاده کرده اسـتدر واقع به ازای هر کالس از اشیاء، یک ماشین بردار . شده است

میـزان SVRدی هـر در روش پیشـنها. در نظر گرفتـه شـده اسـتدر نهایـت در . کنـد به هـر کـالس را مشـخص مـی RoIتعلق هر

RoIگیـری انجـام و برچسـب های متعلق به شی، عمل مـاکزیمم هـاSVRی در روش پیشـنهادی همـه .شـود مشخص می RoIهر

یافتـهو زمـان پـردازش کـاهش ندشـد به صـورت خـط لولـه اجـرا یـنا یکـه بـرا اجـرا شـده اسـت SVR یـک یهـر شـ یبـرا .است

واقـع در. خط لوله مجزا اجرا شده است یکدر SVRمنظور هر . شـده اسـتبه صورت همزمـان اجـرا SVR یک یهر ش یبه ازا

. نشـان داده شـده اسـت ۱۴شمای کلی روش پیشنهادی در شکل ــر ــع در ه ــق میــزان SVRدر واق ــر تعل ــک کــالس RoIه بــه ی

۶از رابطــه شــود و در نهایــت بــا اســتفاده مشــخص محاســبه مــیهـا تعـداد کـالس nدر ایـن رابطـه . شود برچسب کالس تعیین می

.است

)۶( )}|({arg RoIClassPMaxrClassNumbe in

i=

ماشین بردار پشتیبان فازی ۲-۱بندی ماشین بردار پشتیبان به عنوان یک ابزار قدرتمند برای طبقه

و رگرسیون، در بسیاری از کاربردهای عملی مورد استفاده قرار ماشین بردار بسیاری از های نسخه. ]۳۷-۳۵[ است شدهگرفته

ترین یکی از معروف. های اخیر معرفی شده است پشتیبان در سالفازی SVM اغلب. توان نسخه مبتنی بر فازی اشاره نمود آنها می

شود که الگوهای متعلق به یک استفاده می سائلیبرای حل موش در ر .بندی دارند های مهمتری در طبقه کالس اغلب نقش

های موجود در هر تصویر RoIپیشنهادی بعد از مشخص نمودن معمولی میزان تعلق هر ناحیه به کالس SVMتوسط ماشین فازی SVMخواهیم از در این گام می .باشد مشخص می

در این راستا . زنی تصویر استفاده نمائیم برای برچسب دوکالسهستفاده بندی ا برای طبقه ]۳۸[از روش معرفی شده در مرجع

شی مشخص کننده دوکالسه فازی بند خروجی این طبقه .کنیم میزمینه تشخیص داده در صورتی که پس .زمینه بودن است یا پس

شود ولی در صورت تشخیص شود این ناحیه کنار گذاشته می. شود وجود شی، در مرحله بعدی برچسب کالس مشخص می

.دشو زنی تصویر می این عمل سبب کاهش عمل برچسب

4 Support Vector Regression(SVR)

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

9

بندی دوکالسه مجموعه آموزش برای مسئله طبقهفرض شود که :به صورت زیر تعریف شود

)۷( )},(),...,,(),,{( 2211*

ll mxmxmxT =

]ها، نمونهix، )۷(در رابطه ]1,0∈imباشد که عضویت فازی میکند و را ارزیابی میبه کالس مثبت ixمشاهده میناiمیزان تعلق

l در این روش. باشد های مجموعه آموزش می تعداد نمونه P

ه )}~,~,()~,~,...,()~,~{(نمون 2211 PP mxmxmx به عنوان از مشاهداته q و مشاهدات مثبت )}ˆ,ˆ,()ˆ,ˆ,...,()ˆ,ˆ{(نمون 2211 qq mxmxmx از

.شود در نظر گرفته می ی منفیها به عنوان نمونه مشاهدات12ها از رابطه برچسب نمونه −= ii mY برای که شود محاسبه می

های قطری مثبت و منفی ماتریس های نمونه)~,...,~,~( 211 pyyydiagY )ˆ,ˆ,...,ˆ(و = 212 qyyydiagY .شود تعریف می =

~2~1,)2,1,...,(در اینجا pimy ii ˆ2ˆ1,)2,1,...,(و =−= qjmy jj =−= نمونه مثبت بوده و برچسب ixباشد که زمانی می im=1 .باشد می

112مرتبط به آن =−= ii mY0 .باشد می=im در صورتیix نمونه112منفی بوده و برچسب مرتبط به آن −=−= ii mY در .باشد می

دهنده نشانمنفی کالس دهنده شی و نشان این مقاله کالس مثبتمسلئه بهینه سازی به صورت زیر تعریف . باشد زمینه می پس :شود می

)۸( ( )

( ) 0 ,Y-e ..

21

21min

22222

221212

22221

211

22111

,, 211

≥≥+

++++

ζζ

ζζ

YbeBwYts

ecbwcbeAw Tbw

)۹( ( )

( ) 0 ,Y-e ..

21

21min

11211

212121

11422

223

22222

,, 122

≥≥+

++++

ζζ

ζζ

YbeAwYts

ecbwcbeBw Tbw

1c،2c ،3cدر رابطه فوق و 1ζمثبت، جریمهپارامترهای 4cو 2ζماتریس تغیرهای نرم،مnpA ×ℜ∈ کالس ابهای مرتبط نمونه

nqBمثبت و ×ℜ∈ بعد . باشند کالس منفی می ابهای مرتبط نمونهبه ]۳۸[وسط راگرانژ چندگانه که در مرجع از حل این رابطه ت

.رسیم زیر می های تفصیل بیان شده به رابطه)۱۰( [ ] ] [, e wher)( 2111

22

111 eBHbwvYGIcHHv

TTTT ==+= − α )۱۱( [ ] ] [, where)( 1222

21

132 eAHGbwvYHIcGGv

TTTT ==+= − γ

nx، برای هر نمونه جدید 2vو 1vبعد از بدست آوردن ℜ∈

.آید بدست می) ۱۲(ه توسط رابطه برچسب نمون

)۱۲( ⎪⎭

⎪⎬

⎪⎩

⎪⎨

⎧ ++=∈

= 2

22

1

11

2,1,minarg,

w

bxw

w

bxwkWx

TT

ik

از تابع عضویت معرفی شده در عضویت برای محاسبه مقداربا برچسب مثبت ixبرای نمونه . است استفاده شده] ۳۹[مرجع

شود بیان می) ۱۳(عضویت فازی به صورت رابطه +) ۱(

)۱۳( ( )( )

)(1)()exp()exp(2

)exp()/)()(exp(5.0)(

11

000110

1

ii

iii

xmxmCC

CdxdxdCxm

−=−−

−−−+=

عضویت فازی به صورت) -۱(با برچسب منفی ixبرای نمونه . شود بیان می) ۱۴(رابطه

)۱۴( ( )( )

)(1)()exp()exp(2

)exp()/)()(exp(5.0)(

11

000110

1

ii

iii

xmxmCC

CdxdxdCxm

−−

−=−−

−−−+=

)(1 ixd فاصله بینix ،1)(و میانگین کالس مثبت ixd− فاصله بینix،و میانگین کالس منفیdهای فاصله بین میانگین کالس

کننده تابع عضویت یک ثابت به عنوان کنترل 0Cمثبت و منفی، .باشد می

ها آزمایش ۳در این بخش از مقاله مجموعه داده، معیارهای ارزیابی و نتایج

های انجام شده در زبان سازی پیاده. دنشو می معرفیبدست آمده کارت :افزاری با مشخصات نویسی پایتون بر روی سخت برنامه

Core i7و پردازنده G۳۲، حافظه GTX 1080گرافیک 4790k 4GHz از چارچوب معروف و سریع . انجام شده است

Caffe الزم به ذکر . برای یادگیری عمیق استفاده شده استهای دیگران که برای از روشاست، تمامی نتایج بدست آمده

مقایسه در مقاله معرفی شده بر روی یک کامپیوتر با مشخصات . یکسان بوده است

SUNاشیاء موجود پایگاه داده ۲جدول

Countertop chair شیoccluded Chair Ceiling Cabinet Buildings Building bed crop Bed

٥۰۷ ۲۳۳ ۷۹٥ ٤٥۸ ۱۳۲٥ ۱۱۱٥ ۳٤۳ ۱۰۵۷ ۱۰۹ تعداد تصاویر

night table Mirror microwave Flowers Floor Faucet desk lamp Cushion curtain شی

۸۷۰ ۴۹۳ ۵۵۲ ۵۵۳ ۱۵۶۶ ۱۰۹ ۱۴۹ ۳۲۹ ۲۰۶ تعداد تصاویر

Stove Skyscraper Sky Sink Plant pillow شیoccluded Pillow Painting night table

occluded ۲۸۴ ۵۵۷ ۳۸۷ ۳۱۴ ۴۵۱ ۲۵۵ ۲۴۵ ۶۲۲ ۲۳۱ تعداد تصاویر

Worktop Window washbasin Wall trees Tree Towel Toilet Table شی

۱۹۱ ۱۱۹ ۳۰۲ ۱۱۲ ۱۴۳ ۴۴۶۲ ۱۶۲ ۱۳۹۳ ۵۱۹ تعداد تصاویر

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

10

هاز ،پیشنهادیدر آزمایشات انجام شده توسط روش 1هست

گوسین 22 2/),( σyxeyxK و دوکالسه فازی SVM برای=−−

SVR ستفاده شده استا.

پایگاه داده ۳-۱زنی تصاویر از پایگاه و برچسب آشکارسازیدر این مقاله برای

این پایگاه داده یک . استفاده شده است ]2SUN ]۴۰داده ی تصویر بندی صحنه مجموعه بزرگ از تصاویر برای دسته

دسته ۹۰۸تصویر در ۱۳۱۰۶۷این پایگاه داده، شامل . استتصاویر . شی متفاوت در تصاویر است ۳۸۱۹مختلف و شامل

های مختلف به مانند محیط بسته، باز، بدست آمده در حالتاز آنجایی که هدف در این مقاله، . غیره تهیه شده استطبیعی و

اشیایی انتخاب ،باشد زنی اشیاء می برچسبو آشکارسازیتعداد با در واقع اشیا. اند اند که از نظر تکرار قابل قبول بوده شده

در همین راستا، در این مقاله . اند نادیده گرفته شده اندکتکرار لف در شرايط مختلف تصویر در پنج دسته مخت ۲۱۵۱۸

۳۶تعداد اشیاء موجود در این مجموعه داده . انتخاب شده استتعداد هر شی و تصاویری شامل این ۲شی است که در جدول

در هر تصویر امکان تکرار یک شی . اشیاء، نشان داده شده است% ۴۰برای آموزش و % ۶۰در این مجموعه داده، . وجود دارد

.اند شده برای آزمون در نظر گرفته

معیار ارزیابی ۳-۲ترین پارامترها برای ترین و رایج معیارهای دقت و یادآوری مهم

اما . گذاری تصاویر هستند ارزیابی و مقایسه سامانه برچسب، کیفیت )mAP( 3معیار دیگری به نام میانگین دقت متوسط

معیار ارزیابی . کند را ارزیابی می روشبندی تصاویر توسط رتبه . ]۴۱[ده در این مقاله میانگین دقت متوسط است استفاده ش

بازیابی های روشبندی تصاویر یک ویژگی مهم و ذاتی برای رتبهمیانگین دقت متوسط عملکرد بازیابی را ارزیابی . تصاویر است

های اول بازیابی شوند، این اگر تصاویر مربوط در رتبه. کند میهر چه تصاویر مربوط در . یک نزدیک خواهد شد عددمعیار به

.ر قرار گیرند، این معیار کمتر خواهد بودهای آخ رتبه )AP(برای محاسبه میانگین دقت متوسط، ابتدا دقت متوسط

دقت متوسط همانند . شود محاسبه می qبرای پرس و جوی .شود محاسبه می) ۱۵(ی با رابطه ]۴۲[مرجع

)۱۵( agesreleventim

ireliPqAP

n

i∑ =×

= 1))()((

)(

1 Kernel 2 Scene Understanding 3 Mean Average Precision (mAP)با

تعداد تصاویر nرتبه در دنباله بازیابی شده، iدر این رابطه تعداد تصاویر (تصویر اول iدقت بازیابی در P(i)بازیابی شده، مقدار این . یک تابع است rel(i)و ) iقسیم بر ام تiمرتبط تا رتبه

ام، برابر iوجو در رتبه تابع، با قرارگیری تصویر مرتبط با پرس agesreleventim. یک و در غیر این صورت برابر صفر است

.دهد استفاده شده در پایگاه داده را نشان می تعداد تصاویردر این . شود سبه میمحا) ۱۶(ی میانگین دقت متوسط، با رابطه

.دهد جوها را نشان می و تعداد پرس Nqرابطه،

)۱۶( q

n

iN

qAPmAP

∑== 1)(

ی نواحی مربوط به یک شی، از میزان در مرحله محاسبهمیزان مقبولیت نواحی با . پوشانی نواحی استفاده شده است هم

.]۱۹[شود محاسبه می) ۱۷( هاستفاده از رابط

)۱۷( gtBpBgtBpB

R∪

∩=

مرتبط نواحی Bgtبینی شده و نواحی پیش Bp، )۱۷(ی در رابطه، دقت سیستم باال Rبا افزایش میزان .با نواحی مطلوب است

مطلوب %۵۰در این مقاله، میزان همپوشانی بیش از . رود می .در نظر گرفته شده است

ها نتایج آزمایش ۳-۳ یهاول یها از وزن یقهر شبکه عم یانجام شده برا های یشدر آزما ImageNetمجموعه داده یآموزش داده شده بر رو یشاز پ

از Faster R-CNNTدر روش. استفاده شده است] ۴۳[از . مختلف استفاده شده است یبا معمار یقعم یها شبکه، VGG]۱۶[به توان یاستفاده شده م یقعم یمعمارها ینتر مهمZF ]۴۴ [ وResNet ]۲۷ [بهتر از یسهمقا یبرا. اشاره نمود

Fast RCNN [14] ،Faster R-CNNش معروف چهار رو[19] ،SPPNet ]۱۳ [ وR-FCN ]۲۶ [استفاده شده است .

شده از یمعرف یها روش ی در مراحل آموزش و آزمون در همهحاصل از یجنتا. استفاده شده است SUNمجموعه داده

۳جدول در SUNمجموعه داده یش ۳۶ یبر رو ها مایشآزجدول نشان داده شده، ینانطور که در اهم. نشان داده شده است

از خود یبهتر یجها نتا روش یرنسبت به سا R-FCNروش را از خود یجنتا ینبهتر یشنهادیروش پ ینهمچن. دهد ینشان م . دهد ینشان م

تصویر چاپ خواهد شدبینایی و پردازشاین مقاله در قالب نهایی آن در مجله ماشین

11

SUNهای مختلف برای هر شی مجموعه داده مقایسه روش۳جدول

Proposed Method R-FCN ]۲۶[ SPPNet ]۱۳[ Faster RCNN ]۱۹[ Fast RCNN ]۱۴[ شی روش

۴۴/۷۷ ۵۴/۷۶ ۵۸/۷۸ ۳۱/۷۹ ۸۸/۷۸ Bed

۸۳/۵۲ ۶۵/۵۴ ۴۳/۴۰ ۱۶/۴۶ ۵۸/۴۲ bed crop

۰۰/۴۹ ۳۹/۴۸ ۵۶/۴۵ ۲۶/۴۸ ۷۰/۴۵ Building

۱۴/۲۵ ۹۴/۲۲ ۱۸/۱۹ ۹۱/۲۰ ۴۲/۱۷ Buildings

۱۵/۳۳ ۸۵/۳۳ ۶۷/۳۲ ۱۹/۳۵ ۴۶/۲۹ Cabinet

۹۶/۷۷ ۸۵/۷۷ ۹۱/۷۴ ۲۵/۷۶ ۴۷/۷۶ Ceiling

۰۱/۴۹ ۱۸/۴۷ ۵۲/۳۸ ۵۰/۴۴ ۱۸/۴۱ Chair

۰۱/۳۲ ۲۳/۳۰ ۸۶/۱۷ ۹۵/۲۰ ۸۴/۱۸ chair occluded

۱۸/۵۲ ۵۷/۴۶ ۰۴/۴۰ ۷۵/۴۶ ۸۷/۴۲ Countertop

۲۸/۵۵ ۶۴/۵۵ ۴۵/۵۰ ۲۰/۵۲ ۴۷/۴۹ Curtain

۵۳/۵۲ ۸۲/۵۱ ۹۹/۳۳ ۲۲/۳۵ ۲۷/۳۷ Cushion

۸۰/۷۰ ۶۲/۷۰ ۱۶/۵۵ ۰۴/۵۹ ۸۶/۵۶ desk lamp

۷۹/۲۸ ۶۶/۲۴ ۱۰/۵ ۱۲/۹ ۰۷/۶ Faucet

۲۱/۷۷ ۵۸/۷۵ ۵۷/۷۳ ۸۸/۷۱ ۰۶/۷۲ Floor

۳۷/۴۲ ۲۳/۳۴ ۸۳/۲۴ ۴۱/۲۷ ۱۷/۲۵ Flowers

۰۷/۴۸ ۸۶/۴۵ ۹۰/۲۰ ۶۸/۳۳ ۸۴/۲۵ Microwave

۱۰/۳۵ ۶۹/۳۰ ۹۷/۲۹ ۱۵/۳۵ ۶۷/۳۲ Mirror

۰۴/۷۴ ۸۸/۶۷ ۱۲/۶۷ ۰۱/۶۸ ۵۵/۶۸ night table

۸۰/۵۳ ۳۸/۵۲ ۶۴/۳۲ ۱۹/۳۸ ۵۷/۲۸ night table occluded

۷۸/۴۸ ۳۴/۴۸ ۹۵/۴۲ ۹۲/۴۴ ۷۵/۴۴ Painting

۰۲/۴۷ ۱۳/۴۴ ۶۳/۳۲ ۸۱/۳۲ ۲۷/۳۰ Pillow

۳۷/۲۱ ۳۰/۱۷ ۰۱/۱۲ ۸۲/۶ ۹۰/۱۳ pillow occluded

۸۹/۳۴ ۲۲/۳۰ ۱۱/۲۴ ۵۶/۲۴ ۰۳/۲۴ Plant

۸۸/۳۱ ۶۴/۲۵ ۲۵/۲۳ ۸۲/۲۱ ۰۴/۲۵ Sink

۱۳/۹۰ ۱۴/۹۰ ۶۲/۸۹ ۵۹/۸۹ ۸۶/۸۹ Sky

۱۲/۶۷ ۷۲/۶۵ ۴۱/۵۷ ۵۱/۶۱ ۹۸/۶۰ Skyscraper

۴۱/۲۷ ۱۳/۲۹ ۷۹/۳۳ ۱۳/۳۰ ۱۷/۳۰ Stove

۰۷/۲۶ ۶۹/۲۵ ۳۴/۲۸ ۱۱/۲۹ ۶۲/۲۷ Table

۵۹/۶۶ ۱۷/۶۶ ۵۱/۵۳ ۲۲/۶۹ ۱۴/۵۶ Toilet

۲۵/۲۰ ۲۹/۲۱ ۵۳/۱۰ ۸۶/۱۵ ۲۴/۸ Towel

۰۴/۳۵ ۵۲/۳۴ ۲۲/۳۰ ۵۲/۳۱ ۴۵/۲۹ Tree

۳۸/۴۹ ۶۳/۴۶ ۷۹/۴۰ ۸۶/۴۴ ۲۱/۴۳ Trees

۶۹/۶۳ ۶۱/۶۲ ۸۰/۵۹ ۶۳/۶۱ ۴۷/۵۹ Wall

۶۴/۳۳ ۰۷/۴۰ ۲۹/۲۱ ۶۲/۳۶ ۱۷/۲۳ Washbasin

۰۹/۴۸ ۳۶/۴۵ ۲۴/۳۲ ۶۱/۳۶ ۰۱/۳۴ Window

۶۸/۴۳ ۱۹/۳۹ ۷۷/۲۳ ۸۲/۳۳ ۲۲/۲۸ Worktop

متوسط ۵۷/۳۹ ۲۲/۴۲ ۸۳/۳۸ ۶۶/۴۶ ۳۸/۴۸

و باشد یم R-FCNروش یافته هبوددر واقع، ب یشنهادیروش پ. استفاده شده است گیری یرا یبجا SVRبا یفازSVMاز

۴جدول در . استفاده شده است یدجد یانز یعتا از ینهمچنمتفاوت های یشده با معمار یمعرف یها روش ینب ای یسهمقا

.شد جدول نشان داده ینهمانطور که در ا. انجام شده است

یها با روش یسهدر مقا ResNet یبا معمار یشنهادیروش پ .دهد میرا از خود نشان یجنتا ینبهتر یگرد

مقایسه دیگری که در این مقاله انجام شد، مقایسه بر اساس معموال شبکه . و تعداد کانولوشن است ResNetهای اندازه الیه

در بحث شناسایی معرفی ۱۵۲و ۱۰۱، ۵۰های با تعداد الیهشبکه با توجه به مجموعه های اولیه برای این شده و وزن

دتصویر چاپ خواهد شنایی و پردازشبیاین مقاله در قالب نهایی آن در مجله ماشین

12

ImageNet در همین راستا در این مقاله این .باشد می وجودمهمانطور که در . تعداد الیه مورد آزمایش قرار گرفته شده است

با ResNetنشان داده شد روش پیشنهادی با معماری ۵جدول

همانطور که . الیه مختلف بهترین نتایج را ارائه داده است ۱۰۱، استفاده از تابع زیان مناسب در افزایش دقت عملکرد اشاره شد

۶در این راستا در جدول . شبکه عمیق بسیار موثر استهای متفاوت انجام با تابع زیان R-FCNای بین روش مقایسه

با R-FCNدهد، روش نشان می ۶نتایج جدول . شده استشوارتز نسبت به آنتروپی متقابل، -تابع زیان اختالف کوشی

در این جدول . لکرد بهتری از لحاظ دقت و زمان داشته استعمنشان داده شده که متوسط زمان اجرا برای هر تصویر در تابع

با تابع زیان R-FCNشوارتز بهتر از زمان -زیان اختالف کوشیمعماری استفاده شده برای هر دو شبکه .متقابل استآنتروپی . الیه است ۱۰۱با ResNetعمیق،

زمان مرحله آزمون، یک معیار مهم و اساسی در بررسی

در همین . تصاویر است نیز برچسبهای آشکارسازی و روشهای مطرح شده و روش ای بین روش ایسهمق ۷راستا، جدول

پیشنهادی بر اساس متوسط زمان برای هر تصویر را نشان نشان داده شده، روش جدول این درهمانطور که . دهد می

نتایج . پیشنهادی از نظر زمان اجرا، عملکرد خوبی را داشته استباشد که متوسط زمان برای ، مبین این نکته می۷و ۶، ۳ ولاجد

با تابع زیان R-FCNویر در روش پیشنهادی نسبت به هر تص-Rشوارتز افزایش یافته ولی همچنان از روش - اختالف کوشی

FCN با تابع زیان آنتزوپی متقابل بهتر بوده و عملکرد بهتری از .ها دارد لحاظ دقت نسبت به بقیه روش

بهبود R-FCNهای از نتایج بدست آمده از نمونه ۱۵شکل همانطور که در شکل نشان داده شده، .دهد ا نشان مییافته شده ر

نتایج حاصل نشان دهنده عملکرد مناسب روش پیشنهادی در .زنی اشیاء است آشکارسازی و برچسب

R-FCNمقایسه تابع زیان در شبکه ۶جدول R-FCN

With Cauchy-Schwarz Divergence Loss

R-FCN ]۲۶[ روش

۰۴/۴۷ ۶۶/۴۶ mAPقتد

) ثانیه(زمان ۰٬۱۷ ۰٬۱۱

مقایسه زمان اجرای تصویر آزمون ۷جدول

Proposed Method

R-FCN ]۲۶[

SPPNet ]۱۳[

Faster RCNN

]۱۹[

Fast RCNN

]۱۴[

روش زمان

)ثانیه(

۱۳/۰ ۱۷./ ۳۸/۰ ۴۳/۰ ۴۹/۰ Time

گیری نتیجه ۴

ور های عصبی عمیق به منظ در این مقاله به بررسی شبکهزنی اشیاء موجود در تصاویر پرداخته و برچسب آشکارسازیی عصبی عمیق معرفی شده در بهترین شبکه. شده است

در همین راستا، در این . است R-FCNهای اخیر، شبکه سالیک تابع . ارائه شده است R-FCNمقاله روشی برای بهبود

زنی زیان جدید برای این شبکه معرفی شده و برای برچسبترکیبی یک شبکه RoIاستخراج شده، به ازای هر نواحی

SVMو دو کالسه فازیSVR بینی میزان تعلق به یک برای پیششوارتز از نظر - تابع زیان اختالف کوشی. معرفی شده استشی

سرعت و دقت عملکرد بهتری از تابع زیان آنتروپی متقابل بر نتایج بدست آمده. داشته است R-FCNاستفاده شده در

با شبکه بهبود یافته عملکرد بهتری از SUNروی مجموعه داده .لحاظ سرعت و دقت از خود نشان داده است

مقایسه روش های مختلف با معماری های مختلف۴جدول

VGG ZF ResNet معماری

روش ۵۷/۳۹ ۱۷/۳۲ ۲۱/۳۸ Fast RCNN ]۱۴[

۲۲/۴۲ ۰۹/۳۹ ۲۳/۴۰ Faster RCNN ]۱۹[

۳۳/۳۶ ۸۳/۳۸ ۹۸/۳۷ SPPNet ]۱۳[

۹۹/۴۲ ۰۷/۴۱ ۶۶/۴۶ R-FCN ]۲۶[

۰۸/۴۵ ۶۷/۴۴ ۳۸/۴۸ Proposed Method

با تعداد الیه متفاوتResNetمقایسه معماری ۵جدول

ResNet-152 ResNet-101 ResNet-50 تعداد الیه روش

۰۵/۴۶ ۶۶/۴۶ ۲۱/۴۳ R-FCN ]۲۶[

۶۷/۴۷ ۳۸/۴۸ ۹۳/۴۵ Proposed Method

چاپ خوا دهد ش

SU

تصویرزش

UNجموعه داده

ایی و پرداز

پیشنهادی در مج

نابیه ماشین

13

دست آمده روش

آن در مجله

ی کلی ار نتایج بد

ب نهایی آن

نمای ۱۵شکل

این مققاله در قالب

تصویرزش چاپ خوا دهد ش

۱۵شکل

ایی و پرداز

وش پیشنهادی ش

نابیه ماشین

14

بدست آمده از رو

آن در مجله

ه تصاویر نتایج ب

ب نهایی آن

دنباله

این مققاله در قالب

دتصویر چاپ خواهد شنایی و پردازشبیاین مقاله در قالب نهایی آن در مجله ماشین

15

مراجع

[1] L. Fei-Fei and P. Perona, "A bayesian hierarchical model for learning natural scene categories," in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 2005, pp. 524-531.

[2] E. B. Sudderth, A. Torralba, W. T .Freeman, and A. S. Willsky, "Learning hierarchical models of scenes, objects, and parts," in Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, 2005, pp. 1331-1338.

[3] R. Socher and L. Fei-Fei, "Connecting modalities: Semi-supervised segmentation and annotation of images using unaligned text corpora," in Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010, pp. 966-973.

[4] F. Zhang, B. Du, and L. Zhang, "Saliency-guided unsupervised feature learning for scene classification," IEEE Transactions on Geoscience and Remote Sensing, vol. 53, pp. 2175-2184, 2015.

[5] Y. Zheng, Y.-J. Zhang, and H. Larochelle, "A deep and autoregressive approach for topic modeling of multimodal data," IEEE transactions on pattern analysis and machine intelligence, vol. 38, pp. 1056-1069, 2016.

[6] M. Dixit, S. Chen, D. Gao, N. Rasiwasia, and N. Vasconcelos, "Scene classification with semantic fisher vectors," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 2974-2983.

[7] X. Li and Y. Guo, "Multi-level adaptive active learning for scene classification," in European Conference on Computer Vision, 2014, pp. 234-249.

[8] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, "Object detectors emerge in deep scene cnns," arXiv preprint arXiv:1412.6856, 2014.

[9] L.-J. Li, H. Su, Y. Lim, and F.-F. Li, "Objects as Attributes for Scene Classification," in ECCV Workshops (1), 2010, pp. 57-69.

[10] X. Qi, C.-G. Li, G. Zhao, X. Hong, and M .Pietikäinen, "Dynamic texture and scene classification by transferring deep image features," Neurocomputing, vol. 171, pp. 1230-1241, 2016.

[11] G. Mesnil, S. Rifai, A. Bordes, X. Glorot, Y. Bengio, and P. Vincent, "Unsupervised learning of semantics of object detections for scene categorization," in Pattern recognition applications and methods, ed: Springer, 2015, pp. 209-224.

[12] R. Wu, B. Wang, W. Wang, and Y. Yu, "Harvesting discriminative meta objects with deep CNN features for scene classification , " in Proceedings of the IEEE

International Conference on Computer Vision, 2015, pp. 1287-1295.

[13] K. He, X. Zhang, S. Ren, and J. Sun, "Spatial pyramid pooling in deep convolutional networks for visual recognition," in European Conference on Computer Vision, 2014, pp. 346-361.

[14] R. Girshick, "Fast r-cnn," in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1440-1448.

[15] R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2014, pp. 580-587.

[16] K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.

[17] J. R. Uijlings, K. E. Van De Sande, T. Gevers, and A. W. Smeulders, "Selective search for object recognition," International journal of computer vision, vol. 104, pp. 154-171, 2013.

[18] C. L. Zitnick and P. Dollár, "Edge boxes: Locating object proposals from edges," in European Conference on Computer Vision, 2014, pp. 391-405.

[19] S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks," in Advances in neural information processing systems, 2015, pp. 91-99.

[20] K. Lenc and A. Vedaldi, "R-cnn minus r," arXiv preprint arXiv:1506.06981, 2015.

[21] C. Sun, M. Paluri, R. Collobert, R. Nevatia, and L. Bourdev, "Pronet: Learning to propose object-specific boxes for cascaded neural networks," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3485-3493.

[22] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, et al., "Ssd: Single shot multibox detector," in European conference on computer vision, 2016, pp. 21-37.

[23] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You only look once: Unified, real-time object detection," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 7 ۷۹ -۷۸۸.

[24] M. Najibi, M. Rastegari, and L. S. Davis, "G-cnn: an iterative grid based object detector," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2369-2377.

[25] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg, "DSSD: Deconvolutional Single Shot Detector," arXiv preprint arXiv:1701.06659, 2017.

[26] J. Dai, Y. Li, K. He, and J. Sun, "R-fcn: Object detection via region-based fully convolutional

دتصویر چاپ خواهد شنایی و پردازشبیاین مقاله در قالب نهایی آن در مجله ماشین

16

networks," in Advances in neural information processing systems, 2016, pp. 379-387.

[27] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770-778.

[28] S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," in International Conference on Machine Learning, 2015, pp. 448-456.

[29] A. Krizhevsky, I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," in Advances in neural information processing systems, 2012, pp. 1097-1105.

[30] A. Shrivastava, A. Gupta, and R. Girshick, "Training region-based object detectors with online hard example mining," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 761-769.

[31] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, et al., "Going deeper with convolutions," in Proceedings of the IEEE conference on computer vision and pattern recognition ,۲۰۱۵ , pp. 1-9.

[32] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, "Rethinking the inception architecture for computer vision," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2818-2826.

[33] K. Janocha and W. M. Czarnecki, "On Loss Functions for Deep Neural Networks in Classification," arXiv preprint arXiv:1702.05659, 2017.

[34] W. M. Czarnecki, R. Jozefowicz, and J. Tabor, "Maximum entropy linear manifold for learning discriminative low-dimensional representation," in Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2015, pp. 52-67.

[35] C. J. Burges, "A tutorial on support vector machines for pattern recognition," Data mining and knowledge discovery, vol. 2, pp. 121-167, 1998.

[36] D. Isa, L. H. Lee, V. Kallimani, and R. Rajkumar, "Text document preprocessing with the Bayes formula for classification using the support vector machine," IEEE Transactions on Knowledge and Data engineering, vol. 20, pp. 1264-1272, 2008.

[37] S.-J. Yen, Y.-C. Wu, J.-C. Yang, Y.-S. Lee, C.-J. Lee, and J.-J. Liu, "A support vector machine-based context -ranking model for question answering," Information Sciences, vol. 224, pp. 77-87, 2013.

[38] S.-G. Chen and X.-J. Wu, "A new fuzzy twin support vector machine for pattern classification," International Journal of Machine Learning and Cybernetics, pp. 1-1 ۲ ,۲۰۱۷.

[39] J. M. Keller and D. J. Hunt, "Incorporating fuzzy membership functions into the perceptron algorithm,"

IEEE Transactions on Pattern Analysis and Machine Intelligence, pp. 693-699, 1985.

[40] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba, "Sun database: Large-scale scene recognition from abbey to zoo , " in Computer vision and pattern recognition (CVPR), 2010 IEEE conference on, 2010, pp. 3485-3492.

[41] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman, "The pascal visual object classes (voc) challenge," International journal of computer vision, vol. 88, pp. 303-338, 2010.

[42] Z. Li, Z. Shi, X. Liu, and Z. Shi, "Modeling continuous visual features for semantic image annotation and retrieval," Pattern Recognition Letters, vol. 32, pp. 516-523, 2011.

[43] L. Fei-Fei, "ImageNet: crowdsourcing, benchmarking & other cool things," in CMU VASC Seminar, 2010, pp. 18-25.

[44] M. D. Zeiler and R. Fergus, "Visualizing and understanding convolutional networks," in European conference on computer vision, 2014, pp. 818-833