16
وین نونم و فنانشكده علو د گروه بین رشتهبخش( ی فناوری ام و فناوری شبكه علو) تار فارسی بازشناسی گفق برای عمیریادگیده از یستفا ام دانشجو: ناتا حجی آرمی مانیهنما:د راستا ا دكتر هادی و یس ی پایانسی ارشد دریافت درجه كارشنامه برای نا در رشتهسی دانش و مهندیم تصم علوم اسفند1395

یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

  • Upload
    others

  • View
    5

  • Download
    1

Embed Size (px)

Citation preview

Page 1: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

دانشكده علوم و فنون نوین

(علوم و فناوری شبكهای فناوری )بخش رشته بین گروه

استفاده از یادگیری عمیق برای بازشناسی گفتار فارسی

نام دانشجو:

مانیآرمیتا حجی

استاد راهنما:

ییسدكتر هادی و

نامه برای دریافت درجه كارشناسی ارشد پایان

علوم تصمیم و مهندسی دانشدر رشته

1395 اسفند

Page 2: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف
Page 3: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف
Page 4: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

تعهد نامه اصالت اثر

علوم تصمیم و دانش آموخته مقطع کارشناسی ارشد در رشتۀ آرمیتا حجی مانیاینجانب

استفاده از یادگیری "خود تحت عنوان: نامه از پایان 15/12/95که در تاریخ دانشمهندسی

ام، شرعاً و قانوناً با کسب درجۀ کارشناسی ارشد دفاع نموده "عمیق برای بازشناسی گفتار فارسی

شوم : متعهد می

واردی که نامه یا رساله حاصل تحقیق و پژوهش اینجانب بوده و در م مطالب مندرج در این پایان -1

ام، ، مقاله و غیره استفاده نمودهنامه، کتاب پژوهشی دیگران اعم از پایانو از دستاوردهای علمی

رعایت کامل امانت را نموده، مطابق مقررات، ارجاع و در فهرست منابع و مآخذ اقدام به ذکر

ام. ها نموده آن

، فت هیچ مدرک تحصیلی )هم سطحدریا نامه یا رساله قبالً برای یا بخشی از این پایان تمامی -2

ها و مؤسسات آموزش عالی ارائه نشده است. پایین تر یا باالتر( در سایر دانشگاه

نامه یا رساله کامال حاصل کار اینجانب بوده و از هر گونه جعل مقاالت مستخرج از این پایان -3

ام. داده و یا تغییر اطالعات پرهیز نموده

درصد 30نامه یا رساله )با بیش از مقاالت مستخرج از این پایان از ارسال همزمان و یا تکراری -4

نمایم.های گوناگون خودداری نموده و می همپوشانی( به نشریات و یا کنگره

نامه یا رساله متعلق به دانشگاه تهران بوده و کلیه حقوق مادّی و معنوی حاصل از این پایان -5

دستاوردهای حاصل از این تحقیق اعم از چاپ شوم هر گونه بهره مندی و یا نشر متعهد می

کتاب، مقاله، ثبت اختراع و غیره )چه در زمان دانشجویی و یا بعد از فراغت از تحصیل( با کسب

اجازه از تیم استادان راهنما و مشاور و حوزه پژوهشی دانشکده باشد.

تهران از درجه در صورت اثبات تخلف )در هر زمان( مدرک تحصیلی صادر شده توسط دانشگاه

شت.اعتبار ساقط و اینجانب هیچگونه ادعایی نخواهم دا

نام و نام خانوادگی دانشجو:امضا و

Page 5: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

ه

چكیده

های مختلفی جهت امروزه از روش شود.تشخیص گفتار گفته می تبدیل سیگنال صوتی به متن معادل آن به فرآیند

یکی از . باشد. روش آماری مدل مخفی مارکوف و شبکه عصبی می ها آنشود که مهمترین بازشناسی گفتار استفاده می

یکی که و با توجه به این باشدها میمشکالتی که هنوز در این حوزه مطرح است، بحث افزایش دقت و کارایی این سیستم

نامه برای اولین بار از شبکه در این پایان ،باشدبهبود مدل آوایی می ی بازشناسی گفتار،هاهای افزایش دقت سیستماز راه

( CTC)گرا بند زمانی پیوندطرفه با الیه خروجی طبقهو دو طرفه یک( LSTM)عصبی عمیق حافظه کوتاه مدت ماندگار

باشد که متوالی می های دادهای از که سیگنال صوت نمونه. از آنجاییاستفاده شده استفارسی جهت ساخت مدل آوایی

های عصبی بازگشتی به دلیل دارا بودن حافظه برای این قبلی وابسته است، شبکه های دادهمقدار داده فعلی به ها آندر

د. شبکه عصبی حافظه کوتاه مدت ماندگار یک شبکه عصبی بازگشتی است که در آن با نباشها مناسب مینوع داده

های طوالنی رفع شده استها در دنبالهمشکل فراموشی داده های حافظه،های الیه پنهان با بلوکجایگزین کردن نرون

. تدر کاربردهای مختلف نشان داده اس های ترتیبی سازی داده و کارایی باالی خود را در مدل

دست آمده با جهت استخراج ویژگی استفاده شده است و نتایج به( DBN)از شبکه باور عمیق نامه، در این پایانهمچنین

-نتایج بهاست، مقایسه گردیده است. (MFCC) استخراج ویژگی که همان ضرایب کپسترال در مقیاس ملروش پایه

استفاده عالوه، به برد. میباالتر را الیه کارایی شبکه یک در مقایسه باکه استفاده از شبکه عمیق دهددست آمده نشان می

، هم در حالت عمیق و هم در حالت غیرعمیقطرفه یکفزایش دقت شبکه در مقایسه با شبکه طرفه موجب ااز شبکه دو

شبکه استفاده از دهد، مقایسه شده است که نشان می( HMM)دست آمده با مدل مخفی مارکوف نتایج بهگردد. می

در بهترین اور عمیق های حاصل از شبکه ببا ویژگی (DBLSTM) طرفهعصبی عمیق حافظه کوتاه مدت ماندگار دو

های دادهمقایسه با مدل مخفی مارکوف روی مجموعه در %8.1میزان بهموجب بهبود دقت تشخیص واج فارسی حالت

دات شده است.فارس

که عصبی بازگشتی، شبکه ، شبه کوتاه مدت ماندگارظعصبی حافشبکه ، فارسی گفتار بازشناسیكلمات كلیدی:

.گرابند زمانی پیوند، طبقهطرفهشبکه عصبی دو عصبی عمیق،

Page 6: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

فهرست

و

مطالب فهرست

12 ................................................................................................. یمعرف و مقدمه: اول فصل -1

12 ------------------------------------------- آن یكاربردها و ضرورت مساله، فیتعر -1-1

13 --------------------------------------- گفتار یبازشناس یهاستمیس یطراح یها گام -1-2

- .Error! Bookmark not defined ....................................................................................... آموزش مرحله 1-2-1

- .Error! Bookmark not defined ......................................................................................... آزمون مرحله 1-2-2

.Error! Bookmark not defined -------------------------------- نامه انیپا یاجرا یها گام -1-3

.Error! Bookmark not defined -------------------------------------- نامه انیپا ینوآور -1-4

.Error! Bookmark not defined ---------------------------------------- هافصل خالصه -1-5

.Error! Bookmark not defined ..................................نیشیپ یهاپژوهش بر یمرور: دوم فصل -2

.Error! Bookmark not defined ---------------------------------------------- مقدمه -2-1

.Error! Bookmark not defined ------------------ یسیانگل گفتار یبازشناس یاملتك روند یبررس -2-2

.Error! Bookmark not defined ------------------- یفارس گفتار یبازشناس یتكامل روند یبررس -2-3

.Error! Bookmark not defined ---------------------- یعصب یها شبكه یتكامل روند بر یمرور -2-4

.Error! Bookmark not defined -------------- قیعم یریادگی كردیرو با گفتار یبازشناس بر یمرور -2-5

.Error! Bookmark not defined .................................... یعصب یها شبكه بر یمرور: سوم فصل -3

.Error! Bookmark not defined ---------------------------------------------- مقدمه -3-1

.Error! Bookmark not defined --------------------------------- شرویپ یعصب یها شبكه -3-2

- .Error! Bookmark not defined ................................................................ شرویپ یعصب یها شبكه انواع 3-2-1

.Error! Bookmark not defined ------------------------------- یبازگشت یعصب یها شبكه -3-3

- .Error! Bookmark not defined ...........یبازگشت یعصب یها شبكه در یطوالن یهادنباله یفراموش مشكل 3-3-1

- .Error! Bookmark not defined ............................................................ یبازگشت یعصب یها شبكه انواع 3-3-2

.Error! Bookmark not defined ------------------- ماندگار مدت كوتاه حافظه یعصب یها شبكه -3-4

- .Error! Bookmark not defined ................................................. ماندگار مدت كوتاه حافظه یعصب شبكه 3-4-1

- .Error! Bookmark not defined ......................... طرفه کی ماندگار مدت كوتاه حافظه قیعم یعصب شبكه 3-4-2

- .Error! Bookmark not defined ..................................... دوطرفه ماندگار مدت كوتاه حافظه یعصب شبكه 3-4-3

- .Error! Bookmark not defined ........................... دوطرفه ماندگار مدت كوتاه حافظه قیعم یعصب شبكه 3-4-4

- .Error! Bookmark not defined ............................................................................ دنباله یگذار برچسب 3-4-5

- .Error! Bookmark not defined .......................................................................... وندگرایپ یزمان بندطبقه 3-4-6

.Error! Bookmark not defined --------------------------------- قیعم باور یعصب شبكه -3-5

Page 7: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

فهرست

ز

- .Error! Bookmark not defined .......................................................................... محدود بولتزمن نیماش 3-5-1

- .Error! Bookmark not defined ........................................................................ قیعم باور شبكه ساختار 3-5-2

- .Error! Bookmark not defined ........................................................................ قیعم باور شبكه آموزش 3-5-3

- .Error! Bookmark not defined ....................................................... قیعم باور شبكه با یژگیو استخراج 3-5-4

Error! Bookmark not ........... قیعم یشبكه با گفتار یبازشناس -یشنهادیپ روش: چهارم فصل -4

defined.

.Error! Bookmark not defined ---------------------------------------------- مقدمه -4-1

.Error! Bookmark not defined -------------------------------------- یژگیو استخراج -4-2

- .Error! Bookmark not defined ................................. مل اسیمق در كپسترال بیضرا با یژگیو استخراج 4-2-1

- .Error! Bookmark not defined ....................................... قیعم باور شبكه از استفاده با یژگیو استخراج 4-2-2

.Error! Bookmark not defined ------------------------------------ دادگان یسازنرمال -4-3

.Error! Bookmark not defined -------------- یسازمدل جهت یعصب یهاشبكه از استفاده نحوه -4-4

- .Error! Bookmark not defined ........................................................................... هاشبكه ساختار نییتع 4-4-1

- .Error! Bookmark not defined ..................................................................... شبكه هیاول یهاوزن نییتع 4-4-2

- .Error! Bookmark not defined .................................................................. آموزش یدورها تعداد نییتع 4-4-3

.Error! Bookmark not defined ................................................... هایابیارز و جینتا: پنجم فصل -5

.Error! Bookmark not defined ---------------------------------------------- مقدمه -5-1

.Error! Bookmark not defined --------------------------------------- دادگان مجموعه -5-2

.Error! Bookmark not defined ----------------------------------------- یابیارز اریمع -5-3

- .Error! Bookmark not defined ............................................................................... میفر سطح در دقت 5-3-1

- .Error! Bookmark not defined ................................................................................. واج سطح در دقت 5-3-2

.Error! Bookmark not defined -------------------------------------- یژگیو استخراج -5-4

- .Error! Bookmark not defined ................. مل اسیمق در كپسترال بیضرا از استفاده با یژگیو استخراج 5-4-1

- .Error! Bookmark not defined ....................................... قیعم باور شبكه از استفاده با یژگیو استخراج 5-4-2

.Error! Bookmark not defined -------- ها آن مقدار نییتع نحوه و هاشبكه ییكارا بر موثر یپارامترها -5-5

.Error! Bookmark not defined ------------------ ماندگار مدت كوتاه حافظه یعصب شبكه جینتا -5-6

- .Error! Bookmark not defined ...................................................................................... میفر صیتشخ 5-6-1

- .Error! Bookmark not defined ........................................................................................ واج صیتشخ 5-6-2

.Error! Bookmark not defined ------------ دوطرفه ماندگار مدت كوتاه حافظه یعصب شبكه جینتا -5-7

- .Error! Bookmark not defined ...................................................................................... میفر صیتشخ 5-7-1

- .Error! Bookmark not defined ........................................................................................ واج صیتشخ 5-7-2

.Error! Bookmark not defined ------- طرفهکی ماندگار مدت كوتاه حافظه قیعم یعصب شبكه جینتا -5-8

Page 8: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

فهرست

ح

- .Error! Bookmark not defined ...................................................................................... میفر صیتشخ 5-8-1

- .Error! Bookmark not defined ........................................................................................ واج صیتشخ 5-8-2

.Error! Bookmark not defined -------- دوطرفه ماندگار مدت كوتاه حافظه قیعم یعصب شبكه جینتا -5-9

- .Error! Bookmark not defined ...................................................................................... میفر صیتشخ 5-9-1

- .Error! Bookmark not defined ........................................................................................ واج صیتشخ 5-9-2

.Error! Bookmark not defined ------------------------ ماركوف یمخف مدل با جینتا سهیمقا -5-10

.Error! Bookmark not defined -------------------------------------------- خالصه -5-11

.Error! Bookmark not defined ............................ ندهیآ یبرا شنهادیپ و یبندجمع: ششم فصل -6

.Error! Bookmark not defined ------------------------------------ یبندجمع و خالصه -6-1

.Error! Bookmark not defined ------------------------------------ ندهیآ یبرا شنهادیپ -6-2

.Error! Bookmark not defined .......................................................................................... مراجع

Page 9: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

فهرست

ط

ها فهرست شکل

.Error! Bookmark not defined ----------------------- گفتار یبازشناس ستمیس یكل ساختار( 1-1 شكل

.Error! Bookmark not defined -------------------- یخط یبندخوشه ساختار با SOM شبكه( 1-3 شكل

.MLP ---------------------------- Error! Bookmark not defined یعصب یشبكه ساختار( 2-3 شكل

.Error! Bookmark not defined ------------------------------- یزمان ریتاخ نرون ساختار( 3-3 شكل

.Error! Bookmark not defined --------------------------- یبازگشت یعصب شبكه ساختار( 4-3 شكل

.Error! Bookmark not defined ----------------------- یبازگشت یها شبكه یفراموش مشكل( 5-3 شكل

.Error! Bookmark not defined ------------------------ نرون چهار با لدیهاپف شبكه ساختار( 6-3 شكل

.Error! Bookmark not defined ----------------------------------- المان شبكه ساختار( 7-3 شكل

.Error! Bookmark not defined -------------------- حافظه بلوک دو با LSTM شبكه ساختار( 8-3 شكل

.Error! Bookmark not defined ------------------------- دروازه سه با حافظه بلوک ساختار( 9-3 شكل

.Error! Bookmark not defined -------------- دوطرفه یبازگشت یعصب یها شبكه یكل ساختار( 10-3 شكل

.Error! Bookmark not defined --------------------------- قیعم یعصب یشبكه ساختار( 11-3 شكل

.DBLSTM -------------------- Error! Bookmark not defined قیعم یعصب شبكه ساختار( 12-3 شكل

.LSTM -------------------------------- Error! Bookmark not defined شبكه ساختار( 13-3 شكل

.LSTM --------------------------- Error! Bookmark not defined حافظه بلوک ساختار( 14-3 شكل

.DLSTM ------------------------------- Error! Bookmark not defined شبكه ساختار( 15-3 شكل

.BLSTM -------------------------- Error! Bookmark not defined یعصب شبكه ساختار( 16-3 شكل

.DBLSTM ------------------------ Error! Bookmark not defined یعصب شبكه ساختار( 17-3 شكل

.Error! Bookmark not defined --------------------------- محدود بولتزمن نیماش ساختار( 9-4 شكل

.DBN --------------------------------- Error! Bookmark not defined شبكه ساختار( 19-3 شكل

.Error! Bookmark not defined ------------------------ هیال سه DBN صانهیحر یریادگی( 20-3 شكل

.DBN Auto-Encoder --------------------- Error! Bookmark not defined شبكه ساختار( 21-3 شكل

.Error! Bookmark not defined -------------------------------- نامه انیپا یاجرا مراحل( 1-4 شكل

.MFCC ----------------------- Error! Bookmark not defined یها یژگیو استخراج مراحل( 2-4 شكل

.DBN ------------------------ Error! Bookmark not defined یها یژگیو استخراج مراحل( 3-4 شكل

.Error! Bookmark not defined ------- 0.0001 یریادگی نرخ یازابه LSTM میفر صیتشخ دقت( 1-5 شكل

.Error! Bookmark not defined ---------- حافظه بلوک 200 یازابه LSTM میفر صیتشخ دقت( 2-5 شكل

.Error! Bookmark not defined -------- 0.0003 یریادگی نرخ یازابه LSTM واج صیتشخ دقت( 3-5 شكل

.Error! Bookmark not defined ----------- حافظه بلوک 250 یازابه LSTM واج صیتشخ دقت( 4-5 شكل

Page 10: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

فهرست

ی

.Error! Bookmark not defined ------ 0.0001 یریادگی نرخ یازابه BLSTM میفر صیتشخ دقت( 5-5 شكل

.Error! Bookmark not defined --------- حافظه بلوک 200 یازابه BLSTM میفر صیتشخ دقت( 6-5 شكل

.Error! Bookmark not defined ------- 0.0001 یریادگی نرخ یازابه BLSTM واج صیتشخ دقت( 7-5 شكل

.Error! Bookmark not defined ---------- حافظه بلوک 200 یازابه BLSTM واج صیتشخ دقت( 8-5 شكل

Error! Bookmark not-- پنهان هیال 2 و 0.0005 یریادگی نرخ یازابه DLSTM میفر صیتشخ دقت( 9-5 شكل

defined.

Error! Bookmark not---- پنهان هیال 2 و حافظه بلوک 200 یازابه DLSTM میفر صیتشخ دقت( 10-5 شكل

defined.

Error! Bookmark 0.001 یریادگی نرخ و حافظه بلوک 200 یازابه DLSTM میفر صیتشخ دقت( 11-5 شكل

not defined.

Error! Bookmark not-- پنهان هیال 2 و 0.0005 یریادگی نرخ یازابه DLSTM واج صیتشخ دقت( 12-5 شكل

defined.

Error! Bookmark not----- پنهان هیال 2 و حافظه بلوک 200 یازابه DLSTM واج صیتشخ دقت( 13-5 شكل

defined.

Error! Bookmark 0.0005 یریادگی نرخ و حافظه بلوک 200 یازابه DLSTM واج صیتشخ دقت( 14-5 شكل

not defined.

Error! Bookmark notپنهان هیال 2 و 0.0005 یریادگی نرخ یازابه DBLSTM میفر صیتشخ دقت( 15-5 شكل

defined.

Error! Bookmark not--- پنهان هیال 2 و حافظه بلوک 200 یازابه DBLSTM میفر صیتشخ دقت( 16-5 شكل

defined.

!Error ------- 0.0005 یریادگی نرخ و حافظه بلوک 150 یازابه DBLSTM میفر صیتشخ دقت( 17-5 شكل

Bookmark not defined.

Error! Bookmark not پنهان هیال 2 و 0.0005 یریادگی نرخ یازابه DBLSTM واج صیتشخ دقت( 18-5 شكل

defined.

Error! Bookmark 0.0005 یریادگی نرخ و حافظه بلوک 150 یازابه DBLSTM واج صیتشخ دقت( 19-5 شكل

not defined.

Error! Bookmark 0.0005 یریادگی نرخ و حافظه بلوک 200 یازابه DBLSTM واج صیتشخ دقت( 20-5 شكل

not defined.

.Error! Bookmark not defined --- یسازمدل یروشها از کی هر یبرا واج صیتشخ دقت نیبهتر( 21-5 شكل

Page 11: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

فهرست

ک

فهرست جداول

.Error! Bookmark not defined ------------------------ یسیانگل گفتار یبازشناس خچهیتار( 1-2 جدول

.Error! Bookmark not defined ------------------------- یفارس گفتار یبازشناس خچهیتار( 2-2 جدول

.Error! Bookmark not defined ---------------------------- یعصب یها شبكه تكامل روند( 3-2 جدول

.Error! Bookmark not defined ------------ قیعم یریادگی كردیرو با گفتار یبازشناس خچهیتار( 4-2 جدول

.LSTM ---------- Error! Bookmark not defined شبكه آموزش تمیالگور در رفته كار به ینمادها( 1-3 جدول

.CTC ---------------------- Error! Bookmark not defined تمیالگور در رفته كار به ینمادها( 2-3 جدول

.MFCC ------ Error! Bookmark not defined یها یژگیو استخراج یبرا استفاده مورد یپارامترها( 1-5 جدول

.DBN - Error! Bookmark not defined از استفاده با هایژگیو استخراج یبرا استفاده مورد یپارامترها( 2-5 جدول

.Error! Bookmark not defined ---------- تست یها داده یرو میفر سطح در LSTM دقت جینتا( 3-5 جدول

DBN ----Error! Bookmark not و MFCC یها یژگیو با میفر سطح در LSTM دقت جینتا سهیمقا( 4-5 جدول

defined.

.Error! Bookmark not defined ----------- تست یها داده یرو واج سطح در LSTM دقت جینتا( 5-5 جدول

DBN -----Error! Bookmark not و MFCC یها یژگیو با واج سطح در LSTM دقت جینتا سهیمقا( 6-5 جدول

defined.

.Error! Bookmark not defined --------- تست یها داده یرو میفر سطح در BLSTM دقت جینتا( 7-5 جدول

DBN --Error! Bookmark not و MFCC یها یژگیو با میفر سطح در BLSTM دقت جینتا سهیمقا( 8-5 جدول

defined.

.Error! Bookmark not defined ----------تست یها داده یرو واج سطح در BLSTM دقت جینتا( 9-5 جدول

DBN --Error! Bookmark not و MFCC یها یژگیو با واج سطح در BLSTM دقت جینتا سهیمقا( 10-5 جدول

defined.

.Error! Bookmark not defined ------- تست یها داده یرو میفر سطح در DLSTM دقت جینتا( 11-5 جدول

DBN -Error! Bookmark not و MFCC یها یژگیو با میفر سطح در DLSTM دقت جینتا سهیمقا( 12-5 جدول

defined.

.Error! Bookmark not defined -------- تست یها داده یرو واج سطح در DLSTM دقت جینتا( 13-5 جدول

DBN --Error! Bookmark not و MFCC یها یژگیو با واج سطح در DLSTM دقت جینتا سهیمقا( 14-5 جدول

defined.

.Error! Bookmark not defined ------ تست یها داده یرو میفر سطح در DBLSTM دقت جینتا( 15-5 جدول

DBN Error! Bookmark not و MFCC یها یژگیو با میفر سطح در DBLSTM دقت جینتا سهیمقا( 16-5 جدول

defined.

.Error! Bookmark not defined ------- تست یها داده یرو واج سطح در DBLSTM دقت جینتا( 17-5 جدول

Page 12: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

فهرست

ل

DBN -Error! Bookmark not و MFCC یها یژگیو با واج سطح در DBLSTM دقت جینتا سهیمقا( 18-5 جدول

defined.

.Error! Bookmark not defined ------------------ ماركوف یمخف مدل با واج صیتشخ دقت( 19-5 جدول

.Error! Bookmark not defined ------------ داتفارس مجموعه یرو آمده دستبه جینتا خالصه( 1-6 جدول

Page 13: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

و معرفی : مقدمهفصل اول -1

های آنتعریف مساله، ضرورت و كاربرد -1-1

-شود. تشخیص گفتار کاربردگفته می (ASR) 1به فرآیند تبدیل سیگنال صوتی به متن معادل آن تشخیص گفتار

رسانی های اطالعدستورات صوتی، سیستم توان به سیستم تایپ، تشخیص فرامین وهای مختلفی دارد که از جمله آن می

د که از های متفاوتی وجود دارهای تشخیص گفتار روشو همچنین ترجمه گفتار به گفتار اشاره کرد. برای طراحی سیستم

مانند 3های مبتنی بر یادگیری ماشینو روش [1 .2]( HMM) 2آماری مدل مخفی مارکوف ، روشها آنترین جمله مهم

یکی از مشکالتی که هنوز در این حوزه مطرح است، بحث افزایش دقت و باشد. می [3 .4] (ANN) 4عصبی های شبکه

متمرکز هستند. یکی های مختلفی در سراسر جهان روی آن ها و دانشگاهباشد که امروزه شرکتها میکارایی این سیستم

فتار که در چند سال اخیر مطرح شده است استفاده از گ بازشناسیهای منظور افزایش کارایی و دقت سیستمها بهاز ایده

همراه داشته ار زبان انگیسی نتایج خوبی را بهگفت بازشناسیباشد. استفاده از یادگیری عمیق در می [1] 5یادگیری عمیق

گرفته استز یادگیری عمیق صورت گفتار با استفاده ا بازشناسی نیز چندین کار در زمینهو در زبان فارسی [6. 5]است

بر نامه پایاندر این ،گرددمنجر به بهبود دقت کل سیستم می 6که افزایش دقت در سطح تشخیص واجاز آنجایی. [8. 7]

.شده استعمیق تمرکز های بازشناسی گفتار فارسی با رویکرد یادگیریروی افزایش دقت واج سیستم

1 Automatic Speech Recognition (ASR) 2 Hidden Markov Model (HMM) 3 Machine Learning 4Artificial Neural Network (ANN) 5 Deep Learning 6 Phoneme

Page 14: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

دنبال آن حل و به [9 .10] (LSTM) 7حافظه کوتاه مدت ماندگار عصبی پس از ارائه شبکهکه با توجه به این

تار انگلیسی صورت گسترده در بازشناسی گفاز این شبکه به (RNN) 9عصبی بازگشتی های شبکهدر 8مشکل فراموشی

های زبان فارسی با استفاده از منظور افزایش دقت تشخیص واجبه نامه پایاندر این ، [13-11. 6. 5] استفاده گردیده است

LSTMعصبی شبکهحافظه عمیق عصبی شبکه(، BLSTM) 10طرفهمدت ماندگار دوحافظه کوتاه شبکه عصبی ،

12طرفهدو و همچنین شبکه عصبی عمیق حافظه کوتاه مدت ماندگار (DLSTM) 11طرفه یک کوتاه مدت ماندگار

(DBLSTM )ساخته شده است.فارسی 13مدل آوایی

های بازشناسی گفتارطراحی سیستم های گام -1-2

دو ،در مرحله آموزشباشد. می 15و آزمون 14مرحله آموزش شامل دو های بازشناسی گفتارفرآیند طراحی سیستم

18طی فرآیند رمز گشایی 17واژگان مدل وشود و در مرحله آزمون با استفاده از این دو ساخته می و آوایی 16مدل زبانی

دهد. در ادامه هر یک را نمایش میهای بازشناسی گفتار ساختار کلی سیستم 1-1شکل گردد. دنباله کلمات استخراج می

.کنیماز این دو مرحله را بررسی می

7 Long Short Term Memory (LSTM) 8 Vanishing Gradient Problem 9 Recurrent Neural Networks (RNN) 10 Bidirectional Long Short Term Memory (BLSTM) 11 Deep Long Short Term Memory (DLSTM) 12 Deep Bidirectional Long Short Term Memory (DBLSTM) 13Acoustic Model 14 Train 15 Test 16 Language Model 17 Lexicon 18 Decoding

Page 15: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

Abstract

The process of converting speech signal to its equivalent text is known as Automatic Speech

Recognition (ASR). The most important methods for speech recognition are Hidden Markov

Model (HMM) and Artificial Neural Network (ANN). One way to increase the accuracy of a

speech recognition system is improving the quality of Acoustic Modeling (AM). In this thesis,

for the first time, we have used deep unidirectional and bidirectional Long Short Term

Memory (LSTM) neural network with Connectionist Temporal Classification (CTC) output

layer to create Persian acoustic models. Because of the sequential structure of speech signal,

recurrent neural networks are appropriate for processing them. However, because of vanishing

problem of recurrent neural networks they are not suitable for processing long sequential data.

LSTM as a recurrent neural network, has solved the vanishing problem by replacing hidden

layer neurons with memory blocks.

Moreover, in this thesis we have used Deep Belief Network (DBN) for feature extraction and

compared the results with the baseline feature extraction method, Mel Frequency Cepstral

Coefficient (MFCC).

The results show that, the accuracy of phoneme recognition is improved by using DBN

features in comparision with the MFCC. Also, deep bidirectional LSTM with DBN features

has improved the Persian phoneme recogntion rate about 8.1% in comparison with the HMM

on Farsdat speech dataset.

Keywords

Persian speech recognition, Long short term memory neural network, Bidirectional neural

network, Deep neural network, Recurrent neural network, Connectionist temporal

classification

Page 16: یسراف راتفگ یسانشزاب یارب قیمع یریگ{ای زا هافتسانیون نونف و مولع هدكشنا{)هكبش یروانف و مولع شzب( یروانف

University of Tehran Faculty of New Sciences and Technologies

Interdisciplinary Technology Group (Network Sciences and Technologies)

Persian Speech Recognition using Deep Learning

By: Armita Hajimani

Supervisor: Dr. Hadi Veisi

A thesis submitted to the Graduate Office in Fulfillment of Requirements for the Degree

of Master of Science in Decision Science and Knowledge Engineering

March 2017