نام پژوهشگر: منیژه منتظریان

بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه علم و صنعت ایران 1378
  منیژه منتظریان   احمد اکبری

گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیابی به یک روش مناسب مرزبندی، سه روش تعیین مرز کلمات برگزیده و مقایسه شده اند. سپس ، از یک الگوریتم ساده و کارا در استخراج هجاهای عبارات استفاده شده است . بمنظور محدود ساختن دامنه گسترده لغات فارسی، کلمات را به اعداد دورقمی فارسی محدود ساخته ایم. بنابراین، از این پس هر جا که از مضامین "عبارت " و "کلمه" استفاده شده است ، منظور اعداد دو رقمی فارسی است . در بخش بعدی پروژه، ضرایب کپسترال و دلتاکپسترال از هجاهای بدست آمده از عبارات تلفظ شده توسط یک گوینده زن، استخراج می شوند. بمنظور دستیابی به ویژگی از گفتار که در تعلیم مدل شبکه عصبی بازشناخت بهترین کارآیی را داشته باشد، از ضرایب به دست آمده در تشکیل سه گونه متفاوت بردار ویژگی استفاده می شود. بمنظور مقایسه عملکرد مدلهای شبکه با روشهای مختلف تعلیم، در انجام مدلسازی از دو شبکه mlp و کوهونن بهره برده ایم. ساختارهای مختلفی از این دو مدل را تعلیم داده و نتایج حاصل از عملکرد آنها را با یکدیگر مقایسه می کنیم.