نام پژوهشگر: بهرام وزیرنژاد

مدلسازی تنوعات تلفظی آوایی به منظور ایجاد واژگان پویای تطبیقی در سیستم بازشناسی گفتار پیوسته
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی 1387
  بهرام وزیرنژاد   فرشاد الماس گنج

در این رساله به ارائه روشهایی برای مدلسازی تلفظ در واژگان برای بهبود عملکرد سیستم بازشناسی گفتار پیوسته پرداختیم. تلفظ تحت تاثیر عوامل متعددی از جمله عوامل وابسته به گوینده و مستقل از گوینده می باشد. این عوامل می توانند موضعی و فرا موضعی باشند. بخشی از تحقیق حاضر به بررسی آماری میزان و نحوه تاثیر این عوامل از جمله نرخ بیان، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه روی تلفظ در گفتار پیوسته تخصیص یافته است. در بخشهای بعدی با در نظر داشتن این عوامل به طراحی و آموزش مدل های تلفظی پرداختیم. مدل های ترکیبی آماری بعنوان یک مدل با کارایی بالا در این رساله طراحی و معرفی گردیدند. این مدل ها ترکیبی از قواعد تلفظی و درخت های تصمیم تعمیم یافته می باشند. نام درخت های تصمیم تعمیم یافته ناظر به این واقعیت است که هر یک از این درخت های تصمیم برای گروهی از کلمات با ساختار هجایی مشابه طراحی و آموزش می یابند و از این طریق اطلاعات تلفظ روی این گروه از کلمات را برای آموزش خود استفاده می نمایند. در تحقیقات مشابه تا کنون هر درخت تصمیم برای یک کلمه واحد طراحی و آموزش داده می شد. این نکته باعث قابلیت منحصر به فرد این نوع طراحی در آموزش درخت ها با استفاده از دادگانی با حجم محدود است که با راهکار های قبلی هرگز امکان پذیر نبود. ضمنا برای هر کلمه جدید که در دادگان آموزش دیده نشده است نیازی به آموزش مدل جدید نیست و درخت های موجود قادرند گونه های تلفظی آن را تولید نمایند. قواعد تلفظی بعنوان دومین قطعه از مدل های ترکیبی نیز بطور ذاتی قادرند اطلاعات تلفظ وابسته به متن واجی را از دادگانی با حجم متوسط یاد گیرند. مدل های ترکیبی در سه نوع ارائه گردیدند. نوع اول از این مدل های موسوم به مدل های ترکیبی ایستا برای تولید گونه های تلفظی کلمات از ساختار هجایی کلمه، هویت واج ها در مواضع مختلف، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه و زمینه واجی برای تولید واژگان حاوی گونه های تلفظ بهره می برند. استفاده از واژگان حاصل از این مدل ها منجر به بهبودی معادل با 4/4% نسبت به واژگان مرجع در صحت بازشناسی گفتار شد. مدل های ترکیبی پویا علاوه بر این عوامل، نرخ صحبت را در تولید واژگان مورد نظر قرار می دادند. بهره گیری از این دسته از واژگان منجر به بهبودی معادل با 3/6% نسبت به واژگان مرجع در صحت بازشناسی گفتار پیوسته شد. در آخرین بخش از این رساله با توجه به اهمیت گوینده در بروز تنوعات تلفظی به ارائه قواعد تلفظی تطبیق یافته به گوینده در مدل های ترکیبی پویا پرداختیم و از این طریق مدل هایی را طراحی نمودیم که به نحو موثری ویژگی های گوینده را در تولید دسته های واژگانی حاوی تلفظ مورد استفاده قرار می دهند. با بکارگیری مدل های ترکیبی پویای تطبیقی در سیستم بازشناسی گفتار پیوسته بهبودی معادل با 1/8% تا 1/10% نسبت به واژگان مرجع در سیستم بازشناسی گفتار پیوسته مشاهده شد.