نام پژوهشگر: اسما کریمی مقدم آرانی

بررسی مشخصه های آکوستیکی واج های فارسی و شبیه سازی سیستم تشخیص واج و گوینده بر اساس ویژگی های آکوستیک
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - پژوهشکده ادبیات 1392
  اسما کریمی مقدم آرانی   جواد صدری

هدف پروژه ی حاضر استخراج و استفاده از ویژگی های آکوستیکی موج صدا برای شناسایی سخنگو و واج های زبان فارسی است. این ویژگی ها از روی طیف نگاشت موج صوتی آوا ها در این پروژه معرفی و تحلیل شده اند. این ویژگی ها برای تظاهر آکوستیکی هر واج و همین طور گفتار هر گوینده، منحصر به فرد هستند بطوریکه می توان از آنها به عنوان کلید های شناسایی گفتار و گوینده استفاده کرد. نتایج بدست آمده در بخش عملی پروژه، این ادعا را ثابت می کند. در بخش عملی، داده ها شامل تظاهر آکوستیکی تمام واج های زبان فارسی (22 صامت و 6 مصوت) از 52 سخنور فارسی معیار (26 زن و 26 مرد) در محیط آکوستیکی به صورتstereo و با نرخ نمونه برداری 44100 هرتز وdepth 16 bit در محیط نرم افزار پرت ضبط شد. هر آزمودنی، 28 آوا را 5 بار تکرار کرد و در مجموع پایگاه داده شامل 7280 آوا است ( از هر آوای منفرد 260 تکرار). واج ها بر اساس شیوه تولید در 6 گروه دسته بندی شد. پایگاه داده ی سخنگویان شامل 20 سخنگوی فارسی معیار (10 زن و 10 مرد) است که 6 مصوت زبان فارسی را 5 بار تکرار کرده اند (600 آوا). برای استخراج کلید های آکوستیکی، بعد از تفکیک آوا ها و حذف سکوت و خشه در فضای نرم افزار پرت، از پنجره همینگ استفاده شد. مدل لگاریتمی که برای این کار در نظر گرفته شد، fourier و صافی ها با پهنای باریک بوده است. در مرحله بعدی این کلید ها به عنوان ضرایب کپسترال در مقیاس مل ( mfcc) برای 25 میلی ثانیه از بازه زمانی سیگنال صدا، کمّی شد. در نهایت ماشین را با استفاده از الگوریتم هارمونی سرچ (hdhsa ) برای بازشناسی واج و گوینده فارسی آموزش دادیم. نرخ بازشناسی سخنگو در این پروژه 90%، و نرخ بازشناسی تظاهر آکوستیکی واج های فارسی در تمام دسته های آوایی به جز سایشی که 99.51% گزارش شد، 100% بود. تحلیل های آکوستیکی روی زبان فارسی می تواند اطلاعات مفیدی از ویژگی های آوایی آوا های فارسی برای ارائه ی تعریف کامل و جامعی از آوا ها جهت مقایسه با زبان های دیگر و دسته بندی آوایی صدا های زبان فارسی در اختیار محققین زبانشناسی قرار دهد. به علاوه، در کشف دلایل و ریشه های مشکلات گفتاری در حوزه گفتار-درمانی، به عنوان مثال بازشناسی آوا های تولید شده توسط بیماران مبتلا به اختلالات زبانی، نیز کاربرد دارد. از طرف دیگر، با توجه به اینکه سیستم شناسایی آوا و گفتار به ویژگی های آکوستیکی کلام نیاز دارد، این تحقیقات می تواند در ارتقای کیفیت عملکرد این سیستم ها و کاهش ضریب خطا در مراحل طراحی و ساخت موثر باشد.