هادی گرایلو

نام پژوهشگر: هادی گرایلو

طراحی و پیاده سازی سیستم شناسایی زبان گفتاری به صورت خودکار

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود 1389
پریا مهارلویی حسین مروی

تشخیص اتوماتیک زبان در واقع مسأله تشخیص زبان برای یک نمونه گفتار صحبت شده توسط سخنگوی نامعـلوم است. تشخیص خودکار زبان می تواند به ارتباط بین مردم نواحی گوناگون کمک کند و کاربردهای مختلفی در توسعه گردشگری ، تجارت آزاد، تقویت امنیت ملی از طریق پیش پردازش و فیلتر نمودن مکالمات مشکوک ، خدمات اورژانس، ترجمه همزمان در همایش ها و مکالمات بین المللی دارد. در این پایان نامه با کمک کلاسه بندی ویژگی های مختلف، سیستم تشخیص خودکار زبان، طراحی و پیاده سازی شده است. برای این منظور، ویژگی های مناسب هر زبان را یافته و با دسته بندی آن برای زبان های مختلف، الگوریتم کلاس بندی و گسسته سازی چند بازه ای را آموزش داده و پس از دسته بندی آنها، قواعد تصمیم گیری برای هر زبان تعیین شده و از این دسته بندی برای تشخیص زبان های تست استفاده می کنیم. برای آزمایش روش پیشنهادی، از نمونه های صوتی 10 ثانیه ای و 45 ثانیه ای پایگاه اطلاعاتی ogi-ts استفاده گردیده است. در ogi-ts نمونه های صوتی از 11 زبان انگلیسی، فارسی، آلمانی، اسپانیایی، کره ای، ماندارین، ژاپنی، تامیل، ویتنامی، فرانسوی و هندی با زمان بندی های گوناگون موجود است. اما در سیستم های تشخیص زبان، بیشتر از 9 زبان اول استفاده شده است. به همین منظور ما نیز آزمایش ها را بر روی این 9 زبان انجام داده و با روش های پیشین مقایسه نمودیم. آزمایش ها بر روی ضرایب مختلف موجک ، mfcc، plp و lpc انجام شده اند. تا کنون روش های مختلفی برای شناسایی زبان گفتاری به صورت خودکار پیشنهاد شده است، که بیشتر آنها وابسته به اطلاعات واج آرایی بوده و استفاده از آنها دشوار می باشد. ما در این پژوهش روشی مستقل از واج آرایی ارائه دادیم که در عین سهولت، با درصد خوبی قادر به تشخیص زبان ها است. در این روش از تبدیل موجک و تبدیل کپسترال نمونه های صوتی استفاده گردیده که بدون نیاز به اطلاعات زبان شناسی، بر روی زبان های گوناگون قابل استفاده می باشند. مشاهده گردید که ضرایب کپسترال به درصد صحت بالاتری نسبت به ضریب موجک می رسند. همچنین برای هر دو ضریب کپسترال و موجک، نمونه های صوتی 45 ثانیه ای به دلیل مدت زمان بیشتر، درصد تشخیص بهتری دارند. روش های پیشین بیشتر به تشخیص دوبه دوی زبان ها می پرداختند، در حالیکه روش پیشنهادی قادر به تشخیص نوع زبان، از میان 9 زبان موجود در ogi-ts نیز می باشد.