مسعود میررضایی

نام پژوهشگر: مسعود میررضایی

چه کسی چه موقع واقعاً صحبت می کند؟ جداسازی و شناسایی گوینده ها در محیطی متشکل از چند گوینده با استفاده از الگوریتم های نوین

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1386
مسعود میررضایی محمد احدی سرکانی

در این پژوهش، وظیفه مشخص سازی گفتار مربوط به هر گوینده خاص در یک فضای متشکل از چندین گوینده بدون همپوشانی میان گویندگان با فرض مشخص بودن تعداد گویندگان می باشد. در اینجا هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و تا حد امکان، گفتار هر گوینده را بدون دانستن اطلاعات قبلی از وی و هر گونه آموزش برای سیستم، برچسب گذاری نماید یعنی مشخص نماید که کدام گوینده و در چه زمانی صحبت کرده است. به همین منظور ابتدا در فصل اول آشنایی مختصری با مبحث خوشه بندی و بخش بندی گوینده در یک فضای چند گوینده و معرفی کارها وروشهای انجام شده در این زمینه، خواهیم داشت وبه پیاده سازی یکی از معروفترین آنها با نام distbic به منظور مقایسه با روش پیشنهادی می پردازیم. به منظور تست روشهای مطرح شده در این پژوهش از دو داده گفتاری که یکی از آنها darpa timit و دیگری داده فارسی فارس دات (farsdat) می باشد، استفاده شده است. در فصل دوم به شرح کامل روش جداسازی و برچسب زنی با استفاده از mutual information می پردازیم و بیانی از نحوه محاسبه آن و بهینه سازی آن به وسیله الگوریتم ژنتیکgenetic algorithm (ga) خواهیم داشت. در فصل سوم به بیان الگوریتم پیشنهادی به وسیله بهینه ساز دسته ذرات یا particle swarm optimization(pso) پرداخته می شود و نتایج آن با روشهای پیشین مقایسه می گردد. در فصل چهارم به منظور مقاوم سازی الگوریتم ارایه شده با استفاده از ga نسبت به محیط های نویزی با استفاده از روش autocorrelation-based noise subtraction (ans) اقدام به مقاوم کردن آن نموده ایم و نتایج حاصل از آنها را بیان می نماییم و در انتها نیز نتیجه گیری و پیشنهاداتی برای کارهای آینده بیان گردیده است که نشان دهنده بهتر بودن روش ارایه شده نسبت به سایر روشهای موجود می باشد.

۱۵ صفحه ی اول