مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای جمع شونده و نویز کانال

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
نویسنده امیرحسین حاج احمدی
استاد راهنما محمدمهدی همایون‏‎‎‏ پور محمد احدی
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1387

چکیده

با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبستگی برای مقاوم سازی در مقابل نویزهای جمع شونده و کانال در بازشناسی گوینده بررسی شده است. همچنین جهت استفاده از روش ویژگی های مفقود در سیستم های بازشناسی گوینده یک مدل کلی ارایه گردیده است. در این پروژه همچنین برای افزایش کارایی روش ویژگی های مفقود و امکان استفاده از آن برای استخراج پیک های مقاوم تر از طیف دنباله خودهمبستگی، تغییراتی چه در تخمین ماسک و چه در بدست آوردن مدل بازسازی مناسب پیشنهاد شده است. استفاده از ماسک های مبتنی بر شبکه های عصبی که عمل تخمین ماسک را به کمک تخمین نسبت سیگنال به نویز محلی انجام می دهند و از قدرت تعمیم بالایی نیز برخوردار هستند و انتخاب مدل بازسازی مناسب با کمک فاصله وزن دار با وزن های حاصل از ماسک های نرم برای استفاده در سیستم های بازشناسی مبتنی بر بازسازی طیف نگار با روش ویژگی های مفقود، پیشنهاد و مورد آزمایش و بررسی قرار گرفته شده است. آزمایش های انجام شده در راستای مقاوم سازی سیستم های بازشناسی گوینده، بر روی دادگان فارسدات تلفنی انجام شده است. از نتایج آزمایش های اولیه مشخص شد که استفاده از انرژی طیفی سیگنال به عنوان یک ویژگی در سیستم های بازشناسی گوینده، مقاومت این سیستم ها را به میزان قابل توجهی کاهش می دهد. همچنین مشخص شد، پیک های طیف دنباله خودهمبستگی که در آنها از مشتق گیری طیف ِ توان استفاده شده است، نسبت به ویژگی های mfcc دارای مقاومت بیشتری درمقابل به نویزهای جمع شونده هستند. همچنین نتایج نشان دهنده مقاومت بالای پیک های طیف دنباله خودهمبستگی سیگنال گفتارِ استخراج شده از طیف نگار دنباله خودهمبستگی بازسازی شده با روش ویژگی های مفقود در مقابل نویزهای جمع شونده است. درنهایت برای سیستم های بازشناسی گوینده استفاده از روش پس پرداز mva را به برای مقاوم سازی بیشتر ویژگی های استخراج شده در حوزه کپسترال در مقابل نویزهای جمع شونده و کانال می توان پیشنهاد کرد. در این پروژه استفاده از روش ویژگی های مفقود با استفاده از تخمین ماسک به کمک شبکه های عصبی و انتخاب مدل بازسازی مناسب با استفاده از فاصله وزن دار، و نیز روش پس پردازش mva برای استفاده در سیستم های بازشناسی گفتار مقاوم در مقابل نویز نیز مورد آزمایش قرار گرفته اند. نتایج آزمایش های انجام شده جهت مقاوم سازی سیستم های بازشناسی گفتار بر روی دادگان aurora2 نشان می دهند که هم روش ویژگی های مفقود و هم روش پس پردازش mva از توانایی بالایی در مقاوم سازی سیستم های بازشناسی گفتار در مقابل نویزها برخوردار هستند. همچنین نتایج امیدوارکننده ای با استفاده از اعمال هر دو روش ویژگی های مفقود و روش پس پردازش mva بدست آمده است.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

مقاوم سازی سیستم بازشناسی گفتار پیوسته

دقت سیستم¬های بازشناسی گفتار در محیط¬های آزمایشگاهی و کنترل شده به میزان قابل قبولی افزایش یافته و امروزه شاهد استفاده از این سیستم¬ها در محیط¬های واقعی هستیم. با این حال، کارایی این سیستم¬ها در حضور نویز به دلیل عدم تطابق بین شرایط و محیط آموزشی و آزمون به شدت افت می¬کند. علاوه بر این، تنوع مشخصه¬های گفتاری گویندگان نیز بر کارایی این سیستم¬ها تاثیرگذار است. در سال¬های اخیر، عمده پژوهش¬های صورت...

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واجهای گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآییها، رتبهبندی واجها صورت گرفته‌اند. جهت برآورد کارآیی واجها، از یک معیاری که بهصورت نسب « فاصلة بینگویندهای» واجها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیدهایم، استفاده شده است. آزمایشها و محاسبات لازم برای کلیه واجهای گفتار...

متن کامل

مقاوم سازی بازشناسی گفتار برمبنای سیستم شنیداری انسان

در این پایان نامه، یک الگوریتم استخراج ویژگی جدید را معرفی می کنیم که pncc نامیده می شود و مبتنی بر سیستم شنیداری انسان می باشد. ویژگیهای جدید pncc شامل یک غیر خطی قانون توان است که جایگزین غیر خطی لگاریتمی استفاده شده در mfcc شده است، و همچنین شامل یک الگوریتم جدید برای حذف تحریک پس زمینه-با استفاده از تخمین توان با طول متوسط مبتنی بر نسبت میانگین حسابی به میانگین هندسی-و همچنین کاهش توان پس ز...

15 صفحه اول

استفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار

بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاد...

15 صفحه اول

تعیین و تصدیق هویت گوینده بر روی خط تلفن به کمک یک سیستم هیبرید مقاوم در برابر نویز و اثر انتقال کانال همراه با نرمالیزاسیون امتیازات

در این مقاله یک سیستم کارآمد برای تعیین و تصدیق هویت گوینده معرفی می شود که در برابر نویز و اثر کانال انتقال مقاوم است. با استفاده از تکنیک آمیختن داده ها، دو سیستم hmm و gmm، موازی شده و یک سیستم ترکیبی را برای کاربرد در تعیین و تصدیق هویت گوینده بر روی خط تلفن تشکیل داده‏اند. آزمایشها نشان می‏دهد که مدل ترکیبی hmm+ gmm در بازشناسی گوینده از هر یک از سیستمهای hmm وgmm بهتر عمل می‏کند. برای مقا...

متن کامل

پایدار سازی سیستم های چندجمله ای غیرخطی در معرض نویز سیستم و اعوجاج کمی سازی

این مقاله به مسئله پایدارسازی سیستم های چندجمله ای غیر خطی در معرض نویز سیستم هنگامی که انتقال از حسگر به کنترل کننده از طریق یک کانال مخابراتی دیجیتال بدون نویز صورت می گیرد، می پردازد. یک تکنیک پایدارسازی متشکل از یک انکودر، دیکودر و کنترل کننده جهت پایدارسازی مجانبی باند محدود با احتمال یک، ارائه می شود. در صورت فقدان نویز سیستم نشان داده می شود که این تکنیک پایدارسازی منجر به پایداری مجانبی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر

کلمات کلیدی

بازشناسی گفتار speech recognition تجزیه و تحلیل گفتار speech analysis بازشناسی گوینده speaker recognition الگوشناسی

میزبانی شده توسط پلتفرم ابری doprax.com