استفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق
  • نویسنده اولدوز حضرتی یادکوری
  • استاد راهنما محمد احدی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1386
چکیده

بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاده قرار بگیرد. در این پروژه، روشی مبتنی بر کرنل تنها در فاز خوشه بندی مورد استفاده قرار می گیرد. پیاده سازی این روش ساده و حجم محاسباتی مطلوبی دارد. ما این روش خوشه بندی بر مبنای توابع کرنل را که الهام گرفته از روش متداول k-means و بر مبنای ماشین های بردار پشتیبان تک کلاسی (ocsvm) است به عنوان مرحله پیش تطبیق قبل از تکنیک های رایج تطبیق نظیر map و mllr در تطبیق گوینده با نظارت سریع مورد استفاده قرار می دهیم. در بخشی از کار الگوریتم های خوشه بندی مختلفی نظیر خوشه بندی های جنسیت، خوشه بندی k-means،soft k-means و روشی بر مبنای بردار های پشتیبان تک کلاسی جهت تطبیق مورد استفاده قرار گرفته اند و با روش پیشنهادی به دقتی در حدود %3 بهتر از مدل مبنا با دقت %37/90 (دقت مدل si) دست یافتیم. در بخش دیگری از این پروژه استفاده از روش های خوشه بندی ذکر شده به عنوان یک مرحله پیشین در تطبیق به روش های map و mllr مورد استفاده قرار گرفته است. در این حالت نیز به %5/6 بهبودی نسبت به مدل مبنا رسیدیم. در ادامه به جهت بررسی کارایی این روش در امر تطبیق، از چندین روش مختلف برای انتخاب hmm ها استفاده شده است. در بخش دیگری از کار به منظور مقایسه کارایی hmm و gmm در روش استفاده شده جهت امر خوشه بندی در این پروژه، به جای hmm های بکار رفته در مرحله پیش از خوشه بندی، از gmm استفاده شده است و نتایج بدست آمده مورد بررسی قرار گرفته است. تمامی آزمایش های انجام شده در این پروژه بر روی دادگان tidigits صورت گرفته و هیچگونه همپوشانی ای بین گوینده های آموزش و تست وجود ندارد. در انتها نتایج حاصل از تطبیق گوینده به روش eigenvoice و eigenvoice مقاوم آورده شده است که متأسفانه نسبت به مدل مبنا عملکرد ضعیفتری دارند.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واج­های گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآیی­ها، رتبه­بندی واج­ها صورت گرفته‌اند. جهت برآورد کارآیی واج­ها، از یک معیاری که به­صورت نسب « فاصلة بین­گوینده­ای» واج­ها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیده­ایم، استفاده شده است.­ آزمایش­ها و محاسبات لازم برای کلیه واج­های گفتار...

متن کامل

تطبیق گوینده در بازشناسی گفتار پیوسته براساس تخمین map مبتنی بر تبدیل mllr

روشهای مختلفی برای تطبیق گوینده در سیستمهای بازشناسی گفتار معرفی گردیده اند. در برخی روشها نظیر تخمین map تنها مدلهایی که داده آموزشی متناظرشان موجود باشد تازه سازی می شوند و برای بهبود قابل توجه دقت بازشناسی، داده آموزشی نسبتاً زیادی مورد نیاز است. در برخی دیگر نظیر mllr که تعدادی تبدیلات عمومی بر روی خوشه های مدلها اعمال می شود، برای دادگان کم آموزشی نتایج مطلوبی حاصل می شود، اما با افزایش داد...

متن کامل

جایگاه گوینده در اعتبار گفتار از دیدگاه احادیث

There are various traditions emphasizing the distinction between the person who speaks and his speech. This shows the importance of understanding and evaluating a speech by itself without considering the speaker. But there are other traditions that emphasize thorough knowledge of speakers so as not to accept everyone's speech. There is an attempt here to study and survey these two groups of tra...

متن کامل

بهبود سرعت شناسایی گوینده در سیستم های با تعداد گوینده بالا با استفاده از خوشه بندی سلسله مراتبی

شناسایی هویت مطمئن یک اصل اساسی برای شروع یک تراکنش تجاری می باشد. استفاده از بیومتریک ها می تواند باعث بالارفتن امنیت، سرعت و سادگی سیستم های شناسایی هویت شود. صدا به عنوان یک بیومتریک با دقت نسبتا بالا، سادگی استفاده و پیاده سازی بالا، هزینه کم و پذیرش بالای کاربر، یک گزینه مناسب برای این منظور می باشد که تا کنون به شکل گسترده ای مورد استفاده قرار گرفته است. یکی از مشکلات سیستم های شناسایی گو...

15 صفحه اول

مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای جمع شونده و نویز کانال

با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبست...

15 صفحه اول

تشخیص حالت احساسی از سیگنال گفتار در حالت مستقل از گوینده با استفاده از آنتروپی بسته موجک

در این مقاله آنتروپی بسته موجک برای بازشناسی احساسات از گفتار در حالت مستقل از گوینده پیشنهاد شده است. پس از پیش‌پردازش، بسته موجکِ db3 سطح 4 در هر فریم محاسبه شده است و آنتروپی شانون در گره‌های آن به عنوان ویژگی در نظر گرفته شده است. ضمناً ویژگی‌های نواییِ گفتار شامل فرکانس چهار فرمنت اول، جیتر یا دامنه تغییرات فرکانس گام و شیمر یا دامنه تغییرات انرژی به عنوان ویژگی‌های پرکاربرد در حوزه تشخیص احس...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023