بازشناسی مقاوم گوینده بر اساس مدل gmm-ubm

پایان نامه
چکیده

بازشناسی گوینده به شناسایی فرد از روی سیگنال گفتار گفته می شود. در یک سیستم بازشناسی گوینده دو بخش اصلی مطرح است، بخش اول استخراج بردارهای بازنمایی مناسب و بخش دوم استفاده از یک مدل خوب که بتواند به بهترین نحو نشان دهنده گوینده متناظر با خودش باشد، که در زمینه شناسایی گوینده بردارهای بازنمایی mfcc و مدل gmm بسیار مرسوم و مورد توجه هستند. موضوع بسیار مهمی که در سال های اخیر مورد توجه محققان قرارگرفته است بحث مقاوم بودن یک سیستم بازشناسی گوینده و عملکرد خوب در محیط طبیعی می باشد. در یک سیستم بازشناسی با مدل gmm، نواحی همپوشانی گوسین ها مربوط به بردارهای بازنمایی مشترک بین افراد مختلف است، که خطای قابل ملاحظه ای را ایجاد می کند. در سال 2007 آقای سانیل با ارائه ی روشی برای حذف این نواحی توانست بهبود قابل ملاحظه-ای ایجاد کند ولی این روش به دلیل هزینه محاسباتی زیاد برای تعداد 8 گوینده اجرا شد. در این پایان نامه از gmm-ubm به دلیل حجم محاسبت کمتر و سرعت بالاتر استفاده شد. این مدل با ساخت یک مدل کلی برای همه ی افراد و سپس بروزرسانی کردن مدل برای تک تک افراد حجم محاسبات را کم کرده و قابلیت محاسبه ی سریع امتیازات را دارا می-باشد لذا باعث افزایش سرعت سیستم می شود. با بکارگیری gmm-ubm در روش مبتنی بر حذف نواحی همپوشانی ما توانستیم یک سیستم بازشناسی گوینده به ازای 70 گوینده تعلیم داده و بطور میانگین صحت شناسایی را به میزان1/1درصد برای دادگان تست با طول 5 ثانیه تا 2/4 درصد برای دادگان تست با طول 5 دقیقه نسبت به gmm-ubm افزایش دهیم.

منابع مشابه

بازشناسی زبان مبتنی بر اصلاح مدل gmm-ubm

شناسایی خودکار زبان گفتاری به تشخیص زبان از روی سیگنال گفتار گفته می شود. این سیستم ها اغلب با مقایسه امتیاز تعلق سیگنال گفتار به زبان های مختلف تصمیم گیری می کنند. در این تحقیق برای اصلاح روش gmm-ubm که از روش های به روز بازشناسی زبان است، روشی جدید مبتنی بر بردارهای ویژگی منتخب مطرح شد که در آن تنها تعدادی از بردارهای ویژگی گفتار که به صورت هم پوشان در تمامی زبان ها وجود دارد و موجب ایجاد خطا...

15 صفحه اول

A discriminative performance metric for GMM-UBM speaker identification

Gaussian mixture modeling with universal background model (GMM-UBM) is a widely used method for speaker identification, where the GMM model is used to characterize a specific speaker’s voice. The estimation of model parameters is generally performed based on the maximum likelihood (ML) or maximum a posteriori (MAP) criteria. In this way, interspeaker information that discriminates between diffe...

متن کامل

Geometric contamination for GMM/UBM speaker verification in reverberant environments

Reverberation generated by multi-path acoustic propagation in enclosures is one of the most critical issues for distant-speech speaker verification systems. While late arrivals can be treated as additive noise, early reflections critically affects the speech spectral properties that allow differentiating among speakers. Considering a standard GMM/UBM speaker verification system based on MFCC, a...

متن کامل

GMM-UBM based open-set online speaker diarization

In this paper, we present an open-set online speaker diarization system. The system is based on Gaussian mixture models (GMMs), which are used as speaker models. The system starts with just 3 such models (one each for both genders and one for non-speech) and creates models for individual speakers not till the speakers occur. As more and more speakers appear, more models are created. Our system ...

متن کامل

Parkinson's Disease Progression Assessment from Speech Using GMM-UBM

The Gaussian Mixture Model Universal Background Model (GMM-UBM) approach is used to assess the Parkinson’s disease (PD) progression per speaker. The disease progression is assessed individually per patient following a user modelingapproach. Voiced and unvoiced segments are extracted and grouped separately to train the models. Additionally, the Bhattacharyya distance is used to estimate the diff...

متن کامل

Speaker dependent activation keyword detector based on GMM-UBM

In this paper, we present a new method for isolated keyword detection that is meant to activate a personal device from standby state. Instead of using the common method for speech recognition such as Hidden Markov Model (HMM) or Dynamic Time Warping (DTW), we modify a GMM-UBM (Gaussian Mixture Model – Universal Background Model) scheme that is better known in speaker recognition field. Since on...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد

کلمات کلیدی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023