مسعود گراوانچی‌زاده

نام پژوهشگر: مسعود گراوانچی‌زاده

جداسازی تک گوشی گفتار بر پایهی مدل مارکوف پنهان

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر 1391
سید محمد مهدی سیدین مسعود گراوانچی زاده

روش های متعددی برای تفکیک گفتارهای موجود در یک ترکیب معرفی شده اند. در بین این روش ها، پیچیده ترین آن ها روش هایی هستند که به دنبال جداسازی منابع موجود در یک سیگنال ترکیب تک گوشی (ترکیبی که در آن یک میکروفون، سیگنال ها را ذخیره می کند) می باشند. این گونه روش ها را می توان به دو دسته ی، روش های مبتنی بر ویژگی و روش های مبتنی بر مدل، تقسیم بندی کرد. روش پیاده شده در این پایان نامه، در دسته ی دوم قرار دارد. در روشی که در اینجا بررسی می شود، برای هر منبع موجود در سیگنال مخلوط مشاهده شده، مدلی بدست می آید. با داشتن مدل تمام منابع موجود در این سیگنال، می توان عمل تفکیک منابع را با یافتن محتمل ترین نحوه ی ترکیب مدل ها انجام داد. در اینجا، ابتدا، با در اختیار داشتن تعدادی داده ی صوتی مربوط به هر یک از منابع، مدلی مبتنی بر مدل مارکوف پنهان (hmm) برای هر کدام از آن ها محاسبه می شود. برای این کار، در مرحله ی اول، یک مدل مخلوط گوسی (gmm) برای مجموعه ی دادگان هر منبع آموزش داده می شود و سپس، با اعمال gmm بدست آمده بر روی داده های آموزش هر منبع و محاسبه ی مولفه های متناظر با هر یک از بردارهای ویژگی، ماتریس گذار حالت بین مولفه های gmm استخراج می شود. هرکدام از مولفه های گوسی gmm (به عنوان توزیع احتمالی مشاهده در هر حالت)، به همراه ماتریس گذار حالت بدست آمده، hmm مورد نظر را تشکیل می دهند. نهایتاً، بر پایه ی منابع مشخص موجود در مخلوط و hmm های آموزش دیده ی آن ها، یک مدل مارکوف پنهان وابسته (factorial hmm; fhmm) توسط آن hmm ها برای سیگنال ترکیب، تشکیل داده می شود. به کمک این fhmm، بهترین رشته ی حالت (state sequence) هر کدام از مدل ها، که ترکیب آن ها به سیگنال ورودی نزدیک تر باشد، بدست می آید. همان طور که بیان شد، تابع توزیع احتمالی مشاهدات در مدل استفاده شده، یک توزیع تک گوسی بوده و از مدل مخلوط گوسی (gmm) برای هر حالت استفاده نشده است. همچنین، برای محاسبه ی سریع تر توزیع احتمالی مشاهدات، به شرط معلوم بودن یک ترکیب مشخص از حالت های دو مدل در یک زمان مشخص، تقریب log-max استفاده شده است. برای جست وجوی سریع تر بین ترکیبات مختلف حالات مدل ها (جهت یافتن محتمل ترین ترکیب حالات)، روشی موسوم به کوانتیزاسیون باندی (band quantization) بکار گرفته شده است. در نهایت، مقایسه ای بین روش های جداسازی مبتنی بر fhmm و gmm انجام می شود. نتایج ارزیابی های عینی برتری نسبی fhmm را نسبت به gmm، در جدا کردن منابعی که دارای مشخصه های یکسانی (مانند حالت جنسیت یکسان و یا گوینده یکسان) در ترکیب ها هستند، نشان می دهد. دلیل این امر آن است که، بر خلاف gmm، fhmm می تواند دینامیک زمانی سیگنال ها را که در hmm ها مدل شده است، در نظر بگیرد.

بررسی ویژگی های مقاوم برگرفته از سیستم شنوایی در تصدیق مستقل از متن گوینده برای محیط های واقعی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده برق و کامپیوتر 1393
محمد غلامی هارونیه مسعود گراوانچی زاده

سیگنال گفتار یکی از واسط های ارتباطی میان انسان هاست که انواع مختلفی از اطلاعات را در خود دارد. بسته به نوع این اطلاعات کاربردهای مختلفی برای آن بوجود آمده است، که از آن جمله میتوان به تشخیص گوینده، گفتار، احساس، لهجه و زبان اشاره کرد. یکی از وظایف سیستم های تشخیص گوینده ، تصدیق هویت کاربر می باشد که هدف آن تایید یا رد گوینده مدعی به عنوان فرد مورد نظر سیستم است. اگر محتوای صحبت شخص گوینده در تصدیق، مورد توجه نباشد عمل تشخیص مستقل از متن صورت می گیرد، که به دلیل کارایی بالا و صرف زمان و هزیته کمتر نسبت به حالت وابسته به متن، بیشتر در کاربردهای عملی مورد استفاده قرار گرفته است. استخراج ویژگی، مدل سازی و تطبیق الگو سه بخش مهم یک سیستم تصدیق هویت گوینده مستقل از متن را تشکیل می دهند. در این میان، بلوک استخراج ویژگی به دلیل تنوع مدل سازی های موجود از سیستم شنوایی و همچنین، روش های مختلف کاهش اثر اعوجاجِ در محیط های واقعی، از اهمیت بالایی در امرِ کاهش خطای چنین سیستم هایی برخوردار است. از این رو در این پایان نامه، تحقیق و مطالعه بر روی تعمیم ویژگی های الگوریتم های متداول استخراج ویژگی است. نتایج این مطالعه معرفی سه ویژگی جدید به نامهای ضرایب کپسترال نرمالیزه شده توان مبتنی بر طیف چند پنجرهای (multitaper-pncc)، ضرایب کپسترال نرمالیزه شده توان اصلاح شده (mpncc)، و ضرایب کپسترال نرمالیزه شده مبتنی بر تبدیل شنوایی (cfpncc) پیشنهاد گردیده است. ویژگی پیشنهادی اول که multitaper pncc نام دارد، از تغییر واحد تبدیل فوریه زمان کوتاه در الگوریتم استخراج pncc به تخمین طیف چندپنجره ای بدست می آید. ویژگی پیشنهادی دوم با عنوان mpncc علاوه بر بهره گیری از این تخمین، با اعمال فیلتر پیش تاکید در هر فریم از سیگنال گفتار به استفاده توام از اطلاعات فرکانس های بالا و پایین می پردازد. عنوان آخرین الگوریتم پیشنهادی، cfpncc است که با تغییر فیلتربانک گاماتون به (فیلتربانک) تبدیل شنوایی ارائه شده توسط li و همکاران به دست می آید. به طور معمول بازده سیستمهای تصدیق هویت که بر اساس داده های تمیز آموزش داده می شوند، به هنگام بکارگیری در شرایط نویزی، به طور قابل توجهی کاهش می یابد. ویژگی های پیشنهادی، در چنین شرایطی (شرایط عدم انطباق آموزش و تست)، مقاومت زیادی را از خود نشان می دهند. همانگونه که در نتایج شبیه سازی های انجام شده در دو سیستم پرکاربرد مبتنی بر مدل مخلوط گوسی و ivector نشان داده شده است، ضرایب پیشنهادی multitaper pncc و mpncc در نویزهای غیر ایستان، و cfpncc در حضور نویز ایستان (برای مثال، سفید) نرخ خطای کمتری را نسبت به سایر ویژگی های متداول کارایی بالاتری را دارا هستند.

۱۵ صفحه ی اول