سید محمد مهدی سیدین

نام پژوهشگر: سید محمد مهدی سیدین

جداسازی تک گوشی گفتار بر پایهی مدل مارکوف پنهان

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر 1391
سید محمد مهدی سیدین مسعود گراوانچی زاده

روش های متعددی برای تفکیک گفتارهای موجود در یک ترکیب معرفی شده اند. در بین این روش ها، پیچیده ترین آن ها روش هایی هستند که به دنبال جداسازی منابع موجود در یک سیگنال ترکیب تک گوشی (ترکیبی که در آن یک میکروفون، سیگنال ها را ذخیره می کند) می باشند. این گونه روش ها را می توان به دو دسته ی، روش های مبتنی بر ویژگی و روش های مبتنی بر مدل، تقسیم بندی کرد. روش پیاده شده در این پایان نامه، در دسته ی دوم قرار دارد. در روشی که در اینجا بررسی می شود، برای هر منبع موجود در سیگنال مخلوط مشاهده شده، مدلی بدست می آید. با داشتن مدل تمام منابع موجود در این سیگنال، می توان عمل تفکیک منابع را با یافتن محتمل ترین نحوه ی ترکیب مدل ها انجام داد. در اینجا، ابتدا، با در اختیار داشتن تعدادی داده ی صوتی مربوط به هر یک از منابع، مدلی مبتنی بر مدل مارکوف پنهان (hmm) برای هر کدام از آن ها محاسبه می شود. برای این کار، در مرحله ی اول، یک مدل مخلوط گوسی (gmm) برای مجموعه ی دادگان هر منبع آموزش داده می شود و سپس، با اعمال gmm بدست آمده بر روی داده های آموزش هر منبع و محاسبه ی مولفه های متناظر با هر یک از بردارهای ویژگی، ماتریس گذار حالت بین مولفه های gmm استخراج می شود. هرکدام از مولفه های گوسی gmm (به عنوان توزیع احتمالی مشاهده در هر حالت)، به همراه ماتریس گذار حالت بدست آمده، hmm مورد نظر را تشکیل می دهند. نهایتاً، بر پایه ی منابع مشخص موجود در مخلوط و hmm های آموزش دیده ی آن ها، یک مدل مارکوف پنهان وابسته (factorial hmm; fhmm) توسط آن hmm ها برای سیگنال ترکیب، تشکیل داده می شود. به کمک این fhmm، بهترین رشته ی حالت (state sequence) هر کدام از مدل ها، که ترکیب آن ها به سیگنال ورودی نزدیک تر باشد، بدست می آید. همان طور که بیان شد، تابع توزیع احتمالی مشاهدات در مدل استفاده شده، یک توزیع تک گوسی بوده و از مدل مخلوط گوسی (gmm) برای هر حالت استفاده نشده است. همچنین، برای محاسبه ی سریع تر توزیع احتمالی مشاهدات، به شرط معلوم بودن یک ترکیب مشخص از حالت های دو مدل در یک زمان مشخص، تقریب log-max استفاده شده است. برای جست وجوی سریع تر بین ترکیبات مختلف حالات مدل ها (جهت یافتن محتمل ترین ترکیب حالات)، روشی موسوم به کوانتیزاسیون باندی (band quantization) بکار گرفته شده است. در نهایت، مقایسه ای بین روش های جداسازی مبتنی بر fhmm و gmm انجام می شود. نتایج ارزیابی های عینی برتری نسبی fhmm را نسبت به gmm، در جدا کردن منابعی که دارای مشخصه های یکسانی (مانند حالت جنسیت یکسان و یا گوینده یکسان) در ترکیب ها هستند، نشان می دهد. دلیل این امر آن است که، بر خلاف gmm، fhmm می تواند دینامیک زمانی سیگنال ها را که در hmm ها مدل شده است، در نظر بگیرد.