بهبود ویژگی ها با استفاده از الگوریتم های تکاملی برای بازشناسی مقاوم گفتار

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - پژوهشکده برق و کامپیوتر
نویسنده محمدحسین حسینی امینی
استاد راهنما بابک ناصرشریف
سال انتشار 1392

چکیده

متداول ترین و کاراترین ویژگی ها برای بازشناسی گفتار، ضرایب فرکانسی مل کپستروم هستند. این ویژگی ها از طریق اعمال تبدیل کسینوسی گسسته بر لگاریتم انرژیخروجی های بانک فیلترِ مِل بدست می آیند. تبدیل کسینوسی گسسته در حالت کلی در فشرده سازی و ناهمبسته سازی دادهها به صورت نیمه بهینه عمل می کند. این موضوع یکی از علل کاهش عملکرد ویژگی های مل کپستروم در محیطی است که نویزهای جمع پذیر وجود دارند. در این رساله پیشنهاد می شود که با جایگزینی توابع تخمینی حاصل از برنامه نویسی ژنتیک به جای تبدیل کسینوسی گسسته بر ضعف های یاد شده غلبه شود. پنج تابع برازش مختلف برای برنامه ریزی ژنتیک در این مقاله مورد استفاده قرار گرفته است. تابع اول با هدف تعامد لگاریتم انرژی خروجی های بانک فیلترِ مِل، تابع دوم با هدف دوم قطری سازی ماتریس کواریانس آن ها ، و تابع سوم برای افزایش پراکندگی بین کلاسی و کاهش پراکندگی درون کلاسی (معیار فیشر) مد نظر قرار گرفته است. تابع چهارم از ترکیب دو تابع اول و سوم مذکور در فوق و تابع پنجم از ترکیب توابع دوم و سوم به دست می آید. نتایج بدست آمده بر روی پایگاه داده گفتار aurora 2 نشان می دهد که هر پنج تابع پیشنهادی سبب افزایش دقت بازشناسی نسبت به روش استاندارد استخراج ضرایب مل کپستروم و نیز استفاده از آنالیز مولفه های اصلی به همراه این ضرایب می گردد. علاوه بر اینکه در بین این پنج تابع برازندگی، تابع پنجم که قطری سازی ماتریس کوواریانس لگاریتم های انرژی زیرباندهای مل را توام با معیار فیشر در نظر می گیرد، موفق تر از بقیه عمل می کند. افزایش متوسط درصد بازشناسی بر روی سه مجموعه دادگان aurora 2 به میزان 20% نسبت به ضرایب مل کپستروم گواهی بر این ادعا است.

منابع مشابه

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

متن کامل

طراحی فیلترهای توری پراشی با استفاده از الگوریتم های تکاملی

چکیده: فیلترهای توری پراشی نوع جدیدی از فیلترهای نوری هستند که بر مبنای تشدیدی مود هدایتشده هستند و دارای کاربردهای روزافزونی در آشکارسازها، پردازشگرهای نوری، تزویجکنندهها و غیره هستند. هدف از طراحی این فیلترها انتخاب مناسب پارامترهای هندسی است. با انتخاب دقیق این پارامترها، فیلترهایی با بازدهی بالا در یک فرکانس رزونانس طراحی میشوند. طراحی این فیلترها با ویژگیهای طیفی دقیق موضوعی جالب و در...

متن کامل

بهبود نرخ بازشناسی گفتار در شرایط نویزی با استفاده از روش های غیرخطی تبدیل ویژگی

یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. و...

15 صفحه اول

بازشناسی مقاوم گفتار با استفاده از ویژگی‌ الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP

ویژگی‌ الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری‌ LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...

متن کامل

روش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی

بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد...

متن کامل

بهبود کیفیت گفتار مبتنی بر بهینه‌سازی ازدحام ذرات با استفاده از ویژگی های ماسک گذاری سیستم شنوائی انسان

چکیده: در این مقاله، روش‌های دوکاناله جدید زیرفضایی سیگنال با استفاده از تکنیک‌های حذف نویز ادراکی برای بهبود کیفیت سیگنال گفتار پیشنهاد شده‌اند. روش‌های پیشنهادی از مشخصات ماسک‌گذاری سیستم شنوایی انسان برای کاهش نویز باقیمانده قابلشنیدن بهره می‌گیرند. روش تجزیه به مقادیر منفرد کسری ادراکی، تکنیک بهینه‌سازی ذرات را برای تخمین نویز جمعی استفاده می‌کند. نتایج شبیه‌سازی دقیقی که توسط دو معیار مخ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - پژوهشکده برق و کامپیوتر

کلمات کلیدی

بازشناسی گفتار تبدیل گسسته کسینوسی ضرایب مل کپستروم برنامه نویسی ژنتیک الگوریتم تکاملی

میزبانی شده توسط پلتفرم ابری doprax.com