نام پژوهشگر: محمد احدی

شناسایی خودکار زبان گفتار با استفاده از روش های آماری
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1387
  علی ضیایی   محمد احدی

سیستم های شناسایی زبان بر دو گونه اند: سیستم هایی که از اطلاعات سطح بالای زبان مانند واج و کلمه برای شناسایی زبان استفاده می کنند و سیستم هایی که از اطلاعات سطح پایین زبان مثل زیرواج و یا ویژگی های طیفی گفتار استفاده می کنند. مشکل سیستم های با دقت بالا مانند سیستم های شناسایی زبان مبتنی بر واج که نیاز به استخراج واج دارند اینست که نیاز به دادگان آوانویسی شده برای آنها وجود دارد و با توجه به اینکه اینگونه دادگان برای همه زبان ها وجود ندارد، بنابراین این نوع سیستم ها به مشکل بر می خورند. ما در این پروژه سعی کرده ایم سیستم شناسایی زبانی طراحی کنیم که از ویژگی های سطح پایین زبانی مانند زیر واج ها و یا ویژگی های طیفی که بدون نظارت استخراج شده و نیاز به دادگان آوانویسی شده هم ندارند استفاده کند و دقتی بالاتر از سیستم های شناسایی زبان با پیچیدگی زیاد به ما بدهد. ما در این پایان نامه از یک کرنل دنباله ای جدید برای نگاشت خروجی مدل های زبانی سیستم شناسایی زبان مبتنی بر مدل های گوسی، به فضای جدیدی که زبان ها در آن فضا بیشترین جدایی پذیری را با هم دارند، استفاده کرده ایم. سپس این سیستم را با سیستم پایه gmm-lm که از مدل گوسی برای طبقه بندی کننده استفاده می کند، ترکیب کرده ایم.استفاده از کرنل پیشنهادی نسبت به کرنل دنباله ای glds به عنوان نگاشت دهنده خروجی های مدل های زبانی، باعث افزایش 2% راندمان سیستم gmm-lm در شناسایی زبان می گردد. همچنین سیستم ترکیبی ما که از ترکیب سیستم فوق و سیستم پایه gmm-lm تشکیل شده است، باعث افزایش 5% راندمان سیستم شناسایی زبان می گردد.

مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای جمع شونده و نویز کانال
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1387
  امیرحسین حاج احمدی   محمدمهدی همایون‏‎‎‏ پور

با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبستگی برای مقاوم سازی در مقابل نویزهای جمع شونده و کانال در بازشناسی گوینده بررسی شده است. همچنین جهت استفاده از روش ویژگی های مفقود در سیستم های بازشناسی گوینده یک مدل کلی ارایه گردیده است. در این پروژه همچنین برای افزایش کارایی روش ویژگی های مفقود و امکان استفاده از آن برای استخراج پیک های مقاوم تر از طیف دنباله خودهمبستگی، تغییراتی چه در تخمین ماسک و چه در بدست آوردن مدل بازسازی مناسب پیشنهاد شده است. استفاده از ماسک های مبتنی بر شبکه های عصبی که عمل تخمین ماسک را به کمک تخمین نسبت سیگنال به نویز محلی انجام می دهند و از قدرت تعمیم بالایی نیز برخوردار هستند و انتخاب مدل بازسازی مناسب با کمک فاصله وزن دار با وزن های حاصل از ماسک های نرم برای استفاده در سیستم های بازشناسی مبتنی بر بازسازی طیف نگار با روش ویژگی های مفقود، پیشنهاد و مورد آزمایش و بررسی قرار گرفته شده است. آزمایش های انجام شده در راستای مقاوم سازی سیستم های بازشناسی گوینده، بر روی دادگان فارسدات تلفنی انجام شده است. از نتایج آزمایش های اولیه مشخص شد که استفاده از انرژی طیفی سیگنال به عنوان یک ویژگی در سیستم های بازشناسی گوینده، مقاومت این سیستم ها را به میزان قابل توجهی کاهش می دهد. همچنین مشخص شد، پیک های طیف دنباله خودهمبستگی که در آنها از مشتق گیری طیف ِ توان استفاده شده است، نسبت به ویژگی های mfcc دارای مقاومت بیشتری درمقابل به نویزهای جمع شونده هستند. همچنین نتایج نشان دهنده مقاومت بالای پیک های طیف دنباله خودهمبستگی سیگنال گفتارِ استخراج شده از طیف نگار دنباله خودهمبستگی بازسازی شده با روش ویژگی های مفقود در مقابل نویزهای جمع شونده است. درنهایت برای سیستم های بازشناسی گوینده استفاده از روش پس پرداز mva را به برای مقاوم سازی بیشتر ویژگی های استخراج شده در حوزه کپسترال در مقابل نویزهای جمع شونده و کانال می توان پیشنهاد کرد. در این پروژه استفاده از روش ویژگی های مفقود با استفاده از تخمین ماسک به کمک شبکه های عصبی و انتخاب مدل بازسازی مناسب با استفاده از فاصله وزن دار، و نیز روش پس پردازش mva برای استفاده در سیستم های بازشناسی گفتار مقاوم در مقابل نویز نیز مورد آزمایش قرار گرفته اند. نتایج آزمایش های انجام شده جهت مقاوم سازی سیستم های بازشناسی گفتار بر روی دادگان aurora2 نشان می دهند که هم روش ویژگی های مفقود و هم روش پس پردازش mva از توانایی بالایی در مقاوم سازی سیستم های بازشناسی گفتار در مقابل نویزها برخوردار هستند. همچنین نتایج امیدوارکننده ای با استفاده از اعمال هر دو روش ویژگی های مفقود و روش پس پردازش mva بدست آمده است.

استفاده از تکنیک خوشه بندی گوینده در تطبیق گوینده در سیستم بازشناسی گفتار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1386
  اولدوز حضرتی یادکوری   محمد احدی

بطور کلی در بازشناسی گفتار، مدل وابسته به گوینده (sd) عملکرد بهتری نسبت به مدل ناوابسته به گوینده (si) در تشخیص گفتار یک گوینده خاص دارد. یکی از روش های عملی تر برای دستیابی به عملکردی نزدیک به سیستم sd استفاده از تکنیک های تطبیق گوینده است. خوشه بندی گوینده یکی از تکنیک های اصلی در تطبیق گوینده است. روش خوشه بندی می تواند به دلیل راحتی ترکیب با تکنیک های رایج تطبیق نظیر map و mllr مورد استفاده قرار بگیرد. در این پروژه، روشی مبتنی بر کرنل تنها در فاز خوشه بندی مورد استفاده قرار می گیرد. پیاده سازی این روش ساده و حجم محاسباتی مطلوبی دارد. ما این روش خوشه بندی بر مبنای توابع کرنل را که الهام گرفته از روش متداول k-means و بر مبنای ماشین های بردار پشتیبان تک کلاسی (ocsvm) است به عنوان مرحله پیش تطبیق قبل از تکنیک های رایج تطبیق نظیر map و mllr در تطبیق گوینده با نظارت سریع مورد استفاده قرار می دهیم. در بخشی از کار الگوریتم های خوشه بندی مختلفی نظیر خوشه بندی های جنسیت، خوشه بندی k-means،soft k-means و روشی بر مبنای بردار های پشتیبان تک کلاسی جهت تطبیق مورد استفاده قرار گرفته اند و با روش پیشنهادی به دقتی در حدود %3 بهتر از مدل مبنا با دقت %37/90 (دقت مدل si) دست یافتیم. در بخش دیگری از این پروژه استفاده از روش های خوشه بندی ذکر شده به عنوان یک مرحله پیشین در تطبیق به روش های map و mllr مورد استفاده قرار گرفته است. در این حالت نیز به %5/6 بهبودی نسبت به مدل مبنا رسیدیم. در ادامه به جهت بررسی کارایی این روش در امر تطبیق، از چندین روش مختلف برای انتخاب hmm ها استفاده شده است. در بخش دیگری از کار به منظور مقایسه کارایی hmm و gmm در روش استفاده شده جهت امر خوشه بندی در این پروژه، به جای hmm های بکار رفته در مرحله پیش از خوشه بندی، از gmm استفاده شده است و نتایج بدست آمده مورد بررسی قرار گرفته است. تمامی آزمایش های انجام شده در این پروژه بر روی دادگان tidigits صورت گرفته و هیچگونه همپوشانی ای بین گوینده های آموزش و تست وجود ندارد. در انتها نتایج حاصل از تطبیق گوینده به روش eigenvoice و eigenvoice مقاوم آورده شده است که متأسفانه نسبت به مدل مبنا عملکرد ضعیفتری دارند.

آشکارسازی فعالیت گفتاری در محیط های نویزی با استفاده از ترکیب چند ویژگی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1386
  اکرم سلیمانی   محمد احدی

در این پروژه آشکارسازی فعالیت گفتاری که در حوزه های مختلفی از پردازش گفتار کاربرد دارد، مطرح شده است. با توجه به ماهیت متفاوت گفتار و نویز تا به حال ویژگیهای مختلفی برای جداسازی این دو ارائه شده است که برخی از آنها در این پایان نامه مطرح گردیده است. از آنجا که ویژگیهای مختلف هر یک در نوع متفاوتی از نوع عملکرد بهتری دارند و با توجه به نوع نویز یک ویژگی بهتر از سایر ویژگیها محدوده های گفتار و نویز را تشخیص می دهد، ترکیب این ویژگیها می تواند برای آشکارسازی بهتر گفتار مفید واقع شود.

مدلسازی تنوعات تلفظی آوایی به منظور ایجاد واژگان پویای تطبیقی در سیستم بازشناسی گفتار پیوسته
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی 1387
  بهرام وزیرنژاد   فرشاد الماس گنج

در این رساله به ارائه روشهایی برای مدلسازی تلفظ در واژگان برای بهبود عملکرد سیستم بازشناسی گفتار پیوسته پرداختیم. تلفظ تحت تاثیر عوامل متعددی از جمله عوامل وابسته به گوینده و مستقل از گوینده می باشد. این عوامل می توانند موضعی و فرا موضعی باشند. بخشی از تحقیق حاضر به بررسی آماری میزان و نحوه تاثیر این عوامل از جمله نرخ بیان، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه روی تلفظ در گفتار پیوسته تخصیص یافته است. در بخشهای بعدی با در نظر داشتن این عوامل به طراحی و آموزش مدل های تلفظی پرداختیم. مدل های ترکیبی آماری بعنوان یک مدل با کارایی بالا در این رساله طراحی و معرفی گردیدند. این مدل ها ترکیبی از قواعد تلفظی و درخت های تصمیم تعمیم یافته می باشند. نام درخت های تصمیم تعمیم یافته ناظر به این واقعیت است که هر یک از این درخت های تصمیم برای گروهی از کلمات با ساختار هجایی مشابه طراحی و آموزش می یابند و از این طریق اطلاعات تلفظ روی این گروه از کلمات را برای آموزش خود استفاده می نمایند. در تحقیقات مشابه تا کنون هر درخت تصمیم برای یک کلمه واحد طراحی و آموزش داده می شد. این نکته باعث قابلیت منحصر به فرد این نوع طراحی در آموزش درخت ها با استفاده از دادگانی با حجم محدود است که با راهکار های قبلی هرگز امکان پذیر نبود. ضمنا برای هر کلمه جدید که در دادگان آموزش دیده نشده است نیازی به آموزش مدل جدید نیست و درخت های موجود قادرند گونه های تلفظی آن را تولید نمایند. قواعد تلفظی بعنوان دومین قطعه از مدل های ترکیبی نیز بطور ذاتی قادرند اطلاعات تلفظ وابسته به متن واجی را از دادگانی با حجم متوسط یاد گیرند. مدل های ترکیبی در سه نوع ارائه گردیدند. نوع اول از این مدل های موسوم به مدل های ترکیبی ایستا برای تولید گونه های تلفظی کلمات از ساختار هجایی کلمه، هویت واج ها در مواضع مختلف، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه و زمینه واجی برای تولید واژگان حاوی گونه های تلفظ بهره می برند. استفاده از واژگان حاصل از این مدل ها منجر به بهبودی معادل با 4/4% نسبت به واژگان مرجع در صحت بازشناسی گفتار شد. مدل های ترکیبی پویا علاوه بر این عوامل، نرخ صحبت را در تولید واژگان مورد نظر قرار می دادند. بهره گیری از این دسته از واژگان منجر به بهبودی معادل با 3/6% نسبت به واژگان مرجع در صحت بازشناسی گفتار پیوسته شد. در آخرین بخش از این رساله با توجه به اهمیت گوینده در بروز تنوعات تلفظی به ارائه قواعد تلفظی تطبیق یافته به گوینده در مدل های ترکیبی پویا پرداختیم و از این طریق مدل هایی را طراحی نمودیم که به نحو موثری ویژگی های گوینده را در تولید دسته های واژگانی حاوی تلفظ مورد استفاده قرار می دهند. با بکارگیری مدل های ترکیبی پویای تطبیقی در سیستم بازشناسی گفتار پیوسته بهبودی معادل با 1/8% تا 1/10% نسبت به واژگان مرجع در سیستم بازشناسی گفتار پیوسته مشاهده شد.

مقاوم سازی بازشناسی گفتار با اعمال پردازش زیرباندی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1387
  حجت اله یگانه   محمد احدی

در این پروژه مقاوم سازی بازشناسی گفتار در محیط های نویزی بر مبنای پردازش زیرباندی بررسی شده است. مقاوم سازی بازشناسی گفتار یکی از مسائل مهم در این حوزه می باشد که کار بر روی ان همچنان ادامه دارد. از روش های گوناگونی به منظور تحقق یافتن این مهم استفاده می شود و ایده های متنوعی نیز در مقالات و تحقیقات ارائه می گردند. عیب عمده اکثر روشهای پیشهاد شده پیچیدگی زیاد و سرعت کم الگوریتم های آن است. ما در این رساله تلاش نموده ایم به ارائه روش هایی بپردازیم که عیوب مذکور را در حد بسیار کمتری داشته باشند و در عین حال هدف ما را که همان افزایش دقت بازشناسی گفتار در محیط های نویزی است محقق سازند. از این رو در ابتدا با بررسی روند استخراج ویژگی های مطرح mfcc سعی نمودیم عیب این بردار ویژگی را برطرف نماییم. دلیل این امر آن است که بردار ویژگی mfcc دارای الگوریتم بسیار ساده و سریعی است و در محیط های عاری از نویز یا به اصطلاح تمیز از دقت بازشناسی خیلی خوبی برخوردار است.بنابراین اگر بتون الگوریتمی پیشنهاد نمود که ساختاری شبیه mfcc داشته باشد و در عین حال بردار ویژگی حاصل نسبت به نویز محیط مقاوم تر نشان دهد، این روش از امتیاز بالایی برخوردار می گردد. با دنبال کردن روند استخراج ویژگی mfcc به این مسئله پی می بریم که برای به دست آمدن هر کدام از مولفه های این بردار، تمام طیف یک فریم در محاسبه تاثیر دارد. این بدان معنی است که آلوده بودن نواحی خاصی از طیف به تمام بردار mfcc سرایت می کند و کارایی این بردار ویژگی را به شدت پایین می آورد. روند کلی ایده های پیشنهادی ما حول دو گام اصلی قابل بیان است. در ابتدا سعی بر آن داریم تا با فیلتر کردن سیگنال گفتار در حوزه زیرباندی میزان تاثیر نویز را کم کنیم. در ادامه و در گام دوم با اعمال وزن بر خروجی زیرباندهای حوزه مل میزان مشارکت زیرباندهای با کیفیت تر را در به دست آوردن ویژگی های پیشنهادی خود بیشتر نموده و از تاثیر زیرباندهای با کیفیت کمتر می کاهیم. نتایج آزمایش های ما نشان دادند که تا حد خیلی خوبی به اهداف اصلی خود رسیده ایم. الگوریتم های پیشنهادی ما در عین حالی که ساده هستند در محیط های نویزی بسیار مقاوم می باشند. مقایسه روشهای پیشنهادی با روش های مطرح دیگر بر این مطلب صحه می گذارد. روش های ارائه شده منجر به بهبود 32 درصد روش پایه شده است.

آنالیز مولفه مستقل و استفاده از آن برای بهبود بازشناسی گفتار فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1385
  ندا فرجی   محمد احدی

در این پروژه، استفاده از آنالیز مولفه مستقل خطی (lica) با توجه به قدرت آن در مدل کردن اطلاعات آماری مرتبه بالای گفتار مورد بررسی قرار گرفته است. ما از این روش برای تطبیق هرچه بیشتر بخش استخراج ویژگی با داده مورد پردازش استفاده کردیم.در بخشی از کار از آن برای تخمین فیلتربانک مبتنی بر داده استفاده کردیم و نشان دادیم که فیلتربانک بدست آمده از این روش قادر است ویژگیهایی را استخراج کند که مقاومت بیشتری دربرابر نویز دارند. ما آزمایشات خود را در این قسمت روی پایگاه داده اعداد متصل aurora2 و پایگاه داده گفتار پیوسته فارسی farsdat با دایره لغات متوسط انجام دادیم. نتایج روی پایگاه داده 2 aurora به ازای پارامترهای مختلف بدست آمد. بهترین نتیجه، نشان دهنده کاهش 9 درصدی خطای بازشناسی نسبت به سیستم پایه بوده است. با اینهمه، نتایج بازشناسی اولیه روی farsdat کاهش شدیدی نسبت به حالت پایه نشان داد که ناشی از نحوه انتخاب بردارهای پایه غالب در آن بود. ما برای بهبود نتایج، یک روش محلی برای انتخاب توابع پایه غالب ica ارائه کردیم که موجب کاهش 17 درصدی خطای بازشناسی نسبت به حالت پایه و درشرایط تست نویزی شد.در بخشی دیگری از پروژه با استفاده از آنالیز مولفه مستقل، یک فیلتر زمانی طیف طراحی شده که در طولهای کمتر نتایج بهتری را نسبت به سایر روشهای آماری می دهد و از اینرو می تواند حائز اهمیت واقع شود. نوآوری ما در این قسمت، تلفیق دو روش آنالیز مولفه اساسی (pca) و ica به دو صورت متفاوت می باشد که منجر به بهبود نتایج بازشناسی شده است.در ادامه به بهسازی گفتار با استفاده از یک روش مبتنی بر ica پرداخته شده است. روش بکاررفته در بهسازی، انقباض کدگذاری پراکنده (scs) نام دارد که عملکرد آن به پارامتری به نام سطح آستانه نرم بستگی دارد و در سیگنال به نویزهای پایین افت می کند. ما از یک تبدیل بهینه خطی برای کاهش سطح آستانه و متعاقب آن بهبود عملکرد scs در سیگنال به نویزهای پایین استفاده کردیم. علاوه بر این، روش بهسازی ارائه شده در نویزهای مختلف دارای راندمان قابل قبولی است.همچنین در این پروژه، ما روش pca-fx را که یک نوع روش آنالیز مولفه اساسی با سرپرستی است، برای بهینه کردن شکل فیلترهای مل بکاربردیم که البته بهبودی چندانی نسبت به pca نداشته است.درادامه کار می توان از مدلهای پیچیده تر، ica غیرخطی و مدل کانوالوی، که انطباق واقعیتری با پدیده های طبیعی دارند، استفاده کرد.

بهبود روش های متمایزسازی گفتار-موسیقی با استفاده از آنالیز تفکیک خطی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1387
  امید سجادی   محمد احدی

در تحقیقات کنونی برای پردازش و تحلیل محتوای سیگنال های صوتی، طبقه بندی و قطعه بندی صوت به مسئله مهمی تبدیل شده است. متمایزسازی گفتار-موسیقی بعنوان دو کلاس مهم از سیگنال های صوتی یکی از مهم ترین شاخه ها در این زمینه است که کاربردهای بسیاری از جمله بعنوان پیش پردازش سیستم های بازشناسی گفتار خودکار، شاخص گذاری و بازیابی بر اساس محتوای صوت و تصویر، بهبود کدینگ صوت و مدیریت آرشیوهای صوتی دارد. بنابراین در سال های اخیر که با رشد نمایی اینترنت و رسانه های جمعی و همچنین پیشرفت های بدست آمده در تکنولوژی شبکه و فشرده سازی، حجم عظیمی از اطلاعات صوتی در اختیار قرار گرفته است، افراد زیادی روش های مختلفی جهت طبقه بندی و قطعه بندی گفتار-موسیقی ارائه کرده اند. در این پایان نامه، ما ابتدا ویژگی هایی که قابلیت متمایزسازی گفتار-موسیقی را دارند، توصیف و استخراج می کنیم. سپس برای قطعه بندی، یک روش بدون نظارت با الهام از جستجوی پنجره ای و برپایه نرخ خطای آموزش ماشین های بردار پشتیبان معرفی و آن را با روش های متداول قطعه بندی صوت مقایسه می نماییم. همچنین برای طبقه بندی گفتار-موسیقی، یک روش بدون نظارت با الهام از الگوریتم خوشه بندی k-means و با استفاده از ماشین های بردار پشتیبان تک کلاسی ارائه و آن را با کارهای پیشین مقایسه می کنیم. در پایان تأثیر آنالیز مولفه های اساسی، آنالیز تفکیک خطی و یک روش نگاشت ویژگی غیرپارامتری را بر الگوریتم های طبقه بندی متداول با نظارت مانند ماشین های بردار پشتیبان، k نزدیکترین همسایگی و مدل های مخلوط گوسی بررسی می کنیم. آزمایش های انجام شده، نتایج امیدوار کننده ای را نشان می دهد.

ارائه روشی برای کاهش نویز از سیگنال با استفاده از تجزیه مقادیر منفرد
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1388
  بهاره نظری قادیکلایی   محمد احدی

در بررسی و کار با سیستم های پردازش سیگنال، اغلب مشکلی ناخواسته به نام نویز وجود دارد. نویز زمینه که در بیشتر موارد، آمیخته با انواع سیگنال ها به ویژه سیگنال های گفتار بوده و در کارایی سیستم های پردازش سیگنال و گفتار اختلال ایجاد می کند. منابع آکوسیتیکی بسیاری باعث تولید نویز می گردد. از آن جمله می توان به صدای مکالمه های زمینه، صدای تولید شده توسط سیستم تهویه و سیتم های دیگری که در اطراف از آن استفاده می شوند اشاره کرد. بنابراین پیداکردن روشی مناسب برای کاهش و حذف نویز، حفظ ساختار اصلی سیگنال می باشد. به طوری که سیگنال بهبود یافته، نسبت به سیگنال اصلی دچار تغییر شکل و جابجایی نشود. در این پایان نامه روشی برای بهبود کاهش نویز از سیگنال گفتار آلوده ارائه می گردد. اساس این روش بر پایه تجزیه مقادیر منفرد (الگوریتم های svd و gsvd) می باشد که در حوزه زمان عمل می کند. در این راستا با تعریف یک تابع هدف جدید و استفاده از الگوریتم ژنتیک به عنوان یک موتور جستجوی هوشمند، عملکرد الگوریتم های مذکور بهینه می گردند. الگوریتم ژنتیک با پیدا کردن مناسب ترین پارامترهای مورد نیاز الگوریتم های svd و gsvd، جهت بهینه سازی حذف نویز کمک می نماید. الگوریتم های نوشته شده، ga-svd و ga-gsvd در جهت بهینه سازی حذف نویز کمک می نماید. الگوریتم های نوشته شده ، ga-svd و ga-gsvd نام گذاری شده اند. در این پایان نامه ابتدا الگوریتم ga-svd روی سیگنال آلوده به نویز سفید اعمال می گردد. سیگنال های تمیز از دادگان aurora انتخاب می گردند. در طیف فرکانسی سیگنال های بهبود یافته، نویز تا حد زیادی کاهش می یابد. به عنوان نمونه، این الگوریتم میزان snr را در سیگنال های مذکور به طور میانگین 7/5 db و در بهترین حالت 9 db بهبود می بخشد. سپس این الگوریتم روی سیگنال های آلوده به نویز رنگی با اضافه کردن یک مرحله سفید کردن پیاده می شود. در این سیگنال ها مقدار snr به اندازه کافی بهبود نمی یابد. برای حل این مشکل الگوریتم ga-gsvd بر روی سیگنال های آلوده به نویز رنگی اعمال می گردد. این الگوریتم بدلیل نهفته بودن مرحله سفید کردن در درون خود، نسبت به روش قبل از دقت بالاتری برخوردار است و میزان snr را به طور میانگین 5/6 db و در بهترین حالت 5/7 db افزایش می دهد. نتایج بدست آمده نشان می دهد که الگوریتم های ارائه شده در بهبود کیفیت سیگنال آلوده و حذف نویز آن عملکرد مناسبی دارند.