باقر باباعلی

ارائه یک ساختار جدید وابسته به بافت برای بازشناسی گفتار پیوسته

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده فنی 1393
محمد احمدی باقر باباعلی

این پژوهش، کوششی است برای ارائه یک ساختار وابسته به بافت برای بازشناسی گفتار پیوسته. مدل سازی مستقل از بافت، اثر واج های پیرامون را بر تلفظ هر واج، نادیده می گیرد و به همین دلیل، برای مدل سازی هر واج، همه نمونه های آموزشی مربوط به آن واج را در نظر می گیرد. در نظر گرفتن اثر بافت در مدل سازی، می تواند خطای بازشناسی را تا حد زیادی کاهش دهد. این پایان نامه با در نظر گرفتن واحد آوایی سه واجی، واج های پیشین و پسین هر واج را نیز در مدل سازی دخالت می دهد. به این صورت که سه واجی های مشابه با هم را از طریق الگوریتم خوشه بندی k-means تشخیص داده، یعنی سه واجی های مشابه را با هم در یک خوشه قرار می دهد. این کار موجب می شود که تنها نمونه هایی از یک واج، با هم آموزش داده شوند که بافت مشابهی داشته باشند. مهم ترین مشکلی که برای خوشه بندی وجود دارد، ناهمسانی ابعاد داده ها (ویژگی های مربوط به هر واج) است. برای همسان سازی ابعاد داده ها، از سه روش dtw ، تبدیل فوریه و pca استفاده شد. مشاهده شد که روش های تبدیل فوریه و نیز pca هم از نظر سرعت و هم از نظر دقت، بهتر از dtw عمل می کنند. همچنین در مقایسه دو روش تبدیل فوریه و pca، روش تبدیل فوریه موفق تر عمل کرد. پس از خوشه بندی، خوشه هایی که داده های آموزشی کمی داشتند، با یکدیگر ادغام گردیدند و نیز واج هایی که داده های آموزشی زیادی داشتند، به عنوان سه واجی های ویژه، در یک خوشه مستقل قرار گرفتند. در نهایت، مدل نهایی وابسته به بافت ارائه شده، که از روش تبدیل فوریه برای همسان سازی ابعاد استفاده می کند و از روش k-means، هر واج را ابتدا به سه خوشه تقسیم می کند و نیز پس از إعمال پس پردازش های یادشده، نرخ خطای واجی را از 34.7 (که مربوط به حالت مستقل از بافت بود) به 30.55 کاهش داد. بستر انجام آزمایش ها، محیط kaldi بوده است. نرخ خطای واجی روش پیش فرض kaldi در مرحله سه واجی، 30.98 است که نسبت به روش پیشنهادی، 0.43 درصد بیشتر است.

۱۵ صفحه ی اول

ارائه روشی جدید برای مدل زبانی تطبیقی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده فنی 1393
علی حیدری روح الله دیانت

در این پایان نامه روشی برای تطبیق مدل زبانی ارائه شده است. این روش، برمبنای ترکیب الگوریتم کاهش بعد locally linear embedding و مدل زبانی n-gram عمل میکند. الگوریتم locally linear embedding در کاهش ابعاد ساختار داده اصلی را حفظ مینماید. لذا انتظار داریم ساختار کلی ماتریس سند-کلمه در این کاهش بعد دچار خدشه زیاد نگردد. الگوریتم ارائه شده، با استفاده از زبان c++ و بهره گیری از توابع موجود در ابزارهای mlpack، armadillo و irstlm پیاده‏سازی گردید. نتایج پیاده‏سازی بهبود حدود 40 درصدی نسبت به n-gram متعارف را نشان میدهد.

۱۵ صفحه ی اول

استخراج ویژگی های مقاوم از سیگنال گفتار

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده مهندسی 1393
مرتضی علی احمدی روح الله دیانت

در این پایان‎نامه دو روش استخراج ویژگی جدید که برای بازشناسی گفتار مفید است، ارائه شده است. ایده اصلی این پایان‎نامه، ارائه یک ساختار منعطف برای بانک فیلتر می‎باشد که به داده‎های آموزشی وابسته است. درحالی‏که سایر روش‎های استخراج ویژگی نظیر mfcc، ساختار بانک فیلتر ثابت و غیرمنعطفی را ارائه می‎دهند. برای پیاده‎سازی هر دو ایده، ابتدا، تعدادی فیلتر یکسان در نظر گرفته می‏شود. سپس، در روش اول، برمبنای حل یک معادله دیوفانتی و در روش دوم، برمبنای چند معیار مهم مانند نرخ ادغام (mr) و اصلاح فیلتر مبتنی‎بر فرمنت (fbfm)، تعدادی از فیلترها با یکدیگر ادغام شده تا ساختار بانک فیلتر نهایی را به‏وجود آورند. هر دو روش پیشنهادی با استفاده از ابزار kaldi پیاده‏سازی شدند و کارایی آن‎ها روی پایگاه‎داده معروف timit مورد ارزیابی قرار گرفت. نتایج به‎دست آمده نشان می‎دهد که روش اول حدود %9/0 و روش دوم، حداقل 1% در مقایسه با الگوریتم استخراج ویژگی mfcc، بهبود کارایی دارد.

نام پژوهشگر: باقر باباعلی