ارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی
  • نویسنده ایمان اسمعیلی
  • استاد راهنما منصور ولی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1389
چکیده

سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازشناسی آوا های گفتار فارسی طراحی شده است. به این ترتیب که بردارهای بازنمایی لگاریتم انرژی بانکهای فیلتر (lfbe) از سیگنال گفتار تلفنی و میکروفنی استخراج شده و به صورت توأمان به یک شبکه عصبی دو سویه تعلیم داده می شوند. در طی فرایند آموزش، از دانش آوایی نهفته در لایه مخفی شبکه استفاده شده، وزنهای شبکه در جهت افزایش صحت بازشناسی آوا اصلاح می شوند. سپس توسط همین شبکه کلیه بردارهای بازنمایی گفتار تلفنی و میکروفنی با چند دور گردش در شبکه اصلاح می شوند. فرآیند فوق، برای اصلاح مجدد بردارهای بازنمایی گفتار تلفنی و میکروفنی از روی بردارهای اصلاح شده قبلی، توسط شبکه عصبی دوسویه تکرار شده و آنها را بردارهای بازنمایی اصلاح شده دو مرحله ای می نامیم. سپس برای ارزیابی کارآیی شبکه دوسویه در اصلاح بردارهای بازنمایی، سه سری از مدلهای مخفی مارکف (hmm) برای بازشناسی آواها تعلیم داده می شوند. سری اول مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح نشده که آنها را مدلهای مرجع می نامیم، سری دوم مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح شده یک مرحله ای و سری سوم مدلهای تعلیم داده شده بر روی برداهای بازنمایی اصلاح شده دو مرحله ای هستند. با اعمال تبدیل کسینوسی گسسته بر روی بردارهای بازنمایی lfbe، بردارهای بازنمایی mfcc نظیر آنها بدست می آیند. صحت بازشناسی آوای گفتار میکروفنی با بردارهای اصلاح شده یک مرحله ای lfbe و mfcc به ترتیب 4 و 4/3 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 3/5 و 7/4 درصد نسبت به مدل مرجع افزایش می یابد و درصد بازشناسی گفتار تلفنی با بردارهای بازنمایی اصلاح شده یک مرحله ای lfbe و mfcc 1/7 و 1/6 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 2/8 و 3/9 درصد نسبت به مدل مرجع افزایش می یابد. به منظور محک زدن شبکه در شرایط عدم انطباق، مدلهای آموزش دیده با بردارهای بازنمایی میکروفنی توسط بردارهای بازنمایی تلفنی ارزیابی شده اند. در این شرایط، صحت بازشناسی مدل های تعلیم یافته توسط بردارهای بازنمایی میکروفنی که توسط بردارهای بازنمایی تلفنی اصلاح شده یک مرحله ای و دو مرحله ای ارزیابی شده اند به ترتیب 3/22 درصد و 6/26 درصد نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده افزایش می یابد. در ادامه روش اصلاح بردارهای بازنمایی مبتنی بر شبکه عصبی دوسویه با روشهای معمول تطبیق مدل (mllr, map وmllr+map) ترکیب می شوند. صحت بازشناسی ترکیب بردارهای اصلاح شده با تکنیکهای map, mllr و mllr + map در مدلهای hmm تعلیم داده شده با برداربازنمایی اصلاح شده دو مرحله ای به ترتیب 7/37 درصد، 6/39 درصد و 2/40 نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده، افزایش می یابد. نتایج به خوبی نشان می دهد که فرضیه ما مبنی بر توانایی شبکه عصبی در اصلاح بردارهای بازنمایی میکروفنی و تلفنی و موثر بودن ترکیب آن با روشهای تطبیق مدل صحیح است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بررسی اثرات خطوط تلفنی بر روی سیگنال صوتی و جبران اثرات نویز تلفنی بر سیستم بازشناسی گفتار فارسی

شرایط محیطی دریافت صوت از جمله محدودیت پهنای باند در کانال انتقال استفاده از وسایل با کیفیت پایین و اثر میکروفن بعنوان نویز کانوالو شونده و همچنین اثرات جریان هوا و گفتگوهای زمینه و .... بعنوان نویز جمع شونده باعث افت آشکار در کارایی سیستم های بازشناسی گفتار می شود. هدف از روشهای مقاوم سازی در برابر نویز کم کردن عدم تطابق بین توزیع بردارهای ویژگی در تشخیص دهنده و داده ا آزمون و بالابردن کارایی ...

15 صفحه اول

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

متن کامل

بازشناسی گوینده مستقل از متن براساس گفتار تلفنی توسط شبکه های عصبی

در این پایان نامه سیستمی به منظور بازشناسی هویت گوینده مستقل از متن براساس گفتار تلفنی و به کمک شبکه های عصبی طراحی و پیاده سازی شده است . جهت این کار از دو دادگان گفتار زبان فارسی farsdat و tfarsdat استفاده شده است .

15 صفحه اول

بررسی موردی کاهش آوایی در ارقام تلفنی فارسی .زهرا محمودزاده/محمد بحرانی

  بررسی موردی کاهش آوایی در ارقام تلفنی فارسی     زهرا محمودزاده [1]   محمد بحرانی [2]     تاریخ دریافت: 15/6/90   تاریخ تصویب: 19/4/91     چکیده   کاهش از جمله فرایندهای آوایی است که برای سیستم‌های بازشناسی گفتار یک چالش محسوب می‌شود. ازجمله این موارد، کاهش ارقام تلفنی مانند "دو-نه"، "هفت-هشت" و "سه-صفر" است. تجزیه و تحلیل آوایی سیگنال‌های تلفنی /sefr/-/se/ نشان م...

متن کامل

بازشناسی مقاوم گفتار تلفنی فارسی مبتنی بر روش سری های تیلور برداری

برای مقاوم سازی سیستم بازشناسی گفتار در برابر عوامل مزاحم محیطی (نویز جمع شونده، اثر اعوجاج کانال انتقال و نویزهای گذرا) سه ایده کلی وجود دارد: 1- استخراج وی‍ژگی های مقاوم(robust feature extraction) 2- بهبود کیفیت بردارهای بازنمایی (feature enhancement) 3- اصلاح مدل بازشناسی صوتی (acoustic model compensation) در ایده اول سعی می شود تا از ویژگی ها و پارمترهایی از سیگنال گفتار برای ساخت بر...

15 صفحه اول

آمارگیری‌های تلفنی

آمارگیری‌های تلفنی از سالیان بسیار دور در کشورهای توسعه‌یافته متداول است، اما این روش در کشورهای در حال توسعه به‌علت پایین بودن پوشش تلفن رواج نیافته است، هرچند در سال‌های اخیر، در این کشورها با افزایش پوشش تلفن، از مصاحبه‌ی تلفنی به‌عنوان یک روش جمع آوری داده استفاده می‌شود. در آمارگیری‌های تلفنی، واحدهای نمونه‌گیری از چارچوب‌های مختلف شماره‌ی تلفن انتخاب می‌شوند لذا خطاهای آمارگیری نظیر خطاها...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023