نام پژوهشگر: ایمان رضاییان

پیاده سازی و بهبود عملکرد کد کننده های با نرخ بیت پایین و بسیار پایین
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1387
  ایمان رضاییان   محمدمهدی همایونپور

در این پروژه طراحی و پیاده سازی سیستم کد کننده گفتار با نرخ بیت بسیار پایین انجام گرفته است. دو رویکرد متفاوت در طراحی و پیاده سازی سیستم کد کننده گفتار بکار گرفته شده است. اولین رویکرد استفاده از سیستم کد کننده melp استاندارد با نرخ بیت 200 بیت بر ثانیه به عنوان سیستم کد کننده پایه و سپس از راهکارهایی برای کاهش نرخ بیت ارسالی به میزان نزدیک به یک چهارم میزان استاندارد آن می باشد. از جمله این راهکارها استفاده از مفهوم ابرفریم برای انجام چندسازی ماتریسی چند مرحله ای و نیز استفاده از ضرایب باقیمانده بجای ضرایب اصلی مورد استفاده و نیز استفاده از تخمین آماری برای کاهش برخی بیتهای کم استفاده می باشد. با استفاده از این اصلاحات نرخ بیت ارسالی از 2400 بیت بر ثانیه در حالت استاندارد به حدود 620 بیت بر ثانیه کاهش یافت. همچنین در تست mos انجام شده بر روی برخی جملات سنتز شده از دادگان گفتاری فارس دات مقدار 2/3 و برای melp استاندارد مقدار ¾ حاصل گردید. همچنین نتایج تست drt برای قابل فهم بودن همخوانها میزان 2/83% برای سیستم melp کاهش نرخ داده شده و برای melp استاندارد میزان 7/95% بدست آمد. وجود کیفیت بهتر در melpاستاندارد به علت 4 برابر بودن نرخ بیت ارسالی امری طبیعی می باشد. از سوی دیگر کیفیت صدای تولیدی در melp با نرخ بیت 620 بیت بر ثانیه با توجه به کاهش 400% نرخ بیت ارسالی مناسب و قابل قبول می باشد. رویکرد دوم استفاده از سیستم کد کننده آرایی بر مبنای شناسایی و سنتز رایج و تلفیق برخی از ایده های موجوداستفاده شد. در سیستم کد کنندهmelp برای بالا بردن کیفیت سیگنال گفتار تولیدی می باشد. از جمله این راهکارها استفاده از سیگنال تحریک ترکیبی بجای سیگنال ساده مورد استفاده و همچنین استفاده از یک فیلتر ثانویه برای بهبود کیفیت گفتار تولیدی می باشد. در سیستم کد کننده آوای موجود به جای استفاده از سیگنال تحریک پالس یا نویز برای حالتهای واکدار و بیواک از یک سیگنال تحریک ترکیبی مشابه آنجه در سیستم ..مورد استفاده قرار گرفته است. بهره گرفته شده است این عمل باعث می شود که سیگنال تحریک هر فریم تا حد زیادی به سیگنال تحریک اصلی نزدیک شده و کیفیت مطلوبتری را بدست دهد. همچنین استفاده از فیلتر ثانویه برای تقویت فرمتهای گفتار و نیز استفاده از اطلاعات گوینده برای ایجاد تطبیق گفتار تولیدی یا گتفار اصلی گوینده باعث بهبود کیفت گفتار تولیدی می گردد. سیستم کد کننده آرایی حاصل نرخ بیت ارسال در حدود 400 بیت بر ثانیه خواهد داشت که در صورتی که از تطبیق گوینده نیز استفاده شود. میزان نرخ بیت به 50 بیت بر ثانیه افزایش می یابد. در تست انجام شده بر روی سیستم کد کننده آرایی در تست mos مقدار 1/3 حاصل گردید. همچنین در تستdrt نیز با توجه به اصلاحات اعمال شده مقدار در صد شناسایی همخوانها برابر 6/81% حاصل گردید.