نام پژوهشگر: حامد نریمانی زمان آبادی

بررسی افزونگی روش های کدگذاری بدون اتلاف بهینه و شبه بهینه منابع بدون حافظه با الفبای بزرگ
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده مهندسی برق و کامپیوتر 1392
  حامد نریمانی زمان آبادی   سید محمدعلی خسروی فرد

در این رساله به بررسی عملکرد کد هافمن و چند کد شبه بهینه شامل: «کد طول ثابت»، «کد یکنواخت»، «کد یکنواخت با منبع مرتب شده»، «کد m» و «کد شانون»، بر روی «منابع بدون حافظه با الفبای بزرگ» می پردازیم. در روش های کدگذاری «طول ثابت» و «یکنواخت» به همه ی منابعِ با اندازه الفبای یکسان، یک کد یکسان نسبت داده می شود. در طرف دیگر در کدگذاری های «یکنواخت با منبع مرتب شده» و «m»، ابتدا منابع براساس ترتیب احتمال وقوع سمبل ها مرتب می شوند و سپس به آن ها یک بردار کد معین نسبت داده می شود. اما در کدگذاری های «شانون» و «هافمن»، بردار کد در حالت کلی به مقادیر دقیق همه ی احتمال سمبل ها وابسته است. ثابت خواهیم کرد که برای کدهای مورد بررسی، واریانس افزونگی بر روی مجموعه منابع با اندازه الفبای معین، با افزایش اندازه الفبا به صفر میل می کند. در نتیجه برای اغلب منابع با الفبای بزرگ n، افزونگی هر یک از این کدها تقریباً برابر است با میانگین افزونگی آن کد بر روی مجموعه منابع با n سمبل. برای کدهای «هافمن» و «m»، میانگین افزونگی منابع n-سمبلی برابر است با افزونگی به ازاء «توزیع میانگین منابع یکنوای n-سمبلی» که این مقدار، برای اندازه الفبای بزرگ n، در بازه ی 0.02873 و 0.02877 بیت در نوسان است. همچنین، میانگین افزونگی کد «شانون» بر روی مجموعه منابع n سمبلی فرمول بندی می شود. ثابت خواهیم کرد که این مقدار یک دنباله ی واگرا برحسب n است که برای مقادیر بزرگ n در اطراف 0.5 بیت در نوسان است. برای کدهای «طول ثابت»، «یکنواخت» و «یکنواخت با منبع مرتب شده» نشان خواهیم داد که در حالت مجانبی، یعنی هنگامی که اندازه الفبا n بزرگ شود، میانگین افزونگی هر کد بر روی منابع n-سمبلی تابعی متناوب از جزء صحیح لگاریتم n است. برای هر یک از کدهای فوق، این تابع متناوب در بازه های، به ترتیب، [0.6099,1.6099)، [0.6099,0.6960) و [0.3254,0.6099) بیت در نوسان است. با مقایسه ی مقادیر فوق بین کدهای m و یکنواخت، مشاهده می شود که برای اغلب منابع با الفبای بزرگ دانستن یا ندانستنِ ترتیب احتمال وقوع سمبل ها باعث افزایش حدود 0.581 بیتی در افزونگی کدگذاری منبع می شود. یک نتیجه ی قابل توجه، که از مقایسه ی افزونگی کد بهینه با m به دست می آید، آن است که برای اغلب منابع با الفبای بزرگ کدگذاری «m» یک کدگذاری نزدیک به بهینه است در حالی که ساختار کدگذاریِ آن به مراتب ساده تر از کد بهینه است. به این معنی که کد بهینه ی یک منبع، تابعی از احتمال وقوعِ همه ی سمبل های منبع است اما در کدگذاری m به همه ی منابع مرتب شده، یک بردار کد یکسان نسبت داده می شود. بنابراین می توان گفت که برای اغلب منابع با الفبای بزرگ، دانستن ترتیب احتمال وقوع سمبل ها (و نه مقدار دقیق آن ها) برای رسیدن به یک کد منبع نزدیک به بهینه کافی است.