نام پژوهشگر: سیدحسن نبوی کریزی

انتخاب ویژگی برای بازشناسی ارقام دستنویس فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند 1389
  نجمه قنبری   سید محمد رضوی

بازشناسی ارقام دستنویس فارسی یکی از مسائل مهم درحوزه بازشناسی الگو می باشد. تحقیقات در این زمینه چندین دهه است که آغاز شده و هنوز هم در حال تحول می باشد. یکی از مواردی که اخیرا در بازشناسی الگو بسیارمورد توجه قرار گرفته، انتخاب ویژگی است. با پیدا کردن بهترین گروه ویژگی ها از میان کل ویژگی هایی که استخراج می شوند، می توان علاوه بر کاهش تعداد ویژگی ها و هزینه های محاسباتی، نرخ بازشناسی را به میزان قابل توجهی بهبود بخشید. این تحقیق به مساله انتخاب ویژگی در بازشناسی ارقام دستنویس فارسی پرداخته است. در این پایان نامه از دو طبقه بندی کننده برای بازشناسی ارقام دستنویس فارسی استفاده شده است. این دو طبقه بندی کننده، طبقه بندی کننده شبکه عصبی چهار لایه پرسپترون و طبقه بندی کننده فازی می باشند. با بررسی تحقیقات انجام شده در زمینه بازشناسی ارقام، از ویژگی های زونینگ،گشتاور زرنیکی و مکان مشخصه برای آزمایش و مقایسه دو الگوریتم بازشناسی استفاده شده است. اما هدف اصلی که در این پایان نامه به آن پرداخته شد، بهبود سیستم بازشناسی ارقام دستنویس فارسی با انتخاب ویژگی های بهینه از میان کل ویژگی ها بود. برای انتخاب ویژگی های بهینه از الگوریتم های مبتنی بر جمعیت استفاده کردیم. این الگوریتم ها، الگوریتم جستجوی گرانشی باینری (bgsa)، الگوریتم ژنتیک باینری (bga) و الگوریتم بهینه سازی جمعیت ذرات باینری (bpso)می باشند که در این میان الگوریتم جستجوی گرانشی باینری (bgsa) از همه جدیدتر است. تابع برازندگی در این الگوریتم ها تعداد خطاهای طبقه بندی کننده می باشد و هدف ما مینیمم کردن این مقدار است. با انتخاب ویژگی های بهینه از میان کل ویژگی ها هم تعداد ویژگی ها و هزینه های محاسباتی کاهش یافت و هم نرخ بازشناسی بهبود قابل ملاحظه ای پیدا کرد. همچنین در این پایان نامه از نسخه حقیقی (real) الگوریتم بهینه سازی جمعیت ذرات (rpso) و الگوریتم جستجوی گرانشی (rgsa) در روش دیگری به منظور افزایش نرخ بازشناسی استفاده شده است. در این روش به جای انتخاب بعضی از ویژگی ها، به هر یک از آنها یک وزن به گونه ای اختصاص داده می شود که نرخ بازشناسی بهبود یابد. روش های کاهش ابعاد ویژگی مبتنی بر استخراج ویژگی نیز یکی دیگر از روش های کاهش ابعاد ویژگی ها می باشند. از این رو در این پایان نامه نیز از بعضی از این روش ها به منظور کاهش تعداد ویژگی ها استفاده شده است. از میان این روش ها دو روش آنالیز مولفه های اصلی(pca) و تبدیل موجک گسسته(dwt) را به کار بردیم. البته در استفاده از این دو روش به نرخ بازشناسی بالاتری نرسیدیم، اما با استفاده از تعداد ویژگی ها و زمان پردازش کمتر توانستیم در مورد pca تقریبا همان نرخ بازشناسی قبلی را حفظ کنیم. در مورد dwt نرخ بازشناسی کمی خراب شد و نتایج نشان داد که pca روش بهتری از میان این دو روش است. دیتابیسی که در این پایان نامه از آن استفاده شد، دیتابیس هدی می باشد. این دیتابیس60،000 نمونه آموزش، 20،000نمونه آزمایش و 22،352 تا هم ارقام باقیمانده دارد. از نمونه های آموزش برای آموزش طبقه بندی کننده، از نمونه های آزمایش برای آزمایش طبقه بندی کننده و از ارقام باقیمانده در الگوریتم های مبتنی بر جمعیت استفاده شد. نتایج مربوط به این پایان نامه که در فصل چهارم گزارش شده است بدون هیچ گونه عملیات پیش پردازشی و یا پس پردازشی می باشد، لذا این نتایج برای بازشناسی ارقام دستنویس فارسی قابل قبول می باشد.