زینب فرهمندپور

نام پژوهشگر: زینب فرهمندپور

طراحی و پیاده سازی یک سیستم هوشمند تشخیص هویت بر اساس سبک نوشتاری فارسی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی 1390
زینب فرهمندپور هومان نیک مهر

تشخیص هویت نویسنده، یک مساله ی سبک شناسی است که سعی می کند یک متن را که نویسنده ی آن ‏ناشناس است، به نویسنده ی واقعی آن متن نسبت دهد. این موضوع در زبان های مختلفی پیاده سازی شده و ‏مورد بحث قرار گرفته ولی در زبان فارسی این چنین به آن پرداخته نشده بود. آنچه در این پایان نامه مورد ‏بررسی قرار می گیرد طراحی و پیاده سازی یک سیستم تشخیص نویسنده بر اساس سبک نوشتاری فارسی ‏است. در این پایان نامه علاوه بر طراحی و پیاده سازی سیستم تشخیص نویسنده متن ناشناخته، مطالعه ای روی ‏مقایسه ی روش های یادگیری ماشین برای تشخیص هویت نویسنده انجام شده است. در این تحقیق 7 روش ‏دسته بندی ‏delta، ‏k-nearest neighbors‏ (‏knn‏)، ‏linear discriminant analysis‏ ‏‏(‏lda‏)، درخت تصمیم گیری، شبکه های عصبی، ترکیب الگوریتم ژنتیک و ‏knn، ترکیب الگوریتم رقابت ‏استعماری و ‏knn‏ روی 2 پایگاه داده جمع آوری شده با هم مقایسه شدند.‏‎ ‎‏4 دسته ویژگی که شامل ‏ویژگی های واژگانی، نحوی، معنایی و وابسته به کاربرد می باشند از متن های پایگاه داده استخراج شدند. ‏الگوریتم رقابت کشورهای استعماری نیز جزو ایده ها و روش های جدید می باشد که به علت سرعت همگرایی ‏بالا، این پایان نامه به آن پرداخته است ‏ نتایج حاصل از مطالعات انجام شده در این پایان نامه نشان داد که ویژگی های نحوی، کارایی بیشتری را در ‏بین سایر ویژگی ها دارد. در بین ویژگی های نحوی استفاده شده در این پایان نامه، توزیع عبارات اسمی، قیدی ‏و صفت که توسط ما طراحی شده بود و توزیع کاراکترهای نقطه گذاری بیشترین تاثیر را در دسته بندی ‏داشتند. در بین ویژگی های واژگانی، میانگین طول کاراکترهای جملات و تعداد تکرار ‏bi-gram‏ مورد نظر در ‏متن بهتر از ویژگی های دیگر واژگانی عمل کردند. توزیع افزوده ها (حروف ربط) از ویژگی های معنایی، نیز جزو ‏تاثیرگذارترین ویژگی ها در دسته بندی بودند نتایج حاصله نشان داد که روش دسته بندی ‏lda‏ بهترین ‏دقت را داشت.‏

۱۵ صفحه ی اول