نام پژوهشگر: زینت منفرد

توسعه راهکارهایی هوشمند جهت پردازش خبرهای فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر 1393
  زینت منفرد   اقبال منصوری

امروزه سایت های خبری متعددی وجود دارد و باتوجه به رایگان بودن و دسترسی آسان و سریع به اطلاعات این سایت ها، روزانه هزاران نفر اخبار و وقایع جهان را از طریق این سایت ها دنبال می کنند. در سالهای اخیر، با توجه به گسترش روز افزون وب فارسی، سایت های خبری فارسی نیز گسترش زیادی پیدا کرده اند. در وب فارسی بالغ بر هزاران سایت خبری فارسی وجود دارد. حجم اطلاعاتی که از طریق این سایت ها بر روی مراکز داده ذخیره می شود، زمینه مناسبی را برای اجرای بسیاری از الگوریتم های هوش مصنوعی به وجود آورده است. دسته بندی خبرها، مشخص کردن مهمترین خبرها در یک برهه زمانی، جستجو در اخبار، رتبه دهی به اخبار، بررسی پراکندگی خبرها، مشاهده علاقه افراد به گروههای خبری، پیدا کردن اخبار مرتبط و موارد دیگر از جمله پردازش هایی است که بر روی داده های موجود در سایت های خبری می توان انجام داد. در زبان فارسی برخلاف سایر زبان ها، با توجه به ساختار کلمات متون فارسی، بسیاری از الگوریتم های سنتی برای پردازش این متون مناسب نیستند و به الگوریتم های کارامد تری نیاز می باشد. هدف از این پایان نامه، توسعه الگوریتم هوشمند برای طراحی یک سیستم، جهت پردازش خبرهای آنلاین فارسی می باشد. این سیستم داده ها را از حداقل50 سایت خبری فارسی به صورت آنلاین دریافت می کند، که این داده ها بیش از 90 درصد از اخبار فارسی را پوشش می دهند. یکی از الگوریتم هایی که بر روی داده های جمع آوری شده قابل پیاده سازی است، الگوریتم دسته بندی اخبار می باشد. در واقع هدف ما آموزش الگوریتمی است، که بتواند اخبار را در دسته های مختلف سیاسی، اجتماعی و غیره به صورت اتوماتیک دسته بندی کند. سعی ما بر این است که با ارائه راهکاری، جهت کاهش خصیصه ها در خبرها، الگوریتم های دسته بندی اخبار را بهبود بخشیم. از آنجا که هر کدام از خبر های استخراج شده توسط نویسنده ی خبر در یک دسته خاص قرار گرفته اند، مساله ی مورد مطالعه، ارائه یک الگوریتم دسته بندی با نظارت می باشد. در این پایان نامه، روش ارائه شده با روش های قبلی مقایسه شده است. نتایج حاصله نشان می دهد که، با توجه به معیارهای دقت و بازیابی، روش ارائه شده از کارایی قابل قبولی برخوردار است.