مرتضی دولتی

نام پژوهشگر: مرتضی دولتی

طبقه بندی موضوعی اسناد با استفاده از رویکرد هسته

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1390
مرتضی دولتی محمدرضا فیضی درخشی

طبقه بندی اسنادltrfootnote{text classification, text categorization} عبارت است از نسبت دادن یک سند به یک یا چند موضوع از پیش تعیین شده. در سال های اخیر تولید اسناد متنی دیجیتال با یک رشد نمایی مواجه بوده است، به همین دلیل لزوم طبقه بندی صحیح آن ها برای دسترسی بهتر امری ضروری به نظر می رسد. کاربرد طبقه بندی اسناد می توان بسیار متنوع باشد، طبقه بندی صفحات وب، متون علمی، اخبار، رایانامه، کتاب و ... جستجو برای یک عبارت در google اکنون به چیزی فراتر از یک واقعیت تبدیل شده است. در آینده? نزدیک با پیشرفت روش های طبقه بندی اسناد، نحوه? دسترسی مردم به اطلاعات به نحوی شگرفی تغییر خواهد کرد. طبقه بندی اسناد شامل یک مدل یادگیرنده برای مجموعه ای از کلاس ها و بکار بردن آن ها برای اسناد جدید و انتساب یک کلاس به آن ها می باشد. این امر اکثراً یک کار آموزشی به همراه یک مربی می باشد. به این صورت که یک مجموعه? آموزشی اولیه که شامل تعداد سند و موضوعات از پیش تعیین شده می باشد، به عنوان ورودی به سیستم داده می شود. سپس سیستم برای شناسایی موضوع سایر اسناد آموزش داده می شود. این مراحل شامل پیش پردازش (نمایش سند، کاهش ابعاد و استخراج ویژگی ها) و مراحل آموزش و آزمایش می باشد. عموماً مرحله? پیش پردازش شامل ??? زمان و تلا ش های محاسباتی می شود. با توجه به اینکه روش های مبتنی بر هسته قابلیت های زیادی از خود نشان داده اند، توسعه? یک روش مبتنی بر رویکرد هسته برای زبان فارسی مد نظر قرار داده شد. طبقه بندی متون زبان فارسی به دلیل پیچیدگی ها و مشکلاتی که دارد (اکثر این مشکلات متوجه زبان فارسی نبوده و از آگاهی کم افراد ناشی می شود)، کاری دشوار می باشد. برای انجام طبقه بندی یک سری پیش نیازهایی وجود دارد (همانند سایر زبان ها)، مثلاً وجود یک فهرست از کلمات ایست (همانند فهرست های متنوعی که برای زبان انگلیسی وجود دارد)، وجود یک روش استاندار و قابل قبول برای ریشه یابی (همانطور که زبان انگلیسی وجود دارد). متأسفانه علی رغم اینکه کارهای تحقیقاتی زیادی در این حوزه صورت گرفته است، ولی به دلیل منسجم نبودن کارها و عدم حمایت از سوی یک نهاد واحد، تلاش ها آن طور که شایسه و بایسته است به ثمر ننشسته است و این مسأله انجام کارهایی را که مراحل ذکر شده به عنوان سنگ بنای آن می باشد، دشوارتر نموده است. نگارنده علی رغم پیگیری ها و تماس های مکرری که با فرهنگستان زبان و ادب فارسی داشته است، موفق به جلب نظر آن ها برای همکاری در این پروژه نشده است. حتی اجازه? دسترسی به نتایج تحقیقات گذشته نیز به راحتی مقدور و میسر نبوده است. با توجه به همه? مشکلاتی که برشمرده شد، در نهایت یک روش مبتنی بر هسته برای طبقه بندی متون دیجیتال فارسی توسعه داده شد. متأسفانه به دلیل نبود یک روش و مجموعه? استاندارد (همانند نمونه هایی که برای زبان انگلیسی وجود دارد)، امکان مقایسه? این روش با سایر روش های موجود برای زبان فارسی به صورت کامل محیا نشد. البته تا جایی که مقدور بوده است، از روش های استاندارد ارزیابی استفاده شده است. انجام آزمایش ها با استفاده از متون انتخابی از اخبار خبرگزاری جمهوری اسلامی انجام پذیرفته است (البته آموزش های سیستم نیز با استفاده از بخشی از این اسناد انجام گرفته است).

۱۵ صفحه ی اول