نام پژوهشگر: حیدر داودی

دسته بندی متن براساس مدل های یادگیری احتمالی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز 1380
  حیدر داودی   سراج الدین کاتبی

با گسترش روزافزون اطلاعاتی که بشر در اختیار دارد، مساله سازماندهی خودکار این اطلاعات اهمیت ویژه ای می یابد. در این میان کار دسته بندی اسناد متنی در گروه های جداگانه بعنوان یک مساله مرکزی باید مورد بحث و بررسی قرار گیرد. دسته بندی بعنوان یک روش مهم در آنالیز داده ها مطرح است و روش های متعددی درهوش مصنوعی و شناسایی آماری الگو برای این کار پیشنهاد شده است اما استفاده مستقیم از این روشها در کار دسته بندی متن امکان پذیر نمیباشد چرا که در این مساله با تعداد زیادی مشخصه روبرو خواهیم بود. در این پایان نامه سعی بر این است که مفاهیمی را که در کار دسته بندی متن با آن روبرو هستیم را مورد بررسی قرار دهیم، این مفاهیم شامل: استخراج مشخصه ها از متن، نحوه نمایش متن، انتخاب زیر مجموعه ای از مشخصه ها و الگوریتم های یادگیری ماشین مناسب برای این کار خواهد بود. در مورد انتخاب مشخصه ها سعی شده است ارتباط بین دسته بندی احتمالی با معیار استفاده شده برای انتخاب مشخصه ها نشان داده شود. در نهایت یک چهارچوب احتمالی برای دسته بندی اسناد متنی بطور کامل مورد بررسی قرار گرفته است. در این چهار چوب احتمال ((متعلق بودن)) یک سند برای هر کلاس تخمین زده می شود، در این راستا از شبکه های بیز بعنوان یک روش کارا و موثر برای نگهداری احتمال توام متغیرها استفاده شده است. در نهایت ساختار مناسب برای ساخت یک مدل دانش با استفاده از شبکه های بیز پیشنهاد شده است. در عمل سعی شده است با اندازه گیری کارایی، موثر بودن این روش ها در مقایسه با یکی از روش های کلاسیک ذخیره و بازیابی اطلاعات نشان داده شود، در روش پیشنهادی برای هر کلاس یک دسته بند طراحی شده است که در نهایت همگی در کنار هم بصورت موازی کار می کنند. برای انجام یادگیری و تست از داده های روییتر استفاده شده است و آزمایشات روی 5 گروه از این داده ها انجام شده است در نهایت بعد از ساخته شدن دسته بندها موثر بودن استنتاج در این مدل ها نشان داده شده است.