بهبود طبقه بندی متن با استفاده از روش های ترکیب

پایان نامه
چکیده

با توجه به گسترش اینترنت و افزایش چشمگیر حجم مطالب متنی، ابزارها و روش های خودکار برای مدیریت اسناد و مطالب متنی، مورد توجه بسیار زیادی قرار گرفته اند. از جمله ی این ابزارها می توان به طبقه بند متن اشاره کرد که می تواند در این زمینه بسیار موثر باشد. این ابزار کاربردهای فراوانی در سیستم های بررسی متون مانند موتورهای جستجو، سیستم های فیلترینگ، تشخیص هرزنامه ها، کتابخانه های دیجیتال و سایر سیستم های مشابه دارد. از آن جایی که صحت طبقه بندی متن یکی از مهمترین شاخص های موفقیت این سیستم ها به شمار می آید، از اهداف اساسی این پایان نامه افزایش میزان صحت طبقه بندی متون می باشد. با توجه به میزان کارهای انجام شده قبلی، افزایش کارایی طبقه بندهای منفرد مشکل می باشد، لذا رهیافت ما برای رسیدن به این هدف استفاده و بهبود روش های ترکیب طبقه بندها است. در این پایان نامه برای بهبود صحت طبقه بندی متن، و بر مبنای روش ترکیب رأی گیری وزن دار، دو رهیافت جدید برای وزن دهی طبقه ها و طبقه بندها پیشنهاد شده است. رهیافت اول مبتنی بر در نظر گرفتن وزن مستقل برای هر طبقه و هر طبقه بند است. رهیافت دوم تعمیم رهیافت اول است. بدین شکل که برای جواب مثبت یا منفی هر طبقه بند در مورد هر طبقه وزن مستقلی در نظر گرفته می شود. برای محاسبه ی اوزان در هر دو رهیافت، علاوه بر الگوریتم ژنتیک، معادله تجربی خاصی هم پیشنهاد گردیده است که در زمان بسیار کمتری نسبت به الگوریتم ژنتیک اجرا می گردد. نتایج طبقه بندی بر مبنای محاسبه اوزان با استفاده از معادله ی پیشنهادی، کاملاَ با نتایج استفاده از الگوریتم ژنتیک قابل مقایسه و حتی گاهی بهتر هم می باشد. آزمایش ها با استفاده از طبقه بندهای رُکیو، نزدیک ترین همسایه و بیز، و سه روش انتخاب ویژگی شامل اطلاعات متقابل، خی2 و mcfs انجام شده است. نتایج تجربی حاصل از اعمال الگوریتم های ترکیب پیشنهادی بر روی مجموعه داده های آموزشی رایج و مقایسه با نتایج حاصل از سایر روش های ترکیب طبقه بندها، مانند رأی گیری وزن دار، عملگر میانگین وزن دار رتبه یافته و روش قالب تصمیم، نشان می دهد که رهیافت های پیشنهادی دقت طبقه بندی را بنحو چشمگیری افزایش داده اند. این نتایج از آزمایش بر روی چهار مجموعه داده های آموزشی متفاوت و رایج بدست آمده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

افزایش نرخ کارایی طبقه بندی با استفاده از تجمیع ویژگی های موثر روش های مختلف ترکیب شبکه های عصبی

Both theoretical and experimental studies have shown that combining accurate Neural Networks (NN) in the ensemble with negative error correlation greatly improves their generalization abilities. Negative Correlation Learning (NCL) and Mixture of Experts (ME), two popular combining methods, each employ different special error functions for the simultaneous training of NN experts to produce negat...

متن کامل

طبقه بندی سنگ ‏های ساختمانی از دیدگاه قابلیت برش با استفاده از روش خوشه بندی فازی

پیش بینی قابلیت برش سنگ به عنوان یکی از فاکتورهای موثر در تخمین هزینه‏ها و پیش بینی میزان تولید یک کارخانه فرآوری سنگ از اهمیت بالایی برخوردار می‏باشد. بنابراین شناخت کامل سنگ‏های ساختمانی و ارزیابی توان اجرایی دستگاه‏های برش در کارخانه‏های فرآوری، طراحان و برنامه‏ریزان تولید را به سمت بهبود سرعت فرآوری و افزایش تولید سوق می‏دهد. از اینرو، به کارگیری روش‏های نو و کاربردی برای دست‏یابی به این اه...

متن کامل

طبقه بندی سواحل چابهار از دیدگاه واکنش های خط ساحلی با استفاده از روش های تجربی

طبقه بندی سواحل با توجه به ویژگی های امواج، کشند، رسوب و شرایط مورفودینامیکی باعث شناخت عمده ای از ساحل می شود. بندر چابهار از نظر اقیانوس شناسی، سیاسی و اقتصادی از اهمیت زیادی برخوردار است. در این تحقیق، با در نظر گرفتن پارامترهای بدون بعد، واکنش های خط ساحلی بر اساس شرایط هیدرودینامیکی با استفاده ازسه روش هانسن، هایس و مسلینک و شرت در سه ایستگاه در خلیج چابهار و بر اساس داده های میدانی موج و ...

متن کامل

طبقه بندی سنگ های آهکی براساس خصوصیات سنگ‌شناسی و ترکیب شیمیایی با استفاده از روش پردازش تصویر و شناخت الگو

رویکرد پردازش تصویر، یکی از ابزارهای کاربردی در مقوله طبقه‌بندی و تشخیص دیجیتال نوع سنگ‌شناسی است. در این مقاله، تفکیک نمونه­های سنگ آهک از نظر میزان خلوص کربنات کلسیم، با استفاده از کمّی­سازی ویژگی­های تصویری نمونه­ها و الگوریتم آماری بیزین،  مطالعه شده است. بدین منظور تعداد 30 نمونه سنگ آهک از معدنی در منطقه لاج سمنان برداشت شد. هریک از این نمونه­ها توسط سنگ­شکن فکی خرد و بخش­هایی از ن...

متن کامل

ارائه روشی برای طبقه بندی داده های ابرطیفی aviris ، با استفاده از استخراج ویژگی و ترکیب طبقه بندی کننده ها

یکی از پرکاربردترین روش های طبقه بندی نظارت شده، روش بیشترین احتمال است که در آن، به منظرو طبقه بندی از پارامترهایی آماری مانند ماتریس واریانس کوواریانس استفاده می شود. در تصاویر ماهواره ای ابر طیفی، به علت محدودیت نمونه های آموزشی و ابعاد بالای طیفی (زیاد بودن تعداد باند ها)، احتمال یکتا شده ماتریس های برآورد شده و با کاهش دقت طبقه بندی وجود دارد. به منظور حل این مشکل از روش های مختلفی همچون ک...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023