پیاده سازی و بهبود الگوریتم هایی برای مسئله انتخاب ویژگی در رده بندی متون

پایان نامه
چکیده

امروزه پیشرفت امکانات نرم افزاری و سخت افزاری، موجب آسانی ذخیره شدن مقادیر زیادی داده شده است. تعداد مستندات متنی روز به روز در حال افزایش است، نامه های الکترونیکی، صفحات وب، متون خبری و مقالات تنها بخشی از این گستره رو به افزایش هستند. بنابراین نیاز به تکنیک های متن کاوی همانند روش های خودکار برای رده بندی متون احساس می شود. در امر رده بندی خودکار متون، انتخاب ویژگی از درون متن جزء مهم ترین مراحل می باشد. انتخاب ویژگی برای کاهش ابعاد فضای ویژگی استفاده می شود، چرا که فضای ویژگی برای متون شامل ده ها هزار کلمه خواهد بود که پردازش های بعدی سیستم را امکان ناپذیر می کند. تاکنون روش های مختلفی برای انتخاب ویژگی برای داده های متنی طراحی شده اند که هر یک دارای معایب و مزایایی هستند، ولی روشی کلی که اکثر سیستم های رده بندی متون از آن استفاده کنند و میزان کارایی بالایی نیز داشته باشد معرفی نشده است. برای بهبود کارایی سیستم رده بندی متون در این پایان نامه دو روش جدید برای انتخاب ویژگی ارائه شده است. روش اول بر پایه الگوریتم مبتنی بر احتمال سرد شدن شبیه سازی شده پیاده سازی شده است. در الگوریتم سرد شدن شبیه سازی شده نیاز به استفاده از تابع برازندگی مناسب وجود دارد. بنابراین از روش بسامد سند برای ارزیابی راه حل در هر تکرار الگوریتم سرد شدن شبیه سازی شده استفاده شده است. روش بسامد سند به عنوان تابع برازندگی دارای هزینه محاسباتی کمی است. روش دومی که برای انتخاب ویژگی در این کار ارائه شده است روش بهبود یافته اطلاعات متقابل است که آن را اطلاعات متقابل اصلاح شده نام نهادیم. در نهایت کارایی روش-های پیشنهادی با کارایی روش های مربع چی، ضریب همبستگی، مربع چی ساده، بهره اطلاعاتی، اطلاعات متقابل، بسامد سند و انحراف معیار بسامد کلمه بر روی مجموعه ای از متون فارسی مقایسه شده است و به این نتیجه رسیدیم که هر دو روش پیشنهادی دارای کارایی بهتری در اکثر موارد می باشند. در بین روش های بررسی شده روش های مربع چی و ضریب همبستگی نسبت به روش-های پیشنهادی قابل مقایسه هستند. همچنین پس از بررسی نتایج به این نکته رسیدیم که در اکثر مقایسه ها روش پیشنهادی مبتنی بر الگوریتم سرد شدن شبیه سازی شده ، به روش اطلاعات متقابل اصلاح شده چیره خواهد شد. همچنین الگوریتم های پیشنهادی در رده سیاسی پایین ترین و رده ورزشی بالاترین کارایی دارند.

منابع مشابه

پیاده سازی و بهبود الگوریتم هایی برای مسئله ارضاء پذیری و گونه هایی از آن

در تیوری محاسبات مسایل تصمیم گیری به دو دسته تصمیم پذیر و تصمیم ناپذیر تقسیم می شوند. یک مسیله تصمیم پذیر مسیله ای است که قابل حل باشد به این معنی که بتوان یک الگوریتم برای آن طراحی کرد، در غیر این صورت مسیله مورد نظر تصمیم ناپذیر خواهد بود. مسایل تصمیم پذیر به نوبه خود و با توجه به مرتبه زمانی حل خود به دسته های متفاوتی تقسیم می شوند. دسته ای از آنها مسایلی هستند که برای آنها الگوریتمی با مرتب...

15 صفحه اول

الگوریتم کلونی مورچگان بهبود یافته برای مسئله انتخاب ویژگی

مسئله ی انتخاب ویژگی در سال های اخیر در حوزه ی داده کاوی و تشخیص الگو در هنگام مواجه شدن با مجموعه داده های با تعداد زیاد متغیر یا ویژگی به صورت گسترده مورد مطالعه قرار گرفته است. تعدد ویژگی ها باعث کند شدن سیستم های تشخیص الگو یا سیستم های دسته بندی، پایین آمدن کارایی و بالا رفتن هزینه ی ساخت چنین سیستم هایی می گردد. روش های انتخاب ویژگی به سه دسته ی کلی تقسیم می شوند. روش های فیلتر که در آن ه...

15 صفحه اول

رده هایی برای بهبود یک وب سایت تجاری

مقاله حاضر چارچوبی برای تحلیل و دسته بندی ویژگی های طرح یک وب سایت در قالب ماتریسی از کارکردهای کسب وکارانه در برابر ارزش های مورد نظر مشتریان- ارائه می کند. این چارچوب, زمینه ساز ایجاد طرحی برای یک وب سایت تجاری است که کلیه جنبه های دخیل در داد و ستد را شامل می شود. همچنین مثال هایی از ویژگی های وب بیان می شوند که از نظر مشتریان یا بازدیدکنندگان باید مورد ارزیابی قرار گیرند. از آنجا که ممکن اس...

متن کامل

الگوریتم هایی برای مسئله جورسازی ابرگراف

یک ابرگراف تعمیمی از گراف است که هر یال درآن ، که به آن ابریال می گویند ، می تواند شامل تعداد دلخواهی از رئوس باشد . مسئله جورسازی در ابرگراف ، پیدا کردن بزرگترین دسته ، از ابریال های مجزاست . این مسئله به خوبی در بهینه سازی ترکیبیاتی و نظریه گراف به همراه کاربردهای گوناگونش مورد مطالعه قرار گرفته است . در حالی که جورسازی روی گراف های معمولی در زمان چند جمله ای قابل حل است ، جورسازی در ابرگراف ...

15 صفحه اول

تاثیر انتخاب ویژگی به کمک الگوریتم ژنتیک بر طبقه بندی طیفی مکانی تصاویر ابرطیفی

فن‌آوری سنجش از دور ابرطیفی دارای کاربردهای فراوان در طبقه­بندی پوشش‌های زمین و بررسی تغییرات آنها می‌باشد. با پیشرفت‌های اخیر و ایجاد تصاویری با قدرت تفکیک مکانی بالا، لزوم استفاده توام از اطلاعات طیفی و مکانی را در طبقه­ بندی تصاویر ابرطیفی ایجاب می‌کند. در این تحقیق سعی می‌گردد تاثیر کاهش ابعاد به کمک الگوریتم ژنتیک را در فرآیند طبقه­ بندی طیفی-مکانی تصاویر ابرطیفی بررسی شود. در میان الگوریت...

متن کامل

ارایه ی راهبرد هایی برای پیاده سازی مدیریت جانشین پروری

در مقاله ی حاضر به بررسی وضعیت موجود و مطلوب نظام مدیریت جانشین پروری در صنعت نفت براساس مدل کیم در 4 مرحله پرداخته شده است. از بین 174 نفر مدیران و کارگزاران منابع انسانی حوزه های ستادی شرکت ملی نفت، 62 نفر به صورت نمونه گیری تصادفی طبقه بندی شده انتخاب شدند و پرسش نامه محقق ساخته بین آنان توزیع شد. سپس، با استفاده از آزمون مقایسه ی میانگین، شکاف بین وضع موجود و مطلوب نشان داده شده است. نتایج ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023