خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

پایان نامه
چکیده

خوشه بندی، روش داده کاوی قدرتمندی است که جهت کشف موضوع از اسناد متنی مورد استفاده قرار می-گیرد. در این زمینه الگوریتم های خانواده k-means به دلیل سادگی و سرعت بالا، در خوشه بندی داده هایی با ابعاد بالا، کاربرد فراوانی دارند. در این الگوریتم ها، معیار شباهت cosine، تنها شباهت میان زوج اسناد را اندازه گیری می کند که در مواقعی که خوشه ها به خوبی تفکیک نشده باشند، عملکرد مناسبی ندارد. درمقابل، مفاهیم همسایگی و اتصال با در نظرگرفتن اطلاعات سراسری در محاسبه میزان نزدیکی دو سند، عملکرد بسیار بهتری دارند. چنانچه میزان شباهت دو سند از حد آستانه ای بیشتر باشد آن دو سند همسایه اند و تعداد همسایه های مشترک میان آنها، مقدار تابع اتصال این دو سند را نشان می دهد. بنابراین با توجه به اینکه تنها دو حالت همسایگی و عدم همسایگی داریم که با صفر و یک نمایش داده می شوند، مقداری از اطلاعات را در مورد میزان شباهت میان اسناد از دست می دهیم که منجر به کاهش دقت خوشه بندی حاصل می شود. جهت رفع این مشکل، در گام اول لیستی از مقادیر گسسته را برای تعیین بازه ای از مقادیر آستانه به جای تنها یک مقدار، در نظر گرفتیم که به دنبال آن درجات متفاوتی از همسایگی، بر اساس میزان شباهت میان اسناد خواهیم داشت. همچنین جهت افزایش هر چه بیشتر دقت نتایج حاصل، از منطق فازی نیز بهره برده و مقدار شباهت میان اسناد را با استفاده از مقادیر عضویت فازی نمایش دادیم. به این ترتیب میزان همبستگی میان اسناد را با استفاده از منطق فازی بهبود داده و گام جدیدی در کاربردهای منطق فازی برداشتیم. همچنین در این مدل، روابط معنایی میان کلمات نادیده گرفته شده و تنها اسنادی با واژگان مشابه با یکدیگر مرتبط شده اند. در این پروژه پایانی از آنتولوژی wordnet جهت ایجاد مدل جدید نمایش اسناد بهره بردیم، بدین صورت که در آن از روابط معنایی به منظور وزن گذاری مجدد بسامد کلمات در مدل فضای برداری اسناد استفاده شده است. سپس مفاهیم همسایگی و اتصال را بر روی مدل حاصل اعمال نمودیم. نتایج حاصل از اعمال روش های پیشنهادی و ترکیبات آنها بر روی مجموعه داده های متن واقعی، حاکی از عملکرد موثر و مناسب تر الگوریتم پیشنهادی ما نسبت به روش های پیشین می باشد و می تواند جایگزین خوبی برای الگوریتم های پیشین در امر خوشه بندی اسناد باشد.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

خوشه بندی فراابتکاری اسناد فارسی اِکس اِم اِل مبتنی بر شباهت ساختاری و محتوایی

با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می باشد. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد xml به منظور کشف دانش است. مسئله کلیدی در خوشه بندی اسناد xml این است که چگونه می توان شباهت بین اسناد xml را اندازه گیری کرد. استفاده از روش های متداول خوشه بندی اسناد متنی که اطلاعات محتوایی را برای اندازه گیری شباهت سند بکا...

متن کامل

تشخیص برون افتادگی فضایی مبتنی بر شباهت معنایی همسایگی ها

با توجه به اینکه انتظار می رود داده هایی که از لحاظ موقیت مکانی به هم نزدیک هستند رفتار مشابهی نیز داشته باشند، لذا عموما برون افتادگی فضایی به صورت محلی و در همسایگی های نزدیک بررسی می شود. در بسیاری از پدیده ها رفتار اشیاء فضایی تحت تاثیر فرآیند ها و اشیاء پیرامون است. بنابراین برای انجام هرگونه تحلیل موثر لازم است ویژگی های فضایی و غیر فضایی اشیاء، روابط فضایی ضمنی و شفاف آن ها با دیگر اشیاء...

خوشه بندی اسناد متنی الکترونیکی بر اساس دانش پس زمینه و وزن دهی ابعاد و مفاهیم

خوشه بندی یا دسته بندی بدون نظارت با سازمان دهی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از متون دارد. نقش این سازمان دهی در موتورهای جستجو برای ارائه خوشه های معنادار مرتبط با پرس و جو، جهت پیشگیری از سردرگمی کاربر در حجم عظیمی از اسناد بازیابی شده بیشتر نمایان می شود. علاوه بر مشکلاتی نظیر تعداد ابعاد بسیار زیاد و تحلیل خوشه ای، متاسفانه دیدگاه متعارف خوشه بندی های افرازی و...

15 صفحه اول

طبقه بندی معنایی تصاویر متنی مبتنی بر الگوی ارزشمندی متن

استخراج اطلاعات از تصاویر متنی شناسایی شده از مجرای اینترنت یکی از مهمترین معضلات سیستم های جمع آوری اطلاعاتی در حوزه تکنولوژی اطلاعات می باشد. این مسأله وقتی حادتر می گردد که بدانیم در بین انبوه تصاویر متنی تنها درصد ناچیزی از تصاویر متنی شناسایی شده، دارای ارزش اطلاعاتی می باشند. در این مقاله، جهت تجزیه و تحلیل تصاویر متنی و دسترسی به محتوای آنها، از یک روش طبقه بندی مبتنی بر ناحیه بندی تصویر...

متن کامل

بسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو

بسط پرس‌وجو به‌عنوان یکی از روش‌های انطباق پرس‌وجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش می‌دهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرس‌وجو است که فرض می‌کند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرس‌وجو هستند و کلمات بسط را از این اسناد انتخاب می‌کند. درحالی‌که ممکن است اسناد نامرتبط به پرس‌وجو در اسناد رتبه‌بالا وجود داشته باشد. روش‌هایی برای انتخاب اسناد مرتبط و نادیده گرفتن...

متن کامل

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023