دسته بندی اسناد فارسی به کمک هستان شناسی فارس نت

پایان نامه
چکیده

با توجه به رشد روزافزون اسناد الکترونیکی، نیاز به یک دسته بند کارا در حوزه داده کاوی واضح است. اخیراً به منظور افزایش دقت دسته بندی، استفاده از آنتولوژی لغوی به عنوان مرجع خارجی و نیز استخراج دانش از متون در فرآیند دسته بندی، مطرح شده است؛ از این رو، هدف از انجام این پروژه ارائه و پیاده سازی سیستم دسته بندی خودکار اسنادی است که آنتولوژی لغوی فارس نت را در عملیات دسته بندی داخل می نماید. این امر منجر به افزایش اوزان کلمات مرتبط با دانش پیش زمینه متن می شود. راهکار پیشنهادی برای استفاده از آنتولوژی لغوی، تمرکز بر روی بردار مشخصه ی معنایی را محور فعالیت های خود قرار داده است؛ تا بدین وسیله فرآیند دسته بندی را بهبود بخشد. در این پروژه ضمن بررسی و مطالعه ی روش های بکارگیری آنتولوژی لغوی در فرآیند دسته بندی، آنتولوژی لغوی فارس نت را به منظور استخراج روابط معنایی استفاده می نماییم. در سیستم ارائه شده، کلیه ی اجزاء تشکیل دهنده ی سیستم دسته بندی شامل پردازشگر لغوی، کاهنده ی ویژگی، انتخاب کننده ی ویژگی، وزن دهی به ویژگی و طبقه بندی کننده اسناد، لحاظ شده است. در این پروژه الگوریتم ?^2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده tfidf در بخش وزن دهی به کار گرفته می شود. پیش از اعمال روش وزن دهی به مشخصه ها، بردار مشخصه معنایی برای هر کلمه کلیدی توسط مفاهیم استخراج شده از آنتولوژی لغوی فارس نت، ایجاد می شود. نتایج ارزیابی های انجام شده نشان دهنده ی بهبود قابل توجهی در کارایی و دقت الگوریتم دسته بندی با بکارگیری آنتولوژی لغوی فارس نت است.

منابع مشابه

دسته بندی مفهومی اسناد فارسی به کمک ماشین بردار پشتیبان

دسته بندی اسناد، فرآیندی است که اسناد را به یک یا چند دسته از قبل تعریف شده تقسیم می کند. در این پایان نامه، یک سیستم دسته بندی مفهومی اسناد فارسی با استفاده از ماشین بردار پشتیبان ارائه شده است. همچنین، تاثیر رهیافت های مختلف پیش پردازش شامل شاخص گذاری اسناد، ریشه یابی، بردار نماینده و انتخاب زیر مجموعه ای از ویژگی ها، بر روی کارایی سیستم مطالعه شده است. علاوه بر این، کارایی سیستم پیشنهادی با ...

مشکلات انطباق دسته های هم معنای فارس نت با دسته های هم معنای وردنت پرینستون

در این پژوهش به بررسی مشکلات موجود در انتخاب معادل برای دسته های هم معنای (دسمعناهای) فارس نت پرداخته شد. اهمیت این پژوهش به این لحاظ است که نتایج آن می تواند در طرحهای آینده مربوط به تکمیل فارس نت و ساخت شبکه های واژگانی دیگر یا تخصصی مورد استفاده قرار گیرد. با توجه به وجود سه دسته از مشکلات جهت انطباق وردنتها بر همدیگر شامل الف. مشکلات ناشی از سختی در تمایز معنایی در وردنت مبدأ ب. مشکلات ناشی...

متن کامل

بررسی هستان شناسی های توسعه یافته مبتنی بر اصول هستان شناسی های منبع باز زیست پزشکی

Background and Aim: Ontologies facilitate data integration, exchange, searching and querying. Open Biomedical Ontologies (OBO) Foundry is a solution for creating reference ontologies. In this foundry, the design of ontologies is based on established principles which allow for their interactions as a single system. The purpose of this study is to determine the main features of ontologies develop...

متن کامل

معرفی، دسته بندی و شیوه شناسی کتیبه های صحیفی جوهری

صحیفی جوهری یکی از چیره‌دست‌ترین خوش‌نویسان ثلث دوره صفوی است که دستی هم در شعر داشته؛ با این حال، چنان که باید شرح احوال و آثارش در تاریخ خوش‌نویسی ایران مورد توجه قرار نگرفته است. صحیفی از بزرگ‌زادگان طایفة ذوالقدر شیراز بوده که در اصفهان رشد کرده و همانجا نیز وفات کرد. این پژوهش در نظر دارد ضمن معرفی آثار موجود و قابل دسترس این خوش‌نویس، به دسته‌بندی آن‌ها از چند منظر مختلف بپردازد و شیوة نگ...

متن کامل

معرفی، دسته بندی و شیوه شناسی کتیبه های صحیفی جوهری

صحیفی جوهری یکی از چیره‌دست‌ترین خوش‌نویسان ثلث دوره صفوی است که دستی هم در شعر داشته؛ با این حال، چنان که باید شرح احوال و آثارش در تاریخ خوش‌نویسی ایران مورد توجه قرار نگرفته است. صحیفی از بزرگ‌زادگان طایفة ذوالقدر شیراز بوده که در اصفهان رشد کرده و همانجا نیز وفات کرد. این پژوهش در نظر دارد ضمن معرفی آثار موجود و قابل دسترس این خوش‌نویس، به دسته‌بندی آن‌ها از چند منظر مختلف بپردازد و شیوة نگ...

متن کامل

تأثیر ویژگی‌های روانشناختی مشتریان بر دسته بندی و انتخاب برند به کمک رویکرد بیزین

The present study explores the effect of customer's psychological characteristics on brand selection, with emphasis on product characteristics. The statistical population of this study is consumers of dairy products in the city of Tehran. Since the size of the unlimited society and the variance of the society are unclear, the sampling formula for the unlimited society is used based on which the...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023