روش جدید وزن دهی معنایی به کلمات در کاربردهای پردازش متن

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده فنی و مهندسی
  • نویسنده حسین کامیار
  • استاد راهنما محسن کاهانی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1390
چکیده

امروزه استفاده از وب به یکی از عناصر حیاتی زندگی انسانی تبدیل شده است. حتی در بسیاری از جوامع زندگی روزمره آدمی در صورت اختلال در وب دچار مشکلات اساسی می شود. به همین دلیل حجم اطلاعاتی متنی در وب به طرز چشمگیری افزایش یافته است. حتی به صورت شهودی نیز می توان ادعا نمود که نرخ رشد اطلاعات متنی در دنیای امروزه از نرخ رشد داده به هر شکل دیگری مانند صوت، تصویر و ... بالاتر است. کاربران در میان این دریای داده های خام، همیشه به دنبال اطلاعات خاصی هستند. به این منظور احتیاج به پردازش متن و زبان که در حقیقت لایه بالایی متن می باشد، شدیداً وجود دارد. از این رو، در حال حاضر بیش از هر زمان دیگری نیاز به سیستم های پردازشگر زبان مانند، بازیابی کننده های اطلاعات، خلاصه سازها، مترجم ها و ...احساس می شود. یکی از اولین گام ها در پردازش زبان وزن دهی به کلمات به عنوان ویژگی های قابل پردازش از یک متن می باشد. به همین دلیل تحقیقات فراوانی بر روی وزن دهی به کلمات به عنوان ابزار پیش خوشه بندی متون انجام می شود. هر چه دقت روش وزن دهی بالاتر باشد دسته بندی اولیه متون بهتر انجام شده و در نهایت دسته بندی اصلی آنها از دقت بهتری برخوردار خواهد بود. روش های مشهور فعلی وزن دهی به کلمات، معمولاً روش های آماری قرضی از دیگر کاربردهای خوشه بندی هستند، که مبتنی بر شمارش فرکانس کلمات می باشند. اما ویژگی های اصلی زبان، معنا و گرامر می باشد که توسط این روش ها قابل شمارش نمی باشند. در این تحقیق یک روش جدید با رویکرد توجه به ویژگی های اصلی زبان برای وزن دهی به کلمات ارائه شده است. این روش با مبنا قرار دادن یک روش مشهور وزن دهی آماری به نام tf-idf به تغییر پارامتر tf که یک پارامتر اندازه گیری فرکانس در سطح یک متن می باشد، می پردازد. این تغییرات از دو جنبه معنا توسط پایه قرار دادن یک تئوری زبانی به نام نظریه مرکزیت و گرامر با توجه به نقش گرامری کلمات در متن و توزیع آنها، انجام می گردند. همچنین جهت پر کردن خلاً توجه به تأثیر سراسری کلمات در مجموعه ای از متون در تغییر پارامتر tf به نقش گرامری کلمات در سطح کلیه متون نیز توجه شده است. نتایج بدست آمده در پایان نامه به خوبی تأثیر روش پیشنهادی بر روش های پردازش زبان را نشان می دهد. یک چنین روشی تا میانگین 11% نسبت به یک روش مشهور وزن دهی مانند tf-idf، بهبود دقت در کاربردی مانند بازیابی اطلاعات رانشان می دهد.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

روش لاگرانژی تکمیل‌شده و کاربردهای آن در پردازش سیگنال

در ریاضیات، علوم کامپیوتر و اقتصاد، بهینه‌سازی به انتخاب عناصر بهینه از یک مجموعه از عناصر قابل دستیابی می‌پردازد؛ به عبارت دیگر، به دنبال یافتن بهترین مقدار قابل دستیابی از یک تابع هدف تعریف شده بر یک دامنه معین از مقادیر است. الگوریتم‌های بسیاری برای این هدف وجود دارند‎.در این مقاله روش لاگرانژی تکمیل‌شده را که الگوریتمی برای حل مسائل بهینه‌سازی مقید است‏، بررسی می‌کنیم و سپس آن را با روش جری...

متن کامل

اولویت بندی زیرحوزه های شهری مستعد سیلاب با استفاده از تکنیک PCA به عنوان یک روش جدید وزن دهی

در مناطق شهری به دلیل توسعه سطوح نفوذناپذیر و به دنبال آن افزایش قابلیت تولید رواناب، احتمال بروز پدیده­ های مخرب سیلابی بیش از سایر مناطق است. اولین گام در مدیریت سیلابهای شهری شناسایی مناطق بحرانی می­ باشد. در این پژوهش به منظور اولویت­ بندی زیرحوزه­ های شهرستان ارومیه نسبت به سیل­ خیزی از تکنیک چند معیاره فرارتبه­ ای پرومته II (PROMETHEE II) استفاده شده است. برای این منظور، ابتدا مرز واحدهای...

متن کامل

تحلیل معنایی کلمات مرکب اسم- اسم در زبان فارسی

ه پژوهش های زبان شناسیسال پنجم، شماره اول، بهار و تابستان 293132/3/ تاریخ وصول: 1131/1/ تاریخ اصلاحات: 1231/1/ تاریخ پذیرش: 9256 - صص 21__________________________________________________________________________________________gh5karimi@ut.ac.ir *استاد زبانشناسی دانشگاه تهران[email protected] **دانشجوی کارشناسی ارشد دانشگاه تهرانتحلیل معنایی کلمات مرکب اسم- اسم در زبان فارسی* غلامحسین کریمیدوس...

متن کامل

روش لاگرانژی تکمیل شده و کاربردهای آن در پردازش سیگنال

در ریاضیات، علوم کامپیوتر و اقتصاد، بهینه سازی به انتخاب عناصر بهینه از یک مجموعه از عناصر قابل دستیابی می پردازد؛ به عبارت دیگر، به دنبال یافتن بهترین مقدار قابل دستیابی از یک تابع هدف تعریف شده بر یک دامنه معین از مقادیر است. الگوریتم های بسیاری برای این هدف وجود دارند‎.در این مقاله روش لاگرانژی تکمیل شده را که الگوریتمی برای حل مسائل بهینه سازی مقید است‏، بررسی می کنیم و سپس آن را با روش جری...

متن کامل

کره معنایی، رویکردی جدید به نظریه شبکه‌های معنایی

از آنجایی که نظریه شبکه‌های معنایی، یکی از معروفترین نظریه‌ها پیرامون روابط معنایی بین واژگان است و تلاش‌های زیادی برای ارائه الگوهای این نظریه به رایانه انجام شده و نتایج مطلوبی حاصل نشده است، و از طرفی به دلیل ایرادهای بنیادی که بر این نظریه و الگوهای ارائه شده توسط آن وارد است، در این تحقیق سعی خواهد شد تا مدلی که بتواند تا حدی این ایرادها را بر طرف کند تبیین شود. در این مقاله، ابتدا تصویری...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده فنی و مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023