روش جدید متن‌کاوی برای استخراج اطلاعات زمینه کاربر به‌منظور بهبود رتبه‌بندی نتایج موتور جستجو

نویسندگان

  • احمدی, علی دانشکده مهندسی کامپیوتر ، دانشگاه صنعتی خواجه نصیرالدین طوسی
چکیده مقاله:

Today, the importance of text processing and its usages is well known among researchers and students. The amount of textual, documental materials increase day by day. So we need useful ways to save them and retrieve information from these materials. For example, search engines such as Google, Yahoo, Bing and etc. need to read so many web documents and retrieve the most similar ones to the user query. In this example, necessity of real time ability should be mentioned. Keyphrase extraction and some other fields like Information extraction, natural language processing, text summarization, query understanding, machine translation, and text similarity are subsets of text processing. So many efforts in text processing have been established, but there are still many open problems, especially in semantically document understanding subjects. Although these subjects seem not to be very hard for humankind but they are very complex and confusing for a computer, because there is no standard structure to save documents so that computers be able to extract semantics and contents. Document understanding and keyphrase extraction are some of the most important text processing goals. Many statistical and linguistic approaches are proposed in order to address these complex goals. Some methods work based on multi documents and some others on single document which all are generally more difficult than multi documents methods. Some methods use learning algorithms with training data and some others do not. Using natural language processing tools or resources -like ontologies- are effective ways to improve results, but these tools are not reliable for all languages. There are some articles for keyphrase extraction based on co-occurrence and also some statistical methods. Moreover, sometimes it is an important feature for a method to make real time outputs. Based on these characteristics, many approaches have been proposed in the literature. In this paper, we present a new approach for keyphrase extraction from a single document. We present a language-independent approach based on combination of statistical information extracted from document and some logical rules named fundamental text rules. In this approach, there is no need to any natural language processing, nor to ontology and nor to any document corpus. We illustrate a real time method to understand each document focuses by extracting its phrases from segmented document without using any learning algorithm. Then, the Score for each phrase is calculated based on its occurrence and its related phrases occurrences. Then, fundamental text rules omit some phrases based on their scores and their places in text. Remained phrases shows the document focuses. Evaluation shows that our approach takes a high recall and precision in key phrase extraction with very good accuracy in text focuses understanding. These keyphrases extracted of a text presents the most important concepts of that text and it is used to retrieve documents in search engines more efficiently.  

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

روش تطبیقی جدید برای جابجایی فیدر تغذیه کننده موتور

The induction or synchronous motor can temporarily produce voltage such as a generator after disconnection from the power system. Subsequently, voltage and frequency differences between the motor terminal and the power system are gradually increased. In such conditions, the mechanical damages to motor may be occurred during motor reconnection when the synchronizing conditions are not complied. ...

متن کامل

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

ارائه یک مدل مفهومی، برای بهبود کیفیت ذخیره‌سازی داده‌های جغرافیایی داوطلبانه، در زمینه تناسب داده با هدف کاربر

بررسی کیفیت، از جمله مهمترین چالش‌های موجود بر سر راه داده­های جغرافیایی داوطلبانه می‌باشد. امروزه، اندازه‌گیری کیفیت این داده­ها عمدتاً شامل فرآیندهای مستند کردن و اندازه‌گیری خطا با کمترین نگرانی در مورد برآورده کردن نیازهای مختلف و متنوع کاربران است. علی‌رغم طیف وسیع موجود در پذیرش شاخصِ "تناسب برای هدف" به عنوان المان کلیدی ارزیابی کیفیت اطلاعات جغرافیایی، این شاخص عملاً در تولید و به اشتراک‌گ...

متن کامل

شخصی سازی جستجو در وب وسیله بازنمایی پروفیل کاربر و استفاده از آن در رده بندی مجدد نتایج رسیده از موتور جستجو

امروزه موتورهای جستجوی وب به همه کاربران به طور یکسان سرویس می دهند، بدون اینکه علایق خاص هر کاربر را در نظر بگیرند. از طرفی تعداد زیاد نتایج دریافتی باعث سردرگمی کاربر در یافتن نتایج مورد نظرش می شود و برای پیدا کردن نتیجه مورد نظرش باید زمان زیادی صرف کند. برای مقابله با این مشکل، شخصی سازی جستجو مطرح شده است که یکی از راههای بهبود جستجو با در نظر گرفتن علایق کاربر می باشد. یکی از مشخصات کلید...

15 صفحه اول

روش تطبیقی جدید برای جابجایی فیدر تغذیه کننده موتور

موتورهای القایی و سنکرون پس از جدا شدن از شبکه برای مدت کوتاهی به ژنراتور تبدیل می شوند. در این حالت اختلاف ولتاژ و فرکانس بین ترمینال موتور و سیستم به تدریج افزایش می یابد. اتصال مجدد موتور به شبکه در حالت عدم برقراری شرایط سنکرونایزینگ، ممکن است باعث آسیب مکانیکی به موتور شود. برای حل این مشکل روشهای مختلفی در مراجع پیشنهاد شده است که بر مبنای انتقال باس تغذیه کننده موتور هستند. دراین مقاله ط...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 14  شماره 3

صفحات  65- 82

تاریخ انتشار 2017-12

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023