سیستم شناسایی و طبقه بندی اسامی در متون فارسی

نویسندگان

چکیده مقاله:

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in different languages, but lack of a system with admissible performance in Farsi texts is quietly sensible. In this paper, the Corpus of Research Center of Intelligent Signal Processing has been used to create a Farsi NER. In our proposed NER system, there exist three stages: preprocessing, feature extraction and classification. To prepare a data set in the preprocessing stage, by using the part of speech (POS) feature, names are extracted from text and then infinitives, time related names, counting names, and numbers are removed from data. This gives a more balanced data set for learning and classification. In the feature extraction stage, N-gram is computed as feature, and four classifiers (linear, KNN, Bayesian, Neural Network) is learned in the classification stage. Because of lack of variety in the time related names and a few number of mixture of time related names with names in the other categories, an auxiliary list is used to identifying them. The results of research show, neural network have better performance (99%) in distinct between the names of places and people. In general, KNN and linear classifiers obtain 91% success based on F-measure scale in classifying the names of places and people and general names. In classifying the time related names, using an auxiliary list, based on an F-measure scale, a 96% success was obtained.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

سیستم شناسایی و طبقه‌بندی موجودیت‌های اسمی در متون زبان فارسی بر پایه شبکه عصبی

Named Entity Recognition (NER) is a fundamental task in natural language processing and also known as a subset of information extraction. We seek to locate and classify named entities in text into predefined categories such as the names of persons, organizations, locations, expressions of times, etc. Named Entity Recognition for English texts has been researched widely for the past years, howev...

متن کامل

طبقه بندی الگوهای پویای رفتاری سیستم ها

امروزه استفاده از اصطلاحاتی همچون "سیستم"، "سیستم های پیچیده"، "سیستم های پیچیده انطبا ق پذیر" و واژه هایی از این دست نسبت بهگذشته بسیار افزایش یافته است که این امر نشان از اهمیت مفهوم سیستم دارد. لذا شناخت انواع سیستم ها و الگوهای رفتاری آنها به منظورتجزیه وتحلیل صحیح آنها از اهمیت ویژه ای برخوردار می باشد. در این مقاله سعی می شود که انواع الگوی پویای رفتاری سیستم ها که از آن...

متن کامل

کاربرد سیستمهای طبقه بندی در سیستم اطلاعات پرستاری: مطالعه مروری

مقدمه: از الزامات سیستم اطلاعات پرستاری سیستمهای طبقه بندی پرستاری هستند که عمدتاً فعالیت ‌ های پرستاری را در سه حیطه تشخیص، اقدام و پیامد آنها دسته‌ بندی میکنند. اما تبیین نحوه استفاده از این طبقه بندی ها در سیستمهای اطلاعاتی پرستاری مهم است. هدف: در مطالعه حاضر، کاربرد سیستم‌ های طبقه ‌ بندی در سیستم‌ های اطلاعاتی پرستاری مورد بررسی قرار گرفته است. مواد و روش ها: در یک مطالعه مروری، بر اساس کل...

متن کامل

ارئه روشی نوین جهت طبقه بندی متون فارسی

متن کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده، پتانسیل کاربردی بسیار بالایی دارد. یکی از مهمترین کاربردهای متن کاوی طبقه بندی متون به لحاظ موضوعی میباشد. در این مقاله سعی بر آن داشته ایم تا با توجه به روشهای مختلف طبقه بندی متون فارسی، روشی نوین در جهت افزایش دقت و کارآیی طبقه بندی متون ارائه دهیم. برای طبقه بندی متون یک روال پنج مرحله ای را در نظر گرفته ایم.مرحله جداسازی کلما...

الف تسمیه؛ سیری در کاربرد «الف» پسوند اسامی خاص و القاب در متون منظوم و منثور فارسی

نقش پساوندها در زبان فارسی به سبب ویژگیِ ترکیبی‌ این زبان، نقشی برجسته و معنی‌زاست. برخی از این پساوندها، که در مقاطعی از زمان بنا به ضرورت ها و طبق قواعد خاصی ساخته شده، به مرور از کار‌آیی می‌افتند و فراموش می‌شوند و یا به‌طور محدود مورد استفاده قرار می‌گیرند. در این مقاله سعی شده است تا پیرامون یکی از معانی پسوند «الف» در الصاق به اسم خاص و نحوه و دورۀ کاربرد آن بر اساس شماری از متون ادبی و ت...

متن کامل

طبقه بندی و بررسی نثر متون عرفانی و فلسفی عصر قاجار

یکی از موضوعاتی که در عصر قاجار در حوزة فرهنگ ایرانی امتداد پیدا کرده، موضوعات فلسفی و عرفانی بود. در عصر قاجار با توجّه به استقرار بیشتر عالمان در تهران، حلقه‌ای در عرصة اندیشه‌های فلسفی و عرفانی پدید آمد که آن را «مکتب تهران» نامیده‌اند؛ سرآمدان این مکتب فکری، آثار مختلفی را در موضوعات فلسفی و عرفانی پدید آورده‌اند که بیشتر آن‌ها به زبان فارسی است و با این کار نشان دادند که زبان فارسی همچنان ت...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 7  شماره 1

صفحات  77- 88

تاریخ انتشار 2010-09

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023