استخراج کلمات کلیدی برای داده های بزرگ به صورت مستقل از زبان

پایان نامه
چکیده

می دانیم که تجارت الکترونیک در سه شاخه، تجارت الکترونیکی کالا، خدمات و اطلاعات توسعه یافته است. از طرفی بحث اطلاعات، بازیابی و مدیریت آن از منظر اقتصادی، اجتماعی، سیاسی و امنیتی اهمیت بسیار زیادی برای کشورهای مختلف و کمپانی های بزرگ حوزه اطلاعات و فن آوری اطلاعات دارند. بنابراین حوزه تحقیقاتی متن کاوی و بازیابی اطلاعات و بطور ویژه پیاده سازی آنها بر روی پایگاه داده های بزرگ از اهمیت بسیار ویژه یی برخوردار می باشد. اولین گام در این حوزه، شناسایی و استخراج کلمات کلیدی از متون می باشد. یکی از چالشهای عمده بر سر راه این امر، وجود زبانهای بسیار متنوع برای اطلاعات متنی و وابستگی روشهای موجود استخراج کلمات کلیدی به نوع زبان و ساختار گرامی آن زبان خاص می باشد. لذا هدف این پژوهش، طراحی الگوریتمی مستقل از زبان به منظور استخراج کلمات کلید برای پیاده سازی روی پایگاه داده های بزرگ می باشد. از این رو با تمرکز روی خاصیت تکرار کلمات کلیدی در هر متن و تشدید آن در سایر متون به سمت بهبود و اصلاح الگوریتم tf-idf رفته و الگوریتم پیشنهادی را بر روی معماری linq2sql پایگاه داده بزرگ پیاده سازی نموده ایم. عملکرد الگوریتم پیشنهادی نیز توسط معیار نرخ دقت تشخیص مورد ارزیابی قرار گرفته است. اگرچه کارهای مشابه در این زمینه بر روی داده های بزرگ و مستقل از زبان وجود نداشته ولی مقایسه عملکرد با کارهای نزدیک در حوزه استخراج کلمات کلیدی وابسته به زبان، حکایت از عملکرد قابل قبول الگوریتم پیشنهادی را دارد.

منابع مشابه

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

طراحی اولین پایگاه داده کلمات دستنویس کردی برای سیستم های تشخیص تصویری کلمات

چکیده: یکی از اجزای زیربنایی سیستم های تشخیص تصویری کلمات پایگاه داده هاست. هر سیستمی که در این زمینه طراحی گردد لاجرم می بایست از یک نوع پایگاه داده ها استفاده کند. بدیهی است چون موضوع مورد مطالعه در این سیستم ها شکل نوشتاری زبان های مختلف میباشد پس برای هر زبان مشخص پایگاه داده بخصوصی لازم است. زبانی که این مقاله بر آن متمرکز شده کردی است و در این مقاله مراحل مختلف چگونگی طراحی اولین پایگاه...

متن کامل

سودمندی حسابرسی مستقل صورت های مالی

در این تحقیق سودمندی حسابرسی مستقل صورت های مالی از دیدگاه مدیران مالی شرکت های پذیرفته شده در بورس اوراق بهادار تهران مورد بررسی قرار گرفته است. نتایج تحقیق نشان می دهد از نظر مدیران مالی شرکت های مزبور. حسابرسی مستقل در خصوص کشف و کاهش احتمال وقوع تخلف،اعمال غیر قانونی و ارزیابی دقیق مبناهای برآوردهای حسابداری موثر و سودمند است ولی در خصوص بهبود سیستم کنترل داخلی. کشف و کاهش احتمال وقوع اشتب...

متن کامل

ارائه روشی جدید برای شاخص گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه بندی متون

در زبان فارسی کلمات دارای صورت های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح نامه که از نظامی ساختارمند برخوردار است می توان شبکه کلمات...

متن کامل

استخراج پارامترهای هندسی درختان از داده لیدار برای مناطق جنگلی

برای استخراج پارامترهای هندسی تک تک درختان در گذشته از دو روش فتوگرامتری و میدانی استفاده می کردند، روش میدانی یعنی استخراج پارامترهای هندسی تک تک درختان به صورت دستی،اما روش میدانی به شدت وقت گیر می باشد همچنین عکسهای هوایی به طور مستقیم نمی توانند اطلاعات ساختار سه بعدی جنگل را تهیه کنند، به همین خاطر تکنولوژی لیدار اخیرا به طور گسترده ای مورد استفاده قرار گرفته است. اولین گام برای استخراج پا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023