شناسایی سرقت علمی در اسناد فارسی بر اساس مدل سازی موضوعی

پایان نامه
چکیده

در سالیان اخیر به دلیل پیشرفت فناوری اطلاعات به خصوص اینترنت در دسترس بودن اطلاعات افزایش یافته است. داده های متنی حجم وسیعی از این اطلاعات را در بر می گیرند. کپی کردن داده های متنی به راحتی صورت می پذیرد. در نتیجه سوء استفاده از این اطلاعات به راحتی امکان پذیر می باشد. هدف ما یافتن افراد متقلب و برخورد با آن هاست نه مخفی کردن و یا حفاظت از اطلاعات. متدهای زیادی برای تشخیص تقلب در متن بیان شده اند. متدهای فضای برداری جهت تشخیص شباهت اسناد موجود در یک پیکره مورد استفاده قرار می گیرند. اما این روش ها از حل دو مشکل اساسی ناشی از پردازش زبان های طبیعی، یعنی کلمات هم معنی و کلمات چندمعنی عاجزند. با استفاده از روش های آنالیز معانی مخفی مانند تجزیه بردارهای ویژه تشخیص شباهت به کمک کشف معانی مخفی موجود در اسناد صورت می پذیرد. با این حال تجزیه بردارهای ویژه حجم محاسباتی بسیار بالایی دارد و در داده های نسبتا زیاد زمان اجرایی بسیار بالایی دارد. در این پژوهش با دو رویکرد پردازش زبان های طبیعی مانند حذف ایست-واژه و نرمال سازی متن و بازیابی اطلاعات مانند خوشه بندی سعی در رفع این مشکلات کردیم. در دادگان فارسی جهت پردازش زبان های طبیعی به مشکلاتی برخوردیم و پیشنهاداتی در زمینه رفع آن ها ارائه و اجرا شد. در بخش خوشه بندی از مدل سازی موضوعی جهت مدل کردن دادگان استفاده شده است. اسناد با موضوعات یکسان در یک خوشه قرار گرفته و هر خوشه به صورت جداگانه مورد بررسی برای یافتن موارد تقلب قرار می گیرد. سیستم پیشنهادی را بر روی دو زبان فارسی و انگلیسی اعمال کردیم. ابتدا دادگان را بر اساس روش های پیشنهادی نرمال کرده، سپس اسناد براساس موضوع خوشه بندی شده و در نهایت در هز خوشه تشخیص سرقت علمی صورت می گیرد. در زبان انگلیسی به میزان f_1 93 درصد و در زبان فارسی به 90 درصد دست یافتیم.

منابع مشابه

رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی LDA

Word sense disambiguation is the task of identifying the correct sense for the word in a given context among a finite set of possible sense. In this paper a model for farsi word sense disambiguation is presented. The model use two group of features: first, all word and stop words around target word and topic models as second features. We extract topics from a farsi corpus with Latent Dirichlet ...

متن کامل

بازیابی بر اساس محتوای اسناد چاپی فارسی

با افزایش کتابخانه های دیجیتال و برای برای دستیابی به هدف ادارات بدون کاغذ تعداد زیادی از کپی ها به دیجیتال تبدیل شده و در سیستم مدیریت اسناد ذخیره شده است. همچنین در حال حاضر میلیون ها سند دیجیتال دائماً بر روی اینترنت از یک نقطه به نقطه ی دیگر منتقل می شوند. اگر چه تکنولوژی پردازش تصویر اسناد می تواند برای تبدیل اتوماتیک تصاویر دیجیتال این اسناد به فرمت متن قابل خواندن به وسیله کامپیوتر با اس...

15 صفحه اول

شناسایی و اولویت بندی عوامل مؤثر بر سرقت علمی دانشجویان دانشگاه اصفهان

توسعه گسترده فناوریها در محیطهای علمی ضمن داشتن پیامدهای مثبت آسیبهایی نیز دارد که یکی از آنها پدیده سرقت علمی است. هدف این پژوهش شناسایی و اولویت‌بندی عوامل مؤثر بر سرقت علمی دانشجویان دانشگاه اصفهان بود. روش پژوهش توصیفی- پیمایشی و از نوع کاربردی بود. جامعه آماری کلیه دانشجویان دانشگاه اصفهان بودند که 300 نفر از آنان به روش نمونه‌گیری تصادفی نسبتی انتخاب شدند. ابزار جمع‌آوری داده‌ها پرسشنامه ...

متن کامل

سرقت علمی و ضمانت اجراهای مقابله با آن؛ با تأکیدی بر مسئلة تعامل سرقت علمی و نظام حقوق مالکیت فکری

سرقت علمی به معنای کپی کردن اثر دیگری و انتساب آن به خود است که همپوشانی نزدیکی با نظام حقوق مالکیت فکری دارد. ازاین‌رو بسیاری از افراد جامعة دانشگاهی این دو اصطلاح را مترادف تلقی می‌کنند، اما این تصور نادرست بوده و همة مصادیق سرقت علمی از جمله استفاده از ایدة اثر دیگری یا خودسرقتی مشمول نظام حقوق مالکیت فکری نیست. مقالة حاضر تلاش می‌کند با روش تحلیلی – توصیفی و رویکرد کتا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023