نام پژوهشگر: محسن کاهانی

استخراج آنتولوژی به روش داده کاوی به منظور استفاده در سیستم تشخیص نفوذ همکارانه
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1388
  مهدی هاشمی شهرکی   محسن کاهانی

امروزه با گسترش شبکه¬های کامپیوتری، بحث امنیت شبکه بیش از گذشته مورد توجه پژوهشگران قرار گرفته است. در این راستا تشخیص نفوذ به¬عنوان یکی از اجزای اصلی برقراری امنیت در شبکه¬های کامپیوتری شناخته می¬شود که هدف اصلی آن کنترل ترافیک شبکه و تحلیل رفتارهای کاربران می¬باشد. به¬طور کلی در اغلب کارهای انجام گرفته در این حوزه از یک تاکسونومی جهت نمایش ویژگی حملات استفاده شده است. بکارگیری تاکسونومی مشکلات و محدودیت¬های فراوانی در سیستم تشخیص نفوذ ایجاد می¬کند که برای جلوگیری از بروز آنها می¬توان از یک آنتولوژی جهت طبقه¬بندی و بیان ویژگی حملات استفاده نمود. آنتولوژی علاوه بر دارا بودن ویژگی¬های تاکسونومی مزایای عمده دیگری نیز دارد و با استفاده از آن می¬توان مدل داده¬ای تشخیص نفوذ را از منطق سیستم کشف نفوذ تفکیک نمود. از این¬رو هدف اصلی این تحقیق بر روی استخراج آنتولوژی حملات در حوزه¬ی تشخیص نفوذ شبکه¬های کامپیوتری بنا شده است. بدین منظور یک معماری توزیع شده مبتنی بر عامل طراحی شده است، و از تکنیک-های داده¬کاوی متفاوتی مانند الگوریتم¬های طبقه¬بندی ripper و خوشه¬بندی hotspot بر روی مجموعه¬ی داده¬ای nsl-kdd استفاده می¬شود. با بهره¬گیری از این الگوریتم¬ها می¬توان قوانین لازم جهت مشخص نمودن ویژگی کلاس¬های مختلف آنتولوژی حملات را تولید نمود. آنتولوژی بدست آمده به عنوان یک طبقه¬بند در سیستم تشخیص نفوذ توزیع شده به¬کار گرفته می¬شود. بدین منظور آنتولوژی حملات در قالب یک فایل owl در اختیار عامل مرکزی قرار می¬گیرد. وظیفه عامل مرکزی این است که گزارش عامل¬های ایستا را دریافت کرده و با بهره¬گیری از زبان پرس¬و¬جوی sparql و تکنیک¬های تشابه معنایی، کلاس مربوط به نمونه¬ی دریافتی را در آنتولوژی حملات مشخص کند. ارزیابی سیستم پیشنهادی بر روی مجموعه داده¬ای nsl-kdd حاکی از قدرت آن در تشخیص نفوذ شبکه¬های کامپیوتری می¬باشد. به¬طوری که با بهره¬گیری از این سیستم می¬توان به نرخ تشخیص 99/2% همراه با نرخ هشدار غلط 0/2 دست یافت.

جلوگیری از هرزنامه مبتنی بر آنتولوژی و اطلاعات شبکه های اجتماعی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1388
  احسان ضمیری   محسن کاهانی

امروزه پست الکترونیکی یا ایمیل یکی از سریع ترین و اقتصادی ترین راهها برای ارتباط می باشد. با این حال، افزایش کاربران پست الکترونیکی باعث افزایش بی سابقهای در تعداد هرزنامه ها در چندین سال اخیر شده است. در چند ساله ی اخیر تلاش های زیادی برای فیلترکردن هرزنامه صورت گرفته است که اغلب آنها از روش های آماری و یادگیری ماشینی استفاده کرده اند که اغلب نیازمند انبوه داده برای عملیات یادگیری می باشند. هم چنین در این روشها برای فیلترکردن هرزنامه ، از معنای محتوای ایمیل و نیز نحوه ی تعاملات بین فرستندگان هرزنامه و فرستندگان معتبر، استفاده نشده است.در این پایان نامه دو روش برای فیلترکردن هرزنامه ارائه شده است. در روش اول یک آنتولوژی از مفاهیم متداول هرزنامه ساخته می شود. مشابهت معنایی گراف موضوعی متن و نیز سرآیند ایمیل با این آنتولوژی به همراه مشابهت معنایی بین سرآیند و بدنه ی ایمیل، سه مولفه برای فیلترکردن معنایی ایمیل می باشند. محاسبه ی مشابهت معنایی با استفاده از آنتولوژی زمینه ی wordnet صورت می گیرد. در روش دوم از گزارشات تراکنش ایمیل بین فرستندگان ایمیل به منظور ساخت یک شبکه ی اجتماعی ایمیل استفاده می شود. سپس یکسری از ویژگی های متمایز کننده ی فرستندگان هرزنامه و فرستندگان معتبر ارائه می شود. سرانجام از این ویژگی ها به منظور دسته بندی ایمیل های هرزنامه و ایمیل های معتبر استفاده می شود. از آنجائی که هر یک از این دو فیلتر بر روی ویژگی های متمایزی تمرکز دارند، ترکیب این دو فیلتر به صورت سری منجر به نتایج کامل تری می شود.فیلتر مبتنی بر شبکه ی اجتماعی در فیلترکردن هرزنامه دقت بیش از 93 درصد از خود نشان داده است. این نتیجه قابل مقایسه با فیلترهای مبتنی بر یادگیری می باشد. همین طور فیلتر مبتنی بر مشابهت معنایی به صورت مکملی برای فیلتر مبتنی بر شبکه ی اجتماعی می باشد، به طوری که دقت بالای 96 درصد نتیجه ی ترکیب این دو فیلتراست.

چارچوب ارزیابی امنیت خودکار برنامه های کاربردی مبتنی بر وب
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1388
  راضیه رضایی صالح   محسن کاهانی

امروزه اطمینان از امنیت برنامه های کاربردی مبتنی بر وب مسأله ای اساسی برای تولیدکنندگان و همچنین مشتریان این برنامه ها است. سازمان های زیادی وجود دارند که برنامه های مبتنی بر وب را مورد ارزیابی امنیتی قرار داده و در صورت ایمن بودن به آنها گواهینامه ی امنیتی می دهند. در این مقاله چارچوبی ارائه شده است که تنها به تأیید ایمن بودن برنامه بسنده نمی کند، بلکه میزان ایمن بودن برنامه را با انتساب نمره ی امنیتی بین 0 تا 100 به آن مشخص می کند. چارچوب ارائه شده به طور خودکار برنامه ی تحت ارزیابی را مورد آزمون و بررسی امنیتی قرار می دهد. owasp استانداردی برای تأیید امنیتی برنامه های کاربردی مبتنی بروب (asvs) ارائه نموده است، که در این مقاله از asvs به عنوان پایه ی انجام بررسی و تأییدات امنیتی استفاده شده است. در این چارچوب با استفاده از پویشگرها، برنامه ی مبتنی بر وب به طور خودکار پویش می شود تا تأییدات امنیتی مشخص شده در asvs انجام گردد. در صورتی که هر یک از تأییدات امنیتی با موفقیت انجام نشود، مقداری از نمره ی نهایی امنیتی برنامه کسر می شود. اهمیت تمامی تأییدات امنیتی که باید انجام شود یکسان نیست و در صورت عدم انجام آنها میزان تهدیدات امنیتی که متوجه برنامه می شود به یک اندازه نمی باشد. برای مشخص نمودن وزن هر یک از تأییدات امنیتی در تعیین نمره ی نهایی، معیارهایی جهت تعیین وزن هر یک از آنها بر اساس معیارهای cvss ارائه شده است. با اندازه گیری این معیارها میزان اهمیت هر یک از تأییدات و وزن آنها را در تعیین نمره ی نهایی مشخص می شود. بر اساس تأییدات امنیتی انجام شده و وزن هر یک، سطح امنیت برنامه ی تحت ارزیابی با نمره ی انتساب داده شده به آن مشخص می گردد.

نقش تجارت الکترونیکی در ارتقا سطح صادرات غیر نفتی استان خراسان رضوی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز 1388
  ارغوان دانشور محولات   محسن کاهانی

نگاهی به سیاست گذاریها از گذشته تاکنون، حرکت تدریجی از رویکرد تجاری درون گرا به نگرش برون گرا در ایران و توسعه صادرات در عرصـه تجارت بین المللی را نمایان می سازد. بررسیهای موجود نشان می دهد که تجارت الکترونیک باعث کاهش هزینه ها و افزایش صادرات و اشتغال و تولید می شود هدف از انجام این تحقیق بررسی نقش تجارت الکترونیک در ارتقاء سطح صادرات غیر نفتی استان خراسان رضوی و در صورت امکان ارائه راهکارهایی در جهت افزایش و بهبود آن میباشد. نخست با مراجعه به منابع و مدارک موجود و انجام مصاحبه نقاط قوت و ضعف تجارت الکترونیک و متغیرهای قابل بررسی شناسایی شد. سپس پرسشنامه ای تهیه و برای جامعه آماری که همان شرکتهای صادر کننده استان هستند ارسال گردید . در ادامه با کمک نرم افزارهای آماری، نتایج حاصله مورد بررسی و تحلیل قرار گرفت. تاثیر تجارت الکترونیک بر صادرات غیر نفتی استان از جهات مختلف ارزیابی شده و در انتها پیشنهاداتی در جهت بهبود وضعیت ارائه گردیده است.

بررسی آواشناختی و رایانه ای تاثیرات کششی پاره ای سازه های نوایی در زبان فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده ادبیات و علوم انسانی دکتر علی شریعتی 1389
  عباس مهدی زاده   نادر جهانگیری

این پژوهش کشش سازه ای را به عنوان نشانه ای برای ناحیه برجستگی و مرزهای نوایی مورد بررسی قرار می دهد. از دو آزمایش انجام شده، اولی تاثیر تکیه تقابلی را بر دیرش هجا، واکه و همخوان مورد مطالعه قرار می دهد. آزمایش دوم تاثیر انواع جمله و چهار مقوله مرزی را بر دیرش هجا، واکه و همخوان بررسی می کند. پنج گویشور تحصیلکرده زبان فارسی واژه های کلیدی با سه هجای cv را که شامل هجای مورد بررسی می باشند، تولید کردند. واژه های کلیدی در جملات حامل با چهار حالت کانونی در آزمایش اول و در چهار مقوله مرزی و سه نوع جمله در آزمایش دوم تولید شدند. نتایج آزمایش اول نشان داد که هجای با تکیه کانونی کشش بیشتری نسبت به بقیه حالت ها دارد. علاوه بر این در حالت کانونی تاثیرات کششی پیشرو در واژه مشاهده می شود. از نتایج اصلی آزمایش دوم تاثیرات کششی مرز پایان واژه و تاثیر معنادار نوع جمله و مقوله های مرزی بر دیرش هجا، واکه و همخوان می باشد. در پایان با استفاده از روشهای شبکه عصبی و درخت تصمیم برای داده های بررسی شده مدل ارائه شده است و درجه اهمیت متغیرها در مدل ها تعیین شده است.

برچسب زنی اجزای گفتار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده ادبیات و علوم انسانی دکتر علی شریعتی 1389
  راضیه احمدی   نادر جهانگیری

یکی از کارهای اساسی در پردازش زبان طبیعی، برچسب زنی اجزای گفتار می باشد. برچسب زنی، تعیین مقوله های دستوری برای هر نماد در متن می باشد. در برچسب زنی دو حوزه ساختواژه و نحو زبان برای تعیین مقوله های دستوری با یکدیگر تعامل دارند. تحلیل های ساختواژی، یکی از مسائل اصلی در تحلیل های رایانه ای متون فارسی است و پردازش متون رایانه ای فارسی را با مشکلاتی روبرو کرده است، از جمله این مشکلات، شناسایی واژه های ناشناخته در متن و مشکلات خط فارسی می باشد. برای برچسب زنی، سیستمهای متفاوتی با الگوریتمهای متفاوت وجود دارد، از جمله این سیستمها، سیستم برچسب زن گیت(gate) می باشد که در این پژوهش، به بررسی برچسب زنی و مشکلات مربوط به آن پرداخته می شود. الگوریتم بکاررفته در این سیستم، الگوریتم هپل((hepple می باشد که ترکیبی از دو رویکرد آماری و قاعده بنیاد است. در سیستمهای برچسب زنی از پیکره های برچسب گذاری شده استفاده می شود. در این سیستم، از پیکره برچسب گذاری شده بی جن خان که تقریبا شامل دومیلیون وپانصد هزار واژه و 550 برچسب می باشد، استفاده شده است. قابل ذکر می باشد که مجموعه برچسب زیاد، برچسب زنی را با مشکل مواجه می کند، به همین دلیل در این پژوهش از 40 مجموعه برچسب کاهش یافته از 550 برچسب بی جن خان استفاده شده است. در این سیستم، برچسب زنی روی متون استاندارد از روزنامه همشهری صورت گرفته است و سعی بر این است که در این متون، مشکلات مربوط به تحلیل رایانه ای متون فارسی حل بشود. نتیجه ارزیابی و دقت سیستم در این متون 97درصد می باشد. هدف بعدی این است که سیستم در مورد متون غیراستاندارد نیز به نتیجه مطلوبی برسد. دقت سیستم برای این متون 92درصد می باشد که در مقایسه با متون استاندارد، دقت مطلوبی است.

تشخیص الگوی رفتار تأمین کنندگان در تأمین قطعات خودرویی از طریق داده کاوی (مورد مطالعه: شرکت مهد خودرو توس)
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده علوم اداری و اقتصادی 1389
  بهناز ترابی مقدم   محمد لگزیان

از اوایل دهه 1990 با مطرح شدن موضوع مدیریت زنجیره تأمین در مباحث مدیریت عملیات و تولید، نگرش مدیران به سمت استفاده حداکثر از توانایی تک تک اجزای این زنجیره سوق داده شده و در این راستا ارزیابی تأمین کنندگان به منظور بهبود عملکرد آن ها و انتخاب بهترین گزینه از روش های متعددی دنبال گردیده است. در این تحقیق ابتدا با طرح مسأله بررسی الگوی رفتار تأمین کنندگان در تأمین قطعات، به توجیه اهمیت این موضوع پرداخته شد؛ سپس با بیان توانایی فرآیند داده کاوی در به کارگیری روشی جامع جهت لحاظ نمودن کلیه عوامل احتمالی موثر بر رفتار تأمین کننده، داده های مربوط به سوابق تأمین قطعات در بازه زمانی فروردین 87 تا شهریور 89 مورد بررسی و تحلیل قرار گرفت. در این پژوهش از نرم افزار spss clementine استفاده گردید که توانایی لازم در تحلیل حجم داده مورد نظر تحقیق را داراست. همچنین از فرآیند استاندارد crisp-dm به عنوان متدلوژی اصلی پژوهش بهره برده شد و هر قسمت از پژوهش, منطبق بر یکی از گام های این فرآیند تدوین گردید. همچنین به منظور بررسی الگوی رفتار تأمین، اطلاعات مرتبط با هر سفارش در بازه زمانی یاد شده گردآوری و پس از انجام گام پیش پردازش داده ها، به مدل ها تزریق گردید. بر این اساس مهم ترین عوامل موثر بر رفتار تأمین کننده به عنوان خروجی مدل شناسایی شد و ارتباطات قابل تعمقی بین مشخصات تأمین کننده و مشخصات قطعه در هر بازه زمانی با نحوه تأمین توسط تأمین کننده استخراج گردید.

پرکردن خودکار فرم های وب با استفاده از وب داده
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  محبوبه دادخواه   محسن کاهانی

فرم های وب اصلی ترین روش برای دسترسی به حجم قابل توجهی از اطلاعات در وب عمیق هستند. کاربران فرم های وب را برای جستجوی این اطلاعات و یا ثبت نام در وب سایت هایی همانند سایت های اجتماعی استفاده می کنند. پر کردن فرم یک فرآیند تکراری است و بعضی از داده های استفاده شده در این فرآیند، ایستا هستند. فرآیند پر کردن را می توان با استفاده از تکنولوژی معنایی برای ذخیره ی داده هایی که کاربر قبلا در فرم ها پر کرده و یا برای پیشنهاد مقادیری در پر کردن فرم های جدید توسط وب داده بهینه نمود. در این رساله، یک چارچوب برای پر کردن خودکار فرم با استفاده از داده های منتشر شده به صورت داده های پیوندی برروی وب، ارائه شده است. هدف اصلی در این رساله، استفاده از تکنولوژی های معنایی برای پر کردن خودکار فرم های وب جدید بر اساس وب داده و فرم هایی که کاربر قبلا پر کرده است، می باشد. چارچوب پیشنهادی از یک روش مبتنی بر آنتولوژی به عنوان روش نگاشت استفاده می کند. بدین جهت، مفاهیم استفاده شده در دامنه های مختلف فرم استخراج شده است. ابتکار کلیدی در این چارچوب، استفاده از داده های پیوندی به عنوان یک منبع مفید برای فراهم کردن داده در پر کردن فرم ها می باشد. اگرچه فرآیند پیشنهادی نیاز به میزان کمی از تعامل کاربر دارد، بازخوردهای کاربر در مورد هر فیلد بلافاصله استفاده می شود تا مقادیر درستی را برای پر کردن فیلدهای دیگر این فرم و نیز فرم های جدید فراهم گردد. نتایج تجربی برروی مخزن فرم tel8 نشان می دهد که در صورت وجود داده های پیوندی، استفاده از آن در حوزه های مختلف فرم می تواند فاز پیشنهاد داده در فرآیند پر کردن را بهبود بخشد. استفاده از وب داده در نه حوزه ی مختلف، یک تلاش چالش برانگیز و خلاقانه است که در این چارچوب مورد توجه قرار گرفته است. یافته ها نشان می دهند که داده های پیوندی باز کنونی یک منبع مفید در ساختن برنامه های کاربردی حوزه های مختلف می باشد. نتایج ارزیابی نشان می دهند که روش پیشنهادی امکانپذیر و موثر است و نتایج راضی کننده می باشند.

خلاصه سازی چند سندی مبتنی بر استخراج مفاهیم
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  آصف پورمعصومی حسن کیاده   محسن کاهانی

با گسترش روز افزون حجم داده ها و اطلاعات، خلاصه سازی خودکار متون نیز با استقبال چشم گیر محققین روبرو شده است. در سال های اخیر خلاصه سازی چندسندی با اقبال بیشتری مواجه بوده است. یک سیستم خلاصه سازی چندسندی استخراجی، خلاصه سازی است که چندین سند را به عنوان ورودی دریافت کرده و گزبده ای از جملات اسناد اولیه را تولید می نماید. . خلاصه خوب باید بیانگر زمینه کلی بوده و ضمن بیان دیدگاه های مختلف موجود در متن از خوانایی و پیوستگی بالایی برخوردار باشد. در این پایان نامه با تمرکز به مشکلات اصلی خلاصه سازی چندسندی، یعنی پوشش کامل مطالب اصلی و عدم وجود افزونگی، روشی جدید برای خلاصه سازی ارائه شده است. در مدل پیشنهادی در ابتدا با دید کلی بر اسناد، زمینه آنها استخراج می شود. سپس جملات بر اساس شباهت با زمینه مرتب می شوند. در ادامه با استفاده از برچسب زنی معنایی جملات و شبکه واژگان، شباهت کلمات در نقش های معنایی یکسان محاسبه شده و افزونگی حذف می شود. برای استخراج زمینه از روش آنالیز روابط معنایی پنهان استفاده شده است. نحوه استفاده از این روش در این پایان نامه، باعث افزایش قابل توجه دقت نسبت به کاربردهای قبلی این تکنیک در روش های پیشین شده است. همچنین روش پیشنهادی برای حذف جملات تکراری نسبت به روش های گذشته، منجر به حذف با دقت بیشتر شده است. ارزیابی سیستم پیشنهادی برروی داده های کنفرانس duc و با استفاده از معیار ارزیابی rouge صورت گرفته است. همچنین سیستم پیشنهادی برروی پیکره کوچکی از متون فارسی هم ارزیابی شده است.

رتبه بندی مجموعه داده ها در موتورهای جستجوی معنایی برای تشخیص هرز داده
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  سهیلا دهقانزاده   محسن کاهانی

با ظهور وب معنایی و همه گیر شدن آن، ضرورت درک اطلاعات وب توسط ماشین بر هیچ کس پوشیده نیست. انتظار انسان از چگونگی نتایج یک موتور جستجو با انتظار عامل نرم افزاری از چگونگی نتایج فرق می کند. آنچه مسلم است، وب کنونی (وب اَسناد) برای ماشین قابل فهم نبوده و صفحات وب فقط توسط انسان ها قابل پردازش بوده است. پروژه عظیم داده های پیوندی، حجم زیادی از داده های rdf ،که توسط ماشین و انسان قابل فهم است، را روی وب در دسترس قرار داده است. برای استفاده از این حجم انبوه داده ها باید بتوان آن ها را جستجو کرد. بنابراین، نسل دوم برنامه های وب معنایی(وب داده ها)، به نقاط دسترسی کارا به وب معنایی نیاز دارند که ماهیت معنایی این دانش را نیز لحاظ کند. به بیان دیگر از آنجا که موتورهای جستجو دروازه ورود به وب هستند و انسان و ماشین هم باید بتوانند روی این مدل داده جدید (rdf) جستجو انجام دهند، ضرورت یک موتور جستجوی معنایی برای انسان و یک موتور پرسش معنایی برای ماشین کاملاً احساس می شود. با ظهور موفقیت آمیز "وب داده ها"، سوء استفاده های شخصی برای کسب سود و منفعت بیشتر در قالب هرز داده، در وب داده ها رو به افزایش است. از آنجا که الگوریتم رتبه بندی یک موتور جستجو، تا حد زیادی وظیفه مقابله با این نوع تهدیدها را بر عهده دارد، این پایان نامه با بررسی الگوریتم های رتبه بندی "وب اسناد" و تطبیق آن برای وب داده ها، بدنبال پیشگیری از ظهور هرز داده در نتایج موتورهای جستجوی معنایی است . ابتدا با ایجاد انواع مختلف هرز داده و مشاهده نتایج رتبه بندی الگوریتم مشهور ding که در موتور جستجوی معنایی sindice بکار رفته است و الگوریتم رتبه بندی بر اساس ماتریس صلاحیت نام گذاری که در موتور جستجوی معنایی swse بکار رفته است، نقاط ضعف این الگوریتم ها در مقابل ارتباطات گروهی نشان داده شده است. الگوریتم پیشنهادی برای رتبه بندی مجموعه داده ها، با کشف ارتباطات گروهی و جریمه این نوع هرز داده، با یک روش جدید ارتباطات را وزن دار می کند و با اعمال رتبه بندی وزن دار، اعضای ارتباط گروهی را در قعر نتایج رتبه بندی قرار می دهد. از آنجا که برای بکارگیری تمام مفاهیم پنهان یک چهارگانه برای رتبه بندی دامنه ها، باید هر دو روش بکار رفته در صلاحیت نام گذاری و ding توأما بکار گرفته شوند، روش ارائه شده در این پایان نامه ترکیبی از دو روش موجود، همراه با تکنیک های کشف ارتباط های گروهی است. نوآوری اصلی این پایان نامه، ارائه یک روش رتبه بندی جدید است که توسط ارتباطات گروهی گمراه نشود و تمام مفاهیم ضمنی چهارگانه را به کار گیرد. برای ارزیابی روش پیشنهادی مجموعه داده داروها از ابر داده های پیوندی جمع آوری شده است. چهار نوع هرز داده ایجاد شده در چهار تست به مجموعه داده تزریق شده اند و نتایج هر مرحله نشان دهنده اینست که روش پیشنهادی در کشف انواع هرز داده موفقیت آمیز بوده است.

روش جدید وزن دهی معنایی به کلمات در کاربردهای پردازش متن
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده فنی و مهندسی 1390
  حسین کامیار   محسن کاهانی

امروزه استفاده از وب به یکی از عناصر حیاتی زندگی انسانی تبدیل شده است. حتی در بسیاری از جوامع زندگی روزمره آدمی در صورت اختلال در وب دچار مشکلات اساسی می شود. به همین دلیل حجم اطلاعاتی متنی در وب به طرز چشمگیری افزایش یافته است. حتی به صورت شهودی نیز می توان ادعا نمود که نرخ رشد اطلاعات متنی در دنیای امروزه از نرخ رشد داده به هر شکل دیگری مانند صوت، تصویر و ... بالاتر است. کاربران در میان این دریای داده های خام، همیشه به دنبال اطلاعات خاصی هستند. به این منظور احتیاج به پردازش متن و زبان که در حقیقت لایه بالایی متن می باشد، شدیداً وجود دارد. از این رو، در حال حاضر بیش از هر زمان دیگری نیاز به سیستم های پردازشگر زبان مانند، بازیابی کننده های اطلاعات، خلاصه سازها، مترجم ها و ...احساس می شود. یکی از اولین گام ها در پردازش زبان وزن دهی به کلمات به عنوان ویژگی های قابل پردازش از یک متن می باشد. به همین دلیل تحقیقات فراوانی بر روی وزن دهی به کلمات به عنوان ابزار پیش خوشه بندی متون انجام می شود. هر چه دقت روش وزن دهی بالاتر باشد دسته بندی اولیه متون بهتر انجام شده و در نهایت دسته بندی اصلی آنها از دقت بهتری برخوردار خواهد بود. روش های مشهور فعلی وزن دهی به کلمات، معمولاً روش های آماری قرضی از دیگر کاربردهای خوشه بندی هستند، که مبتنی بر شمارش فرکانس کلمات می باشند. اما ویژگی های اصلی زبان، معنا و گرامر می باشد که توسط این روش ها قابل شمارش نمی باشند. در این تحقیق یک روش جدید با رویکرد توجه به ویژگی های اصلی زبان برای وزن دهی به کلمات ارائه شده است. این روش با مبنا قرار دادن یک روش مشهور وزن دهی آماری به نام tf-idf به تغییر پارامتر tf که یک پارامتر اندازه گیری فرکانس در سطح یک متن می باشد، می پردازد. این تغییرات از دو جنبه معنا توسط پایه قرار دادن یک تئوری زبانی به نام نظریه مرکزیت و گرامر با توجه به نقش گرامری کلمات در متن و توزیع آنها، انجام می گردند. همچنین جهت پر کردن خلاً توجه به تأثیر سراسری کلمات در مجموعه ای از متون در تغییر پارامتر tf به نقش گرامری کلمات در سطح کلیه متون نیز توجه شده است. نتایج بدست آمده در پایان نامه به خوبی تأثیر روش پیشنهادی بر روش های پردازش زبان را نشان می دهد. یک چنین روشی تا میانگین 11% نسبت به یک روش مشهور وزن دهی مانند tf-idf، بهبود دقت در کاربردی مانند بازیابی اطلاعات رانشان می دهد.

ارائه یک سیستم پیشنهاد استناد مبتنی بر داده های پیوندی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  فتانه زرین کلام   محسن کاهانی

حجم فراوان و روبه رشد مقالات منتشر شده بر روی وب، فرآیند تصمیم گیری و انتخاب مقالات مرتبط با یک زمینه تحقیقاتی را برای پژوهشگران دشوار کرده است. روش رایجی که اغلب پژوهشگران برای جستجوی اسناد مرتبط با یک زمینه تحقیقاتی استفاده می کنند، یافتن کلمات کلیدی و استفاده از موتورهای جستجو می باشد. با توجه به این که پیدا کردن لیست کلمات کلیدی که دربرگیرنده تمام مقالات یک زمینه باشند کاری دشوار است، با استفاده از این روش، نمی توان به خوبی تمامی مقالات مرتبط را پیدا نمود. یک سیستم پیشنهاد استناد، با دریافت متن ورودی، مقالاتی که باید آن متن به آن ها استناد کند را پیشنهاد می کند، و بدین ترتیب می تواند در یافتن مقالات مرتبط با یک موضوع به پژوهشگر کمک کند. در حال حاضر سیستم های پیشنهاد استناد موجود محدود به پیشنهاد از یک منبع داده محلی می باشند، این محدودیت، از آنجاییکه در زمینه کتاب شناسی هیچ منبع داده ای حاوی اطلاعات کامل درباره تمام مقالات نمی باشد، باعث کاهش کیفیت پیشنهادها می شود. در این پایان نامه یک سیستم جدید برای پیشنهاد استناد ارائه شده است که در لایه داده خود از داده های پیوندی استفاده می کند و الگوریتم پیشنهاد آن مبتنی بر ترکیب شباهت رابطه ای و شباهت متنی می باشد. ارزیابی های انجام شده نشان می دهد که استفاده از داده های پیوندی بعنوان لایه داده بدلیل مزایای آن از جمله انتشار داده ها با یک قالب استاندارد و برقراری پیوند بین منابع داده مختلف باعث کاهش پیچیدگی جمع آوری داده و غنی شدن لایه داده به دلیل استفاده از چندین منبع می شود. همچنین با توجه به آزمایش های انجام شده، معیار شباهت رابطه-ای پیشنهادی، در تشخیص شباهت مقالات موفق است و استفاده از آن در کنار شباهت متنی می تواند ضعف استفاده تنها از شباهت متنی را در پیدا کردن مقالات مرتبط کاهش دهد و در نتیجه سبب بهبود کیفیت سیستم پیشنهاد استناد شود.

ارائه یک مدل داده آمیزی معنایی مبتنی بر jdl
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد 1390
  حوا علیزاده نوقابی   محسن کاهانی

به دلیل افزایش جریان های داده‏ای و اطلاعاتی، بحث داده‏آمیزی به عنوان یکی از مهم‏ترین زمینه های تحقیقاتی و عملیاتی محسوب می شود. داده‏آمیزی اطلاعات چندین منبع را یکپارچه می‏کند و این عمل به منظور فراهم آوردن داده‏های مشخص و قابل درک درباره موجودیت‏ها و روابط بین آن‏ها صورت می‏گیرد و نهایتا منجر به استخراج دانش جدید نیز خواهد شد. با ظهور وب معنایی و همه گیر شدن آن، ضرورت درک اطلاعات توسط ماشین بر هیچ کس پوشیده نیست، این تحقیق برآن است تا تکنولوژی‏های وب معنایی را وارد حوزه داده‏آمیزی نماید. با توجه به اینکه یکی از رایج‏ترین مدل‏های داده‏آمیزی، مدل چندسطحی jdl می‏باشد، با افزودن معنا و گنجاندن آنتولوژی و سایر تکنولوژی‏های وب معنایی به این مدل، یک ساختار داده‏آمیزی معنایی ارائه می‏شود. ساختار ارائه‏شده، گام مهمی در رفع چالش معنایی، که یکی از چالش‏های اصلی موجود در سیستم‏های داده‏آمیزی است به حساب می‏آید و نیز ناهمگونی‏های نحوی، ساختاری و معنایی را برطرف خواهد نمود.

خلاصه سازی چکیده ای مبتنی بر مشابهت جملات
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده فنی و مهندسی 1390
  فاطمه پورغلامعلی   محسن کاهانی

خلاصه سازی خودکار متون همزمان با رشد روز افزون اسناد و طلاعات بیش از پیش مورد توجه علاقه مندان حوزه پردازش زبان طبیعی قرار گرفته است. از این میان خلاصه سازی چند سنده که در آن چندین سند به عنوان ورودی دریافت می گردد، مورد توجه زیادی قرار گرفته است. در بسیاری از روش های تنها گزیده ای از جملات اولیه بدون تغییر به عنوان خلاصه برگردانده می شود. که به خلاصه سازی گزینشی معروف است. در مقابل آن در زمینه خلاصه سازی چکیده ای که برگرفته ای از جملات اولیه را خواهیم داشت، کار چندانی انجام نگرفته است. در این پایان نامه به بیان روشی برای خلاصه سازی چکیده ای و چند سنده خواهیم پرداخت که بر مبنای نقش های معنایی، شباهت معنایی جملات، فشرده سازی، حذف و ادغام آنها عمل می نماید. نتایج ارزیابی نشان دهنده بهبود روش های پیشنهادی شباهت معنایی کلمات و فشرده سازی جملات نسبت به روش های مرتبط پیشین می باشند. همچنین ارزیابی سیستم پیشنهادی برروی داده های کنفرانس duc و با استفاده از معیار ارزیابی rouge نشانگر بهبود نتایج نسبت به اکثریت مطلق سیستم های موجود در مجموعه داده مذکور می باشد.

بررسی عوامل موثر در خلاصه سازی خودکار متون خبری فارسی با تاکید بر نشانه های گفتمانی و بر پایه دستور نقش گرا
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه سیستان و بلوچستان - دانشکده ادبیات و علوم انسانی 1390
  آسیه فروردین   نادر جهانگیری

هدف این پژوهش، بررسی عناصر زبان شناختی موثر بر بهبود خلاصه سازی خودکار متون خبری فارسی در صفحات وب با تاکید بر نشانه های گفتمانی با رویکرد میان رشته ای است. چارچوب نظری این تحقیق، مبتنی بر آرای مایکل هالیدی زبان شناس نقش گرا درباره انسجام متنی است. همچنین تلفیقی از نظریات زبان شناسان در خصوص نشانه های گفتمانی در چارچوب تئوریک مدنظر قرار گرفته و در روش شناسی از مدل ادمونسون در خلاصه سازی استخراجی استفاده شده است. اهم نتایج حاصل از بررسی 180 رویداد خبری و 1295 «پاراگراف» موجود به عنوان واحد تحلیل، بر روی وب سایت خبرگزاری ایسنا در قالب موضوعات اجتماعی، اقتصادی، سیاسی، فرهنگی و ورزشی طی شش ماهه نخست سال 1390 به شرح زیر است: - کل نشانه های گفتمانی موجود در متون خبری 6283 نشانه بوده است که 463 مورد، نشانه گفتمانی بدون تکرار در قالب 14 نوع نشانه در اخبار مورد بررسی شناسایی شده اند . - از میان نشانه های گفتمانی مورد بررسی، نشانه های ساختاری، فعلی، افزایشی و علتی مجموعا بیش از 75 درصد نشانه ها و عبارات پیوند دهنده جملات و پاراگراف های متون خبری را به خود اختصاص داده اند. - رویدادهای تک خبری در مقایسه با رویدادهای چند خبری در خلاصه سازی استخراجی کاربرد بیشتری دارند. - در 50 درصد اخبار مورد بررسی، پاراگراف دوم خبر به عنوان مهم ترین پاراگراف برای خلاصه سازی استخراجی به شمار می رود و در 18 درصد اخبار، پاراگراف آخر برای خلاصه سازی مناسب تر است. ضمن آنکه در 32 درصد اخبار امکان وزن دهی به پاراگراف ها و در نتیجه تعیین پاراگراف مهم برای خلاصه سازی میسر نیست. - از مجموع نتایج به دست آمده دو مفهوم «نانو خبر» و «زبان شناسی خبر» پیشنهاد شده که برای نخستین بار در حوزه خلاصه سازی مورد استفاده قرار گرفته است. نتیجه آنکه بین نشانه های گفتمانی موجود در متون خبری و نقش آنها در بهبود خلاصه سازی صفحات وب رابطه معنادار وجود دارد. کلمات کلیدی: خلاصه سازی خودکار، خلاصه سازی استخراجی، نشانه های گفتمانی، میان رشته ای، انسجام متنی، زبان شناسی رایانه ای، زبان شناسی خبر

بهبود ترجمه ماشینی آماری انگلیسی به فارسی با استفاده از اطلاعات زبانشناسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  رضا سعیدی   محسن کاهانی

با گسترش روز افزون حجم داده ها و اطلاعات و همچنین گسترش تعاملات بین المللی برقراری ارتباط یکی از مهمترین جنبه های زندگی امروز است. مشکل عمده ای که در این زمینه وجود دارد عدم امکان برقراری ارتباط با استفاده از داده های به زبان دیگر است. از اینرو یکی از مهمترین مسائل زندگی امروز ارائه راه حلی خودکار جهت ترجمه از یک زبان به زبان دیگر است. ترجمه ماشینی یکی از راه هایی است که برای حل این مشکل ارائه شده است و به خاطر اهمیت آن، در سالیان اخیر توجه بسیار زیادی به آن شده است. ترجمه ماشینی آماری به عنوان یکی از بهترین روش ها برای ترجمه از یک زبان به زبان دیگر شناخته می شود. برای زبان هایی که از لحاظ ساختار دارای شباهت زیادی به یکدیگر هستند خروجی این مترجم بسیار مناسب است. اما برای برخی جفت زبان ها مانند زبان های انگلیسی و فارسی تفاوت های ساختاری میان دو زبان و همچنین عدم وجود پیکره دوزبانه بزرگ باعث شده است که این روش برای ترجمه انگلیسی به فارسی ترجمه های مطلوبی را تولید نکند. در این پایان نامه سعی شده است با کمک گرفتن از اطلاعات زبان شناسی، تا حد ممکن بر مشکلات این روش برای ترجمه انگلیسی به فارسی فائق آید. جهت انجام این کار ابتدا سعی در کاهش تفاوت ساختاری میان جملات انگلیسی و فارسی شده است. این عمل می تواند منجر به ایجاد مدل ترجمه بهتر شود. برای این منظور یکسری قوانین استخراج و بر روی جملات انگلیسی اعمال گردید. این تغییرات منجر به بهبود حدود 17 درصدی در معیار bleu و حدود 21 درصدی در معیار nist گردیده است. در ادامه نسبت به غنی سازی عبارات داخل پیکره با استفاده از برخی اطلاعات زبان شناسی از جمله برچسب های بخش های سخن و ریشه کلمات اقدام شد. با این اطلاعات یک سیستم مترجم مبتنی بر فاکتور ایجاد گردید. خروجی این سیستم بهبود حدود 17 درصدی در معیار bleu و حدود 25 درصدی در معیار nist را نشان می دهد.

ارائه رهیافتی جدید برای تولید پیکره موازی انگلیسی-فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  سید احمد جکیان طوسی   محسن کاهانی

در این پژوهش، برای اولین بار مدلی ترکیبی برای تراز بندی جملات، جهت ساخت پیکره های موازی انگلیسی-فارسی ارائه شده است. در حالت کلی چارچوب روش پیشنهادی، غیر وابسته به زبان های مبدأ و مقصد بوده و از آن می توان برای تولید پیکره های موازی، برای هر جفت زبان دیگر، نیز استفاده کرد. نتایج بدست آمده از پیاده سازی ها نشان می دهد که بکار بردن ویژگی های زبانی و غیر زبانی ، عملکرد سیستم را تا حد قابل قبولی بهبود خواهد بخشید. همچنین در این تحقیق میزان تأثیر استفاده از شباهت های طولی، ترجمه تحت اللفظی و نقش دستوری کلمات، به صورت مستقل یا ترکیبی، برای عملیات ترازبندی مورد بررسی قرار گرفته است. بکارگیری طبقه بندهای سلسله مراتبی در تشخیص نوع تراز بندی به عنوان یکی از شاخص های اصلی سیستم پیشنهادی محسوب می شود که موجب بالا رفتن دقت وسرعت عملیات تولید پیکره نسبت به سایر مدل ها می شود. از ویژگی های دیگر این روش، قابلیت توسعه پذیری آن است. به این ترتیب که می توان با گنجاندن خصوصیاتی (در بدنه بردارهای ورودی) که ممکن است در آینده برای تشخیص بهتر نوع تراز بندی مورد توجه قرار گیرند کیفیت سیستم ترازبندی را ارتقاء بخشید. با این حال، چالش اساسی این رهیافت و بسیاری از روش های پیشین، وجود سلایق متنوع در ترجمه متون است. این مسئله در برخی موارد موجب تولید جملاتی می گردد که مشابهت آن ها با متن اصلی در حد معنا بوده و تنها قابل درک و تشخیص برای انسان می باشد. در چنین وضعیتی کار استخراج جفت عبارات معادل، بسیار دشوار است. علاوه براین در مورد متونی که مقید به رعایت ساختار دستوری زبان فارسی و انگلیسی نمی باشند عملیات تشخیص جملات هم تراز ممکن است به خوبی انجام نپذیرد.

گمنام سازی مسیرهای حرکت اشیا متحرک با سطوح متفاوت حریم خصوصی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  سمانه مهدوی فر   محسن کاهانی

امروزه استفاده روزافزون از دستگاه های آگاه از موقعیت منجر به انجام پژوهش های متعددی در زمینه داده کاوی مسیرهای حرکت اشیا متحرک شده است. از آن جا که داده های مسیرهای حرکت ممکن است شامل اطلاعات حساسی باشند، بنابراین حفظ حریم خصوصی اشیا متحرک در صورت انتشار این داده ها از اهمیت زیادی برخوردار است. در رویکردهای موجود، داده های مسیرهای حرکت بدون توجه به نیازمندی های متفاوت حریم خصوصی اشیا متحرک گمنام می شوند. در این پایان نامه، رویکردی جدید مبتنی بر خوشه بندی حریصانه برای گمنام سازی داده های مسیرهای حرکت ارائه می شود که در آن نیازمندی های متفاوت حریم خصوصی اشیا متحرک در نظر گرفته می شود. در این رویکرد، ابتدا به هر مسیر حرکت متناسب با نیازمندی های حریم خصوصی شی متحرک تولید کننده آن مسیر حرکت یک سطح حریم خصوصی متفاوت نسبت داده می شود. سپس مبتنی بر معیار فاصله edr، خوشه هایی با شعاع ثابت از داده های مسیرهای حرکت ایجاد می شود به گونه ای که اندازه هر خوشه متناسب با بالاترین سطح حریم خصوصی مسیرهای حرکت در آن خوشه باشد. در نهایت، با استفاده از الگوریتم بهبود یافته lcs، نقاط قابل اتصال بین دو مسیر حرکت یافت شده و مسیرهای حرکت در هر خوشه گمنام می شوند. نتایج آزمایش های انجام شده روی پایگاه داده های مسیرهای حرکت اشیا متحرک نشان می دهد که رویکرد پیشنهادی قادر است مصالحه قابل قبولی بین انحراف مکانی، امتیاز هم ترازی و احتمال بازشناسایی داده های مسیرهای حرکت که متناسب با نیازمندی حریم خصوصی هر شی متحرک است، برقرار نماید.

تحلیل عملکرد وب سرور با استفاده از مفاهیم نظریه صف و اصول شبیه‏ سازی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده صنایع 1391
  شهرزاد محسنیان هروی   محمدعلی پیرایش نقاب

در این تحقیق خدماتی که از طریق اینترنت عرضه می‏ شوند را به صورت یک مدل صف معرفی می ‏کنیم. در این راستا با تعریف انواع مسائل موجود در حوزه اینترنت سعی شده است که مدل را از روشهای تحلیلی و شبیه سازی تفسیر نماییم. یکی از نکات برجسته در این پایان نامه تحلیل مسائلی بر گرفته از دنیای واقعی و همچنین تحلیل جدیدی از درخواست‏های کاربران در وب سرورها است که تاکنون محققان در کارهای گذشته مدل صفی را برای تحلیل همزمان کاربران و درخواستهایشان ارائه نکرده اند. از دیگر دستاوردهای مهم این تحقیق، تحلیل حساسیت پارامترهای ورودی مدل و مقایسه نتایج محاسباتی مسائل مطرح شده است.

معناگرایی در ارزیابی خودکار خلاصه سازهای ماشینی فارسی با بهره گیری از شبکه واژگان
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  احمد استیری   محسن کاهانی

امروزه ابزارهایی نظیر خلاصه سازهای خودکار و مترجم های ماشینی، توجه زیادی را به خود جلب نموده اند و فعالیت های زیادی برای طراحی چنین ابزارهایی در سرتاسر جهان انجام شده است. در زبان فارسی هم نظیر دیگر زبان ها تلاش هایی در این زمینه صورت گرفته است. از این رو ارزیابی چنین ابزارهایی از اهمیت ویژه ای برخوردار است. در این پایان نامه، ابزاری به منظور ارزیابی خلاصه سازها ارائه شده است که البته قابلیت استفاده در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات را نیز دارد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیارها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات و جفت کلمات را محاسبه می نمایند. بدیهی است برای انجام مقایسه ی متون در سطح معنا در مورد خلاصه های چکیده ای، مقایسه ی ظاهر لغات کافی نمی باشد و بهره گیری از شبکه-ی واژگان، ضروری به نظر می رسد. در سیستم پیشنهادی شبکه واژگان "فردوس نت" با ایده ای مناسب، بکار گرفته شده و نتایج حاصل از ارزیابی را به طور قابل توجهی بهبود بخشیده است. ارزیابی سیستم پیشنهادی، نیازمند تهیه پیکره ای عظیم و تست ابزار بر روی اسناد این پیکره می باشد. پیکره "پاسخ" در دو بخش تک سندی و چندسندی شامل 1000 خلاصه ی تک سندی و 500 خلاصه ی چندسندی در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد توسط ابزاری تحت عنوان "خلاصه یار" تولید شد که نیمی از خلاصه ها گزینشی و نیمی دیگر چکیده ای می باشد. ارزیابی عملکرد ابزار طی روالی مشخص و استاندارد بر روی بخشی از پیکره فوق صورت گرفت که نتایج بدست آمده، بیانگر عملکرد قابل قبول ابزار بود.

بررسی میزان تأثیر عوامل مختلف بر روی میزان اثربخشی و کفایت دیالیز بیماران همودیالیزی با استفاده از داده کاوی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده آموزشهای الکترونیکی 1390
  لیلی ازقندی   محسن کاهانی

در این پایان نامه پس از مروری اجمالی بر تعاریف مربوط به داده کاوی و همچنین کاربردها و تکنیک های آن، به بررسی مطالعاتی که تاکنون در خصوص کفایت دیالیز و همچنین کاربرد داده کاوی در زمینه تأثیر عوامل مختلف بر کفایت دیالیز بیماران همودیالیزی در سطح ایران و جهان انجام شده بود پرداختیم. در فصل چهارم این پایان نامه پس از آماده سازی داده ها و به منظور فراهم آوردن امکان ارائه قوانین و تفاسیر قابل درک، از تکنیک خوشه بندی داده ها استفاده نموده و با استفاده از دو الگوریتم k-means و twostep داده های هر فاکتور را در خوشه های مختلف خوشه بندی نمودیم. در ادامه در همین فصل با بهره گیری از روش های مختلف کلاسه بندی داده ها از جمله c&r tree ، chaid ، c5.0 ، شبکه عصبی، شبکه بیزین و انتخاب ویژگی به شناسایی فاکتورهایی که بیشترین تأثیر را در میزان اثربخشی و کفایت دیالیز بیماران همودیالیزی دارند پرداخته و نتایج حاصل از هر یک از الگوریتم ها را ارائه نمودیم. در انتهای این فصل الگوریتم rotboost به عنوان یکی از الگوریتم های قدرتمند در زمینه کلاسه بندی معرفی شده و با اعمال تغییراتی در تابع طبقه بند این الگوریتم، مجموعه داده های تحقیق را با استفاده از این الگوریتم نیز کلاسه بندی نموده و فاکتورهایی که بیشترین نقش را در اثربخشی دیالیز ایفا می کنند پیش بینی شدند. در فصل پنجم از پایان نامه به بررسی میزان دقت هر یک از مدل های فصل قبل پرداخته و نتایج حاصل از این مدل ها را با یکدیگر مقایسه نمودیم. طبق نتایج این تحقیق سطح کلسترول بیمار همودیالیزی یکی از عواملی است که در پیش بینی میزان اثربخشی و کفایت دیالیز بیمار نقش مهمی داشته و کنترل سطح کلسترول بیمار می تواند موجب بهبود کفایت دیالیز بیمار گردد. همچنین با مقایسه مدل های مختلف بررسی شده در این تحقیق می توان فاکتورهای کلسترول، کلسیم و سدیم را به عنوان سه پارامتری که اهمیت بیشتری در پیش بینی کفایت دیالیز دارند معرفی نمود. نکته دیگری که در یافته های این تحقیق حائز اهمیت می باشد، دقت مناسب الگوریتم rotboost در مقایسه با سایر الگوریتم های کلاسه بندی مورد استفاده در این تحقیق می باشد که اگر از j48 به جای c5.0 به عنوان طبقه بند adaboost در این الگوریتم استفاده کنیم می توانیم دقت این الگوریتم را تا سطح قابل قبولی نسبت به سایر الگوریتم های کلاسه بندی افزایش دهیم.

استخراج قوانین انجمنی از جریان های داده معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  اشرف السادات حیدری یزدی   محسن کاهانی

روز به روز در کاربردهای بیشتری از قبیل مدل سازی ترافیک، شبکه های حسگر و دنبال کردن در کاربردهای نظامی، پردازش داده های برخط و غیره، شاهد تولید هر روزه حجم عظیمی از داده های جریان دارهستیم. کشف دانش بهینه از این جریان های داده، یک حوزه تحقیقاتی فعال در داده کاوی با کاربردهای متفاوت بوجود آورده است. برخلاف داده های ایستای موجود در پایگاه داده های سنتی، داده های جریان دار اغلب به صورت پیوسته با سرعت بالا و با حجم زیاد و همچنین با توزیع داده متغیر دریافت می شود. از طرفی مقادیر آنتولوژی ها و حاشیه نویسی هایمعنایی موجود بر روی داده ها نیز به طور پیوسته در حال افزایش می باشد. این نوع داده های پیچیده و ناهمگن چالش های جدیدی را در حوزه تحقیقاتی داده کاوی بوجود آورده است. اصلی ترین چالش در این مسأله، نیاز فناوری های کاوش قوانین انجمنی به تراکنش ها می باشد، در حالی که در داده های معنایی تعریف دقیقی از تراکنش وجود ندارد. کارهای مشابهی که در این زمینه انجام گردیده اند، اغلب با کمک کاربر تراکنش ها را برای داده های معنایی تعریفکرده و سپس به کمک الگوریتم های داده کاوی سنتی اقدام به کاوش قوانین انجمنی از این تراکنش ها می نمایند و لازمه این کار تسلط کاربر به ساختار داده های معنایی و دامنه کاربرد مورد نظر می باشد. لذا روشی مورد نیاز است که انسجام معنایی را در تمام مراحل کار برقرار سازد و تعریفی کلی و یکپارچه برای تراکنش ها و سایر مفاهیم مرتبط ارائه دهد. بنابراین در اینتحقیق به ارائه روشی جهت رفع چالش های ذکر شده و امکان پذیر ساختن پردازش حجم وسیع داده های معنایی جریان دار موجود و کشف و ذخیره سازی قوانین انجمنی جدید در سطح معنایی بالاتر با استفاده از غنای معنایی مفاهیم موجود در آنتولوژی و بهره وری از دیگر فناوری های معنایی پرداخته شده است.

طراحی و پیاده سازی مکانیزم کنترل اضافه بار پیشگیرانه در سرورهای sip
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی برق و کامپیوتر 1392
  احمدرضا منتظرالقایم   محمدحسین یغمایی مقدم

پروتکل sip، یک پروتکل سیگنالینگِ لایه کاربرد می‏باشد که برای آغاز، مدیریت و خاتمه جلساتِ صدا و تصویر توسط ietf استاندارد شده است. این پروتکل به عنوان پروتکل سیگنالینگ در ims که بستر سیگنالینگ پیشنهادی برای شبکه‏های نسل آینده است، در نظر گرفته شده است. بنابراین با توجه به استفاده وسیع از آن و وجود کاربران میلیونی در آینده نزدیک، لازم است که رفتار و کارایی سرورهای sip در حالت‏های عادی و اشباع مورد بررسی قرار گیرد. این پروتکل با توجه به امکاناتی چون متنی بودن، برقراری تماس انتها به انتها، استقلال از نوع داده انتقالی و مبتنی بر ip بودن، انتخاب مناسبی برای پروتکل سیگنالینگ جهت برقراری ارتباط بین دو کاربر شبکه ip است. اما استفاده‏ گسترده از sip باعث به وجود آمدن آسیب پذیری های بسیار این پروتکل گردیده است که در میان آن‏ها، اضافه بار می‏تواند باعث بروز مشکلات جدی برای سرورهای sip گردد. اضافه بار در sip زمانی رخ می‏دهد که یک سرور sip منابع کافی برای پردازش همه پیام‏ها را نداشته باشد. بررسی‏های مختلف نشان داده‏اند که گذردهی پروتکل sip هنگام اضافه بار به دلیل ارسال‏های مجدد جهت دستیابی به اطمینان پذیری، به شدت افت می‏کند و به عبارت دیگر این پروتکل علیرغم داشتن امکانات فراوانِ ذکر شده، فاقد مکانیزم مناسبی برای مواجهه با اضافه بار می‏باشد. وجود این چالش سبب خواهد شد که طیف وسیع کاربران شبکه نسل آینده با افت شدید کیفیت سرویس مواجه شوند. در این پایان نامه یک مکانیزم کنترل اضافه بار تطبیقیِ مبتنی بر پنجره، بر روی پروکسیِ متن باز asterisk توسعه، پیاده سازی و ارزیابی شده است. این الگوریتم، بازخورد صریحی از سرور پایین دستی دریافت نمی‏کند و سرورهای بالادستی از تعداد پیام‏های تأیید به عنوان معیاری از میزان بارِ سرور پایین دستی و همچنین تنظیم بیشینه اندازه پنجره به طور پویا، استفاده می‏کنند؛ لذا الگوریتم پیشنهادی، پیچیدگی یا پردازش اضافی را بر سرور تحت اضافه بارِ پایین دستی تحمیل نمی‏کند. با استفاده از نتایج پیاده سازی در یک بستر واقعی، نشان می‏دهیم که روش پیشنهادی ما در عمل می‏تواند باعث حفظ گذردهی در شرایط اضافه بار شود.

ارائه یک مدل معنایی برای پیاده سازی نشانه گذاری در محیط های چندعامله
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  زهرا کیوانلوشهرستانکی   محسن کاهانی

هدف مطالعه حاضر پیاده سازی مفهوم نشانه گذاری به عنوان یک مکانیسم هماهنگی غیرمستقیم بین عامل ها، به صورت معنایی می باشد. در واقع در این تحقیق یک مدل معنایی برای توسعه سیستم های نشانه گذاری در جهت رفع چالش ها معنایی سیستم های موجود معرفی می گردد. این مدل تلاش دارد تا با بهره گیری از تکنولوژی های وب معنایی بر این مشکلات غلبه کند. به عبارت دیگر سه عنصر محیط، نشانه و عامل به عنوان اجزای اساسی یک سیستم نشانه گذاری، به صورت معنایی پیاده سازی شده است. علاوه بر این، در این محیط، ارتباطات بین عامل ها به صورت معنایی بوده و بر روی داده های معنایی جمع آوری شده، نیز استدلال های معنایی صورت می گیرد. با پیاده سازی پیشنهاد مطرح شده و ارزیابی نتایج به دست آمده، مشاهده گردید، توانایی عامل ها در تصمیم گیری های بهتر افزایش یافت و در نتیجه کارایی و توان جمعی مجموعه به صورت معناداری بهبود یافت.

ارائه و آزمون مدل تعیین نیازمندیهای اطلاعاتی مدیران ارشد اجرایی بخش عمومی (مطالعه موردی: دانشگاه فردوسی مشهد)
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده علوم اداری و اقتصاد 1392
  امید میلانی فرد   محمد لگزیان

تعیین نیازمندی های اطلاعاتی مدیران ارشد اجرایی، اولین و مهمترین گام در توسعه سیستمهای اطلاعات مدیران ارشد اجرایی است. بالا بردن کیفیت و کمیت نیازمندی های استخراج شده در این مرحله می تواند در موفقیت اجرای این سیستم در سازمانها نقشی اساسی داشته باشد. سیستم های اطلاعاتی مدیران ارشد اجرایی در هر دو بخش خصوصی و عمومی به صورت گسترده ای استفاده می شوند، با این وجود تفاوتهای ذاتی این دو بخش، باعث ایجاد تفاوت در توسعه سیستم های اطلاعاتی مدیران ارشد اجرایی می شود. این تحقیق به منظور شناسایی عوامل موثر در تعیین نیازمندی های اطلاعاتی مدیران ارشد اجرایی در بخش عمومی و تعیین میزان اهمیت هر یک از این عوامل انجام شده است. برای انجام تحقیق، ابتدا مبانی نظری و پیشینه پژوهشی بررسی و عوامل موثر شناسایی شدند، سپس با اعمال نظر خبرگان دانشگاهی، پرسشنامه ای برای سنجش میزان اهمیت هر یک از این عوامل تهیه و در بین خبرگان توزیع شد تا نظر خود را در قالب ماتریس مقایسه زوجی عوامل بیان کنند. این نظرات بر اساس فرآیند تحلیل سلسله مراتبی گروهی تلفیق و مدل نهایی به دست آمد. بر این اساس عوامل موثر بر تعیین نیازمندی های اطلاعاتی مدیران ارشد در بخش عمومی، به ترتیب اولویت عبارتند از: تعهد مدیر به ارائه اطلاعات، نمونه سازی و بازخورد مداوم به مدیران و آشنایی تحلیلگر با سازمان و فرآیندهای آن، خدمات اصلی و رضایت ذینفعان از آنها، فرآیندهای راهبردی، منابع مالی، اهداف راهبردی و عوامل حیاتی در موفقیت و فعالیتهای مرتبط با آنها. در مرحله دوم تحقیق با توزیع پرسشنامه در بین مدیران ارشد دانشگاه فردوسی مشهد میزان اهمیت این عوامل در این سازمان بخش عمومی سنجش شد. در نتیجه این سنجش مشخص شد در دانشگاه فردوسی مشهد، عوامل مهم به ترتیب اولویت عبارتند است از: تعهد مدیر به ارائه اطلاعات، اهداف راهبردی، آشنایی تحلیلگر با سازمان و فرآیندهای آن، فرآیندهای فرآیندهای راهبردی و نمونه سازی و بازخورد مداوم به مدیران. سایر عوامل، غیر مهم ارزیابی شدند.

استخراج روابط معنایی در سطح گفتمان از متن
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  محمد هادی زاهدی   محسن کاهانی

وب فعلی برای استفاده انسان ایجاد شده تا قادر به مشاهده اطلاعات مورد نیاز خود و فهم آنها باشد. وب معنایی در کنار این مهم، تعامل ماشین با محتویات وب و درک خودکار مفاهیم آن را مورد توجه قرار داده است. در این وب، محتویات بایستی بگونه ای قابل فهم برای ماشین نمایش داده شوند. عمده کارها در این حوزه به دو دسته استخراج مفاهیم و استخراج روابط تقسیم می شوند. بسیاری از کاربردها در استخراج اطلاعات، اکتساب دانش، فهم زبان طبیعی و بازیابی اطلاعات نیازمند درک در سطح مفهوم، معنا، رابطه و روابط معنایی می باشد. هر کدام از موجودیتهای ذکر شده دارای ویژگیها و تعاریف مشخص می باشند. رابطه معنایی به روابط بین مفاهیم موجود در ذهن که به آن مفاهیم ادراکی یا به روابط بین کلمات که روابط لغوی نامیده می شوند، اشاره دارد. روابط معنایی در حوزه متن می توانند در سطوح پایین و بین واژگان و یا در سطوح بالاتر بین عبارات، جمله ها، پاراگرافها و حتی بالاتر از بخشهای یک متن مثلا بین دو سند یا مجموعه ای از اسناد رخ دهد. سطوح ذکر شده دارای یک محدوده تعریف ساختاری می باشند؛ اما سطح دیگری در حوزه زبان شناسی که علیرغم اهمیت بالا، کمتر در حوزه زبان شناسی رایانه ای به آن پرداخته شده است سطح گفتمان نام دارد؛ که محدوده تعریف آن نه ساختار بلکه معنا است. در این سطح، مقیاس نه یک جمله یا پاراگراف یا سند بلکه واحد معنایی است؛ و ممکن است بین چند جمله، چند پاراگراف و یا تمام متن باشد. نکته قابل توجه وقوع این روابط معنایی در سطح گفتمان، بصورت صریح و یا ضمنی در متن می باشد و اهمیت آن به دلیل انتشار روزافزون اطلاعات در سطح وب است که غالبا در قالب متن هستند و اکتساب دانش و استخراج اطلاعات مورد نیاز از بین این حجم انبوه داده مستلزم درک مفاهیم و روابط معنایی حاکم بین آنها بویژه در حوزه های زبان شناسی، روانشناسی، علوم شناختی و در این رساله زبان شناسی محاسباتی است. این رساله روشی جدید محاسباتی به منظور استخراج و نمایش روابط معنایی صریح و ضمنی در سطح گفتمان از متن ارایه داده است که مکمل و توسعه دهنده روشهای پیشین است. بهره گیری از روشهای پردازش زبان طبیعی در کنار محاسبات آماری و روش تجزیه مقدار تکینه و روش استخراج و شناسایی الگو بدون ناظر از مشخصه های روش پیشنهادی است. هدف کمک به درک و فهم دقیق و عمیق تر از متن و پیاده سازی در کاربردهای بسیار در حوزه های مرتبط با زبان شناسی، روانشناسی، علوم شناختی و بویژه زبان شناسی محاسباتی است. تحقیقات موجود نشان می دهد که روشهای ارایه شده هوش مصنوعی و یادگیری ماشین در این حوزه نیازمند به سطح بالایی از مهندسی دانش یا پایگاه داده های بزرگ برای یادگیری و آزمایش هستند. روش ارائه شده ضمن نوآوری در حوزه پیشنهادی، محدودیت های و مشکلات ماقبل را حل نموده است. در این پایان نامه توسعه، پیاده سازی و ارزیابی روش برای محاسبه کارآیی، دقت و صحت انجام پذیرفته است. روش محاسباتی پیشنهادی از شیوه جبر خطی تجزیه مقدار تکینه در کنار انجام برخی پردازشها و پیش پردازشها در حوزه زبان طبیعی از جمله برچسب گذاری نقش معنایی ، برچسب زنی نحوی و تکنیکهای آماری پردازش زبان طبیعی و روشهای محاسبه پیوستگی و همبستگی نیز بهره گرفته است. کاربردهایی در ایجاد هستان شناسی و تکامل و توسعه آن، استخراج دانش، سیستم های پرسش و پاسخ، خلاصه ساز متن و بازیابی اطلاعات مانند موتورهای جستجو از آن جمله می باشد. ارزیابی روش پیشنهادی با دو رویکرد صورت پذیرفته است: 1) اعمال روش بر روی داده های استاندارد و 2) پیاده سازی روش پیشنهادی در موارد حوزه کاربرد. ارزیابیهای حاصل نشانگر عملکرد قابل توجه روش پیشنهادی دارد.

پیمانه بندی هستان شناسی مبتنی بر گراف و مشابهت معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  سودابه غفوریان   محمود نقیب زاده

پیمانه­ بندی هستان ­شناسی راهی مناسب برای استفاده از هستان ­شناسی ­های بزرگ است. برای ایجاد پیمانه­ هایی با کیفیت بالا، باید هم جنبه ساختاری و هم معنایی هستان­ شناسی در نظر گرفته شود. برای در نظر گرفتن ویژگی ساختاری هستان ­شناسی کافیست آن ­را به­ صورت گراف نمایش دهیم. برای در نظر گرفتن ویژگی معنایی هستان ­شناسی کافیست به روابط مختلف، وزن­های متفاوتی داده شود. وزن­دهی به یال­ها مستلزم شناسایی روابط مختلف و تشخیص میزان مهم بودن آن­هاست. بنابراین برای انجام راه حل پیشنهادی گام­های ذیل طی می­شود: 1. مشخص کردن نحوه نمایش گراف هستان­ شناسی از روشی برای نمایش گراف هستان ­شناسی استفاده می­شود که فاعل، مفعول و فعل هر کدام جدا به­صورت گره در نظر گرفته می­شوند. البته فقط خصوصیات objectproperty و datatypeproperty را گره در نظر می­گیریم و بقیه روابط (خصوصیات) به­ صورت یال در نظر گرفته می­شوند، به ­علاوه در این نمایش نمونه­ ها نیز به ­عنوان گره نمایش داده می­شوند. 2. شناسایی روابط و وزن­دهی به آن­ها برای وزن­دهی به روابط مختلف هستان­ شناسی از یک تابع وزن استفاده می­شود این تابع به بعضی از روابط موجود، عددی صحیح نسبت می­دهد. وزن دادن یک راه تفاوت قائل شدن بین روابط است. یک راه اولویت دادن به روابط بر اساس پیدایش روابط است و راه دیگر این است که می­توان بر اساس معنا و تعریف روابط اولویت آن­ها را مشخص کرد. 3. یکسان ­سازی وزن یال­ها در صورت لزوم اگر بین گره­ ها بیش از یک رابطه وجود داشت بین وزن روابط حداکثر وزن در نظر گرفته می­شود و سپس بر اساس وزن حداکثر و وزن­ یک گام بالاتر از این وزن در جدول 1، وزن حاصل به وزن یک گام بالاتر تنظیم می­شود. 4. نرمال­سازی برای نرمال سازی، وزن یال خروجی از گره مورد نظر بر مجموع وزن­های یال­های خروجی از گره تقسیم می­شود. بنابراین وزن­ها بین صفر و 1 خواهند بود. خروجی این قسمت ماتریسی است که برای ورود به الگوریتم فاصله گام تصادفی آماده است. 5. تخمین نزدیکی رئوس با استفاده از الگوریتم همسایگی فاصله گام تصادفی از الگوریتم همسایگی فاصله گام تصادفی برای اندازه­ گیری نزدیکی رئوس هستان­ شناسی استفاده می­شود. 6. پیمانه بندی تابع معیار استفاده شده silhouettes coefficient یا s(i) است. میانگین s(i) معیاری است که نشان می­دهد چقدر داده­ ها در یک پیمانه، مناسب گروه­ بندی شده­ اند. s(i) را به ازای هر گره مفهوم با توجه به رابطه زیر به دست می آید. کارایی پیمانه­ بندی بر اساس متوسط امتیاز هر پیمانه به ­دست می­آید. امتیاز هر پیمانه نیز بر اساس متوسط امتیازهای گره­ های داخل پیمانه یعنی s(i) ها محاسبه می­شود. برای پیمانه بندی دو الگوریتم به شرح زیر پیشنهاد شده است: الگوریتم پیمانه­ بندی تجمعی ورودی الگوریتم تجمعی ماتریس همسایگی فاصله گام تصادفی است. این الگوریتم پیمانه را به­ صورت تکراری براساس داشتن شباهت زیاد با هم ادغام می­کند. یک الگوریتم پایین به بالاست که در ابتدا هر راس را به عنوان یک پیمانه مجزا در نظر می­گیرد و در آخر با یک گراف به عنوان یک پیمانه منحصربه ­فرد­ پایان می­گیرد. در اینجا در هر مرحله به ازای هر دو پیمانه ci و cj، پیمانه ­ها باهم ادغام می­شوند و امتیاز بدست می­آید، ترکیبی که بیشترین امتیاز را دارد، لحاظ می­شود و در آخر این ترکیب انتخاب شده و به مرحله بعد که یکی از تعداد پیمانه­ ها کم می­شود، می­رود و دوباره همین مراحل تکرار می­شود تا در نهایت یک پیمانه باقی بماند. الگوریتم پیمانه­ بندی اکتشافی الگوریتم اکتشافی به منظور پیشتیبانی از هستان شناسی­ های بزرگ و کاهش زمان اجرا پیشنهاد شده است. ورودی این الگوریتم برای پیمانه­ بندی ماتریس وقوعی است که از روی ماتریس مجاورت ساخته شده است. هر سطر از ماتریس وقوع یک یال را معرفی می­کند که شامل گره اول، گره دوم و وزن بین آن دو می­شود. این ماتریس بر اساس ستون وزن به ­صورت صعودی مرتب می­شود. الگوریتم بدین صورت است که اگر گره اول و دوم در یک پیمانه نباشند، باهم ادغام می­شوند. سپس دو شرط چک می­شود: اول، اگر اندازه پیمانه جدید کمتر از یک سوم کل تعداد گره­ ها باشد، ادغام صورت می­گیرد و شرط دوم چک کردن امتیاز پیمانه­ بندی است که اگر امتیاز بالاتر باشد الگوریتم ادامه می­ یابد، در غیر این­صورت الگوریتم خاتمه می ­یابد. راهکار پیشنهادی هر دو جنبه ساختاری و معنایی هستان شناسی را در نظر می گیرد حال آن که در اکثر کارهای گذشته به هردو جنبه توجه نمیشود. معنا با توجه به اختصاص دادن وزن به روابط متفاوت در نظر گرفته شده است به علاوه نسبت به سایر رویکردها روابط بیشتری در نظر گرفته می شود. در نظر گرفتن روابط بیشتر باعث می شود که یالهای بیشتری در نمایش گراف هستان شناسی وجود داشته باشد که میتوان در پیدا کردن شباهت دو گره تصمیم بهتری گرفت. استفاده از ماتریس همسایگی فاصله گام تصادفی برای ترکیب جنبه ساختاری و معنایی هستان شناسی انجام می گیرد. هر درایه از این ماتریس با توجه به وزن تقریباً همه درایه های ماتریس احتمال انتقال محاسبه می شود بنابراین وزن ها در روش پیشنهادی دقیقتر از سایر روشهایی هستند که فقط از ماتریس وزن استفاده می کنند. به علاوه در روش پیشنهادی یک تابع امتیازدهی جدید معرفی شده است. هدف این تابع بیشینه کردن شباهت داخل پیمانه ها و کم کردن شباهت بین پیمانه هاست. تابع امتیازدهی با توجه به هدفش نشان میدهد که گره ها چقدر در داخل پیمانه مورد نظر مناسب گروه بندی شده اند. و در آخر به عنوان نتیجه میتوان گفت، پیمانه های ایجاد شده در روش ما دارای بار معنایی هستند زیرا در این پژوهش روابط بیشتری نسبت به روشهای مشابه در نظر گرفته میشود و این روابط طوری پردازش میشوند که وزن هر یال یا رابطه روی انتخاب هر پیمانه تاثیر میگذارد.

خزش متمرکز وب با هدف کشف اسناد وب معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392
  ریحانه امامدادی   محسن کاهانی

با توجه به گسترش روزافزون وب معنایی و افزایش حجم داده های معنایی بر روی وب، لازم است تا این داده ها با کمک ابزار هایی از سطح وب جمع آوری شوند تا بتوان از آنها در کاربرد های مختلف استفاده کرد. یکی از ابزار های مهم در این زمینه، خزنده وب است. خزنده وب، برنامه ای است که اسناد را به طور خودکار و با دنبال کردن پیوند های داخل آنها، از سطح وب جمع آوری می کند. در حوزه وب معنایی، هدف خزنده جمع آوری اسناد وب معنایی است. عدم پیوند کافی بین این اسناد و احاطه شدن آنها توسط اسناد html، موجب شده است تا بسیاری از خزنده های وب معنایی، علاوه بر اسناد وب معنایی، اسناد html را نیز واکشی کنند. اما با توجه به حجم بالای اسناد html و غیر معنایی بودن بسیاری از پیوند های داخل آنها، واکشی این اسناد و پیمودن همه مسیر های ایجاد شده توسط آنها، باعث اتلاف منابع و پایین آمدن سرعت دستیابی به اسناد وب معنایی می شود. در این پایان نامه، یک خزنده وب معنایی ارائه شده است که از خزش متمرکز برای حل مشکلات بیان شده استفاده می کند. در خزش متمرکز، هدف خزنده جمع آوری اسناد در مورد یک موضوع خاص است و پیوند ها بر مبنای میزان ارتباطشان با موضوع مورد نظر اولویت بندی می شوند. اما در خزنده پیشنهادی، به جای خزش موضوعی، پیوند های استخراج شده از اسناد html تحلیل می شوند و بر مبنای توانایی شان در دستیابی به اسناد وب معنایی اولویت بندی می شوند. برای این منظور، خزنده از دو تابع ارتباط استفاده می کند. نتایج ارزیابی ها نشان می دهد که بکارگیری فرآیند خزش متمرکز و توابع ارتباط پیشنهادی، موجب دستیابی سریعتر به اسناد وب معنایی و کاهش حجم واکشی اسناد غیر معنایی می شود.

ارائه یک روش شاخص گذاری مقیاس پذیر و مبتنی بر موجودیت بر روی داده های rdf
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی کامپیوتر 1392
  فاطمه عبیری   محسن کاهانی

ظهور وب معنایی و استقبال گسترده از آن در سال های اخیر، باعث شده است که توسعه دهند گان وب، تلاش های بسیاری را در جهت سازماندهی داده های معنایی انجام دهند.با افزایش حجم داده های معنایی، یکی از مهمترین چالش های موجود در سازماندهی این داده ها، ارائه روشی مقیاس پذیر برای ذخیره و بازیابی آنها است. در این پایان نامه یک روش مقیاس پذیر برای شاخص گذاری داده های rdfپیشنهاد شده است. از آنجایی که یک سیستم شاخص گذاری از دو بخش ذخیره و بازیابی داده تشکیل می شود، در یک سیستم شاخص گذاری مقیاس پذیر، علاوه بر ذخیره ی داده های حجیمrdf، فرایند بازیابی داده ها را نیز باید به طور موثری برای کاربران مهیا نمود. به منظور ایجاد مقیاس پذیری در روش شاخص گذاری پیشنهادی، از پایگاه داده ی hbaseکه یکی از پایگاه داده های nosqlاست، استفاده شده است.hbase با فراهم نمودن امکان دسترسی تصادفی به داده های حجیم روی چارچوب توزیع شده hadoopمی تواند گزینه مناسبی برای مدیریت داده های حجیم وب باشد. همچنین طبق آمارهای اخیر، اکثر کاربران در پرس و جو های خود به دنبال یک موجودیت با مجموعه صفات مشخص هستند. در روش پیشنهادی، هدف پاسخگویی موثر به این نوع از پرس و جو ها است.از این رو یک الگوریتم خوشه بندی جهت گروه بندی موجودیت های مشابه، ارائه شده است و به ازای هر یک از خوشه های بدست آمده، یک جدول در پایگاه داده ایجاد می شود.نتایج ارزیابی نشان می دهد که روش پیشنهادی در بازیابی داده های rdf موفق بوده است.

استخراج قوانین مرتبط با نگارش پرس وجوهای sparql با استفاده از log پرس وجوهای پایانه های sparql
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  سعید شفیعی حسن آبادی   محسن کاهانی

با گسترش روزافزون حجم داده¬ها و اطلاعات در وب معنایی، تولید پرس وجوهای ساخت یافته بر فراز وب معنایی نیز با استقبال چشم¬گیر توسعه دهندگان روبرو شده است. بااین حال تولید پرس¬وجوی ساخت¬یافته برای افرادی که با هستان شناس تعریف¬شده بر بسترِمجموعه داده های موجودآشنایی ندارند می تواند فرایندی پیچیده باشد. از سویی دیگر، در سمت منابعِ دربرگیرنده¬یِ داده¬های وب معنایی، تنها داده¬ها و ساختارهای سلسله¬مراتبی تعریف شده اندو دراین بین عدم وجود الگویی برای چگونگی ساخت و چینش پرس وجوهایsparql کاربران انسانی تازه کار را با مشکل مواجه می کند. در سال¬های اخیر،در این راستا سیستم هایی باهدف یاری کاربران در استفاده از وب معنایی و ساخت این پرس وجوها تولیدشده است. سیستم های پرسش¬وپاسخ، سیستم های بسط پرس¬وجو و سیستم¬هایی با واسط گرافیکی جهت نگارش پرس وجوهایsparqlازجمله این موارد هستند. در این پایان¬نامه با تمرکز روی ساختارو چینش پرس¬وجوهای sparql،گونه¬ای از قالب¬های کلی مرتبط با ساختار نگارشی این پرس¬وجوهابررسی می گردد. با استفاده ازاین قالب¬ها،با پردازش پرس وجوهای پیشین ارسال شده به سوی پایانه¬ها وبه کارگیری روش های یادگیری ماشین (قوانین انجمنی ترتیبی)،قوانینی استخراج می¬گردندکه بیانگر الگوی تعریف پرس¬وجوهایکاربران پیشین می¬باشند. کاربرد این قوانین کمک به کاربران آتی در تولید پرس¬وجوهای sparql است.نتایج حاصل از ارزیابی این قالب از قوانین بیانگر قابلیت و کارایی این قوانین جهت یاری رساندن به کاربران انسانیاست. روی هر پایانه¬ی بخصوصی، در بازه¬های زمانی متفاوت،بر اساس این قالب هامی توان به دانشی دست یافت که کاربرد این دانش در سیستم¬های یاری¬گر کاربر جهت تولید مستقیم این پرس¬وجوها بروی آن پایانه است.برای ارزیابی این گونه از قوانین به فرم خودکار در ابندا روی پرس¬وجوهای بخش آزمایش (پرس وجوهای از پیش نگارش شده)کاندیدهای پیشنهادی مطرح می¬گردند.در ادامه این کاندیدها با پرس¬وجوی نگارش شده¬ی کاربرپیشین مقایسه شده و به این ترتیب دقت پیشنهادهای ارائه¬شده گردآوری می¬گردد. در این پژوهش پرس¬وجوهای موجود در log پایانه¬ی dbpedia در سال 2012 انتخاب شده است. برای معیار ارزیابی در این پژوهش از پارامتر دقت برای صحت کاندیدهای پیشنهادی استفاده شده است.

روشی مبتنی بر داده های پیوندی برای مهندسی وب با رویکرد قابلیت استفاده مجدد
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  صمد پایدار   محسن کاهانی

مهندسی وب به عنوان شاخه ای از مهندسی نرم افزار، بر ارائه روش های سامانمند برای توسعه برنامه های کاربردی تحت وب تمرکز دارد. بدین منظور، اغلب روشگان های مهندسی وب از رویکرد توسعه مبتنی بر مدل استفاده می کنند که طی آن، توسعه هر برنامه کاربردی جدید، مستلزم تولید تعداد زیادی مدل می باشد. با توجه به این امر، استفاده مجدد از مدل های موجود می تواند تأثیر بسزایی در کاهش هزینه و پیچیدگی توسعه برنامه های جدید داشته باشد. بطور خاص، بدلیل اهمیت مدل های نیازمندی های عملیاتی، استفاده مجدد از این مدل ها از اهمیت خاصی برخوردار است. با این حال، بررسی های انجام شده نشان می دهد هیچیک از روشگان های مهندسی وب، موضوع استفاده مجدد از این نوع مدل ها را بطور صریح پشتیبانی نمی کنند. در این رساله، یک روش جدید برای استفاده مجدد از مدل نیازمندی های عملیاتی ارائه شده است که با دریافت توصیف کلی نیازمندی های عملیاتی در قالب نمودار مورد کاربری uml، نسخه اولیه توصیف جزئی نیازمندی های عملیاتی را بطور نیمه خودکار و در قالب نمودارهای فعالیت uml ایجاد می کند. روش پیشنهادی شامل دو مرحله اصلی است که مرحله اول به آماده سازی مخزن معنایی مدل ها و مرحله دوم به استفاده مجدد از این مخزن اختصاص دارد. بدین منظور، در مرحله اول، از الگوریتم های جدیدی برای حاشیه نویسی نمودارهای فعالیت و تشخیص مفاهیم و رفتار مورد کاربری‏ ها و همچنین از فناوری های وب معنایی استفاده شده است. در مرحله دوم نیز از معیاری جدید برای تشخیص شباهت دو مورد کاربری و از الگوریتم جدیدی برای تطبیق نمودارهای فعالیت استفاده می شود. این الگوریتم، از منابع وب معنایی و داده های پیوندی برای تأمین نیازهای اطلاعاتی خود استفاده می کند. ارزیابی های انجام شده نشان می دهد روش پیشنهادی از دقت و کارایی مناسبی برخوردار است و استفاده از وب معنایی نقش موثری در بهبود نتایج آن دارد. با این حال، الگوریتم های ارائه شده دارای کاستی هایی هستند که رفع آن ها نیازمند تحقیق و نوآوری بیشتری می باشد.

ارائه رویکردی مبتنی بر سنجه برای ارزیابی کیفیت مجموعه داده های پیوندی پیش از انتشار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  بهشید بهکمال   محسن کاهانی

هدف اصلی داده¬های پیوندی، تحقق وب معنایی و استخراج دانش از طریق پیوند دادن داده¬های موجود روی وب می¬باشد. یکی از موانع دستیابی به این هدف، وجود مشکلات و خطاها در داده¬های منتشر شده است که باعث ایجاد پیوندهای نادرست و درنتیجه استنتاج¬های نامعتبر می¬گردد. مطالعه کارهای انجام شده در این حوزه نشان می¬دهد که بیشتر محققان بر ارزیابی کیفیت داده پس از انتشار تمرکز داشته¬ و ارزیابی داده¬ها پیش از انتشار را برعهده مالک یا منتشرکننده داده گذاشته¬اند. با توجه به اینکه کیفیت داده¬ها تأثیر مستقیم بر موفقیت پروژه داده¬های پیوندی و تحقق وب معنایی دارد، بهتر است تا کیفیت هریک از مجموعه¬های داده در مراحل اولیه انتشار و قبل از اضافه شدن به ابر داده¬های پیوندی ارزیابی شود. در این رساله، یک رویکرد مبتنی بر سنجه برای ارزیابی پیش از انتشار مجموعه داده¬های پیوندی ارائه می¬شود. برای این منظور، با مطالعه مدل¬ها و چارچوب¬های کیفیت داده، مدل iso-25012 به¬عنوان مدل مبنا انتخاب و با نگاشت ابعاد کیفیت مدل مبنا به ابعاد کیفیت داده¬های پیوندی، شش بُعد کیفی کامل¬بودن، دقت معنایی، دقت نحوی، سازگاری، یکتایی و پیوندپذیری به¬عنوان ابعاد کیفیت ذاتی داده¬های پیوندی شناسایی شده¬اند. سپس، با استفاده از رویکرد هدف، پرسش، سنجه برای هریک از ابعاد کیفی شش¬گانه، سنجه¬های مناسب تعریف و به¬صورت رسمی بیان شده است. استراتژی ارزیابی مدل پیشنهادی، شامل سه مرحله اعتبارسنجی تئوری، ارزیابی تجربی به روش آزمایشات و نظرسنجی از خبرگان بوده که فرایند اجرای هریک، به تفصیل در رساله مورد بررسی قرار گرفته است. در پایان، با بهره¬گیری از روش¬های یادگیری، یک مدل پیش¬بینی کیفیت برمبنای سنجه¬های پیشنهادی ارائه ¬شده است. نتایج ارزیابی¬ها نشان داد که سنجه¬های پیشنهادی معتبر، کاربردی و مقیاس¬پذیر هستند و همچنین قابلیت ارزیابی کیفیت ذاتی هر مجموعه داده را به¬صورت کاملاً خودکار دارند. بنابراین، منتشرکنندگان داده¬ها قادرند تا با استفاده از مدل پیشنهادی، کیفیت ذاتی مجموعه داده خود را قبل از انتشار ارزیابی کنند.

بررسی اثر نقش دستوری و ترتیب سطحی در رتبه بندی مراکز پیش نگر در زبان فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده ادبیات و علوم انسانی دکتر علی شریعتی 1392
  بهداد بهمدی   نادر جهانگیری

نظریه مرکزیت چارچوبی محاسباتی و پرکاربرد برای مدل کردن انسجام موضعی است. در این نظریه، وضعیت توجه، صورت عبارات ارجاعی و انسجام درک شده از گفتمان ارتباط متقابل با یکدیگر دارند. مجموعه مراکز پیش نگر اساسی ترین ساختار نظریه است که در قالب آن، موجودیتهای حاضر در پاره گفتار بر اساس میزان کانونی بودن رتبه بندی می شوند. اعمال قواعد نظریه در گرو تعیین وضعیت رتبه بندی مراکز پیش نگر است؛ لذا تعیین ملاکهای رتبه بندی اعضای این مجموعه اهمیت فراوان دارد. نقش دستوری و ترتیب سطحی به عنوان دو ملاک عمده برای رتبه ‎بندی پیشنهاد شده اند. بر این اساس، فاعل رتبه بالاتری از مفعول دارد و هر اندازه تقدم اسمی در ترتیب سطحی بیشتر باشد آن اسم رتبه بالاتری احراز می کند. همچنین در این نظریه بیان می گردد که برای ارجاع به موجودیتی با رتبه بالاتر، صورت ضمیری به صورت اسمی ترجیح داده می شود. در پژوهش حاضر، به تاثیر نقش دستوری و ترتیب سطحی در رتبه بندی مراکز پیش نگر در زبان فارسی پرداخته شد و همچنین بررسی گردید که آیا در فارسی برای ارجاع به موجودیتی با رتبه بالاتر، ضمیر به اسم ترجیح داده می شود. در این تحقیق، دو آزمایش به شیوه مدت خواندن با سرعت نامقید انجام شدند و مشخص شد که در فارسی، فاعل مرتبه بالاتری از مفعول دارد. همچنین معلوم شد که تغییر ترتیب سطحی در رتبه بندی موثر است و اگر مفعول به جایگاه پیش از فاعل جابجا شود مرتبه بالا تر فاعل از بین می رود؛ اما طبق تحلیل آماری، مفعول نیز مرتبه بالا تری نسبت به فاعل نمی یابد و در این حالت نمی توان درباره چگونگی رتبه بندی موجودیتها قضاوت کرد. به علاوه، مشخص گردید که وقتی فاعل رتبه بالا تری دارد مایل است که در ادامه گفتمان با صورت ضمیری مورد ارجاع قرار گیرد؛ اما تمایل فاعل به صورتهای ضمیری در فارسی به قوت زبان انگلیسی نیست. ضمنا در حالتی که مفعول به جایگاه پیش از فاعل برده می شود، رتبه بندی موجودیتها قابل تعیین نیست و بنابراین سوال درباره تمایل موجودیت دارای مرتبه بالاتر به صورتهای ضمیری بلاموضوع است.

مدیریت سوالات متداول فارسی کاربران مبتنی بر هستان شناسی و پروفایل کاربری
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  مرتضی پوررضا شهری   محسن کاهانی

سیستم های مدیریت سوالات متداول کاربران، faq، در سال های اخیر توجه بسیاری را به خود جلب نموده است. این سیستم ها تا حد زیادی هزینه های پشتیبانی محصولات تولیدکنندگان را کاهش می دهند. هدف از این تحقیق پیاده سازی سیستم مدیریت سوالات متداول فارسی مبتنی بر هستان شناسی و پروفایل های کاربری می باشد. در این تحقیق، هستان شناسی فارسی برای مفاهیم حوزه کامپیوتر ایجاد می شود. ابتدا سوالات ورودی، که همگی به زبان محاوره ای می باشند، به حالت رسمی فارسی تبدیل می شوند. پس از انجام پیش پردازش های لازم، به کمک روش پیشنهادی جدید، میزان شباهت معنایی پرسش ها با یکدیگر سنجیده می شود و در یک ماتریس شباهت ذخیره سازی می گردد. با استفاده از الگوریتم خوشه بندی پیشنهادی، این پرسش ها در خوشه هایی که پرسش های داخل هر خوشه، از نظر معنایی به یکدیگر شباهت دارند، قرار داده می شوند. پرسش هایی که در خوشه های با اعضای بیشتری هستند، به عنوان پرسش های پرتکرار در نظر گرفته می شوند و با استفاده از این خوشه ها، لیست پرسش های متداول استخراج می گردد. هر کاربر با وارد کردن پرس و جوی موردنظر خود، لیستی از پرسش های مرتبط با پرس وجوی ورودی را دریافت می کند. در حین کار با سیستم، برای هر کاربر با توجه به شیوه کار با سیستم و پرس وجوهای ورودی، پروفایل هایی ایجاد می شود که در پرس و جوهای بعدی از این پروفایل ها برای بهبود نتایج جستجو استفاده می شود. با یک الگوریتم بازیابی نوین، با استفاده از پروفایل های کاربری، نتایج مرتبط پرسش کاربر استخراج می شود.

سیستم پرسش و پاسخ مبتنی بر روابط معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  هادی قائمی   محسن کاهانی

با افرایش و توسعه وب، نیاز است تا موتورهای جستجو هوشمندتر از قبل رفتار نمایند. در بیشتر موارد کاربران به جای لیستی از اسناد به بخش کوچکی از اطلاعات نیاز دارند تا به جای مطالعه و بررسی کل اسناد، بخش کوچکی از سند را مطالعه نمایند. با توجه به نیاز کاربران، نسل بعدی موتورهای جستجو، سیستم های پرسش و پاسخ می باشند. سیستم هایی که به کاربران اجازه می دهند تا نیازهای اطلاعاتی خود را در قالب پرسش های زبان طبیعی به سیستم بدهند و پاسخ ها را به صورت دقیق دریافت نمایند. هدف از تولید و گسترش سیستم های پرسش و پاسخ، دادن پاسخ دقیق و کوتاه به پرسش داده شده به زبان طبیعی می باشد. در این پایان¬نامه روشی جدید برای سیستم های پرسش و پاسخ با پرسش های factoid از نوع wh ، ارائه شده است. در روش ارائه شده ابتدا روابط معنایی موجود در متن استخراج و سپس در قالب rdf ذخیره می شوند. همچنین در ادامه برای پاسخ دهی به پرسش ها، ابتدا دسته ی پرسش داده شده به زبان طبیعی مشخص می شود. برای اینکار از یک روش دسته بندی ترکیبی استفاده شده است. در گام بعد بخش های اصلی پرسش استخراج می شود. در ادامه این بخش ها توسط مترادفاتشان بسط داده می شوند. با توجه به دسته مشخص شده برای پرسش، پرسش را به پرس وجوهای sparql تبدیل کرده و بر روی داده ها اعمال می شود. پاسخ نهایی از میان خروجی های پرس وجو گزینش می شود. در مدل پیشنهادی در ابتدا روابط معنایی با توجه به گروه های فعلی، اسمی و حرف اضافه استخراج می¬شود. در این مرحله سعی شده است روابط با توجه به تمامی افعال درون جمله استخراج گردند. برای پاسخ گویی به پرسش های زبان طبیعی ابتدا کلاس هر پرسش مشخص می شود. برای این کار ابتدا مجموعه ویژگی های پرسش استخراج می شود و در ادامه با توجه به ویژگی های پرسش، توسط یک روش دسته بندی ترکیبی، کلاس پرسش مشخص می شود. با توجه به کلاس و ساختار پرسش، پرسش داده شده به پرس وجوی sparql تبدیل می شود. پرس وجوی ایجاد شده به ذخایر rdf اعمال می شود. در انتها از پاسخ های حاصل از پرس وجو، پاسخی انتخاب می شود که رابطه ی مربوط به آن بیشترین شباهت با پرسش را داشته باشد.ارزیابی سیستم پیشنهادی برروی داده¬های استاندارد کنفرانس trec-8 و با استفاده از معیار ارزیابی mrr صورت گرفته است.

غنی سازی محتوای آموزش الکترونیکی مبتنی بر وب معنایی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده برق و کامپیوتر 1393
  علی شالفروش   محسن کاهانی

در دنیای امروز به منظور کاهش هزینه یادگیری از طرفی و هزینه وقت از طرف دیگر که نمی توان از آن چشم پوشی کرد، بهره گیری از سیستمهای جدید یادگیری همچون یادگیری الکترونیکی جایگاه خود را نمایان ساخته است. محققان تلاش می کنند برای پایین آوردن هزینه آموزش مستقل از زمان با تکیه بر فناوری های جدید بتواند علاوه بر آموزش موثر هزینه تولید را با بهره گیری از دانش اشتراکی در محیط وب کاهش داده و با تنوع بخشی محتوای آموزش الکترونیکی به کمک سیستم های انطباقی مبتنی بر شبکه وب معنایی به اطلاعات و داده های مرتبط برای یادگیرنده دست یابند. در این تحقیق آنچه مورد نظر ماست شامل، بهره گیری از وب معنایی به منظور غنی سازی محتوای آموزش الکترونیکی برای افزایش اثر بخشی و ارتقاء کیفیت آموزش در سیستم های آموزش الکترونیکی و ارائه بهترین شیوه بکارگیری فناوری های وب معنایی در تنوع بخشی و غنی سازی محتوای آموزش الکترونیکی با تکیه بر آمار و کاربردها است. بدین منظور در این تحقیق تلاش شده با ارائه و طراحی یک معماری توزیع شده در حوزه های مختلف وب معنایی مانند مدل سازی محتوایی مبتنی بر کلید واژه با بهره گیری از داده کاوی، تولید محتوا به روش های مشارکتی و اجتماعی، تولید محتوا به روش تفسیر متن بر اساس هستان شناسی و ارائه محتوای آموزش الکترونیکی مبتنی بر هستان شناسی به تقویت و تنوع بخشی محتوای آموزشی اثر بخش دست یافت. ارزیابی عملکرد سیستم آموزش الکترونیکی با محتوای غنی شده مبتنی بر وب معنایی حاکی از افزایش اثر بخشی آموزش بر روی یادگیرندگان داشته است، که این مهم با محتوای معمول در سیستم های مدیریت یادگیری بر روی تعدادی از یادگیرندگان نمونه امتحان، و نتیجه میزان یادگیری بررسی شده است، به طوری که با بهره گیری از این سیستم می توان حداقل به افزایش توانمندی یادگیرندگان به میزان 20% و علاقه مندی استفاده از سیستم به میزان 40% برای آنان دست یافت.

استخراج حقایق از متون فارسی در قالب rdf
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  محسن کاهانی

با توجه به حجم عظیم دانش و اطلاعات بشر و رشد روزافزون مستندات در زمینه های مختلف، پردازش زبان های طبیعی و تبدیل متون به دانش قابل فهم برای ماشین، مورد توجه قرار گرفته است. با استفاده از سیستم های استخراج اطلاعات می توان بطور خودکار پایگاه دانشی ساخت یافته از متون ایجاد کرد. در واقع هدف یک سیستم استخراج اطلاعات، استخراج حقایق از متون غیرساخت یافته و نمایش آن ها در قالب های ساخت یافته مانند سه گانه های rdf می باشد. اگر حقایق در قالب معنایی rdf نگاشت شوند، می توان اطلاعات مورد نیاز را با ساخت و ارسال پرس وجوهای sparql روی پایگاه دانش بدست آورد. در این پایان نامه، روشی برای استخراج آزاد حقایق از متون زبان فارسی پیشنهاد شده است که در آن استخراج حقایق در سطح جمله و بر اساس تشخیص افعال و روابط وابستگی بین اجزای جمله انجام می شود. راه کار پیشنهادی، حقایق اصلی را بر اساس فعل و حقایق فرعی را بر اساس روابط بین گروه های اسمی جمله استخراج و برای تبدیل به قالب rdf آماده سازی می کند. برای نگاشت حقایق در قالب معنایی rdf، uri قسمت های نهاد، مسند و گزاره یک حقیقت با استفاده از شبکه واژگان و ویکی پدیا شناسایی می شود. در نتیجه در راه کار پیشنهادی شبکه واژگان فردوس نت بصورت خودکار بر اساس شبکه واژگان انگلیسی ایجاد می شود. نتایج حاصل از ارزیابی نشان می دهد که روش پیشنهادی در استخراج حقایق موفق بوده و باعث بهبود دقت و فراخوانی نسبت به سیستم های موجود می شود. علاوه بر این سیستم پیشنهادی حقایق را در قالب معنایی rdf استخراج می کند.

رتبه بندی نتایج پرس و جوهای sparql بر مبنای تحلیل پیوند و محتوا
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  اعظم فیض نیا   محسن کاهانی

حجم بالا و رو به رشد داده¬های پیوندی منتشر شده در وب، بر اهمیت موتورهای جستجوی معنایی برای بازیابی اطلاعات مورد نیاز کاربران افزوده است. معمولا کاربران از بین نتایج بازگردانده شده، تنها چند نتیجه¬ی اول را مورد بررسی قرار می¬دهند. لذا ترتیب نمایش نتایج و انتخاب الگوریتم رتبه¬بندی مناسب، در میزان رضایت کاربر از موتور جستجو تاثیر زیادی دارد. ساخت¬یافتگی داده¬های وب معنایی این امکان را فراهم کرده است که کاربران بتوانند براساس پرس¬وجوهای ساخت یافته و دقیق sparql به جستجوی وب بپردازند. بنابراین برخلاف وب اسناد که در آن، جستجو تنها براساس پرس¬وجوی کلمه ی کلیدی ممکن بود، در موتورهای جستجوی وب معنایی امکان پاسخ به پرس¬وجوهای غیرمبهم sparql به وجود آمده است. روش¬های رتبه¬بندی که تاکنون برای نتایج پرس¬وجوهای sparql ارائه شده¬اند، تنها با استفاده از الگوریتم¬های تحلیل پیوند، رتبه¬ی محبوبیت نتایج را محاسبه می¬کنند. در این پایان¬نامه، یک روش جدید رتبه¬بندی برای نتایج پرس¬وجو های sparql ارائه شده است که میزان ارزشمند بودن هر پاسخ را براساس ترکیب رتبه¬های محبوبیت و مرتبط بودن اندازه¬گیری می¬کند. در روش پیشنهادی، رتبه¬ی محبوبیت از طریق تعمیم الگوریتم رتبه¬بندی pagerank روی گراف دو لایه از منابع¬داده¬ و اسناد معنایی و تخصیص خودکار وزن به پیوندهای معنایی مختلف، محاسبه می¬شود. رتبه¬¬ی مرتبط بودن، از طریق تحلیل محتوای اسناد معنایی و پرس¬وجوی sparql، اندازه¬گیری می¬شود. نتایج حاصل از ارزیابی نشان می دهد که مدل داده¬ی پیشنهادی متناسب با ویژگی گرافی پرس¬وجوهای sparql بوده و در محاسبه¬ی رتبه¬ی نتایج پرس¬وجوهای sparql موفق است و رتبه¬بندی براساس ترکیب رتبه¬های محبوبیت و مرتبط بودن، باعث بهبود دقت رتبه¬بندی می شود.

نظرکاوی براساس استخراج و تطبیق الگوهای حسی جملات فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1394
  سیدمحمد اصغری نکاح   محسن کاهانی

این پژوهش در حوزه نظرکاوی به بررسی روشی جدید برای تولید الگوی نظری و کشف نظر بر اساس آن می پردازد. برای تولید الگوهای نظری (حسی) از برچسب گذار نحوی اجزای کلام استفاده شده است.

دسته بندی مشتریان بر اساس میزان ماندگاری پس از دریافت خسارت با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه نوین)
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده علوم اداری و اقتصاد 1393
  تهمینه حبیبی صنوبری   احمد توکلی

هیچ سازمانی نمی تواند به حیات خود ادامه دهد مگر آن که به تعداد کافی مشتریانی را جذب و برای خود نگهداری کند. در این راستا کسب دانش از مشتریان و درک چگونگی رفتار آن ها در سازمان می تواند راهگشای مناسبی جهت بهبود هرچه بیشتر راهبردهای سازمان در جهت مشتری شود، که داده کاوی به عنوان یکی از فنون قوی در تجزیه و تحلیل داده ها به این امر کمک شایانی می کند. پژوهش حاضر با کاوش در داده های ثبت شده بخش صدور و بخش خسارت رشته بیمه آتش سوزی شرکت بیمه نوین، به دنبال استخراج دسته بندی میزان ماندگاری مشتریان بعد از دریافت خسارت و کسب قواعد و الگوهای رفتاری مشتریان در این زمینه می باشد. پیاده سازی این طرح مطابق با متدولوژی استاندارد داده کاوی crisp-dm صورت گرفته است. این متدولوژی با درک مسأله کسب و کار آغاز می گردد و با فهم داده، آماده سازی داده، مدل سازی، ارزیابی با استفاده از ماتریس انطباقی و توسعه مدل خاتمه می یابد. ابزار داده کاوی مورد استفاده جهت دسته بندی درخت تصمیم می باشد. حاصل این فرآیند قرار گرفتن مشتریان درسه کلاس a (ماندگاری ضعیف)، b (ماندگاری متوسط)، c (ماندگاری خوب) می باشد که بر اساس میزان ماندگاری مشتری بعد از دریافت خسارت طبقه بندی شده اند. در این تحقیق متغیرهای دارای ضریب اهمیت بالا و ضریب اهمیت کم در ماندگاری مشتریان مشخص می شود که خود راهگشای مناسبی در جهت مشتری مداری می-تواند باشد.

طراحی و پیاده سازی یک سیستم توزیع شده مبتنی بر عامل برای استفاده از سیستمهای خبره هم حوزه
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1387
  علی رحیمی حسین آباد   محمود نقیب زاده

سیستم های خبره از جمله سیستم های مطرح شده در هوش مصنوعی هستند که هدف آنها، تبدیل دانش افراد خبره در حوزه ای خاص، به یک سیستم کامپیوتری می باشد. این سیستم ها عموما بصورت منفرد طراحی شده و مورد استفاده واقع می شوند. همچنین حوزه دانشی که هر یک از این سیستم ها پوشش می دهد، محدود و مشخص است و سیستم خبره نمی تواند به سوالات خارج از حوزه دانش خود، پاسخ دهد. از این رو، برقراری ارتباط بین سیستم های خبره، نقش بسیار مهمی در استفاده از حوزه وسیع تری از دانش که توسط چند سیستم خبره پوشش داده شده اند، دارد. در این پایان نامه، یک سیستم توزیع شده مبتنی بر عامل ارایه شده است که با استفاده از آن می توان بین چند سیستم خبره مبتنی بر قانون که در حوزه های مرتبط و مشابه فعالیت می کنند، ارتباط برقرار کرد. در این سیستم، با طراحی پروتکل هایی برای توزیع تکنیک های استنتاج پیش رو و پس رو بین چند سیستم خبره، این امکان فراهم می شود که سیستم های خبره بتوانند برای پاسخ به پرسش های خود، از دانش سیستم های خبره دیگر نیز استفاده کنند. همچنین، برای استاندارد سازی نمایش دانش در کل سیستم، از ontology استفاده شده است. سیستم طراحی شده و پروتکل های آن، مبتنی بر استاندارد fipa بوده و در محیط jade پیاده سازی شده اند. همچنین، برای پیاده سازی ontology از ابزار protégé استفاده شده و خروجی آن بصورت فایل های javabean در محیط jade مورد استفاده قرار گرفته اند. برای آزمون سیستم، از دو سیستم خبره تنظیم برنامه سفر که با استفاده از jess پیاده سازی شده اند، استفاده شده است و نتایج بدست آمده نشان داده است که سیستم های خبره توانسته اند با استفاده از سیستم ارایه شده در این کار، از دانش سیستم های خبره دیگر برای حل مسایل خود استفاده کنند.

بکارگیری فرآیند داده کاوی برای دستیابی به ویژگیهای تقاضای خدمات (مورد مطالعه: بیمه ایران)
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده علوم اداری و اقتصادی 1387
  زهرا حسینی   احمد توکلی

افزایش رقابت در حوزه های کسب و کار و تنوع گزینه های در دسترس مشتریان، سازمانها را به گذر از فلسفه بازاریابی انبوه و پیوستن به پارادایم بازاریابی ارتباطی و در بطن آن مدیریت روابط با مشتری، ترغیب نموده است. سنگ بنای این نگرش نوین بازاریابی را کسب دانش مشتری به منظور درک ترجیحات و ویژگیهای گروههای مختلف مشتریان هدف و تدوین برنامه بازاریابی خاص برای هر گروه، تشکیل می دهد. داده کاوی روشی است که سازمان را در تحصیل این دانش، یاری می نماید. داده کاوی در حوزه مدیریت روابط با مشتری، با کاوش در پایگا ههای داده حجیمی از تعاملات ثبت شده مشتریان با سازمان، که منعکس کننده خصوصیات،تمایلات و رفتارهای واقعی آنان است به استخراج قواعد توصیف کننده رفتار مشتری پرداخته و نتیجه را به صورت دانشی کاربردی در اختیار مدیران بازاریابی سازمان قرار می دهد. پژوهش حاضر در تلاش برای تبیین قابلیتهای داده کاوی در خلق دانش مشتری، به کاوش در پایگاههای داده سازمان بیمه ایران معطوف شده و پس از تشخیص زمینه های مختلف ایجاد دانش مشتری که از این مجموعه داده قابل تعقیب است، به استخراج الگوهای رفتار خرید گروههای مختلف متقاضیان خدمات بیمه ای نائل شده است. انجام این طرح مطابق با متدولوژی استاندارد داده کاویcrisp-dm، صورت گرفته و نتیجه آن، شناسایی دسته هایی از مشتریان با رفتارهای خرید متشابه و ایجاد زمینه تحلیلهای گسترده بازاریابی درحوزه های موضوعی شناسایی و توسعه مشتری می باشد.

زمانبندی چندمعیاری وظیفه های بی درنگ سخت در سیستم های ناهمگن با الگوریتم ژنتیک
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1388
  محمدرضا میریانی   محمود نقیب زاده

زمانبندی اجرای بهینه ی وظیفه ها در اکثر موارد یک مساله از مرتبه ی زمانی غیرچندجمله ای است و در نظر گرفتن وابستگی بین وظیفه ها منجر به افزایش پیچیدگی مساله می شود. این مسایل در برگیرنده ی سیستم های بی درنگ نیز می شوند. از آنجا که در سیستم های بی درنگ مسایل زمانی از حساسیت بیشتری برخوردار هستند، الگوریتم زمانبندی و در نظر گرفتن عامل های موثر بر زمان اهمیت فوق العاده ای دارند. در این پایان نامه، زمانبندی زیربهینه ای برای سیستم های بی درنگ سخت در محیط چندپردازنده ای ناهمگن با توجه به محدودیت های زمانی از جمله زمان بارگذاری دوباره ی حافظه ی نهان پردازنده ها به کمک الگوریتم ژنتیک ارایه شده است، به طوری که هدف آن کمینه کردن همزمان زمان تکمیل کل وظیفه ها و تعداد پردازنده های مورد نیاز برای برآورده شدن تمام ضرب الاجل ها است. همچنین تعمیم مساله زمانبندی سیستم های چندپردازنده به کمک الگوریتم های ژنتیک به نحوی که برای سیستم های بی درنگ اعم از بی درنگ سخت و بی درنگ نرم، و سیستم های بدون محدودیت زمانی مناسب باشد، مد نظر قرار گرفته است.

ارائه یک روش خودکار مبتنی بر آنتولوژی برای آزمون مبتنی بر مدل برنامه های تحت وب
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد 1388
  حمیده حاجی آبادی   محسن کاهانی

در دنیای امروز یکی از حیاتی ترین زیر ساخت های اطلاعات جهانی، سیستمهای مبتنی بر وب می باشد، از این رو قابلیت اطمینان در آنها عاملی پر اهمیت می باشد. به همین منظور در راستای تایید قابلیت اطمینان نرم افزارهای مبتنی بر وب، امروزه محققان در پی روشهایی کارا جهت مدلسازی و تست این نرم افزارها بر آمده اند. هدف از انجام این پروژه، آزمون مبتنی بر مدل یک برنامه تحت وب در سطح سیستم، بصورت خودکار می باشد. در ابتدا با استفاده از استراتژی جعبه سیاه مدل ناوبری سیستم استخراج می شود. مدل استخراج شده، نقطه شروع برای انجام آنالیز ایستا می باشد. سپس به منظور پر کردن خودکار فرمها و در نتیجه مدلسازی و آنالیز قسمتهای پویای برنامه از چندین آنتولوژی استفاده می شود، در ادامه هر یک از عناصر فرمها به ترتیب به یکی از منابع آنتولوژی نگاشت می شوند، و با استفاده از محدودیتهای آنتولوژی و بصورت خودکار، داده های آزمون ایجاد می گردند. مدل پیشنهاد شده بعنوان ابزار mbtester در پروژه بزرگ wtlab پیاده سازی شد. طرح wtlab با حمایت مرکز تحقیقات و مخابرات ایران بعنوان یک طرح پژوهشی بنیادی تعریف شده است. مدل پیشنهادی بر روی چندین برنامه تحت وب اجرا شد. با بررسی نتایج بدست آمده، بهبود قابل توجهی در فریند آزمون برنامه های مبتنی بر وب قابل مشاهده است.