نام پژوهشگر: نوشین ریاحی

تحلیل سیستم ترجمه ماشینی آماری فارسی- انگلیسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1389
  سمیه بخشایی   نوشین ریاحی

این پایان نامه تلاشی است در جهت بررسی رویکرد جدید شاخه ترجمه ماشینی که از روش های آماری برای ساخت یک مترجم خودکار استفاده می کند. در فصل تجربیات ، ابتدا سیستم مترجم ماشینی آماری که برای جفت زبان فارسی-انگلیسی راه اندازی شده بهمراه خروجی این سیستم نشان داده شده است و پارامترهای آن مورد مطالعه قرار گرفته است. در ادامه به عنوان مطالعات جانبی اولین سیستم ترجمه آماری فارسی-آلمانی طراحی شده است. در این بخش ایده زبان پل به عنوان روشی برای ساخت مترجم آماری برای زبان هایی که پیکره موازی مستقیم ندارند تشریح شده و نتایج موفقیت آمیز آن در آزمایشات نیز نشان داده شده است. همچنین سعی شده با اعمال ایده هایی در مرحله پیش پردازش خروجی ترجمه بهبود داده شود. این تغییرات در راستای تسهیل ترجمه بین دو زبان با هدف افزایش کیفیت آن است. در انتها خروجی سیستم مترجم آماری تحلیل شده و خطاهای چنین سیستم هایی برای بهبودهای آتی مورد بررسی قرار گرفته است. خروجی این پایان نامه ابتدا یک پیکره دو زبانه موازی فارسی-انگلیسی است که در طی یک طرح تحقیقاتی مصوب دانشگاه الزهرا ساخته شده است. این پیکره با استفاده از ریشه یاب دانشگاه شهید بهشتی ریشه یابی شده است که برای مطالعات آتی به عنوان پیکره جانبی قابل استفاده است. همچنین یک پیکره طلایی حاصل تلاش های انجام شده در این پایان نامه است. پیکره طلایی پیکره ای است که علاوه بر هم ترازی در سطح جملات، کلمات نیز هم تراز شده اند. این پیکره دستی هم تراز شده، در یک کارگروه یکروزه و با استفاده از قضاوت انسانی ساخته شده است. در انتها نیز نتیجه گیری کلی از تجربیات این تحقیق عنوان شده و مسیر آتی تحقیقات نیز ترسیم شده است.

تشخیص گروه در شبکه های اجتماعی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1390
  زهرا مصدرالامور   نوشین ریاحی

امروزه شبکه های اجتماعی دارای کاربردهای مختلفی هستند و به خصوص جایگاه مهمی در بین کاربران اینترنت دارند. به همین دلیل تحلیل شبکه های اجتماعی حوزه پژوهشی مهم و تأثیرگذاری در بین پژوهشگران است. یکی از چالش های مهم در تحلیل شبکه های اجتماعی، تشخیص گروه است. گروه مجموعه افراد یا سازمان هایی است که چگالی ارتباطات آنها با هم بیشتر از سایر موجودیت های شبکه است. از جمله کاربردهای تشخیص گروه بهبود عملکرد موتورهای جستجو، درک بهتر ساختار شبکه و یافتن گروه های خاص است. در این پایان نامه دو روش جدید در تشخیص گروه ارائه شده است. اولین آنها یک روش ترکیبی از تقسیم کننده و تجمعی است. این روش توانسته به خوبی گروه ها را شناسایی کند ولی دقت و سرعت آن در مقایسه با روش های مشابه کمتر است. بنابراین در روش بعدی بر پایه ماژولاریتی محلی در یک ساختار تجمعی، بر بهبود دو پارامتر دقت و سرعت کار شده است. این روش پس از بهبودهای متوالی توانسته است بطور موازی به تشخیص همزمان چند گروه بپردازد. همچنین قادر است همزمان با گردهم آوری گره های مشابه در یک گروه، گره ها را میان گروه ها جابجا کند. در واقع این امکان را دارد که اگر گرهی در گروه مناسب خود قرار نگرفته است، گروه درست را برای آن گره بیابد. روش جدید پیشنهاد شده قادر است در حین کار گروه جدیدی به گروه های موجود اضافه کند و یا گروه نامناسب را از شبکه حذف کند. ترکیب این روش با گداختگی شبیه سازی شده بر توانایی آن در تعیین گروه مناسب برای گره ها افزوده است و نقش بسزایی در دقت آن داشته است. از مهمترین ویژگی های روش های پیشنهاد شده این است که در مقایسه با روش های موجود دارای سرعت و دقت بهتری است. همچنین روش پیشنهادی به ساختار و حجم گره های موجود در شبکه بستگی ندارد و بدون هیچ گونه اطلاعات اولیه از تعداد گروه ها و نوع آنها می تواند آنها را شناسایی کند.

ساخت پیکره تطبیقی فارسی-انگلیسی و استخراج جملات موازی از آن
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1391
  سیده رویا محمدی   نوشین ریاحی

کیفیت بسیاری از کاربردهای پردازش زبان های طبیعی مانند سیستم های ترجمه ی ماشینی به پیکره های موازی که برای آموزش آنها استفاده می شود، بسیار وابسته است. بنابراین یکی از نیازهایی که در این حوزه وجود دارد، تهیه ی پیکره های موازی با حجم داده ای بالا و محتوای متنوع می باشد. مشکلی که در استفاده از پیکره های موازی وجود دارد، حجم اندک اطلاعات موازی موجود بر روی منابع اطلاعاتی است. در سال های اخیر، تلاش های زیادی برای استخراج داده ی موازی از منابع غیرموازی یا پیکره های تطبیقی انجام شده است. مزیت این پیکره ها نسبت به پیکره های موازی، حجم بالای اطلاعاتی آنها می باشد. از طرفی، این داده ها را می توان به راحتی از طرق مختلف مانند صفحات وب بدست آورد. مثلاً یکی از منابع موجود برای استخراج پیکره های تطبیقی استفاده از شبکه های خبری می باشد. با وجود کاربردهای پیکره-های تطبیقی، کار زیادی در این زمینه در زبان فارسی انجام نشده است. در این پژوهش، نخست به ساخت پیکره ی تطبیقی بزرگ فارسی- انگلیسی می پردازیم. برای ایجاد این پیکره از اسناد خبری روزنامه های همشهری و بی بی سی استفاده کرده ایم و از اسناد بدست آمده، معیارهایی نظیر تعداد کلمات کلیدی مشترک، اسامی خاص یکسان، عناوین مشابه و فاصله ی تاریخ انتشار دو خبر را استخراج نمودیم. سپس معیارهای بدست آمده از مرحله ی قبل را براساس میزان اهمیتشان در ترازبندی متون، با وزن های مختلف با یکدیگر ترکیب کردیم. با توجه به نتایج بدست آمده، مشاهده می-شود که این پیکره از نظر کیفی و کمی از تنها پیکره ی تطبیقی تولید شده در زبان فارسی بهتر می باشد. در گام بعد، به استخراج جملات موازی از پیکره ی تطبیقی ساخته شده پرداختیم. بدین منظور، پس از استخراج متن های منطبق با یکدیگر، مجموعه ای از جملات را ایجاد کرده و با استفاده از معیارهای طول و تعداد هم پوشانی کلمات، جملاتی را که احتمال موازی بودنشان بسیار کم بود، تصفیه کردیم. پس از تصفیه، به استخراج ویژگی های لغوی، طولی و هم پوشانی لغات از جملات منتخب پرداختیم و در نهایت با استفاده از جملات آموزشی پیکره ی موازی موجود و ویژگی های استخراج شده، با به کارگیری یک طبقه-بند، جملات منتخب را در دو دسته ی موازی و غیرموازی دسته بندی کردیم.

ترجمه ماشینی انگلیسی به فارسی با استفاده از یک روش ترکیبی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1391
  زکیه شاکری   نوشین ریاحی

با افزایش روزافزون حجم اطلاعات در دنیای امروز و آسان شدن برقراری ارتباط در سرتاسر دنیا توسط شبکه جهانی، اهمیت داشتن مترجم های خودکاری که بتوانند به صورت بلادرنگ و در عین حال دقیق، این اطلاعات را به زبان های مختلف آماده کنند، به شدت احساس می شود. این زمینه با ظهور ماشین های مترجم آماری جان تازه ای به خود گرفت. روش های ترکیبی ترجمه نیز در سالیان اخیر طرفداران بسیاری پیدا کرده است، خصوصاً برای ترجمه زبان هایی مانند فارسی که ابزار و داده های مناسب برای ایجاد سیستم آماری مطلوب وجود ندارد. سیستم ترکیبی پیشنهاد شده در این پایان نامه که برای ترجمه بین جفت زبان های انگلیسی و فارسی طراحی شده است به دو روش، رویکردهای غالب ترجمه ماشینی یعنی رویکرد آماری و رویکرد مبتنی بر قاعده را با هم ترکیب می کند. در روش اول این دو رویکرد بصورت درهم تنیده با هم ترکیب می شوند بدین صورت که سیستم پایه آماری بوده و آنرا با استفاده از ویژگیهای زبان بهبود می دهیم. تحقیقات انجام شده نشان می دهند که برچسب pos موثرترین فاکتور زبانی در این نوع سیستم های ترکیبی است که متأسفانه برای زبان فارسی برچسب زن های موجود جوابگو نبودند. لذا در اولین گام یک برچسب زن pos فارسی مناسب با دقت بالا آماده نمودیم. سیستم ترجمه ترکیبی که از این ابزار استفاده می کند کیفیت ترجمه بهتری نسبت به سیستم آماری دارد. از سوی دیگر سیستم های آماری حال حاضر برای زبان هایی با ساختار گرامری مشابه بهتر عمل می کنند اما دو زبان فارسی و انگلیسی ساختارهای بسیار متفاوتی دارند و لذا سیستم ترجمه آماری آنها کیفیت خوبی ندارد. در روش ترکیبی پیشنهادی دوم از جابجایی کلمات در مرحله پیش پردازش استفاده شده است. بدین صورت که با استفاده از تکنیک های آماری، قواعد جابجایی کلمات در هنگام ترجمه از زبان مبدأ به مقصد را استخراج کرده و در یک مرحله پیش پردازش، ساختار زبان مبدأ را تغییر می دهیم تا شبیه به ساختار زبان مقصد شود. این سیستم ترکیبی نیز عملکرد بهتری نسبت به سیستم آماری از خود نشان داد.

استخراج اطلاعات از ویکی پدیا و گسترش شبکه واژگانی فارسی با نمونه ها جهت استفاده در یک سامانه پرسش و پاسخ به زبان فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1391
  الهام فکری   نوشین ریاحی

هدف تحقیق صورت گرفته، ارائه یک بستر اطلاعاتی است که بتواند در یک سامانه پرسش و پاسخ به زبان فارسی مورد استفاده قرار گیرد و پرسش های با انواع تعریف شده را بتواند پاسخ دهد. دامنه اطلاعات استخراج شده و در نتیجه پرسش های قابل پاسخگویی از نظر موضوع محدود نبوده و به عبارتی عام می باشد. یک دسته پرکاربرد از سامانه های پرسش و پاسخ، دسته ای هستند که روی پرسش از حقایق متمرکزند. پرسش و پاسخ در این سامانه ها روی مواردی چون افراد، مکان ها، وقایع و ... صورت می گیرد که با نام نمونه ها معروف اند. نمونه ها موجودیت هایی متعلق به یک کلاس پدر می باشند که در صورتی که با دیدگاه هستان شناسانه به آنها بنگریم در سلسله مراتب هستان شناسی در برگ قرار می گیرند و فرزندی نخواهند داشت. یک منبع مناسب در پاسخگویی به پرسش های عمومی دانشنامه ها هستند از ویکی پدیا به عنوان یک دانشنامه آزاد و حاوی مقالات در موضوعات مختلف استفاده شده است. منبع دیگر قابل استفاده در پرسش و پاسخ، هستان شناسی های عمومی هستند که شبکه واژگانی فارسی (فارس نت) به عنوان نمونه ای از این دسته مورد استفاده قرار گرفته است. فارس نت حاوی واژگان عمومی فارسی در قالب دسته های هم معنا می باشد که بین این دسته ها روابط مختلف و از جمله روابط سلسله مراتبی وجود دارد. تعداد نمونه های موجود در فارس نت محدود می باشد و از این رو به تنهایی در پرسش و پاسخ کافی نمی باشد و لازم است با نمونه ها گسترش یابد. از این رو بستر اطلاعاتی به منظور استفاده در سامانه پرسش و پاسخ تهیه می شود که متشکل از فارس نت توسعه یافته با نمونه-ها می باشد. بدین ترتیب که با استفاده از مقالات ویکی پدیای فارسی که حاوی نمونه های بسیاری از کلاس های موجود در فارس نت می باشد، نمونه ها و اطلاعات آنها استخراج شده و به کلاس پدر خود در فارس نت متصل می شود. همچنین برای نمونه های اضافه شده اطلاعاتی چون زوج های صفت-ارزش، یک جمله توضیحی و مفاهیم مرتبط با آن در فارس نت استخراج می شود. روی بستر اطلاعات فراهم شده یک مولفه پرسش و پاسخ با قابلیت پاسخ به سه نوع مشخص از پرسش ها قرار می گیرد. این انواع، پرسش از چیستی، پرسش از نمونه ها و پرسش از ارزش های صفات می باشند. از قابلیت های بستر اطلاعاتی فراهم شده این است که به دلیل اینکه نمونه های استخراج شده به یک شبکه واژگانی متصل شده اند، می توان از ویژگی های شبکه واژگانی در فهم پرسش و همچنین ارائه پاسخ استفاده کرد و بدین ترتیب به پرسش های پیچیده ای که نیاز به نوعی استنتاج دارند پرداخت.

حذف نویز سیگنال گفتار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1391
  سروه کریمی   نوشین ریاحی

در بسیاری از شرایط ارتباط گفتاری، وجود نویز زمینه، موجب کاهش کیفیت و قابلیت فهم گفتار می گردد. وقتی گوینده و شنونده در محیطی ساکت و بدون نویز ارتباط برقرار می کنند، تبادل اطلاعات آسان و دقیق است اما قرار گرفتن در محیط نویزی تاثیرا ت نامطلوبی بر روی سیگنال گفتار خواهد داشت. از اینرو در سال های اخیر روش های متعددی برای مقاوم سازی بازشناسی گفتار و کاهش عدم تطبیق میان شرایط آموزش و آزمایش مطرح گردیده اند که از ان جمله می توان به بهبود سیگنال گفتار، استفاده از ویژگی های مقاوم و استفاده از خصوصیات شنوایی انسان اشاره کرد. اکثر روش های فوق به بررسی نویز گوسی پرداخته اند. بازشناسی گفتار آغشته به نویز غیرگوسی، از مسائل چالش برانگیز در زمینه تحقیقاتی بازشناسی خودکار گفتار می باشد. برای کاهش نویز گفتار، از فیلترهای تطبیقی بهره گرفته شده است. اما ضعف اصلی آنها،عدم توانایی کاهش نویزهای غیرگوسی است. اخیرا با استفاده از معیار کورنتروپی ماکزیمم، فیلترهای تطبیقی قابلیت رویاروئی با نویزهای غیرگوسی را کسب کرده اند. در این تحقیق، از فیلترهای تطبیقی با معیار کورنتروپی ماکزیمم برای بهبود بازشناسی گفتار استفاده شده است. در آزمایش های انجام شده مشخص شد که استفاده از معیار کورنتروپی ماکزیمم در مقایسه با معیار حداقل میانگین مربعات خطا به بهبود محسوسی در درصد بازشناسی گفتار آغشته به نویز گوسی منجر نمی شود،اما تاثیر بسزایی در بهبود بازشناسی گفتار آغشته به نویز غیرگوسی دارد.

بازشناسی منابع سیگنال های فروصدا با استفاده از ویژگی های گشتاور طیفی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
  زهرا معدن کن   نوشین ریاحی

امواج با فرکانس پائین تر از شنوایی انسان (پائین تر از 20 هرتز) را فروصدا می نامند. این امواج که در فضا منتشر هستند و قابلیت های ویژه ای از جمله توانایی طی مسافت های بسیار طولانی را دارا می باشند، از منابع متعددی از جمله زلزله، آتشفشان، شهاب سنگ، طوفان، انفجارهای شیمیایی و اتمی، حرکت هواپیما و ... ناشی می شوند. با توجه به تعدد این منابع و از آنجا که بازشناسی این امواج از یکدیگر در مواردی از جمله تشخیص و پیش بینی برخی حوادث طبیعی مانند زلزله، و از طرفی در رصد فعالیت های هسته ای که قانون منع آزمایشات اتمی را نقض می نماید حائز اهمیت می باشد، روش های مختلفی در تفکیک امواج فروصدا توسط محققین به کار گرفته شده است. از مهم ترین رویکردهای موجود در این زمینه رویکرد مبتنی بر هوش مصنوعی می باشد. در این رویکرد با استفاده از روش های بازشناسی الگو و یادگیری ماشین می توان منابع مولد رویدادهای فروصدا را از یکدیگر تفکیک نمود. در رویکرد هوش مصنوعی پس از انجام مراحل پیش پردازش سیگنال، ویژگی هایی که قادر به توصیف مشخصه های سیگنال هستند از آن ها استخراج شده و سپس این بردار ویژگی به عنوان ورودی به دسته بند داده می شود. پس از طی مراحل آموزش دسته بند با داده های آموزشی، در خروجی دسته بند هویت رویدادهای فروصدا قابل تشخیص خواهد بود. متداول ترین روش استخراج این ویژگی ها که در تحقیقات پیشین به کار گرفته شده روش طیفی خطی می باشد که قادر به استخراج مشخصه های خطی سیگنال می باشد. از آنجا که مشخصه های غیرخطی و آماری مرتبه ی بالای سیگنال حائز اهمیت بوده و می تواند به طور دقیق تری سیگنال را توصیف نماید، در این پژوهش ویژگی هایی تحت عنوان ویژگی های گشتاور طیفی جهت استخراج مشخصه های آماری مرتبه ی بالاتر طیف سیگنال معرفی نمودیم. سپس با معرفی ویژگی های گشتاور طیفی دوبُعدی و گشتاورهای طیفی مرکب توانستیم عملکرد سیستم تعیین هویت خود را بهبود بخشیم. از یک روش انتخاب ویژگی نیز جهت کاهش بُعد فضای ویژگی ها استفاده نمودیم. برای ارزیابی عملکرد سیستم تعیین هویت با ویژگی های پیشنهادی نیز از چند روش دسته بندی استفاده نمودیم. از جمله روش های دسته بندی مورد استفاده که توانستیم به کمک آن دقت تشخیص سیستم خود را بهبود بخشیم روش دسته بندی چندگانه یا دسته بندی تجمعی می باشد. در نهایت توانستیم با به کار گیری مجموعه پیشنهادات مطرح شده به دقت تشخیصی معادل 98.1 در تعیین هویت امواج فروصدا دست یابیم.

سیستم خودکار خلاصه ساز متون فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
  فاطمه غزالی   نوشین ریاحی

دراین پژوهش روشی ترکیبی از الگوریتم ژنتیک و شبکه عصبی rbf برای خلاصه سازی استخراجیِ متون فارسی پیشنهاد شده است، که ابتدا به امتیازدهی پاراگراف ها پرداخته می شود، سپس پاراگراف های برتر را انتخاب کرده و به محاسبه امتیاز جملات آن ها می پردازد. همچنین جهت تعیین میزان اهمیت هر یک از ویژگی های جملات از یک شبکه عصبی mlp بهره گرفته شده است. سپس با استفاده از یک شبکه عصبی rbf به گزینش جملات برتر به عنوان جمعیت اولیه الگوریتم ژنتیک پرداخته می شود و تولید خلاصه نهایی صورت می گیرد. الگوریتم ژنتیک با اهمیت دادن به میزان پیوستگی و خوانایی خلاصه تولید شده، جملات را گزینش می نماید. در نتیجه می توان با ترکیب آن ها میزان کارایی را در حد قابل قبولی افزایش داد. جهت ارزیابی روش پیشنهادی ارائه شده، علاوه بر استفاده از معیار های ارزیابی درونی، از روش ذهنیِ ارزیابیِ دستی نیز بهره گرفته شده است. از جمله معیار های پر اهمیت ارزیابی درونی، معیار دقت و بازخوانی می باشد، که از ترکیب این دو نیز معیار f-score حاصل می گردد. که نتیجه f-score نهایی به طور میانگین 52/0 بوده است. همچنین نتایج قضاوت انسانی افراد خبره نیز به صورت 60% خوب، 30% متوسط و 10% ضعیف، حاصل شده است. لازم به ذکر است که داده های مورد استفاده جهت آموزش و ارزیابی این سیستم خلاصه ساز، پیکره اخبار همشهری ارائه شده توسط آزمایشگاه پردازش زبان طبیعی دانشگاه تهران و همچنین اخبار ورزشی خبرگزاری ایسنا و دانشنامه فارسی ویکی پدیا می باشد.

رفع ابهام از همنویسه ها در متون فارسی با روش های نیمه نظارتی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
  فاطمه صدقی   نوشین ریاحی

در این پژوهش برای رفع ابهام از معانی همنویسه ها در متون فارسی، بر الگوریتم لیست تصمیم متمرکز شده ایم که در حالت پایه روشی نظارتی مبتنی بر پیکره است که برای آموزش طبقه بند تنها از کلمات پیرامون هم نویسه که همرخداد نامیده میشوند در پیکره ی آموزشی استفاده می کند. پیکره ی کوچکی برچسبگذاری شده و تلاش بر این بوده که با استفاده از پیکره های بدون برچسب که به سادگی و در اندازه های بزرگ در دسترس اند کارایی الگوریتم لیست تصمیم که تحت تأثیر کمبود نمونه های برچسبدار است، بهبود یابد. نخست با الهام از tri-training یک روش نیمه نظارتی معرفی شده که از سه دیدگاه نحوی افعال، اسامی و حروف؛ برای خودگردانسازی آموزش یعنی برچسبگذاری یک پیکره ی بزرگ با استفاده از یک فرضیه ی یادگیری شده از روی یک پیکره ی کوچک برچسبدار بهره میبرد. روش نیمه نظارتی tri-training روشی تکرارشونده است که کارایی آن به تخمین دقت طبقه بند مرحله ی قبل وابسته است و ازاین رو در صورت پایین بودن دقت برچسبگذاری طبقه بند مرحله ی قبل، ممکن است کارایی مطلوب به دست نیاید. استفاده از سه دیدگاه گرامری به بالا رفتن دقت کمک میکند. ارزیابی انجام شده نشاندهنده ی بهبود نتایج فراخوان تقریبا بین 2 تا 45 درصد، نسبت به لیست تصمیم پایه در هنگام کوچک بودن نمونه های آموزشی است. همرخدادها ویژگی مهمی در آموزش فرضیه های یادگیری روشهای رفع ابهام اند. تشخیص همرخدادهای موثر و تخصیص طبقه به هریک از آنها در هر یک از روشهای رفع ابهام به نحو خاصی انجام می شود. کوچک بودن پیکره ی آموزشی در روش های مبتنی بر پیکره بر این تشخیص ها تأثیر نامطلوب می گذارد. بنابراین از روش های استخراج همرخدادی به وسیله ی پیکره های بزرگ بدون برچسب میتوان بهره برد. روش به کار رفته در این پژوهش علاوه بر توانایی تشخیص همرخدادها میتواند جایگاه های هم رخدادی نسبت به همنویسه که موضوع تأثیرگذاری بر کارایی است را نیز تعیین کند. ارزیابیها نشان داده که استفاده از این همرخدادها میتواند دقت لیست تصمیم را عمدتا بین 2 تا 3 درصد بالا ببرد. در سومین روش پیشنهادی از ایده ی استخراج هم رخدادهای پیشنهاد شده در روش پیشنهادی دوم استفاده شده تا دقت خودگردان سازی الگوریتم tri-training افزایش یابد. به این ترتیب این امکان فراهم می شود تا بدون استفاده از سه دیدگاه گرامری نیز-که به معنای نیازمندی به برچسب گذاری گرامری پیکره ی بدون برچسب بود- بتوان خودگردانسازی را بهبود داد.

تشخیص گفتار از موسیقی در داده های صوتی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
  اشرف عاشقی   نوشین ریاحی

با توجه به رشد و توسعه اینترنت و تکنولوژی اطلاعات در سال های اخیر،بازیابی اطلاعات فایل های صوتی و سازمان دهی آن بر اسـاس نوع صوت برای اهداف گوناگون به چالشی مهم در داده کــاوی تبدیل شده است.داده های صوتی اغلب شامل بخش های متناوبی از انواع مختلف به ویژه گفتار و موسیقیهستند. بنابراین یکی از کارهای بنیادی در دستکاری این قبیل داده هاتفکیک این دسته های گوناگون می باشد و بر این اساس که در یک فایل داده صوتی انواع گفتار و موسیقی حجم عظیمی از داده را به خود اختصاص می دهند ، ضرورت مسئله تفکیک گفتار/موسیقی که اغلب به عنوان اولین گام در فرایند پردازش داده مطرح است، ثابت می شود.از طرفی انواع متفاوتی از موسیقی وجود دارد که تفــاوت هایی را از لحاظ ویژگی های صــوتی ایجاد می کنند. دسته بندی سبک های موسیقی در نقاط مختلف جهان تعاریف متعددی دارد وبر اساس پژوهش های انجام گرفته در زمینه کلاس بندی گفتار/موسیقی، مسئله زبان بر روی نتایج تأثیرگذار است بنابراین کارایی سیستم طراحی شده برای داده های موسیقی غربی، در هنگام استفاده برای داده های فارسی به ویژه با درنظرگیری کلاس های موسیقی سنتی ایرانی، تضمین شده نیست. هدف اصلی این پژوهش کلاس بندی سیگنال صوتی در دسته های گفتار و موسیقی بر روی داده های فارسی و بهبود روش های کلاس بندی گفتار/موسیقی با استفاده از ویژگی های کارآمد می باشد و به منظور پوشش هر نوع داده صوتی، مرز بین کلاس های مورد نظر کاملاً تعریف شده است. در این پایان نامه در جهت رسیدن به اهداف ذکر شده، یکی ازکارهای انجام گرفته استفاده از یک ویژگی آماری و اعمال آن بر روی ویژگی های کارآمد سیگنـال صوت در جهت دستیابی به یک مفهـوم کـارا برای توصیف هرچه بهتـر شکل موج سیگنـال می باشد.در نتیجه ضرایب گشتاور بدست آمده از ویژگی های کپسترال سیگنال صوتی به عنوان یک ویژگی بهینه در این پژوهش معرفی گردید.این ویژگی بالاترین درصد کارایی را در کلاس بندی گفتار/موسیقی/ آواز به دست داده است. علاوه بر این، با استفاده از همین ویژگی ها عملکرد روش های استخراج ویژگی پیشین در کلاس بندی انواع سبک موسیقی نیز بهبودیافته است. در این پژوهش علاوه بر ارائه این ویژگی ها،دستگاه های موسیقی سنتی ایرانی نیز با به کارگیری روش انتخاب ویژگی دو مرحله ای و انتخاب بهترین ویژگی های صوتی، با بالاترین دقت تفکیک شدند. با توجه به حجم عظیم ویژگی های صوتی ورودی به گام انتخاب ویژگی و لزوم توجه به اطلاعات بهینه ارائه شده توسط هر دسته از ویژگی ها، اعمال یک الگوریتم سریع و دقیق مبنای عمل قرار گرفت و با اضافه نمودن یک گام پس پردازش به الگوریتم رتبه بندی relief و دو مرحله ای نمودن فاز انتخاب ویژگی، بهترین ویژگی های صوتی انتخاب گردید. به دلیل این که هدف اصلی این پایان نامه کار کردن بر روی موسیقی ایرانی است، بنابراین به علت عدم وجود مجموعه داده مناسب، برای شروع، ایجاد مجموعه داده مناسب در اولویت تحقیق قرار گرفته است.

بهبود کارایی منابع مجازی سازی با استفاده از تکنیک های تعدیل بار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
  حکیمه تیموری   نوشین ریاحی

در دنیای کنونی، رایانش ابر به عنوان پنجمین سرویس همگانی (بعد از آب، برق، گاز و تلفن) مطرح شده است. مزایای قابل توجهی که سرویس های ابر از نظر هزینه و کارائی در اختیار استفاده کنندگان قرار می دهند، باعث گسترش روز افزون آن شده است. این سرویس ها در هنگام اجرا به زیر ساخت سخت افزاری وابستگی بسیار کمی داشته و به آسانی منابع موجود را به اشتراک می گذارند. از این رو اساسی ترین نقش در رایانش ابر را تکنولوژی های مجازی سازی و انتقال زنده بر عهده دارند. در تحقیق حاضر، موضوع تعدیل بار بین منابع موجود در زیرساخت مرکز داده رایانش ابر، با استفاده از تکنولوژی های مذکور مورد بررسی قرار گرفته است. برای نیل به چنین هدفی، موضوع کاهش مصرف توان زیر ساخت مرکز داده مجازی سازی شده رایانش ابر بررسی گردیده و الگوریتم هایی ارائه شد. این الگوریتم ها با در نظر گرفتن میزان بهره وری هر کدام از میزبان های سرویس دهنده که داخل مرکز داده هستند و همچنین مقایسه آن ها با بهره-وری، مصرف توان و آستانه تعدیل بار را عملیاتی تر می کنند. در این تحقیق با استفاده از الگوریتم معیار عدم تعادل ایستا به جای الگوریتم تعدیل بار دینامیک، از خطر از کار افتادگی مرکز داده که با افزایش تعداد درخواست ها به وجود می آید، جلوگیری به عمل آمد. سپس با اضافه کردن هزینه مصرفی پارامترهای منابع سیستم، این الگوریتم گسترش یافت. آنگونه که بهترین میزبان از نظر هزینه مصرفی از میان میزبان های قابل انتخاب، برگزیده شود. با ارائه الگوریتم معیار عدم تعادل پویا و با در نظر داشتن مقادیر متفاوت برای حد آستانه، با توجه به وضعیت سیستم، میزان مهاجرت ماشین های مجازی به صورت چشمگیری کاهش یافت. چنان که در مرحله اول، از مصرف انرژی تا 40% صرفه جویی شده و در مرحله دوم بهبود عملکرد، که از الگوریتم اصلاح شده مرحله اول استفاده شد، مصرف انرژی بیش از 75% کاهش را نشان داد.

به کارگیری روش های محاسبات نرم در سیستم توصیه گر مبتنی بر پالایش مشارکتی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
  نرگس السادات خضوعی   نوشین ریاحی

سیستم های توصیه گر امروزه به طور وسیعی در کمک رساندن به کاربران جهت یافتن نیازمندی های خود از میان حجم بسیار عظیم اطلاعات که به طور مکرر قابل دسترس اند، مورد استفاده قرار می گیرند. سیستم توصیه گر از نوع پالایش مشارکتی،کاربرانی را که هم عقیده با کاربر فعال هستند، می یابد و سپس اقلام مورد علاقه آنها را به وی توصیه می کند. . الگوریتم ژنتیک یکی از روشهای جستجو و بهینه سازی قدرتمند محسوب می شود و در حل مسائل پیچیده و زمانبر می توان از الگوریتم ژنتیک موازی بهره مند شد. الگوریتم ژنتیک موازی مدل جزیره ای، انعطاف پذیری بیشتری در میان سایر روشهای الگوریتم ژنتیک موازی از خود نشان می دهد و بیشتر برای حل مسائل کاربردی مورد استفاده قرار می گیرد. در این پایان نامه برای تعیین نرخ مهاجرت و اینکه چه افرادی مهاجرت نمایند،روش مهاجرت ماکزیمم- مینیمم شایستگی (max-min) پیشنهاد گردیده است. این تحقیق روش های اقلام محور در پالایش مشارکتی را به دلیل رفع محدودیت های مقیاس پذیری و تهاجم مالی و نیز بهبود نتایج نسبت به روش های کاربر محور، پیشنهاد می نماید. ما برای بهبود نتایج، یک جستجوی محلی پیرامون جواب بهینه نیز انجام داده ایم. در نهایت ما با توجه به حجم بسیار بالای دادگان و وجود اطلاعات نادرست در سیستم، تصمیم به خوشه بندی مجموعه دادگان گرفتیم. روش خوشه بندی بر اساس چگالیdbscan را به دلیل داشتن مزایایی از این قبیل که تعداد خوشه ها به صورت اتوماتیک همزمان با عمل خوشه بندی تعیین می شود و نیز کارآمدی بالا در تشخیص اطلاعات نادرست، مورد استفاده قرار دادیم. استفاده از این روش بهبود نتایج خطا و پوشش را در رویکردهای مبتنی بر کاربر و رویکردهای مبتنی بر قلم، داشته است.

تخمین اطمینان خروجی ترجمه ماشینی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1392
  مرضیه صالحی شهرکی   نوشین ریاحی

به دلیل ابهام ذاتی موجود در زبان طبیعی، تقریبا همه فناوری های پردازش زبان طبیعی ناکاملند. با این حال با تخمینی از کیفیت خروجی، کاربران می توانند به طور مناسبی با ناکامل بودن آنها برخورد کنند. زمینه تحقیقاتی که به این مسئله می پردازد تخمین اطمینان نامیده می شود. هدف اصلی تخمین اطمینان کاربردی تر کردن فناوری های ناکامل است. در حوزه ترجمه ماشینی نیز با وجود پیشرفت های به دست آمده در سال های اخیر، این فناوری هنوز قادر به ترجمه دقیق متون نیست به طوری که گاهی ممکن است ترجمه متنی توسط ماشین و ویرایش خروجی توسط انسان، زمان بیشتری نسبت به ترجمه مستقیم توسط انسان بگیرد. در چنین حالتی، داشتن تخمینی از درستی خروجی ترجمه ماشینی برای ویرایشگران مفید است تا تلاش خود را به جملات نادرستی معطوف کنند که نیاز به تغییرات پرهزینه ندارند. علاوه بر پس ویرایش، تخمین اطمینان خروجی ترجمه ماشینی برای کاربردهایی که هدف آنها ارتقا کیفیت ترجمه ماشینی است، از قبیل ترکیب چند سامانه ترجمه گر، بازتولید خروجی و مرتب سازی دوباره لیست چند ترجمه برتر، مفید می باشد. تخمین اطمینان یا سنجش کیفیت خروجی ترجمه ماشینی یکی از موضوعات چالشی در زمینه ترجمه ماشینی محسوب می شود. همچنین برای جفت زبان انگلیسی-فارسی پژوهش های چندانی در زمینه تخمین اطمینان صورت نگرفته است. در این پژوهش مجموعه ای از ویژگی های مبتنی بر ساختار و مبتنی بر محتوای مستقل از سامانه ترجمه گر ارائه شده و کارایی چند روش یادگیری برای ترکیب این ویژگی ها بررسی شده است. مزیت ویژگی های ساختاری ارائه شده این است که برخلاف اکثر ویژگی های ارائه شده در گذشته، برای بررسی صحت ساختاری کلمه مقصد از جمله مبدا استفاده می کنند. همچنین برای نخستین بار از بردار زمینه برای تخمین اطمینان استفاده شده است و چالش متفاوت بودن فضای بردارهای مبدا و مقصد، با استفاده از روشی آماری حل شده است. نتایج به دست آمده از آزمون ویژگی های پیشنهادی در قالب جداولی ارائه گردیده است. کلمات کلیدی: تخمین اطمینان، ترجمه ماشینی، بردار زمینه، اطلاعات متقابل، ویژگی های مبتنی بر ساختار، ویژگی های مبتنی بر محتوا.

ارائه یک سیستم مدیریت کلید با قابلیت حفظ حریم خصوصی در wsn پزشکی
پایان نامه دانشگاه الزهراء علیها السلام 1393
  مینا کاظمی   نوشین ریاحی

شبکه های حسگر بی سیم به بخش جدایی ناپذیر زندگی بشر تبدیل شده اند. که از آنها در بسیاری از صنایع، کشاورزی، هواشناسی و بهداشت و درمان استفاده می شود. با پیشرفت شبکه های حسگر، استفاده از این سیستم ها در بهداشت و درمان بسیار گسترش یافته است. در هر محیطی، کاربران مایل به حفظ حریم خصوصی خود هستند. محیط در نظر گرفته شده در این تحقیق یک بیمارستان با بخش های مختلف می باشد. در شبکه هایی با چند سینک، به دلیل جدید بودن این نوع شبکه ها مسیریابی های مشکلی که در این شبکه ها وجود دارد کاری در زمینه امنیت انجام نشده است. به طوری که در حال حاضر و در سال های اخیر تحقیقات بر روی مسیریابی در این نوع شبکه ها ادامه دارد. در این پژوهش ما از الگوریتم dcarps در شبکه تک سینکی استفاده نموده ایم و پس از بهبود آن، از آن برای ایجاد گمنامی در شبکه های چند سینکی استفاده نموده ایم و برای داشتن دید کلی شبکه نیز از الگوریتم ntdp استفاده شده است. در ابتدا هر سینک با توجه به نودهای اطراف خود و با توجه به اینکه چه نودهایی باید در زیر شاخه این سینک قرار گیرند و با استفاده از الگوریتم ارائه شده خوشه خود را ایجاد می کند. سپس به توزیع کلیدها، برچسب ها و di ها در خوشه خود می پردازد. کلیدهای متعلق به دیگر خوشه ها نیز در نودها بارگذاری می شوند. برای ایجاد امنیت از برچسب گذاری و رمز نگاری های تو در تو استفاده می شود. به این صورت که هر نود پس از دریافت یک بسته برچسب ورودی بسته را با برچسب خروجی خود جایگزین کرده، بسته دوباره در شبکه ارسال می گردد تا به سینک برسد. هیچ نودی محل سینک را نمی داند. برای رمزنگاری در شبکه از دو روش رمز نگاری ترکیبی و یا رمزنگاری چند جمله ای استفاده می شود. برای ارتباط بین خوشه ها نیز از چهار مدل استفاده می شود. مدل یک: هر سینک خود را فرزند یکی از نودهای خوشه های دیگر می نماید و اگر بسته دریافتی متعلق به خودش نبود بسته را ارسال می دارد. مدل دو: یک سینک مادر وجود دارد. چنانچه هر سینک بسته ای دریافت کند که متعلق به خودش نباشد آن را به سینک مادر ارسال می دارد. مدل سه: اگر بسته ای به سینکی رسید و بسته متعلق به او نبود. او این بسته را به صورت همه پخشی ارسال می دارد. و نودهای مجاور نیز تا تعداد دفعات مشخصی بسته را ارسال می دارند. مدل چهار: از درگاه ها برای ارتباط خوشه ها با یکدیگر استفاده شده است. الگوریتم پیشنهادی علاوه بر این که تحلیل آماری شده، در ns2 نیز شبیه سازی شده است، و از طریق ملاک های انرژی مصرفی، تاخیر، آنتروپی و گذردهی ارزیابی شده است.

بهبود قابلیت اطمینان گرداننده های ابزار از طریق رویدادنگاری از اجرای گرداننده ها
پایان نامه دانشگاه الزهراء علیها السلام - دانشکده فنی 1393
  فهیمه سلطانی نژاد   نوشین ریاحی

قابلیت اطمینان یکی از مسایل بسیار مهم در سیستم های کامپیوتری است. بیشتر کد هسته سیستم عامل ها را گرداننده های ابزار تشکیل می دهند که منبع بسیاری از خطاها و اشتباهات و خرابی های سیستمی هستند. از اینرو، بهبود قابلیت اطمینان آن ها یکی از موضوعات بسیار مهم و کلیدیست و تحقیقات بسیار زیادی را به خود اختصاص داده است. طرح پیشنهادی در این پژوهش، بهبود قابلیت اطمینان گرداننده های ابزار از طریق رویدادنگاری اجرای آن هاست. این طرح از چارچوب granary استفاده می کند. granary چارچوبیست که امکان تحلیل دودویی ماژول های درون هسته (شامل گرداننده ها) را فراهم می کند. با استفاده از granary می توان از اجرای گرداننده ها رویدادنگاری هایی کرد. این رویدادنگاری ها حاوی اطلاعاتی همچون نام توابع اجرا شده در حین اجرای یک گرداننده، روابط فراخوانی بین این توابع و تعداد دفعات اجرایشان هستند. با استفاده از این اطلاعات می توان رفتار گرداننده ها را تحلیل کرد. در این طرح از دسته بندی کننده حداقل فاصله برای تحلیل رفتار گرداننده ها و تشخیص رفتار ناهنجار از هنجار استفاده می شود. برای ارزیابی طرح پیشنهادی، از رفتار گرداننده شبکه r8168 در دو حالت هنجار و ناهنجار کار با یک سرورftp، 80 رویدادنگاری تهیه شد، سپس رویدادنگاری های به دست آمده تحلیل شد و از دسته بندی کننده حداقل فاصله برای دسته بندی آن ها و از روش leave one out برای اعتبارسنجی نتایج استفاده شد. بررسی ها نشان می دهد که این دسته بندی کننده می تواند با دقت 95% رویدادهای ناهنجار را از هنجار تشخیص دهد.

تشخیص بیماری پارکینسون با استفاده از سیگنال صوت
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1393
  سارا اصغری   نوشین ریاحی

بیماری پارکینسون یک بیماری مخرب دستگاه عصبی است که در آن تخریب صوتی جزءاولین نشانه های بیماری پارکینسون است.هدف از این پروژه در مرحله اول ارائه رویکردی برای افزایش دقت تشخیص بیماری پارکینسون درسیستمهای مبتنی بر صدای بیمار میباشد. در مرحله دوم با عنایت به این موضوع که داده های صوتی افراد بیمار نسبت به افراد سالم کمتر در دسترس میباشد، راهکاری ترکیبی ارائه دادیم که در مواردی که دادههای آموزشی افراد بیمار به تعداد کافی در دسترس نیست از افت شدید دقت در تشخیص جلوگیری شود.در مرحله آخر تعیین میزان پیشرفت بیماری بر اساس ویژگی های سیگنال صوتی را مد نظر قرار داده و نشان داده ایم که با استفاده از صدای بیمار با دقت بالا می توان میزان پیشرفت بیماری را تعیین نمود.

دسته بندی موضوعی متون فارسی با استفاده از بانک لغات موضوعی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1393
  ناهید ذوالفقاری نیا   نوشین ریاحی

پژوهش در ارتباط با یافتن راهکاری برای دسته بندی موضوعی متون بر اساس هفت دسته از پیش تعیین شده است.در این پژوهش با ابتکار خلق بانک لغات موضوعی یک دسته بندی با درصد دقت و سرعت بهتر صورت گرفته است

بهبود کارایی کلاستر با جایگذاری داده های عظیم بر اساس شباهت داده ها
پایان نامه دانشگاه الزهراء علیها السلام - دانشکده فنی 1393
  فروغ فروغی   نوشین ریاحی

در این پژوهش با استفاده از تکنیک ضرب داخلی و تعریف جدیدی از بار کاری به صورت هایپرگراف، روشی برای افزایش سرعت پردازش و به تبع آن بهبود کارایی سیستم پردازشی هادوپ ارائه دهیم. با اضافه کردن الگوریتم سریع تقسیم بندی هایپرگراف و در نظر گرفتن توازن بار و تکنیک جایگذاری داده به صورت غیرتصادفی، داده های مشابه به صورت خودکار در فایل سیستم توزیع شده در کنار هم جایگذاری می شوند. به علاوه برای کم کردن سربار در تعداد فایل های بالا، داده ها ابتدا به دسته های کوچکتر تقسیم و سپس به هایپرگراف تبدیل می شوند. با ارزیابی سیستم پیشنهادی بر روی کلاستر ec2 آمازون نشان می دهیم، مشابهت داده ها سبب کاهش تعداد عملیات پردازشی در سطح کلاستر و شبکه شده و در نتیجه سرعت پردازش، با احتساب سربار حدود 5 درصد و بدون احتساب آن تقریبا 14 درصد افزایش پیدا می کند. این روش برای برنامه های مربوط به پردازش لاگ، کاربردی و پیاده سازی شده است.

تشخیص احساسات از متن با رویکرد تجمیع آراء
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1393
  پگاه صفری   نوشین ریاحی

احساسات از دیرباز عاملی کلیدی در نحوه برقراری ارتباط و شکل گیری تعاملات بشر بوده است. امروزه با گسترش نوع جدیدی از این ارتباطات یعنی گونه مجازی، تعاملات افراد بیشتر در یکی از قالب های تصویری، صوتی و یا ردوبدل کردن پیام های نوشتاری انجام می شود. بدین ترتیب متن نه تنها کاربردش کم نشده بلکه همچنان جایگاه خود را به عنوان روشی موثر در برقراری ارتباط حفظ کرده است. تاکنون سیستم های متعددی به منظور تشخیص احساسات از متن ارائه شده اند که غالباً بر بیان صریح احساس تمرکز کرده و در نتیجه برای مواردی که متون بیشتر در قالب مفهومی بیان شده یا به طور واضح با کلمات کلیدی به بیان احساس نپرداخته اند، دقت بالایی ندارند. در این پژوهش، به منظور بالا بردن دقت تشخیص احساسی در چنین متونی، سیستمی پیشنهاد شده است که از سه زیرسیستم تشکیل شده و هر زیرسیستم، داده ها را از منظری متفاوت تحلیل می کند. زیرسیستم اول بر مبنای یادگیری ماشین است که با گنجاندن اطلاعات در سطح لغوی و تا حدودی سطح معنایی، سند آزمون را برچسب می زند. زیرسیستم دوم روشی آماری است که ماتریس لغت-سند داده ها را می سازد و اطلاعات آماری آنها را بررسی می کند. زیرسیستم سوم هم با استخراج کلمات کلیدی عمل کرده و هر کلمه را به تفکیک کلاس های احساسی وزن دهی می نماید. سپس بر اساس بیشینه اوزان هر کلاس در سند آزمون، تصمیم گیری می کند. پس از اعمال هر سه زیرسیستم بر داده های آزمون، نتیجه آراء با روش ادغام اطلاعات تجمیع شده و تنها زمانی که هر سه آنها در مورد داده ای به توافق برسند، برچسب احساسی به نمونه موردنظر داده می شود.