نام پژوهشگر: مردمک عسکری زاده کوویی

رفع ابهام معنایی در ترجمه ماشینی بر پایه شباهت مفهومی در متون
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر 1390
  مردمک عسکری زاده کوویی   محمد هادی صدرالدینی

یکی از مسائل مهم جهت ترجمه ای دقیق و با کیفیت بالا، رفع ابهام معنایی کلمات است. ابهام معنایی اشاره به حالتی دارد که یک کلمه بیش از یک معنی داشته باشد. این نوع چند معنایی برای سیستمهای مترجم ماشینی چالشی بزرگ به شمار می آید. در این تحقیق برآنیم تا با یکی از روش های یادگیری بانظارت، معنی درست کلمه ی مبهم را در متن تشخیص دهیم. به این منظور با استفاده از الگوریتم knn متون مورد بررسی را کلاس بندی می نماییم، که دلیل استفاده از این الگوریتم، موفقیت زیاد آن در دسته بندی اسناد، در زبانهای مختلف می باشد. الگوریتم knn از همسایه ها برای کلاسه کردن هر عضو جدید یا نمونه جدید استفاده می کند و پیش بینی خروجی خود را بر اساس k تا از نزدیکتیرن همسایه ها به نقطه ( شی) موردنظر انجام می دهد. برای اینکه نزدیکترین همسایه ها را به نقطه موردنظر تشخیص دهیم و مشخص کنیم، نیاز به معیارهای اندازه گیری فاصله بین نقطه ی مورد نظر (هدف) و داده های آزمایشی داریم. این معیارهای اندازه گیری فاصله عبارتند از : فاصله اقلیدسی، فاصله بلاک شهری یا منهتن ، فاصله مینکووسکی ، ضریب جاکارد ، همبستگی ، فاصله کسینوسی و فاصله ماهالانوبیز. برای اینکه بتوان هر مجموعه متون را کلاس بندی کرد، ابتدا بایستی یک سری خصوصیات را از متن مورد نظر استخراج کرد و سپس بردار خصوصیات تشکیل داد. از آنجایی که در شناخت معنی صحیح یک کلمه ی مبهم، کلمات اطراف آن نقش به سزایی دارند، این کلمات، بعنوان خصوصیات در نظر گرفته شده اند و برای بررسی بهترین عملکرد، 8 مجموعه متفاوت از خصوصیات که در هرکدام از این مجموعه ها تعداد کلمات اطراف کلمه ی مبهم متفاوت هستند، مورد بررسی قرار داده شده اند. بردار خصوصیات را هشت حالت مختلف با تعداد 3، 4، 5، 6، 7، 8، 9 و 10 کلمه ، قبل و بعد از کلمه مبهم مشخص کرده ایم و هر بار روی هر کدام از این داده ها الگوریتم را اجرا نموده ایم، الگوریتم را با k های متفاوتی که برابر 1، 3، 5 و 10 می باشد هربار اجرا می کنیم و برای چهار معیار شباهت یعنی اقلیدسی، بلاک شهری، کسینوسی و همبستگی دقت را اندازه گیری می نماییم و در نتیجه برای هر مجموعه متون 128 حالت مختلف را مورد بررسی قرار داده ایم و در پایان نتایج حاصل از ارزیابی طرح پیشنهادی و تاثیر معیارهای متفاوت شباهت در رفع ابهام معنایی بررسی و مقایسه گردیده است. بنابر، بررسی های انجام شده بالاترین دقت را هنگامی به دست می آوریم که از فاصله کسینوسی بعنوان معیار اندازه گیری فاصله استفاده می کنیم و با در نظر گرفتن k برابر با 3 و همچنین بردار خصوصیات برابر با 6w یعنی هنگامی که 6 کلمه قبل و 6 کلمه بعد از کلمه ی مبهم را برای رفع ابهام در نظر می گیریم به نتایج بهتری دست می یابیم و معنی درست کلمه مبهم با احتمال تقریبا 83 درصد به دست می آید.