نام پژوهشگر: سمیه السادات منتظری

تحلیل مولفه های اصلی استوار برای داده های چوله
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده علوم پایه 1392
  سمیه السادات منتظری   مسعود یارمحمدی

pca می تواند برای کاهش ابعاد داده مورد استفاد قرار بگیرد، به این ترتیب مولفه هایی از مجموعه داده را که بیشترین تأثیر در واریانس را دارند حفظ می کند. متأسفانه واریانس کلاسیک (که ماکزیمم می شود) و ماتریس کوواریانس کلاسیک (که تجزیه می شود) هر دو نسبت به دورافتاده ها یعنی مشاهداتی که از الگوی اکثریت داده ها پیروی نمی کنند، بسیار حساس اند. در نتیجه، اولین مولفه ها اغلب جذب نقاط دورافتاده می شوند، و ممکن است تغییرات مشاهدات عادی را ثبت نکنند. بنابراین، کاهش داده ها بر اساس pca کلاسیک (cpca) با وجود دورافتاده ها غیر واقعی می شود. به منظور مقاومت در مقابل نقاط دورافتاده به دنبال روش هایی هستیم که نسبت به این نقاط حساسیت کمتری دارند، این روش ها را روش های استوار می نامند. ساده ترین روش برای استوارسازی pca کلاسیک جایگزین کردن ماتریس کوواریانس نمونه ای با ماتریس کوواریانس استوار است . روش دیگری که برای تحلیل مولفه های اصلی استوار به کار می رود روش تعقیب تصویراست، به طور کلی این روش در جستجوی جهتی است که در آن مشاهدات تصویر شده بزرگترین مقیاس استوار را دارد. هوبرت و همکاران (2005) با ترکیب مز ایای روش های جایگزین کردن ماتریس کوواریانس نمونه ای با ماتریس کوواریانس استوار و تعقیب تصویر، الگوریتم سریعی برای تحلیل مولفه های استوار ارائه کرده اند. بدین صورت که ابتدا روش جستجوی تصویر را برای کاهش بعد به کار برده و سپس ایده برآوردگر کوواریانس استوار (mcd) را برای داده هایی که بعد آنها کاهش یافته است، استفاده می کنند. الگوریتم robpca روش pca استوار که آن را robpca می نامیم ترکیبی از عقیده ی تعقیب تصویر و برآورد کوواریانس استوار است، این روش در صورتی که داده ها از توزیع نرمال تولید شده باشند و در نتیجه متقارن باشند مورد استفاده قرار می گیرد. روش robpca ایده های تعقیب تصویر و برآورد کوواریانس استوار را ترکیب می کند. بخش تعقیب تصویر برای کاهش بعد اولیه استفاده می شود. سپس برخی ایده های برآوردگر mcd در این فضای داده ی کم بعد تر به کار می رود. روش ترکیبی برآورد های استوار تری از الگوریتم تعقیب تصویر اولیه فراهم می کند. این الگوریتم مرکب از قدم های زیر است: مرحله 1- ابتدا داده ها با کاهش فضای داده هایشان به زیرفضای تولید شده به وسیله n مشاهده، پیش پردازش می شوند . این امر به وسیله تجزیه مقدار تکین ماتریس داده مرکزی شده، اجرا می شود که به طور قطع لازم نیست، اما وقتی تعداد متغیرها از تعداد مشاهداتی که آنها قبلاً یک بعد بزرگ را نتیجه می داده اند تجاوز کند محدود می شود بدون اینکه اطلاعاتی را از دست بدهد. x_(n,p)-1_n ? ?_0^=u_(nr_0 ) d_(r_0 r_0 ) v_(r_0 p) به طوری که ? ?_0 بردار میانگین کلاسیک، r_0=rank(x_(n,p)-1_n ? ?_0^) ، d ماتریس قطری r_0×r_0 و u^ u=i_(r_0 )=vv ، وقتی i_(r_0 ) ماتریس همانی r_0×r_0 می باشند. اکنون بدون از دست دادن کلیت، روی زیرفضای تولید شده به وسیلهr_0 ستون ماتریس v کار می شود. یعنی، z_(n,r_0 )=ud ماتریس داده جدید می شود. لازم به ذکر است که این تجزیه مقدار تکین تنها تبدیل افاین داده ها است مرحله 2- انتخاب مقدار پوششی 1/2<?<1 (به طور قراردادی ?=0.75 ) و h=[?n] ، ? کمتر robpca استوارتر اما با دقت کمتر خواهد بود. مرحله 3- برای هر نقطه ی داده ای x_i (یک سطر x ) دورافتادگی استاهل-دانهو را به صورت زیر معرفی می کنیم: outl(x_i,x)=sup?v?b??|?x?_i v-m(?x?_j v)|/(s(?x?_j v))? که m(.) و s(.) برآوردگرهای mcd استوار تک متغیری مکان و مقیاس هستند و b یک مجموعه از 250 جهت تصادفی در بین دو نقطه ی داده ای است. پس مجموعه ی i_h را از h نقطه ی داده ای با کمترین دورافتادگی در نظر می گیریم، و ماتریس میانگین و کوواریانس آن را محاسبه می کنیم. µ ?_0 (x)=1/h ?_(i?i_h)?x_i ?_0^^??(x)?=1/(h-1) ?_(i?i_h)??(x_i ?-µ ?_0 (x))(x_i-? ?_0 (x)) مرحله 4 - k بردار ویژه ی نخست از برآوردگر ماتریس کوواریانس ? ?_0 را که در قدم سوم به دست آمد انتخاب می کنیم. (تعداد مولفه ها، k، می تواند به چندین روش نظیر، توجه به نمودار scree ، که نمودار مقادیرویژه است، یا استفاده از معیارهای انتخاب (?_(j=1)^k?? ?_j )/(?_(j=1)^r?? ?_j )?90? یا ? ?_k/? ?_1 ?10^(-3) تعیین کرد. همه ی داده ها را روی زیر فضای k بعدی v_0 ،که با استفاده از k بردار ویژه نخست از برآوردگر کوواریانس استوار ? ?_0 به دست آمده است، تصویر می کنیم. مرحله 5- برای هر مشاهده فاصله ی قائم زیر را محاسبه می کنیم. od_i^((0))=?x_i-x ?_(i,k) ? که در آن x ?_(i,k) تصویر x_i روی زیر فضای v_0 است. ماتریس کوواریانس تمام مشاهدات x_i که برای آن od_i^((0))?c_od را به عنوان ? ?_1 در نظر می گیریم. با استفاده از k بردار ویژه ی نخست از ? ?_1 ، زیر فضای اصلاح شده ی v_1 را پوشش می دهیم. تعیین مقدار میان بر c_od کاری دشوار است، زیرا توزیع فاصله ی قائم به طور کلی معلوم نیست. در robpca مقرر شده که فاصله ی قائم به توان 2/3 به طور تقریبی به صورت نرمال توزیع شده است. پس c_od=?(? ?+? ? z_0.975)?^(3/2) ? ?و ? ? با استفاده از برآوردگرهای mcd تک متغیری برآورد می شوند و z_0.975 چارک 0.975 از توزیع نرمال است. در این مرحله، همه ی نقاط را روی زیر فضای v_1 تصویر می کنیم. مرحله 6- در این زیر فضای k بعدی یک مرکز و ماتریس کوواریانس استوار را به کمک برآوردگر های mcd بازموزون به داده های تصویر شده، محاسبه می کنیم. این برآوردگر با استفاده از الگوریتم تقریبی fast-mcd محاسبه می شوند. مولفه های اصلی نهایی بردارهای ویژه از این ماتریس کوواریانس استوار هستند. الگوی دورافتاده ها به جز محاسبه مولفه های اصلی، robpca نقاط دور افتاده را نیز مشخص می کند. به طور کلی یک نقطه دور افتاده مشاهده ای است که از الگوی اکثریت داده ها پیروی نمی کند. با این مفهوم pca سه نوع از دور افتاده ها را می تواند مشخص کند. نقاط نافذ خوب: نقاطی که نزدیک به زیر فضای pca اما دور از مشاهدات عادی قرار می گیرند. دور افتاده های متعامد: مشاهداتی که فاصله متعامد زیادی با زیر فضای pca دارند در حالیکه تصویرشان روی فضای pca قرار می گیرد. نقاط نافذ بد: مشاهداتی که فاصله متعامد زیادی از فضای pca دارند و تصویرشان روی فضای pca دور از مشاهدات عادی قرار می گیرد. برای تشخیص مشاهدات عادی از سه نوع دورافتاده برای داده هایی با بعد بالا، نمودار تشخیصی یا الگوی دورافتاده رسم می شود .روی محور عمودی نمودار تشخیصی فاصله متعامد، od_i، روی محور افقی فاصله امتیاز استوار، ?sd?_i هر مشاهده که به صورت زیر است رسم می شود: ?sd?_i= ?(?_(j=1)^k?(t_ij^2)/? ?_j ) به طوری که امتیازهای t_ij^2 از رابطه t_(n,k)=(x_(n,p)-1_n ? ?^ ) p_(p,k) به دست می آیند. فواصل متعامد در مقابل فواصل امتیاز استوار رسم می شوند، خطوط رسم شده برای تشخیص در بین مشاهدات با od کوچک یا بزرگ و همچنین برای تشخیص sd کوچک یا بزرگ است. دو خط برش رسم می شود. نقطه برش روی محور افقی ?(?_(k,0.975)^2 ) وقتی k>1 و ±?(?_(k,0.975)^2 ) وقتی k=1 می باشد (زیرا مربع فواصل ماهالانوبیس امتیازهای به طور نرمال توزیع شده، به طور تقریبی دارای توزیع ?_k^2 اند). تشخیص برش روی محور عمودی دشوارتر است، زیرا توزیع فواصل متعامد دقیقاً شناخته شده نیست. تشخیص دور افتاده ها برای داده های عادی و چوله چندین قانون برای مشخص کردن نقاط دورافتاده در داده ها است که بر اساس فواصل مختلف یا معیارهای دورافتادگی در هر نقطه داده ای محاسبه می شوند. این قوانین رد متناظر است با مشخص کردن همه نقاطی که دورافتادگی آنها از یک مقدار برش مشخص تجاوز می کند. نخستین قانون رد که آن را با نماد rr[rd] نمایش می دهیم، از فاصله استوار در بین هر نقطه و مرکز ابر داده ها استفاده می کند. rd_i=?((x_i-?)^ ?^(-1) (x_i-?) ) i=1,2,…,n در این فاصله به جای ?، ? از برآوردگر های مکان و پراکندگی ماتریس کوواریانس با کمترین دترمینان (mcd) استفاده می کنیم، که در نتیجه یک فاصله استوار داریم که از دورافتاده های ممکن تأثیر نمی پذیرند. مجذور فاصله rd_i به طور تقریبی دارای توزیع?^2 با p درجه آزادی است، پس هر مشاهده ای که rd_i بزرگی دارد، را می توان به عنوان یک مشاهده ی دور افتاده در نظر گرفت. دومین قانون رد بر اساس معیار دورافتادگی استاهل- دانهو است که با rr[sd] نمایش داده می شود و به صورت زیر تعریف می شود. outl(x_i,x)=max?(v?b)??|?x^?_i v-med_j (?x^?_j v)|/(mad_k (?x^?_j v) )? مجموعه b شامل تمام جهاتی است که در بین دو نقطه داده ای که به صورت تصادفی از بین n نقطه انتخاب شده اند، وجود دارد. به منظور کاهش زمان محاسبات تنها 250 جهت را تولید می کنیم. مجذور این فاصله نیز به طور تقریبی دارای توزیع?^2 با p درجه آزادی است. به دنبال یک توزیع نرمال چند متغیره، یا حداقل یک توزیع بیضوی هر دو روش rr[sd] و rr[rd] زمانی مناسبند که داده ها غیر آلوده اند (دور افتاده نیستند)، این قوانین وقتی داده ها از توزیع چوله بیایند نقاط زیادی را به غلط به عنوان نقطه دور افتاده مشخص می کنند، به این دلیل ترجیح می دهیم از قوانینی استفاده کنیم که فرض تقارن را برای توزیع در نظر نمی گیرد که در این صورت برای داده های چوله نیز مناسب است. بنابراین روش rr[sd] را با استفاده از نتایج نمودار جعبه ای تعدیل یافته تنظیم می کنیم. سومین قانون رد که با اصلاح قانون رد rr[sd] با استفاده از نمودار جعبه ای تعدیل یافته به دست آمده را با نماد rr[ao] نمایش می دهیم. در اینجا با توجه به فاصله [c_1,c_2 ]، که c_1 متناظر است با کوچکترین مشاهده که بلافاصله بزرگ تر است از q_1-1.5e^(-4mc) iqr و c_2 متناظر با بزرگ ترین مشاهده که بلافاصله کوچکتر از q_3+1.5e^3mc iqr است، دورافتادگی تعدیل یافته (ao) که مخرجی متفاوت از روش rr[sd] دارد به صورت زیر تعریف می شود: ao_i=?max?_v?b |?x?_i v-med(?x?_j v)|/((c_2 (v)-med(?x^?_j v))i[?x^?_i v>med(?x^?_j v)]+(med(?x^?_j v)-c_1 (v))i[?x^?_i v<med(?x^?_j v)]) q_1و q_3 چارک اول و سوم از ?x^?_i v است و iqr و mc به طور مشابه محاسبه می شوند، c_1 (v) و c_2 (v) فواصل در نمودار جعبه ای تعدیل یافته اند که با توجه به مقدار mc انتخاب می شوند. مقدار ao_i برای جهات v و –v یکسان است که در این صورت زمان محاسبه را نصف می کند. در این فرمول فرض می کنیم که mc?0 است، در غیر این صورت v را با –v جایگزین می کنیم. اگر در این مقیاس دورافتادگی، توزیع چوله به راست باشد، نتیجه می دهد که مقدار برش برابر با است: cutoff=q_3+1.5e^4mc iqr الگوریتم اصلاح شده برای داده های چوله الگوریتم robpca زمانی مناسب است که داده های اصلی متقارن باشند، و از توزیع نرمال تولید شده باشند. اگر داده های اصلی چوله باشند، نقاط زیادی در این الگوریتم تمایل دارند که به عنوان نقطه ی دورافتاده مطرح شوند، در حالی که واقعاً چنین نیستند. به منظور رفع این مشکل الگوریتم جدیدی را با عنوان robpca اصلاح شده مطرح می کنیم. این الگوریتم شامل همان گام های الگوریتم robpca است که سه اصلاحیه در آن انجام داده ایم. دورافتادگی استاهل-دانهو در گام سوم الگوریتم بایک مقیاس جدید جایگزین می شود، که دورافتادگی تعدیل یافته نامیده می شود. این معیار، برای هر مشاهده یک اندازه ای از دورافتادگی تعیین می کند که به وسیله ی روش تعقیب تصویر و همچنین نمودار جعبه ای تعدیل یافته به دست آورده می شود. دورافتادگی تعدیل یافته مخرج متفاوتی از دورافتادگی استاهل-دانهو دارد که به منظور مشخص شدن نقاط داده ای کمتر به عنوان نقطه ی دورافتاده در توزیع چوله است. این معیار به صورت ذیل است: ao_i=max?v?b??|?x?_i v-med(?x?_j v)|/((c_2 (v)-med(?x^?_j v))i[?x^?_i v>med(?x^?_j v)]+(med(?x^?_j v)-c_1 (v))i[?x^?_i v<med(?x^?_j v)])? که c_1 متناظر است با کوچک ترین مشاهده ای که بزرگ تر است از q_1-1.5e^(-4mc) iqr و c_2 متناظر است با بزرگ ترین مشاهده ای که کوچک تر است از q_3+1.5e^3mc iqr. در اینجا q_1 و q_3 اولین و سومین چارک داده های تصویر شده می باشد، iqr=q_3-q_1 و mc میانه ی دو گانه، یک معیار استوار چولگی می باشد. این فرمول فرض می کند که mc?0 است، در غیر اینصورت ما v را با –v جایگزین می کنیم. اصلاحیه دوم مربوط به مقدار میان بر برای فواصل متعامد od در گام پنجم است. ما حالا استفاده می کنیم به عنوان مقدار میان بزرگترین od_i کوچکتر از q_3 ({od})+1.5e^3mc({od}) iqr{od}). با انجام این کار داده ها بیش از این لازم نیست که تبدیل بشوند، و حال بیشتر مقدار میان بر وابسته به خود داده ها به جای بعضی مقادیر تفکیک شده است. اصلاحیه سوم در گام 6 اتفاق می افتد. به جای استفاده از برآوردگر های mcd بازموزون، ما دورافتاده های تعدیل شده در زیر فضای k بعدی v_1، را محاسبه می کنیم و ماتریس میانگین و کوواریانس از h نقطه با کمترین دورافتاده های تعدیل شده را نیز محاسبه می کنیم. شبیه سازی با استفاده از کتابخانه ی libra از نرم افزار matlab انجام می شود. شبیه سازی نشان می دهد که با هر درصد از آلودگی robpca اصلاح شده، زمانی که داده ها نامتقارن باشند نتایج بهتری از سایر روشها دارد. و robpca اصلاح شده و معمولی در حالی داده ها متقارن باشند نتایج تقریبا یکسانی دارد.

رابطه کیفیت زندگی کاری و فرسودگی شغلی معلمان تربیت بدنی و مقایسه آن با معلمان غیر تربیت بدنی ناحیه دو یزد
پایان نامه دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد تفت - دانشکده تربیت بدنی علوم ورزشی 1392
  سمیه السادات منتظری   علیرضا الهی

زندگی سازمانی و زندگی شخصی لازم و ملزوم یکدیگرند.توسعه ملی و توسعه بخش های اقتصادی و اجتماعی کشور جز با کمک نیروی انسانی کارآمد و کارآفربن که بتواند بر مشکلات و موانع راه غلبه کند،میسر نمی باشد.نیروی انسانی مجرب و ماهر اهرم رشد و توسعه ملی است.بررسی در زمینه دو پدیده زندگی کاری وزندگی شخصی اثرات متقابل تشدیدکننده ای دارد.درگذشته فقط بر زندگی شخصی کارکنان تاکید می شد،اما امروزه بهبود کیفیت زندگی کاری کارکنان به یکی از مهم ترین اهداف سازمان تبدیل شده است. این تحقیق با هدف بررسی رابطه ی بین کیفیت زندگی کاری و فرسودگی شغلی معلمان تربیت بدنی و مقایسه آن با معلمان غیر تربیت بدنی ناحیه دویزد در سال 91-1392 انجام گرفت.جامعه ی آماری این تحقیق، 66 معلم تربیت بدنی و 940 معلم غیر تربیت بدنی و حجم نمونه نیز بر اساس فرمول کوکراین تعداد 100 نفر انتخاب گردید. تحقیق توصیفی و از نوع همبستگی است. جهت اندازه گیری کیفیت زندگی کاری آزمودنی ها از پرسشنامه ی والتون (1973) استفاده شد که پایایی آن 84/0 برآورد گردید و پایایی این مقیاس با استفاده از آلفای کرونباخ مسلش و جکسون(1981)برای فرآوانی 83/0 و برای شدت84 /0 گزارش کرده اند.ضمن اینکه پایایی سه خرده آزمون اصلی بین 72/0تا 89/0 محاسبه شده است.تجزیه وتحلیل داده ها در دو سطح توصیفی و استنباطی و با استفاده ازنرم افزار spss، انجام شد.تجزیه وتحلیل آماری داده ها با استفاده ازروش های آمار استنباطی شامل آزمون همبستگی پیرسون و اسپیرمن و نیز آزمون تی به منظور آزمون فرضیه های پژوهش، استفاده شد. نتایج تحقیق نشان داد که بین کیفیت زندگی کاری وفرسودگی شغلی معلمان غیر تربیت بدنی رابطه ی معنی داری وجود دارد(582/0 /0=r). همچنین بین کیفیت زندگی کاری و فرسودگی شغلی معلمان تربیت بدنی آموزش و پرورش ناحیه دو یزد رابطه معنی دار وجود ندارد. همچنین در بررسی های بعمل آمده مشخص شد ، بین ویژگی های جمعیت شناختی و کیفیت زندگی کاری معلمان تربیت بدنی و غیر تربیت بدنی رابطه معنی داری وجود نداشت. و بین ویژگی های جمعیت شناختی و فرسودگی شغلی معلمان غیر تربیت بدنی هم رابطه معنی دار وجود ندارد .بین فرسودگی شغلی معلمان تربیت بدنی و غیر تربیت بدنی تفاوت معنی داری وجود دارد . وبین کیفیت زندگی کاری معلمان تربیت بدنی و غیر تربیت بدنی تفاوت معنی داری مشاهده نگردید.