نام پژوهشگر: وحید کیانی

خلاصه سازی مبتنی بر محتوای ویدئوی فوتبال در ویدئوی انکود شده ی mpeg
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1390
  وحید کیانی   حمیدرضا پوررضا

رسانه ویدئو بدلیل ارایه همزمان اطلاعات تصویری، صوتی، و متنی پرمحتواترین رسانه دیجیتالی در عصر حاضر است. توسعه سریع تکنیک های فشرده سازی ویدئو، باعث آرشیوکردن گسترده و مداوم اطلاعات ویدئویی در سرتاسر جهان شده است. با افزایش سریع محتوای ویدئویی آرشیو شده در سرتاسر جهان، نیاز شدیدی به سیستم های کارآمد و سریع برای شاخص گذاری، خلاصه سازی و بازیابی ویدئوی فشرده احساس می شود. ویدئوی ورزشی و بخصوص ویدئوی فوتبال پرطرفدارترین نوع ویدئو در جهان است؛ که بخش اعظم تحقیقات محققین را به خود اختصاص داده است. در خلاصه سازی مبتنی بر محتوای ویدئوی فوتبال، پرمحتواترین بخش های ویدئوی فوتبال کشف شده و با ترکیب آنها ویدئوی خلاصه تولید می شود. دو رویکرد اصلی برای خلاصه سازی ویدئوی فوتبال شناسایی رویدادها و کشف بخش های مهم است. اگر چه محققین در تحقیقات خود به نتایج مناسبی در خلاصه سازی ویدئوی فوتبال دست یافته اند، اما سیستم های خلاصه سازی ویدئوی فوتبال بدلیل سرعت کم پردازش ویدئو در آنها هنوز فراگیر نشده اند. در این پایان نامه، روش جدیدی برای خلاصه سازی ویدئوی فوتبال در ویدئوی انکود شده ی mpeg بر اساس کشف بخش های مهم ارایه می شود. استخراج مستقیم اطلاعات تصویری از جریان بیتی ویدئوی فشرده فوتبال، باعث افزایش سرعت روش پیشنهادی شده است. همچنین، تدوین روش های دقیق برای استخراج ویژگیهای معنایی حوزه فوتبال از ویدئوی فشرده، باعث حفظ دقت سیستم پیشنهادی شده است. در سیستم پیشنهادی این پایان نامه، ابتدا اطلاعات سطح پائین تصویری از ویدئوی فشرده استخراج می گردند. سپس رنگ زمین چمن به کمک یک مدل آماری چندگوسی مدل سازی می شود. در مرحله بعد، حرکت دوربین در هر تصویر بر اساس بردارهای حرکت استخراج شده از ویدئوی فشرده و با در نظر گرفتن میزان اعتبار هر بردار حرکت تخمین زده می شوند. پس از آن ویژگیهای معنایی حوزه فوتبال از جمله مرز شات، گذرهای لوگو، صحنه های پخش مجدد، نوع شات، و منطقه بازی از ویدئوی فشرده استخراج می گردند. برای استخراج هر یک از ویژگیهای معنایی مذکور از مدل سازی ویژگیهای سطح پائین استخراج شده از ویدئوی فشرده استفاده می شود. از آنجایی که میزان بلندی صدا در هر صحنه فوتبال می تواند نشاندهنده میزان اهمیت صحنه باشد؛ ویژگی انرژی صدا نیز بعنوان یک ویژگی معنایی از ویدئوی فوتبال استخراج می گردد. در نهایت با ترکیب ویژگیهای معنایی استخراج شده، برای هر صحنه یک مقدار اهمیت تخمین زده می شود و از مقادیر اهمیت مذکور برای رتبه بندی صحنه های ویدئو استفاده می گردد. در آخرین مرحله، سیستم پیشنهادی صحنه های مهم بازی را بر اساس مقادیر رتبه، کشف و تا تکمیل زمان تعیین شده توسط کاربر در خلاصه ویدئویی قرار می دهد. در این پایان نامه به منظور ارزیابی سیستم پیشنهادی، از معیارهای کمی و کیفی مختلفی استفاده شده است. یک پایگاه ویدئویی حاوی شش بازی فوتبال تهیه و بطور دقیق برچسب زده شده است. ابتدا کلیه بخش های مربوط به استخراج ویژگیهای معنایی حوزه فوتبال بصورت کمی ارزیابی شده اند. سپس، برای ارزیابی کمی عملکرد سیستم در رتبه بندی صحنه های بازی از مقایسه رتبه بندی سیستم با رتبه بندی انجام شده توسط کاربران مختلف استفاده شده است. همچنین، به منظور ارزیابی کیفی خلاصه های تولید شده توسط سیستم از نظرات کاربران در مورد ویدئوهای تولید شده استفاده شده است. ارزیابی کمی عملکرد سیستم در رتبه بندی صحیح صحنه های بازی به کمک معیار همبستگی رتبه بندی، برای اولین بار در این سیستم پیشنهادی انجام می شود و می تواند معیار مناسبی برای مقایسه سایر محققین در کارهای آینده ایشان باشد. سیستم پیشنهادی در رتبه بندی صحیح صحنه ها، بطور میانگین به مقدار 8167/0 برای ضریب همبستگی spearman و مقدار 6394/0 برای ضریب همسبتگی tau-b دست یافته است. همچنین از نظر کیفی، خلاصه های تولید شده توسط سیستم از حیث کامل بودن امتیاز عالی و از حیث هموار بودن امتیاز خوب را کسب کرده اند. بر اساس نظر کاربران، با افزایش طول خلاصه از دو دقیقه به ده دقیقه میزان قابل پذیرش بودن خلاصه ها از عالی به قابل قبول کاهش یافته است. در نهایت از نقطه نظر کارایی، سیستم پیشنهادی به سرعت 47 فریم در ثانیه یعنی دو برابر زمان واقعی برای خلاصه سازی ویدئو دست پیدا کرده است. با این وجود، زمینه های زیادی برای توسعه روش پیشنهادی وجود دارند که در بخش آخر پایان نامه به آنها اشاره شده است.