تحلیل دادههای چندرسانهای مقیاس بزرگ
Large Scale Multi-Media Data Analysis
شماره درس: ۴۰۸۰۲.۴ | تعداد واحد: ۳ |
مقطع: کارشناسی ارشد | نوع درس: نظری |
پیشنیاز: – | همنیاز: – |
اهداف درس
در این درس دانشجویان با پردازش صدا و گفتار، فایلهای چندرسانهای، پردازش سیگنال چندوجهی، و بازیابی ویدئو در مقیاس بزرگ آشنا خواهند شد. دانشجویان جنبههای یک سیستم جستجوی چندرسانهای پیشرفته را درک کرده و با الگوریتمهای یادگیری ژرف برای بازیابی اطلاعات، تشخیص گفتار و پردازش صدا، پردازش تصویر و ویدئو آشنا شده و پیچیدگیهای مدیریت حجم زیادی از دادههای چندرسانهای ناهمگن را تجربه خواهند کرد. آنها تجربه عمیق و عملی با برخی از الگوریتمهای درگیر در پردازش (تشخیص و یا سنتز) و همجوشی چندوجهی خواهند داشت.
ریز مواد
- مقدمه و کاربردها؛ مشکلات چندرسانهای
- مقدمهای بر روش تحقیق چندرسانهای
- معرفی ابزارهای مدل سازی و پردازش چندرسانهایها
- ضبط / ذخیره سازی چندرسانهای – صدا
- پردازش چندرسانهای – صدا
- پردازش چندرسانهای – الگوریتمهای عمومی
- ضبط / ذخیره سازی چندرسانهای – متن
- ضبط / ذخیره سازی چندرسانهای – تصاویر
- ضبط / ذخیره سازی چندرسانهای – ویدئو
- پردازش تصویر در مقیاس بزرگ
- پردازش ویدئو در مقیاس بزرگ
- همجوشی دادههای چندرسانهای
- مقیاس پذیری چندرسانهای
- چندرسانهای در حقوق بشر، امنیت عمومی، و اخلاق
- یادگیری عمیق چندرسانهای
- یادگیری خود نظارتی چندرسانهای
- ترانسفورماتورهای بصری
- سیستمهای سوالات-پاسخهای چندرسانهای
- جستجوی چندرسانهای
- استفاده از بینایی و زبان برای تولید تصویر
- شبکه متخاصم تولیدکننده متن به تصویر و ویدیو
ارزیابی
- تمرینها: ۳ نمره
- آزمونکها: ۲ نمره
- پروژه: ۷ نمره
- آزمونهای میانترم و پایانی: ۸
مراجع
- Stefanos Vrochidis, Benoit Huet, Edward Y. Chang, Ioannis Kompatsiaris, Big Data Analytics For Large-Scale Multimedia Search, Wiley & Sons, 2019.
- Edward Chang, Foundations of Large-Scale Multimedia Information Management and Retrieval, Springer, 2011.
- Sicheng Zhao, Min Xu, Qingming Huang, Björn W. Schuller, IEEE Multimedia, Special Issue: Multimodal Affective Computing of Large-Scale Multimedia Data, 2021.