یادگیری تقویتی

Reinforcement Learning

شماره درس: ۴۰۹۵۷.۲	تعداد واحد: ۳
مقطع: کارشناسی ارشد	نوع درس: نظری
پیش‌نیاز: یادگیری ژرف	هم‌نیاز: –

اهداف درس

امروزه در طیف وسیعی از مسائل در دنیای واقعی امکان ارائه بازخورد لحظه‌ای و جزئی برای آموزش عامل‌های هوشمند وجود ندارد. رویکرد متداول در این حالات یادگیری تقویتی است. از جمله چالش‌های این حوزه، تنک بودن بازخوردها، زمان و تعداد نمونه‌های بالای مورد نیاز برای آموزش این عامل‌ها، بعد بالای مشاهدات دریافت شده از محیط، و همینطور تطبیق‌پذیری سریع با محیط‌های جدید است. در این درس این موارد را مورد بررسی قرار می‌دهیم.

ریز مواد

مفهوم Multi-armed Bandits
مدل‌های تصمیم مارکف محدود ‌MDP و POMDP
معادلات Bellman، ارزیابی سیاست و بهبود آن
- برنامه‌ریزی پویا
- تکرار سیاست
- تکرار ارزش
- بهبود سیاست
روش‌های Monte Carlo
- پیش‌بینی
- کنترل
- نمونه‌برداری وزن‌دار (Importance Sampling)
یادگیری اختلاف زمانی (Temporal Difference)
- یادگیری on-policy و off-policy
- روش Q-Learning
- روش SARSA
یادگیری تقویتی معکوس
یادگیری تقلیدی
روش‌های Bootstrap با n گام و لامبدا TD
روش‌های تخمین
- روش Deep Q-Learning
- روش Deep Double Q-Learning
روش Policy Gradient
- روش‌های کاهش واریانس گرادیان
- الگوریتم REINFORCE
روش‌های نوین بهینه‌سازی
- روش ناحیه مطمئن TRPO
- روش بهینه‌سازی سیاست مبدائی PPO
روش‌های نوین Off-Policy
- روش DDPG
- روش ‌‌Soft Actor Critic یا SAC
روش‌های مبتنی بر مدل
- روش‌های برنامه‌ریزی
- روش Model Predictive Control
- روش‌ بهینه‌سازی مبتنی بر Cross-entropy
- درخت جستجوی Monte Carlo
- روش Backpropagation Through Time
- روش‌های مبتنی بر Ensemble
یادگیری تقویتی در بینایی ماشین
روش‌های یادگیری نمایش
- روش CURL
روش‌های فرایادگیری (Meta Learning)
- روش MAML
- روش PEARL
- روش CaDM
- روش MetaCURE
شکل‌دهی به سود (Reward Shaping)
روش‌های ناتنیده کردن اکتشاف و بهره‌برداری
روش‌های چند عاملی

ارزیابی

تمرین‌ها: ۳۵ درصد
ارائه مقاله: ۱۰ درصد
امتحان کوتاه: ۱۰ درصد
امتحان میان‌ ترم: ۲۰ درصد
امتحان پایان‌ ترم: ۲۵ درصد

مراجع

Richard S. Sutton, Andrew G. Barto. Reinforcement Learning. 2nd Edition, MIT Press, 2020.
Alexander Zai, Brandon Brown. Deep Reinforcement Learning in Action. Manning, 2020.