یادگیری تقویتی

Reinforcement Learning

شماره درس: ۴۰۹۵۷.۲ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: یادگیری ژرف هم‌نیاز: –

اهداف درس

امروزه در طیف وسیعی از مسائل در دنیای واقعی امکان ارائه بازخورد لحظه‌ای و جزئی برای آموزش عامل‌های هوشمند وجود ندارد. رویکرد متداول در این حالات یادگیری تقویتی است. از جمله چالش‌های این حوزه، تنک بودن بازخوردها، زمان و تعداد نمونه‌های بالای مورد نیاز برای آموزش این عامل‌ها، بعد بالای مشاهدات دریافت شده از محیط، و همینطور تطبیق‌پذیری سریع با محیط‌های جدید است. در این درس این موارد را مورد بررسی قرار می‌دهیم.

ریز مواد

  1. مفهوم Multi-armed Bandits
  2. مدل‌های تصمیم مارکف محدود ‌MDP و POMDP
  3. معادلات Bellman، ارزیابی سیاست و بهبود آن
    • برنامه‌ریزی پویا
    • تکرار سیاست
    • تکرار ارزش
    • بهبود سیاست
  4. روش‌های Monte Carlo
    • پیش‌بینی
    • کنترل
    • نمونه‌برداری وزن‌دار (Importance Sampling)
  5. یادگیری اختلاف زمانی (Temporal Difference)
    • یادگیری on-policy و off-policy
    • روش Q-Learning
    • روش SARSA
  6. یادگیری تقویتی معکوس
  7. یادگیری تقلیدی
  8. روش‌های Bootstrap با n گام و لامبدا TD
  9. روش‌های تخمین
    • روش Deep Q-Learning
    • روش Deep Double Q-Learning
  10. روش Policy Gradient
    • روش‌های کاهش واریانس گرادیان
    • الگوریتم REINFORCE
  11. روش‌های نوین بهینه‌سازی
    • روش ناحیه مطمئن TRPO
    • روش بهینه‌سازی سیاست مبدائی PPO
  12. روش‌های نوین Off-Policy
    • روش DDPG
    • روش ‌‌Soft Actor Critic یا SAC
  13. روش‌های مبتنی بر مدل
    • روش‌های برنامه‌ریزی
    • روش Model Predictive Control
    • روش‌ بهینه‌سازی مبتنی بر Cross-entropy
    • درخت جستجوی Monte Carlo
    • روش Backpropagation Through Time
    • روش‌های مبتنی بر Ensemble
  14. یادگیری تقویتی در بینایی ماشین
  15. روش‌های یادگیری نمایش
    • روش CURL
  16. روش‌های فرایادگیری (Meta Learning)
    • روش MAML
    • روش PEARL
    • روش CaDM
    • روش MetaCURE
  17. شکل‌دهی به سود (Reward Shaping)
  18. روش‌های ناتنیده کردن اکتشاف و بهره‌برداری
  19. روش‌های چند عاملی

ارزیابی

  • تمرین‌ها: ۳۵ درصد
  • ارائه مقاله: ۱۰ درصد
  • امتحان کوتاه: ۱۰ درصد
  • امتحان میان‌ ترم: ۲۰ درصد
  • امتحان پایان‌ ترم: ۲۵ درصد

مراجع

  1. Richard S. Sutton, Andrew G. Barto. Reinforcement Learning. 2nd Edition, MIT Press, 2020.
  2. Alexander Zai, Brandon Brown. Deep Reinforcement Learning in Action. Manning, 2020.