یادگیری تقویتی

Reinforcement Learning

شماره درس: ۴۰۹۵۷.۲ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: یادگیری ژرف هم‌نیاز: –

اهداف درس

امروزه در طیف وسیعی از مسائل در دنیای واقعی امکان ارائه بازخورد لحظه‌ای و جزئی برای آموزش عامل‌های هوشمند وجود ندارد. رویکرد متداول در این حالات یادگیری تقویتی است. از جمله چالش‌های این حوزه، تنک بودن بازخوردها، زمان و تعداد نمونه‌های بالای مورد نیاز برای آموزش این عامل‌ها، بعد بالای مشاهدات دریافت شده از محیط، و همینطور تطبیق‌پذیری سریع با محیط‌های جدید است. در این درس این موارد را مورد بررسی قرار می‌دهیم.

ریز مواد

  1. مفهوم Multi-armed Bandits
  2. مدل‌های تصمیم مارکف محدود ‌MDP و POMDP
  3. معادلات Bellman، ارزیابی سیاست و بهبود آن
    • برنامه‌ریزی پویا
    • تکرار سیاست
    • تکرار ارزش
    • بهبود سیاست
  4. روش‌های Monte Carlo
    • پیش‌بینی
    • کنترل
    • نمونه‌برداری وزن‌دار (Importance Sampling)
  5. یادگیری اختلاف زمانی (Temporal Difference)
    • یادگیری on-policy و off-policy
    • روش Q-Learning
    • روش SARSA
  6. یادگیری تقویتی معکوس
  7. یادگیری تقلیدی
  8. روش‌های Bootstrap با n گام و لامبدا TD
  9. روش‌های تخمین
    • روش Deep Q-Learning
    • روش Deep Double Q-Learning
  10. روش Policy Gradient
    • روش‌های کاهش واریانس گرادیان
    • الگوریتم REINFORCE
  11. روش‌های نوین بهینه‌سازی
    • روش ناحیه مطمئن TRPO
    • روش بهینه‌سازی سیاست مبدائی PPO
  12. روش‌های نوین Off-Policy
    • روش DDPG
    • روش ‌‌Soft Actor Critic یا SAC
  13. روش‌های مبتنی بر مدل
    • روش‌های برنامه‌ریزی
    • روش Model Predictive Control
    • روش‌ بهینه‌سازی مبتنی بر Cross-entropy
    • درخت جستجوی Monte Carlo
    • روش Backpropagation Through Time
    • روش‌های مبتنی بر Ensemble
  14. یادگیری تقویتی در بینایی ماشین
  15. روش‌های یادگیری نمایش
    • روش CURL
  16. روش‌های فرایادگیری (Meta Learning)
    • روش MAML
    • روش PEARL
    • روش CaDM
    • روش MetaCURE
  17. شکل‌دهی به سود (Reward Shaping)
  18. روش‌های ناتنیده کردن اکتشاف و بهره‌برداری
  19. روش‌های چند عاملی

ارزیابی

مراجع

  1. Richard S. Sutton, Andrew G. Barto. Reinforcement Learning. 2nd Edition, MIT Press, 2020.
  2. Alexander Zai, Brandon Brown. Deep Reinforcement Learning in Action. Manning, 2020.