وب سایت تخصصی شرکت فرین
دسته بندی دوره ها

Reinforcement Learning (English): Master the Art of RL

سرفصل های دوره

Reinforcement Learning


1. Introduction
  • 1. Course introduction
  • 2. Course overview

  • 2. Introduction to Reinforcement Learning
  • 1. Module intro and roadmap
  • 2. What is RL
  • 3. What RL can do
  • 4. The RL problem setup (AREA)
  • 5. Reward
  • 6. RL vs. Supervised Learning
  • 7. State
  • 8. AREA examples and quizes
  • 9. Gym Environments
  • 10. Inside RL agent - RL agent ingredients
  • 11. Policy
  • 12. Value
  • 13. Model
  • 14. RL agents taxonomy
  • 15. Prediction vs Control

  • 3. Markov Decision Process (MDP)
  • 1. Module intro and roadmap
  • 2. Markov Chain and Markov Process (MP)
  • 3. Markov Reward Process (MRP)
  • 4. Markov Decision Process (MDP)
  • 5. Prediction
  • 6. Bellman Equations with action-value function Q
  • 7. Control

  • 4. MDP solutions spaces
  • 1. Module intro and roadmap
  • 2. Planning with Dynamic Programming (DP)
  • 3. Prediction with DP - Policy Evaluation
  • 4. Control with DP - Policy Iteration and Value Iteration
  • 5. Value Iteration example
  • 6. Prediction with Monte-Carlo - MC Policy Evaluation
  • 7. Prediction with Temporal-Difference (TD)
  • 8. TD Lambda
  • 9. Control with Monte-Carlo - MC Policy Iteration
  • 10. Control with TD - SARSA
  • 11. On-policy vs. Off-policy
  • 12. Q-learning
  • 13. MDP solutions summary

  • 5. Deep Reinforcement Learning (DRL)
  • 1. Module intro and roadmap
  • 2. Large Scale Reinforcement Learning
  • 3. DNN as function approximator
  • 4. Value Function Approximation
  • 5. DNN policies
  • 6. Value function approximation with DL encoder-decoder pattern
  • 7. Deep Q-Networks (DQN)
  • 8. DQN Atari Example with Keras-RL and TF-Agents

  • 6. Advanced DRL
  • 1. Module intro and roadmap
  • 2. Value-based vs Policy based vs Actor-Critic
  • 3. Policy Gradients (PG)
  • 4. REINFORCE - Monte-Carlo PG
  • 5. AC - Actor-Critic
  • 6. A2C - Advantage Actor-Critic
  • 7. A3C - Asynchronous Advantage Actor-Critic
  • 8. TRPO - Trusted Region Policy Optimization
  • 9. PPO - Proximal Policy Optimization
  • 10. DDPG - Deep Determinstic Policy Gradients
  • 11. StableBaselines library overview
  • 12. Atari example with stable-baselines
  • 13. Mario example with stable-baselines
  • 14. StreetFighter example with stable-baselines

  • 7. Model-based Reinforcement Learning
  • 1. Module intro and roadmap
  • 2. Model learning methods
  • 3. Model learning with Supervised Learning and Function Approximation
  • 4. Sample based planning
  • 5. Dyna - Intergation planning and Learning

  • 8. Conclusion
  • 1. Conclusion

  • 9. Material
  • 1. Slides.html
  • 139,000 تومان
    بیش از یک محصول به صورت دانلودی میخواهید؟ محصول را به سبد خرید اضافه کنید.
    افزودن به سبد خرید
    خرید دانلودی فوری

    در این روش نیاز به افزودن محصول به سبد خرید و تکمیل اطلاعات نیست و شما پس از وارد کردن ایمیل خود و طی کردن مراحل پرداخت لینک های دریافت محصولات را در ایمیل خود دریافت خواهید کرد.

    ایمیل شما:
    تولید کننده:
    شناسه: 15298
    حجم: 4435 مگابایت
    مدت زمان: 542 دقیقه
    تاریخ انتشار: ۴ تیر ۱۴۰۲
    دیگر آموزش های این مدرس
    طراحی سایت و خدمات سئو

    139,000 تومان
    افزودن به سبد خرید