وب سایت تخصصی شرکت فرین
دسته بندی دوره ها

Reinforcement Learning (English): Master the Art of RL

سرفصل های دوره

Reinforcement Learning


1. Introduction
  • 1. Course introduction
  • 2. Course overview

  • 2. Introduction to Reinforcement Learning
  • 1. Module intro and roadmap
  • 2. What is RL
  • 3. What RL can do
  • 4. The RL problem setup (AREA)
  • 5. Reward
  • 6. RL vs. Supervised Learning
  • 7. State
  • 8. AREA examples and quizes
  • 9. Gym Environments
  • 10. Inside RL agent - RL agent ingredients
  • 11. Policy
  • 12. Value
  • 13. Model
  • 14. RL agents taxonomy
  • 15. Prediction vs Control

  • 3. Markov Decision Process (MDP)
  • 1. Module intro and roadmap
  • 2. Markov Chain and Markov Process (MP)
  • 3. Markov Reward Process (MRP)
  • 4. Markov Decision Process (MDP)
  • 5. Prediction
  • 6. Bellman Equations with action-value function Q
  • 7. Control

  • 4. MDP solutions spaces
  • 1. Module intro and roadmap
  • 2. Planning with Dynamic Programming (DP)
  • 3. Prediction with DP - Policy Evaluation
  • 4. Control with DP - Policy Iteration and Value Iteration
  • 5. Value Iteration example
  • 6. Prediction with Monte-Carlo - MC Policy Evaluation
  • 7. Prediction with Temporal-Difference (TD)
  • 8. TD Lambda
  • 9. Control with Monte-Carlo - MC Policy Iteration
  • 10. Control with TD - SARSA
  • 11. On-policy vs. Off-policy
  • 12. Q-learning
  • 13. MDP solutions summary

  • 5. Deep Reinforcement Learning (DRL)
  • 1. Module intro and roadmap
  • 2. Large Scale Reinforcement Learning
  • 3. DNN as function approximator
  • 4. Value Function Approximation
  • 5. DNN policies
  • 6. Value function approximation with DL encoder-decoder pattern
  • 7. Deep Q-Networks (DQN)
  • 8. DQN Atari Example with Keras-RL and TF-Agents

  • 6. Advanced DRL
  • 1. Module intro and roadmap
  • 2. Value-based vs Policy based vs Actor-Critic
  • 3. Policy Gradients (PG)
  • 4. REINFORCE - Monte-Carlo PG
  • 5. AC - Actor-Critic
  • 6. A2C - Advantage Actor-Critic
  • 7. A3C - Asynchronous Advantage Actor-Critic
  • 8. TRPO - Trusted Region Policy Optimization
  • 9. PPO - Proximal Policy Optimization
  • 10. DDPG - Deep Determinstic Policy Gradients
  • 11. StableBaselines library overview
  • 12. Atari example with stable-baselines
  • 13. Mario example with stable-baselines
  • 14. StreetFighter example with stable-baselines

  • 7. Model-based Reinforcement Learning
  • 1. Module intro and roadmap
  • 2. Model learning methods
  • 3. Model learning with Supervised Learning and Function Approximation
  • 4. Sample based planning
  • 5. Dyna - Intergation planning and Learning

  • 8. Conclusion
  • 1. Conclusion

  • 9. Material
  • 1. Slides.html
  • 139,000 تومان
    بیش از یک محصول به صورت دانلودی میخواهید؟ محصول را به سبد خرید اضافه کنید.
    خرید دانلودی فوری

    در این روش نیاز به افزودن محصول به سبد خرید و تکمیل اطلاعات نیست و شما پس از وارد کردن ایمیل خود و طی کردن مراحل پرداخت لینک های دریافت محصولات را در ایمیل خود دریافت خواهید کرد.

    ایمیل شما:
    تولید کننده:
    شناسه: 15298
    حجم: 4435 مگابایت
    مدت زمان: 542 دقیقه
    تاریخ انتشار: 4 تیر 1402
    دیگر آموزش های این مدرس
    طراحی سایت و خدمات سئو

    139,000 تومان
    افزودن به سبد خرید