در حال حاضر محصولی در سبد خرید شما وجود ندارد.

پنل کاربری

رمز خود را فراموش کرده اید؟ اگر اولین بار است از سایت جدید استفاده میکنید باید پسورد خود را ریست نمایید.
دسته بندی
دسته بندی

در حال حاضر محصولی در سبد خرید شما وجود ندارد.

کورس کدنویسی یادگیری ماشینی بوسیله زبان Python

کورس کدنویسی یادگیری ماشینی بوسیله زبان Python

14,900 تومان
بیش از یک محصول به صورت دانلودی میخواهید؟ محصول را به سبد خرید اضافه کنید.
افزودن به سبد خرید
خرید دانلودی فوری

در این روش نیاز به افزودن محصول به سبد خرید و تکمیل اطلاعات نیست و شما پس از وارد کردن ایمیل خود و طی کردن مراحل پرداخت لینک های دریافت محصولات را در ایمیل خود دریافت خواهید کرد.

ویدئو معرفی این محصول

یکی از روشهای موفق یادگیری ماشینی Reinforcement Learning است. در این دوره آموزشی کدنویسی و کار با Reinforcement Learning ر در زبان برنامه نویسی Python به خوبی یاد می گیرید.

عنوان اصلی : Reinforcement Learning with Python Explained for Beginners

سرفصل ها :

 در مقدمه به دوره و استاد: مقدمه به دوره و مربی از انگیزه یادگیری تقویتی: چه یادگیری تقویتی است چه یادگیری تقویتی Hiders و متقاضیان توسط OpenAI RL در مقابل دیگر ML چارچوب چرا یادگیری تقویتی نمونه هایی از یادگیری تقویتی محدودیت های یادگیری تقویتی تمرین
از از اصطلاحات از یادگیری تقویتی: چه محیط زیست است بهتر
Environment_2 است بهتر
عامل است بهتر
دولت است دولت متعلق به محیط زیست و به عامل بهتر
اقدام است بهتر
پاداش است هدف
از سیاست
از
خلاصه به GridWorld به عنوان مثال: راه اندازی 1 راه اندازی 2 راه اندازی 3 سیاست مقایسه قطعی محیط زیست تصادفی محیط زیست تصادفی محیط زیست 2 تصادفی محیط زیست 3 غیر ثابت محیط زیست GridWorld خلاصه فعالیت در مارکوف پیش نیازها فرایند تصمیم گیری: احتمال
از احتمال 2 احتمال 3 احتمال شرطی شرطی احتمال مثال سرگرم کننده احتمال مشترک احتمال مشترک 2 احتمال مشترک 3 انتظار ارزش انتظار شرطی عدم قطعیت مدل سازی محیط زیست عدم قطعیت مدل سازی محیط زیست 2 عدم قطعیت مدل سازی محیط زیست 3 عدم قطعیت مدل سازی محیط زیست سیاست تصادفی عدم قطعیت مدل سازی محیط زیست سیاست تصادفی 2 عدم قطعیت مدل سازی توابع محیط زیست ارزش در حال اجرا میانگین در حال اجرا میانگین 2 در حال اجرا میانگین به عنوان تفاوت زمانی فعالیت از عناصر فرایند تصمیم گیری مارکف: مارکوف املاک فضای حالت
از فضا اقدام احتمالهای گذار تابع پاداش
از عامل تنزیل
از
خلاصه فعالیت بیشتر در پاداش: MOR امتحان 1 MOR امتحان راه حل 1 MOR مسابقه 2 MOR امتحان راه حل 2 MOR پوسته پوسته شدن پاداش MOR بی نهایت افق MOR مسابقه 3 MOR امتحان راه حل 3 به حل مارکوف DP: MDP روکش توابع ارزش تابع بهینه ارزش سیاست بهینه
از بلمن معادله ارزش تکرار ارزش تکرار امتحان ارزش تکرار امتحان گاما گمشده ارزش تکرار راه حل مشکلات ارزش تکرار ارزیابی سیاست سیاست ارزیابی 2 سیاست ارزیابی 3 فرم راه حل سیاست ارزیابی د سیاست تکرار ارزش دولت اقدام V و ​​Q مقایسه به ارزش تقریبی: چه معناست که MDP نامشخص است چرا احتمالهای گذار مهم هستند راه حل های مدل مبتنی بر راه حل های مدل رایگان مونت کارلو آموزش مونت کارلو به عنوان مثال آموزش مونت کارلو محدودیت ها آموزش از زمانی تفاضل - Q آموزش: در حال اجرا میانگین نرخ یادگیری آموزش معادله الگوریتم TD
از اکتشاف در مقابل بهره برداری اپسیلون سیاست حریص SARSA Q-آموزش اجرای Q-آموزش برای MAPROVER کوتاه از TD لامبدا: N-مرحله نگاه یک سر فرمولاسیون ارزش
از TD Q-آموزش TD لامبدا TD Q-آموزش TD لامبدا TD (لامبدا) فعالیت MAPRover در پروژه Frozenlake (باز کردن AI باشگاه ها): Frozenlake 1 اجرای Frozenlake