وب سایت تخصصی شرکت فرین
دسته بندی دوره ها

آموزش مهندسی داده ها بوسیله Python, SQL, Spark

سرفصل های دوره

با مشاهده این کورس آموزشی از طریق انجام پروژه های واقعی و به زبانی بسیار ساده مطالب فراوانی را در رابطه با مهندسی داده ها در زبان Python یاد می گیرید.

عنوان اصلی : Data Engineering Essentials - SQL, Python and Spark

سرفصل ها :


مقدمه ای در مورد دوره:
مقدمه ای در مورد دوره
مخاطب مورد نظر
پیش نیازها
رویکرد آموزشی
مروری بر محیط‌ها برای تمرین (باید تماشا کنید)
راه اندازی محیط با استفاده از AWS Cloud9:
شروع کار با Cloud9
ایجاد محیط Cloud9
گرم کردن با Cloud9 IDE
جزئیات در مورد مواد برای راه اندازی پایگاه داده postgres با استفاده از docker
مروری بر EC2 مربوط به Cloud9
باز کردن پورت ها برای نمونه Cloud9
مرتبط کردن IP های الاستیک به نمونه Cloud9
اندازه حجم EBS نمونه Cloud9 را افزایش دهید
نصب Jupyter Lab در Cloud9
[فرمان ها] راه اندازی آزمایشگاه Jupyter در Cloud9
راه اندازی محیط - مروری بر GCP و Provision Ubuntu VM:
ثبت نام برای GCP
نمای کلی کنسول وب GCP
مروری بر قیمت گذاری GCP
VM اوبونتو را از GCP تهیه کنید
راه اندازی Docker
اعتبار سنجی پایتون
راه اندازی آزمایشگاه Jupyter
راه اندازی محیط - راه اندازی پایگاه داده Postgres در اوبونتو VM:
مقدمه - راه اندازی پایگاه داده Postgres
Postgres را با استفاده از Docker راه اندازی کنید
برگه تقلب Docker
دسترسی به Postgres با استفاده از Docker CLI
ایجاد پایگاه داده و کاربر
اسکریپت های SQL را اجرا کنید
SQL Workbench را راه اندازی کنید
SQL Workbench و Postgres
Jupyter Lab و Postgresql در سیستم های محلی مانند Mac
Jupyter Lab و Postgresql با استفاده از Ubuntu VM
ملزومات پایگاه داده - شروع به کار:
اتصال به پایگاه داده
استفاده از psql
Postgres را با استفاده از Docker راه اندازی کنید
SQL Workbench را راه اندازی کنید
SQL Workbench و Postgres
ویژگی های میز کار SQL
ابزار بارگذاری داده ها
بارگیری داده ها - داکر
ملزومات پایگاه داده - عملیات پایگاه داده:
عملیات پایگاه داده - بررسی اجمالی
عملیات CRUD
ایجاد جدول
درج داده ها
به روز رسانی داده ها
حذف داده ها
مروری بر معاملات
تمرین - عملیات پایگاه داده
ملزومات پایگاه داده - نوشتن پرس و جوهای اولیه SQL:
تبدیل استاندارد
مروری بر مدل داده
بیان مسئله را تعریف کنید
آماده سازی جداول
انتخاب یا طرح داده ها
فیلتر کردن داده ها
جداول پیوستن - داخلی
جداول پیوستن - بیرونی
انجام تجمیع
مرتب سازی داده ها
راه حل - درآمد روزانه محصول
تمرینات - نوشتن پرس و جوهای اولیه SQL
ملزومات پایگاه داده - ایجاد جداول و نمایه ها:
DDL - زبان تعریف داده
مروری بر انواع داده ها
اضافه کردن یا اصلاح ستون ها
انواع مختلف محدودیت ها
مدیریت محدودیت ها
نمایه ها روی جداول
شاخص هایی برای محدودیت ها
مروری بر سکانس ها
برش جداول
جداول رها کردن
ملزومات پایگاه داده - جداول و نمایه های پارتیشن بندی:
مروری بر پارتیشن بندی
پارتیشن بندی لیست
مدیریت پارتیشن ها - لیست
دستکاری داده ها
پارتیشن بندی محدوده
مدیریت پارتیشن ها - محدوده
پارتیشن بندی مجدد - محدوده
هش پارتیشن بندی
مدیریت پارتیشن ها - هش
سناریوهای استفاده
پارتیشن بندی فرعی
تمرین - جداول پارتیشن بندی شده
ملزومات پایگاه داده - توابع از پیش تعریف شده:
بررسی اجمالی توابع
توابع دستکاری رشته
تبدیل کیس و طول
استخراج داده - با استفاده از substr و split_part
با استفاده از پوزیشن یا strpos
عملکردهای پیرایش و لایه برداری
معکوس و الحاق رشته های متعدد
جایگزینی رشته
توابع دستکاری تاریخ
دریافت تاریخ یا مهر زمانی فعلی
تاریخ حسابی
شروع تاریخ یا زمان با استفاده از date_trunc
استفاده از to_char و to_date
استخراج اطلاعات با استفاده از استخراج
سر و کار داشتن با Unix Timestamp یا Epoch
مروری بر توابع عددی
تبدیل نوع داده
مدیریت مقادیر NULL
استفاده از CASE و WHEN
ملزومات پایگاه داده - نوشتن پرس و جوهای پیشرفته SQL:
نمای کلی نماها
مروری بر پرس و جوهای نامگذاری شده
مروری بر پرس و جوهای فرعی
CTAS - ایجاد جدول به عنوان انتخاب
عملیات DML پیشرفته
ادغام یا اضافه کردن داده ها
چرخش سطرها به ستون
مروری بر توابع تحلیلی
توابع تحلیلی - تجمعات
تجمعات تجمعی یا متحرک
توابع تحلیلی - پنجره
توابع تحلیلی - رتبه بندی
توابع تحلیلی - فیلتر کردن
رتبه بندی و فیلتر کردن - خلاصه
ملزومات برنامه نویسی با استفاده از پایتون - انجام عملیات پایگاه داده:
مقدمه - انجام عملیات پایگاه داده
مروری بر SQL
ایجاد پایگاه داده و جدول کاربران
DDL - زبان تعریف داده
DML - زبان دستکاری داده ها
DQL - زبان پرس و جو داده ها
عملیات CRUD - DML و DQL
TCL - زبان کنترل تراکنش
مثال - مهندسی داده
مثال - برنامه وب
تمرین - عملیات پایگاه داده
ملزومات برنامه نویسی با استفاده از پایتون - شروع به کار با پایتون:
نصب پایتون روی ویندوز
مروری بر آناکوندا
پایتون CLI و نوت بوک Jupyter
مروری بر آزمایشگاه ژوپیتر
استفاده از IDE ها - Pycharm
با استفاده از کد ویژوال استودیو
با استفاده از ITVersity Labs
استفاده از Google Colab
ملزومات برنامه نویسی با استفاده از پایتون - ساختارهای برنامه نویسی پایه:
کمک گرفتن
متغیرها و اشیا
نوع داده - معمولاً استفاده می شود
اپراتورها در پایتون
وظایف - انواع داده ها و اپراتورها
شرایط
همه چیز در مورد حلقه ها
اجرای دستورات سیستم عامل
ملزومات برنامه نویسی با استفاده از توابع از پیش تعریف شده پایتون:
نمای کلی توابع از پیش تعریف شده
توابع عددی
نمای کلی رشته ها
توابع دستکاری رشته
قالب بندی رشته ها
توابع چاپ و ورودی
توابع دستکاری تاریخ
ملزومات برنامه نویسی با استفاده از پایتون - توابع تعریف شده توسط کاربر:
معرفی
تعریف توابع
رشته های Doc
متغیرهای برگشتی
پارامترهای تابع و آرگومان ها
استدلال های متفاوت
آرگومان های کلیدواژه
خلاصه ای از توابع تعریف شده توسط کاربر
عبور توابع به عنوان آرگومان
توابع لامبدا
استفاده از توابع لامبدا
تمرین - توابع تعریف شده توسط کاربر
ملزومات برنامه نویسی با استفاده از پایتون - نمای کلی مجموعه ها - لیست و مجموعه:
نمای کلی لیست و مجموعه
عملیات مشترک
دسترسی به عناصر از لیست
افزودن عناصر به لیست
به روز رسانی و حذف عناصر -list
سایر عملیات لیست
افزودن و حذف عناصر - مجموعه
عملیات مجموعه معمولی
اعتبار سنجی مجموعه ها
لیست و تنظیم - استفاده
ملزومات برنامه نویسی با استفاده از پایتون - نمای کلی مجموعه ها - dict و tuple:
نمای کلی دیکت و تاپل
عملیات مشترک - دیکت و تاپل
دسترسی به عناصر - تاپل
دسترسی به عناصر - dict
دستکاری دستور
مثال های رایج - دیکته
لیست تاپل ها
فهرست دیکته ها
ملزومات برنامه نویسی با استفاده از پایتون - دستکاری مجموعه ها با استفاده از حلقه ها:
خواندن فایل ها در مجموعه ها
مروری بر تحولات استاندارد
تحولات سطح ردیف
دریافت عناصر منحصر به فرد
فیلتر کردن داده ها
آماده سازی مجموعه داده ها
خلاصه سریع عملیات دیکته
انجام مجموع تجمعات
پیوستن به مجموعه داده ها
محدودیت های استفاده از حلقه ها
ملزومات برنامه نویسی با استفاده از پایتون - درک کتابخانه های کاهش نقشه:
آماده سازی مجموعه داده ها
فیلتر کردن داده ها با استفاده از فیلتر
طرح ریزی داده ها با استفاده از نقشه
تبدیل سطح ردیف با استفاده از نقشه
ملزومات برنامه نویسی با استفاده از پایتون - مروری بر کتابخانه های پانداها:
ساختارهای داده پانداها
نمای کلی سریال
ایجاد فریم های داده از لیست ها
چارچوب های داده - عملیات پایه
CSV به فریم های داده پاندا
پروجکشن و فیلترینگ
انجام مجموع تجمعات
انجام تجمعات گروهی
نوشتن فریم های داده در فایل ها
پیوستن به چارچوب های داده
ملزومات برنامه نویسی با استفاده از پایتون - برنامه نویسی پایگاه داده - عملیات CRUD:
مروری بر برنامه نویسی داده ها
خلاصه ای از مفاهیم RDBMS
راه اندازی کتابخانه های مشتری پایگاه داده
تابع دریافت اتصال به پایگاه داده
ایجاد جدول پایگاه داده
درج داده ها در جدول
به روز رسانی داده های جدول موجود
حذف داده ها از جدول
جستجوی داده ها از جدول
خلاصه - عملیات CRUD
ملزومات برنامه نویسی با استفاده از پایتون - برنامه نویسی پایگاه داده - عملیات دسته ای:
خلاصه از Insert
آماده سازی پایگاه داده
خواندن داده ها از فایل
بارگیری دسته ای داده ها
بهترین شیوه بارگیری دسته ای
راه اندازی Hadoop روی خوشه تک گره:
مقدمه ای بر Single Node Hadoop Cluster
پیش نیازهای راه اندازی
تنظیم رمز ورود کمتر
Hadoop را دانلود و نصب کنید
پیکربندی Hadoop HDFS
HDFS را شروع و اعتبار سنجی کنید
پیکربندی Hadoop YARN
YARN را شروع و اعتبار سنجی کنید
مدیریت هدوپ تک گره
Hive and Spark را روی Single Node Cluster راه اندازی کنید:
مجموعه داده ها را برای تمرین تنظیم کنید
Hive را دانلود و نصب کنید
راه اندازی پایگاه داده برای Hive Metastore
Hive Metastore را پیکربندی و راه اندازی کنید
Hive را راه اندازی و اعتبار سنجی کنید
اسکریپت هایی برای مدیریت خوشه گره منفرد
Spark 2 را دانلود و نصب کنید
Spark 2 را پیکربندی کنید
Spark 2 را با استفاده از CLI ها اعتبار سنجی کنید
اعتبار سنجی راه اندازی آزمایشگاه Jupyter
Spark 2 را با Jupyter Lab ادغام کنید
Spark 3 را دانلود و نصب کنید
Spark 3 را پیکربندی کنید
Spark 3 را با استفاده از CLI تأیید کنید
Spark 3 را با Jupyter Lab ادغام کنید
مقدمه ای بر سیستم اکو Hadoop - مروری بر HDFS:
دریافت کمک یا استفاده
لیست کردن فایل های HDFS
مدیریت دایرکتوری های HDFS
کپی کردن فایل ها از محلی به HDFS
کپی فایل ها از HDFS به محلی
دریافت فراداده فایل ها
اندازه بلوک HDFS
ضریب تکرار HDFS
دریافت استفاده از فضای ذخیره سازی HDFS
استفاده از دستورات آماری HDFS
مجوزهای فایل HDFS
ویژگی های فراگیر
مهندسی داده با استفاده از Spark SQL - شروع به کار:
شروع - بررسی اجمالی
مروری بر مستندات Spark
راه اندازی و استفاده از Spark SQL CLI
مروری بر ویژگی های Spark SQL
اجرای دستورات سیستم عامل با استفاده از Spark SQL
آشنایی با فهرست انبار
مدیریت پایگاه های داده Spark Metastore
مدیریت جداول Spark Metastore
فراداده جداول را بازیابی کنید
نقش Spark Metastore یا Hive Metastore
تمرین - شروع کار با Spark SQL
مهندسی داده با استفاده از Spark SQL - Basic Transformations :
تحولات اساسی - مقدمه
Spark SQL - نمای کلی
بیان مسئله را تعریف کنید
جداول را آماده کنید
پروجکشن داده ها
فیلتر کردن داده ها
جداول پیوستن - داخلی
جداول پیوستن - بیرونی
داده های تجمع
مرتب سازی داده ها
نتیجه گیری - راه حل نهایی
مهندسی داده با استفاده از Spark SQL - مدیریت جداول - پایه DDL و DML:
معرفی
جداول Spark Metastore را ایجاد کنید
مروری بر انواع داده ها
افزودن نظرات
بارگیری داده ها در جداول - محلی
بارگیری داده ها در جداول - HDFS
بارگذاری داده ها - اضافه و بازنویسی
ایجاد جداول خارجی
جداول مدیریت شده در مقابل جداول خارجی
مروری بر فرمت های فایل
جداول و پایگاه های داده را رها کنید
برش جداول
تمرین - جداول مدیریت شده
مهندسی داده با استفاده از Spark SQL - مدیریت جداول - DML و پارتیشن بندی:
مقدمه - مدیریت جداول - DML و پارتیشن بندی
مقدمه ای بر پارتیشن بندی
ساخت جداول با استفاده از پارکت
بارگذاری در مقابل درج
درج داده ها با استفاده از جدول مرحله
ایجاد جداول پارتیشن بندی شده
اضافه کردن پارتیشن به جداول
بارگذاری داده ها در جداول پارتیشن بندی شده
درج داده ها در پارتیشن ها
استفاده از حالت پارتیشن پویا
تمرین - جداول پارتیشن بندی شده
مهندسی داده با استفاده از Spark SQL - مروری بر توابع Spark SQL:
مقدمه - مروری بر توابع Spark SQL
بررسی اجمالی توابع
اعتبارسنجی توابع
توابع دستکاری رشته
توابع دستکاری تاریخ
مروری بر توابع عددی
تبدیل نوع داده
برخورد با Nulls
استفاده از CASE و WHEN
مثال پرس و جو - تعداد کلمات
مهندسی داده با استفاده از Spark SQL - توابع پنجره:
مقدمه - توابع پنجره
تهیه پایگاه داده منابع انسانی
مروری بر توابع پنجره
تجمیع با استفاده از توابع پنجره
با استفاده از LEAD یا LAG
به دست آوردن اولین و آخرین ارزش ها
رتبه بندی با استفاده از توابع پنجره
ترتیب اجرای SQL.cmproj
بررسی اجمالی سوالات فرعی
فیلتر کردن نتایج عملکرد پنجره
آپاچی اسپارک با استفاده از پایتون - بررسی اجمالی پردازش داده:
شروع Spark Context - pyspark
مروری بر Spark Read APIها
درک اطلاعات خطوط هوایی
طرحواره استنباط
مروری بر Data Frame APIs
بررسی اجمالی توابع
مروری بر Spark Write APIs
Apache Spark با استفاده از پایتون - پردازش داده های ستون:
مروری بر توابع از پیش تعریف شده در Spark
ساخت فریم داده ساختگی
دسته بندی توابع
توابع ویژه - col و روشن
توابع متداول دستکاری رشته
استخراج رشته ها با استفاده از رشته فرعی
استخراج رشته ها با استفاده از split
پر کردن کاراکترها در اطراف رشته ها
برش کاراکترها از رشته ها
توابع دستکاری تاریخ و زمان
تاریخ و زمان حسابی
استفاده از توابع Date and Time Trunc
توابع استخراج تاریخ و زمان
استفاده از to_date و to_timestamp
با استفاده از تابع date_format
سر و کار داشتن با Unix Timestamp
برخورد با Nulls
استفاده از CASE و WHEN
Apache Spark با استفاده از Python - Basic Transformations :
مروری بر تحولات اساسی
چارچوب های داده برای تبدیل های اساسی
فیلتر اولیه داده ها
مثال فیلتر کردن با استفاده از تاریخ
عملگرهای بولی
با استفاده از IN Operator یا isin Function
با استفاده از LIKE Operator یا Like Function
با استفاده از عملگر BETWEEN
برخورد با Nulls در هنگام فیلتر کردن
مجموع تجمعات
جمع آوری داده ها با استفاده از groupBy
جمع آوری داده ها با استفاده از rollup
جمع آوری داده ها با استفاده از cube.cmproj
مروری بر مرتب سازی فریم های داده
راه حل - مسئله 1 - جمع آوری کل
راه حل - مسئله 2 - جمع آوری کل بر اساس تاریخ پرواز
Apache Spark - پیوستن به مجموعه داده ها:
مجموعه داده ها را برای پیوستن آماده کنید
تجزیه و تحلیل مجموعه داده ها برای پیوستن
بیانیه مشکل برای پیوستن
نمای کلی Joins
استفاده از اتصالات داخلی
پیوستن بیرونی چپ یا راست
راه حل - دریافت تعداد پرواز در هر فرودگاه ایالات متحده
راه حل - دریافت تعداد پرواز در هر ایالت ایالات متحده
راه حل - فرودگاه های خفته ایالات متحده را دریافت کنید
راه حل - Origins را بدون داده اصلی دریافت کنید
راه حل - تعداد پروازها را بدون داده اصلی دریافت کنید
راه حل - تعداد پروازهای هر فرودگاه را بدون داده اصلی دریافت کنید
راه حل - دریافت درآمد روزانه
راه حل - دریافت درآمد روزانه تا سالیانه
Apache Spark - Spark Metastore:
نمای کلی Spark Metastore
کاوش در کاتالوگ اسپارک
ایجاد جداول متاستور با استفاده از کاتالوگ
استنتاج طرح واره برای جداول
طرحواره جداول را با استفاده از StructType تعریف کنید
درج در جداول موجود
خواندن و پردازش داده ها از جداول متاستور
ایجاد جداول پارتیشن بندی شده
ذخیره به عنوان جدول پارتیشن بندی شده
ایجاد نماهای موقت
استفاده از Spark SQL
Apache Spark - چرخه حیات توسعه با استفاده از پایتون:
محیط مجازی را راه اندازی کرده و Pyspark را نصب کنید
شروع با Pycharm
گذراندن آرگومان های زمان اجرا
دسترسی به متغیرهای محیط سیستم عامل
شروع کار با Spark
ایجاد تابع برای Spark Session
تنظیم داده های نمونه
خواندن داده ها از فایل ها
پردازش داده ها با استفاده از Spark API
نوشتن داده ها در فایل ها
اعتبار سنجی نوشتن داده ها در فایل ها
تولید کد
تنظیم داده ها برای اعتبار سنجی تولید
اجرای برنامه با استفاده از YARN
اعتبار سنجی دقیق برنامه

نمایش سرفصل های انگلیسی

Data Engineering Essentials - SQL, Python and Spark

63,400 تومان
بیش از یک محصول به صورت دانلودی میخواهید؟ محصول را به سبد خرید اضافه کنید.
خرید دانلودی فوری

در این روش نیاز به افزودن محصول به سبد خرید و تکمیل اطلاعات نیست و شما پس از وارد کردن ایمیل خود و طی کردن مراحل پرداخت لینک های دریافت محصولات را در ایمیل خود دریافت خواهید کرد.

ایمیل شما:
تولید کننده:
شناسه: UD19280
حجم: 16329 مگابایت
مدت زمان: 2271 دقیقه
تعداد دیسک: 4 عدد
زبان: انگلیسی ساده و روان
تاریخ انتشار: 4 تیر 1400
آموزش مهندسی داده ها بوسیله Python, SQL, Spark
آموزش مهندسی داده ها بوسیله Python, SQL, Spark 1
آموزش مهندسی داده ها بوسیله Python, SQL, Spark 2
آموزش مهندسی داده ها بوسیله Python, SQL, Spark 3
آموزش مهندسی داده ها بوسیله Python, SQL, Spark 4
آموزش مهندسی داده ها بوسیله Python, SQL, Spark 5
آموزش مهندسی داده ها بوسیله Python, SQL, Spark 6
طراحی سایت و خدمات سئو

63,400 تومان
افزودن به سبد خرید