در حال حاضر محصولی در سبد خرید شما وجود ندارد.
یک دوره جامع در SPARK SQL و همچنین API های فریم داده با استفاده از PYSPARK 2 و 3 استفاده از PYTHON 3.
عنوان اصلی : Spark SQL and PySpark 3 using Python 3 (Formerly CCA175)
سرفصل های دوره :
مقدمه:
CCA 175 Spark and Hadoop Developer - برنامه درسی
تنظیم محیط با استفاده از AWS Cloud9:
شروع به کار با Cloud9
ایجاد محیط Cloud9
گرم کردن با Cloud9 IDE
مروری بر EC2 مربوط به Cloud9
باز کردن پورتها برای Cloud9 Instance
ارتباط IP های الاستیک به نمونه Cloud9
اندازه صدای EBS نمونه Cloud9 را افزایش دهید
آزمایشگاه Jupyter را در Cloud9 راه اندازی کنید
[فرمانها] آزمایشگاه Jupyter را در Cloud9 راهاندازی کنید
تنظیم محیط - مروری بر GCP و Provision Ubuntu VM:
ثبت نام برای GCP
نمای کلی کنسول وب GCP
نمای کلی قیمت گذاری GCP
VM Ubuntu را از GCP تهیه کنید
راه اندازی Docker
اعتبار سنجی پایتون
راه اندازی آزمایشگاه Jupyter
تنظیم Hadoop در خوشه گره تک:
مقدمه ای بر Single Node Hadoop Cluster
پیش نیازهای راه اندازی
[فرمانها] - پیش نیازهای راهاندازی
تنظیم رمز ورود بدون ورود
[فرمانها] - راهاندازی رمز عبور بدون ورود به سیستم
Hadoop را دانلود و نصب کنید
[فرمانها] - دانلود و نصب Hadoop
Hadoop HDFS را پیکربندی کنید
[فرمانها] - پیکربندی Hadoop HDFS
HDFS را شروع و اعتبار سنجی کنید
[فرمانها] - HDFS را شروع و اعتبار سنجی کنید
Hadoop YARN را پیکربندی کنید
[فرمانها] - Hadoop YARN را پیکربندی کنید
YARN را شروع و اعتبار سنجی کنید
[فرمانها] - YARN را شروع و اعتبار سنجی کنید
مدیریت هدوپ تک گره
[فرمانها] - مدیریت Hadoop تک گره
Setup Hive and Spark در Single Node Cluster:
مجموعه های داده را برای تمرین تنظیم کنید
[فرمانها] - مجموعههای داده را برای تمرین تنظیم کنید
Hive را دانلود و نصب کنید
[Commands] - Hive را دانلود و نصب کنید
پایگاه داده را برای Hive Metastore تنظیم کنید
[فرمانها] - راهاندازی پایگاه داده برای Hive Metastore
Hive Metastore را پیکربندی و راه اندازی کنید
[Commands] - Hive Metastore را پیکربندی و راه اندازی کنید
Hive را راه اندازی و اعتبار سنجی کنید
[فرمانها] - Hive را راهاندازی و اعتبارسنجی کنید
اسکریپت هایی برای مدیریت خوشه گره تک
[فرمانها] - اسکریپتهایی برای مدیریت خوشه گره واحد
Spark 2 را دانلود و نصب کنید
[Commands] - Spark 2 را دانلود و نصب کنید
Spark 2 را پیکربندی کنید
[فرمانها] - Spark 2 را پیکربندی کنید
Spark 2 را با استفاده از CLI تأیید کنید
[فرمانها] - Spark 2 را با استفاده از CLI تأیید کنید
تنظیمات آزمایشگاه Jupyter را تأیید کنید
[فرمانها] - تأیید تنظیم آزمایشگاه Jupyter
Spark 2 را با Jupyter Lab ادغام کنید
[فرمانها] - Spark 2 را با Jupyter Lab ادغام کنید
Spark 3 را دانلود و نصب کنید
[Commands] - Spark 3 را دانلود و نصب کنید
Spark 3 را پیکربندی کنید
[فرمانها] - Spark 3 را پیکربندی کنید
Spark 3 را با استفاده از CLI تأیید کنید
[فرمانها] - Spark 3 را با استفاده از CLI تأیید کنید
Spark 3 را با Jupyter Lab ادغام کنید
[فرمانها] - Spark 3 را با Jupyter Lab ادغام کنید
اصول پایتون:
معرفی و راه اندازی پایتون
ساختارهای اصلی برنامه نویسی
توابع در پایتون
عملیات Map Reduce در مجموعه های پایتون
تنظیم مجموعه دادهها برای عملیات ورودی/خروجی اولیه
عملیات اولیه ورودی/خروجی و پردازش داده ها با استفاده از مجموعه ها
نمای کلی دستورات Hadoop HDFS:
دریافت کمک یا استفاده
فهرست کردن فایل های HDFS
مدیریت فهرست راهنمای HDFS
کپی کردن فایل ها از محلی به HDFS
کپی کردن فایل ها از HDFS به محلی
دریافت فراداده فایل
پیش نمایش داده ها در فایل HDFS
اندازه بلوک HDFS
فاکتور تکرار HDFS
دریافت استفاده از فضای ذخیره سازی HDFS
استفاده از دستورات آمار HDFS
مجوزهای فایل HDFS
ویژگی های فراگیر
Apache Spark 2.x - پردازش داده - شروع به کار:
مقدمه
مرور مراحل راه اندازی برای Spark Environment
استفاده از آزمایشگاه های ITVersity
اسناد رسمی آپاچی اسپارک (بسیار مهم)
بررسی سریع Spark APIها
ماژول های Spark
ساختارهای داده اسپارک - RDD ها و قاب های داده
برنامه ساده توسعه دهید
Apache Spark - Framework
فریم های داده را از فایل های متنی ایجاد کنید
فریم های داده را از جداول Hive ایجاد کنید
Apache Spark با استفاده از SQL - شروع به کار:
شروع به کار - نمای کلی
مروری بر مستندات Spark
راه اندازی و استفاده از Spark SQL CLI
مروری بر ویژگی های Spark SQL
اجرای دستورات سیستم عامل با استفاده از Spark SQL
آشنایی با فهرست انبار
مدیریت پایگاه های داده Spark Metastore
مدیریت جداول Spark Metastore
فراداده جداول را بازیابی کنید
نقش Spark Metastore یا Hive Metastore
ورزش - شروع کار با Spark SQL
Apache Spark با استفاده از SQL - تبدیل اولیه با استفاده از Spark SQL:
تبدیل های اساسی با استفاده از Spark SQL - مقدمه
Spark SQL - نمای کلی
بیان مشکل را تعریف کنید
جداول را آماده کنید
پروژهگذاری دادهها
فیلتر کردن داده ها
میزهای پیوستن - داخلی
اتصال جداول - بیرونی
تجمیع داده ها
مرتب سازی داده ها
نتیجه گیری - راه حل نهایی
Apache Spark با استفاده از SQL - Basic DDL و DML:
مقدمه
جداول Spark Metastore را ایجاد کنید
مروری بر انواع داده ها
افزودننظرات
بارگیری داده ها در جداول - محلی
بارگیری داده ها در جداول - HDFS
بارگیری داده - اضافه و بازنویسی
ایجاد جداول خارجی
جدول مدیریت شده در مقابل جداول خارجی
نمای کلی فرمت های فایل
جداول و پایگاه داده را رها کنید
قطع کردن جداول
تمرین - جداول مدیریت شده
Apache Spark با استفاده از SQL - DML و پارتیشن بندی:
مقدمه
مقدمه ای بر پارتیشن بندی
ایجاد جداول با استفاده از پارکت
بارگیری در مقابل درج
درج داده ها با استفاده از جدول مرحله
ایجاد جداول پارتیشن بندی شده
افزودن پارتیشن به جداول
بارگیری داده ها در جداول پارتیشن بندی شده
درج داده ها در پارتیشن ها
استفاده از حالت پارتیشن پویا
تمرین - جداول تقسیم شده
Apache Spark با استفاده از SQL - توابع از پیش تعریف شده:
مقدمه - مروری بر توابع Spark SQL
نمای کلی توابع
توابع اعتبارسنجی
توابع دستکاری رشته
توابع دستکاری تاریخ
نمای کلی توابع عددی
تبدیل نوع داده
برخورد با Nulls
استفاده از CASE و WHEN
مثال پرس و جو - تعداد کلمات
Apache Spark SQL - توابع پنجره:
مقدمه ای بر توابع پنجره
پایگاه داده منابع انسانی را آماده کنید
نمای کلی عملکردهای پنجره
تجمیع با استفاده از توابع پنجره
استفاده از LEAD یا LAG
دریافت اولین و آخرین مقادیر
رتبه بندی با استفاده از توابع پنجره
ترتیب اجرای SQL
نمای کلی سوالات فرعی
فیلتر کردن نتایج عملکرد پنجره
Apache Spark با استفاده از Python - بررسی اجمالی پردازش داده:
شروع Spark Context - pyspark
نمای کلی Spark Read APIها
درک اطلاعات خطوط هوایی
استنتاج طرحواره
پیش نمایش داده های خطوط هوایی
نمای کلی APIهای Data Frame
نمای کلی توابع
نمای کلی Spark Write API
Apache Spark با استفاده از پایتون - پردازش داده های ستون:
نمای کلی توابع از پیش تعریف شده در Spark
فریم داده ساختگی ایجاد کنید
دسته های توابع
عملکردهای ویژه - کول و روشن
توابع متداول دستکاری رشته
استخراج رشته ها با استفاده از رشته فرعی
استخراج رشته ها با استفاده از split
پرداختن نویسهها در اطراف رشتهها
برش کاراکترها از رشته ها
توابع دستکاری تاریخ و زمان
تاریخ و زمان محاسبات
استفاده از توابع تاریخ و زمان Trunc
توابع استخراج تاریخ و زمان
استفاده از to_date و to_timestamp
استفاده از تابع date_format
برخورد با Unix Timestamp
برخورد با Nulls
استفاده از CASE و WHEN
Apache Spark با استفاده از Python - Basic Transformations :
بررسی اجمالی تحولات اساسی
فریم های داده برای تبدیل های اساسی
فیلتر اولیه داده ها
فیلتر کردن مثال با استفاده از تاریخ
اپراتورهای بولی
استفاده از عملگر IN یا تابع isin
استفاده از LIKE Operator یا like Function
استفاده از عملگر BETWEEN
برخورد با Nulls هنگام فیلتر کردن
مجموع تجمعات
داده ها را با استفاده از groupBy جمع آوری کنید
دادهها را با استفاده از جمعآوری جمعآوری کنید
داده ها را با استفاده از cube.cmproj جمع آوری کنید
مروری بر مرتبسازی فریمهای داده
راه حل - مسئله 1 - جمع آوری کل را دریافت کنید
راه حل - مسئله 2 - جمع آوری کل بر اساس FlightDate
Apache Spark با استفاده از پایتون - پیوستن به مجموعه داده ها:
مجموعه داده ها را برای پیوستن آماده کنید
تجزیه و تحلیل مجموعه داده ها برای پیوستن
بیانات مشکل برای پیوستن
نمای کلی Joins
استفاده از اتصالات داخلی
پیوستن بیرونی چپ یا راست
راه حل - دریافت تعداد پرواز در هر فرودگاه ایالات متحده
راه حل - دریافت تعداد پرواز در هر ایالت ایالات متحده
راه حل - فرودگاه های خفته ایالات متحده را دریافت کنید
راه حل - بدون داده اصلی، Origins را دریافت کنید
راه حل - تعداد پروازها را بدون داده اصلی دریافت کنید
راه حل - تعداد پروازهای هر فرودگاه را بدون داده اصلی دریافت کنید
راه حل - درآمد روزانه دریافت کنید
راه حل - دریافت درآمد روزانه تا سالانه
Apache Spark با استفاده از Python - Spark Metastore:
نمای کلی Spark Metastore
کاوش کاتالوگ Spark
ایجاد جداول متاستور با استفاده از کاتالوگ
استنتاج طرحواره برای جداول
شما را برای جداول با استفاده از StructType تعریف کنید
درج در جداول موجود
داده ها را از جداول متاستور بخوانید و پردازش کنید
جداول پارتیشن بندی شده ایجاد کنید
ذخیره به عنوان جدول پارتیشن بندی شده
ایجاد نماهای موقت
استفاده از Spark SQL
Apache Spark - چرخه عمر توسعه برنامه:
محیط مجازی را راه اندازی کرده و Pyspark را نصب کنید
شروع با Pycharm
گذراندن آرگومان های زمان اجرا
دسترسی به متغیرهای محیط سیستم عامل
شروع با Spark
ایجاد تابع برای Spark Session
تنظیم داده های نمونه
خواندن داده ها از فایل ها
پردازش داده ها با استفاده از Spark API
داده ها را در فایل ها بنویسید
اعتبار سنجی نوشتن داده ها در فایل ها
تولید کد
تنظیم داده ها برای اعتبارسنجی تولید
اجرای برنامه با استفاده از YARN
اعتبار سنجی دقیق برنامه
Spark Application Execution Life Cycرابط کاربری le و Spark:
استقرار و نظارت بر برنامه های کاربردی Spark - مقدمه
مروری بر انواع مدیران خوشه جرقه
راه اندازی خوشه EMR با Hadoop و Spark
ظرفیت کلی Big Data Cluster با Hadoop و Spark
درک ظرفیت نخ یک خوشه سازمانی
نمای کلی Hadoop HDFS و راه اندازی YARN در خوشه چند گره
نمای کلی Spark Setup در بالای Hadoop
تنظیم مجموعه داده برای برنامه تعداد کلمات
برنامه شمارش کلمه را توسعه دهید
بررسی فرآیند استقرار برنامه Spark
نمای کلی Spark Submit Command
برای اجرای Spark Applications یا راه اندازی Pyspark CLI بین نسخه های پایتون جابجا شوید
برای اجرای Spark Applications یا راه اندازی Pyspark CLI بین نسخه های Pyspark جابه جا شوید
ویژگیهای پیکربندی Spark را در زمان اجرا مرور کنید
Shell Script را برای اجرای Spark Application توسعه دهید
Spark Application را اجرا کنید و مجریان پیش فرض را بررسی کنید
نمای کلی رابط کاربری سرور Spark History
تنظیم پروکسی SSH برای دسترسی به گزارشهای Spark Application:
تنظیم پروکسی SSH برای دسترسی به گزارشهای برنامه Spark - مقدمه
نمای کلی ip های خصوصی و عمومی سرورها در خوشه
نمای کلی پروکسی SSH
sshuttle را در مک یا لینوکس راه اندازی کنید
پراکسی با استفاده از sshuttle در مک یا لینوکس
دسترسی به گزارشهای Spark Application از طریق SSH Proxy با استفاده از sshuttle در مک یا لینوکس
عوارض جانبی استفاده از پروکسی SSH برای دسترسی به گزارشهای برنامه Spark
مراحل راهاندازی پروکسی SSH در ویندوز برای دسترسی به گزارشهای Spark Application
PuTTY و PuTTYgen را در ویندوز راه اندازی کنید
گشت سریع PuTTY در ویندوز
ورود بدون رمز عبور را با استفاده از کلیدهای PuTTYGen در ویندوز پیکربندی کنید
برنامه Spark را در Gateway Node با استفاده از PuTTY اجرا کنید
پیکربندی تونل به گره دروازه با استفاده از PuTTY در ویندوز برای پروکسی SSH
پراکسی را در ویندوز راه اندازی کنید و با استفاده از مرورگر مایکروسافت اج اعتبار سنجی کنید
درک ترافیک شبکه پروکسی غلبه بر هشدارهای ویندوز
فایل Hosts را برای گره های کارگر با استفاده از IP های خصوصی به روز کنید
با استفاده از پروکسی SSH به گزارش های برنامه Spark دسترسی پیدا کنید
نمای کلی از انجام وظایف مربوط به Spark Applications با استفاده از Mac
حالتهای استقرار برنامههای Spark:
مدهای استقرار برنامه های Spark - مقدمه
نوع اصلی اجرای پیشفرض برای برنامههای Spark
Pyspark را با استفاده از حالت محلی راه اندازی کنید
اجرای برنامه های Spark با استفاده از حالت محلی
مروری بر دستورات Spark CLI مانند Pyspark
دسترسی به فایل های محلی با استفاده از Spark CLI یا Spark Applications
نمای کلی ارسال برنامه spark با استفاده از حالت استقرار مشتری
نمای کلی ارسال برنامه spark با استفاده از حالت استقرار خوشه
هنگام ارسال برنامه های Spark، گزارش پیش فرض را مرور کنید
تغییر سطح Log برنامه Spark با استفاده از خصوصیات log4j سفارشی
درخواست Spark را با استفاده از حالت مشتری با اطلاعات سطح گزارش ارسال کنید
درخواست Spark را با استفاده از حالت خوشه با اطلاعات سطح گزارش ارسال کنید
برنامههای Spark را با استفاده از SPARK_CONF_DIR با فایلهای ویژگیهای سفارشی ارسال کنید
برنامه های Spark را با استفاده از فایل Properties ارسال کنید
گذراندن فایلهای ویژگیهای برنامه و وابستگیهای خارجی:
گذراندن فایل های ویژگی های برنامه و وابستگی های خارجی - مقدمه
مراحل انتقال ویژگی های برنامه با استفاده از JSON
راه اندازی دایرکتوری کاری برای ارسال ویژگی های برنامه با استفاده از JSON
JSON را با ویژگی های برنامه بسازید
API ها را برای پردازش داده های JSON با استفاده از Pyspark کاوش کنید
برای استفاده از ویژگی های JSON، کد برنامه Spark را دوباره فاکتور کنید
با استفاده از فایلهای محلی در حالت کلاینت، ویژگیهای برنامه را به Spark Application منتقل کنید
با استفاده از فایلهای محلی در cluster mo، ویژگیهای برنامه را به Spark Application منتقل کنید
با استفاده از فایلهای HDFS، ویژگیهای برنامه را به برنامه Spark منتقل کنید
مراحل ارسال کتابخانه های خارجی پایتون با استفاده از pyfiles
فایل YAML مورد نیاز را برای خارجی سازی ویژگی های برنامه ایجاد کنید
PyYAML را در پوشه خاصی نصب کنید و zip بسازید
API ها را برای پردازش داده های YAML با استفاده از Pyspark کاوش کنید
برای استفاده از ویژگی های YAML، کد برنامه Spark را دوباره فاکتور کنید
با استفاده از فایلهای محلی در حالت کلاینت، وابستگیهای خارجی را به برنامه Spark منتقل کنید
با استفاده از فایلهای محلی در حالت خوشه، وابستگیهای خارجی را به Spark Apps منتقل کنید
با استفاده از فایلهای HDFS، وابستگیهای خارجی را به برنامه Spark منتقل کنید
Spark SQL and PySpark 3 using Python 3 (Formerly CCA175)
در این روش نیاز به افزودن محصول به سبد خرید و تکمیل اطلاعات نیست و شما پس از وارد کردن ایمیل خود و طی کردن مراحل پرداخت لینک های دریافت محصولات را در ایمیل خود دریافت خواهید کرد.
مهندسی دیتا بوسیله سرویس های AWS Analytics
Mastering Databricks SQL Warehouse and Spark SQL
آموزش مهندسی داده ها بوسیله Python, SQL, Spark
Master Data Engineering using Azure Data Analytics
مهندسی دیتا با استفاده از Databrick موجود بر روی AWS و Azure
مسلط شدن بر Amazon Redshift و مبحث Serverless
فیلم یادگیری کامل Spark SQL, Spark 3 و استفاده از Scala
آموزش کدنویسی Apache Spark 2022 و Databricks در آن
مهندسی دیتا : کار با SQL, Python and Spark
Master Data Engineering using GCP Data Analytics
اطلاع رسانی حذف دوره های قدیمی و تخفیفات نوروزی مشاهده