وب سایت تخصصی شرکت فرین
دسته بندی دوره ها

کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون

سرفصل های دوره

یک دوره جامع در SPARK SQL و همچنین API های فریم داده با استفاده از PYSPARK 2 و 3 استفاده از PYTHON 3.

عنوان اصلی : Spark SQL and PySpark 3 using Python 3 (Formerly CCA175)

سرفصل های دوره :

مقدمه:
CCA 175 Spark and Hadoop Developer - برنامه درسی
تنظیم محیط با استفاده از AWS Cloud9:
شروع به کار با Cloud9
ایجاد محیط Cloud9
گرم کردن با Cloud9 IDE
مروری بر EC2 مربوط به Cloud9
باز کردن پورت‌ها برای Cloud9 Instance
ارتباط IP های الاستیک به نمونه Cloud9
اندازه صدای EBS نمونه Cloud9 را افزایش دهید
آزمایشگاه Jupyter را در Cloud9 راه اندازی کنید
[فرمان‌ها] آزمایشگاه Jupyter را در Cloud9 راه‌اندازی کنید
تنظیم محیط - مروری بر GCP و Provision Ubuntu VM:
ثبت نام برای GCP
نمای کلی کنسول وب GCP
نمای کلی قیمت گذاری GCP
VM Ubuntu را از GCP تهیه کنید
راه اندازی Docker
اعتبار سنجی پایتون
راه اندازی آزمایشگاه Jupyter
تنظیم Hadoop در خوشه گره تک:
مقدمه ای بر Single Node Hadoop Cluster
پیش نیازهای راه اندازی
[فرمان‌ها] - پیش نیازهای راه‌اندازی
تنظیم رمز ورود بدون ورود
[فرمان‌ها] - راه‌اندازی رمز عبور بدون ورود به سیستم
Hadoop را دانلود و نصب کنید
[فرمان‌ها] - دانلود و نصب Hadoop
Hadoop HDFS را پیکربندی کنید
[فرمان‌ها] - پیکربندی Hadoop HDFS
HDFS را شروع و اعتبار سنجی کنید
[فرمان‌ها] - HDFS را شروع و اعتبار سنجی کنید
Hadoop YARN را پیکربندی کنید
[فرمان‌ها] - Hadoop YARN را پیکربندی کنید
YARN را شروع و اعتبار سنجی کنید
[فرمان‌ها] - YARN را شروع و اعتبار سنجی کنید
مدیریت هدوپ تک گره
[فرمان‌ها] - مدیریت Hadoop تک گره
Setup Hive and Spark در Single Node Cluster:
مجموعه های داده را برای تمرین تنظیم کنید
[فرمان‌ها] - مجموعه‌های داده را برای تمرین تنظیم کنید
Hive را دانلود و نصب کنید
[Commands] - Hive را دانلود و نصب کنید
پایگاه داده را برای Hive Metastore تنظیم کنید
[فرمان‌ها] - راه‌اندازی پایگاه داده برای Hive Metastore
Hive Metastore را پیکربندی و راه اندازی کنید
[Commands] - Hive Metastore را پیکربندی و راه اندازی کنید
Hive را راه اندازی و اعتبار سنجی کنید
[فرمان‌ها] - Hive را راه‌اندازی و اعتبارسنجی کنید
اسکریپت هایی برای مدیریت خوشه گره تک
[فرمان‌ها] - اسکریپت‌هایی برای مدیریت خوشه گره واحد
Spark 2 را دانلود و نصب کنید
[Commands] - Spark 2 را دانلود و نصب کنید
Spark 2 را پیکربندی کنید
[فرمان‌ها] - Spark 2 را پیکربندی کنید
Spark 2 را با استفاده از CLI تأیید کنید
[فرمان‌ها] - Spark 2 را با استفاده از CLI تأیید کنید
تنظیمات آزمایشگاه Jupyter را تأیید کنید
[فرمان‌ها] - تأیید تنظیم آزمایشگاه Jupyter
Spark 2 را با Jupyter Lab ادغام کنید
[فرمان‌ها] - Spark 2 را با Jupyter Lab ادغام کنید
Spark 3 را دانلود و نصب کنید
[Commands] - Spark 3 را دانلود و نصب کنید
Spark 3 را پیکربندی کنید
[فرمان‌ها] - Spark 3 را پیکربندی کنید
Spark 3 را با استفاده از CLI تأیید کنید
[فرمان‌ها] - Spark 3 را با استفاده از CLI تأیید کنید
Spark 3 را با Jupyter Lab ادغام کنید
[فرمان‌ها] - Spark 3 را با Jupyter Lab ادغام کنید
اصول پایتون:
معرفی و راه اندازی پایتون
ساختارهای اصلی برنامه نویسی
توابع در پایتون
عملیات Map Reduce در مجموعه های پایتون
تنظیم مجموعه داده‌ها برای عملیات ورودی/خروجی اولیه
عملیات اولیه ورودی/خروجی و پردازش داده ها با استفاده از مجموعه ها
نمای کلی دستورات Hadoop HDFS:
دریافت کمک یا استفاده
فهرست کردن فایل های HDFS
مدیریت فهرست راهنمای HDFS
کپی کردن فایل ها از محلی به HDFS
کپی کردن فایل ها از HDFS به محلی
دریافت فراداده فایل
پیش نمایش داده ها در فایل HDFS
اندازه بلوک HDFS
فاکتور تکرار HDFS
دریافت استفاده از فضای ذخیره سازی HDFS
استفاده از دستورات آمار HDFS
مجوزهای فایل HDFS
ویژگی های فراگیر
Apache Spark 2.x - پردازش داده - شروع به کار:
مقدمه
مرور مراحل راه اندازی برای Spark Environment
استفاده از آزمایشگاه های ITVersity
اسناد رسمی آپاچی اسپارک (بسیار مهم)
بررسی سریع Spark APIها
ماژول های Spark
ساختارهای داده اسپارک - RDD ها و قاب های داده
برنامه ساده توسعه دهید
Apache Spark - Framework
فریم های داده را از فایل های متنی ایجاد کنید
فریم های داده را از جداول Hive ایجاد کنید
Apache Spark با استفاده از SQL - شروع به کار:
شروع به کار - نمای کلی
مروری بر مستندات Spark
راه اندازی و استفاده از Spark SQL CLI
مروری بر ویژگی های Spark SQL
اجرای دستورات سیستم عامل با استفاده از Spark SQL
آشنایی با فهرست انبار
مدیریت پایگاه های داده Spark Metastore
مدیریت جداول Spark Metastore
فراداده جداول را بازیابی کنید
نقش Spark Metastore یا Hive Metastore
ورزش - شروع کار با Spark SQL
Apache Spark با استفاده از SQL - تبدیل اولیه با استفاده از Spark SQL:
تبدیل های اساسی با استفاده از Spark SQL - مقدمه
Spark SQL - نمای کلی
بیان مشکل را تعریف کنید
جداول را آماده کنید
پروژه‌گذاری داده‌ها
فیلتر کردن داده ها
میزهای پیوستن - داخلی
اتصال جداول - بیرونی
تجمیع داده ها
مرتب سازی داده ها
نتیجه گیری - راه حل نهایی
Apache Spark با استفاده از SQL - Basic DDL و DML:
مقدمه
جداول Spark Metastore را ایجاد کنید
مروری بر انواع داده ها
افزودننظرات
بارگیری داده ها در جداول - محلی
بارگیری داده ها در جداول - HDFS
بارگیری داده - اضافه و بازنویسی
ایجاد جداول خارجی
جدول مدیریت شده در مقابل جداول خارجی
نمای کلی فرمت های فایل
جداول و پایگاه داده را رها کنید
قطع کردن جداول
تمرین - جداول مدیریت شده
Apache Spark با استفاده از SQL - DML و پارتیشن بندی:
مقدمه
مقدمه ای بر پارتیشن بندی
ایجاد جداول با استفاده از پارکت
بارگیری در مقابل درج
درج داده ها با استفاده از جدول مرحله
ایجاد جداول پارتیشن بندی شده
افزودن پارتیشن به جداول
بارگیری داده ها در جداول پارتیشن بندی شده
درج داده ها در پارتیشن ها
استفاده از حالت پارتیشن پویا
تمرین - جداول تقسیم شده
Apache Spark با استفاده از SQL - توابع از پیش تعریف شده:
مقدمه - مروری بر توابع Spark SQL
نمای کلی توابع
توابع اعتبارسنجی
توابع دستکاری رشته
توابع دستکاری تاریخ
نمای کلی توابع عددی
تبدیل نوع داده
برخورد با Nulls
استفاده از CASE و WHEN
مثال پرس و جو - تعداد کلمات
Apache Spark SQL - توابع پنجره:
مقدمه ای بر توابع پنجره
پایگاه داده منابع انسانی را آماده کنید
نمای کلی عملکردهای پنجره
تجمیع با استفاده از توابع پنجره
استفاده از LEAD یا LAG
دریافت اولین و آخرین مقادیر
رتبه بندی با استفاده از توابع پنجره
ترتیب اجرای SQL
نمای کلی سوالات فرعی
فیلتر کردن نتایج عملکرد پنجره
Apache Spark با استفاده از Python - بررسی اجمالی پردازش داده:
شروع Spark Context - pyspark
نمای کلی Spark Read APIها
درک اطلاعات خطوط هوایی
استنتاج طرحواره
پیش نمایش داده های خطوط هوایی
نمای کلی APIهای Data Frame
نمای کلی توابع
نمای کلی Spark Write API
Apache Spark با استفاده از پایتون - پردازش داده های ستون:
نمای کلی توابع از پیش تعریف شده در Spark
فریم داده ساختگی ایجاد کنید
دسته های توابع
عملکردهای ویژه - کول و روشن
توابع متداول دستکاری رشته
استخراج رشته ها با استفاده از رشته فرعی
استخراج رشته ها با استفاده از split
پرداختن نویسه‌ها در اطراف رشته‌ها
برش کاراکترها از رشته ها
توابع دستکاری تاریخ و زمان
تاریخ و زمان محاسبات
استفاده از توابع تاریخ و زمان Trunc
توابع استخراج تاریخ و زمان
استفاده از to_date و to_timestamp
استفاده از تابع date_format
برخورد با Unix Timestamp
برخورد با Nulls
استفاده از CASE و WHEN
Apache Spark با استفاده از Python - Basic Transformations :
بررسی اجمالی تحولات اساسی
فریم های داده برای تبدیل های اساسی
فیلتر اولیه داده ها
فیلتر کردن مثال با استفاده از تاریخ
اپراتورهای بولی
استفاده از عملگر IN یا تابع isin
استفاده از LIKE Operator یا like Function
استفاده از عملگر BETWEEN
برخورد با Nulls هنگام فیلتر کردن
مجموع تجمعات
داده ها را با استفاده از groupBy جمع آوری کنید
داده‌ها را با استفاده از جمع‌آوری جمع‌آوری کنید
داده ها را با استفاده از cube.cmproj جمع آوری کنید
مروری بر مرتب‌سازی فریم‌های داده
راه حل - مسئله 1 - جمع آوری کل را دریافت کنید
راه حل - مسئله 2 - جمع آوری کل بر اساس FlightDate
Apache Spark با استفاده از پایتون - پیوستن به مجموعه داده ها:
مجموعه داده ها را برای پیوستن آماده کنید
تجزیه و تحلیل مجموعه داده ها برای پیوستن
بیانات مشکل برای پیوستن
نمای کلی Joins
استفاده از اتصالات داخلی
پیوستن بیرونی چپ یا راست
راه حل - دریافت تعداد پرواز در هر فرودگاه ایالات متحده
راه حل - دریافت تعداد پرواز در هر ایالت ایالات متحده
راه حل - فرودگاه های خفته ایالات متحده را دریافت کنید
راه حل - بدون داده اصلی، Origins را دریافت کنید
راه حل - تعداد پروازها را بدون داده اصلی دریافت کنید
راه حل - تعداد پروازهای هر فرودگاه را بدون داده اصلی دریافت کنید
راه حل - درآمد روزانه دریافت کنید
راه حل - دریافت درآمد روزانه تا سالانه
Apache Spark با استفاده از Python - Spark Metastore:
نمای کلی Spark Metastore
کاوش کاتالوگ Spark
ایجاد جداول متاستور با استفاده از کاتالوگ
استنتاج طرحواره برای جداول
شما را برای جداول با استفاده از StructType تعریف کنید
درج در جداول موجود
داده ها را از جداول متاستور بخوانید و پردازش کنید
جداول پارتیشن بندی شده ایجاد کنید
ذخیره به عنوان جدول پارتیشن بندی شده
ایجاد نماهای موقت
استفاده از Spark SQL
Apache Spark - چرخه عمر توسعه برنامه:
محیط مجازی را راه اندازی کرده و Pyspark را نصب کنید
شروع با Pycharm
گذراندن آرگومان های زمان اجرا
دسترسی به متغیرهای محیط سیستم عامل
شروع با Spark
ایجاد تابع برای Spark Session
تنظیم داده های نمونه
خواندن داده ها از فایل ها
پردازش داده ها با استفاده از Spark API
داده ها را در فایل ها بنویسید
اعتبار سنجی نوشتن داده ها در فایل ها
تولید کد
تنظیم داده ها برای اعتبارسنجی تولید
اجرای برنامه با استفاده از YARN
اعتبار سنجی دقیق برنامه
Spark Application Execution Life Cycرابط کاربری le و Spark:
استقرار و نظارت بر برنامه های کاربردی Spark - مقدمه
مروری بر انواع مدیران خوشه جرقه
راه اندازی خوشه EMR با Hadoop و Spark
ظرفیت کلی Big Data Cluster با Hadoop و Spark
درک ظرفیت نخ یک خوشه سازمانی
نمای کلی Hadoop HDFS و راه اندازی YARN در خوشه چند گره
نمای کلی Spark Setup در بالای Hadoop
تنظیم مجموعه داده برای برنامه تعداد کلمات
برنامه شمارش کلمه را توسعه دهید
بررسی فرآیند استقرار برنامه Spark
نمای کلی Spark Submit Command
برای اجرای Spark Applications یا راه اندازی Pyspark CLI بین نسخه های پایتون جابجا شوید
برای اجرای Spark Applications یا راه اندازی Pyspark CLI بین نسخه های Pyspark جابه جا شوید
ویژگی‌های پیکربندی Spark را در زمان اجرا مرور کنید
Shell Script را برای اجرای Spark Application توسعه دهید
Spark Application را اجرا کنید و مجریان پیش فرض را بررسی کنید
نمای کلی رابط کاربری سرور Spark History
تنظیم پروکسی SSH برای دسترسی به گزارش‌های Spark Application:
تنظیم پروکسی SSH برای دسترسی به گزارش‌های برنامه Spark - مقدمه
نمای کلی ip های خصوصی و عمومی سرورها در خوشه
نمای کلی پروکسی SSH
sshuttle را در مک یا لینوکس راه اندازی کنید
پراکسی با استفاده از sshuttle در مک یا لینوکس
دسترسی به گزارش‌های Spark Application از طریق SSH Proxy با استفاده از sshuttle در مک یا لینوکس
عوارض جانبی استفاده از پروکسی SSH برای دسترسی به گزارش‌های برنامه Spark
مراحل راه‌اندازی پروکسی SSH در ویندوز برای دسترسی به گزارش‌های Spark Application
PuTTY و PuTTYgen را در ویندوز راه اندازی کنید
گشت سریع PuTTY در ویندوز
ورود بدون رمز عبور را با استفاده از کلیدهای PuTTYGen در ویندوز پیکربندی کنید
برنامه Spark را در Gateway Node با استفاده از PuTTY اجرا کنید
پیکربندی تونل به گره دروازه با استفاده از PuTTY در ویندوز برای پروکسی SSH
پراکسی را در ویندوز راه اندازی کنید و با استفاده از مرورگر مایکروسافت اج اعتبار سنجی کنید
درک ترافیک شبکه پروکسی غلبه بر هشدارهای ویندوز
فایل Hosts را برای گره های کارگر با استفاده از IP های خصوصی به روز کنید
با استفاده از پروکسی SSH به گزارش های برنامه Spark دسترسی پیدا کنید
نمای کلی از انجام وظایف مربوط به Spark Applications با استفاده از Mac
حالت‌های استقرار برنامه‌های Spark:
مدهای استقرار برنامه های Spark - مقدمه
نوع اصلی اجرای پیش‌فرض برای برنامه‌های Spark
Pyspark را با استفاده از حالت محلی راه اندازی کنید
اجرای برنامه های Spark با استفاده از حالت محلی
مروری بر دستورات Spark CLI مانند Pyspark
دسترسی به فایل های محلی با استفاده از Spark CLI یا Spark Applications
نمای کلی ارسال برنامه spark با استفاده از حالت استقرار مشتری
نمای کلی ارسال برنامه spark با استفاده از حالت استقرار خوشه
هنگام ارسال برنامه های Spark، گزارش پیش فرض را مرور کنید
تغییر سطح Log برنامه Spark با استفاده از خصوصیات log4j سفارشی
درخواست Spark را با استفاده از حالت مشتری با اطلاعات سطح گزارش ارسال کنید
درخواست Spark را با استفاده از حالت خوشه با اطلاعات سطح گزارش ارسال کنید
برنامه‌های Spark را با استفاده از SPARK_CONF_DIR با فایل‌های ویژگی‌های سفارشی ارسال کنید
برنامه های Spark را با استفاده از فایل Properties ارسال کنید
گذراندن فایل‌های ویژگی‌های برنامه و وابستگی‌های خارجی:
گذراندن فایل های ویژگی های برنامه و وابستگی های خارجی - مقدمه
مراحل انتقال ویژگی های برنامه با استفاده از JSON
راه اندازی دایرکتوری کاری برای ارسال ویژگی های برنامه با استفاده از JSON
JSON را با ویژگی های برنامه بسازید
API ها را برای پردازش داده های JSON با استفاده از Pyspark کاوش کنید
برای استفاده از ویژگی های JSON، کد برنامه Spark را دوباره فاکتور کنید
با استفاده از فایل‌های محلی در حالت کلاینت، ویژگی‌های برنامه را به Spark Application منتقل کنید
با استفاده از فایل‌های محلی در cluster mo، ویژگی‌های برنامه را به Spark Application منتقل کنید
با استفاده از فایل‌های HDFS، ویژگی‌های برنامه را به برنامه Spark منتقل کنید
مراحل ارسال کتابخانه های خارجی پایتون با استفاده از pyfiles
فایل YAML مورد نیاز را برای خارجی سازی ویژگی های برنامه ایجاد کنید
PyYAML را در پوشه خاصی نصب کنید و zip بسازید
API ها را برای پردازش داده های YAML با استفاده از Pyspark کاوش کنید
برای استفاده از ویژگی های YAML، کد برنامه Spark را دوباره فاکتور کنید
با استفاده از فایل‌های محلی در حالت کلاینت، وابستگی‌های خارجی را به برنامه Spark منتقل کنید
با استفاده از فایل‌های محلی در حالت خوشه، وابستگی‌های خارجی را به Spark Apps منتقل کنید
با استفاده از فایل‌های HDFS، وابستگی‌های خارجی را به برنامه Spark منتقل کنید

نمایش سرفصل های انگلیسی

Spark SQL and PySpark 3 using Python 3 (Formerly CCA175)

45,900 تومان
بیش از یک محصول به صورت دانلودی میخواهید؟ محصول را به سبد خرید اضافه کنید.
خرید دانلودی فوری

در این روش نیاز به افزودن محصول به سبد خرید و تکمیل اطلاعات نیست و شما پس از وارد کردن ایمیل خود و طی کردن مراحل پرداخت لینک های دریافت محصولات را در ایمیل خود دریافت خواهید کرد.

ایمیل شما:
تولید کننده:
شناسه: UD22903
حجم: 9572 مگابایت
مدت زمان: 1706 دقیقه
تعداد دیسک: 3 عدد
زبان: انگلیسی ساده و روان
تاریخ انتشار: 28 اسفند 1400
کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون
کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون 1
کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون 2
کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون 3
کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون 4
کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون 5
کورس کدنویسی Spark SQL and PySpark 3 در زبان پایتون 6
طراحی سایت و خدمات سئو

45,900 تومان
افزودن به سبد خرید