Đề cương khóa học

Giới thiệu:

  • Apache Spark trong Hệ sinh thái Hadoop
  • Giới thiệu ngắn gọn về Python, Scala

Cơ bản (lý thuyết):

  • Kiến trúc
  • RDD
  • Biến đổi và Hành động
  • Giai đoạn, Tác vụ, Phụ thuộc

Sử dụng môi trường Databricks để hiểu các khái niệm cơ bản (workshop thực hành):

  • Bài tập sử dụng API RDD
  • Các hàm hành động và biến đổi cơ bản
  • PairRDD
  • Join
  • Chiến lược Cache
  • Bài tập sử dụng API DataFrame
  • SparkSQL
  • DataFrame: chọn, lọc, nhóm, sắp xếp
  • UDF (Hàm do người dùng định nghĩa)
  • Tìm hiểu API DataSet
  • Streaming

Sử dụng môi trường AWS để hiểu về triển khai (workshop thực hành):

  • Cơ bản về AWS Glue
  • Hiểu sự khác biệt giữa AWS EMR và AWS Glue
  • Ví dụ về các công việc trên cả hai môi trường
  • Hiểu ưu và nhược điểm

Thêm:

  • Giới thiệu về Apache Airflow điều phối

Requirements

Kỹ năng lập trình (ưu tiên Python, Scala)

SQL kiến thức cơ bản

 21 Hours

Number of participants


Price per participant

Testimonials (3)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories