Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Đề cương khóa học
Giới thiệu:
- Apache Spark trong Hệ sinh thái Hadoop
- Giới thiệu ngắn gọn về Python, Scala
Cơ bản (lý thuyết):
- Kiến trúc
- RDD
- Biến đổi và Hành động
- Giai đoạn, Tác vụ, Phụ thuộc
Sử dụng môi trường Databricks để hiểu các khái niệm cơ bản (workshop thực hành):
- Bài tập sử dụng API RDD
- Các hàm hành động và biến đổi cơ bản
- PairRDD
- Join
- Chiến lược Cache
- Bài tập sử dụng API DataFrame
- SparkSQL
- DataFrame: chọn, lọc, nhóm, sắp xếp
- UDF (Hàm do người dùng định nghĩa)
- Tìm hiểu API DataSet
- Streaming
Sử dụng môi trường AWS để hiểu về triển khai (workshop thực hành):
- Cơ bản về AWS Glue
- Hiểu sự khác biệt giữa AWS EMR và AWS Glue
- Ví dụ về các công việc trên cả hai môi trường
- Hiểu ưu và nhược điểm
Thêm:
- Giới thiệu về Apache Airflow điều phối
Requirements
Kỹ năng lập trình (ưu tiên Python, Scala)
SQL kiến thức cơ bản
21 Hours
Testimonials (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Course - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Course - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift