Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Đề cương khóa học
Giới thiệu:
- Apache Spark trong Hệ sinh thái Hadoop
- Giới thiệu ngắn gọn về Python, Scala
Cơ bản (lý thuyết):
- Kiến trúc
- RDD
- Biến đổi và Hành động
- Giai đoạn, Tác vụ, Phụ thuộc
Sử dụng môi trường Databricks để hiểu các khái niệm cơ bản (workshop thực hành):
- Bài tập sử dụng API RDD
- Các hàm hành động và biến đổi cơ bản
- PairRDD
- Join
- Chiến lược Cache
- Bài tập sử dụng API DataFrame
- SparkSQL
- DataFrame: chọn, lọc, nhóm, sắp xếp
- UDF (Hàm do người dùng định nghĩa)
- Tìm hiểu API DataSet
- Streaming
Sử dụng môi trường AWS để hiểu về triển khai (workshop thực hành):
- Cơ bản về AWS Glue
- Hiểu sự khác biệt giữa AWS EMR và AWS Glue
- Ví dụ về các công việc trên cả hai môi trường
- Hiểu ưu và nhược điểm
Thêm:
- Giới thiệu về Apache Airflow điều phối
Requirements
Kỹ năng lập trình (ưu tiên Python, Scala)
SQL kiến thức cơ bản
21 Hours
Testimonials (3)
Phần thực hành / bài tập
Poornima Chenthamarakshan - Intelligent Medical Objects
Course - Apache Spark in the Cloud
Machine Translated
1. Sự cân bằng đúng giữa các khái niệm cấp cao và chi tiết kỹ thuật. 2. Andras rất am hiểu về môn học của mình. 3. Bài tập
Steven Wu - Intelligent Medical Objects
Course - Apache Spark in the Cloud
Machine Translated
Học về Spark Streaming, Databricks và AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Course - Apache Spark in the Cloud
Machine Translated