Cảm ơn bạn đã gửi yêu cầu! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cảm ơn bạn đã gửi đặt chỗ! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Đề cương khóa học
Giới thiệu:
- Apache Spark trong Hệ sinh thái Hadoop
- Giới thiệu ngắn gọn về Python, Scala
Cơ bản (lý thuyết):
- Kiến trúc
- RDD
- Biến đổi và Hành động
- Giai đoạn, Tác vụ, Phụ thuộc
Sử dụng môi trường Databricks để hiểu các khái niệm cơ bản (workshop thực hành):
- Bài tập sử dụng API RDD
- Các hàm hành động và biến đổi cơ bản
- PairRDD
- Join
- Chiến lược Cache
- Bài tập sử dụng API DataFrame
- SparkSQL
- DataFrame: chọn, lọc, nhóm, sắp xếp
- UDF (Hàm do người dùng định nghĩa)
- Tìm hiểu API DataSet
- Streaming
Sử dụng môi trường AWS để hiểu về triển khai (workshop thực hành):
- Cơ bản về AWS Glue
- Hiểu sự khác biệt giữa AWS EMR và AWS Glue
- Ví dụ về các công việc trên cả hai môi trường
- Hiểu ưu và nhược điểm
Thêm:
- Giới thiệu về Apache Airflow điều phối
Yêu cầu
Kỹ năng lập trình (ưu tiên Python, Scala)
SQL kiến thức cơ bản
21 Giờ học
Đánh giá (3)
Phần thực hành / bài tập
Poornima Chenthamarakshan - Intelligent Medical Objects
Khóa học - Apache Spark in the Cloud
Dịch thuật bằng máy
1. Sự cân bằng đúng giữa các khái niệm cấp cao và chi tiết kỹ thuật. 2. Andras rất am hiểu về môn học của mình. 3. Bài tập
Steven Wu - Intelligent Medical Objects
Khóa học - Apache Spark in the Cloud
Dịch thuật bằng máy
Học về Spark Streaming, Databricks và AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Khóa học - Apache Spark in the Cloud
Dịch thuật bằng máy