Đề cương khóa học
-
Scala giới thiệu
- Giới thiệu nhanh về Scala
- Thực hành: Làm quen với Scala
-
Cơ bản về Spark
- Nguồn gốc và lịch sử
- Spark và Hadoop
- Khái niệm và kiến trúc Spark
- Hệ sinh thái Spark (core, spark sql, mlib, streaming)
- Thực hành: Cài đặt và chạy Spark
-
Cái nhìn đầu tiên về Spark
- Chạy Spark ở chế độ cục bộ
- Giao diện web Spark
- Spark shell
- Phân tích bộ dữ liệu – phần 1
- Kiểm tra RDD
- Thực hành: Khám phá Spark shell
-
RDD
- Khái niệm RDD
- Phân vùng
- Các phép toán / biến đổi RDD
- Các loại RDD
- RDD cặp khóa-giá trị
- MapReduce trên RDD
- Bộ nhớ đệm và lưu trữ
- Thực hành: Tạo & kiểm tra RDD; Bộ nhớ đệm RDD
-
Lập trình API Spark
- Giới thiệu API Spark / API RDD
- Chạy chương trình đầu tiên trên Spark
- Gỡ lỗi / ghi nhật ký
- Thuộc tính cấu hình
- Thực hành: Programming trong API Spark, Chạy công việc
-
Spark SQL
- Hỗ trợ SQL trong Spark
- Dataframes
- Định nghĩa bảng và nhập bộ dữ liệu
- Truy vấn dataframes bằng SQL
- Định dạng lưu trữ: JSON / Parquet
- Thực hành: Tạo và truy vấn dataframes; đánh giá định dạng dữ liệu
-
MLlib
- Giới thiệu MLlib
- Thuật toán MLlib
- Thực hành: Viết ứng dụng MLib
-
GraphX
- Tổng quan về thư viện GraphX
- API GraphX
- Thực hành: Xử lý dữ liệu đồ thị bằng Spark
-
Spark Streaming
- Tổng quan về Streaming
- Đánh giá các nền tảng Streaming
- Các phép toán Streaming
- Các phép toán cửa sổ trượt
- Thực hành: Viết ứng dụng Spark Streaming
-
Spark và Hadoop
- Giới thiệu Hadoop (HDFS / YARN)
- Kiến trúc Hadoop + Spark
- Chạy Spark trên Hadoop YARN
- Xử lý các tệp HDFS bằng Spark
-
Hiệu suất và điều chỉnh Spark
- Biến broadcast
- Bộ tích lũy
- Quản lý bộ nhớ & bộ nhớ đệm
-
Các hoạt động của Spark
- Triển khai Spark trong môi trường sản xuất
- Các mẫu triển khai
- Cấu hình
- Giám sát
- Khắc phục sự cố
Requirements
YÊU CẦU TIÊN QUYẾT
Có kiến thức cơ bản về một trong các ngôn ngữ Java / Scala / Python (các phòng thí nghiệm của chúng tôi sử dụng Scala và Python).
Hiểu biết cơ bản về môi trường phát triển Linux (điều hướng dòng lệnh / chỉnh sửa tệp bằng VI hoặc nano).
Testimonials (6)
Làm các bài tập tương tự theo nhiều cách khác nhau thực sự giúp hiểu rõ hơn về khả năng của mỗi thành phần (Hadoop/Spark, standalone/cluster) khi hoạt động riêng lẻ và cùng nhau. Điều này đã gợi ý cho tôi cách kiểm tra ứng dụng của mình trên máy cục bộ khi phát triển so với khi nó được triển khai trên một cụm.
Thomas Carcaud - IT Frankfurt GmbH
Course - Spark for Developers
Machine Translated
Ajay rất thân thiện, hữu ích và cũng am hiểu về chủ đề đang thảo luận.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Course - Spark for Developers
Machine Translated
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Course - Spark for Developers
Machine Translated
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Course - Spark for Developers
Machine Translated
We know a lot more about the whole environment.
John Kidd
Course - Spark for Developers
Machine Translated
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Course - Spark for Developers
Machine Translated