Đề cương khóa học

  1. Scala giới thiệu

    • Giới thiệu nhanh về Scala
    • Thực hành: Làm quen với Scala
  2. Cơ bản về Spark

    • Nguồn gốc và lịch sử
    • Spark và Hadoop
    • Khái niệm và kiến trúc Spark
    • Hệ sinh thái Spark (core, spark sql, mlib, streaming)
    • Thực hành: Cài đặt và chạy Spark
  3. Cái nhìn đầu tiên về Spark

    • Chạy Spark ở chế độ cục bộ
    • Giao diện web Spark
    • Spark shell
    • Phân tích bộ dữ liệu – phần 1
    • Kiểm tra RDD
    • Thực hành: Khám phá Spark shell
  4. RDD

    • Khái niệm RDD
    • Phân vùng
    • Các phép toán / biến đổi RDD
    • Các loại RDD
    • RDD cặp khóa-giá trị
    • MapReduce trên RDD
    • Bộ nhớ đệm và lưu trữ
    • Thực hành: Tạo & kiểm tra RDD; Bộ nhớ đệm RDD
  5. Lập trình API Spark

    • Giới thiệu API Spark / API RDD
    • Chạy chương trình đầu tiên trên Spark
    • Gỡ lỗi / ghi nhật ký
    • Thuộc tính cấu hình
    • Thực hành: Programming trong API Spark, Chạy công việc
  6. Spark SQL

    • Hỗ trợ SQL trong Spark
    • Dataframes
    • Định nghĩa bảng và nhập bộ dữ liệu
    • Truy vấn dataframes bằng SQL
    • Định dạng lưu trữ: JSON / Parquet
    • Thực hành: Tạo và truy vấn dataframes; đánh giá định dạng dữ liệu
  7. MLlib

    • Giới thiệu MLlib
    • Thuật toán MLlib
    • Thực hành: Viết ứng dụng MLib
  8. GraphX

    • Tổng quan về thư viện GraphX
    • API GraphX
    • Thực hành: Xử lý dữ liệu đồ thị bằng Spark
  9. Spark Streaming

    • Tổng quan về Streaming
    • Đánh giá các nền tảng Streaming
    • Các phép toán Streaming
    • Các phép toán cửa sổ trượt
    • Thực hành: Viết ứng dụng Spark Streaming
  10. Spark và Hadoop

    • Giới thiệu Hadoop (HDFS / YARN)
    • Kiến trúc Hadoop + Spark
    • Chạy Spark trên Hadoop YARN
    • Xử lý các tệp HDFS bằng Spark
  11. Hiệu suất và điều chỉnh Spark

    • Biến broadcast
    • Bộ tích lũy
    • Quản lý bộ nhớ & bộ nhớ đệm
  12. Các hoạt động của Spark

    • Triển khai Spark trong môi trường sản xuất
    • Các mẫu triển khai
    • Cấu hình
    • Giám sát
    • Khắc phục sự cố

Yêu cầu

YÊU CẦU TIÊN QUYẾT

Có kiến thức cơ bản về một trong các ngôn ngữ Java / Scala / Python (các phòng thí nghiệm của chúng tôi sử dụng Scala và Python).
Hiểu biết cơ bản về môi trường phát triển Linux (điều hướng dòng lệnh / chỉnh sửa tệp bằng VI hoặc nano).

 21 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (6)

Các khóa học sắp tới

Các danh mục liên quan