Đề cương khóa học

Giới thiệu về nền tảng Stratio

  • Tổng quan về kiến trúc và các mô-đun chính của Stratio
  • Vai trò của Rocket và Intelligence trong vòng đời dữ liệu
  • Đăng nhập và điều hướng giao diện người dùng (UI) của Stratio

Làm việc với mô-đun Rocket

  • Nhập dữ liệu và tạo pipeline
  • Kết nối nguồn dữ liệu và cấu hình chuyển đổi
  • Sử dụng PySpark cho các tác vụ tiền xử lý trong Rocket

PySpark Cơ bản cho người dùng Stratio

  • Cấu trúc dữ liệu và hoạt động của PySpark
  • Kết cấu vòng lặp: sử dụng for, while, if/else
  • Viết hàm tùy chỉnh với def và áp dụng chúng

Sử dụng Nâng cao của Rocket với PySpark

  • Nhập dữ liệu luồng và chuyển đổi
  • Sử dụng vòng lặp và hàm trong các kịch bản batch và thời gian thực
  • Những nguyên tắc tốt nhất để tối ưu hiệu suất trong pipeline PySpark

Khám phá mô-đun Intelligence

  • Tổng quan về các tính năng mô hình dữ liệu và phân tích
  • Chọn đặc trưng, chuyển đổi và khám phá
  • Vai trò của PySpark trong phân tích tùy chỉnh và thông tin chi tiết

Tạo luồng phân tích nâng cao

  • Tạo hàm được định nghĩa bởi người dùng (UDFs) trong Intelligence
  • Áp dụng điều kiện và vòng lặp cho logic dữ liệu
  • Trường hợp sử dụng: phân đoạn, tổng hợp và dự đoán

Triển khai và Collaboration

  • Lưu trữ, xuất và tái sử dụng luồng làm việc
  • Làm việc nhóm với các thành viên khác trong đội trên Stratio
  • Xem xét kết quả đầu ra và tích hợp với công cụ phía sau

Tóm tắt và Các Bước Tiếp theo

Yêu cầu

  • Kinh nghiệm với lập trình Python
  • Hiểu biết về phân tích dữ liệu hoặc khái niệm xử lý big data
  • Kiến thức cơ bản về Apache Spark và tính toán phân tán

Đối tượng

  • Người làm công việc kỹ sư dữ liệu trên các nền tảng dựa trên Stratio
  • Nhân viên phân tích hoặc phát triển sử dụng các mô-đun Rocket và Intelligence
  • Các nhóm kỹ thuật chuyển đổi sang luồng công việc PySpark trong Stratio
 14 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (5)

Các khóa học sắp tới

Các danh mục liên quan