Đề cương khóa học

Bài 1: Quản lý Dữ liệu trong HDFS

  • Các Định dạng Dữ liệu Khác Nhau (JSON / Avro / Parquet)
  • Các Phương án Nén
  • Masking Dữ liệu
  • Thực hành: Phân tích các định dạng dữ liệu khác nhau; kích hoạt nén

Bài 2: Pig Nâng Cao

  • Hàm Định nghĩa Người Dùng
  • Giới thiệu về Thư viện Pig (ElephantBird / Data-Fu)
  • Tải dữ liệu cấu trúc phức tạp bằng Pig
  • Tối ưu hóa Pig
  • Thực hành: Lập trình Pig nâng cao, phân tích các kiểu dữ liệu phức tạp

Bài 3: Hive Nâng Cao

  • Hàm Định nghĩa Người Dùng
  • Bảng đã nén
  • Tối ưu hóa Hiệu suất Hive
  • Thực hành: Tạo bảng đã nén, đánh giá định dạng và cấu hình bảng

Bài 4: HBase Nâng Cao

  • Mô hình Schema Nâng Cao
  • Nén dữ liệu
  • Tải dữ liệu hàng loạt
  • So sánh Bảng Rộng / Bảng Dài
  • HBase và Pig
  • HBase và Hive
  • Tối ưu hóa Hiệu suất HBase
  • Thực hành: Tối ưu hóa HBase; truy cập dữ liệu HBase từ Pig & Hive; Sử dụng Phoenix cho mô hình dữ liệu

Yêu cầu

  • thành thạo ngôn ngữ lập trình Java (hầu hết các bài tập lập trình đều sử dụng Java)
  • thành thạo môi trường Linux (có thể điều hướng dòng lệnh Linux, chỉnh sửa tệp tin bằng vi / nano)
  • có kiến thức cơ bản về Hadoop.

Môi trường Thí Nghiệm

Không Cần Cài Đặt: Học viên không cần cài đặt phần mềm Hadoop trên máy của mình! Một cụm Hadoop đang hoạt động sẽ được cung cấp cho học viên.

Học viên cần có:

 21 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (5)

Các khóa học sắp tới

Các danh mục liên quan