Đề cương khóa học

Phần 1: Data Management trong HDFS

  • Các Định Dạng Dữ Liệu Khác Nhau (JSON / Avro / Parquet)
  • Các Phương Pháp Nén
  • Mặt Nạ Dữ Liệu
  • Thực Hành: Phân tích các định dạng dữ liệu khác nhau; kích hoạt nén

Phần 2: Pig Nâng Cao

  • Hàm Định Nghĩa Bởi Người Dùng
  • Giới Thiệu về Các Thư Viện Pig (ElephantBird / Data-Fu)
  • Tải Dữ Liệu Có Cấu Trúc Phức Tạp bằng Pig
  • Tối Ưu Hóa Pig
  • Thực Hành: Lập trình Pig nâng cao, phân tích các kiểu dữ liệu phức tạp

Phần 3: Hive Nâng Cao

  • Hàm Định Nghĩa Bởi Người Dùng
  • Bảng Nén
  • Tối Ưu Hóa Hiệu Suất Hive
  • Thực Hành: tạo bảng nén, đánh giá định dạng và cấu hình bảng

Phần 4: HBase Nâng Cao

  • Mô Hình Schema Nâng Cao
  • Nén
  • Nhập Dữ Liệu Số Lượng Lớn
  • So Sánh Bảng Rộng / Bảng Cao
  • HBase và Pig
  • HBase và Hive
  • Tối Ưu Hóa Hiệu Suất HBase
  • Thực Hành: tinh chỉnh HBase; truy cập dữ liệu HBase từ Pig & Hive; Sử dụng Phoenix để mô hình hóa dữ liệu

Requirements

  • thành thạo ngôn ngữ lập trình Java (hầu hết các bài tập lập trình đều bằng java)
  • thành thạo môi trường Linux (có thể điều hướng dòng lệnh Linux, chỉnh sửa tệp bằng vi / nano)
  • có kiến thức cơ bản về Hadoop.

Môi trường Lab

Zero Install: Không cần cài đặt phần mềm hadoop trên máy của sinh viên! Một cụm hadoop hoạt động sẽ được cung cấp cho sinh viên.

Sinh viên cần những điều sau

  • một ứng dụng khách SSH (Linux và Mac đã có ứng dụng khách ssh, đối với Windows Putty được khuyến nghị)
  • một trình duyệt để truy cập cụm. Chúng tôi khuyến nghị Firefox browser
 21 Hours

Number of participants


Price per participant

Testimonials (5)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories