Đề cương khóa học

Chương 1: Giới thiệu về Hadoop

  • Lịch sử, khái niệm của Hadoop
  • Hệ sinh thái
  • Các bản phân phối
  • Kiến trúc cấp cao
  • Những hiểu lầm về Hadoop
  • Thách thức của Hadoop
  • Phần cứng / phần mềm
  • Bài tập lab: Mục đầu tiên về Hadoop

Chương 2: HDFS

  • Thiết kế và kiến trúc
  • Khái niệm (mở rộng ngang, sao chép, tính cục bộ dữ liệu, nhận thức khay)
  • Các dịch vụ: Namenode, Secondary namenode, Data node
  • Giao tiếp / nhịp tim
  • Tính toàn vẹn của dữ liệu
  • Đường dẫn đọc / ghi
  • Namenode High Availability (HA), Liên minh
  • Bài tập lab: Tương tác với HDFS

Chương 3: Map Reduce

  • Khái niệm và kiến trúc
  • Các dịch vụ (MRV1): jobtracker, tasktracker
  • Các giai đoạn: trình điều khiển, mapper, shuffle/sort, reducer
  • Map Reduce Phiên bản 1 và Phiên bản 2 (YARN)
  • Nội bộ của Map Reduce
  • Giới thiệu về chương trình Java Map Reduce
  • Bài tập lab: Chạy một chương trình MapReduce mẫu

Chương 4: Pig

  • Pig so với Java Map Reduce
  • Lưu trình công việc của Pig
  • Ngôn ngữ Pig Latin
  • Xử lý ETL bằng Pig
  • Các phép biến đổi và nối
  • Hàm định nghĩa bởi người dùng (UDF)
  • Bài tập lab: Viết các kịch bản Pig để phân tích dữ liệu

Chương 5: Hive

  • Kiến trúc và thiết kế
  • Các kiểu dữ liệu
  • Hỗ trợ SQL trong Hive
  • Tạo bảng Hive và truy vấn
  • Phân vùng
  • Nối
  • Xử lý văn bản
  • Bài tập lab: Các bài thực hành khác nhau về xử lý dữ liệu bằng Hive

Chương 6: HBase

  • Khái niệm và kiến trúc
  • HBase so với RDBMS và Cassandra
  • API Java của HBase
  • Dữ liệu chuỗi thời gian trên HBase
  • Thiết kế lược đồ
  • Bài tập lab: Tương tác với HBase bằng shell; Lập trình trong API Java của HBase; Bài thực hành thiết kế lược đồ

Yêu cầu

  • thông thạo ngôn ngữ lập trình Java (hầu hết bài tập lập trình đều sử dụng Java)
  • làm việc dễ dàng trong môi trường Linux (có khả năng điều hướng dòng lệnh Linux, chỉnh sửa tệp bằng vi / nano)

Môi trường Lab

Không cần cài đặt : Không cần phải cài đặt phần mềm Hadoop trên máy của học viên! Một cụm Hadoop đang hoạt động sẽ được cung cấp cho học viên.

Học viên cần có:

  • một client SSH (Linux và Mac đã có client ssh, đối với Windows nên sử dụng Putty)
  • trình duyệt để truy cập cụm máy, Firefox được khuyến nghị
 28 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (5)

Các khóa học sắp tới

Các danh mục liên quan