Đề cương khóa học

Phần 1: Giới thiệu về Hadoop

  • Lịch sử và khái niệm của Hadoop
  • Hệ sinh thái
  • Bản phân phối
  • Cấu trúc kiến trúc tổng quan
  • Thần thoại về Hadoop
  • Thách thức của Hadoop
  • Máy tính phần cứng / phần mềm
  • thực hành : cái nhìn đầu tiên về Hadoop

Phần 2: HDFS

  • Tiết kế và kiến trúc
  • Khái niệm (mở rộng ngang, sao chép dữ liệu, tính chất gần dữ liệu, nhận thức về rack)
  • Quỷ : NameNode, Secondary NameNode, Data Node
  • Giao tiếp / nhịp tim
  • Tính toàn vẹn của dữ liệu
  • Nhánh đọc / ghi
  • NameNode High Availability (HA), Liên minh
  • thực hành : Tương tác với HDFS

Phần 3: Map Reduce

  • khái niệm và kiến trúc
  • daemons (MRV1): jobtracker / tasktracker
  • các giai đoạn: driver, mapper, shuffle/sort, reducer
  • Map Reduce Phiên bản 1 và Phiên bản 2 (YARN)
  • Bên trong Map Reduce
  • Giới thiệu chương trình Map Reduce Java
  • lab: Chạy chương trình MapReduce mẫu

Phần 4: Pig

  • Pig so với Java Map Reduce
  • luồng công việc Pig
  • ngôn ngữ Pig Latin
  • ETL với Pig
  • Biến đổi & Kết nối
  • Hàm do người dùng xác định (UDF)
  • lab: viết các script Pig để phân tích dữ liệu

Phần 5: Hive

  • kiến trúc và thiết kế
  • kiểu dữ liệu
  • Hỗ trợ SQL trong Hive
  • Tạo bảng Hive và truy vấn
  • phân vùng
  • kết nối
  • xử lý văn bản
  • lab: các phòng thí nghiệm khác nhau về xử lý dữ liệu với Hive

Phần 6: HBase

  • Khái niệm và kiến trúc
  • HBase so sánh với RDBMS và Cassandra
  • HBase Java API
  • Dữ liệu chuỗi thời gian trên HBase
  • Lập kế hoạch thiết kế
  • thực hành : Tương tác với HBase sử dụng shell;   lập trình trong HBase Java API ; Bài tập thiết kế schema

Requirements

  • thành thạo ngôn ngữ lập trình Java (hầu hết các bài tập lập trình đều bằng java)
  • thành thạo môi trường Linux (có thể điều hướng dòng lệnh Linux, chỉnh sửa tệp bằng vi / nano)

Môi trường Lab

Không cần cài đặt : Học viên không cần phải cài đặt phần mềm Hadoop trên máy của mình! Một cụm Hadoop hoạt động sẽ được cung cấp cho học viên.

Sinh viên cần những điều sau

  • một SSH client (Linux và Mac đã có ssh clients, cho Windows khuyến nghị sử dụng Putty)
  • một trình duyệt để truy cập cụm, khuyến nghị sử dụng Firefox
 28 Hours

Number of participants


Price per participant

Testimonials (5)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories