Đề cương khóa học

Section 1: Giới thiệu về Hadoop

  • Lịch sử và khái niệm của Hadoop
  • Hệ sinh thái
  • Các phiên bản phân phối
  • Cấu trúc tổng quát
  • Thần thoại về Hadoop
  • Thách thức của Hadoop
  • Máy chủ / Phần mềm
  • Bài tập lab: Nhìn lướt qua Hadoop lần đầu tiên

Section 2: HDFS

  • Tiết kế và kiến trúc
  • Kiến thức cơ bản (mở rộng theo chiều ngang, sao chép dữ liệu, tính chất địa phương của dữ liệu, nhận biết kệ)
  • Quái vật: NameNode, Secondary NameNode, Data Node
  • Trao đổi thông tin / Đánh nhịp tim
  • Chính xác dữ liệu
  • Nhận và ghi dữ liệu
  • NameNode sẵn sàng cao (HA), Liên minh
  • Bài tập lab: Tương tác với HDFS

Section 3 : Map Reduce

  • Kiến thức cơ bản và kiến trúc
  • Quái vật (MRV1): JobTracker / TaskTracker
  • Các giai đoạn: Driver, Mapper, Shuffle/Sort, Reducer
  • Bản đồ Reduce Phiên Bản 1 và Phiên Bản 2 (YARN)
  • Nội bộ của Map Reduce
  • Giới thiệu về chương trình Java Map Reduce
  • Bài tập lab: Chạy một chương trình mẫu MapReduce

Section 4 : Pig

  • Pig so với Java Map Reduce
  • Quá trình công việc của Pig
  • Lập trình Pig Latin
  • ETL bằng Pig
  • Biến đổi và nối dữ liệu
  • Hàm định nghĩa bởi người dùng (UDF)
  • Bài tập lab: Viết các kịch bản Pig để phân tích dữ liệu

Section 5: Hive

  • Cấu trúc và thiết kế
  • Kiểu dữ liệu
  • Hỗ trợ SQL trong Hive
  • Tạo bảng Hive và truy vấn
  • Phân vùng
  • Nối dữ liệu
  • Xử lý văn bản
  • Bài tập lab: Các bài tập khác nhau về xử lý dữ liệu bằng Hive

Section 6: HBase

  • Kiến thức cơ bản và kiến trúc
  • HBase so với RDBMS so với Cassandra
  • HBase API Java
  • Dữ liệu chuỗi thời gian trên HBase
  • Lập kế hoạch cơ sở dữ liệu
  • Bài tập lab: Tương tác với HBase bằng Shell; Lập trình trong HBase Java API; Bài tập thiết kế cơ sở dữ liệu

Requirements

  • quen thuộc với ngôn ngữ lập trình Java (hầu hết các bài tập lập trình đều bằng Java)
  • quen thuộc với môi trường Linux (có thể điều hướng dòng lệnh Linux, chỉnh sửa tệp tin sử dụng vi / nano)

Môi trường Lab

Không cần cài đặt : Học viên không cần phải cài đặt phần mềm Hadoop trên máy của mình! Một cụm Hadoop hoạt động sẽ được cung cấp cho học viên.

Học viên sẽ cần các điều sau:

  • một trình SSH (Windows có thể dùng Putty, còn Linux và Mac đã tích hợp sẵn ssh client)
  • một trình duyệt để truy cập cụm, khuyến nghị sử dụng Firefox
 28 Hours

Number of participants


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories