Đề cương khóa học

1: HDFS (17%)

  • Mô tả chức năng của HDFS Daemons
  • Mô tả hoạt động thông thường của một cụm Apache Hadoop, cả về lưu trữ dữ liệu và xử lý dữ liệu.
  • Xác định các tính năng hiện tại của hệ thống máy tính thúc đẩy sự cần thiết của một hệ thống như Apache Hadoop.
  • Phân loại các mục tiêu chính trong thiết kế HDFS
  • Trong một tình huống cụ thể, xác định trường hợp sử dụng phù hợp cho HDFS Federation
  • Xác định các thành phần và daemon của cụm HDFS HA-Quorum
  • Phân tích vai trò của bảo mật HDFS (Kerberos)
  • Xác định lựa chọn tốt nhất cho việcerial hóa dữ liệu trong một tình huống cụ thể
  • Mô tả các đường dẫn đọc và ghi tệp tin
  • Xác định các lệnh để thao tác với tập tin trong Hadoop File System Shell

2: YARN và MapReduce phiên bản 2 (MRv2) (17%)

  • Hiểu cách nâng cấp cụm từ Hadoop 1 sang Hadoop 2 ảnh hưởng đến cài đặt cụm
  • Hiểu cách triển khai MapReduce v2 (MRv2 / YARN), bao gồm tất cả daemon của YARN
  • Hiểu chiến lược thiết kế cơ bản cho MapReduce v2 (MRv2)
  • Xác định cách YARN xử lý phân bổ tài nguyên
  • Xác định quy trình làm việc của công việc MapReduce chạy trên YARN
  • Xác định các tệp cần thay đổi và cách để di chuyển cụm từ phiên bản 1 (MRv1) sang phiên bản 2 (MRv2) chạy trên YARN.

3: Kế hoạch Cụm Hadoop (16%)

  • Các điểm chính cần xem xét khi lựa chọn phần cứng và hệ điều hành để chủ trì một cụm Apache Hadoop.
  • Phân tích các lựa chọn trong việc chọn Hệ Điều Hành
  • Hiểu cách tinh chỉnh nhân và tráo đĩa
  • Trong một tình huống cụ thể và mẫu mô hình công việc, xác định cấu hình phần cứng phù hợp với tình huống
  • Trong một tình huống cụ thể, xác định các thành phần hệ sinh thái mà cụm cần chạy để đáp ứng SLA
  • Kích thước cụm: trong một tình huống cụ thể và tần suất thực thi, xác định chi tiết cho công việc, bao gồm CPU, bộ nhớ, lưu trữ, I/O đĩa
  • Kích thước và Cấu hình Đĩa, bao gồm JBOD so với RAID, SANs, ảo hóa, và yêu cầu kích thước đĩa trong cụm
  • Mô hình mạng: hiểu cách sử dụng mạng trong Hadoop (cả HDFS và MapReduce) và đề xuất hoặc xác định các thành phần thiết kế mạng quan trọng cho một tình huống cụ thể

4: Cài đặt và Quản lý Cụm Hadoop (25%)

  • Trong một tình huống cụ thể, xác định cách cụm sẽ xử lý lỗi đĩa và máy chủ
  • Phân tích cấu hình ghi log và định dạng tệp cấu hình ghi log
  • Hiểu cơ bản về chỉ số Hadoop và giám sát sức khỏe cụm
  • Xác định chức năng và mục đích của các công cụ có sẵn để theo dõi cụm
  • Có khả năng cài đặt tất cả các thành phần hệ sinh thái trong CDH 5, bao gồm (nhưng không giới hạn ở): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive, và Pig
  • Xác định chức năng và mục đích của các công cụ có sẵn để quản lý Hệ thống tệp tin Apache Hadoop

5: Tài nguyên Management (10%)

  • Hiểu các mục tiêu thiết kế tổng thể của từng scheduler trong Hadoop
  • Trong một tình huống cụ thể, xác định cách scheduler FIFO phân bổ tài nguyên cụm
  • Trong một tình huống cụ thể, xác định cách Fair Scheduler phân bổ tài nguyên cụm dưới YARN
  • Trong một tình huống cụ thể, xác định cách Capacity Scheduler phân bổ tài nguyên cụm

6: Theo dõi và ghi log (15%)

  • Hiểu các chức năng và tính năng của khả năng thu thập chỉ số của Hadoop
  • Phân tích Web UIs của NameNode và JobTracker
  • Hiểu cách theo dõi các daemon cụm
  • Xác định và giám sát việc sử dụng CPU trên các nút chính
  • Mô tả cách theo dõi việc tráo đổi bộ nhớ và phân bổ bộ nhớ trên tất cả các nút
  • Xác định cách xem và quản lý các tệp log của Hadoop
  • Giải thích một tệp log

Requirements

  • Kỹ năng quản trị cơ bản Linux
  • Kỹ năng lập trình cơ bản
 35 Hours

Number of participants


Price per participant

Testimonials (3)

Upcoming Courses

Related Categories