Đề cương khóa học

Giới thiệu về AIOps

  • AIOps là gì và tại sao nó quan trọng
  • Theo dõi truyền thống vs. khả năng quan sát được dẫn dắt bởi AIOps
  • Cấu trúc và thành phần chính của AIOps

Thu thập và chuẩn hóa dữ liệu vận hành

  • Loại dữ liệu có thể quan sát: chỉ số, nhật ký và vết
  • Nhận dữ liệu từ nhiều nguồn (máy chủ, container, đám mây)
  • Sử dụng đại lý và nhà xuất khẩu (Prometheus, Beats, Fluentd)

Correlation dữ liệu và phát hiện bất thường

  • Tương quan chuỗi thời gian và phương pháp thống kê
  • Sử dụng các mô hình ML cho phát hiện bất thường
  • Phát hiện sự cố trong hệ thống phân tán

Báo động và giảm nhiễu

  • Lập trình quy tắc thông minh báo động và ngưỡng
  • Kiểm soát, loại bỏ trùng lặp và nhóm báo động
  • Hoàn thiện với Alertmanager, Slack, PagerDuty hoặc Opsgenie

Phân tích nguyên nhân gốc rễ và trực quan hóa

  • Sử dụng bảng điều khiển để trực quan hóa chỉ số và phát hiện xu hướng
  • Tra cứu sự kiện và thời gian cho phân tích nguyên nhân gốc rễ (RCA)
  • Truy vết vấn đề qua các lớp với công cụ theo dõi phân tán

Tự động hóa và Sửa chữa

  • Khởi chạy kịch bản hoặc quy trình tự động từ sự cố
  • Hoàn thiện với hệ thống ITSM (ServiceNow, Jira)
  • Ví dụ: tự hồi phục, mở rộng, định tuyến lại lưu lượng

Công cụ nguồn mở và thương mại AIOps

  • Khái quát về công cụ: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Tiêu chí đánh giá để chọn một nền tảng AIOps
  • Hướng dẫn và thực hành với bộ đã chọn

Tóm tắt và Bước tiếp theo

Requirements

  • Có hiểu biết về vận hành IT và các khái niệm giám sát hệ thống
  • Kinh nghiệm với công cụ hoặc bảng điều khiển giám sát
  • Thành thạo định dạng cơ bản của nhật ký và chỉ số

Đối tượng

  • Các đội vận hành chịu trách nhiệm về hạ tầng và ứng dụng
  • Kỹ sư tính khả thi trang web (SREs)
  • Các nhóm giám sát và quan sát IT
 14 Hours

Number of participants


Price per participant

Provisional Upcoming Courses (Require 5+ participants)

Related Categories