Đề cương khóa học

Giới thiệu về AIOps

  • AIOps là gì và tại sao nó quan trọng
  • Giám sát truyền thống so với khả năng quan sát được thúc đẩy bởi AIOps
  • Kiến trúc AIOps và các thành phần chính

Thu thập và chuẩn hóa dữ liệu hoạt động

  • Các loại dữ liệu khả năng quan sát: chỉ số, nhật ký, và dấu vết
  • Nhập dữ liệu từ nhiều nguồn (máy chủ, container, cloud)
  • Sử dụng các agent và exporter (Prometheus, Beats, Fluentd)

Liên kết dữ liệu và phát hiện dị thường

  • Liên kết chuỗi thời gian và các phương pháp thống kê
  • Sử dụng mô hình ML để phát hiện dị thường
  • Phát hiện sự cố trong hệ thống phân tán

Cảnh báo và giảm tiếng ồn

  • Thiết kế các quy tắc và ngưỡng cảnh báo thông minh
  • Dồn, loại bỏ trùng lặp, và nhóm cảnh báo
  • Tích hợp với Alertmanager, Slack, PagerDuty, hoặc Opsgenie

Phân tích nguyên nhân gốc rễ và trực quan hóa

  • Sử dụng bảng điều khiển để trực quan hóa chỉ số và phát hiện xu hướng
  • Khám phá các sự kiện và đường thời gian cho phân tích nguyên nhân gốc rễ (RCA)
  • Theo dõi vấn đề qua các lớp với công cụ theo dõi phân tán

Tự động hóa và khắc phục sự cố

  • Kích hoạt các kịch bản hoặc quy trình tự động từ sự cố
  • Tích hợp với hệ thống ITSM (ServiceNow, Jira)
  • Trường hợp sử dụng: tự chữa lỗi, mở rộng, chuyển hướng lưu lượng

Nền tảng AIOps nguồn mở và thương mại

  • Tổng quan về các công cụ: Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • Tiêu chí đánh giá để chọn nền tảng AIOps
  • Demo và thực hành với stack được chọn

Tổng kết và các bước tiếp theo

Yêu cầu

  • Hiểu biết về hoạt động IT và các khái niệm giám sát hệ thống
  • Kinh nghiệm sử dụng công cụ hoặc bảng điều khiển giám sát
  • Quen thuộc với định dạng cơ bản của nhật ký và chỉ số

Đối tượng học viên

  • Các đội ngũ vận hành chịu trách nhiệm về cơ sở hạ tầng và ứng dụng
  • Kỹ sư Độ tin cậy trang web (SREs)
  • Đội ngũ giám sát và khả năng quan sát IT
 14 Giờ

Số người tham gia


Giá cho mỗi học viên

Các khóa học sắp tới

Các danh mục liên quan