Liên hệ với chúng tôi

Đề cương khóa học

Hạ tầng EXO như mã (Infrastructure as Code)

  • Tổng quan về các mô hình triển khai EXO: cụm một nút, đa nút và cụm RDMA
  • Tự động hóa cài đặt các phụ thuộc (Xcode, uv, Node.js, Rust) bằng quản lý cấu hình
  • Sử dụng Nix flakes cho các bản dựng EXO và môi trường nhà phát triển có thể tái lập
  • Viết các playbook Ansible hoặc script shell để cung cấp cụm không tương tác

Bản dựng Tái lập và Tích hợp CI

  • Chốt các phụ thuộc và xây dựng bảng điều khiển trong các đường ống CI
  • Chạy các bài kiểm tra smoke (smoke tests) EXO trên GitHub Actions hoặc GitLab CI runners
  • Tạo các hình ảnh chuẩn (golden images) và quy trình hoàn nguyên dựa trên ảnh chụp nhanh (snapshots) cho các VM macOS và Linux
  • Phiên bản hóa các thẻ mô hình (model cards) tùy chỉnh kèm theo mã ứng dụng

Khám phá Cụm và Tự động hóa Mạng

  • Định cấu hình mDNS và DNS tĩnh để khám phá nút libp2p đáng tin cậy
  • Tự động hóa tạo hồ sơ mạng và quản lý cầu nối Thunderbolt trên macOS
  • Sử dụng các tên miền tùy chỉnh (EXO_LIBP2P_NAMESPACE) để phân tách các cụm dev, staging và prod
  • Các quy tắc tường lửa và phân đoạn mạng cho môi trường đa thuê bao

Quản lý Vòng đời Lưu trữ và Mô hình

  • Thiết kế chiến lược cho EXO_MODELS_DIRS và EXO_MODELS_READ_ONLY_DIRS
  • Kết nối các chia sẻ NFS hoặc SAN làm kho lưu trữ mô hình chỉ đọc để cung cấp nhanh
  • Thu gom rác cho bộ nhớ đệm cũ và chính sách giữ lại trọng số có phiên bản
  • Tự động hóa việc tải trước mô hình và các kiểm tra sức khỏe trước khi cập nhật tuần tự

Giám sát và Cảnh báo

  • Chuyển dữ liệu log EXO đến hệ thống ghi log tập trung (ELK, Loki hoặc Splunk)
  • Xây dựng các bảng điều khiển Grafana từ đầu ra EXO_TRACING_ENABLED
  • Cảnh báo về thay đổi thành viên cụm, sự kiện OOM và sự tăng đột biến độ trễ suy luận
  • Liên kết telemetry phần cứng macmon với sự suy giảm hiệu năng mô hình

Cập nhật, Hoàn nguyên và Phục hồi Thảm họa

  • Sân khấu các bản cập nhật nhị phân EXO trên một nút Canary trước khi triển khai cho toàn bộ cụm
  • Hoàn nguyên ở cấp mô hình: chuyển đổi giữa các phiên bản lượng tử hóa mà không cần tải lại
  • Sao lưu và khôi phục trạng thái cụm, tên miền tùy chỉnh và trọng số đã lưu
  • Soạn tài liệu các sổ tay khôi phục (runbooks) cho các kịch bản xây dựng lại toàn bộ cụm

Tăng cường Bảo mật và Tuân thủ

  • Áp dụng TLS tại lớp proxy ngược (nginx, traefik) cho bảng điều khiển và API
  • Cài đặt giới hạn tỷ lệ API (rate limiting) và danh sách trắng IP cho các điểm cuối EXO
  • Ngăn cách các cụm bằng VLANs và các chính sách mạng zero-trust
  • Kiểm toán truy cập và duy trì hồ sơ inventory của các mô hình và phiên bản đã triển khai

Yêu cầu

  • Kinh nghiệm với các thực hành DevOps (CI/CD, IaC, điều phối container)
  • Quen thuộc với quản trị hệ thống macOS hoặc Linux và quản lý gói
  • Hiểu biết về mạng, DNS và các khái niệm lưu trữ

Đối tượng tham gia

  • Kỹ sư DevOps
  • Kiến trúc sư hạ tầng
  • Công tác viên SRE chịu trách nhiệm cho các tải công việc AI trên-premise
 21 Giờ

Số người tham gia


Giá cho mỗi học viên

Đánh giá (2)

Các khóa học sắp tới

Các danh mục liên quan