Cảm ơn bạn đã gửi yêu cầu! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cảm ơn bạn đã gửi đặt chỗ! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Đề cương khóa học
Hạ tầng EXO như mã (Infrastructure as Code)
- Tổng quan về các mô hình triển khai EXO: cụm một nút, đa nút và cụm RDMA
- Tự động hóa cài đặt các phụ thuộc (Xcode, uv, Node.js, Rust) bằng quản lý cấu hình
- Sử dụng Nix flakes cho các bản dựng EXO và môi trường nhà phát triển có thể tái lập
- Viết các playbook Ansible hoặc script shell để cung cấp cụm không tương tác
Bản dựng Tái lập và Tích hợp CI
- Chốt các phụ thuộc và xây dựng bảng điều khiển trong các đường ống CI
- Chạy các bài kiểm tra smoke (smoke tests) EXO trên GitHub Actions hoặc GitLab CI runners
- Tạo các hình ảnh chuẩn (golden images) và quy trình hoàn nguyên dựa trên ảnh chụp nhanh (snapshots) cho các VM macOS và Linux
- Phiên bản hóa các thẻ mô hình (model cards) tùy chỉnh kèm theo mã ứng dụng
Khám phá Cụm và Tự động hóa Mạng
- Định cấu hình mDNS và DNS tĩnh để khám phá nút libp2p đáng tin cậy
- Tự động hóa tạo hồ sơ mạng và quản lý cầu nối Thunderbolt trên macOS
- Sử dụng các tên miền tùy chỉnh (EXO_LIBP2P_NAMESPACE) để phân tách các cụm dev, staging và prod
- Các quy tắc tường lửa và phân đoạn mạng cho môi trường đa thuê bao
Quản lý Vòng đời Lưu trữ và Mô hình
- Thiết kế chiến lược cho EXO_MODELS_DIRS và EXO_MODELS_READ_ONLY_DIRS
- Kết nối các chia sẻ NFS hoặc SAN làm kho lưu trữ mô hình chỉ đọc để cung cấp nhanh
- Thu gom rác cho bộ nhớ đệm cũ và chính sách giữ lại trọng số có phiên bản
- Tự động hóa việc tải trước mô hình và các kiểm tra sức khỏe trước khi cập nhật tuần tự
Giám sát và Cảnh báo
- Chuyển dữ liệu log EXO đến hệ thống ghi log tập trung (ELK, Loki hoặc Splunk)
- Xây dựng các bảng điều khiển Grafana từ đầu ra EXO_TRACING_ENABLED
- Cảnh báo về thay đổi thành viên cụm, sự kiện OOM và sự tăng đột biến độ trễ suy luận
- Liên kết telemetry phần cứng macmon với sự suy giảm hiệu năng mô hình
Cập nhật, Hoàn nguyên và Phục hồi Thảm họa
- Sân khấu các bản cập nhật nhị phân EXO trên một nút Canary trước khi triển khai cho toàn bộ cụm
- Hoàn nguyên ở cấp mô hình: chuyển đổi giữa các phiên bản lượng tử hóa mà không cần tải lại
- Sao lưu và khôi phục trạng thái cụm, tên miền tùy chỉnh và trọng số đã lưu
- Soạn tài liệu các sổ tay khôi phục (runbooks) cho các kịch bản xây dựng lại toàn bộ cụm
Tăng cường Bảo mật và Tuân thủ
- Áp dụng TLS tại lớp proxy ngược (nginx, traefik) cho bảng điều khiển và API
- Cài đặt giới hạn tỷ lệ API (rate limiting) và danh sách trắng IP cho các điểm cuối EXO
- Ngăn cách các cụm bằng VLANs và các chính sách mạng zero-trust
- Kiểm toán truy cập và duy trì hồ sơ inventory của các mô hình và phiên bản đã triển khai
Yêu cầu
- Kinh nghiệm với các thực hành DevOps (CI/CD, IaC, điều phối container)
- Quen thuộc với quản trị hệ thống macOS hoặc Linux và quản lý gói
- Hiểu biết về mạng, DNS và các khái niệm lưu trữ
Đối tượng tham gia
- Kỹ sư DevOps
- Kiến trúc sư hạ tầng
- Công tác viên SRE chịu trách nhiệm cho các tải công việc AI trên-premise
21 Giờ
Đánh giá (2)
Craig tham gia vào việc đào tạo một cách cực kỳ tích cực, luôn đảm bảo chúng tôi tập trung, điều chỉnh ví dụ phù hợp với công việc hàng ngày của chúng tôi và luôn cung cấp câu trả lời khi được hỏi, thậm chí nếu thông tin đó không có trong bài trình bày.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Khóa học - DevOps Foundation®
Dịch thuật bằng máy
Mức độ cam kết và kiến thức của người hướng dẫn cao
Jacek - Softsystem
Khóa học - DevOps Engineering Foundation (DOEF)®
Dịch thuật bằng máy