Cảm ơn bạn đã gửi yêu cầu! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cảm ơn bạn đã gửi đặt chỗ! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Đề cương khóa học
Giới thiệu về việc Phóng to Ollama
- Kiến trúc và các yếu tố cần cân nhắc khi phóng to Ollama
- Các chỗ hẹp thường gặp trong triển khai nhiều người dùng
- Các thực hành tốt nhất để chuẩn bị cơ sở hạ tầng
Phân bổ tài nguyên và Tối ưu hóa GPU
- Các chiến lược sử dụng hiệu quả CPU/GPU
- Các yếu tố cần cân nhắc về bộ nhớ và băng thông
- Ràng buộc tài nguyên ở cấp container
Triển khai với Containers và Kubernetes
- Container hóa Ollama với Docker
- Chạy Ollama trong các cụm Kubernetes
- Cân bằng tải và phát hiện dịch vụ
Phóng to tự động và Batch
- Thiết kế các chính sách phóng to tự động cho Ollama
- Các kỹ thuật infer batch để tối ưu hóa tốc độ truyền dữ liệu
- Thay đổi giữa độ trễ và tốc độ truyền dữ liệu
Tối ưu hóa độ trễ
- Xác định hiệu suất infer
- Các chiến lược cache và khởi động model
- Giảm tải I/O và chi phí giao tiếp
Giữ an ninh và khả năng quan sát
- Tích hợp Prometheus để đo lường
- Xây dựng bảng điều khiển với Grafana
- Cảnh báo và phản ứng sự cố cho cơ sở hạ tầng Ollama
Quản lý chi phí và các chiến lược phóng to
- Phân bổ GPU dựa trên chi phí
- Các yếu tố cần cân nhắc khi triển khai trên cloud và on-prem
- Các chiến lược phóng to bền vững
Tóm lược và các bước tiếp theo
Yêu cầu
- Kinh nghiệm quản trị hệ thống Linux
- Hiểu biết về containerization và orchestration
- Sự quen thuộc với triển khai mô hình học máy
Đối tượng
- Những kỹ sư DevOps
- Nhóm cơ sở hạ tầng ML
- Những kỹ sư đảm bảo tính đáng tin cậy của trang web
21 Giờ học