Đề cương khóa học

Giới thiệu về việc Phóng to Ollama

  • Kiến trúc và các yếu tố cần cân nhắc khi phóng to Ollama
  • Các chỗ hẹp thường gặp trong triển khai nhiều người dùng
  • Các thực hành tốt nhất để chuẩn bị cơ sở hạ tầng

Phân bổ tài nguyên và Tối ưu hóa GPU

  • Các chiến lược sử dụng hiệu quả CPU/GPU
  • Các yếu tố cần cân nhắc về bộ nhớ và băng thông
  • Ràng buộc tài nguyên ở cấp container

Triển khai với Containers và Kubernetes

  • Container hóa Ollama với Docker
  • Chạy Ollama trong các cụm Kubernetes
  • Cân bằng tải và phát hiện dịch vụ

Phóng to tự động và Batch

  • Thiết kế các chính sách phóng to tự động cho Ollama
  • Các kỹ thuật infer batch để tối ưu hóa tốc độ truyền dữ liệu
  • Thay đổi giữa độ trễ và tốc độ truyền dữ liệu

Tối ưu hóa độ trễ

  • Xác định hiệu suất infer
  • Các chiến lược cache và khởi động model
  • Giảm tải I/O và chi phí giao tiếp

Giữ an ninh và khả năng quan sát

  • Tích hợp Prometheus để đo lường
  • Xây dựng bảng điều khiển với Grafana
  • Cảnh báo và phản ứng sự cố cho cơ sở hạ tầng Ollama

Quản lý chi phí và các chiến lược phóng to

  • Phân bổ GPU dựa trên chi phí
  • Các yếu tố cần cân nhắc khi triển khai trên cloud và on-prem
  • Các chiến lược phóng to bền vững

Tóm lược và các bước tiếp theo

Yêu cầu

  • Kinh nghiệm quản trị hệ thống Linux
  • Hiểu biết về containerization và orchestration
  • Sự quen thuộc với triển khai mô hình học máy

Đối tượng

  • Những kỹ sư DevOps
  • Nhóm cơ sở hạ tầng ML
  • Những kỹ sư đảm bảo tính đáng tin cậy của trang web
 21 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Các khóa học sắp tới

Các danh mục liên quan