Liên hệ với chúng tôi

Đề cương khóa học

Các nguyên tắc cơ bản về triển khai Tencent Hunyuan trong sản xuất

  • Tổng quan về các kịch bản phục vụ mô hình Tencent Hunyuan
  • Đặc điểm trong sản xuất của các mô hình quy mô lớn và MoE
  • Các nút thắt cổ chai phổ biến về độ trễ, thông lượng và chi phí
  • Xác định các mục tiêu về mức độ dịch vụ (SLO) cho các khối lượng công việc suy luận

Kiến trúc triển khai và luồng phục vụ

  • Các thành phần cốt lõi của ngăn xếp suy luận sản xuất
  • Lựa chọn giữa các mô hình triển khai đóng gói container, tại chỗ và đám mây
  • Cơ sở về tải mô hình, định tuyến yêu cầu và phân bổ GPU
  • Thiết kế nhằm đảm bảo độ tin cậy và tính đơn giản trong vận hành

Tối ưu hóa độ trễ trong thực tế

  • Sử dụng các công cụ suy luận được tối ưu hóa như TensorRT khi có thể áp dụng
  • Các khái niệm về KV-cache và tinh chỉnh bộ nhớ đệm thực tế
  • Giảm chi phí khởi động, làm nóng và phản hồi
  • Đo lường thời gian đến token đầu tiên và tốc độ tạo token

Thông lượng, Gộp nhóm (Batching) và hiệu quả GPU

  • Các chiến lược gộp nhóm liên tục và gộp nhóm yêu cầu
  • Quản lý đồng thời và hành vi của hàng đợi
  • Cải thiện hiệu suất sử dụng GPU mà không làm tổn hại đến trải nghiệm người dùng
  • Xử lý các yêu cầu có ngữ cảnh dài và khối lượng công việc hỗn hợp

Lượng tử hóa và kiểm soát chi phí

  • Tầm quan trọng của lượng tử hóa đối với việc phục vụ trong môi trường sản xuất
  • Sự đánh đổi thực tế giữa các lựa chọn độ chính xác phổ biến như FP16, INT8 và các định dạng khác
  • Cân bằng giữa chất lượng mô hình, độ trễ và chi phí cơ sở hạ tầng
  • Xây dựng danh sách kiểm tra tối ưu hóa chi phí đơn giản

Vận hành, Giám sát và Đánh giá sự sẵn sàng

  • Các điều kiện kích hoạt tự động mở rộng quy mô cho các dịch vụ suy luận
  • Giám sát độ trễ, thông lượng, mức sử dụng bộ nhớ đệm và tình trạng sức khỏe của GPU
  • Cơ sở về ghi nhật ký, cảnh báo và phản ứng sự cố
  • Xem xét một triển khai tham chiếu và xây dựng kế hoạch cải tiến

Yêu cầu

  • Hiểu biết cơ bản về quy trình triển khai và suy luận của các mô hình ngôn ngữ lớn
  • Kinh nghiệm làm việc với các container, cơ sở hạ tầng đám mây hoặc tại chỗ và các dịch vụ dựa trên API
  • Kiến thức thực hành về Python hoặc các nhiệm vụ kỹ thuật hệ thống

Đối tượng tham gia

  • Kỹ sư ML triển khai các mô hình ngôn ngữ lớn (LLMs) vào môi trường sản xuất
  • Kỹ sư nền tảng phụ trách các dịch vụ suy luận dựa trên GPU
  • Kiến trúc sư giải pháp thiết kế các nền tảng phục vụ AI có khả năng mở rộng
 14 Giờ

Số người tham gia


Giá cho mỗi học viên

Các khóa học sắp tới

Các danh mục liên quan