Cảm ơn bạn đã gửi yêu cầu! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cảm ơn bạn đã gửi đặt chỗ! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Đề cương khóa học
Chủ quyền AI và Triển khai LLM tại chỗ
- Rủi ro của L đám mây: lưu trữ dữ liệu, huấn luyện trên đầu vào, tài phán nước ngoài.
- Kiến trúc Ollama: máy chủ mô hình, kho lưu trữ và API tương thích OpenAI.
- So sánh với vLLM, llama.cpp và Text Generation Inference.
- Giấy phép mô hình: Điều khoản của Llama, Mistral, Qwen và Gemma.
Cài đặt và Thiết lập Phần cứng
- Cài đặt Ollama trên Linux với hỗ trợ CUDA và ROCm.
- Phương án dự phòng chỉ sử dụng CPU và tối ưu hóa AVX/AVX2.
- Triển khai Docker và ánh xạ ổ đĩa vĩnh viễn.
- Thiết lập đa GPU và các chiến lược phân bổ VRAM.
Quản lý Mô hình
- Tải mô hình từ kho lưu trữ Ollama: ollama pull llama3.
- Nhập các mô hình GGUF từ HuggingFace và TheBloke.
- Các mức lượng hóa: sự đánh đổi giữa Q4_K_M, Q5_K_M và Q8_0.
- Chuyển đổi mô hình và giới hạn tải đồng thời nhiều mô hình.
Tệp Mô hình Tùy chỉnh (Custom Modelfiles)
- Cú pháp viết tệp Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Tinh chỉnh nhiệt độ (temperature), top_p và repeat_penalty.
- Kỹ thuật lời nhắc hệ thống (system prompt) cho hành vi theo vai trò cụ thể.
- Tạo và xuất bản các mô hình tùy chỉnh vào kho lưu trữ địa phương.
Tích hợp API
- Điểm cuối /v1/chat/completions tương thích OpenAI.
- Phản hồi luồng (streaming) và chế độ JSON.
- Tích hợp với LangChain, LlamaIndex và các ứng dụng tùy chỉnh.
- Xác thực và giới hạn tốc độ với máy chủ proxy ngược.
Tối ưu hóa Hiệu năng
- Định kích thước cửa sổ ngữ cảnh và quản lý bộ nhớ đệm KV.
- Suy luận theo lô (batch inference) và xử lý song song các yêu cầu.
- Phân bổ luồng CPU và nhận thức NUMA.
- Giám sát việc sử dụng GPU và áp lực bộ nhớ.
Bảo mật và Tuân thủ
- Cô lập mạng cho các điểm cuối phục vụ mô hình.
- Lọc đầu vào và quy trình kiểm duyệt đầu ra.
- Nhật ký kiểm toán các lời nhắc (prompts) và kết quả dự đoán.
- Nguồn gốc mô hình và xác minh băm (hash verification).
Yêu cầu
- Kiến thức trung cấp về quản trị Linux và container.
- Hiểu biết ở mức độ cao về học máy và mô hình transformer.
- Làm quen với API REST và JSON.
Đối tượng tham gia
- Kỹ sư AI và nhà phát triển muốn thay thế các API LLM đám mây.
- Các tổ chức có dữ liệu nhạy cảm, không cho phép sử dụng mô hình đám mây.
-
Đội ngũ chính phủ và quốc phòng yêu cầu sử dụng các mô hình ngôn ngữ biệt lập hoàn toàn (air-gapped).
14 Giờ