Liên hệ với chúng tôi

Đề cương khóa học

Giới thiệu về EXO và clustering AI cục bộ

  • Tổng quan về khung EXO và hệ sinh thái exo-explore
  • So sánh suy luận tập trung trên đám mây vs suy luận phân tán cục bộ
  • Kiến trúc: phát hiện thiết bị libp2p, backend MLX, bảng điều khiển và các lớp API
  • Yêu cầu phần cứng: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, lưu trữ chia sẻ

Cài đặt EXO trên macOS

  • Thiết lập Xcode, Bộ công cụ Metal và các điều kiện tiên quyết trên macOS
  • Cài đặt uv, Node.js, Rust công cụ công cụ ban đêm
  • Cài đặt phiên bản macmon fork đã ghim để theo dõi Apple Silicon
  • Clone kho lưu trữ và xây dựng bảng điều khiển với npm
  • Chạy EXO từ mã nguồn và xác minh bảng điều khiển tại localhost:52415

Cài đặt EXO trên Linux

  • Cài đặt các thành phần phụ thuộc qua apt hoặc Homebrew trên Linux
  • Cấu hình uv, Node.js 18+ và Rust công cụ công cụ ban đêm
  • Xây dựng bảng điều khiển và chạy EXO ở chế độ chỉ CPU
  • Cấu trúc thư mục: đường dẫn XDG Base Directory cho config, dữ liệu, cache và logs

Phát hiện thiết bị tự động và hình thành cụm

  • Hiểu cơ chế phát hiện tự động dựa trên libp2p trên mạng cục bộ
  • Cấu hình tên miền tùy chỉnh với EXO_LIBP2P_NAMESPACE để cách ly cụm
  • Xác minh thành viên nút trong chế độ xem cụm trên bảng điều khiển
  • Xử lý các sự cố phát hiện và vấn đề phân đoạn mạng

Bật RDMA qua Thunderbolt 5

  • Kiến trúc RDMA và tuyên bố giảm 99% độ trễ
  • Bật RDMA trong chế độ khôi phục macOS với rdma_ctl
  • Yêu cầu cáp và ràng buộc cấu hình cổng trên Mac Studio
  • Đồng bộ phiên bản macOS trên tất cả các nút cụm
  • Xử lý sự cố phát hiện RDMA và cấu hình DHCP

Triển khai các mô hình tiên tiến

  • Sử dụng bảng điều khiển để tải và phân mảnh các mô hình DeepSeek v3.1, Qwen3-235B và gia đình Llama
  • Xem trước vị trí instance với điểm cuối API /instance/previews
  • Tạo instance mô hình với phân mảnh theo đường ống hoặc tensor song song
  • Cấu hình các thẻ mô hình tùy chỉnh từ HuggingFace hub

Giám sát và xử lý sự cố

  • Đọc log EXO và hiểu về truy vết phân tán
  • Diễn giải tình trạng cụm trong chế độ xem cụm trên bảng điều khiển
  • Chẩn đoán sự cố nút worker và hành vi kết nối lại
  • Sử dụng EXO_TRACING_ENABLED để phân tích nút cổ chai hiệu năng

Bảo trì và cập nhật cụm

  • Cập nhật các nhị phân EXO và quy trình xây dựng lại bảng điều khiển
  • Di chuyển cache mô hình và quản lý các mô hình tải trước qua NFS
  • Loại bỏ nút một cách thanh lịch và cân bằng tải lại

Yêu cầu

  • Hiểu biết về các nguyên lý cơ bản về mạng (IP, phân đoạn subnet, tường lửa)
  • Kinh nghiệm với quản trị dòng lệnh trên macOS hoặc Linux
  • Thông thạo việc quản lý gói Python (pip/uv) và công cụ Node.js

Đối tượng

  • Quản trị viên hệ thống
  • Kỹ sư DevOps
  • Kiến trúc sư hạ tầng AI chịu trách nhiệm triển khai LLM trên-premise
 21 Giờ

Số người tham gia


Giá cho mỗi học viên

Các khóa học sắp tới

Các danh mục liên quan