Đề cương khóa học

Giới thiệu về các mô hình Vision-Language

  • Tổng quan về VLMs và vai trò của chúng trong trí tuệ nhân tạo đa phương tiện
  • Các kiến trúc phổ biến: CLIP, Flamingo, BLIP, v.v.
  • Các trường hợp sử dụng: tìm kiếm, tự động tạo chú thích, hệ thống tự động, phân tích nội dung

Chuẩn bị môi trường Fine-Tuning

  • Cài đặt OpenCLIP và các thư viện VLM khác
  • Định dạng dữ liệu cho các cặp hình ảnh-văn bản
  • Các pipeline tiền xử lý cho đầu vào hình ảnh và văn bản

Fine-Tuning CLIP và các mô hình tương tự

  • Mất mát đối chiếu và không gian nhúng chung
  • Thực hành: Fine-tuning CLIP trên các bộ dữ liệu tùy chỉnh
  • Xử lý dữ liệu cụ thể và đa ngôn ngữ

Các kỹ thuật Fine-Tuning nâng cao

  • Sử dụng phương pháp LoRA và adapter để tăng hiệu quả
  • Tuning câu hỏi và chèn câu hỏi hình ảnh
  • So sánh giữa đánh giá zero-shot và fine-tuned

Đánh giá và đánh số

  • Các chỉ số cho VLMs: độ chính xác truy xuất, BLEU, CIDEr, recall
  • Chẩn đoán căn chỉnh hình ảnh-văn bản
  • Hiển thị các không gian nhúng và sai phân loại

Triển khai và ứng dụng trong thực tế

  • Xuất mô hình cho suy luận (TorchScript, ONNX)
  • Tích hợp VLMs vào các pipeline hoặc API
  • Các vấn đề về tài nguyên và mở rộng mô hình

Các trường hợp sử dụng và các tình huống thực tế

  • Phân tích và kiểm duyệt nội dung truyền thông
  • Tìm kiếm và truy xuất trong thương mại điện tử và thư viện số
  • Tương tác đa phương tiện trong robot và hệ thống tự động

Tóm lược và các bước tiếp theo

Yêu cầu

  • Hiểu biết về học sâu cho thị giác và xử lý ngôn ngữ tự nhiên (NLP)
  • Kinh nghiệm với PyTorch và các mô hình dựa trên transformer
  • Thuần hóa với kiến trúc mô hình đa mô thức

Đối tượng học

  • Kỹ sư thị giác máy tính
  • Nhà phát triển trí tuệ nhân tạo (AI)
 14 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Các khóa học sắp tới

Các danh mục liên quan