Đề cương khóa học

Giới thiệu về các mô hình Vision-Language

  • Tổng quan về VLMs và vai trò của chúng trong trí tuệ nhân tạo đa phương tiện
  • Các kiến trúc phổ biến: CLIP, Flamingo, BLIP, v.v.
  • Các trường hợp sử dụng: tìm kiếm, tự động tạo chú thích, hệ thống tự động, phân tích nội dung

Chuẩn bị môi trường Fine-Tuning

  • Cài đặt OpenCLIP và các thư viện VLM khác
  • Định dạng dữ liệu cho các cặp hình ảnh-văn bản
  • Các pipeline tiền xử lý cho đầu vào hình ảnh và văn bản

Fine-Tuning CLIP và các mô hình tương tự

  • Mất mát đối chiếu và không gian nhúng chung
  • Thực hành: Fine-tuning CLIP trên các bộ dữ liệu tùy chỉnh
  • Xử lý dữ liệu cụ thể và đa ngôn ngữ

Các kỹ thuật Fine-Tuning nâng cao

  • Sử dụng phương pháp LoRA và adapter để tăng hiệu quả
  • Tuning câu hỏi và chèn câu hỏi hình ảnh
  • So sánh giữa đánh giá zero-shot và fine-tuned

Đánh giá và đánh số

  • Các chỉ số cho VLMs: độ chính xác truy xuất, BLEU, CIDEr, recall
  • Chẩn đoán căn chỉnh hình ảnh-văn bản
  • Hiển thị các không gian nhúng và sai phân loại

Triển khai và ứng dụng trong thực tế

  • Xuất mô hình cho suy luận (TorchScript, ONNX)
  • Tích hợp VLMs vào các pipeline hoặc API
  • Các vấn đề về tài nguyên và mở rộng mô hình

Các trường hợp sử dụng và các tình huống thực tế

  • Phân tích và kiểm duyệt nội dung truyền thông
  • Tìm kiếm và truy xuất trong thương mại điện tử và thư viện số
  • Tương tác đa phương tiện trong robot và hệ thống tự động

Tóm lược và các bước tiếp theo

Yêu cầu

  • Hiểu biết về học sâu cho thị giác và xử lý ngôn ngữ tự nhiên (NLP)
  • Kinh nghiệm với PyTorch và các mô hình dựa trên transformer
  • Thuần hóa với kiến trúc mô hình đa mô thức

Đối tượng học

  • Kỹ sư thị giác máy tính
  • Nhà phát triển trí tuệ nhân tạo (AI)
 14 Giờ

Số người tham gia


Giá cho mỗi học viên

Các khóa học sắp tới

Các danh mục liên quan