Đề cương khóa học

Giới thiệu về AI đa dạng mô-đun và Ollama

  • Tổng quan về học đa dạng mô-đun
  • Những thách thức chính trong việc tích hợp giữa hình ảnh và ngôn ngữ
  • Năng lực và kiến trúc của Ollama

Cài đặt môi trường Ollama

  • Cài đặt và cấu hình Ollama
  • Làm việc với triển khai mô hình cục bộ
  • Tích hợp Ollama với Python và Jupyter

Làm việc với các đầu vào đa dạng mô-đun

  • Tích hợp văn bản và hình ảnh
  • Tích hợp âm thanh và dữ liệu có cấu trúc
  • Thiết kế các pipeline tiền xử lý

Ứng dụng hiểu văn bản

  • Trích xuất thông tin có cấu trúc từ PDF và hình ảnh
  • Kết hợp OCR với mô hình ngôn ngữ
  • Xây dựng các luồng làm việc phân tích văn bản thông minh

Trả lời câu hỏi hình ảnh (VQA)

  • Cài đặt dữ liệu và tiêu chuẩn VQA
  • Đào tạo và đánh giá các mô hình đa dạng mô-đun
  • Xây dựng các ứng dụng VQA tương tác

Thiết kế các đại lý đa dạng mô-đun

  • Các nguyên tắc thiết kế đại lý với khả năng suy luận đa dạng mô-đun
  • Kết hợp nhận thức, ngôn ngữ và hành động
  • Triển khai các đại lý cho các trường hợp sử dụng thực tế

Tích hợp và tối ưu hóa nâng cao

  • Cân chỉnh mô hình đa dạng mô-đun với Ollama
  • Tối ưu hóa hiệu suất suy luận
  • Các vấn đề về khả năng mở rộng và triển khai

Tóm lược và các bước tiếp theo

Yêu cầu

  • Hiểu rõ về các khái niệm học máy
  • Kinh nghiệm với các khung học sâu như PyTorch hoặc TensorFlow
  • Quen với xử lý ngôn ngữ tự nhiên và tính toán thị giác máy tính

Đối tượng

  • Những kỹ sư học máy
  • Những nhà nghiên cứu trí tuệ nhân tạo
  • Những nhà phát triển sản phẩm tích hợp các luồng công việc về thị giác và văn bản
 21 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Các khóa học sắp tới

Các danh mục liên quan