Đề cương khóa học

Giới thiệu về Đa phương thức của Gemini 3

  • Khả năng xử lý văn bản, hình ảnh, âm thanh và video
  • Chọn mô hình và tổng quan về điểm kết nối
  • Các khái niệm chính trong suy luận đa phương thức

Làm việc với Văn bản và Đầu vào Cấu trúc

  • Chiến lược kích hoạt cho việc tạo văn bản
  • Metadata, cửa sổ ngữ cảnh và embeddings
  • Orchestration dựa trên văn bản của các nhiệm vụ đa phương thức

Hiểu biết về Hình ảnh và Quy trình Visual

  • Phân tích và diễn giải hình ảnh với Gemini 3
  • Tạo công cụ tìm kiếm và gắn thẻ hình ảnh
  • Xây dựng tương tác từ hình ảnh sang văn bản và từ văn bản sang hình ảnh

Xử lý Đầu vào Âm thanh

  • Nhận dạng giọng nói và quy trình chuyển đổi âm thanh thành văn bản
  • Phát hiện và diễn giải sự kiện âm thanh
  • Tích hợp âm thanh với đầu vào văn bản và hình ảnh

Trí tuệ Video và Phân tích Cảnh

  • Suy luận video từ khung hình đến liên tục
  • Xây dựng công cụ tóm tắt và trích xuất điểm nhấn
  • Tự động hóa dựa trên video và quy trình nội dung

Thiết kế Kiến trúc Ứng dụng Đa phương thức

  • Kết hợp nhiều loại đầu vào trong một pipeline duy nhất
  • Xem xét độ trễ, chi phí và hiệu năng tính toán
  • Thực hành tốt nhất cho hệ thống đa phương thức có khả năng mở rộng

Phân loại Nguyên mẫu Ứng dụng Đa phương thức

  • Tạo nguyên mẫu đa phương thức hands-on
  • Lặp nhanh với kỹ thuật kích hoạt
  • Kiểm thử và tinh chỉnh luồng trải nghiệm người dùng

Triển khai Giải pháp Đa phương thức

  • Chiến lược triển khai và thiết lập môi trường
  • Giám sát hiệu suất thực tế
  • Xem xét an ninh và tuân thủ

Tóm tắt và Bước Tiếp theo

Yêu cầu

  • Hiểu biết về các khái niệm AI hiện đại
  • Kinh nghiệm với Python hoặc JavaScript
  • Thành thạo API REST

Đối tượng

  • Thiết kế viên
  • Người tạo nội dung
  • Đội ngũ sản phẩm kỹ thuật
 14 Giờ

Số người tham gia


Giá cho mỗi học viên

Đánh giá (1)

Các khóa học sắp tới

Các danh mục liên quan