Đề cương khóa học

Giới thiệu về Đa phương thức của Gemini 3

  • Khả năng xử lý văn bản, hình ảnh, âm thanh và video
  • Chọn mô hình và tổng quan về điểm kết nối
  • Các khái niệm chính trong suy luận đa phương thức

Làm việc với Văn bản và Đầu vào Cấu trúc

  • Chiến lược kích hoạt cho việc tạo văn bản
  • Metadata, cửa sổ ngữ cảnh và embeddings
  • Orchestration dựa trên văn bản của các nhiệm vụ đa phương thức

Hiểu biết về Hình ảnh và Quy trình Visual

  • Phân tích và diễn giải hình ảnh với Gemini 3
  • Tạo công cụ tìm kiếm và gắn thẻ hình ảnh
  • Xây dựng tương tác từ hình ảnh sang văn bản và từ văn bản sang hình ảnh

Xử lý Đầu vào Âm thanh

  • Nhận dạng giọng nói và quy trình chuyển đổi âm thanh thành văn bản
  • Phát hiện và diễn giải sự kiện âm thanh
  • Tích hợp âm thanh với đầu vào văn bản và hình ảnh

Trí tuệ Video và Phân tích Cảnh

  • Suy luận video từ khung hình đến liên tục
  • Xây dựng công cụ tóm tắt và trích xuất điểm nhấn
  • Tự động hóa dựa trên video và quy trình nội dung

Thiết kế Kiến trúc Ứng dụng Đa phương thức

  • Kết hợp nhiều loại đầu vào trong một pipeline duy nhất
  • Xem xét độ trễ, chi phí và hiệu năng tính toán
  • Thực hành tốt nhất cho hệ thống đa phương thức có khả năng mở rộng

Phân loại Nguyên mẫu Ứng dụng Đa phương thức

  • Tạo nguyên mẫu đa phương thức hands-on
  • Lặp nhanh với kỹ thuật kích hoạt
  • Kiểm thử và tinh chỉnh luồng trải nghiệm người dùng

Triển khai Giải pháp Đa phương thức

  • Chiến lược triển khai và thiết lập môi trường
  • Giám sát hiệu suất thực tế
  • Xem xét an ninh và tuân thủ

Tóm tắt và Bước Tiếp theo

Yêu cầu

  • Hiểu biết về các khái niệm AI hiện đại
  • Kinh nghiệm với Python hoặc JavaScript
  • Thành thạo API REST

Đối tượng

  • Thiết kế viên
  • Người tạo nội dung
  • Đội ngũ sản phẩm kỹ thuật
 14 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (1)

Các khóa học sắp tới

Các danh mục liên quan