Đề cương khóa học

Giới thiệu về Tổng Hợp Ngôn Ngữ và Sao Chép Tiếng Nói

  • Tổng quan về tổng hợp âm thanh từ văn bản (TTS) và tổng hợp giọng nói bằng thần kinh
  • Sự khác biệt giữa sao chép giọng nói và tổng hợp ngôn ngữ: các trường hợp sử dụng và ranh giới
  • Các mô hình chính: Tacotron, WaveNet, FastSpeech, VITS

Làm việc với Các nền tảng Thương mại

  • Sử dụng ElevenLabs và Resemble AI
  • Tạo, sao chép và chỉnh sửa giọng nói
  • Truy cập API và quy trình làm việc tổng hợp âm thanh từ văn bản

Xây dựng với Công cụ Mở Nguồn

  • Cài đặt và cấu hình Coqui TTS
  • Huấn luyện giọng nói tùy chỉnh và quản lý tập dữ liệu
  • Tạo âm thanh với sự kiểm soát chi tiết (tần số, tốc độ, cảm xúc)

Chuẩn Bị Dữ Liệu và Tập Dữ Liệu Giọng Nói Management

  • Thu thập và làm sạch mẫu giọng nói
  • Tách, gắn nhãn và đồng bộ hóa bản ghi chép
  • Nguồn gốc đạo đức và sự đồng ý về giọng nói

Tích Hợp Ứng Dụng

  • Nhúng TTS vào trang web và ứng dụng
  • Tạo hệ thống IVR và bot tương tác
  • Tạo đối thoại tổng hợp cho video và trò chơi

Đánh Giá Chất Lượng và Hiện Thực

  • Đánh giá MOS (Điểm Ý Kiến Trung Bình) và thử nghiệm khả năng hiểu được
  • Điều khiển biểu cảm và prosody
  • So sánh độ trễ, chất lượng âm thanh và hiện thực

Xem xét về Đạo đức, Pháp lý và Go Governance

  • Nguy cơ tạo deepfake và sử dụng có trách nhiệm
  • Đồng ý, ghi nhận và tác động của bản quyền
  • Quy định và chính sách tổ chức

Tóm tắt và Bước Tiếp Theo

Requirements

  • Hiểu biết về cơ bản của học máy
  • Thạo các định dạng file âm thanh và công cụ chỉnh sửa
  • Kỹ năng lập trình cơ bản Python

Đối tượng tham gia

  • Nhà phát triển và kỹ sư AI quan tâm đến tổng hợp giọng nói
  • Người tạo nội dung và chuyên gia công nghệ truyền thông đang khám phá việc tạo giọng nói
  • Đội ngũ nghiên cứu và phát triển xây dựng hệ thống âm thanh cá nhân hóa hoặc động
 14 Hours

Number of participants


Price per participant

Provisional Upcoming Courses (Require 5+ participants)

Related Categories