Đề cương khóa học

Giới thiệu về Tổng hợp Giọng Nói và Voice Cloning

  • Tổng quan về text-to-speech (TTS) và tổng hợp giọng nói neural
  • Voice cloning vs speech generation: các trường hợp sử dụng và giới hạn
  • Các mô hình chính: Tacotron, WaveNet, FastSpeech, VITS

Làm việc với Nền tảng Thương mại

  • Sử dụng ElevenLabs và Resemble AI
  • Tạo, sao chép và chỉnh sửa giọng nói
  • Truy cập API và quy trình text-to-speech

Xây dựng với Công cụ Mã Nguồn Mở

  • Cài đặt và cấu hình Coqui TTS
  • Đào tạo giọng nói tùy chỉnh và quản lý dữ liệu
  • Tổng hợp giọng nói với kiểm soát tinh tế (giọng cao, tốc độ, cảm xúc)

Chuẩn bị Dữ liệu và Quản lý Bộ Dữ liệu Giọng Nói

  • Thu thập và làm sạch mẫu giọng nói
  • Phân đoạn, gắn nhãn và căn chỉnh bản ghi
  • Nguồn gốc đạo đức và sự đồng ý về giọng nói

Tích hợp Ứng Dụng

  • Nhúng TTS vào trang web và ứng dụng
  • Tạo hệ thống IVR và bot tương tác
  • Tổng hợp cuộc đối thoại tổng hợp cho video và trò chơi

Đánh giá Chất lượng và Sự Thật

  • MOS (Mean Opinion Score) và các bài kiểm tra khả năng hiểu
  • Kiểm soát sự biểu cảm và ngữ điệu
  • So sánh độ trễ, chất lượng âm thanh và sự thật

Xem xét Đạo đức, Pháp lý và Quản trị

  • Nguy cơ deepfake và việc sử dụng có trách nhiệm
  • Sự đồng ý, ghi công và vấn đề bản quyền
  • Quy định và chính sách tổ chức

Tóm tắt và Bước Tiếp Theo

Yêu cầu

  • Hiểu biết về cơ bản của machine learning
  • Thành thạo các định dạng tệp âm thanh và công cụ chỉnh sửa
  • Kỹ năng lập trình Python cơ bản

Đối Tượng

  • Các nhà phát triển và kỹ sư AI quan tâm đến tổng hợp giọng nói
  • Người tạo nội dung và các chuyên gia công nghệ truyền thông khám phá việc tạo giọng nói
  • Các đội ngũ R&D xây dựng hệ thống âm thanh cá nhân hóa hoặc động
 14 Giờ

Số người tham gia


Giá cho mỗi học viên

Các khóa học sắp tới

Các danh mục liên quan