Cảm ơn bạn đã gửi yêu cầu! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cảm ơn bạn đã gửi đặt chỗ! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Đề cương khóa học
Giới thiệu về Tổng hợp Giọng Nói và Voice Cloning
- Tổng quan về text-to-speech (TTS) và tổng hợp giọng nói neural
- Voice cloning vs speech generation: các trường hợp sử dụng và giới hạn
- Các mô hình chính: Tacotron, WaveNet, FastSpeech, VITS
Làm việc với Nền tảng Thương mại
- Sử dụng ElevenLabs và Resemble AI
- Tạo, sao chép và chỉnh sửa giọng nói
- Truy cập API và quy trình text-to-speech
Xây dựng với Công cụ Mã Nguồn Mở
- Cài đặt và cấu hình Coqui TTS
- Đào tạo giọng nói tùy chỉnh và quản lý dữ liệu
- Tổng hợp giọng nói với kiểm soát tinh tế (giọng cao, tốc độ, cảm xúc)
Chuẩn bị Dữ liệu và Quản lý Bộ Dữ liệu Giọng Nói
- Thu thập và làm sạch mẫu giọng nói
- Phân đoạn, gắn nhãn và căn chỉnh bản ghi
- Nguồn gốc đạo đức và sự đồng ý về giọng nói
Tích hợp Ứng Dụng
- Nhúng TTS vào trang web và ứng dụng
- Tạo hệ thống IVR và bot tương tác
- Tổng hợp cuộc đối thoại tổng hợp cho video và trò chơi
Đánh giá Chất lượng và Sự Thật
- MOS (Mean Opinion Score) và các bài kiểm tra khả năng hiểu
- Kiểm soát sự biểu cảm và ngữ điệu
- So sánh độ trễ, chất lượng âm thanh và sự thật
Xem xét Đạo đức, Pháp lý và Quản trị
- Nguy cơ deepfake và việc sử dụng có trách nhiệm
- Sự đồng ý, ghi công và vấn đề bản quyền
- Quy định và chính sách tổ chức
Tóm tắt và Bước Tiếp Theo
Yêu cầu
- Hiểu biết về cơ bản của machine learning
- Thành thạo các định dạng tệp âm thanh và công cụ chỉnh sửa
- Kỹ năng lập trình Python cơ bản
Đối Tượng
- Các nhà phát triển và kỹ sư AI quan tâm đến tổng hợp giọng nói
- Người tạo nội dung và các chuyên gia công nghệ truyền thông khám phá việc tạo giọng nói
- Các đội ngũ R&D xây dựng hệ thống âm thanh cá nhân hóa hoặc động
14 Giờ