Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Đề cương khóa học
Giới thiệu về Tổng Hợp Ngôn Ngữ và Sao Chép Tiếng Nói
- Tổng quan về tổng hợp âm thanh từ văn bản (TTS) và tổng hợp giọng nói bằng thần kinh
- Sự khác biệt giữa sao chép giọng nói và tổng hợp ngôn ngữ: các trường hợp sử dụng và ranh giới
- Các mô hình chính: Tacotron, WaveNet, FastSpeech, VITS
Làm việc với Các nền tảng Thương mại
- Sử dụng ElevenLabs và Resemble AI
- Tạo, sao chép và chỉnh sửa giọng nói
- Truy cập API và quy trình làm việc tổng hợp âm thanh từ văn bản
Xây dựng với Công cụ Mở Nguồn
- Cài đặt và cấu hình Coqui TTS
- Huấn luyện giọng nói tùy chỉnh và quản lý tập dữ liệu
- Tạo âm thanh với sự kiểm soát chi tiết (tần số, tốc độ, cảm xúc)
Chuẩn Bị Dữ Liệu và Tập Dữ Liệu Giọng Nói Management
- Thu thập và làm sạch mẫu giọng nói
- Tách, gắn nhãn và đồng bộ hóa bản ghi chép
- Nguồn gốc đạo đức và sự đồng ý về giọng nói
Tích Hợp Ứng Dụng
- Nhúng TTS vào trang web và ứng dụng
- Tạo hệ thống IVR và bot tương tác
- Tạo đối thoại tổng hợp cho video và trò chơi
Đánh Giá Chất Lượng và Hiện Thực
- Đánh giá MOS (Điểm Ý Kiến Trung Bình) và thử nghiệm khả năng hiểu được
- Điều khiển biểu cảm và prosody
- So sánh độ trễ, chất lượng âm thanh và hiện thực
Xem xét về Đạo đức, Pháp lý và Go Governance
- Nguy cơ tạo deepfake và sử dụng có trách nhiệm
- Đồng ý, ghi nhận và tác động của bản quyền
- Quy định và chính sách tổ chức
Tóm tắt và Bước Tiếp Theo
Requirements
- Hiểu biết về cơ bản của học máy
- Thạo các định dạng file âm thanh và công cụ chỉnh sửa
- Kỹ năng lập trình cơ bản Python
Đối tượng tham gia
- Nhà phát triển và kỹ sư AI quan tâm đến tổng hợp giọng nói
- Người tạo nội dung và chuyên gia công nghệ truyền thông đang khám phá việc tạo giọng nói
- Đội ngũ nghiên cứu và phát triển xây dựng hệ thống âm thanh cá nhân hóa hoặc động
14 Hours