Cảm ơn bạn đã gửi yêu cầu! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cảm ơn bạn đã gửi đặt chỗ! Một thành viên trong đội ngũ của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Đề cương khóa học
Tổng quan về Công nghệ Nhận dạng Giọng nói
- Lịch sử và sự tiến triển của nhận dạng giọng nói
- Mô hình âm thanh, mô hình ngôn ngữ và giải mã
- Kiến trúc hiện đại: RNNs, transformers, và Whisper
Xử lý Âm thanh và Cơ bản về Chuyển đổi Văn bản
- Xử lý các định dạng âm thanh và tốc độ lấy mẫu
- Làm sạch, cắt ngắn, và phân đoạn âm thanh
- Tạo văn bản từ âm thanh: thời gian thực vs lô
Thực hành với Whisper và Các API khác
- Cài đặt và sử dụng OpenAI Whisper
- Gọi các API đám mây (Google, Azure) để chuyển đổi văn bản
- So sánh hiệu suất, độ trễ, và chi phí
Ngôn ngữ, Giọng điệu, và Phù hợp theo Lĩnh vực
- Làm việc với nhiều ngôn ngữ và giọng điệu khác nhau
- Từ điển tùy chỉnh và khả năng chịu tiếng ồn
- Xử lý ngôn ngữ pháp lý, y tế, hoặc kỹ thuật
Định dạng Đầu ra và Tích hợp
- Thêm thời gian, dấu câu, và nhãn người nói
- Xuất sang định dạng văn bản, SRT, hoặc JSON
- Tích hợp các chuyển đổi vào ứng dụng hoặc cơ sở dữ liệu
Thực hành Triển khai Trường Hợp Sử Dụng
- Chuyển đổi cuộc họp, phỏng vấn, hoặc podcast
- Hệ thống lệnh từ giọng nói sang văn bản
- Phụ đề thời gian thực cho luồng video/âm thanh
Đánh giá, Giới hạn, và Đạo đức
- Các chỉ số độ chính xác và đánh giá mô hình
- Xử lý công bằng và không thiên vị trong các mô hình giọng nói
- Xem xét về quyền riêng tư và tuân thủ pháp luật
Tóm tắt và Các Bước Tiếp theo
Yêu cầu
- Hiểu biết về các khái niệm AI và học máy nói chung
- Quen thuộc với định dạng tệp âm thanh hoặc media và các công cụ liên quan
Đối tượng
- Các nhà khoa học dữ liệu và kỹ sư AI làm việc với dữ liệu giọng nói
- Các nhà phát triển phần mềm xây dựng các ứng dụng dựa trên chuyển đổi văn bản
- Các tổ chức đang khám phá nhận dạng giọng nói cho tự động hóa
14 Giờ