Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Đề cương khóa học
Tổng quan về Công nghệ Speech Recognition
- Lịch sử và sự phát triển của nhận diện giọng nói
- Các mô hình acoustics, ngôn ngữ và giải mã
- Cấu trúc hiện đại: RNNs, transformers, và Whisper
Tiền xử lý âm thanh và cơ bản về ghi chép giọng nói
- Xử lý định dạng âm thanh và tần số mẫu
- Làm sạch, cắt ngắn và phân đoạn âm thanh
- Tạo văn bản từ âm thanh: thời gian thực so với lô hàng
Thực hành với Whisper và các API khác
- Cài đặt và sử dụng OpenAI Whisper
- Gọi cloud APIs (Google, Azure) để ghi chép giọng nói
- So sánh hiệu năng, độ trễ và chi phí
Ngôn ngữ, Miền địa phương và Điều chỉnh miền
- Làm việc với nhiều ngôn ngữ và giọng nói
- Từ vựng tùy chỉnh và sự dung thứ tiếng ồn
- Xử lý ngôn ngữ pháp luật, y tế hoặc kỹ thuật
Định dạng Xuất và Tích hợp
- Thêm thời gian đánh dấu, dấu câu và nhãn người nói
- Xuất sang định dạng văn bản, SRT hoặc JSON
- Tích hợp bản ghi chép vào ứng dụng hoặc cơ sở dữ liệu
Use Case Thực hành Lập trình
- Ghi chép cuộc họp, phỏng vấn hoặc podcast
- Hệ thống lệnh giọng nói chuyển đổi văn bản
- Chữ nổi thời gian thực cho luồng video/âm thanh
Đánh giá, Hạn chế và Đạo đức
- Chỉ số chính xác và đánh giá mô hình
- Sai lệch và công bằng trong các mô hình nhận dạng giọng nói
- Xem xét về quyền riêng tư và tuân thủ
Tổng kết và Bước tiếp theo
Requirements
- Hiểu biết về các khái niệm chung của AI và học máy
- Thành thạo với định dạng và công cụ tệp âm thanh hoặc phương tiện
Đối tượng
- Nhà khoa học dữ liệu và kỹ sư AI làm việc với dữ liệu giọng nói
- Nhà phát triển phần mềm xây dựng các ứng dụng dựa trên bản ghi âm
- Các tổ chức đang khám phá nhận dạng giọng nói cho tự động hóa
14 Hours