Đề cương khóa học

Tổng quan về Công nghệ Speech Recognition

  • Lịch sử và sự phát triển của nhận diện giọng nói
  • Các mô hình acoustics, ngôn ngữ và giải mã
  • Cấu trúc hiện đại: RNNs, transformers, và Whisper

Tiền xử lý âm thanh và cơ bản về ghi chép giọng nói

  • Xử lý định dạng âm thanh và tần số mẫu
  • Làm sạch, cắt ngắn và phân đoạn âm thanh
  • Tạo văn bản từ âm thanh: thời gian thực so với lô hàng

Thực hành với Whisper và các API khác

  • Cài đặt và sử dụng OpenAI Whisper
  • Gọi cloud APIs (Google, Azure) để ghi chép giọng nói
  • So sánh hiệu năng, độ trễ và chi phí

Ngôn ngữ, Miền địa phương và Điều chỉnh miền

  • Làm việc với nhiều ngôn ngữ và giọng nói
  • Từ vựng tùy chỉnh và sự dung thứ tiếng ồn
  • Xử lý ngôn ngữ pháp luật, y tế hoặc kỹ thuật

Định dạng Xuất và Tích hợp

  • Thêm thời gian đánh dấu, dấu câu và nhãn người nói
  • Xuất sang định dạng văn bản, SRT hoặc JSON
  • Tích hợp bản ghi chép vào ứng dụng hoặc cơ sở dữ liệu

Use Case Thực hành Lập trình

  • Ghi chép cuộc họp, phỏng vấn hoặc podcast
  • Hệ thống lệnh giọng nói chuyển đổi văn bản
  • Chữ nổi thời gian thực cho luồng video/âm thanh

Đánh giá, Hạn chế và Đạo đức

  • Chỉ số chính xác và đánh giá mô hình
  • Sai lệch và công bằng trong các mô hình nhận dạng giọng nói
  • Xem xét về quyền riêng tư và tuân thủ

Tổng kết và Bước tiếp theo

Requirements

  • Hiểu biết về các khái niệm chung của AI và học máy
  • Thành thạo với định dạng và công cụ tệp âm thanh hoặc phương tiện

Đối tượng

  • Nhà khoa học dữ liệu và kỹ sư AI làm việc với dữ liệu giọng nói
  • Nhà phát triển phần mềm xây dựng các ứng dụng dựa trên bản ghi âm
  • Các tổ chức đang khám phá nhận dạng giọng nói cho tự động hóa
 14 Hours

Number of participants


Price per participant

Provisional Upcoming Courses (Require 5+ participants)

Related Categories