Đề cương khóa học

Tổng quan về Công nghệ Nhận dạng Giọng nói

  • Lịch sử và sự tiến triển của nhận dạng giọng nói
  • Mô hình âm thanh, mô hình ngôn ngữ và giải mã
  • Kiến trúc hiện đại: RNNs, transformers, và Whisper

Xử lý Âm thanh và Cơ bản về Chuyển đổi Văn bản

  • Xử lý các định dạng âm thanh và tốc độ lấy mẫu
  • Làm sạch, cắt ngắn, và phân đoạn âm thanh
  • Tạo văn bản từ âm thanh: thời gian thực vs lô

Thực hành với Whisper và Các API khác

  • Cài đặt và sử dụng OpenAI Whisper
  • Gọi các API đám mây (Google, Azure) để chuyển đổi văn bản
  • So sánh hiệu suất, độ trễ, và chi phí

Ngôn ngữ, Giọng điệu, và Phù hợp theo Lĩnh vực

  • Làm việc với nhiều ngôn ngữ và giọng điệu khác nhau
  • Từ điển tùy chỉnh và khả năng chịu tiếng ồn
  • Xử lý ngôn ngữ pháp lý, y tế, hoặc kỹ thuật

Định dạng Đầu ra và Tích hợp

  • Thêm thời gian, dấu câu, và nhãn người nói
  • Xuất sang định dạng văn bản, SRT, hoặc JSON
  • Tích hợp các chuyển đổi vào ứng dụng hoặc cơ sở dữ liệu

Thực hành Triển khai Trường Hợp Sử Dụng

  • Chuyển đổi cuộc họp, phỏng vấn, hoặc podcast
  • Hệ thống lệnh từ giọng nói sang văn bản
  • Phụ đề thời gian thực cho luồng video/âm thanh

Đánh giá, Giới hạn, và Đạo đức

  • Các chỉ số độ chính xác và đánh giá mô hình
  • Xử lý công bằng và không thiên vị trong các mô hình giọng nói
  • Xem xét về quyền riêng tư và tuân thủ pháp luật

Tóm tắt và Các Bước Tiếp theo

Yêu cầu

  • Hiểu biết về các khái niệm AI và học máy nói chung
  • Quen thuộc với định dạng tệp âm thanh hoặc media và các công cụ liên quan

Đối tượng

  • Các nhà khoa học dữ liệu và kỹ sư AI làm việc với dữ liệu giọng nói
  • Các nhà phát triển phần mềm xây dựng các ứng dụng dựa trên chuyển đổi văn bản
  • Các tổ chức đang khám phá nhận dạng giọng nói cho tự động hóa
 14 Giờ

Số người tham gia


Giá cho mỗi học viên

Các khóa học sắp tới

Các danh mục liên quan