Đề cương khóa học

Giới thiệu

  • Quy trình Khoa học Dữ liệu
  • Vai trò và trách nhiệm của một Chuyên gia Khoa học Dữ liệu

Chuẩn bị Môi trường Phát triển

  • Thư viện, framework, ngôn ngữ và công cụ
  • Phát triển cục bộ
  • Phát triển dựa trên web hợp tác

Thu thập Dữ liệu

  • Các Loại Dữ liệu khác nhau
    • Cấu trúc hóa
      • Cơ sở dữ liệu cục bộ
      • Bộ kết nối cơ sở dữ liệu
      • Định dạng phổ biến: xlxs, XML, Json, csv, ...
    • Không cấu trúc hóa
      • Clicks, cảm biến, điện thoại thông minh
      • APIs
      • Internet of Things (IoT)
      • Văn bản, hình ảnh, video, âm thanh
  • Trường hợp nghiên cứu: Thu thập lượng lớn dữ liệu không cấu trúc liên tục

Lưu trữ Dữ liệu

  • Cơ sở dữ liệu quan hệ
  • Cơ sở dữ liệu không quan hệ
  • Hadoop: Hệ thống tệp phân tán (HDFS)
  • Spark: Bộ dữ liệu phân tán bền bỉ (RDD)
  • Lưu trữ trên đám mây

Xử lý Dữ liệu

  • Nhập dữ liệu, chọn lọc, làm sạch và chuyển đổi
  • Đảm bảo chất lượng dữ liệu - độ chính xác, ý nghĩa và bảo mật
  • Báo cáo ngoại lệ

Ngôn ngữ sử dụng cho Xử lý, Chuyển đổi và Phân tích Dữ liệu

  • Ngôn ngữ R
    • Giới thiệu về R
    • Xử lý dữ liệu, tính toán và hiển thị đồ họa
  • Ngôn ngữ Python
    • Giới thiệu về Python
    • Xử lý, làm sạch và phân tích dữ liệu

Phân tích Dữ liệu

  • Phân tích khám phá
    • Thống kê cơ bản
    • Dự thảo trực quan hóa
    • Hiểu dữ liệu
  • Nhân quả
  • Đặc trưng và chuyển đổi
  • Học máy
    • Giám sát vs không giám sát
    • Khi nào sử dụng mô hình nào
  • Xử lý Ngôn ngữ Tự nhiên (NLP)

Trực quan hóa Dữ liệu

  • Thực hành tốt nhất
  • Chọn biểu đồ phù hợp cho dữ liệu
  • Bộ màu sắc
  • Nâng cao hơn nữa
    • Bảng điều khiển
    • Trực quan hóa tương tác
  • Kể chuyện bằng dữ liệu

Tóm tắt và Kết luận

Yêu cầu

  • Hiểu biết chung về các khái niệm cơ sở dữ liệu
  • Hiểu biết cơ bản về thống kê
 35 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (1)

Các khóa học sắp tới

Các danh mục liên quan