Đề cương khóa học
Giới thiệu
Cài đặt và Cấu hình Dataiku Data Science Studio (DSS)
- Yêu cầu hệ thống cho Dataiku DSS
- Thiết lập tích hợp Apache Hadoop và Apache Spark
- Cấu hình Dataiku DSS với web proxies
- Di chuyển từ các nền tảng khác sang Dataiku DSS
Tổng quan về các tính năng và kiến trúc của Dataiku DSS
- Các đối tượng và đồ thị cơ bản trong Dataiku DSS
- Cấu trúc công thức trong Dataiku DSS
- Các loại bộ dữ liệu được hỗ trợ bởi Dataiku DSS
Tạo một dự án Dataiku DSS
Định nghĩa bộ dữ liệu để kết nối với các tài nguyên dữ liệu trong Dataiku DSS
- Làm việc với các kết nối và định dạng tập tin của DSS
- Định dạng tiêu chuẩn DSS so với định dạng cụ thể cho Hadoop
- Tải lên tập tin cho một dự án Dataiku DSS
Tổng quan về hệ thống tệp máy chủ trong Dataiku DSS
Tạo và sử dụng các thư mục được quản lý
- Công thức Dataiku DSS cho thư mục hợp nhất
- Thư mục được quản lý cục bộ so với không cục bộ
Xây dựng một bộ dữ liệu hệ thống tệp bằng nội dung thư mục được quản lý
- Thực hiện các tác vụ làm sạch bằng công thức mã của DSS
Làm việc với bộ dữ liệu chỉ số và bộ dữ liệu thống kê nội bộ
Triển khai công thức tải xuống của DSS cho bộ dữ liệu HTTP
Di chuyển các bộ dữ liệu SQL và HDFS bằng DSS
Sắp xếp các bộ dữ liệu trong Dataiku DSS
- Sắp xếp ghi so với sắp xếp thời điểm đọc
Khám phá và chuẩn bị các hình ảnh dữ liệu cho một dự án Dataiku DSS
Tổng quan về các lược đồ Dataiku, loại lưu trữ và ý nghĩa
Thực hiện các kịch bản làm sạch, chuẩn hoá và tăng cường dữ liệu trong Dataiku DSS
Làm việc với giao diện đồ thị và các loại tập hợp hình ảnh của Dataiku DSS
Tận dụng tính năng thống kê tương tác của DSS
- Phân tích đơn biến so với phân tích hai biến
- Sử dụng công cụ phân tích thành phần chính (PCA) của DSS
Tổng quan về học máy với Dataiku DSS
- Học máy có giám sát so với học máy không giám sát
- Tham khảo các thuật toán học máy và xử lý tính năng của DSS
- Học sâu với Dataiku DSS
Tổng quan về luồng xuất phát từ các bộ dữ liệu và công thức của DSS
Chuyển đổi các bộ dữ liệu hiện có trong DSS bằng công thức hình ảnh
Tận dụng các công thức DSS dựa trên mã được người dùng định nghĩa
Tối ưu hóa khám phá và thử nghiệm mã với các sổ ghi chú mã của DSS
Viết các hình ảnh trực quan và tính năng giao diện người dùng tùy chỉnh với Webapps
Làm việc với tính năng báo cáo mã của Dataiku DSS
Chia sẻ các thành phần dự án dữ liệu và làm quen với bảng điều khiển DSS
Thiết kế và gói một dự án Dataiku DSS thành một ứng dụng có thể sử dụng lại
Tổng quan về các phương pháp nâng cao trong Dataiku DSS
- Triển khai phân vùng bộ dữ liệu tối ưu bằng DSS
- Thực hiện các phần xử lý cụ thể của DSS thông qua các tính toán trong các container Kubernetes
Tổng quan về hợp tác và kiểm soát phiên bản trong Dataiku DSS
Triển khai các kịch bản tự động hóa, chỉ số và kiểm tra cho kiểm tra dự án DSS
Triển khai và cập nhật một dự án với nút tự động hóa và gói của DSS
Làm việc với các API thời gian thực trong Dataiku DSS
- Các API và API REST bổ sung trong DSS
Phân tích và dự báo chuỗi thời gian của Dataiku DSS
Bảo mật một dự án trong Dataiku DSS
- Quản lý quyền hạn dự án và ủy quyền bảng điều khiển
- Triển khai các tùy chọn bảo mật nâng cao
Tích hợp Dataiku DSS với Cloud
Khắc phục sự cố
Tổng kết và kết luận
Requirements
- Kiến thức về các ngôn ngữ lập trình Python, SQL, và R
- Kiến thức cơ bản về xử lý dữ liệu với Apache Hadoop và Spark
- Hiểu về các khái niệm học máy và các mô hình dữ liệu
- Nền tảng về các phân tích thống kê và các khái niệm khoa học dữ liệu
- Kiến thức về việc trực quan hóa và truyền đạt dữ liệu
Đối Tượng Học Viên
- Kỹ sư
- Nhà khoa học dữ liệu
- Nhà phân tích dữ liệu