Đề cương khóa học
Giới thiệu Apache Iceberg
- Tổng quan về Apache Iceberg
- Xem lại các khái niệm cơ bản
Kiến thức sâu về kiến trúc Apache Iceberg
- Phân tích chi tiết về định dạng bảng của Apache Iceberg
- Tổng quan chi tiết về kiến trúc, bao gồm metadata và bố cục file
- Các thành phần bên trong của schema và sự phát triển của partition
Cài đặt và cấu hình nâng cao
- Cấu hình Apache Iceberg để tối ưu hóa hiệu suất trong các môi trường khác nhau
- Tích hợp với các công cụ xử lý dữ liệu khác nhau
- Cài đặt nâng cao: bảo mật, mã hóa và kiểm soát truy cập
- Cài đặt Apache Iceberg trong môi trường phân tán
Các hoạt động và bảo trì nâng cao
- Quản lý các bảng Apache Iceberg lớn
- Triển khai và quản lý các thay đổi schema phức tạp
- Xử lý sự phát triển của partition và partition ẩn
- Các hoạt động CRUD nâng cao với thay đổi schema và partition
Kỹ thuật tối ưu hóa truy vấn
- Các kỹ thuật để giảm độ trễ truy vấn
- Cắt partition và cắt file
- Caching metadata và các chiến lược tối ưu hóa
- Triển khai và kiểm thử các kỹ thuật tối ưu hóa truy vấn
Điều chỉnh hiệu suất cho các tập dữ liệu lớn
- Tối ưu hóa hiệu suất cho các tập dữ liệu lớn
- Sử dụng các tính năng tích hợp sẵn của Apache Iceberg để điều chỉnh hiệu suất
- Các nghiên cứu về điều chỉnh hiệu suất trong các trường hợp thực tế
- Điều chỉnh hiệu suất cho các tập dữ liệu lớn
Di chuyển và tích hợp dữ liệu nâng cao
- Di chuyển các cấu trúc dữ liệu phức tạp từ các hệ thống khác
- Tích hợp Apache Iceberg với các luồng dữ liệu thời gian thực
- Di chuyển các tập dữ liệu phức tạp và tích hợp các luồng dữ liệu thời gian thực
Độ tin cậy và nhất quán
- Đảm bảo tính nhất quán và tính toàn vẹn dữ liệu trong các môi trường phân tán
- Triển khai và quản lý các bảo đảm giao dịch
- Xử lý các sự cố và cơ chế phục hồi
- Triển khai các tính năng độ tin cậy và nhất quán
Các tính năng và tùy chỉnh nâng cao
- Triển khai catalog tùy chỉnh
- Mở rộng Apache Iceberg với các tính năng tùy chỉnh
- Triển khai catalog tùy chỉnh và mở rộng các chức năng của Apache Iceberg
Quản trị và tuân thủ quy định dữ liệu
- Triển khai các chính sách quản trị dữ liệu
- Tuân thủ các quy định dữ liệu
- Quản lý các bản ghi kiểm duyệt và nguồn gốc dữ liệu
- Triển khai các tính năng quản trị và tuân thủ quy định
Tổng kết và các bước tiếp theo
Yêu cầu
- Tham gia các khái niệm cơ bản, các thao tác cơ bản và quản lý bảng Iceberg
Đối tượng
- Kỹ sư dữ liệu
- Kiến trúc sư dữ liệu
- Phân tích viên dữ liệu
- Nhà phát triển phần mềm
Đánh giá (5)
Thật tuyệt vời là chúng tôi có thể mang về hầu hết các thông tin/khóa học/bài trình bày/bài tập đã thực hiện, để chúng tôi có thể xem lại và có thể làm lại những phần chưa hiểu rõ lần đầu hoặc cải thiện những phần đã thực hiện.
Raul Mihail Rat - Accenture Industrial SS
Khóa học - Python, Spark, and Hadoop for Big Data
Dịch thuật bằng máy
rất tương tác...
Richard Langford
Khóa học - SMACK Stack for Data Science
Dịch thuật bằng máy
Có đủ thực hành, người hướng dẫn có kiến thức tốt
Chris Tan
Khóa học - A Practical Introduction to Stream Processing
Dịch thuật bằng máy
Học về Spark Streaming, Databricks và AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Khóa học - Apache Spark in the Cloud
Dịch thuật bằng máy
các nhiệm vụ thực hành
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Khóa học - Python and Spark for Big Data (PySpark)
Dịch thuật bằng máy