Đề cương khóa học
Giới thiệu Apache Iceberg
- Tổng quan về Apache Iceberg
- Xem lại các khái niệm cơ bản
Kiến thức sâu về kiến trúc Apache Iceberg
- Phân tích chi tiết về định dạng bảng của Apache Iceberg
- Tổng quan chi tiết về kiến trúc, bao gồm metadata và bố cục file
- Các thành phần bên trong của schema và sự phát triển của partition
Cài đặt và cấu hình nâng cao
- Cấu hình Apache Iceberg để tối ưu hóa hiệu suất trong các môi trường khác nhau
- Tích hợp với các công cụ xử lý dữ liệu khác nhau
- Cài đặt nâng cao: bảo mật, mã hóa và kiểm soát truy cập
- Cài đặt Apache Iceberg trong môi trường phân tán
Các hoạt động và bảo trì nâng cao
- Quản lý các bảng Apache Iceberg lớn
- Triển khai và quản lý các thay đổi schema phức tạp
- Xử lý sự phát triển của partition và partition ẩn
- Các hoạt động CRUD nâng cao với thay đổi schema và partition
Kỹ thuật tối ưu hóa truy vấn
- Các kỹ thuật để giảm độ trễ truy vấn
- Cắt partition và cắt file
- Caching metadata và các chiến lược tối ưu hóa
- Triển khai và kiểm thử các kỹ thuật tối ưu hóa truy vấn
Điều chỉnh hiệu suất cho các tập dữ liệu lớn
- Tối ưu hóa hiệu suất cho các tập dữ liệu lớn
- Sử dụng các tính năng tích hợp sẵn của Apache Iceberg để điều chỉnh hiệu suất
- Các nghiên cứu về điều chỉnh hiệu suất trong các trường hợp thực tế
- Điều chỉnh hiệu suất cho các tập dữ liệu lớn
Di chuyển và tích hợp dữ liệu nâng cao
- Di chuyển các cấu trúc dữ liệu phức tạp từ các hệ thống khác
- Tích hợp Apache Iceberg với các luồng dữ liệu thời gian thực
- Di chuyển các tập dữ liệu phức tạp và tích hợp các luồng dữ liệu thời gian thực
Độ tin cậy và nhất quán
- Đảm bảo tính nhất quán và tính toàn vẹn dữ liệu trong các môi trường phân tán
- Triển khai và quản lý các bảo đảm giao dịch
- Xử lý các sự cố và cơ chế phục hồi
- Triển khai các tính năng độ tin cậy và nhất quán
Các tính năng và tùy chỉnh nâng cao
- Triển khai catalog tùy chỉnh
- Mở rộng Apache Iceberg với các tính năng tùy chỉnh
- Triển khai catalog tùy chỉnh và mở rộng các chức năng của Apache Iceberg
Quản trị và tuân thủ quy định dữ liệu
- Triển khai các chính sách quản trị dữ liệu
- Tuân thủ các quy định dữ liệu
- Quản lý các bản ghi kiểm duyệt và nguồn gốc dữ liệu
- Triển khai các tính năng quản trị và tuân thủ quy định
Tổng kết và các bước tiếp theo
Yêu cầu
- Tham gia các khái niệm cơ bản, các thao tác cơ bản và quản lý bảng Iceberg
Đối tượng
- Kỹ sư dữ liệu
- Kiến trúc sư dữ liệu
- Phân tích viên dữ liệu
- Nhà phát triển phần mềm
Đánh giá (5)
Các ví dụ trực tiếp
Ahmet Bolat - Accenture Industrial SS
Khóa học - Python, Spark, and Hadoop for Big Data
Dịch thuật bằng máy
rất tương tác...
Richard Langford
Khóa học - SMACK Stack for Data Science
Dịch thuật bằng máy
Có đủ thực hành, người hướng dẫn có kiến thức tốt
Chris Tan
Khóa học - A Practical Introduction to Stream Processing
Dịch thuật bằng máy
Học về Spark Streaming, Databricks và AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Khóa học - Apache Spark in the Cloud
Dịch thuật bằng máy
các nhiệm vụ thực hành
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Khóa học - Python and Spark for Big Data (PySpark)
Dịch thuật bằng máy