Greenplum Architecture and Data Modeling Training Course
Greenplum là một nền tảng dữ liệu xử lý song song hàng loạt (MPP) nguồn mở được thiết kế cho phân tích và môi trường dữ liệu quy mô lớn.
Khóa học này do giảng viên hướng dẫn trực tiếp (trực tuyến hoặc tại chỗ) dành cho người dùng kỹ thuật trình độ trung cấp đến cao muốn hiểu kiến trúc nội bộ của Greenplum, xây dựng các mô hình dữ liệu tối ưu và áp dụng hiệu suất cao SQL trong môi trường phân tán.
Tại kết thúc khóa học này, người tham gia sẽ có thể:
- Hiểu kiến trúc không chia sẻ (shared-nothing) và mô hình song song của Greenplum.
- Lập kế hoạch cấu trúc bảng phân tán và phân vùng tối ưu cho hiệu suất truy vấn.
- Sử dụng các chiến lược lập chỉ mục, định dạng lưu trữ và kỹ thuật thiết kế vật lý.
- Phân tích và tối ưu hóa truy vấn bằng cách sử dụng thực hành tốt nhất từ kế hoạch EXPLAIN.
Hình thức khóa học
- Buổi thuyết giảng tương tác và thảo luận.
- Nhiều bài tập và thực hành.
- Thực hiện trực tiếp trong môi trường phòng thí nghiệm trực tuyến.
Tùy chọn Tùy chỉnh Khóa học
- Để yêu cầu một khóa học tùy chỉnh cho khóa học này, xin vui lòng liên hệ với chúng tôi để sắp xếp.
Đề cương khóa học
Cấu trúc của Greenplum
- Xử lý song song và xử lý đa tiến đối xứng
- Vai trò đoạn và cấu hình cụm
- Quy mô mở rộng và di chuyển dữ liệu
- Cấu trúc Data Warehouse của Greenplum
Cấu trúc Bảng trong Greenplum
- Bảng phân phối so với bảng được gán ngẫu nhiên
- Bảng đống so với bảng chỉ thêm mới
- Định dạng lưu trữ theo hàng so với cột
- Bảng phân vùng và集群表
数据分布和哈希
- 哈希逻辑和分布键
- 偏斜处理及性能影响
- 哈希映射和行放置策略
索引与性能优化
- 聚集与非聚集索引
- B-tree 和位图索引的使用场景
- 索引扫描和存储行为
物理Database设计
- 规范化和逻辑模型设计
- 用户访问策略和分布分析
- 数据特征和索引决策
反规范技术
- 衍生数据、汇总表和预连接
- 列式表作为垂直分区
- 数据集市和物化视图
高级SQL查询执行
- 连接策略与重新分配
- OLAP 和窗口函数
- 临时表、子查询和派生表
EXPLAIN 计划和查询调优
- 阅读和解释 EXPLAIN 输出
- 成本分析和计划优化
- 连接移动和段本地操作
Greenplum 实用工具及最佳实践
- ANALYZE 和 VACUUM
- 使用 Nexus 加载和移动数据
- 安全、权限及性能提示
总结与下一步行动
Yêu cầu
- Có hiểu biết về cơ sở dữ liệu quan hệ và SQL
- Kinh nghiệm với hệ thống kho dữ liệu hoặc phân tích
- Thành thạo các tác vụ dòng lệnh Linux
Đối tượng học tập
- Nhà thiết kế và kỹ sư dữ liệu
- Database quản trị viên và lãnh đạo kỹ thuật
- Nhà phát triển BI và chuyên gia phân tích làm việc với Greenplum
Khóa học đào tạo mở cần có ít nhất 5 người tham gia.
Greenplum Architecture and Data Modeling Training Course - Đặt chỗ
Greenplum Architecture and Data Modeling Training Course - Yêu cầu thông tin
Greenplum Architecture and Data Modeling - Yêu cầu tư vấn
Yêu cầu tư vấn
Đánh giá (1)
the practices
Liliana Padilla - Hipodromo de Agua Caliente
Khóa học - Greenplum Architecture and Data Modeling
Các khóa học sắp tới
Các khóa học liên quan
SQL Advanced
14 Giờ họcThis instructor-led, live training in Việt Nam (online or onsite) is aimed at intermediate-level database administrators, developers, and analysts who wish to master advanced SQL functionalities for complex data operations and database management.
By the end of this training, participants will be able to:
- Perform advanced querying techniques using unions, subqueries, and complex joins.
- Add, update, and delete data, tables, views, and indexes with precision.
- Ensure data integrity through transactions and manipulate database structures.
- Create and manage databases efficiently for robust data storage and retrieval.
Amazon Redshift
21 Giờ họcAmazon Redshift là dịch vụ kho dữ liệu dựa trên đám mây, có quy mô petabyte trong AWS.
Trong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này, người tham gia sẽ học các kiến thức cơ bản về Amazon Redshift.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Amazon Redshift
- Tải, cấu hình, triển khai, truy vấn và trực quan hóa dữ liệu với Amazon Redshift
Đối tượng
- Nhà phát triển
- Chuyên gia IT
Định dạng khóa học
- Kết hợp bài giảng, thảo luận, bài tập và thực hành chuyên sâu
Lưu ý
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Apache Iceberg Nâng Cao
21 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các chuyên gia dữ liệu nâng cao, những người muốn tối ưu hóa quy trình xử lý dữ liệu, đảm bảo tính toàn vẹn của dữ liệu và triển khai các giải pháp data lakehouse mạnh mẽ có thể xử lý các phức tạp của các ứng dụng big data hiện đại.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Có được sự hiểu biết sâu sắc về kiến trúc của Iceberg, bao gồm quản lý siêu dữ liệu và bố cục tệp.
- Cấu hình Iceberg để đạt hiệu suất tối ưu trong nhiều môi trường khác nhau và tích hợp nó với nhiều công cụ xử lý dữ liệu.
- Quản lý các bảng Iceberg quy mô lớn, thực hiện các thay đổi lược đồ phức tạp và xử lý sự phát triển của phân vùng.
- Làm chủ các kỹ thuật để tối ưu hóa hiệu suất truy vấn và hiệu quả quét dữ liệu cho các tập dữ liệu lớn.
- Triển khai các cơ chế để đảm bảo tính nhất quán của dữ liệu, quản lý các đảm bảo giao dịch và xử lý lỗi trong các môi trường phân tán.
Cơ bản về Apache Iceberg
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các chuyên gia dữ liệu ở trình độ mới bắt đầu, những người muốn có được kiến thức và kỹ năng cần thiết để sử dụng hiệu quả Apache Iceberg trong việc quản lý các tập dữ liệu lớn, đảm bảo tính toàn vẹn của dữ liệu và tối ưu hóa các quy trình xử lý dữ liệu.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Có được sự hiểu biết toàn diện về kiến trúc, tính năng và lợi ích của Apache Iceberg.
- Tìm hiểu về các định dạng bảng, phân vùng, tiến hóa lược đồ và khả năng du hành thời gian.
- Cài đặt và cấu hình Apache Iceberg trong các môi trường khác nhau.
- Tạo, quản lý và thao tác với các bảng Iceberg.
- Hiểu quy trình di chuyển dữ liệu từ các định dạng bảng khác sang Iceberg.
Big Data Consulting
21 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các chuyên gia IT trình độ trung cấp, những người muốn nâng cao kỹ năng về kiến trúc dữ liệu, quản trị dữ liệu, điện toán đám mây và các công nghệ dữ liệu lớn để quản lý và phân tích hiệu quả các tập dữ liệu lớn cho việc di chuyển dữ liệu trong tổ chức của họ.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu các khái niệm và thành phần cơ bản của các kiến trúc dữ liệu khác nhau.
- Có được sự hiểu biết toàn diện về các nguyên tắc quản trị dữ liệu và tầm quan trọng của chúng trong các môi trường quy định.
- Triển khai và quản lý các khuôn khổ quản trị dữ liệu như Dama và Togaf.
- Tận dụng các nền tảng đám mây để lưu trữ, xử lý và quản lý dữ liệu hiệu quả.
Big Data & Database Nguyên lý Hệ thống
14 Giờ họcKhóa học này là một phần của bộ kỹ năng Nhà khoa học dữ liệu (Lĩnh vực: Dữ liệu và Công nghệ).
Azure Data Lake Storage Gen2
14 Giờ họcBài học trực tiếp do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các kỹ sư dữ liệu trình độ trung cấp muốn học cách sử dụng Azure Data Lake Storage Gen2 để xây dựng các giải pháp phân tích dữ liệu hiệu quả.
Sau khi hoàn thành khóa học, người tham gia sẽ có thể:
- Hiểu kiến trúc và các tính năng chính của Azure Data Lake Storage Gen2.
- Tối ưu hóa lưu trữ và truy cập dữ liệu về mặt chi phí và hiệu suất.
- Tích hợp Azure Data Lake Storage Gen2 với các dịch vụ Azure khác để phân tích và xử lý dữ liệu.
- Phát triển giải pháp sử dụng API của Azure Data Lake Storage Gen2.
- Gỡ lỗi các vấn đề phổ biến và tối ưu hóa chiến lược lưu trữ.
Kho Dữ liệu: Khái niệm, Thiết kế và Triển khai
35 Giờ họcData Warehousing là thực hành thiết kế, xây dựng và vận hành các kho dữ liệu tập trung hỗ trợ phân tích, báo cáo và ra quyết định.
Khóa đào tạo này do giảng viên hướng dẫn (trực tuyến hoặc trực tiếp) dành cho chuyên gia dữ liệu cấp độ trung cấp muốn mô hình hóa dữ liệu kích thước, xây dựngpipeline ETL vững chắc và tối ưu hóa công việc phân tích.
Tại kết thúc khóa học, người tham gia sẽ có thể:
- Giải thích các khái niệm và kiến trúc cơ bản của data warehousing.
- Thiết kế mô hình kích thước và chọn giữa cấu trúc sao hoặc tuyết.
- Xây dựng và điều phối pipeline ETL và ELT một cách đáng tin cậy.
- Phân biệt công việc OLTP với OLAP và tối ưu hóa cho phân tích.
Định dạng khóa học
- Bài giảng tương tác và thảo luận.
- Nhiều bài tập và thực hành.
- Tiến hành trực tiếp trong môi trường phòng lab.
Tùy chọn tùy chỉnh khóa học
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Apache Druid cho Phân tích Dữ liệu Thờigian Thật
21 Giờ họcApache Druid là một kho dữ liệu phân tán, hướng cột, mã nguồn mở được viết bằng Java. Nó được thiết kế để nhanh chóng tiếp nhận lượng lớn dữ liệu sự kiện và thực thi các truy vấn OLAP có độ trễ thấp trên dữ liệu đó. Druid thường được sử dụng trong các ứng dụng Business Intelligence để phân tích khối lượng lớn dữ liệu thời gian thực và lịch sử. Nó cũng rất phù hợp để cung cấp các bảng điều khiển phân tích tương tác, nhanh chóng cho người dùng cuối. Druid được sử dụng bởi các công ty như Alibaba, Airbnb, Cisco, eBay, Netflix, Paypal và Yahoo.
Trong khóa học trực tiếp, do giảng viên hướng dẫn này, chúng ta sẽ khám phá một số hạn chế của các giải pháp kho dữ liệu và thảo luận về cách Druid có thể bổ sung cho các công nghệ đó để tạo thành một ngăn xếp phân tích luồng linh hoạt và có khả năng mở rộng. Chúng ta sẽ đi qua nhiều ví dụ, mang đến cho người tham gia cơ hội triển khai và kiểm tra các giải pháp dựa trên Druid trong môi trường phòng thí nghiệm.
Định dạng của Khóa học
- Kết hợp bài giảng, thảo luận, thực hành nặng nề, thi kiểm tra thường xuyên để đánh giá mức độ hiểu bài
Greenplum Administration: Installation, Updates, and Libraries
21 Giờ họcGreenplum là một nền tảng dữ liệu song song mở nguồn dựa trên Hypertable, được thiết kế cho phân tích nâng cao và kho dữ liệu quy mô lớn.
Khóa học này dưới sự hướng dẫn của giảng viên (trực tuyến hoặc tại chỗ) dành cho các quản trị viên cấp trung muốn cài đặt, cấu hình và quản lý môi trường Greenplum một cách hiệu quả, bao gồm việc cập nhật hệ thống và thư viện.
Tại kết thúc khóa học này, người tham gia sẽ có thể:
- Cài đặt và cấu hình một cụm Greenplum sẵn sàng cho sản xuất.
- Quản lý cập nhật hệ thống và áp dụng bản vá an toàn.
- Xử lý quản lý thư viện Greenplum cho phân tích và mở rộng.
- Sửa lỗi và theo dõi các hệ thống Greenplum.
Định dạng khóa học
- Buổi giảng dạy tương tác và thảo luận.
- Sử dụng thực tế của Greenplum trong môi trường phòng thí nghiệm được kiểm soát.
- Bài tập hướng dẫn tập trung vào việc thiết lập cụm, quy trình nâng cấp và mở rộng hệ thống.
Tùy chọn tùy chỉnh khóa học
- Để yêu cầu một khóa học tùy chỉnh dựa trên môi trường hoặc nền tảng dữ liệu của bạn, vui lòng liên hệ với chúng tôi để sắp xếp.
Greenplum Database
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các quản trị viên muốn thiết lập Greenplum Database cho các giải pháp thông minh nghiệp vụ và kho dữ liệu.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Đáp ứng nhu cầu xử lý với Greenplum.
- Thực hiện các hoạt động ETL cho việc xử lý dữ liệu.
- Lợi dụng cơ sở hạ tầng xử lý truy vấn hiện有翻译已经是中文的了,但目标语言是越南语(vi),所以需要重新翻译成越南语:
Khóa đào tạo trực tiếp này, do giảng viên hướng dẫn (trực tuyến hoặc tại chỗ), dành cho các quản trị viên muốn thiết lập Greenplum Database cho các giải pháp thông minh kinh doanh và kho dữ liệu.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Đáp ứng nhu cầu xử lý với Greenplum.
- Thực hiện các hoạt động ETL cho việc xử lý dữ liệu.
- Lợi dụng cơ sở hạ tầng xử lý truy vấn hiện có.
IBM DataStage cho Quản trị viên và Nhà phát triển
35 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các chuyên gia IT trình độ trung cấp, những người muốn có hiểu biết toàn diện về IBM DataStage từ cả góc độ quản trị và phát triển, cho phép họ quản lý và sử dụng công cụ này một cách hiệu quả trong công việc của họ.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu các khái niệm cốt lõi của DataStage.
- Tìm hiểu cách cài đặt, cấu hình và quản lý môi trường DataStage hiệu quả.
- Kết nối với nhiều nguồn dữ liệu khác nhau và trích xuất dữ liệu hiệu quả từ cơ sở dữ liệu, tệp tin phẳng và các nguồn bên ngoài.
- Triển khai các kỹ thuật tải dữ liệu hiệu quả.
Apache Kylin: OLAP Trực Tuyến trên Big Data
14 Giờ họcBuổi đào tạo trực tiếp dưới sự hướng dẫn của giảng viên tại Việt Nam (trực tuyến hoặc trực tiếp) này dành cho các chuyên gia big data cấp trung muốn sử dụng Apache Kylin để xây dựng kho dữ liệu thời gian thực và thực hiện phân tích đa chiều trên các tập dữ liệu quy mô lớn.
Tại kết thúc buổi đào tạo, người tham gia sẽ có khả năng:
- Cài đặt và cấu hình Apache Kylin với nguồn dữ liệu truyền stream thời gian thực.
- Lập kế hoạch và xây dựng các khối OLAP cho cả dữ liệu batch và streaming.
- Thực hiện các truy vấn phức tạp với độ trễ dưới một giây sử dụng giao diện SQL của Kylin.
- Tích hợp Kylin với các công cụ BI để trực quan hóa dữ liệu tương tác.
- Tối ưu hóa hiệu suất và quản lý tài nguyên hiệu quả trong Kylin.
Oracle SQL cho Phát triển và Quản lý Cơ sở Dữ liệu
35 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các chuyên gia cơ sở dữ liệu ở trình độ trung cấp, những người muốn nâng cao kỹ năng của họ trong phát triển và quản trị Oracle SQL.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Xây dựng và tối ưu hóa các truy vấn SQL phức tạp.
- Quản lý cơ sở dữ liệu hiệu quả bằng cách sử dụng các công cụ Oracle SQL.
- Áp dụng các phương pháp tốt nhất trong phát triển và bảo trì cơ sở dữ liệu.
- Quản trị quyền truy cập của người dùng và bảo mật cơ sở dữ liệu trong môi trường Oracle.