Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực Khóa Học Đào Tạo
Giới thiệu Khóa học
Khóa học này cung cấp phần giới thiệu thực tế và có cấu trúc về việc xây dựng các hệ thống truyền dữ liệu thời gian thực. Nội dung bao gồm các khái niệm cốt lõi, mô hình kiến trúc và các công cụ công nghiệp được sử dụng để xử lý dữ liệu liên tục ở quy mô lớn. Người tham gia sẽ học cách thiết kế, triển khai và tối ưu hóa các đường dẫn truyền dữ liệu (streaming pipelines) bằng các khung công nghệ hiện đại. Khóa học tiến triển từ những ý tưởng nền tảng đến các ứng dụng thực hành, giúp người học tự tin xây dựng các giải pháp thời gian thực sẵn sàng cho môi trường sản xuất.
Hình thức Đào tạo
• Các phiên hướng dẫn bởi giảng viên với giải thích có hệ thống
• Phân tích khái niệm kèm theo ví dụ thực tế
• Biểu diễn thực hành và các bài tập lập trình
• Các phòng lab tiến bộ, phù hợp với các chủ đề hàng ngày
• Thảo luận tương tác và Hỏi & Đáp
Mục tiêu Khóa học
• Hiểu rõ các khái niệm về truyền dữ liệu thời gian thực và kiến trúc hệ thống
• Phân biệt giữa các mô hình xử lý dữ liệu theo batch và streaming
• Thiết kế các đường dẫn streaming có thể mở rộng và chịu lỗi
• Làm việc với các công cụ và khung công nghệ streaming phân tán
• Áp dụng xử lý theo thời gian sự kiện, kỹ thuật windowing và các thao tác có trạng thái
• Xây dựng và tối ưu hóa các giải pháp dữ liệu thời gian thực cho các trường hợp sử dụng kinh doanh
Đề cương khóa học
Nội dung Khóa học Ngày 1
• Giới thiệu về các khái niệm dữ liệu streaming
• Nền tảng của xử lý theo batch so với xử lý thời gian thực
• Cơ bản về kiến trúc hướng sự kiện
• Các trường hợp sử dụng phổ biến trong công nghiệp
• Tổng quan về hệ sinh thái streaming
Ngày 2
• Các mẫu thiết kế kiến trúc streaming
• Nền tảng của các hệ thống nhắn tin phân tán
• Người sản xuất (Producers) và người tiêu thụ (Consumers)
• Các chủ đề (topics), phân vùng (partitions) và luồng dữ liệu
• Các chiến lược thu thập dữ liệu
Ngày 3
• Khái niệm và khung công nghệ xử lý luồng dữ liệu
• Thời gian sự kiện (Event time) so với thời gian xử lý
• Các kỹ thuật windowing và trường hợp sử dụng
• Xử lý luồng dữ liệu có trạng thái
• Cơ bản về khả năng chịu lỗi và cơ chế kiểm tra điểm (checkpointing)
Ngày 4
• Chuyển đổi dữ liệu trong các đường dẫn streaming
• ETL và ELT trong các hệ thống thời gian thực
• Quản lý và tiến hóa lược đồ dữ liệu
• Kết nối và làm giàu dữ liệu luồng
• Giới thiệu về các dịch vụ streaming dựa trên đám mây
Ngày 5
• Giám sát và khả năng quan sát trong các hệ thống streaming
• Cơ bản về bảo mật và kiểm soát truy cập
• Tinh chỉnh hiệu năng và tối ưu hóa
• Đánh giá lại thiết kế đường dẫn từ đầu đến cuối
• Các trường hợp sử dụng thực tế như phát hiện gian lận và xử lý IoT
Khóa học đào tạo mở cần có ít nhất 5 người tham gia.
Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực Khóa Học Đào Tạo - Đặt chỗ
Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực Khóa Học Đào Tạo - Yêu cầu thông tin
Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực - Yêu cầu tư vấn
Đánh giá (1)
Bài tập thực hành. Lớp học dự kiến kéo dài 5 ngày, nhưng 3 ngày đã giúp giải đáp nhiều câu hỏi mà tôi gặp phải khi làm việc với NiFi.
James - BHG Financial
Khóa học - Apache NiFi for Administrators
Dịch thuật bằng máy
Các khóa học sắp tới
Các khóa học liên quan
Đào tạo Quản trị viên cho Apache Hadoop
35 GiờĐối tượng:
Khóa học này được thiết kế cho các chuyên gia IT đang tìm kiếm giải pháp để lưu trữ và xử lý tập dữ liệu lớn trong môi trường hệ thống phân tán.
Goal:
Kiến thức sâu về quản trị Hadoop.
Big Data Phân tích dữ liệu với Google Colab và Apache Spark
14 Giờkhóa học trực tuyến hoặc tại chỗ này do giảng viên hướng dẫn (ở Việt Nam) được thiết kế cho các nhà khoa học dữ liệu và kỹ sư cấp trung muốn sử dụng Google Colab và Apache Spark để xử lý và phân tích dữ liệu lớn.
Đến cuối khóa học, người tham gia sẽ có thể:
- Cài đặt môi trường dữ liệu lớn bằng cách sử dụng Google Colab và Spark.
- Xử lý và phân tích các tập dữ liệu lớn một cách hiệu quả với Apache Spark.
- Biểu đồ hóa dữ liệu lớn trong môi trường hợp tác.
- Tích hợp Apache Spark với công cụ dựa trên đám mây.
Big Data Phân tích Dữ liệu Trong Y tế
21 GiờPhân tích dữ liệu lớn bao gồm quá trình kiểm tra lượng lớn các tập dữ liệu đa dạng để khám phá các mối tương quan, các mẫu ẩn và các thông tin hữu ích khác.
Ngành y tế có lượng lớn dữ liệu y tế và lâm sàng phức tạp, không đồng nhất. Việc áp dụng phân tích dữ liệu lớn cho dữ liệu y tế mang lại tiềm năng to lớn trong việc đưa ra những hiểu biết sâu sắc để cải thiện việc cung cấp dịch vụ chăm sóc sức khỏe. Tuy nhiên, kích thước khổng lồ của các tập dữ liệu này gây ra những thách thức lớn trong việc phân tích và ứng dụng thực tế trong môi trường lâm sàng.
Trong khóa đào tạo trực tiếp, trực tuyến này (từ xa), người tham gia sẽ học cách thực hiện phân tích dữ liệu lớn trong lĩnh vực y tế thông qua một loạt các bài tập thực hành trực tiếp.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình các công cụ phân tích dữ liệu lớn như Hadoop MapReduce và Spark
- Hiểu rõ các đặc điểm của dữ liệu y tế
- Áp dụng các kỹ thuật dữ liệu lớn để xử lý dữ liệu y tế
- Nghiên cứu các hệ thống và thuật toán dữ liệu lớn trong bối cảnh các ứng dụng y tế
Đối tượng
- Nhà phát triển
- Nhà khoa học dữ liệu
Định dạng khóa học
- Kết hợp bài giảng, thảo luận, bài tập và thực hành chuyên sâu.
Lưu ý
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Hadoop Dành cho Quản trị viên
21 GiờApache Hadoop là khung làm việc phổ biến nhất để xử lý Big Data trên cụm máy chủ. Trong khóa học này kéo dài ba (có thể bốn) ngày, người tham gia sẽ được học về những lợi ích kinh doanh và các trường hợp sử dụng cho Hadoop và hệ sinh thái của nó, cách lập kế hoạch triển khai và mở rộng cụm, cách cài đặt, duy trì, giám sát, khắc phục sự cố và tối ưu hóa Hadoop. Họ cũng sẽ thực hành tải dữ liệu khối vào cụm, quen thuộc với các phân phối khác nhau của Hadoop, và thực hành cài đặt và quản lý công cụ trong hệ sinh thái Hadoop. Khóa học kết thúc bằng cuộc thảo luận về việc bảo mật cụm thông qua Kerberos.
“…Chất lượng tài liệu rất tốt và được trình bày chi tiết. Phòng Lab rất hữu ích và tổ chức tốt”
— Andrew Nguyen, Kỹ sư tích hợp DW chính, Microsoft Online Advertising
Đối tượng tham gia
Người quản trị Hadoop
Định dạng khóa học
Giảng dạy và thực hành lab, tỷ lệ khoảng 60% giảng dạy, 40% lab.
Hadoop cho Lập trình viên (4 ngày)
28 GiờApache Hadoop là khung công tác phổ biến nhất để xử lý Big Data trên các cụm máy chủ. Khóa học này sẽ giới thiệu cho lập trình viên về các thành phần khác nhau trong hệ sinh thái Hadoop (HDFS, MapReduce, Pig, Hive và HBase).
Hadoop Nâng Cao cho Lập Trình Viên
21 GiờApache Hadoop là một trong những framework phổ biến nhất để xử lý Big Data trên các cụm máy chủ. Khóa học này đi sâu vào quản lý dữ liệu trong HDFS, Pig và Hive nâng cao, cũng như HBase. Các kỹ thuật lập trình nâng cao này sẽ rất có ích cho các nhà phát triển Hadoop có kinh nghiệm.
Đối tượng: lập trình viên
Thời lượng: ba ngày
Định dạng: bài giảng (50%) và phòng thí nghiệm thực hành (50%).
Hadoop Quản trị trên MapR
28 GiờĐối tượng:
Khóa học này nhằm làm rõ công nghệ big data/hadoop và cho thấy nó không khó hiểu.
Hadoop và Spark cho Quản trị viên
35 GiờKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các quản trị viên hệ thống muốn tìm hiểu cách thiết lập, triển khai và quản lý các cụm Hadoop trong tổ chức của họ.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Apache Hadoop.
- Hiểu bốn thành phần chính trong hệ sinh thái Hadoop: HDFS, MapReduce, YARN và Hadoop Common.
- Sử dụng Hệ thống Tệp Phân tán Hadoop (HDFS) để mở rộng cụm lên hàng trăm hoặc hàng nghìn nút.
- Thiết lập HDFS để hoạt động như một công cụ lưu trữ cho các triển khai Spark tại chỗ.
- Thiết lập Spark để truy cập các giải pháp lưu trữ thay thế như Amazon S3 và các hệ thống cơ sở dữ liệu NoSQL như Redis, Elasticsearch, Couchbase, Aerospike, v.v.
- Thực hiện các tác vụ quản trị như cung cấp, quản lý, giám sát và bảo mật một cụm Apache Hadoop.
HBase cho Nhà phát triển
21 GiờKhóa học này giới thiệu HBase – một NoSQL kho lưu trữ được xây dựng trên Hadoop. Khóa học dành cho các nhà phát triển sẽ sử dụng HBase để phát triển ứng dụng, và các quản trị viên sẽ quản lý các cụm HBase.
Chúng ta sẽ hướng dẫn một nhà phát triển qua kiến trúc HBase và mô hình hóa dữ liệu, cũng như phát triển ứng dụng trên HBase. Khóa học cũng sẽ thảo luận về việc sử dụng MapReduce với HBase và một số chủ đề quản trị liên quan đến tối ưu hóa hiệu suất. Khóa học này rất thực hành với nhiều bài tập thực hành.
Thời lượng: 3 ngày
Đối tượng: Nhà phát triển & Quản trị viên
Apache NiFi cho Quản trị viên
21 GiờApache NiFi là một nền tảng tích hợp dữ liệu và xử lý sự kiện dựa trên luồng mã nguồn mở. Nó cho phép tự động hóa, truyền tải dữ liệu thời gian thực, biến đổi và trung gian hệ thống giữa các hệ thống khác nhau, với giao diện người dùng web và kiểm soát chi tiết.
Khóa đào tạo trực tiếp do giảng viên hướng dẫn (trực tiếp hoặc từ xa) này dành cho quản trị viên và kỹ sư trung cấp có mong muốn triển khai, quản lý, bảo mật và tối ưu hóa các dòng dữ liệu NiFi trong môi trường sản xuất.
Sau khi kết thúc khóa học, người tham gia sẽ có thể:
- Cài đặt, cấu hình và bảo trì các cụm Apache NiFi.
- Thiết kế và quản lý dòng dữ liệu từ nhiều nguồn và đích.
- Triển khai tự động hóa luồng, định tuyến và biến đổi logic.
- Tối ưu hóa hiệu suất, giám sát hoạt động và khắc phục sự cố.
Định dạng của khóa học
- Bài giảng tương tác với thảo luận về kiến trúc thực tế.
- Thực hành phòng thí nghiệm: xây dựng, triển khai và quản lý dòng dữ liệu.
- Bài tập dựa trên kịch bản trong môi trường phòng thí nghiệm trực tiếp.
Tùy chọn tùy chỉnh khóa học
- Để yêu cầu khóa đào tạo được tùy chỉnh, vui lòng liên hệ với chúng tôi để sắp xếp.
Apache NiFi cho Nhà phát triển
7 GiờTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học các nguyên tắc cơ bản của lập trình dựa trên luồng khi phát triển một số tiện ích mở rộng, thành phần và bộ xử lý bằng Apache NiFi.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu kiến trúc và khái niệm luồng dữ liệu của NiFi.
- Phát triển các tiện ích mở rộng bằng NiFi và API của bên thứ ba.
- Tự phát triển bộ xử lý Apache Nifi của riêng họ.
- Thu thập và xử lý dữ liệu thời gian thực từ các định dạng tệp và nguồn dữ liệu khác nhau và không phổ biến.
PySpark và Học máy
21 GiờKhóa đào tạo này cung cấp một cái nhìn thực tiễn về việc xây dựng các quy trình xử lý dữ liệu có khả năng mở rộng và quy trình Học máy (Machine Learning) bằng PySpark. Người học sẽ tìm hiểu cách Apache Spark hoạt động trong các hệ sinh thái Dữ liệu lớn (Big Data) hiện đại cũng như cách xử lý hiệu quả các tập dữ liệu lớn dựa trên các nguyên lý tính toán phân tán.
Python và Spark cho Dữ liệu Lớn (PySpark)
21 GiờTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học cách sử dụng Python và Spark cùng nhau để phân tích dữ liệu lớn thông qua các bài tập thực hành.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Học cách sử dụng Spark với Python để phân tích Big Data.
- Thực hành các bài tập mô phỏng các trường hợp thực tế.
- Sử dụng các công cụ và kỹ thuật khác nhau để phân tích dữ liệu lớn bằng PySpark.
Python, Spark, và Hadoop cho Big Data
21 GiờKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà phát triển muốn sử dụng và tích hợp Spark, Hadoop và Python để xử lý, phân tích và chuyển đổi các tập dữ liệu lớn và phức tạp.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường cần thiết để bắt đầu xử lý dữ liệu lớn với Spark, Hadoop và Python.
- Hiểu các tính năng, thành phần cốt lõi và kiến trúc của Spark và Hadoop.
- Tìm hiểu cách tích hợp Spark, Hadoop và Python để xử lý dữ liệu lớn.
- Khám phá các công cụ trong hệ sinh thái Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka và Flume).
- Xây dựng các hệ thống khuyến nghị lọc cộng tác tương tự như Netflix, YouTube, Amazon, Spotify và Google.
- Sử dụng Apache Mahout để mở rộng quy mô các thuật toán học máy.
Stratio: Rocket và Các Mô-đun Trí Tuệ với PySpark
14 GiờStratio là một nền tảng tập trung vào dữ liệu, tích hợp big data, AI và quản lý thành một giải pháp duy nhất. Các mô-đun Rocket và Trí Tuệ của nó cho phép khám phá dữ liệu nhanh chóng, chuyển đổi và phân tích nâng cao trong môi trường doanh nghiệp.
Khóa đào tạo trực tiếp này (trực tuyến hoặc tại chỗ) dành cho các chuyên gia dữ liệu trung cấp muốn sử dụng hiệu quả các mô-đun Rocket và Trí Tuệ trong Stratio với PySpark, tập trung vào cấu trúc lặp, hàm do người dùng định nghĩa và logic dữ liệu nâng cao.
Sau khóa đào tạo này, học viên sẽ có thể:
- Điều hướng và làm việc trong nền tảng Stratio bằng cách sử dụng các mô-đun Rocket và Trí Tuệ.
- Áp dụng PySpark trong bối cảnh nhập liệu, chuyển đổi và phân tích dữ liệu.
- Sử dụng các cấu trúc lặp và logic điều kiện để kiểm soát quy trình xử lý dữ liệu và tác vụ kỹ thuật đặc trưng.
- Tạo và quản lý hàm do người dùng định nghĩa (UDFs) cho các thao tác dữ liệu có thể tái sử dụng trong PySpark.
Định dạng Khóa Học
- Bài giảng tương tác và thảo luận.
- Nhiều bài tập và thực hành.
- Thực hiện trong môi trường lab trực tiếp.
Tùy chỉnh Khóa Học
- Để yêu cầu khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.