Giới thiệu Thực hành về Stream Processing Training Course
Stream Processing đề cập đến việc xử lý dữ liệu "dữ liệu đang chuyển động" theo thời gian thực, tức là thực hiện các phép tính trên dữ liệu khi nó đang được nhận. Dữ liệu như vậy được đọc dưới dạng các luồng liên tục từ các nguồn dữ liệu như sự kiện cảm biến, hoạt động của người dùng trên trang web, giao dịch tài chính, quẹt thẻ tín dụng, luồng nhấp chuột, v.v. Các framework Stream Processing có thể đọc các lượng lớn dữ liệu đến và cung cấp những hiểu biết có giá trị gần như ngay lập tức.
Trong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này (tại chỗ hoặc từ xa), người tham gia sẽ học cách thiết lập và tích hợp các framework Stream Processing khác nhau với các hệ thống lưu trữ dữ liệu lớn hiện có và các ứng dụng phần mềm và microservice liên quan.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình các framework Stream Processing khác nhau, chẳng hạn như Spark Streaming và Kafka Streaming.
- Hiểu và chọn framework phù hợp nhất cho công việc.
- Xử lý dữ liệu liên tục, đồng thời và theo từng bản ghi.
- Tích hợp các giải pháp Stream Processing với các cơ sở dữ liệu, kho dữ liệu, hồ dữ liệu hiện có, v.v.
- Tích hợp thư viện xử lý luồng phù hợp nhất với các ứng dụng doanh nghiệp và microservice.
Đối tượng
- Nhà phát triển
- Kiến trúc sư phần mềm
Định dạng của Khóa học
- Kết hợp bài giảng, thảo luận, bài tập và thực hành chuyên sâu
Ghi chú
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Đề cương khóa học
Giới thiệu
- Xử lý luồng so với xử lý hàng loạt
- Xử lý luồng tập trung vào phân tích
Tổng quan về các Framework và Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- So sánh các Tính năng và Điểm mạnh của Mỗi Framework
Tổng quan về Nguồn Dữ liệu
- Dữ liệu trực tiếp như một chuỗi các sự kiện theo thời gian
- Nguồn dữ liệu lịch sử
Tùy chọn Triển khai
- Trên đám mây (AWS, v.v.)
- Tại chỗ (đám mây riêng, v.v.)
Bắt đầu
- Thiết lập Môi trường Phát triển
- Cài đặt và Cấu hình
- Đánh giá Nhu cầu Data Analysis của Bạn
Vận hành một Framework Streaming
- Tích hợp Framework Streaming với các Công cụ Big Data
- Event Stream Processing (ESP) so với Xử lý Sự kiện Phức tạp (CEP)
- Chuyển đổi Dữ liệu Đầu vào
- Kiểm tra Dữ liệu Đầu ra
- Tích hợp Framework Stream Processing với các Ứng dụng Hiện có và Microservices
Khắc phục sự cố
Tóm tắt và Kết luận
Requirements
- Có Programming kinh nghiệm với bất kỳ ngôn ngữ nào
- Hiểu các khái niệm Big Data (ví dụ: Hadoop, v.v.)
Open Training Courses require 5+ participants.
Giới thiệu Thực hành về Stream Processing Training Course - Booking
Giới thiệu Thực hành về Stream Processing Training Course - Enquiry
Giới thiệu Thực hành về Stream Processing - Consultancy Enquiry
Consultancy Enquiry
Testimonials (1)
Thực hành充分的手动操作,讲师知识渊博 (Note: The translation provided above mistakenly includes Chinese characters at the end. Here is the correct translation in Vietnamese without the error.) Thực hành đủ, giảng viên có kiến thức sâu rộng
Chris Tan
Course - A Practical Introduction to Stream Processing
Machine Translated
Provisional Upcoming Courses (Require 5+ participants)
Related Courses
Quản lý Confluent Apache Kafka
21 HoursConfluent Apache Kafka là một nền tảng truyền phát sự kiện phân tán được thiết kế cho các đường ống dữ liệu có thông lượng cao và khả năng chịu lỗi, cũng như phân tích thời gian thực.
Buổi học trực tiếp (trực tuyến hoặc tại chỗ) do giảng viên hướng dẫn này dành cho quản trị hệ thống cấp trung và chuyên gia DevOps muốn cài đặt, cấu hình, giám sát và khắc phục sự cố cho các cụm Confluent Apache Kafka.
Tại cuối khóa học, người tham gia sẽ có thể:
- Hiểu rõ về thành phần và kiến trúc của Confluent Kafka.
- Triển khai và quản lý Kafka brokers, Zookeeper quorums, và các dịch vụ chính.
- Cấu hình các tính năng nâng cao bao gồm bảo mật, sao chép và điều chỉnh hiệu suất.
- Sử dụng công cụ quản lý để theo dõi và duy trì các cụm Kafka.
Định dạng khóa học
- Buổi giảng dạy tương tác và thảo luận.
- Nhiều bài tập thực hành.
- Tiến hành triển khai thực tế trong môi trường lab trực tiếp.
Tùy chọn tùy chỉnh khóa học
- Để yêu cầu một khóa học tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Trí tuệ nhân tạo - những ứng dụng thực tế nhất - Data Analysis + AI phân tán + Xử lý ngôn ngữ tự nhiên
21 HoursKhóa học này dành cho các nhà phát triển và nhà khoa học dữ liệu mong muốn hiểu và triển khai trí tuệ nhân tạo trong ứng dụng của họ. Tập trung đặc biệt vào phân tích dữ liệu, trí tuệ nhân tạo phân tán và xử lý ngôn ngữ tự nhiên.
Thống nhất Batch và Stream Processing với Apache Beam
14 HoursApache Beam là một mô hình lập trình thống nhất, mã nguồn mở để định nghĩa và thực thi các quy trình xử lý dữ liệu song song. Sức mạnh của nó nằm ở khả năng chạy cả quy trình hàng loạt và quy trình luồng, với việc thực thi được thực hiện bởi một trong các back-end xử lý phân tán được hỗ trợ của Beam: Apache Apex, Apache Flink, Apache Spark và Google Cloud Dataflow. Apache Beam hữu ích cho các tác vụ ETL (Trích xuất, Chuyển đổi và Tải) như di chuyển dữ liệu giữa các phương tiện lưu trữ và nguồn dữ liệu khác nhau, chuyển đổi dữ liệu thành định dạng mong muốn hơn và tải dữ liệu lên một hệ thống mới.
Trong khóa đào tạo trực tiếp, do giảng viên hướng dẫn (tại chỗ hoặc từ xa) này, người tham gia sẽ học cách triển khai các SDK Apache Beam trong một ứng dụng Java hoặc Python để xác định một quy trình xử lý dữ liệu nhằm phân tách một tập dữ liệu lớn thành các phần nhỏ hơn để xử lý song song độc lập.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Apache Beam.
- Sử dụng một mô hình lập trình duy nhất để thực hiện cả xử lý hàng loạt và xử lý luồng từ trong ứng dụng Java hoặc Python của họ.
- Thực thi các quy trình trên nhiều môi trường.
Định dạng khóa học
- Kết hợp bài giảng, thảo luận, bài tập và thực hành chuyên sâu.
Lưu ý
- Khóa học này sẽ có sẵn Scala trong tương lai. Vui lòng liên hệ với chúng tôi để sắp xếp.
Building Kafka Solutions with Confluent
14 HoursKhóa đào tạo trực tiếp, trực tuyến hoặc tại chỗ này dành cho các kỹ sư muốn sử dụng Confluent (một bản phân phối của Kafka) để xây dựng và quản lý một nền tảng xử lý dữ liệu thời gian thực cho các ứng dụng của họ.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Confluent Platform.
- Sử dụng các công cụ quản lý và dịch vụ của Confluent để chạy Kafka một cách dễ dàng hơn.
- Lưu trữ và xử lý dữ liệu luồng đến.
- Tối ưu hóa và quản lý các cụm Kafka.
- Bảo mật các luồng dữ liệu.
Định dạng Khóa học
- Bài giảng tương tác và thảo luận.
- Nhiều bài tập và thực hành.
- Thực hiện trực tiếp trong môi trường lab trực tuyến.
Tùy chọn Tùy chỉnh Khóa học
- Khóa học này dựa trên phiên bản mã nguồn mở của Confluent: Confluent Open Source.
- Để yêu cầu một khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Apache Flink Nền tảng cơ bản
28 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này, tại Việt Nam (trực tuyến hoặc tại chỗ), giới thiệu các nguyên tắc và phương pháp xử lý dữ liệu theo luồng và theo lô phân tán, đồng thời hướng dẫn người tham gia xây dựng một ứng dụng xử lý dữ liệu theo luồng thời gian thực trong Apache Flink.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường để phát triển các ứng dụng phân tích dữ liệu.
- Hiểu cách thức hoạt động của thư viện xử lý đồ thị (Gelly) của Apache Flink.
- Đóng gói, thực thi và giám sát các ứng dụng xử lý dữ liệu theo luồng, chịu lỗi dựa trên Flink.
- Quản lý các khối lượng công việc đa dạng.
- Thực hiện phân tích nâng cao.
- Thiết lập một cụm Flink đa nút.
- Đo lường và tối ưu hóa hiệu suất.
- Tích hợp Flink với các hệ thống Big Data khác nhau.
- So sánh khả năng của Flink với các khung xử lý dữ liệu lớn khác.
Giới thiệu về Graph Computing
28 HoursTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ tìm hiểu về các công nghệ và phương pháp triển khai để xử lý dữ liệu đồ thị. Mục tiêu là xác định các đối tượng trong thế giới thực, đặc điểm và mối quan hệ của chúng, sau đó mô hình hóa các mối quan hệ này và xử lý chúng như dữ liệu bằng cách tiếp cận Graph Computing (còn được gọi là Phân tích Đồ thị). Chúng ta bắt đầu với một cái nhìn tổng quan rộng rãi và thu hẹp phạm vi vào các công cụ cụ thể khi chúng ta thực hiện một loạt các nghiên cứu điển hình, bài tập thực hành và triển khai trực tiếp.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu cách dữ liệu đồ thị được lưu trữ và duyệt.
- Chọn khung làm việc tốt nhất cho một nhiệm vụ cụ thể (từ cơ sở dữ liệu đồ thị đến các khung xử lý hàng loạt).
- Triển khai Hadoop, Spark, GraphX và Pregel để thực hiện tính toán đồ thị trên nhiều máy song song.
- Xem các vấn đề dữ liệu lớn trong thế giới thực dưới dạng đồ thị, quy trình và duyệt.
Apache Kafka cho Python Lập trình viên
7 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các kỹ sư dữ liệu, nhà khoa học dữ liệu và lập trình viên muốn sử dụng các tính năng Apache Kafka trong luồng dữ liệu với Python.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể sử dụng Apache Kafka để giám sát và quản lý các điều kiện trong luồng dữ liệu liên tục bằng cách sử dụng lập trình Python.
Stream Processing với Kafka Streams
7 HoursKafka Streams là một thư viện phía máy khách để xây dựng các ứng dụng và microservice có dữ liệu được truyền đến và đi từ hệ thống nhắn tin Kafka. Theo truyền thống, Apache Kafka đã dựa vào Apache Spark hoặc Apache Storm để xử lý dữ liệu giữa các nhà sản xuất và người tiêu dùng tin nhắn. Bằng cách gọi API Kafka Streams từ trong một ứng dụng, dữ liệu có thể được xử lý trực tiếp trong Kafka, bỏ qua nhu cầu gửi dữ liệu đến một cụm riêng biệt để xử lý.
Trong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này, người tham gia sẽ học cách tích hợp Kafka Streams vào một tập hợp các ứng dụng Java mẫu truyền dữ liệu đến và đi từ Apache Kafka để xử lý luồng.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu các tính năng và ưu điểm của Kafka Streams so với các khung xử lý luồng khác
- Xử lý dữ liệu luồng trực tiếp trong cụm Kafka
- Lập trình một ứng dụng hoặc microservice Java hoặc Scala tích hợp với Kafka và Kafka Streams
- Viết mã ngắn gọn chuyển đổi các chủ đề Kafka đầu vào thành các chủ đề Kafka đầu ra
- Xây dựng, đóng gói và triển khai ứng dụng
Đối tượng
- Nhà phát triển
Định dạng của khóa học
- Phần giảng dạy, phần thảo luận, bài tập và thực hành nhiều tay
Ghi chú
- Để yêu cầu một khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp
Confluent KSQL
7 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các nhà phát triển muốn triển khai xử lý luồng Apache Kafka mà không cần viết mã.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Confluent KSQL.
- Thiết lập một quy trình xử lý luồng chỉ bằng các lệnh SQL (không cần viết mã Java hoặc Python).
- Thực hiện lọc dữ liệu, chuyển đổi, tổng hợp, kết hợp, phân vùng theo cửa sổ và phân nhóm phiên hoàn toàn bằng SQL.
- Thiết kế và triển khai các truy vấn tương tác, liên tục cho ETL luồng và phân tích thời gian thực.
Apache NiFi dành cho Quản trị viên
21 HoursTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này (tại chỗ hoặc từ xa), người tham gia sẽ học cách triển khai và quản lý Apache NiFi trong môi trường phòng thí nghiệm trực tiếp.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Apachi NiFi.
- Thu thập, chuyển đổi và quản lý dữ liệu từ nhiều nguồn dữ liệu phân tán khác nhau, bao gồm cơ sở dữ liệu và các hồ dữ liệu lớn.
- Tự động hóa luồng dữ liệu.
- Kích hoạt phân tích luồng.
- Áp dụng các phương pháp khác nhau để đưa dữ liệu vào.
- Chuyển đổi Big Data thành thông tin chi tiết hữu ích cho doanh nghiệp.
Apache NiFi dành cho Nhà phát triển
7 HoursTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học các nguyên tắc cơ bản của lập trình dựa trên luồng khi phát triển một số tiện ích mở rộng, thành phần và bộ xử lý bằng Apache NiFi.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu kiến trúc và khái niệm luồng dữ liệu của NiFi.
- Phát triển các tiện ích mở rộng bằng NiFi và API của bên thứ ba.
- Tự phát triển bộ xử lý Apache Nifi của riêng họ.
- Thu thập và xử lý dữ liệu thời gian thực từ các định dạng tệp và nguồn dữ liệu khác nhau và không phổ biến.
Python và Spark cho Big Data (PySpark)
21 HoursTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học cách sử dụng Python và Spark cùng nhau để phân tích dữ liệu lớn thông qua các bài tập thực hành.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Học cách sử dụng Spark với Python để phân tích Big Data.
- Thực hành các bài tập mô phỏng các trường hợp thực tế.
- Sử dụng các công cụ và kỹ thuật khác nhau để phân tích dữ liệu lớn bằng PySpark.
Spark Streaming với Python và Kafka
7 HoursKhóa đào tạo trực tiếp, trực tuyến hoặc tại chỗ này dành cho các kỹ sư dữ liệu, nhà khoa học dữ liệu và lập trình viên muốn sử dụng các tính năng của Spark Streaming để xử lý và phân tích dữ liệu thời gian thực.
Khi kết thúc khóa đào tạo, người tham gia sẽ có thể sử dụng Spark Streaming để xử lý các luồng dữ liệu trực tiếp để sử dụng trong cơ sở dữ liệu, hệ thống tệp và bảng điều khiển trực tiếp.
Apache Spark MLlib
35 HoursMLlib là thư viện học máy (ML) của Spark. Mục tiêu của nó là làm cho việc học máy thực tế có thể mở rộng và dễ dàng. Nó bao gồm các thuật toán và tiện ích học tập phổ biến, bao gồm phân loại, hồi quy, phân cụm, lọc cộng tác, giảm chiều, cũng như các nguyên thủy tối ưu hóa cấp thấp và API pipeline cấp cao.
Nó được chia thành hai gói:
-
spark.mllib chứa API ban đầu được xây dựng trên RDD.
-
spark.ml cung cấp API cấp cao được xây dựng trên DataFrames để xây dựng pipeline ML.
Đối tượng
Khóa học này dành cho các kỹ sư và nhà phát triển muốn sử dụng Thư viện Máy học tích hợp cho Apache Spark
Stratio: Các Module Rocket và Intelligence với PySpark
14 HoursStratio là một nền tảng tập trung vào dữ liệu, tích hợp big data, AI và quản trị thành một giải pháp duy nhất. Các mô-đun Rocket và Intelligence của nó cho phép khám phá dữ liệu nhanh chóng, chuyển đổi và phân tích nâng cao trong các môi trường doanh nghiệp.
khóa học trực tiếp này (trực tuyến hoặc tại chỗ) được thiết kế dành cho chuyên gia dữ liệu có trình độ trung cấp muốn sử dụng hiệu quả các mô-đun Rocket và Intelligence trong Stratio với PySpark, tập trung vào cấu trúc lặp, hàm do người dùng định nghĩa và logic dữ liệu nâng cao.
Sau khi hoàn thành khóa học này, người tham gia sẽ có khả năng:
- Điều hướng và làm việc trong nền tảng Stratio bằng cách sử dụng các mô-đun Rocket và Intelligence.
- Áp dụng PySpark trong ngữ cảnh nhập dữ liệu, chuyển đổi và phân tích.
- Sử dụng vòng lặp và logic điều kiện để kiểm soát luồng làm việc dữ liệu và các tác vụ công trình tính năng.
- Tạo và quản lý hàm do người dùng định nghĩa (UDFs) cho các hoạt động dữ liệu có thể tái sử dụng trong PySpark.
Định dạng của khóa học
- Bài giảng và thảo luận tương tác.
- Nhiều bài tập và thực hành.
- Thực hiện trực tiếp trong môi trường phòng thí nghiệm trực tiếp.
Tùy chọn Tùy chỉnh Khóa học
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.