Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực Khóa Học Đào Tạo
Giới thiệu Khóa học
Khóa học này cung cấp phần giới thiệu thực tế và có cấu trúc về việc xây dựng các hệ thống truyền dữ liệu thời gian thực. Nội dung bao gồm các khái niệm cốt lõi, mô hình kiến trúc và các công cụ công nghiệp được sử dụng để xử lý dữ liệu liên tục ở quy mô lớn. Người tham gia sẽ học cách thiết kế, triển khai và tối ưu hóa các đường dẫn truyền dữ liệu (streaming pipelines) bằng các khung công nghệ hiện đại. Khóa học tiến triển từ những ý tưởng nền tảng đến các ứng dụng thực hành, giúp người học tự tin xây dựng các giải pháp thời gian thực sẵn sàng cho môi trường sản xuất.
Hình thức Đào tạo
• Các phiên hướng dẫn bởi giảng viên với giải thích có hệ thống
• Phân tích khái niệm kèm theo ví dụ thực tế
• Biểu diễn thực hành và các bài tập lập trình
• Các phòng lab tiến bộ, phù hợp với các chủ đề hàng ngày
• Thảo luận tương tác và Hỏi & Đáp
Mục tiêu Khóa học
• Hiểu rõ các khái niệm về truyền dữ liệu thời gian thực và kiến trúc hệ thống
• Phân biệt giữa các mô hình xử lý dữ liệu theo batch và streaming
• Thiết kế các đường dẫn streaming có thể mở rộng và chịu lỗi
• Làm việc với các công cụ và khung công nghệ streaming phân tán
• Áp dụng xử lý theo thời gian sự kiện, kỹ thuật windowing và các thao tác có trạng thái
• Xây dựng và tối ưu hóa các giải pháp dữ liệu thời gian thực cho các trường hợp sử dụng kinh doanh
Đề cương khóa học
Nội dung Khóa học Ngày 1
• Giới thiệu về các khái niệm dữ liệu streaming
• Nền tảng của xử lý theo batch so với xử lý thời gian thực
• Cơ bản về kiến trúc hướng sự kiện
• Các trường hợp sử dụng phổ biến trong công nghiệp
• Tổng quan về hệ sinh thái streaming
Ngày 2
• Các mẫu thiết kế kiến trúc streaming
• Nền tảng của các hệ thống nhắn tin phân tán
• Người sản xuất (Producers) và người tiêu thụ (Consumers)
• Các chủ đề (topics), phân vùng (partitions) và luồng dữ liệu
• Các chiến lược thu thập dữ liệu
Ngày 3
• Khái niệm và khung công nghệ xử lý luồng dữ liệu
• Thời gian sự kiện (Event time) so với thời gian xử lý
• Các kỹ thuật windowing và trường hợp sử dụng
• Xử lý luồng dữ liệu có trạng thái
• Cơ bản về khả năng chịu lỗi và cơ chế kiểm tra điểm (checkpointing)
Ngày 4
• Chuyển đổi dữ liệu trong các đường dẫn streaming
• ETL và ELT trong các hệ thống thời gian thực
• Quản lý và tiến hóa lược đồ dữ liệu
• Kết nối và làm giàu dữ liệu luồng
• Giới thiệu về các dịch vụ streaming dựa trên đám mây
Ngày 5
• Giám sát và khả năng quan sát trong các hệ thống streaming
• Cơ bản về bảo mật và kiểm soát truy cập
• Tinh chỉnh hiệu năng và tối ưu hóa
• Đánh giá lại thiết kế đường dẫn từ đầu đến cuối
• Các trường hợp sử dụng thực tế như phát hiện gian lận và xử lý IoT
Khóa học đào tạo mở cần có ít nhất 5 người tham gia.
Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực Khóa Học Đào Tạo - Đặt chỗ
Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực Khóa Học Đào Tạo - Yêu cầu thông tin
Dữ liệu Streaming và Xử lý Dữ liệu Thời gian Thực - Yêu cầu tư vấn
Đánh giá (1)
Bài tập thực hành. Lớp học dự kiến kéo dài 5 ngày, nhưng 3 ngày đã giúp giải đáp nhiều câu hỏi mà tôi gặp phải khi làm việc với NiFi.
James - BHG Financial
Khóa học - Apache NiFi for Administrators
Dịch thuật bằng máy
Các khóa học sắp tới
Các khóa học liên quan
Apache Iceberg Nâng Cao
21 GiờKhóa học này được dẫn dắt trực tiếp (online hoặc trực tiếp) được thiết kế cho các chuyên gia dữ liệu cấp cao muốn tối ưu hóa luồng xử lý dữ liệu, đảm bảo tính toàn vẹn của dữ liệu, và triển khai các giải pháp data lakehouse mạnh mẽ có thể xử lý các phức tạp của các ứng dụng big data hiện đại.
Đến cuối khóa học, các thí sinh sẽ có thể:
- Hiểu sâu về kiến trúc của Iceberg, bao gồm quản lý metadata và bố cục tập tin.
- Cấu hình Iceberg để đạt hiệu suất tối ưu trong các môi trường khác nhau và tích hợp nó với nhiều engine xử lý dữ liệu.
- Quản lý các bảng Iceberg lớn, thực hiện các thay đổi schema phức tạp và xử lý tiến hóa phân vùng.
- Thao tác kỹ thuật để tối ưu hóa hiệu suất truy vấn và hiệu suất quét dữ liệu cho các bộ dữ liệu lớn.
- Triển khai các cơ chế để đảm bảo tính nhất quán của dữ liệu, quản lý các bảo đảm giao dịch và xử lý sự cố trong môi trường phân tán.
Cơ bản về Apache Iceberg
14 GiờKhóa học trực tiếp do giáo viên hướng dẫn (trực tuyến hoặc tại chỗ) này dành cho các chuyên gia dữ liệu cấp độ cơ bản muốn thu được kiến thức và kỹ năng cần thiết để có thể sử dụng Apache Iceberg để quản lý các bộ dữ liệu lớn, đảm bảo tính toàn vẹn dữ liệu, và tối ưu hóa quy trình xử lý dữ liệu.
Đến cuối khóa học, các thí sinh sẽ có thể:
- Hiểu rõ về kiến trúc, tính năng và lợi ích của Apache Iceberg.
- Học về các định dạng bảng, phân vùng, tiến hóa sơ đồ và khả năng du lịch thời gian.
- Cài đặt và cấu hình Apache Iceberg trong các môi trường khác nhau.
- Tạo, quản lý và thao tác với các bảng Iceberg.
- Hiểu quá trình di chuyển dữ liệu từ các định dạng bảng khác sang Iceberg.
Big Data Phân tích dữ liệu với Google Colab và Apache Spark
14 Giờkhóa học trực tuyến hoặc tại chỗ này do giảng viên hướng dẫn (ở Việt Nam) được thiết kế cho các nhà khoa học dữ liệu và kỹ sư cấp trung muốn sử dụng Google Colab và Apache Spark để xử lý và phân tích dữ liệu lớn.
Đến cuối khóa học, người tham gia sẽ có thể:
- Cài đặt môi trường dữ liệu lớn bằng cách sử dụng Google Colab và Spark.
- Xử lý và phân tích các tập dữ liệu lớn một cách hiệu quả với Apache Spark.
- Biểu đồ hóa dữ liệu lớn trong môi trường hợp tác.
- Tích hợp Apache Spark với công cụ dựa trên đám mây.
Trí tuệ kinh doanh Big Data cho các cơ quan chính phủ
35 GiờNhững tiến bộ công nghệ và lượng thông tin ngày càng tăng đang thay đổi cách thức hoạt động trong nhiều ngành công nghiệp, bao gồm cả chính phủ. Tốc độ tạo ra dữ liệu và lưu trữ số hóa của các cơ quan chính phủ đang gia tăng nhờ sự phát triển nhanh chóng của thiết bị di động và ứng dụng, cảm biến thông minh và thiết bị, giải pháp điện toán đám mây, và cổng dịch vụ dành cho công dân. Khi thông tin số hóa mở rộng và trở nên phức tạp hơn, việc quản lý, xử lý, lưu trữ, bảo mật và phân loại thông tin cũng trở nên phức tạp hơn. Các công cụ mới để thu thập, tìm kiếm, khám phá và phân tích đang giúp các tổ chức khai thác insights từ dữ liệu không cấu trúc của họ. Thị trường chính phủ đang ở điểm bùng nổ, nhận ra rằng thông tin là một tài sản chiến lược, và chính phủ cần bảo vệ, tận dụng và phân tích cả dữ liệu có cấu trúc và không cấu trúc để phục vụ tốt hơn và đáp ứng yêu cầu nhiệm vụ. Khi các lãnh đạo chính phủ cố gắng phát triển tổ chức dựa trên dữ liệu để hoàn thành nhiệm vụ, họ đang xây dựng nền tảng để liên kết các sự kiện, con người, quy trình và thông tin.
Các giải pháp giá trị cao cho chính phủ sẽ được tạo ra từ sự kết hợp của những công nghệ mang tính đột phá:
- Thiết bị di động và ứng dụng
- Dịch vụ đám mây
- Công nghệ và mạng lưới kinh doanh xã hội
- Big Data và phân tích
Big Data là một trong những giải pháp ngành thông minh, giúp chính phủ ra quyết định tốt hơn dựa trên các mô hình được tiết lộ khi phân tích dữ liệu lớn - liên quan và không liên quan, có cấu trúc và không có cấu trúc.
Nhưng việc đạt được những thành tựu này đòi hỏi nhiều hơn chỉ là thu thập một lượng lớn dữ liệu. “Để hiểu được các khối lượng lớn dữ liệu Big Data này cần công cụ và công nghệ tiên tiến có thể phân tích và trích xuất kiến thức hữu ích từ các dòng thông tin rộng lớn và đa dạng,” Tom Kalil và Fen Zhao của Văn phòng Khoa học và Công nghệ Nhà Trắng viết trong một bài đăng trên blog OSTP.
Nhà Trắng đã tiến một bước để giúp các cơ quan tìm ra những công nghệ này khi thành lập Sáng kiến Nghiên cứu và Phát triển Big Data Quốc gia vào năm 2012. Sáng kiến bao gồm hơn 200 triệu đô la để tận dụng sự bùng nổ của Big Data và các công cụ cần thiết để phân tích nó.
Những thách thức mà Big Data đặt ra gần như đáng sợ như lời hứa hẹn của nó. Lưu trữ dữ liệu hiệu quả là một trong những thách thức này. Ngân sách luôn eo hẹp, vì vậy các cơ quan phải tối thiểu hóa chi phí lưu trữ mỗi megabyte và giữ dữ liệu dễ dàng truy cập để người dùng có thể lấy nó khi họ muốn và cách họ cần. Sao chép lượng lớn dữ liệu làm tăng thêm thách thức.
Phân tích dữ liệu hiệu quả là một thách thức lớn khác. Nhiều cơ quan sử dụng các công cụ thương mại để giúp họ lọc qua hàng núi dữ liệu, phát hiện xu hướng có thể giúp họ hoạt động hiệu quả hơn. (Một nghiên cứu gần đây của MeriTalk cho thấy các nhà quản lý CNTT liên bang tin rằng Big Data có thể giúp các cơ quan tiết kiệm hơn 500 tỷ đô la trong khi cũng hoàn thành mục tiêu nhiệm vụ.).
Các công cụ phân tích Big Data được phát triển tùy chỉnh cũng đang cho phép các cơ quan giải quyết nhu cầu phân tích dữ liệu của họ. Ví dụ, Nhóm Phân tích Dữ liệu Tính toán của Phòng thí nghiệm Quốc gia Oak Ridge đã cung cấp hệ thống phân tích dữ liệu Piranha của mình cho các cơ quan khác. Hệ thống này đã giúp các nhà nghiên cứu y tế tìm ra một liên kết có thể cảnh báo bác sĩ về bệnh phình động mạch chủ trước khi nó xảy ra. Nó cũng được sử dụng cho những công việc đơn giản hơn, như lọc qua hồ sơ để kết nối ứng viên với quản lý tuyển dụng.
Một Giới thiệu Thực tế về Data Analysis và Big Data - 3 Ngày
21 GiờNhững người tham gia hoàn thành khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam sẽ có được sự hiểu biết thực tế, ứng dụng được về Big Data và các công nghệ, phương pháp và công cụ liên quan.
Người tham gia sẽ có cơ hội áp dụng kiến thức này vào thực tế thông qua các bài tập thực hành. Tương tác nhóm và phản hồi từ giảng viên là một phần quan trọng của khóa học.
Khóa học bắt đầu với phần giới thiệu về các khái niệm cơ bản của Big Data, sau đó đi sâu vào các ngôn ngữ lập trình và phương pháp được sử dụng để thực hiện Data Analysis. Cuối cùng, chúng ta sẽ thảo luận về các công cụ và cơ sở hạ tầng cho phép lưu trữ Big Data, Xử lý phân tán và Scalability.
Big Data và Phân Tích Nâng Cao
42 GiờBig Data và Phân tích Nâng cao là việc áp dụng các kỹ thuật và công cụ phức tạp để phân tích dữ liệu lớn, phức tạp nhằm đưa ra những quyết định chiến lược và có tính hành động.
Buổi đào tạo này do giảng viên hướng dẫn (trực tuyến hoặc trực tiếp) dành cho các chuyên gia dữ liệu cấp cao muốn tận dụng các phương pháp phân tích tiên tiến và công nghệ dữ liệu lớn để thực hiện phân tích dự đoán, đề xuất và thời gian thực.
Tại kết thúc khóa học này, người tham gia sẽ có thể:
- Lập kế hoạch và triển khai quy trình xử lý dữ liệu quy mô lớn cho cả dữ liệu cấu trúc và không cấu trúc.
- Áp dụng các kỹ thuật học máy và học sâu tiên tiến vào các tập dữ liệu khổng lồ.
- Tận dụng các khung làm việc tính toán phân tán cho phân tích thời gian thực và truyền dữ liệu.
- Đưa phân tích dữ liệu lớn vào hệ thống thông tin kinh doanh và ra quyết định.
Thể loại khóa học
- Bài giảng tương tác và thảo luận.
- Nhiều bài tập và thực hành.
- Triển khai thực tế trong môi trường phòng thí nghiệm trực tiếp.
Tùy chọn Tùy chỉnh Khóa Học
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Apache NiFi cho Quản trị viên
21 GiờApache NiFi là một nền tảng tích hợp dữ liệu và xử lý sự kiện dựa trên luồng mã nguồn mở. Nó cho phép tự động hóa, truyền tải dữ liệu thời gian thực, biến đổi và trung gian hệ thống giữa các hệ thống khác nhau, với giao diện người dùng web và kiểm soát chi tiết.
Khóa đào tạo trực tiếp do giảng viên hướng dẫn (trực tiếp hoặc từ xa) này dành cho quản trị viên và kỹ sư trung cấp có mong muốn triển khai, quản lý, bảo mật và tối ưu hóa các dòng dữ liệu NiFi trong môi trường sản xuất.
Sau khi kết thúc khóa học, người tham gia sẽ có thể:
- Cài đặt, cấu hình và bảo trì các cụm Apache NiFi.
- Thiết kế và quản lý dòng dữ liệu từ nhiều nguồn và đích.
- Triển khai tự động hóa luồng, định tuyến và biến đổi logic.
- Tối ưu hóa hiệu suất, giám sát hoạt động và khắc phục sự cố.
Định dạng của khóa học
- Bài giảng tương tác với thảo luận về kiến trúc thực tế.
- Thực hành phòng thí nghiệm: xây dựng, triển khai và quản lý dòng dữ liệu.
- Bài tập dựa trên kịch bản trong môi trường phòng thí nghiệm trực tiếp.
Tùy chọn tùy chỉnh khóa học
- Để yêu cầu khóa đào tạo được tùy chỉnh, vui lòng liên hệ với chúng tôi để sắp xếp.
PySpark và Học máy
21 GiờKhóa đào tạo này cung cấp một cái nhìn thực tiễn về việc xây dựng các quy trình xử lý dữ liệu có khả năng mở rộng và quy trình Học máy (Machine Learning) bằng PySpark. Người học sẽ tìm hiểu cách Apache Spark hoạt động trong các hệ sinh thái Dữ liệu lớn (Big Data) hiện đại cũng như cách xử lý hiệu quả các tập dữ liệu lớn dựa trên các nguyên lý tính toán phân tán.
Cơ sở của Apache Spark
21 GiờKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các kỹ sư muốn thiết lập và triển khai hệ thống Apache Spark để xử lý lượng dữ liệu rất lớn.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Apache Spark.
- Xử lý và phân tích nhanh chóng các tập dữ liệu rất lớn.
- Hiểu sự khác biệt giữa Apache Spark và Hadoop MapReduce và khi nào nên sử dụng cái nào.
- Tích hợp Apache Spark với các công cụ học máy khác.
Quản lý Apache Spark
35 GiờKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các quản trị viên hệ thống ở trình độ mới bắt đầu đến trung cấp, những người muốn triển khai, duy trì và tối ưu hóa các cụm Spark.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Apache Spark trong nhiều môi trường.
- Quản lý tài nguyên cụm và giám sát các ứng dụng Spark.
- Tối ưu hóa hiệu suất của các cụm Spark.
- Triển khai các biện pháp bảo mật và đảm bảo tính khả dụng cao.
- Gỡ lỗi và khắc phục các sự cố phổ biến của Spark.
Apache Spark trên đám mây
21 GiờĐường cong học tập của Apache Spark tăng chậm ở giai đoạn đầu, đòi hỏi rất nhiều nỗ lực để đạt được kết quả đầu tiên. Khóa học này hướng đến việc vượt qua phần khó khăn ban đầu đó. Sau khi hoàn thành khóa học này, người tham gia sẽ hiểu các kiến thức cơ bản về Apache Spark, phân biệt rõ ràng RDD và DataFrame, học API Python và Scala, hiểu về executors và tasks, v.v. Đồng thời, tuân thủ các phương pháp thực hành tốt nhất, khóa học tập trung mạnh vào triển khai trên nền tảng đám mây, Databricks và AWS. Người học cũng sẽ hiểu sự khác biệt giữa AWS EMR và AWS Glue, một trong những dịch vụ Spark mới nhất của AWS.
ĐỐI TƯỢNG:
Kỹ sư Dữ liệu, DevOps, Nhà khoa học Dữ liệu
Python và Spark cho Dữ liệu Lớn (PySpark)
21 GiờTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học cách sử dụng Python và Spark cùng nhau để phân tích dữ liệu lớn thông qua các bài tập thực hành.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Học cách sử dụng Spark với Python để phân tích Big Data.
- Thực hành các bài tập mô phỏng các trường hợp thực tế.
- Sử dụng các công cụ và kỹ thuật khác nhau để phân tích dữ liệu lớn bằng PySpark.
Python, Spark, và Hadoop cho Big Data
21 GiờKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà phát triển muốn sử dụng và tích hợp Spark, Hadoop và Python để xử lý, phân tích và chuyển đổi các tập dữ liệu lớn và phức tạp.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường cần thiết để bắt đầu xử lý dữ liệu lớn với Spark, Hadoop và Python.
- Hiểu các tính năng, thành phần cốt lõi và kiến trúc của Spark và Hadoop.
- Tìm hiểu cách tích hợp Spark, Hadoop và Python để xử lý dữ liệu lớn.
- Khám phá các công cụ trong hệ sinh thái Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka và Flume).
- Xây dựng các hệ thống khuyến nghị lọc cộng tác tương tự như Netflix, YouTube, Amazon, Spotify và Google.
- Sử dụng Apache Mahout để mở rộng quy mô các thuật toán học máy.
Stratio: Rocket và Các Mô-đun Trí Tuệ với PySpark
14 GiờStratio là một nền tảng tập trung vào dữ liệu, tích hợp big data, AI và quản lý thành một giải pháp duy nhất. Các mô-đun Rocket và Trí Tuệ của nó cho phép khám phá dữ liệu nhanh chóng, chuyển đổi và phân tích nâng cao trong môi trường doanh nghiệp.
Khóa đào tạo trực tiếp này (trực tuyến hoặc tại chỗ) dành cho các chuyên gia dữ liệu trung cấp muốn sử dụng hiệu quả các mô-đun Rocket và Trí Tuệ trong Stratio với PySpark, tập trung vào cấu trúc lặp, hàm do người dùng định nghĩa và logic dữ liệu nâng cao.
Sau khóa đào tạo này, học viên sẽ có thể:
- Điều hướng và làm việc trong nền tảng Stratio bằng cách sử dụng các mô-đun Rocket và Trí Tuệ.
- Áp dụng PySpark trong bối cảnh nhập liệu, chuyển đổi và phân tích dữ liệu.
- Sử dụng các cấu trúc lặp và logic điều kiện để kiểm soát quy trình xử lý dữ liệu và tác vụ kỹ thuật đặc trưng.
- Tạo và quản lý hàm do người dùng định nghĩa (UDFs) cho các thao tác dữ liệu có thể tái sử dụng trong PySpark.
Định dạng Khóa Học
- Bài giảng tương tác và thảo luận.
- Nhiều bài tập và thực hành.
- Thực hiện trong môi trường lab trực tiếp.
Tùy chỉnh Khóa Học
- Để yêu cầu khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.