Khoá học về SMACK Stack cho Khoa học Dữ liệu Khóa Học Đào Tạo
SMACK là một bộ sưu tập các phần mềm nền tảng dữ liệu, bao gồm Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, và Apache Kafka. Sử dụng bộ SMACK, người dùng có thể tạo ra và mở rộng các nền tảng xử lý dữ liệu.
Khóa học này được hướng dẫn trực tiếp (trực tuyến hoặc trực tiếp tại địa điểm) và hướng đến các nhà khoa học dữ liệu muốn sử dụng bộ SMACK để xây dựng các nền tảng xử lý dữ liệu cho các giải pháp big data.
Sau khi hoàn thành khóa học này, các tham gia sẽ có thể:
- Triển khai một kiến trúc đường ống dữ liệu để xử lý big data.
- Phát triển một cơ sở hạ tầng cụm với Apache Mesos và Docker.
- Phân tích dữ liệu với Spark và Scala.
- Quản lý dữ liệu không cấu trúc với Apache Cassandra.
Định dạng của khóa học
- Bài giảng và thảo luận tương tác.
- Nhiều bài tập và thực hành.
- Thực hiện trực tiếp trong môi trường phòng thí nghiệm trực tiếp.
Tùy chọn tùy chỉnh khóa học
- Để yêu cầu một khóa học được tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Đề cương khóa học
Giới thiệu
Tổng quan về bộ cài đặt SMACK
- Apache Spark là gì? Các tính năng của Apache Spark
- Apache Mesos là gì? Các tính năng của Apache Mesos
- Apache Akka là gì? Các tính năng của Apache Akka
- Apache Cassandra là gì? Các tính năng của Apache Cassandra
- Apache Kafka là gì? Các tính năng của Apache Kafka
Ngôn ngữ Scala
- Cú pháp và cấu trúc của Scala
- Luồng điều khiển của Scala
Chuẩn bị môi trường phát triển
- Cài đặt và cấu hình bộ cài đặt SMACK
- Cài đặt và cấu hình Docker
Apache Akka
- Sử dụng các diễn viên
Apache Cassandra
- Tạo cơ sở dữ liệu cho các hoạt động đọc
- Làm việc với sao lưu và phục hồi
Các kết nối
- Tạo luồng
- Xây dựng ứng dụng Akka
- Lưu trữ dữ liệu với Cassandra
- Xem xét các kết nối
Apache Kafka
- Làm việc với cụm
- Tạo, xuất bản và tiêu thụ tin nhắn
Apache Mesos
- Phân bổ tài nguyên
- Chạy cụm
- Làm việc với Apache Aurora và Docker
- Chạy dịch vụ và công việc
- Triển khai Spark, Cassandra và Kafka trên Mesos
Apache Spark
- Quản lý luồng dữ liệu
- Làm việc với RDDs và dataframes
- Thực hiện phân tích dữ liệu
Giải quyết sự cố
- Xử lý lỗi và các vấn đề của các dịch vụ
Tổng kết và kết luận
Yêu cầu
- Hiểu về hệ thống xử lý dữ liệu
Đối tượng học viên
- Nhà khoa học dữ liệu
Khóa học đào tạo mở cần có ít nhất 5 người tham gia.
Khoá học về SMACK Stack cho Khoa học Dữ liệu Khóa Học Đào Tạo - Đặt chỗ
Khoá học về SMACK Stack cho Khoa học Dữ liệu Khóa Học Đào Tạo - Yêu cầu thông tin
Khoá học về SMACK Stack cho Khoa học Dữ liệu - Yêu cầu tư vấn
Yêu cầu tư vấn
Đánh giá (1)
rất tương tác...
Richard Langford
Khóa học - SMACK Stack for Data Science
Dịch thuật bằng máy
Các khóa học sắp tới
Các khóa học liên quan
Hệ thống Ecosystem cho Khoa học Dữ liệu
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu muốn sử dụng hệ sinh thái Anaconda để thu thập, quản lý và triển khai các gói và quy trình phân tích dữ liệu trên một nền tảng duy nhất.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình các thành phần và thư viện Anaconda.
- Hiểu các khái niệm, tính năng và lợi ích cốt lõi của Anaconda.
- Quản lý các gói, môi trường và kênh bằng Anaconda Navigator.
- Sử dụng các gói Conda, R và Python cho khoa học dữ liệu và học máy.
- Tìm hiểu một số trường hợp sử dụng thực tế và kỹ thuật quản lý nhiều môi trường dữ liệu.
Big Data Business Intelligence cho nhà cung cấp dịch vụ Telecom và Communication
35 Giờ họcTổng quan
Các nhà cung cấp dịch vụ Communications (CSP) đang phải đối mặt với áp lực giảm chi phí và tối đa hóa doanh thu trung bình trên mỗi người dùng (ARPU), đồng thời đảm bảo trải nghiệm khách hàng tuyệt vời, nhưng khối lượng dữ liệu vẫn tiếp tục tăng. Lưu lượng dữ liệu di động toàn cầu sẽ tăng trưởng với tốc độ tăng trưởng hàng năm gộp (CAGR) là 78% đến năm 2016, đạt 10,8 exabyte mỗi tháng.
Trong khi đó, các CSP đang tạo ra lượng lớn dữ liệu, bao gồm hồ sơ chi tiết cuộc gọi (CDR), dữ liệu mạng và dữ liệu khách hàng. Các công ty khai thác đầy đủ dữ liệu này sẽ có lợi thế cạnh tranh. Theo một khảo sát gần đây của The Economist Intelligence Unit, các công ty sử dụng việc ra quyết định dựa trên dữ liệu có mức tăng trưởng năng suất từ 5-6%. Tuy nhiên, 53% các công ty chỉ khai thác một nửa dữ liệu có giá trị của họ, và một phần tư số người được hỏi nhận thấy rằng một lượng lớn dữ liệu hữu ích vẫn chưa được khai thác. Khối lượng dữ liệu quá lớn khiến việc phân tích thủ công là bất khả thi, và hầu hết các hệ thống phần mềm cũ không thể đáp ứng được, dẫn đến việc dữ liệu có giá trị bị loại bỏ hoặc bỏ qua.
Với phần mềm big data có tốc độ cao, khả năng mở rộng của Big Data & Analytics, các CSP có thể khai thác tất cả dữ liệu của họ để đưa ra quyết định tốt hơn trong thời gian ngắn hơn. Các sản phẩm và kỹ thuật khác nhau của Big Data cung cấp một nền tảng phần mềm hoàn chỉnh để thu thập, chuẩn bị, phân tích và trình bày thông tin chi tiết từ big data. Các lĩnh vực ứng dụng bao gồm giám sát hiệu suất mạng, phát hiện gian lận, phát hiện khách hàng rời bỏ và phân tích rủi ro tín dụng. Các sản phẩm của Big Data & Analytics có thể mở rộng để xử lý terabyte dữ liệu, nhưng việc triển khai các công cụ này đòi hỏi một hệ thống cơ sở dữ liệu dựa trên đám mây mới như Hadoop hoặc bộ xử lý tính toán song song quy mô lớn (KPU, v.v.).
Khóa học này về BI Big Data cho Telco bao gồm tất cả các lĩnh vực mới nổi mà các CSP đang đầu tư để tăng năng suất và mở ra các nguồn doanh thu mới. Khóa học sẽ cung cấp một cái nhìn toàn diện 360 độ về BI Big Data trong Telco để các nhà quản lý và người ra quyết định có thể có một cái nhìn tổng quan rộng rãi và toàn diện về các khả năng của BI Big Data trong Telco để tăng năng suất và doanh thu.
Mục tiêu khóa học
Mục tiêu chính của khóa học là giới thiệu các kỹ thuật tình báo nghiệp vụ Big Data mới trong 4 lĩnh vực của Telecom Business (Marketing/Bán hàng, Vận hành Mạng, Vận hành Tài chính và Quan hệ Khách hàng Management). Sinh viên sẽ được giới thiệu những điều sau:
- Giới thiệu về Big Data - 4Vs (khối lượng, tốc độ, sự đa dạng và tính xác thực) trong Big Data - Tạo, trích xuất và quản lý từ góc độ Telco
- Phân tích Big Data khác với phân tích dữ liệu cũ như thế nào
- Chứng minh tính hợp lý của Big Data trong nội bộ - Góc độ Telco
- Giới thiệu về Hệ sinh thái Hadoop - làm quen với tất cả các công cụ Hadoop như Hive, Pig, SPARC - khi nào và làm thế nào chúng được sử dụng để giải quyết các vấn đề Big Data
- Cách trích xuất Big Data để phân tích cho các công cụ phân tích - cách Business Analysis có thể giảm bớt các điểm khó khăn của họ trong việc thu thập và phân tích dữ liệu thông qua cách tiếp cận bảng điều khiển Hadoop tích hợp
- Giới thiệu cơ bản về phân tích thông tin chi tiết, phân tích trực quan và phân tích dự đoán cho Telco
- Phân tích rời bỏ khách hàng và Big Data - cách phân tích Big Data có thể giảm thiểu tình trạng rời bỏ khách hàng và sự không hài lòng của khách hàng trong Telco - các nghiên cứu điển hình
- Phân tích lỗi mạng và lỗi dịch vụ từ siêu dữ liệu mạng và IPDR
- Phân tích tài chính - gian lận, lãng phí và ước tính ROI từ dữ liệu bán hàng và vận hành
- Vấn đề thu hút khách hàng - Tiếp thị mục tiêu, phân khúc khách hàng và bán chéo từ dữ liệu bán hàng
- Giới thiệu và tóm tắt tất cả các sản phẩm phân tích Big Data và vị trí của chúng trong không gian phân tích Telco
- Kết luận - cách tiếp cận từng bước để giới thiệu Big Data Business Intelligence trong tổ chức của bạn
Đối tượng mục tiêu
- Nhà vận hành mạng, Quản lý tài chính, Quản lý CRM và các nhà quản lý IT hàng đầu trong văn phòng CIO của Telco.
- Nhà phân tích Business trong Telco
- Quản lý/Nhà phân tích văn phòng CFO
- Quản lý vận hành
- Quản lý QA
Một Giới thiệu Thực tế về Khoa học Dữ liệu
35 Giờ họcNhững người tham gia hoàn thành khóa đào tạo này sẽ có được sự hiểu biết thực tế và ứng dụng cao về Data Science và các công nghệ, phương pháp luận và công cụ liên quan.
Người tham gia sẽ có cơ hội áp dụng kiến thức này vào thực tế thông qua các bài tập thực hành. Tương tác nhóm và phản hồi từ giảng viên là một phần quan trọng của lớp học.
Khóa học bắt đầu với phần giới thiệu về các khái niệm cơ bản của Data Science, sau đó đi sâu vào các công cụ và phương pháp luận được sử dụng trong Data Science.
Đối tượng
- Nhà phát triển
- Chuyên viên phân tích kỹ thuật
- Tư vấn viên IT
Hình thức của Khóa học
- Kết hợp giảng lý, thảo luận, bài tập và thực hành chuyên sâu
Lưu ý
- Để yêu cầu một khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Data Science Programme
245 Giờ họcThe explosion of information and data in today’s world is un-paralleled, our ability to innovate and push the boundaries of the possible is growing faster than it ever has. The role of Data Scientist is one of the highest in-demand skills across industry today.
We offer much more than learning through theory; we deliver practical, marketable skills that bridge the gap between the world of academia and the demands of industry.
This 7 week curriculum can be tailored to your specific Industry requirements, please contact us for further information or visit the Nobleprog Institute website
Audience:
This programme is aimed post level graduates as well as anyone with the required pre-requisite skills which will be determined by an assessment and interview.
Delivery:
Delivery of the course will be a mixture of Instructor Led Classroom and Instructor Led Online; typically the 1st week will be 'classroom led', weeks 2 - 6 'virtual classroom' and week 7 back to 'classroom led'.
Khoa học Dữ liệu cho Phân tích Dữ liệu Lớn
35 Giờ họcDữ liệu lớn là các tập dữ liệu có dung lượng và độ phức tạp quá lớn khiến phần mềm ứng dụng xử lý dữ liệu truyền thống không thể đáp ứng được. Những thách thức của dữ liệu lớn bao gồm thu thập dữ liệu, lưu trữ dữ liệu, phân tích dữ liệu, tìm kiếm, chia sẻ, truyền tải, trực quan hóa, truy vấn, cập nhật và bảo mật thông tin.
Data Science essential for Marketing/Sales professionals
21 Giờ học
This course is meant for Marketing Sales Professionals who are intending to get deeper into application of data science in Marketing/ Sales. The course provides
detailed coverage of different data science techniques used for “upsale”, “cross-sale”, market segmentation, branding and CLV.
Difference of Marketing and Sales - How is that sales and marketing are different?
In very simplewords, sales can be termed as a process which focuses or targets on individuals or small groups. Marketing on the other hand targets a larger group or the general public. Marketing includes research (identifying needs of the customer), development of products (producing innovative products) and promoting the product (through advertisements) and create awareness about the product among the consumers. As such marketing means generating leads or prospects. Once the product is out in the market, it is the task of the sales person to persuade the customer to buy the product. Sales means converting the leads or prospects into purchases and orders, while marketing is aimed at longer terms, sales pertain to shorter goals.
Jupyter cho Đội ngũ Khoa học Dữ liệu
7 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) giới thiệu ý tưởng về phát triển cộng tác trong khoa học dữ liệu và trình bày cách sử dụng Jupyter để theo dõi và tham gia với tư cách là một nhóm trong "vòng đời của một ý tưởng tính toán". Khóa học hướng dẫn người tham gia qua quá trình tạo một dự án khoa học dữ liệu mẫu dựa trên hệ sinh thái Jupyter.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình Jupyter, bao gồm tạo và tích hợp một kho lưu trữ nhóm trên Git.
- Sử dụng các tính năng của Jupyter như tiện ích mở rộng, widget tương tác, chế độ đa người dùng và hơn thế nữa để cho phép cộng tác dự án.
- Tạo, chia sẻ và tổ chức các Jupyter Notebook với các thành viên trong nhóm.
- Chọn từ Scala, Python, R để viết và thực thi mã trên các hệ thống dữ liệu lớn như Apache Spark, tất cả thông qua giao diện Jupyter.
Kaggle
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và nhà phát triển muốn học hỏi và xây dựng sự nghiệp của họ trong Data Science bằng cách sử dụng Kaggle.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Tìm hiểu về khoa học dữ liệu và học máy.
- Khám phá phân tích dữ liệu.
- Tìm hiểu về Kaggle và cách thức hoạt động của nó.
Cơ bản về MATLAB, Khoa học Dữ liệu và Tạo Báo cáo
35 Giờ họcỞ phần đầu tiên của khóa đào tạo này, chúng tôi sẽ trình bày những kiến thức cơ bản về MATLAB và chức năng của nó vừa là một ngôn ngữ vừa là một nền tảng. Nội dung thảo luận bao gồm giới thiệu về cú pháp MATLAB, mảng và ma trận, trực quan hóa dữ liệu, phát triển script và các nguyên tắc hướng đối tượng.
Ở phần thứ hai, chúng tôi sẽ trình bày cách sử dụng MATLAB cho khai thác dữ liệu, học máy và phân tích dự đoán. Để cung cấp cho người tham gia một cái nhìn rõ ràng và thực tế về cách tiếp cận và sức mạnh của MATLAB, chúng tôi sẽ so sánh việc sử dụng MATLAB với việc sử dụng các công cụ khác như bảng tính, C, C++ và Visual Basic.
Ở phần thứ ba của khóa đào tạo, người tham gia sẽ học cách tối ưu hóa công việc của họ bằng cách tự động hóa quy trình xử lý dữ liệu và tạo báo cáo.
Trong suốt khóa học, người tham gia sẽ áp dụng những kiến thức đã học thông qua các bài tập thực hành trong môi trường phòng thí nghiệm. Đến cuối khóa đào tạo, người tham gia sẽ có kiến thức toàn diện về khả năng của MATLAB và có thể sử dụng nó để giải quyết các vấn đề khoa học dữ liệu thực tế cũng như tối ưu hóa công việc thông qua tự động hóa.
Đánh giá sẽ được thực hiện trong suốt khóa học để theo dõi tiến độ.
Hình thức của Khóa học
- Khóa học bao gồm các bài tập lý thuyết và thực hành, bao gồm thảo luận tình huống, kiểm tra mã mẫu và thực hiện thực tế.
Lưu ý
- Các buổi thực hành sẽ dựa trên các mẫu báo cáo dữ liệu được sắp xếp trước. Nếu bạn có các yêu cầu cụ thể, vui lòng liên hệ với chúng tôi để sắp xếp.
Machine Learning for Data Science with Python
21 Giờ họcThis instructor-led, live training in Việt Nam (online or onsite) is aimed at intermediate-level data analysts, developers, or aspiring data scientists who wish to apply machine learning techniques in Python to extract insights, make predictions, and automate data-driven decisions.
By the end of this course, participants will be able to:
- Understand and differentiate key machine learning paradigms.
- Explore data preprocessing techniques and model evaluation metrics.
- Apply machine learning algorithms to solve real-world data problems.
- Use Python libraries and Jupyter notebooks for hands-on development.
- Build models for prediction, classification, recommendation, and clustering.
Tăng tốc độ làm việc với Pandas trong Python bằng Modin
14 Giờ họcKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và nhà phát triển muốn sử dụng Modin để xây dựng và triển khai các phép tính song song với Pandas để phân tích dữ liệu nhanh hơn.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường cần thiết để bắt đầu phát triển các quy trình làm việc Pandas quy mô lớn với Modin.
- Hiểu các tính năng, kiến trúc và lợi thế của Modin.
- Nắm vững sự khác biệt giữa Modin, Dask và Ray.
- Thực hiện các thao tác Pandas nhanh hơn với Modin.
- Triển khai toàn bộ API và các hàm Pandas.
Lập trình Python cho Tài chính
35 Giờ họcPython là một ngôn ngữ lập trình đã và đang trở nên cực kỳ phổ biến trong ngành tài chính. Được áp dụng bởi các ngân hàng đầu tư và quỹ phòng hộ lớn nhất, Python đang được sử dụng để xây dựng một loạt các ứng dụng tài chính đa dạng, từ các chương trình giao dịch cốt lõi đến các hệ thống quản lý rủi ro.
Trong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này, người tham gia sẽ học cách sử dụng Python để phát triển các ứng dụng thực tế nhằm giải quyết một số vấn đề cụ thể liên quan đến tài chính.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu các nguyên tắc cơ bản của ngôn ngữ lập trình Python
- Tải xuống, cài đặt và duy trì các công cụ phát triển tốt nhất để tạo các ứng dụng tài chính bằng Python
- Lựa chọn và sử dụng các gói và kỹ thuật lập trình Python phù hợp nhất để tổ chức, trực quan hóa và phân tích dữ liệu tài chính từ nhiều nguồn khác nhau (CSV, Excel, cơ sở dữ liệu, web, v.v.)
- Xây dựng các ứng dụng giải quyết các vấn đề liên quan đến phân bổ tài sản, phân tích rủi ro, hiệu suất đầu tư và hơn thế nữa
- Khắc phục sự cố, tích hợp, triển khai và tối ưu hóa một ứng dụng Python
Đối tượng
- Nhà phát triển
- Nhà phân tích
- Chuyên gia định lượng (Quants)
Định dạng khóa học
- Kết hợp bài giảng, thảo luận, bài tập và thực hành chuyên sâu
Lưu ý
- Khóa đào tạo này hướng đến việc cung cấp giải pháp cho một số vấn đề chính mà các chuyên gia tài chính gặp phải. Tuy nhiên, nếu bạn có một chủ đề, công cụ hoặc kỹ thuật cụ thể mà bạn muốn bổ sung hoặc làm rõ thêm, vui lòng liên hệ với chúng tôi để sắp xếp.
Khoa học Dữ liệu với GPU sử dụng NVIDIA RAPIDS
14 Giờ họcKhóa học trực tiếp của giáo viên (trực tuyến hoặc trực tiếp tại cơ sở) này được hướng dẫn cho các nhà khoa học dữ liệu và nhà phát triển muốn sử dụng RAPIDS để xây dựng các pipeline, luồng làm việc, và hình ảnh trực quan được tăng tốc bởi GPU, áp dụng các thuật toán học máy như XGBoost, cuML, và các thuật toán khác.
Đến cuối khóa học này, các tham gia sẽ có thể:
- Cài đặt môi trường phát triển cần thiết để xây dựng các mô hình dữ liệu với NVIDIA RAPIDS.
- Hiểu về các tính năng, thành phần, và lợi ích của RAPIDS.
- Tận dụng GPU để tăng tốc các pipeline dữ liệu và phân tích dữ liệu từ đầu đến cuối.
- Thực hiện chuẩn bị dữ liệu và ETL được tăng tốc bởi GPU với cuDF và Apache Arrow.
- Học cách thực hiện các tác vụ học máy với các thuật toán XGBoost và cuML.
- Xây dựng hình ảnh trực quan dữ liệu và thực hiện phân tích đồ thị với cuXfilter và cuGraph.
Python và Spark cho Dữ liệu Lớn (PySpark)
21 Giờ họcTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học cách sử dụng Python và Spark cùng nhau để phân tích dữ liệu lớn thông qua các bài tập thực hành.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Học cách sử dụng Spark với Python để phân tích Big Data.
- Thực hành các bài tập mô phỏng các trường hợp thực tế.
- Sử dụng các công cụ và kỹ thuật khác nhau để phân tích dữ liệu lớn bằng PySpark.
Stratio: Các Module Rocket và Intelligence với PySpark
14 Giờ họcStratio là một nền tảng tập trung vào dữ liệu, tích hợp big data, AI và quản trị thành một giải pháp duy nhất. Các mô-đun Rocket và Intelligence của nó cho phép khám phá dữ liệu nhanh chóng, chuyển đổi và phân tích nâng cao trong các môi trường doanh nghiệp.
khóa học trực tiếp này (trực tuyến hoặc tại chỗ) được thiết kế dành cho chuyên gia dữ liệu có trình độ trung cấp muốn sử dụng hiệu quả các mô-đun Rocket và Intelligence trong Stratio với PySpark, tập trung vào cấu trúc lặp, hàm do người dùng định nghĩa và logic dữ liệu nâng cao.
Sau khi hoàn thành khóa học này, người tham gia sẽ có khả năng:
- Điều hướng và làm việc trong nền tảng Stratio bằng cách sử dụng các mô-đun Rocket và Intelligence.
- Áp dụng PySpark trong ngữ cảnh nhập dữ liệu, chuyển đổi và phân tích.
- Sử dụng vòng lặp và logic điều kiện để kiểm soát luồng làm việc dữ liệu và các tác vụ công trình tính năng.
- Tạo và quản lý hàm do người dùng định nghĩa (UDFs) cho các hoạt động dữ liệu có thể tái sử dụng trong PySpark.
Định dạng của khóa học
- Bài giảng và thảo luận tương tác.
- Nhiều bài tập và thực hành.
- Thực hiện trực tiếp trong môi trường phòng thí nghiệm trực tiếp.
Tùy chọn Tùy chỉnh Khóa học
- Để yêu cầu đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.