Đề cương khóa học

Mỗi buổi học kéo dài 2 giờ

Ngày 1: Buổi 1 - Tổng quan kinh doanh về Big Data BI trong chính phủ

  • Trường hợp nghiên cứu từ NIH, DoE
  • Tỷ lệ thích ứng Big Data trong các cơ quan chính phủ và cách họ điều chỉnh hoạt động tương lai xung quanh Phân tích Dự đoán Big Data
  • Ứng dụng rộng rãi trong DoD, NSA, IRS, USDA, v.v.
  • Giao tiếp Big Data với dữ liệu cũ
  • Hiểu biết cơ bản về công nghệ hỗ trợ trong phân tích dự đoán
  • Tích hợp dữ liệu và trực quan hóa bảng điều khiển
  • Quản lý gian lận
  • Tạo quy tắc kinh doanh/ phát hiện gian lận
  • Phát hiện và tạo hồ sơ đe dọa
  • Phân tích lợi ích chi phí cho việc triển khai Big Data

Ngày 1: Buổi 2 - Giới thiệu về Big Data-1

  • Đặc điểm chính của Big Data - thể tích, đa dạng, tốc độ và xác thực. Kiến trúc MPP cho thể tích.
  • Kho dữ liệu - lược đồ tĩnh, tập hợp dữ liệu tiến triển chậm
  • Cơ sở dữ liệu MPP như Greenplum, Exadata, Teradata, Netezza, Vertica, v.v.
  • Giải pháp dựa trên Hadoop - không có điều kiện về cấu trúc của tập dữ liệu.
  • Mô hình điển hình: HDFS, MapReduce (crunch), truy xuất từ HDFS
  • Phân tích hàng loạt - phù hợp cho phân tích/không tương tác
  • Thể tích: dữ liệu streaming CEP
  • Lựa chọn điển hình - các sản phẩm CEP (ví dụ: Infostreams, Apama, MarkLogic, v.v.)
  • Ít sẵn sàng triển khai - Storm/S4
  • Cơ sở dữ liệu NoSQL (cột và giá trị khóa): Phù hợp nhất để hỗ trợ phân tích cho kho dữ liệu/cơ sở dữ liệu

Ngày 1: Buổi 3 - Giới thiệu về Big Data-2

Giải pháp NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Cấp bậc) - GT.m, Cache
  • KV Store (Được sắp xếp) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Cơ sở dữ liệu Đối tượng - ZopeDB, DB40, Shoal
  • Kho lưu trữ Tài liệu - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Kho cột Rộng - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Các loại dữ liệu: Giới thiệu về vấn đề làm sạch dữ liệu trong Big Data

  • RDBMS - cấu trúc/lược đồ tĩnh, không khuyến khích môi trường linh hoạt, khám phá.
  • NoSQL - dữ liệu bán cấu trúc, đủ cấu trúc để lưu trữ dữ liệu mà không cần lược đồ chính xác trước khi lưu trữ dữ liệu
  • Vấn đề làm sạch dữ liệu

Ngày 1: Buổi 4 - Giới thiệu về Big Data-3: Hadoop

  • Khi nào nên chọn Hadoop?
  • CÓ CẤU TRÚC - Các kho dữ liệu doanh nghiệp/cơ sở dữ liệu có thể lưu trữ lượng lớn dữ liệu (với chi phí) nhưng áp đặt cấu trúc (không phù hợp cho khám phá tích cực)
  • DỮ LIỆU BÁN CẤU TRÚC - khó thực hiện với các giải pháp truyền thống (DW/DB)
  • Lưu trữ dữ liệu = NỖI LỰC lớn và tĩnh ngay cả sau khi triển khai
  • Đối với đa dạng và thể tích của dữ liệu, xử lý trên phần cứng tầm trung - HADOOP
  • Phần cứng tầm trung cần thiết để tạo cụm Hadoop

Giới thiệu về MapReduce /HDFS

  • MapReduce - phân phối tính toán trên nhiều máy chủ
  • HDFS - làm cho dữ liệu sẵn sàng cục bộ cho quá trình tính toán (với sự dự phòng)
  • Dữ liệu - có thể không có cấu trúc/không có lược đồ (khác với RDBMS)
  • Trách nhiệm của nhà phát triển là hiểu dữ liệu
  • Lập trình MapReduce = làm việc với Java (ưu điểm/nhược điểm), tải dữ liệu vào HDFS thủ công

Ngày 2: Buổi 1 - Hệ sinh thái Big Data - Xây dựng ETL Big Data: vũ trụ các công cụ Big Data - sử dụng và khi nào?

  • Hadoop so với các giải pháp NoSQL khác
  • Để truy cập dữ liệu tương tác, ngẫu nhiên
  • Hbase (cơ sở dữ liệu hướng cột) trên Hadoop
  • Truy cập dữ liệu ngẫu nhiên nhưng có giới hạn (tối đa 1 PB)
  • Không phù hợp cho phân tích tự do, tốt cho ghi log, đếm, chuỗi thời gian
  • Sqoop - Nhập dữ liệu từ cơ sở dữ liệu vào Hive hoặc HDFS (truy cập JDBC/ODBC)
  • Flume - Truyền dữ liệu (ví dụ: log data) vào HDFS

Ngày 2: Buổi 2 - Hệ thống quản lý Big Data

  • Các bộ phận chuyển động, các nút tính toán bắt đầu/tắt: ZooKeeper - Để cấu hình/điều phối/danh mục dịch vụ
  • Dòng công việc phức tạp: Oozie - quản lý dòng công việc, phụ thuộc, chuỗi daisy chain
  • Triển khai, cấu hình, quản lý cụm, nâng cấp v.v. (quản trị hệ thống): Ambari
  • Trên đám mây: Whirr

Ngày 2: Buổi 3 - Phân tích dự đoán trong Trí tuệ kinh doanh-1: Kỹ thuật cơ bản & BI dựa trên học máy:

  • Giới thiệu về học máy
  • Học các kỹ thuật phân loại
  • Dự đoán Bayesian - chuẩn bị tệp huấn luyện
  • Máy vectơ hỗ trợ (SVM)
  • KNN p-Tree Algebra & khai thác dọc
  • Mạng nơron
  • Vấn đề biến lớn của Big Data - Rừng ngẫu nhiên (RF)
  • Vấn đề tự động hóa Big Data - Tập hợp đa mô hình RF
  • Tự động hóa thông qua Soft10-M
  • Công cụ phân tích văn bản - Treeminer
  • Học linh hoạt
  • Học dựa trên đại lý
  • Học phân tán
  • Giới thiệu về công cụ nguồn mở cho phân tích dự đoán: R, Rapidminer, Mahut

Ngày 2: Buổi 4 - Hệ sinh thái phân tích dự đoán-2: Các vấn đề phân tích dự đoán phổ biến trong chính phủ

  • Phân tích insight
  • Phân tích trực quan hóa
  • Phân tích dự đoán có cấu trúc
  • Phân tích dự đoán không có cấu trúc
  • Hồ sơ đe dọa/gian lận/nhà cung cấp
  • Máy gợi ý
  • Phát hiện mô hình
  • Phát hiện kịch bản/quy tắc - sự cố, gian lận, tối ưu hóa
  • Phát hiện nguyên nhân gốc rễ
  • Phân tích tình cảm
  • Phân tích CRM
  • Phân tích mạng lưới
  • Phân tích văn bản
  • Xem xét hỗ trợ công nghệ
  • Phân tích gian lận
  • Phân tích thời gian thực

Ngày 3: Buổi 1 - Phân tích thời gian thực và khả năng mở rộng trên Hadoop

  • Tại sao các thuật toán phân tích thông thường thất bại trong Hadoop/HDFS
  • Apache Hama - cho tính toán phân tán đồng bộ hàng loạt
  • Apache SPARK - cho tính toán cụm thời gian thực
  • Phòng thí nghiệm Đồ họa CMU2 - cách tiếp cận không đồng bộ dựa trên đồ thị cho tính toán phân tán
  • Cách tiếp cận KNN p-Algebra từ Treeminer để giảm chi phí phần cứng của hoạt động

Ngày 3: Buổi 2 - Công cụ cho khám phá điện tử (eDiscovery) và điều tra pháp y

  • Khám phá điện tử trên Big Data so với dữ liệu cũ - so sánh chi phí và hiệu suất
  • Mã hóa dự đoán và xem xét hỗ trợ công nghệ (TAR)
  • Mô phỏng trực tiếp sản phẩm TAR (vMiner) để hiểu cách hoạt động của TAR cho khám phá nhanh
  • Chỉ mục hóa nhanh qua HDFS - tốc độ dữ liệu
  • Xử lý ngôn ngữ tự nhiên (NLP) - các kỹ thuật và sản phẩm nguồn mở khác nhau
  • Khám phá điện tử trong ngôn ngữ nước ngoài - công nghệ xử lý ngôn ngữ nước ngoài

Ngày 3: Buổi 3 - Trí tuệ kinh doanh Big Data cho An ninh mạng - Hiểu quan điểm toàn diện về thu thập dữ liệu nhanh chóng đến phát hiện đe dọa

  • Hiểu cơ bản về phân tích an ninh - mặt tấn công, cấu hình an ninh không đúng, phòng thủ máy chủ
  • Cơ sở hạ tầng mạng/đường dẫn dữ liệu lớn/ETL phản hồi cho phân tích thời gian thực
  • Chỉ định vs dự đoán - Dựa trên quy tắc cố định vs phát hiện tự động các quy tắc đe dọa từ siêu dữ liệu

Ngày 3: Buổi 4 - Big Data trong USDA: Ứng dụng trong nông nghiệp

  • Giới thiệu về IoT (Internet of Things) cho nông nghiệp - dữ liệu Big Data dựa trên cảm biến và kiểm soát
  • Giới thiệu về hình ảnh vệ tinh và ứng dụng trong nông nghiệp
  • Tích hợp dữ liệu cảm biến và hình ảnh cho độ phì của đất, khuyến nghị canh tác và dự báo
  • Bảo hiểm nông nghiệp và Big Data
  • Dự báo tổn thất cây trồng

Ngày 4: Buổi 1 - Trí tuệ kinh doanh ngăn ngừa gian lận từ Big Data trong chính phủ - Phân tích gian lận:

  • Phân loại cơ bản của phân tích gian lận - dựa trên quy tắc vs dự đoán
  • Học máy có giám sát vs không giám sát để phát hiện mô hình gian lận
  • Gian lận nhà cung cấp/thanh toán quá mức cho dự án
  • Gian lận Medicare và Medicaid - kỹ thuật phát hiện gian lận trong xử lý yêu cầu thanh toán
  • Gian lận hoàn tiền khi đi công tác
  • Gian lận hoàn thuế của IRS
  • Các nghiên cứu trường hợp và mô phỏng trực tiếp sẽ được cung cấp wherever có dữ liệu.

Ngày 4: Buổi 2 - Phân tích mạng xã hội - Thu thập và phân tích thông tin

  • API ETL Big Data để trích xuất dữ liệu mạng xã hội
  • Văn bản, hình ảnh, siêu dữ liệu và video
  • Phân tích tình cảm từ nguồn cấp dữ liệu mạng xã hội
  • Lọc có ngữ cảnh và không có ngữ cảnh của nguồn cấp dữ liệu mạng xã hội
  • Bảng điều khiển mạng xã hội để tích hợp các mạng xã hội đa dạng
  • Hồ sơ hóa tự động của hồ sơ mạng xã hội
  • Mô phỏng trực tiếp từng phân tích sẽ được cung cấp qua công cụ Treeminer.

Ngày 4: Buổi 3 - Phân tích Big Data trong xử lý hình ảnh và nguồn cấp video

  • Kỹ thuật lưu trữ hình ảnh trong Big Data - Giải pháp lưu trữ dữ liệu vượt quá petabytes
  • LTFS và LTO
  • GPFS-LTFS (Giải pháp lưu trữ phân cấp cho dữ liệu hình ảnh lớn)
  • Cơ bản của phân tích hình ảnh
  • Nhận diện đối tượng
  • Phân đoạn hình ảnh
  • Theo dõi chuyển động
  • Xây dựng lại hình ảnh 3D

Ngày 4: Buổi 4 - Ứng dụng Big Data tại NIH:

  • Các lĩnh vực mới nổi của sinh tin học
  • Meta-genomics và các vấn đề khai thác dữ liệu lớn
  • Phân tích dự đoán Big Data cho Dược gen, Đại chuyển hóa và Proteomics
  • Big Data trong quá trình Genomics hạ nguồn
  • Ứng dụng phân tích dự đoán Big Data trong y tế công cộng

Bảng điều khiển Big Data cho việc truy cập nhanh chóng và hiển thị dữ liệu đa dạng:

  • Tích hợp nền tảng ứng dụng hiện có với bảng điều khiển Big Data
  • Quản lý Big Data
  • Trường hợp nghiên cứu của Bảng điều khiển Big Data: Tableau và Pentaho
  • Sử dụng ứng dụng Big Data để đẩy dịch vụ dựa trên vị trí trong chính phủ
  • Hệ thống theo dõi và quản lý

Ngày 5: Buổi 1 - Cách chứng minh việc triển khai BI Big Data trong tổ chức:

  • Xác định ROI cho việc triển khai Big Data
  • Trường hợp nghiên cứu tiết kiệm thời gian của nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
  • Trường hợp nghiên cứu về doanh thu từ việc tiết kiệm chi phí cơ sở dữ liệu cấp phép
  • Doanh thu từ dịch vụ dựa trên vị trí
  • Tiết kiệm từ việc ngăn ngừa gian lận
  • Một cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng vs doanh thu/tiết kiệm từ việc triển khai Big Data.

Ngày 5: Buổi 2 - Thủ tục từng bước để thay thế hệ thống dữ liệu cũ bằng hệ thống Big Data:

  • Hiểu bản đồ đường di chuyển Big Data thực tế
  • Những thông tin quan trọng nào cần có trước khi thiết kế triển khai Big Data
  • Có những cách khác nhau nào để tính toán thể tích, tốc độ, đa dạng và xác thực của dữ liệu
  • Cách ước lượng sự tăng trưởng của dữ liệu
  • Trường hợp nghiên cứu

Ngày 5: Buổi 4 - Đánh giá các nhà cung cấp Big Data và xem xét sản phẩm của họ. Phiên Hỏi đáp:

  • Accenture
  • APTEAN (Trước đây là CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Trước đây là 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Phần của EMC)

Yêu cầu

  • Kiến thức cơ bản về hoạt động kinh doanh và hệ thống dữ liệu của chính phủ trong lĩnh vực của họ
  • Hiểu biết cơ bản về SQL/Oracle hoặc cơ sở dữ liệu quan hệ
  • Hiểu biết cơ bản về Thống kê (tại mức độ bảng tính)
 35 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (1)

Các khóa học sắp tới

Các danh mục liên quan