Đề cương khóa học

Mỗi buổi học là 2 giờ

Ngày 1: Buổi 1: Tổng quan Kinh doanh về Big Data Trí Tuệ Kinh Doanh cho Chính phủ

  • Các trường hợp nghiên cứu từ NIH, Bộ Năng lượng (DoE)
  • Tốc độ thích ứng Big Data trong các cơ quan chính phủ và cách họ định hướng hoạt động tương lai dựa trên phân tích dữ liệu dự đoán
  • Ứng dụng quy mô lớn trong Bộ Quốc phòng (DoD), NSA, IRS, USDA, v.v.
  • Giao tiếp Big Data với dữ liệu cũ
  • Nắm bắt các công nghệ hỗ trợ trong phân tích dự đoán
  • Phân tích dữ liệu và trực quan hóa bảng điều khiển
  • Quản lý gian lận
  • Tạo quy tắc kinh doanh/ phát hiện gian lận
  • Phát hiện và tạo hồ sơ đe dọa
  • Phân tích hiệu quả chi phí cho việc triển khai Big Data

Ngày 1: Buổi 2: Giới thiệu về Big Data-1

  • Các đặc điểm chính của Big Data - thể tích, đa dạng, tốc độ và tính xác thực. Kiến trúc MPP cho thể tích.
  • Kho dữ liệu - cấu trúc tĩnh, bộ dữ liệu phát triển chậm
  • Cơ sở dữ liệu MPP như Greenplum, Exadata, Teradata, Netezza, Vertica, v.v.
  • Các giải pháp dựa trên Hadoop - không có điều kiện về cấu trúc của bộ dữ liệu.
  • Mô hình điển hình: HDFS, MapReduce (crunch), truy xuất từ HDFS
  • Chế độ batch - phù hợp cho phân tích/không tương tác
  • Thể tích: dữ liệu CEP streaming
  • Các lựa chọn điển hình - sản phẩm CEP (ví dụ: Infostreams, Apama, MarkLogic, v.v.)
  • Ít sẵn sàng cho sản xuất - Storm/S4
  • Cơ sở dữ liệu NoSQL - (cột và key-value): Phù hợp nhất làm bổ sung phân tích cho kho dữ liệu/cơ sở dữ liệu

Ngày 1: Buổi 3: Giới thiệu về Big Data-2

Các giải pháp NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hàng tầng) - GT.m, Cache
  • KV Store (có thứ tự) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Cơ sở dữ liệu Đối tượng - ZopeDB, DB40, Shoal
  • Cơ sở dữ liệu Tài liệu - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Kho cột rộng - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Đa dạng dữ liệu: Giới thiệu về vấn đề làm sạch dữ liệu trong Big Data

  • RDBMS - cấu trúc/cơ sở tĩnh, không khuyến khích môi trường linh hoạt, khám phá.
  • NoSQL - bán có cấu trúc, đủ cấu trúc để lưu trữ dữ liệu mà không cần cấu trúc chính xác trước khi lưu trữ dữ liệu
  • Các vấn đề làm sạch dữ liệu

Ngày 1: Buổi 4: Giới thiệu về Big Data-3: Hadoop

  • Khi nào nên chọn Hadoop?
  • CÓ CẤU TRÚC - Kho dữ liệu doanh nghiệp/cơ sở dữ liệu có thể lưu trữ lượng lớn dữ liệu (với chi phí) nhưng áp đặt cấu trúc (không phù hợp cho việc khám phá chủ động)
  • DỮ LIỆU BÁN CÓ CẤU TRÚC - khó thực hiện với các giải pháp truyền thống (DW/DB)
  • Lưu trữ dữ liệu = NỖI LỰC lớn và tĩnh kể cả sau khi triển khai
  • Đối với đa dạng và thể tích dữ liệu, xử lý trên phần cứng giá rẻ - HADOOP
  • Cần phần cứng giá rẻ để tạo cụm Hadoop

Giới thiệu về MapReduce/HDFS

  • MapReduce - phân phối tính toán trên nhiều máy chủ
  • HDFS - cung cấp dữ liệu cục bộ cho quá trình tính toán (với tính dự phòng)
  • Dữ liệu - có thể không có cấu trúc/không có schema (khác với RDBMS)
  • Trách nhiệm của lập trình viên để hiểu dữ liệu
  • Lập trình MapReduce = làm việc với Java (ưu điểm/nhược điểm), tải dữ liệu vào HDFS thủ công

Ngày 2: Buổi 1: Hệ sinh thái Big Data - Xây dựng ETL Big Data: vũ trụ các công cụ Big Data - sử dụng khi nào?

  • Hadoop so với các giải pháp NoSQL khác
  • Đối với truy cập ngẫu nhiên, tương tác vào dữ liệu
  • Hbase (cơ sở dữ liệu cột hướng) trên Hadoop
  • Truy cập ngẫu nhiên vào dữ liệu nhưng có hạn chế (tối đa 1 PB)
  • Không phù hợp cho phân tích tự do, tốt cho ghi log, đếm, thời gian series
  • Sqoop - Nhập từ cơ sở dữ liệu vào Hive hoặc HDFS (JDBC/ODBC access)
  • Flume - Chuyển dữ liệu luồng (ví dụ: log data) vào HDFS

Ngày 2: Buổi 2: Hệ thống Quản lý Big Data

  • Các thành phần di chuyển, nút tính toán bắt đầu/chịu lỗi: ZooKeeper - cho cấu hình/điều phối/dịch vụ đặt tên
  • Ống dẫn phức tạp/luồng công việc: Oozie - quản lý luồng công việc, phụ thuộc, daisy chain
  • Triển khai, cấu hình, quản lý cụm, nâng cấp v.v. (quản trị hệ thống): Ambari
  • Tại đám mây: Whirr

Ngày 2: Buổi 3: Phân tích dự đoán trong Trí Tuệ Kinh Doanh -1: Các kỹ thuật cơ bản & Machine Learning dựa trên BI :

  • Giới thiệu về Học Máy
  • Học các kỹ thuật phân loại
  • Dự đoán Bayesian - chuẩn bị tệp huấn luyện
  • Máy Vector Hỗ trợ (Support Vector Machine)
  • KNN p-Tree Algebra & khai thác dọc
  • Mạng Neuron
  • Big Data vấn đề biến lớn - Rừng ngẫu nhiên (Random Forest, RF)
  • Vấn đề tự động hóa Big Data - Bộ mô hình nhiều RF
  • Tự động hóa thông qua Soft10-M
  • Công cụ phân tích văn bản-Treeminer
  • Học nhanh nhẹn
  • Học dựa trên đại lý (agent)
  • Học phân tán
  • Giới thiệu về các công cụ nguồn mở cho phân tích dự đoán: R, Rapidminer, Mahout

Ngày 2: Buổi 4 Phân tích dự đoán hệ sinh thái-2: Các vấn đề phân tích dự đoán phổ biến trong chính phủ

  • Phân tích thông tin
  • Phân tích trực quan
  • Phân tích dự đoán có cấu trúc
  • Phân tích dự đoán không có cấu trúc
  • Hồ sơ đe dọa/gian lận/nhà cung cấp
  • Cỗ máy đề xuất (Recommendation Engine)
  • Phát hiện mô hình
  • Phát hiện kịch bản/cảnh huống - sự cố, gian lận, tối ưu hóa
  • Phát hiện nguyên nhân gốc rễ
  • Phân tích tình cảm (sentiment analysis)
  • Phân tích CRM
  • Phân tích mạng lưới (network analytic)
  • Phân tích văn bản (text analytics)
  • Xem xét hỗ trợ công nghệ (technology assisted review)
  • Phân tích gian lận
  • Phân tích thời gian thực (real time analytic)

Ngày 3: Buổi 1: Phân tích Thời gian thực và Tính toán Khả năng mở rộng trên Hadoop

  • Tại sao các thuật toán phân tích thông thường thất bại trong Hadoop/HDFS
  • Apache Hama - cho tính toán đồng bộ hàng loạt
  • Apache SPARK - cho tính toán cụm thời gian thực
  • CMU Graphics Lab2 - cách tiếp cận bất đồng bộ dựa trên đồ thị cho tính toán phân tán
  • Cách tiếp cận KNN p-Algebra từ Treeminer để giảm chi phí phần cứng hoạt động

Ngày 3: Buổi 2: Công cụ cho Phát hiện và Xác minh điện tử (eDiscovery) và Pháp y

  • Phát hiện và xác minh điện tử trên Big Data so với dữ liệu cũ - so sánh chi phí và hiệu suất
  • Codding dự đoán và xem xét hỗ trợ công nghệ (TAR)
  • Thử nghiệm trực tiếp sản phẩm TAR (vMiner) để hiểu cách TAR hoạt động cho việc phát hiện nhanh chóng
  • Bộ chỉ mục nhanh thông qua HDFS - tốc độ dữ liệu
  • NLP hoặc Xử lý Ngôn ngữ Tự nhiên - các kỹ thuật và sản phẩm nguồn mở khác nhau
  • Phát hiện và xác minh điện tử trong ngôn ngữ nước ngoài - công nghệ xử lý ngôn ngữ nước ngoài

Ngày 3: Buổi 3: Trí Tuệ Kinh Doanh Big Data cho An ninh Mạng -Tổng quan về các góc nhìn 360 độ từ việc thu thập dữ liệu nhanh chóng đến phát hiện đe dọa

  • Tổng quan về cơ bản của phân tích an ninh - bề mặt tấn công, cấu hình bảo mật sai, phòng thủ máy chủ
  • Hạ tầng mạng/đường ống dữ liệu lớn/ETL phản hồi cho phân tích thời gian thực
  • Mô tả vs dự đoán - quy tắc cố định dựa trên vs phát hiện tự động các quy tắc đe dọa từ siêu dữ liệu (metadata)

Ngày 3: Buổi 4: Big Data trong USDA: Ứng dụng trong Nông nghiệp

  • Giới thiệu về IoT (Internet of Things) cho nông nghiệp - dữ liệu Big Data dựa trên cảm biến và điều khiển
  • Giới thiệu về ảnh vệ tinh và ứng dụng trong nông nghiệp
  • Tích hợp dữ liệu cảm biến và hình ảnh để đánh giá độ phì nhiêu của đất, đề xuất canh tác và dự báo
  • Bảo hiểm nông nghiệp và Big Data
  • Dự báo mất mùa

Ngày 4: Buổi 1: Trí Tuệ Kinh Doanh ngăn ngừa gian lận từ Big Data trong Chính phủ - Phân tích gian lạn

  • Lớp phân loại cơ bản của phân tích gian lận - dựa trên quy tắc vs phân tích dự đoán
  • Học Máy có giám sát vs không giám sát cho phát hiện mô hình gian lận
  • Gian lận nhà cung cấp/thanh toán dự án quá mức
  • Gian lận Medicare và Medicaid - kỹ thuật phát hiện gian lận trong xử lý yêu cầu thanh toán
  • Gian lận hoàn tiền du lịch
  • Gian lận hoàn thuế IRS
  • Các trường hợp nghiên cứu và thử nghiệm trực tiếp sẽ được cung cấp khi có dữ liệu.

  • Ngày 4: Buổi 2: Phân tích Mạng Xã Hội - Thu thập và phân tích thông tin

    • API ETL Big Data để trích xuất dữ liệu mạng xã hội
    • Văn bản, hình ảnh, siêu dữ liệu và video
    • Phân tích tình cảm từ nguồn cấp dữ liệu mạng xã hội
    • Lọc nguồn cấp dữ liệu mạng xã hội dựa trên ngữ cảnh và không dựa trên ngữ cảnh
    • Bảng điều khiển Mạng Xã Hội để tích hợp các nền tảng mạng xã hội đa dạng
    • Tạo hồ sơ tự động cho tài khoản mạng xã hội
    • Thử nghiệm trực tiếp từng phân tích sẽ được thực hiện qua Công cụ Treeminer.

    • Ngày 4: Buổi 3: Phân tích Big Data trong xử lý hình ảnh và nguồn cấp video

      • Các kỹ thuật lưu trữ hình ảnh trong Big Data - giải pháp lưu trữ cho dữ liệu vượt quá petabytes
      • LTFS và LTO
      • GPFS-LTFS (Giải pháp lưu trữ nhiều lớp cho dữ liệu hình ảnh lớn)
      • Các nguyên tắc cơ bản của phân tích hình ảnh
      • Nhận diện đối tượng
      • Phân đoạn hình ảnh
      • Theo dõi chuyển động
      • Tái tạo hình ảnh 3-D

      • Ngày 4: Buổi 4: Ứng dụng Big Data tại NIH:

        • Các lĩnh vực mới nổi của Bio-informatics
        • Meta-genomics và các vấn đề khai thác dữ liệu Big Data
        • Phân tích dự đoán Big Data cho Pharmacogenomics, Metabolomics và Proteomics
        • Big Data trong quá trình Genomics xuống dòng
        • Ứng dụng phân tích dự đoán Big Data trong Y tế công cộng

        • Bảng điều khiển Big Data cho việc truy cập nhanh chóng dữ liệu đa dạng và hiển thị:

          • Tích hợp nền tảng ứng dụng hiện tại với Bảng điều khiển Big Data
          • Quản lý Big Data
          • Nghiên cứu điển hình về Bảng điều khiển Big Data: Tableau và Pentaho
          • Sử dụng ứng dụng Big Data để thúc đẩy dịch vụ dựa trên vị trí trong Chính phủ
          • Hệ thống theo dõi và quản lý

          • Ngày 5: Buổi 1: Cách chứng minh việc triển khai Trí Tuệ Kinh Doanh Big Data trong tổ chức:

            • Xác định ROI cho việc triển khai Big Data
            • Nghiên cứu điển hình về tiết kiệm thời gian của nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng hiệu suất
            • Nghiên cứu điển hình về doanh thu từ việc tiết kiệm chi phí cơ sở dữ liệu có bản quyền
            • Doanh thu từ dịch vụ dựa trên vị trí
            • Tiết kiệm từ việc ngăn ngừa gian lận
            • Cách tiếp cận bảng tính tích hợp để tính toán chi phí khoảng so với doanh thu/tiết kiệm từ việc triển khai Big Data.

            • Ngày 5: Buổi 2: Thủ tục từng bước để thay thế hệ thống dữ liệu cũ bằng hệ thống Big Data:

              • Tổng quan về bản đồ di chuyển Big Data thực tế
              • Các thông tin quan trọng cần biết trước khi thiết kế một triển khai Big Data
              • Các cách khác nhau để tính toán thể tích, tốc độ, đa dạng và tính xác thực của dữ liệu
              • Cách ước lượng sự tăng trưởng của dữ liệu
              • Nghiên cứu điển hình

              • Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá các sản phẩm của họ. Phiên Q&A:

                • Accenture
                • APTEAN (Trước đây là CDC Software)
                • Cisco Systems
                • Cloudera
                • Dell
                • EMC
                • GoodData Corporation
                • Guavus
                • Hitachi Data Systems
                • Hortonworks
                • HP
                • IBM
                • Informatica
                • Intel
                • Jaspersoft
                • Microsoft
                • MongoDB (Trước đây là 10Gen)
                • MU Sigma
                • Netapp
                • Opera Solutions
                • Oracle
                • Pentaho
                • Platfora
                • Qliktech
                • Quantum
                • Rackspace
                • Revolution Analytics
                • Salesforce
                • SAP
                • SAS Institute
                • Sisense
                • Software AG/Terracotta
                • Soft10 Automation
                • Splunk
                • Sqrrl
                • Supermicro
                • Tableau Software
                • Teradata
                • Think Big Analytics
                • Tidemark Systems
                • Treeminer
                • VMware (Phần của EMC)

Yêu cầu

  • Kiến thức cơ bản về hoạt động kinh doanh và hệ thống dữ liệu trong chính phủ trong lĩnh vực của họ
  • Hiểu biết cơ bản về SQL/Oracle hoặc cơ sở dữ liệu quan hệ
  • Hiểu biết cơ bản về Thống kê (tại mức bảng tính) 
 35 Giờ học

Số người tham gia


Giá cho mỗi người tham gia

Đánh giá (1)

Các khóa học sắp tới

Các danh mục liên quan