課程簡介
本次課程首先從大數(shù)據(jù)生態(tài)圈層面整體介紹目前企業(yè)內(nèi)常見的大數(shù)據(jù)核心技術組件,然后會以Hadoop(大數(shù)據(jù)基礎核心)組件進行切入,幫助學員快速理解大數(shù)據(jù)技術的基礎原理。接著會從分布式計算引擎(離線Spark+實時Flink)進行深入分析,幫助學員了解掌握目前企業(yè)中最常用的兩大核心計算引擎。最后會針對OLAP分析引擎(離線Hive+實時ClickHouse)進行深入分析,幫助學員快速構建離線數(shù)倉和實時數(shù)倉的整體概念,掌握基于SQL的離線和實時數(shù)據(jù)分析能力。
目標收益
了解大數(shù)據(jù)生態(tài)圈核心技術
掌握Hadoop的原理及使用
掌握分布式計算引擎(Spark+Flink)的原理及使用
掌握OLAP分析引擎的原理及使用(Hive+ClickHouse)
了解數(shù)據(jù)倉庫(離線+實時)的架構設計
培訓對象
有一定編程基礎,想學習和了解大數(shù)據(jù)的學員
計算機相關專業(yè),未來向大數(shù)據(jù)領域方向發(fā)展的學員
課程大綱
大數(shù)據(jù)生態(tài)圈核心技術總覽 |
1 大數(shù)據(jù)產(chǎn)生背景 2 大數(shù)據(jù)的基本特征 3 大數(shù)據(jù)生態(tài)圈核心技術總覽(包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)分析、數(shù)據(jù)檢索框架等) 4 大數(shù)據(jù)的典型應用場景分析 5 大數(shù)據(jù)典型架構案例分析(大數(shù)據(jù)平臺架構、離線數(shù)據(jù)倉庫架構、實時數(shù)據(jù)倉庫架構、批流一體化數(shù)倉架構等) 6 大數(shù)據(jù)基礎平臺選型分析(CDH\HDP\CDP) |
Hadoop原理、架構及核心編程 (HDFS+MapReduce+YARN) |
1 Hadoop整體概述 2 Apache Hadoop VS CDH VS HDP VS CDP 3 HDFS的核心原理及架構分析 4 HDFS的常見Shell命令的使用 5 MapReduce的原理及架構分析 6 基于MapReduce的離線計算案例 7 YARN的原理及架構分析 8 YARN中的三種資源調度器詳解 |
Spark原理、架構及核心編程 |
1 Spark核心原理及架構剖析 2 Spark的典型應用場景分析 2 基于Spark的離線計算案例 3 Spark核心Transformation算子分析及實戰(zhàn) 4 Spark核心Action算子分析及實戰(zhàn) 5 Spark SQL核心功能分析 |
Flink原理、架構及核心編程 |
1 流處理 VS 批處理 2 Storm VS SparkStreaming VS Flink 3 Flink的核心原理及架構分析 4 基于Flink DataStream的實時計算案例 5 Flink SQL在實時計算中的應用 |
Hive的核心功能及使用 |
Hive的核心原理及架構分析 2 Hive典型應用場景分析 3 Hive中的數(shù)據(jù)庫和表(內(nèi)部表、外部表、分區(qū)表、桶表)的原理及使用 4基于 Hive SQL的OLAP數(shù)據(jù)分析案例 5 基于Hive的離線數(shù)據(jù)倉庫架構案例分析 |
ClickHouse的核心功能及使用 |
1 ClickHouse的核心原理及架構分析 2 ClickHouse的典型應用場景分析 3 ClickHouse核心功能的使用 4 ClickHouse集成第三方系統(tǒng) 5 基于ClickHouse的實時數(shù)據(jù)倉庫架構案例分析 |
大數(shù)據(jù)生態(tài)圈核心技術總覽 1 大數(shù)據(jù)產(chǎn)生背景 2 大數(shù)據(jù)的基本特征 3 大數(shù)據(jù)生態(tài)圈核心技術總覽(包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)分析、數(shù)據(jù)檢索框架等) 4 大數(shù)據(jù)的典型應用場景分析 5 大數(shù)據(jù)典型架構案例分析(大數(shù)據(jù)平臺架構、離線數(shù)據(jù)倉庫架構、實時數(shù)據(jù)倉庫架構、批流一體化數(shù)倉架構等) 6 大數(shù)據(jù)基礎平臺選型分析(CDH\HDP\CDP) |
Hadoop原理、架構及核心編程 (HDFS+MapReduce+YARN) 1 Hadoop整體概述 2 Apache Hadoop VS CDH VS HDP VS CDP 3 HDFS的核心原理及架構分析 4 HDFS的常見Shell命令的使用 5 MapReduce的原理及架構分析 6 基于MapReduce的離線計算案例 7 YARN的原理及架構分析 8 YARN中的三種資源調度器詳解 |
Spark原理、架構及核心編程 1 Spark核心原理及架構剖析 2 Spark的典型應用場景分析 2 基于Spark的離線計算案例 3 Spark核心Transformation算子分析及實戰(zhàn) 4 Spark核心Action算子分析及實戰(zhàn) 5 Spark SQL核心功能分析 |
Flink原理、架構及核心編程 1 流處理 VS 批處理 2 Storm VS SparkStreaming VS Flink 3 Flink的核心原理及架構分析 4 基于Flink DataStream的實時計算案例 5 Flink SQL在實時計算中的應用 |
Hive的核心功能及使用 Hive的核心原理及架構分析 2 Hive典型應用場景分析 3 Hive中的數(shù)據(jù)庫和表(內(nèi)部表、外部表、分區(qū)表、桶表)的原理及使用 4基于 Hive SQL的OLAP數(shù)據(jù)分析案例 5 基于Hive的離線數(shù)據(jù)倉庫架構案例分析 |
ClickHouse的核心功能及使用 1 ClickHouse的核心原理及架構分析 2 ClickHouse的典型應用場景分析 3 ClickHouse核心功能的使用 4 ClickHouse集成第三方系統(tǒng) 5 基于ClickHouse的實時數(shù)據(jù)倉庫架構案例分析 |