課程簡(jiǎn)介
本次課程首先從大數(shù)據(jù)生態(tài)圈層面整體介紹目前企業(yè)內(nèi)常見的大數(shù)據(jù)核心技術(shù)組件,然后會(huì)以Hadoop(大數(shù)據(jù)基礎(chǔ)核心)組件進(jìn)行切入,幫助學(xué)員快速理解大數(shù)據(jù)技術(shù)的基礎(chǔ)原理。接著會(huì)從分布式計(jì)算引擎(離線Spark+實(shí)時(shí)Flink)進(jìn)行深入分析,幫助學(xué)員了解掌握目前企業(yè)中最常用的兩大核心計(jì)算引擎。最后會(huì)針對(duì)OLAP分析引擎(離線Hive+實(shí)時(shí)ClickHouse)進(jìn)行深入分析,幫助學(xué)員快速構(gòu)建離線數(shù)倉(cāng)和實(shí)時(shí)數(shù)倉(cāng)的整體概念,掌握基于SQL的離線和實(shí)時(shí)數(shù)據(jù)分析能力。
目標(biāo)收益
了解大數(shù)據(jù)生態(tài)圈核心技術(shù)
掌握Hadoop的原理及使用
掌握分布式計(jì)算引擎(Spark+Flink)的原理及使用
掌握OLAP分析引擎的原理及使用(Hive+ClickHouse)
了解數(shù)據(jù)倉(cāng)庫(kù)(離線+實(shí)時(shí))的架構(gòu)設(shè)計(jì)
培訓(xùn)對(duì)象
有一定編程基礎(chǔ),想學(xué)習(xí)和了解大數(shù)據(jù)的學(xué)員
計(jì)算機(jī)相關(guān)專業(yè),未來向大數(shù)據(jù)領(lǐng)域方向發(fā)展的學(xué)員
課程大綱
大數(shù)據(jù)生態(tài)圈核心技術(shù)總覽 |
1 大數(shù)據(jù)產(chǎn)生背景 2 大數(shù)據(jù)的基本特征 3 大數(shù)據(jù)生態(tài)圈核心技術(shù)總覽(包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)檢索框架等) 4 大數(shù)據(jù)的典型應(yīng)用場(chǎng)景分析 5 大數(shù)據(jù)典型架構(gòu)案例分析(大數(shù)據(jù)平臺(tái)架構(gòu)、離線數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、批流一體化數(shù)倉(cāng)架構(gòu)等) 6 大數(shù)據(jù)基礎(chǔ)平臺(tái)選型分析(CDH\HDP\CDP) |
Hadoop原理、架構(gòu)及核心編程 (HDFS+MapReduce+YARN) |
1 Hadoop整體概述 2 Apache Hadoop VS CDH VS HDP VS CDP 3 HDFS的核心原理及架構(gòu)分析 4 HDFS的常見Shell命令的使用 5 MapReduce的原理及架構(gòu)分析 6 基于MapReduce的離線計(jì)算案例 7 YARN的原理及架構(gòu)分析 8 YARN中的三種資源調(diào)度器詳解 |
Spark原理、架構(gòu)及核心編程 |
1 Spark核心原理及架構(gòu)剖析 2 Spark的典型應(yīng)用場(chǎng)景分析 2 基于Spark的離線計(jì)算案例 3 Spark核心Transformation算子分析及實(shí)戰(zhàn) 4 Spark核心Action算子分析及實(shí)戰(zhàn) 5 Spark SQL核心功能分析 |
Flink原理、架構(gòu)及核心編程 |
1 流處理 VS 批處理 2 Storm VS SparkStreaming VS Flink 3 Flink的核心原理及架構(gòu)分析 4 基于Flink DataStream的實(shí)時(shí)計(jì)算案例 5 Flink SQL在實(shí)時(shí)計(jì)算中的應(yīng)用 |
Hive的核心功能及使用 |
Hive的核心原理及架構(gòu)分析 2 Hive典型應(yīng)用場(chǎng)景分析 3 Hive中的數(shù)據(jù)庫(kù)和表(內(nèi)部表、外部表、分區(qū)表、桶表)的原理及使用 4基于 Hive SQL的OLAP數(shù)據(jù)分析案例 5 基于Hive的離線數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)案例分析 |
ClickHouse的核心功能及使用 |
1 ClickHouse的核心原理及架構(gòu)分析 2 ClickHouse的典型應(yīng)用場(chǎng)景分析 3 ClickHouse核心功能的使用 4 ClickHouse集成第三方系統(tǒng) 5 基于ClickHouse的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)案例分析 |
大數(shù)據(jù)生態(tài)圈核心技術(shù)總覽 1 大數(shù)據(jù)產(chǎn)生背景 2 大數(shù)據(jù)的基本特征 3 大數(shù)據(jù)生態(tài)圈核心技術(shù)總覽(包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)檢索框架等) 4 大數(shù)據(jù)的典型應(yīng)用場(chǎng)景分析 5 大數(shù)據(jù)典型架構(gòu)案例分析(大數(shù)據(jù)平臺(tái)架構(gòu)、離線數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、批流一體化數(shù)倉(cāng)架構(gòu)等) 6 大數(shù)據(jù)基礎(chǔ)平臺(tái)選型分析(CDH\HDP\CDP) |
Hadoop原理、架構(gòu)及核心編程 (HDFS+MapReduce+YARN) 1 Hadoop整體概述 2 Apache Hadoop VS CDH VS HDP VS CDP 3 HDFS的核心原理及架構(gòu)分析 4 HDFS的常見Shell命令的使用 5 MapReduce的原理及架構(gòu)分析 6 基于MapReduce的離線計(jì)算案例 7 YARN的原理及架構(gòu)分析 8 YARN中的三種資源調(diào)度器詳解 |
Spark原理、架構(gòu)及核心編程 1 Spark核心原理及架構(gòu)剖析 2 Spark的典型應(yīng)用場(chǎng)景分析 2 基于Spark的離線計(jì)算案例 3 Spark核心Transformation算子分析及實(shí)戰(zhàn) 4 Spark核心Action算子分析及實(shí)戰(zhàn) 5 Spark SQL核心功能分析 |
Flink原理、架構(gòu)及核心編程 1 流處理 VS 批處理 2 Storm VS SparkStreaming VS Flink 3 Flink的核心原理及架構(gòu)分析 4 基于Flink DataStream的實(shí)時(shí)計(jì)算案例 5 Flink SQL在實(shí)時(shí)計(jì)算中的應(yīng)用 |
Hive的核心功能及使用 Hive的核心原理及架構(gòu)分析 2 Hive典型應(yīng)用場(chǎng)景分析 3 Hive中的數(shù)據(jù)庫(kù)和表(內(nèi)部表、外部表、分區(qū)表、桶表)的原理及使用 4基于 Hive SQL的OLAP數(shù)據(jù)分析案例 5 基于Hive的離線數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)案例分析 |
ClickHouse的核心功能及使用 1 ClickHouse的核心原理及架構(gòu)分析 2 ClickHouse的典型應(yīng)用場(chǎng)景分析 3 ClickHouse核心功能的使用 4 ClickHouse集成第三方系統(tǒng) 5 基于ClickHouse的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)案例分析 |