課程簡介
本次課程主要針對大數(shù)據(jù)平臺(tái)中MapReduce,Spark中的Spark core、Spark SQL 、SparkStreaming這些內(nèi)容進(jìn)行講解,通過這些內(nèi)容的學(xué)習(xí),可以掌握MapReduce的編程思想,以及掌握Spark中的離線計(jì)算和實(shí)時(shí)計(jì)算。
目標(biāo)收益
?了解大數(shù)據(jù)中MapReduce的核心原理
?掌握MapReduce核心編程
?了解Spark性能優(yōu)化
?掌握Spark中的離線計(jì)算和實(shí)時(shí)計(jì)算
?掌握Spark SQL的使用
?掌握HBase的高級(jí)特性
培訓(xùn)對象
1. 有一定編程基礎(chǔ),想學(xué)習(xí)和了解大數(shù)據(jù)的學(xué)員
2. 計(jì)算機(jī)相關(guān)專業(yè),未來向大數(shù)據(jù)領(lǐng)域方向發(fā)展的學(xué)員
課程大綱
第一天上午:(Hadoop)HDFS核心原理及實(shí)操 |
1 快速了解Hadoop 2 Hadoop3.x的核心細(xì)節(jié)優(yōu)化 3 HDFS核心原理詳解 4 【實(shí)戰(zhàn)】HDFS的常用及高級(jí)shell命令 5 HDFS體系結(jié)構(gòu)原理詳細(xì)剖析 6 【實(shí)戰(zhàn)】HDFS的回收站和安全模式 7 HDFS的高可用和高擴(kuò)展架構(gòu)剖析 8 HDFS機(jī)架感知策略原理剖析 9 HDFS糾刪碼機(jī)制(Erasure Coding)剖析 |
第一天上午:MapReduce核心編程+YARN |
1 MapReduce原理深度剖析 2 【實(shí)戰(zhàn)】MapReduce實(shí)戰(zhàn)案例開發(fā) 3 YARN資源管理模型分析 4 【實(shí)戰(zhàn)】YARN中的多資源隊(duì)列配置和使用 5【案例】Hadoop(HDFS+MapReduce+YARN)在企業(yè)中的典型案例分析 |
第一天下午:HBase核心原理及高級(jí)特性 |
1 HBase核心原理及架構(gòu)分析 2 HBase典型應(yīng)用場景及應(yīng)用案例分析 3 常見NoSQL數(shù)據(jù)庫綜合對比分析(MongoDB\Cassandra\Redis\HBase) 4【實(shí)戰(zhàn)】HBase常用命令的使用(DDL+DML) 5【實(shí)戰(zhàn)】HBase JavaAPI的使用 6 HBase底層架構(gòu)詳解(HFile+Region) 7【實(shí)戰(zhàn)】HBase批量導(dǎo)入和批量導(dǎo)出功能 8 HBase預(yù)分區(qū)、Rowkey列族的設(shè)計(jì)實(shí)戰(zhàn) 9 HBase Scan全表掃描功能實(shí)戰(zhàn)(包括分頁的實(shí)現(xiàn)) 10 HBase如何間接實(shí)現(xiàn)SQL語法支持(Hive+HBase、Phoenix) 11 【案例】Elasticsearch+HBase典型場景分析 12【案例】HBase在用戶畫像項(xiàng)目中的應(yīng)用分析 |
第二天上午:Spark核心原理及編程 |
1 Spark核心原理及架構(gòu)分析 2【實(shí)戰(zhàn)】Spark離線計(jì)算案例開發(fā) 3【實(shí)戰(zhàn)】Spark之RDD的核心原理及使用 4【實(shí)戰(zhàn)】Spark中常見Transformation算子的原理及使用 5【實(shí)戰(zhàn)】Spark中常見Action算子的原理及使用 6 Spark任務(wù)的提交模式詳解 7【案例】Spark在企業(yè)中的典型案例分析 |
第二天上午:Spark SQL核心原理及使用 |
1 Spark SQL核心原理分析 2【實(shí)戰(zhàn)】DataFrame(DataSet)的SQL操作 3【實(shí)戰(zhàn)】RDD和DataFrame的相互轉(zhuǎn)換使用 4【實(shí)戰(zhàn)】Spark SQL實(shí)現(xiàn)TopN數(shù)據(jù)統(tǒng)計(jì) 5【實(shí)戰(zhàn)】Spark SQL集成Hive 6 【案例】基于SparkSQL的一站式SQL開發(fā)引擎 |
第二天下午:Flink核心原理及使用 |
1 Flink核心原理及架構(gòu)分析 2 Storm vs SparkStreaming vs Flink 3【實(shí)戰(zhàn)】Flink流批一體代碼案例開發(fā) 4 Flink常用部署模式分析(yarn-session\per-job\Application) 5【實(shí)戰(zhàn)】Flink DataStream API的使用 6 【實(shí)戰(zhàn)】Flink中window及Time詳解及應(yīng)用 7 【實(shí)戰(zhàn)】Flink實(shí)時(shí)數(shù)據(jù)亂序問題原理及解決方案 |
第三天 上午:Flink SQL的核心應(yīng)用 |
1 Flink中狀態(tài)(State)的原理機(jī)制分析 2 Flink中State(狀態(tài))的容錯(cuò)與一致性 3 【實(shí)戰(zhàn)】Kafka+Flink+Kafka端到端一致性代碼開發(fā) 4 Flink SQL核心原理分析 5【實(shí)戰(zhàn)】Flink SQL數(shù)據(jù)處理案例開發(fā) 6【增加kafka->Flink SQL->hudi的實(shí)操】 7 Flink SQL雙流Join核心原理分析 8【實(shí)戰(zhàn)】Flink SQL雙流Join案例開發(fā) 9【案例】Flink在企業(yè)中的典型案例分析 10【案例】一站式流計(jì)算SQL開發(fā)平臺(tái)StreamPark原理及架構(gòu)分析 |
第三天下午:實(shí)時(shí)數(shù)倉/湖倉一體建設(shè) |
1 數(shù)據(jù)湖四劍客綜合對比分析(Iceberg\Hudi\Delta?Lake\Paimon) 2 數(shù)據(jù)湖Hudi的核心原理及架構(gòu)分析 3 基于Hudi的核心功能的使用 4 什么是數(shù)據(jù)倉庫 5 數(shù)據(jù)倉庫建模方式分析(ER實(shí)體建模、維度建模) 6 數(shù)據(jù)倉庫分層設(shè)計(jì) 7 【架構(gòu)】數(shù)據(jù)倉庫架構(gòu)演進(jìn)過程(離線數(shù)倉、實(shí)時(shí)數(shù)倉、批流一體數(shù)倉、湖倉一體) 8 【案例】從0~1如何構(gòu)建企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)倉庫(湖倉一體) 9 實(shí)時(shí)數(shù)據(jù)倉庫(湖倉一體)架構(gòu)設(shè)計(jì)+技術(shù)選型 |
第一天上午:(Hadoop)HDFS核心原理及實(shí)操 1 快速了解Hadoop 2 Hadoop3.x的核心細(xì)節(jié)優(yōu)化 3 HDFS核心原理詳解 4 【實(shí)戰(zhàn)】HDFS的常用及高級(jí)shell命令 5 HDFS體系結(jié)構(gòu)原理詳細(xì)剖析 6 【實(shí)戰(zhàn)】HDFS的回收站和安全模式 7 HDFS的高可用和高擴(kuò)展架構(gòu)剖析 8 HDFS機(jī)架感知策略原理剖析 9 HDFS糾刪碼機(jī)制(Erasure Coding)剖析 |
第一天上午:MapReduce核心編程+YARN 1 MapReduce原理深度剖析 2 【實(shí)戰(zhàn)】MapReduce實(shí)戰(zhàn)案例開發(fā) 3 YARN資源管理模型分析 4 【實(shí)戰(zhàn)】YARN中的多資源隊(duì)列配置和使用 5【案例】Hadoop(HDFS+MapReduce+YARN)在企業(yè)中的典型案例分析 |
第一天下午:HBase核心原理及高級(jí)特性 1 HBase核心原理及架構(gòu)分析 2 HBase典型應(yīng)用場景及應(yīng)用案例分析 3 常見NoSQL數(shù)據(jù)庫綜合對比分析(MongoDB\Cassandra\Redis\HBase) 4【實(shí)戰(zhàn)】HBase常用命令的使用(DDL+DML) 5【實(shí)戰(zhàn)】HBase JavaAPI的使用 6 HBase底層架構(gòu)詳解(HFile+Region) 7【實(shí)戰(zhàn)】HBase批量導(dǎo)入和批量導(dǎo)出功能 8 HBase預(yù)分區(qū)、Rowkey列族的設(shè)計(jì)實(shí)戰(zhàn) 9 HBase Scan全表掃描功能實(shí)戰(zhàn)(包括分頁的實(shí)現(xiàn)) 10 HBase如何間接實(shí)現(xiàn)SQL語法支持(Hive+HBase、Phoenix) 11 【案例】Elasticsearch+HBase典型場景分析 12【案例】HBase在用戶畫像項(xiàng)目中的應(yīng)用分析 |
第二天上午:Spark核心原理及編程 1 Spark核心原理及架構(gòu)分析 2【實(shí)戰(zhàn)】Spark離線計(jì)算案例開發(fā) 3【實(shí)戰(zhàn)】Spark之RDD的核心原理及使用 4【實(shí)戰(zhàn)】Spark中常見Transformation算子的原理及使用 5【實(shí)戰(zhàn)】Spark中常見Action算子的原理及使用 6 Spark任務(wù)的提交模式詳解 7【案例】Spark在企業(yè)中的典型案例分析 |
第二天上午:Spark SQL核心原理及使用 1 Spark SQL核心原理分析 2【實(shí)戰(zhàn)】DataFrame(DataSet)的SQL操作 3【實(shí)戰(zhàn)】RDD和DataFrame的相互轉(zhuǎn)換使用 4【實(shí)戰(zhàn)】Spark SQL實(shí)現(xiàn)TopN數(shù)據(jù)統(tǒng)計(jì) 5【實(shí)戰(zhàn)】Spark SQL集成Hive 6 【案例】基于SparkSQL的一站式SQL開發(fā)引擎 |
第二天下午:Flink核心原理及使用 1 Flink核心原理及架構(gòu)分析 2 Storm vs SparkStreaming vs Flink 3【實(shí)戰(zhàn)】Flink流批一體代碼案例開發(fā) 4 Flink常用部署模式分析(yarn-session\per-job\Application) 5【實(shí)戰(zhàn)】Flink DataStream API的使用 6 【實(shí)戰(zhàn)】Flink中window及Time詳解及應(yīng)用 7 【實(shí)戰(zhàn)】Flink實(shí)時(shí)數(shù)據(jù)亂序問題原理及解決方案 |
第三天 上午:Flink SQL的核心應(yīng)用 1 Flink中狀態(tài)(State)的原理機(jī)制分析 2 Flink中State(狀態(tài))的容錯(cuò)與一致性 3 【實(shí)戰(zhàn)】Kafka+Flink+Kafka端到端一致性代碼開發(fā) 4 Flink SQL核心原理分析 5【實(shí)戰(zhàn)】Flink SQL數(shù)據(jù)處理案例開發(fā) 6【增加kafka->Flink SQL->hudi的實(shí)操】 7 Flink SQL雙流Join核心原理分析 8【實(shí)戰(zhàn)】Flink SQL雙流Join案例開發(fā) 9【案例】Flink在企業(yè)中的典型案例分析 10【案例】一站式流計(jì)算SQL開發(fā)平臺(tái)StreamPark原理及架構(gòu)分析 |
第三天下午:實(shí)時(shí)數(shù)倉/湖倉一體建設(shè) 1 數(shù)據(jù)湖四劍客綜合對比分析(Iceberg\Hudi\Delta?Lake\Paimon) 2 數(shù)據(jù)湖Hudi的核心原理及架構(gòu)分析 3 基于Hudi的核心功能的使用 4 什么是數(shù)據(jù)倉庫 5 數(shù)據(jù)倉庫建模方式分析(ER實(shí)體建模、維度建模) 6 數(shù)據(jù)倉庫分層設(shè)計(jì) 7 【架構(gòu)】數(shù)據(jù)倉庫架構(gòu)演進(jìn)過程(離線數(shù)倉、實(shí)時(shí)數(shù)倉、批流一體數(shù)倉、湖倉一體) 8 【案例】從0~1如何構(gòu)建企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)倉庫(湖倉一體) 9 實(shí)時(shí)數(shù)據(jù)倉庫(湖倉一體)架構(gòu)設(shè)計(jì)+技術(shù)選型 |