課程簡(jiǎn)介
本次課程主要針對(duì)大數(shù)據(jù)平臺(tái)中MapReduce,Spark中的Spark core、Spark SQL 、SparkStreaming、Spark性能優(yōu)化,以及HBase的高級(jí)特性這些內(nèi)容進(jìn)行講解,通過這些內(nèi)容的學(xué)習(xí),可以掌握MapReduce的編程思想,掌握Spark中的離線計(jì)算和實(shí)時(shí)計(jì)算,以及HBase的高級(jí)特性。
目標(biāo)收益
?了解大數(shù)據(jù)中MapReduce的核心原理
?掌握MapReduce核心編程
?了解Spark性能優(yōu)化
?掌握Spark中的離線計(jì)算和實(shí)時(shí)計(jì)算
?掌握Spark SQL的使用
?掌握HBase的高級(jí)特性
培訓(xùn)對(duì)象
課程內(nèi)容
第一天(上午)
Hadoop原理及HDFS實(shí)操
1 快速了解Hadoop
2 Hadoop3.x的核心細(xì)節(jié)優(yōu)化
3 Hadoop大數(shù)據(jù)平臺(tái)的選型
4 HDFS核心原理詳解
5 HDFS的常用及高級(jí)shell命令
6 HDFS體系結(jié)構(gòu)原理詳細(xì)剖析
HDFS高級(jí)內(nèi)容
7 HDFS的回收站和安全模式
8 HDFS的高可用和高擴(kuò)展架構(gòu)剖析
9 HDFS機(jī)架感知策略原理剖析
10 HDFS寫數(shù)據(jù)原理及源碼剖析
11 HDFS的糾刪碼機(jī)制(Erasure Coding)原理剖析
第一天(下午)
MapReduce核心編程
1 MapReduce原理深度剖析
2 MapReduce實(shí)戰(zhàn)案例開發(fā)
3 Shuffle過程詳解
4 Hadoop中的序列化機(jī)制分析
5 MapTask源碼分析
6 RecuceTask源碼分析
7 YARN資源管理模型分析
8 YARN中的多資源隊(duì)列配置和使用
MapReduce源碼剖析及性能優(yōu)化解決方案
9 Inputformat切片源碼分析
10 Outputformat源碼分析
11 小文件問題剖析及實(shí)戰(zhàn)
12 數(shù)據(jù)傾斜問題原理剖析及實(shí)戰(zhàn)
13 MapReduce Job提交流程分析
14 Map job和Reduce join案例分析及實(shí)戰(zhàn)
15 MapReduce中的數(shù)據(jù)壓縮案例分析及實(shí)戰(zhàn)
第二天(上午)
Spark原理及案例開發(fā)
1 Spark核心原理及架構(gòu)剖析
2 Spark任務(wù)的三種提交模式