課程簡介
當(dāng)下是大數(shù)據(jù)時(shí)代,為構(gòu)建大數(shù)據(jù)平臺(tái),技術(shù)人員需要對(duì)分布式計(jì)算平臺(tái)有一定深入的理解和應(yīng)用。
目標(biāo)收益
通過本課程實(shí)踐,幫助學(xué)員對(duì)Hadoop、spark和NoSQL生態(tài)系統(tǒng)有一個(gè)清晰明了的認(rèn)識(shí);理解Hadoop、spark和NoSQL系統(tǒng)適用的場景;掌握Hadoop、spark和NoSQL等初中級(jí)應(yīng)用開發(fā)技能;搭建穩(wěn)定可靠的Hadoop、spark和NoSQL集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn);了解和清楚大數(shù)據(jù)應(yīng)用的幾個(gè)行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。
培訓(xùn)對(duì)象
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對(duì)于懷有設(shè)計(jì)疑問和問題,需要梳理解答的團(tuán)隊(duì)和個(gè)人,效果最佳。
課程大綱
大數(shù)據(jù)在國內(nèi)的運(yùn)用 |
大數(shù)據(jù)在國內(nèi)的使用介紹 離線計(jì)算框架介紹 流式計(jì)算框架介紹 內(nèi)存計(jì)算框架介紹 內(nèi)存流式計(jì)算介紹 |
大數(shù)據(jù)的整體技術(shù)架構(gòu) |
開源大數(shù)據(jù)技術(shù)架構(gòu) 開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 離線計(jì)算框架介紹 —Mapreduce、Hive、Tez、Presto、Kylin 實(shí)時(shí)查詢框架介紹 —NoSQL、Hbase 實(shí)時(shí)計(jì)算框架介紹 —Kafka、Strom、Spark Streaming 內(nèi)存計(jì)算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR 前沿大數(shù)據(jù)技術(shù)介紹 —Flink、Drill、Druid、KUDU等 海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平臺(tái)優(yōu)化點(diǎn) |
Linux系統(tǒng)的優(yōu)化 最佳硬件的選擇和建議 HDFS架構(gòu)和原理 HDFS的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問題 MapReduce架構(gòu)和原理 MapReduce的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問題 Yarn的內(nèi)存、CPU和IO的優(yōu)化 Hbase的優(yōu)化和生產(chǎn)環(huán)境常見的問題 Hive的優(yōu)化和Hive的改進(jìn)工具介紹 Impala、Kylin、Presto工具介紹 RCFile、ORC和parquet格式介紹 |
Hadoop核心組件的運(yùn)維和配置 |
HDFS的元數(shù)據(jù)管理 FSimage和Edit文件解析 手動(dòng)修改FSimage和Edit文件 HDFS HA的架構(gòu)運(yùn)維解析 Yarn服務(wù)運(yùn)維詳解 Yarn核心配置參數(shù)的詳解 Hbase服務(wù)運(yùn)維詳解 手動(dòng)設(shè)置Split和Compaction操作 RS宕機(jī)的運(yùn)維處理 Hbase 超大表的優(yōu)化實(shí)踐 |
Yarn實(shí)戰(zhàn) |
Yarn架構(gòu)和原理 ResourceManager工作原理 NodeManager工作原理 基于IO的控制這是 Yarn為某個(gè)運(yùn)用獨(dú)立分配資 基于隊(duì)列的資源管理配置 基于底層硬件的SLA資源配置 不同部門或者用戶的資源配置 |
NoSQL和Hbase使用 |
NoSQL介紹 NoSQL應(yīng)用場景 Hbase原理 Hmaster詳解 RegionServer詳解 Zookeeper介紹 Hbase安裝 Hbase邏輯視圖介紹 Hbase物理視圖介紹 Hbase的二級(jí)索引介紹 Hbase 的DDL和DML Hbase表的設(shè)計(jì)案例 Hbase的import功能介紹 MapReduce操作Hbase Hbase的 thrift Server介紹 Hbase 的API介紹 Hbase使用場景介紹 Hbase案例分析 |
Spark Streaming原理和實(shí)踐 |
Spark Streaming原理 ApplicationMaster工作原理 Yarn的資源控制機(jī)制 基于內(nèi)存的控制設(shè)置 基于CPU的控制設(shè)置 ? Spark流式處理架構(gòu) ? DStream的特點(diǎn) ? Dstream的操作和RDD的區(qū)別 ? SatefulRDD和windowRDD實(shí)戰(zhàn) ? Kafka+Spark Steaming實(shí)戰(zhàn) ? Spark Streaming的優(yōu)化 Kafka+Spark Streaming實(shí)例 ? 文本實(shí)例 網(wǎng)絡(luò)數(shù)據(jù)處理 |
Spark SQL原理和實(shí)踐 |
Spark SQL原理 ? Spark SQL的Catalyst優(yōu)化器 ? Spark SQL內(nèi)核 ? Spark SQL和Hive DataFrame和DataSet架構(gòu) Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL的實(shí)例和編程 ? Spark SQL的實(shí)例操作demo Spark SQL的編程 |
Spark優(yōu)化 |
Spark SQL的優(yōu)化 基于Spark計(jì)算的文件格式選擇 Spark on Yarn的優(yōu)化 Spark SQL執(zhí)行計(jì)劃的優(yōu)化 Spark 內(nèi)存管理的機(jī)制 |
互聯(lián)網(wǎng)大數(shù)案例分享 |
互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用案例介紹 某銀行基于大數(shù)據(jù)平臺(tái)風(fēng)險(xiǎn)監(jiān)控案例 某銀行基于大數(shù)據(jù)數(shù)據(jù)湖的案例 |
大數(shù)據(jù)在國內(nèi)的運(yùn)用 大數(shù)據(jù)在國內(nèi)的使用介紹 離線計(jì)算框架介紹 流式計(jì)算框架介紹 內(nèi)存計(jì)算框架介紹 內(nèi)存流式計(jì)算介紹 |
大數(shù)據(jù)的整體技術(shù)架構(gòu) 開源大數(shù)據(jù)技術(shù)架構(gòu) 開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 離線計(jì)算框架介紹 —Mapreduce、Hive、Tez、Presto、Kylin 實(shí)時(shí)查詢框架介紹 —NoSQL、Hbase 實(shí)時(shí)計(jì)算框架介紹 —Kafka、Strom、Spark Streaming 內(nèi)存計(jì)算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR 前沿大數(shù)據(jù)技術(shù)介紹 —Flink、Drill、Druid、KUDU等 海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平臺(tái)優(yōu)化點(diǎn) Linux系統(tǒng)的優(yōu)化 最佳硬件的選擇和建議 HDFS架構(gòu)和原理 HDFS的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問題 MapReduce架構(gòu)和原理 MapReduce的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問題 Yarn的內(nèi)存、CPU和IO的優(yōu)化 Hbase的優(yōu)化和生產(chǎn)環(huán)境常見的問題 Hive的優(yōu)化和Hive的改進(jìn)工具介紹 Impala、Kylin、Presto工具介紹 RCFile、ORC和parquet格式介紹 |
Hadoop核心組件的運(yùn)維和配置 HDFS的元數(shù)據(jù)管理 FSimage和Edit文件解析 手動(dòng)修改FSimage和Edit文件 HDFS HA的架構(gòu)運(yùn)維解析 Yarn服務(wù)運(yùn)維詳解 Yarn核心配置參數(shù)的詳解 Hbase服務(wù)運(yùn)維詳解 手動(dòng)設(shè)置Split和Compaction操作 RS宕機(jī)的運(yùn)維處理 Hbase 超大表的優(yōu)化實(shí)踐 |
Yarn實(shí)戰(zhàn) Yarn架構(gòu)和原理 ResourceManager工作原理 NodeManager工作原理 基于IO的控制這是 Yarn為某個(gè)運(yùn)用獨(dú)立分配資 基于隊(duì)列的資源管理配置 基于底層硬件的SLA資源配置 不同部門或者用戶的資源配置 |
NoSQL和Hbase使用 NoSQL介紹 NoSQL應(yīng)用場景 Hbase原理 Hmaster詳解 RegionServer詳解 Zookeeper介紹 Hbase安裝 Hbase邏輯視圖介紹 Hbase物理視圖介紹 Hbase的二級(jí)索引介紹 Hbase 的DDL和DML Hbase表的設(shè)計(jì)案例 Hbase的import功能介紹 MapReduce操作Hbase Hbase的 thrift Server介紹 Hbase 的API介紹 Hbase使用場景介紹 Hbase案例分析 |
Spark Streaming原理和實(shí)踐 Spark Streaming原理 ApplicationMaster工作原理 Yarn的資源控制機(jī)制 基于內(nèi)存的控制設(shè)置 基于CPU的控制設(shè)置 ? Spark流式處理架構(gòu) ? DStream的特點(diǎn) ? Dstream的操作和RDD的區(qū)別 ? SatefulRDD和windowRDD實(shí)戰(zhàn) ? Kafka+Spark Steaming實(shí)戰(zhàn) ? Spark Streaming的優(yōu)化 Kafka+Spark Streaming實(shí)例 ? 文本實(shí)例 網(wǎng)絡(luò)數(shù)據(jù)處理 |
Spark SQL原理和實(shí)踐 Spark SQL原理 ? Spark SQL的Catalyst優(yōu)化器 ? Spark SQL內(nèi)核 ? Spark SQL和Hive DataFrame和DataSet架構(gòu) Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL的實(shí)例和編程 ? Spark SQL的實(shí)例操作demo Spark SQL的編程 |
Spark優(yōu)化 Spark SQL的優(yōu)化 基于Spark計(jì)算的文件格式選擇 Spark on Yarn的優(yōu)化 Spark SQL執(zhí)行計(jì)劃的優(yōu)化 Spark 內(nèi)存管理的機(jī)制 |
互聯(lián)網(wǎng)大數(shù)案例分享 互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用案例介紹 某銀行基于大數(shù)據(jù)平臺(tái)風(fēng)險(xiǎn)監(jiān)控案例 某銀行基于大數(shù)據(jù)數(shù)據(jù)湖的案例 |