課程簡介
當下是大數(shù)據(jù)時代,為構(gòu)建大數(shù)據(jù)平臺,技術(shù)人員需要對分布式計算平臺有一定深入的理解和應用。
目標收益
本課程將為大家全面而又深入的介紹Spark平臺的構(gòu)建流程,涉及Spark系統(tǒng)基礎知識,概念及架構(gòu), Spark實戰(zhàn)技巧,Spark經(jīng)典案例等。
通過本課程實踐,幫助學員對Spark生態(tài)系統(tǒng)有一個清晰明了的認識;理解Spark系統(tǒng)適用的場景;掌握Spark初中級應用開發(fā)技能;搭建穩(wěn)定可靠的Spark集群,滿足生產(chǎn)環(huán)境的標準;了解和清楚大數(shù)據(jù)應用的幾個行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。
培訓對象
各類 IT/軟件企業(yè)和研發(fā)機構(gòu)的軟件架構(gòu)師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
課程大綱
第一天 大數(shù)據(jù)生態(tài)系統(tǒng)介紹 |
?分布式存儲—HDFS ?分布式并行計算—MapReduce ?基于Hadoop的數(shù)據(jù)倉庫—Hive ?集群管理工具—ambari ?工作流工具—Oozie ?數(shù)據(jù)的并行采集—Flume ?MapReduce腳本工具—Pig ?與關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)遷移—Sqoop ?資源管理平臺—Yarn ?數(shù)據(jù)挖掘算法—Mahout ?分布式統(tǒng)一服務—Zookeeper ?Hadoop安全工具—Knox ?流式計算框架—Storm ?內(nèi)存計算框架—Spark ?數(shù)據(jù)挖掘框架—Mahout、Mllib和Graphx |
Spark生態(tài)介紹 |
?Mapreduce、storm和spark模型的比較和使用場景介紹 ?Spark產(chǎn)生背景 ?Spark(內(nèi)存計算框架) ?SparkSteaming(流式計算框架) ?Spark SQL(ad-hoc) ?Mllib(MachineLearning) ?GraphX(bagel將被代) ?DlinkDB介紹 ?SparkR介紹 |
Spark運行架構(gòu)和解析 |
?Spark的運行架構(gòu) 1.基本術(shù)語 2.運行架構(gòu) 3.Spark on Standalone運行過程 4.Spark on YARN 運行過程 ?Spark應用程序的配置 ?Spark運行實例解析 1.Spark on Standalone實例解析 Spark on YARN實例解析 |
Spark編程模型和解析 |
?python開發(fā)環(huán)境搭建 ?Spark的編程模型 ?Spark編程模型解析 ?Partition實現(xiàn)機制 ?RDD的特點、操作、依賴關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark的累加器詳解 ?Spark的廣播變量詳解 ?Spark容錯機制 — lineage和checkpoint詳解 |
Spark2.0的特性 |
?Spark 2.0 和1.6的區(qū)別 ?SparkSession詳解 ?StructedStreaming原理 ?DateFrame和DataSet的優(yōu)化 |
文件讀寫操作 |
?Spark支持哪些文件的讀寫 ?Spark讀Hive的數(shù)據(jù) ?Spark讀Json格式的數(shù)據(jù) ?Spark讀Hbase的數(shù)據(jù) |
Spark應用優(yōu)化 |
?partition優(yōu)化詳解 ?文件壓縮格式(ORC、Parquet) ?持久化類型選擇 ?靈活使用Join操作 ?Spark配置參數(shù)的優(yōu)化 ?RDD的優(yōu)化 |
第二天 Spark SQL原理和實踐 |
?Spark SQL原理 1.Spark SQL的Catalyst優(yōu)化器 2.Spark SQL內(nèi)核 3.Spark SQL和Hive ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實戰(zhàn) ?Spark SQL的實例和編程 1.Spark SQL的實例操作demo 2. Spark SQL的編程 |
Spark 數(shù)據(jù)挖掘 |
?SparkMllib和SparkR原理 ?基于Spark Mllib和SparkR數(shù)據(jù)挖掘的流程 1.數(shù)據(jù)的抽取 2.數(shù)據(jù)降維和升維 3.稠密向量和稀疏向量數(shù)據(jù)處理 4.基于DataFrame和DataSet的數(shù)據(jù)挖掘過 SparkMllib和SparkR挖掘?qū)崙?zhàn) 5.聚類算法Kmeans的實戰(zhàn)和應用場景 6.決策樹算法的實戰(zhàn)和應用場景 7.邏輯回歸算法實戰(zhàn)和應用場景 8.隨機森林算法實戰(zhàn)和應用場景 9. 協(xié)同過濾推薦算法實戰(zhàn)案例 |
Hands-on項目實操 |
?Spark SQL項目實戰(zhàn)(電信行業(yè)) —項目需求 —數(shù)據(jù)ELT —SparkSQL和Hive整合 —SparkSQL內(nèi)存表的使用 —JDBC連接SparkSQL ?Spark Mllib項目實戰(zhàn)(電信行業(yè)) —Spark Mllib挖掘的步驟 —數(shù)據(jù)去噪 —模型的選擇 —基于校園用戶的數(shù)據(jù)建模案例 —模型的保存和優(yōu)化 |
案例詳解 |
?基于spark日志分析 ?Spark SQL實戰(zhàn)(證券業(yè)) ?Spark在大型互聯(lián)網(wǎng)使用案例分享 ?200+Spark集群的案例介紹 |
第一天 大數(shù)據(jù)生態(tài)系統(tǒng)介紹 ?分布式存儲—HDFS ?分布式并行計算—MapReduce ?基于Hadoop的數(shù)據(jù)倉庫—Hive ?集群管理工具—ambari ?工作流工具—Oozie ?數(shù)據(jù)的并行采集—Flume ?MapReduce腳本工具—Pig ?與關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)遷移—Sqoop ?資源管理平臺—Yarn ?數(shù)據(jù)挖掘算法—Mahout ?分布式統(tǒng)一服務—Zookeeper ?Hadoop安全工具—Knox ?流式計算框架—Storm ?內(nèi)存計算框架—Spark ?數(shù)據(jù)挖掘框架—Mahout、Mllib和Graphx |
Spark生態(tài)介紹 ?Mapreduce、storm和spark模型的比較和使用場景介紹 ?Spark產(chǎn)生背景 ?Spark(內(nèi)存計算框架) ?SparkSteaming(流式計算框架) ?Spark SQL(ad-hoc) ?Mllib(MachineLearning) ?GraphX(bagel將被代) ?DlinkDB介紹 ?SparkR介紹 |
Spark運行架構(gòu)和解析 ?Spark的運行架構(gòu) 1.基本術(shù)語 2.運行架構(gòu) 3.Spark on Standalone運行過程 4.Spark on YARN 運行過程 ?Spark應用程序的配置 ?Spark運行實例解析 1.Spark on Standalone實例解析 Spark on YARN實例解析 |
Spark編程模型和解析 ?python開發(fā)環(huán)境搭建 ?Spark的編程模型 ?Spark編程模型解析 ?Partition實現(xiàn)機制 ?RDD的特點、操作、依賴關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark的累加器詳解 ?Spark的廣播變量詳解 ?Spark容錯機制 — lineage和checkpoint詳解 |
Spark2.0的特性 ?Spark 2.0 和1.6的區(qū)別 ?SparkSession詳解 ?StructedStreaming原理 ?DateFrame和DataSet的優(yōu)化 |
文件讀寫操作 ?Spark支持哪些文件的讀寫 ?Spark讀Hive的數(shù)據(jù) ?Spark讀Json格式的數(shù)據(jù) ?Spark讀Hbase的數(shù)據(jù) |
Spark應用優(yōu)化 ?partition優(yōu)化詳解 ?文件壓縮格式(ORC、Parquet) ?持久化類型選擇 ?靈活使用Join操作 ?Spark配置參數(shù)的優(yōu)化 ?RDD的優(yōu)化 |
第二天 Spark SQL原理和實踐 ?Spark SQL原理 1.Spark SQL的Catalyst優(yōu)化器 2.Spark SQL內(nèi)核 3.Spark SQL和Hive ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實戰(zhàn) ?Spark SQL的實例和編程 1.Spark SQL的實例操作demo 2. Spark SQL的編程 |
Spark 數(shù)據(jù)挖掘 ?SparkMllib和SparkR原理 ?基于Spark Mllib和SparkR數(shù)據(jù)挖掘的流程 1.數(shù)據(jù)的抽取 2.數(shù)據(jù)降維和升維 3.稠密向量和稀疏向量數(shù)據(jù)處理 4.基于DataFrame和DataSet的數(shù)據(jù)挖掘過 SparkMllib和SparkR挖掘?qū)崙?zhàn) 5.聚類算法Kmeans的實戰(zhàn)和應用場景 6.決策樹算法的實戰(zhàn)和應用場景 7.邏輯回歸算法實戰(zhàn)和應用場景 8.隨機森林算法實戰(zhàn)和應用場景 9. 協(xié)同過濾推薦算法實戰(zhàn)案例 |
Hands-on項目實操 ?Spark SQL項目實戰(zhàn)(電信行業(yè)) —項目需求 —數(shù)據(jù)ELT —SparkSQL和Hive整合 —SparkSQL內(nèi)存表的使用 —JDBC連接SparkSQL ?Spark Mllib項目實戰(zhàn)(電信行業(yè)) —Spark Mllib挖掘的步驟 —數(shù)據(jù)去噪 —模型的選擇 —基于校園用戶的數(shù)據(jù)建模案例 —模型的保存和優(yōu)化 |
案例詳解 ?基于spark日志分析 ?Spark SQL實戰(zhàn)(證券業(yè)) ?Spark在大型互聯(lián)網(wǎng)使用案例分享 ?200+Spark集群的案例介紹 |