架構(gòu)師
互聯(lián)網(wǎng)
電商
支付平臺
傳統(tǒng)金融
互聯(lián)網(wǎng)金融
可穿戴設備
醫(yī)療
智能家居
車聯(lián)網(wǎng)
安全
制造
電信
政府機構(gòu)
稅務
快消品
其他
大數(shù)據(jù)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

Spark開發(fā)實戰(zhàn)

劉老師

某知名咨詢公司 云平臺系統(tǒng)架構(gòu)師

畢業(yè)于?連理??學
簡介:
精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。
有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù)
據(jù)中臺項?架構(gòu)實施經(jīng)驗,
?前任職國內(nèi)知名咨詢公司,先后服務于北京?學軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù)
棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設施
最近主要項?介紹:
某移動?數(shù)據(jù)平臺架構(gòu)設計和設施 (Hadoop、Spark)
四??之?的數(shù)據(jù)湖咨詢和實施
某?型商業(yè)銀?數(shù)據(jù)中臺咨詢
某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施
某航空公司數(shù)據(jù)平臺流批?體解決?案和實施
特長:
在?數(shù)據(jù)架構(gòu)、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機器學習、數(shù)據(jù)
中臺等??有豐富經(jīng) 驗。

畢業(yè)于?連理??學 簡介: 精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。 有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù) 據(jù)中臺項?架構(gòu)實施經(jīng)驗, ?前任職國內(nèi)知名咨詢公司,先后服務于北京?學軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術(shù) 棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構(gòu)咨詢和實施、數(shù)據(jù)中臺的咨詢和設施 最近主要項?介紹: 某移動?數(shù)據(jù)平臺架構(gòu)設計和設施 (Hadoop、Spark) 四??之?的數(shù)據(jù)湖咨詢和實施 某?型商業(yè)銀?數(shù)據(jù)中臺咨詢 某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺的咨詢和實施 某航空公司數(shù)據(jù)平臺流批?體解決?案和實施 特長: 在?數(shù)據(jù)架構(gòu)、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機器學習、數(shù)據(jù) 中臺等??有豐富經(jīng) 驗。

課程費用

5800.00 /人

課程時長

2

成為教練

課程簡介

當下是大數(shù)據(jù)時代,為構(gòu)建大數(shù)據(jù)平臺,技術(shù)人員需要對分布式計算平臺有一定深入的理解和應用。

目標收益

本課程將為大家全面而又深入的介紹Spark平臺的構(gòu)建流程,涉及Spark系統(tǒng)基礎知識,概念及架構(gòu), Spark實戰(zhàn)技巧,Spark經(jīng)典案例等。
通過本課程實踐,幫助學員對Spark生態(tài)系統(tǒng)有一個清晰明了的認識;理解Spark系統(tǒng)適用的場景;掌握Spark初中級應用開發(fā)技能;搭建穩(wěn)定可靠的Spark集群,滿足生產(chǎn)環(huán)境的標準;了解和清楚大數(shù)據(jù)應用的幾個行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。

培訓對象

各類 IT/軟件企業(yè)和研發(fā)機構(gòu)的軟件架構(gòu)師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。

課程大綱

第一天
大數(shù)據(jù)生態(tài)系統(tǒng)介紹
?分布式存儲—HDFS
?分布式并行計算—MapReduce
?基于Hadoop的數(shù)據(jù)倉庫—Hive
?集群管理工具—ambari
?工作流工具—Oozie
?數(shù)據(jù)的并行采集—Flume
?MapReduce腳本工具—Pig
?與關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)遷移—Sqoop
?資源管理平臺—Yarn
?數(shù)據(jù)挖掘算法—Mahout
?分布式統(tǒng)一服務—Zookeeper
?Hadoop安全工具—Knox
?流式計算框架—Storm
?內(nèi)存計算框架—Spark
?數(shù)據(jù)挖掘框架—Mahout、Mllib和Graphx
Spark生態(tài)介紹 ?Mapreduce、storm和spark模型的比較和使用場景介紹
?Spark產(chǎn)生背景
?Spark(內(nèi)存計算框架)
?SparkSteaming(流式計算框架)
?Spark SQL(ad-hoc)
?Mllib(MachineLearning)
?GraphX(bagel將被代)
?DlinkDB介紹
?SparkR介紹
Spark運行架構(gòu)和解析 ?Spark的運行架構(gòu)
1.基本術(shù)語
2.運行架構(gòu)
3.Spark on Standalone運行過程
4.Spark on YARN 運行過程
?Spark應用程序的配置
?Spark運行實例解析
1.Spark on Standalone實例解析
Spark on YARN實例解析
Spark編程模型和解析 ?python開發(fā)環(huán)境搭建
?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機制
?RDD的特點、操作、依賴關(guān)系
?Transformation RDD詳解
?Action RDD詳解
?Spark的累加器詳解
?Spark的廣播變量詳解
?Spark容錯機制
— lineage和checkpoint詳解
Spark2.0的特性 ?Spark 2.0 和1.6的區(qū)別
?SparkSession詳解
?StructedStreaming原理
?DateFrame和DataSet的優(yōu)化
文件讀寫操作 ?Spark支持哪些文件的讀寫
?Spark讀Hive的數(shù)據(jù)
?Spark讀Json格式的數(shù)據(jù)
?Spark讀Hbase的數(shù)據(jù)
Spark應用優(yōu)化 ?partition優(yōu)化詳解
?文件壓縮格式(ORC、Parquet)
?持久化類型選擇
?靈活使用Join操作
?Spark配置參數(shù)的優(yōu)化
?RDD的優(yōu)化
第二天
Spark SQL原理和實踐
?Spark SQL原理
1.Spark SQL的Catalyst優(yōu)化器
2.Spark SQL內(nèi)核
3.Spark SQL和Hive
?DataFrame和DataSet架構(gòu)
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
?Spark SQL的實例和編程
1.Spark SQL的實例操作demo
2. Spark SQL的編程
Spark 數(shù)據(jù)挖掘 ?SparkMllib和SparkR原理
?基于Spark Mllib和SparkR數(shù)據(jù)挖掘的流程
1.數(shù)據(jù)的抽取
2.數(shù)據(jù)降維和升維
3.稠密向量和稀疏向量數(shù)據(jù)處理
4.基于DataFrame和DataSet的數(shù)據(jù)挖掘過
SparkMllib和SparkR挖掘?qū)崙?zhàn)
5.聚類算法Kmeans的實戰(zhàn)和應用場景
6.決策樹算法的實戰(zhàn)和應用場景
7.邏輯回歸算法實戰(zhàn)和應用場景
8.隨機森林算法實戰(zhàn)和應用場景
9. 協(xié)同過濾推薦算法實戰(zhàn)案例
Hands-on項目實操 ?Spark SQL項目實戰(zhàn)(電信行業(yè))
—項目需求
—數(shù)據(jù)ELT
—SparkSQL和Hive整合
—SparkSQL內(nèi)存表的使用
—JDBC連接SparkSQL
?Spark Mllib項目實戰(zhàn)(電信行業(yè))
—Spark Mllib挖掘的步驟
—數(shù)據(jù)去噪
—模型的選擇
—基于校園用戶的數(shù)據(jù)建模案例
—模型的保存和優(yōu)化
案例詳解 ?基于spark日志分析
?Spark SQL實戰(zhàn)(證券業(yè))
?Spark在大型互聯(lián)網(wǎng)使用案例分享
?200+Spark集群的案例介紹
第一天
大數(shù)據(jù)生態(tài)系統(tǒng)介紹

?分布式存儲—HDFS
?分布式并行計算—MapReduce
?基于Hadoop的數(shù)據(jù)倉庫—Hive
?集群管理工具—ambari
?工作流工具—Oozie
?數(shù)據(jù)的并行采集—Flume
?MapReduce腳本工具—Pig
?與關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)遷移—Sqoop
?資源管理平臺—Yarn
?數(shù)據(jù)挖掘算法—Mahout
?分布式統(tǒng)一服務—Zookeeper
?Hadoop安全工具—Knox
?流式計算框架—Storm
?內(nèi)存計算框架—Spark
?數(shù)據(jù)挖掘框架—Mahout、Mllib和Graphx
Spark生態(tài)介紹
?Mapreduce、storm和spark模型的比較和使用場景介紹
?Spark產(chǎn)生背景
?Spark(內(nèi)存計算框架)
?SparkSteaming(流式計算框架)
?Spark SQL(ad-hoc)
?Mllib(MachineLearning)
?GraphX(bagel將被代)
?DlinkDB介紹
?SparkR介紹
Spark運行架構(gòu)和解析
?Spark的運行架構(gòu)
1.基本術(shù)語
2.運行架構(gòu)
3.Spark on Standalone運行過程
4.Spark on YARN 運行過程
?Spark應用程序的配置
?Spark運行實例解析
1.Spark on Standalone實例解析
Spark on YARN實例解析
Spark編程模型和解析
?python開發(fā)環(huán)境搭建
?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機制
?RDD的特點、操作、依賴關(guān)系
?Transformation RDD詳解
?Action RDD詳解
?Spark的累加器詳解
?Spark的廣播變量詳解
?Spark容錯機制
— lineage和checkpoint詳解
Spark2.0的特性
?Spark 2.0 和1.6的區(qū)別
?SparkSession詳解
?StructedStreaming原理
?DateFrame和DataSet的優(yōu)化
文件讀寫操作
?Spark支持哪些文件的讀寫
?Spark讀Hive的數(shù)據(jù)
?Spark讀Json格式的數(shù)據(jù)
?Spark讀Hbase的數(shù)據(jù)
Spark應用優(yōu)化
?partition優(yōu)化詳解
?文件壓縮格式(ORC、Parquet)
?持久化類型選擇
?靈活使用Join操作
?Spark配置參數(shù)的優(yōu)化
?RDD的優(yōu)化
第二天
Spark SQL原理和實踐
?Spark SQL原理
1.Spark SQL的Catalyst優(yōu)化器
2.Spark SQL內(nèi)核
3.Spark SQL和Hive
?DataFrame和DataSet架構(gòu)
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
?Spark SQL的實例和編程
1.Spark SQL的實例操作demo
2. Spark SQL的編程
Spark 數(shù)據(jù)挖掘
?SparkMllib和SparkR原理
?基于Spark Mllib和SparkR數(shù)據(jù)挖掘的流程
1.數(shù)據(jù)的抽取
2.數(shù)據(jù)降維和升維
3.稠密向量和稀疏向量數(shù)據(jù)處理
4.基于DataFrame和DataSet的數(shù)據(jù)挖掘過
SparkMllib和SparkR挖掘?qū)崙?zhàn)
5.聚類算法Kmeans的實戰(zhàn)和應用場景
6.決策樹算法的實戰(zhàn)和應用場景
7.邏輯回歸算法實戰(zhàn)和應用場景
8.隨機森林算法實戰(zhàn)和應用場景
9. 協(xié)同過濾推薦算法實戰(zhàn)案例
Hands-on項目實操
?Spark SQL項目實戰(zhàn)(電信行業(yè))
—項目需求
—數(shù)據(jù)ELT
—SparkSQL和Hive整合
—SparkSQL內(nèi)存表的使用
—JDBC連接SparkSQL
?Spark Mllib項目實戰(zhàn)(電信行業(yè))
—Spark Mllib挖掘的步驟
—數(shù)據(jù)去噪
—模型的選擇
—基于校園用戶的數(shù)據(jù)建模案例
—模型的保存和優(yōu)化
案例詳解
?基于spark日志分析
?Spark SQL實戰(zhàn)(證券業(yè))
?Spark在大型互聯(lián)網(wǎng)使用案例分享
?200+Spark集群的案例介紹

課程費用

5800.00 /人

課程時長

2

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求