工程師
互聯(lián)網(wǎng)
其他
大數(shù)據(jù)
數(shù)據(jù)挖掘
Python
SQL
數(shù)據(jù)分析
Spark
大數(shù)據(jù)平臺
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

數(shù)據(jù)分析技能培訓

劉老師

某知名咨詢公司 云平臺系統(tǒng)架構師

畢業(yè)于?連理??學
簡介:
精通開源的?數(shù)據(jù)?態(tài)技術和架構,Hadoop、Hive、Hbase、 Spark、Flink等開源技術棧。
有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù)
據(jù)中臺項?架構實施經(jīng)驗,
?前任職國內(nèi)知名咨詢公司,先后服務于北京?學軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術
棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構咨詢和實施、數(shù)據(jù)中臺的咨詢和設施
最近主要項?介紹:
某移動?數(shù)據(jù)平臺架構設計和設施 (Hadoop、Spark)
四??之?的數(shù)據(jù)湖咨詢和實施
某?型商業(yè)銀?數(shù)據(jù)中臺咨詢
某銀?基于開源?數(shù)據(jù)技術棧數(shù)據(jù)中臺的咨詢和實施
某航空公司數(shù)據(jù)平臺流批?體解決?案和實施
特長:
在?數(shù)據(jù)架構、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機器學習、數(shù)據(jù)
中臺等??有豐富經(jīng) 驗。

畢業(yè)于?連理??學 簡介: 精通開源的?數(shù)據(jù)?態(tài)技術和架構,Hadoop、Hive、Hbase、 Spark、Flink等開源技術棧。 有10年左右基于?數(shù)據(jù)解決?案平臺、數(shù)據(jù)架構、數(shù)據(jù)中臺、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù) 據(jù)中臺項?架構實施經(jīng)驗, ?前任職國內(nèi)知名咨詢公司,先后服務于北京?學軟件研究所、阿?巴巴、Teradata,實施過基于開源?數(shù)據(jù)技術 棧的數(shù)據(jù)湖解決?案和實施、湖倉?體架構咨詢和實施、數(shù)據(jù)中臺的咨詢和設施 最近主要項?介紹: 某移動?數(shù)據(jù)平臺架構設計和設施 (Hadoop、Spark) 四??之?的數(shù)據(jù)湖咨詢和實施 某?型商業(yè)銀?數(shù)據(jù)中臺咨詢 某銀?基于開源?數(shù)據(jù)技術棧數(shù)據(jù)中臺的咨詢和實施 某航空公司數(shù)據(jù)平臺流批?體解決?案和實施 特長: 在?數(shù)據(jù)架構、開發(fā)、運維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機器學習、數(shù)據(jù) 中臺等??有豐富經(jīng) 驗。

課程費用

5800.00 /人

課程時長

2

成為教練

課程簡介

數(shù)據(jù)分析技能培訓的培訓時長為2天,培訓內(nèi)容涵蓋數(shù)據(jù)思維的概念、特點、方法論和應用價值,以及基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享。此外,還介紹了數(shù)據(jù)分析和挖掘流程,包括數(shù)據(jù)取樣、探索、預處理和特征工程構建等。在Python和Spark編程方面,學員將學習Python數(shù)據(jù)挖掘常用模塊、Numpy、pandas和Matplotlib等庫,以及Spark編程模型、RDD操作和Spark SQL原理和實踐等內(nèi)容。這些內(nèi)容將幫助學員掌握數(shù)據(jù)分析技能,提高數(shù)據(jù)處理和分析能力,為大數(shù)據(jù)時代的業(yè)務發(fā)展打下堅實基礎

目標收益

培訓對象

課程大綱

數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論 ?數(shù)據(jù)思維的概念
?數(shù)據(jù)思維的特點
?數(shù)據(jù)思維的方法論
?數(shù)據(jù)思維的應用價值
?數(shù)據(jù)思維的應用流程
?數(shù)據(jù)思維的模式
— 全量數(shù)據(jù)思維
— 容錯性思維
— 相關性思維
基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享 ?數(shù)據(jù)采集
?數(shù)據(jù)存儲
?數(shù)據(jù)處理
?數(shù)據(jù)建模( 數(shù)據(jù)指標和維度)
數(shù)據(jù)分析和可視化
數(shù)據(jù)分析和挖掘流程介紹 ?數(shù)據(jù)挖掘的基本任務
?定義分析和挖掘目標
?數(shù)據(jù)取樣
?數(shù)據(jù)探索
?單變量數(shù)據(jù)探索
?數(shù)據(jù)關聯(lián)性分析
?數(shù)據(jù)預處理
?數(shù)據(jù)特征工程構建和選擇
?挖掘建模
模型評價
Python數(shù)據(jù)分析庫實戰(zhàn) ?Python數(shù)據(jù)挖掘常用模塊
?Numpy
?pandas
?Matplotlib
Python機器學習庫:Scikit-learn
Spark編程模型和解析 ?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機制
?RDD的特點、操作、依賴關系
?Transformation RDD詳解
?Action RDD詳解
?Spark的累加器詳解
?Spark的廣播變量詳解
?Spark容錯機制
—lineage和checkpoint詳解
?Spark的運行方式
?Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實踐 ?Spark SQL原理
?Spark SQL的Catalyst優(yōu)化器
?Spark SQL內(nèi)核
?Spark SQL和Hive連接
?DataFrame和DataSet架構
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
?Spark SQL的實例和編程
?Spark SQL的實例操作demo
?Spark SQL的編程
Spark SQL實操演示
PySpark原理和基礎操作 ?Pyspark實例創(chuàng)建
1.引入庫
2.轉換實現(xiàn)
pyspark pandas series創(chuàng)建
pyspark pandas dataframe創(chuàng)建
from_pandas轉換
Spark DataFrame轉換
?PySpark Pandas操作
1.讀取行列索引
2.內(nèi)容轉換為數(shù)組
3.DataFrame統(tǒng)計描述
4.轉置
5.排序
按行索引排序
按某列值排序
PySpark數(shù)據(jù)分析營銷案例實戰(zhàn) ?一、數(shù)據(jù)概況分析
? 數(shù)據(jù)概況
? 數(shù)據(jù)清洗
?二、單變量分析
? 觀察樣本0、1的平衡性
? 觀察均值大小
? 可視化
?三、相關性分析和可視化
?四、邏輯回歸模型的建立和評估
? 模型建立
? 模型評估
? 模型優(yōu)化
?五、業(yè)務價值
?六、模型管理、發(fā)布和調(diào)用
七、MLFlow模型管理工具介紹和實戰(zhàn)
數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論
?數(shù)據(jù)思維的概念
?數(shù)據(jù)思維的特點
?數(shù)據(jù)思維的方法論
?數(shù)據(jù)思維的應用價值
?數(shù)據(jù)思維的應用流程
?數(shù)據(jù)思維的模式
— 全量數(shù)據(jù)思維
— 容錯性思維
— 相關性思維
基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享
?數(shù)據(jù)采集
?數(shù)據(jù)存儲
?數(shù)據(jù)處理
?數(shù)據(jù)建模( 數(shù)據(jù)指標和維度)
數(shù)據(jù)分析和可視化
數(shù)據(jù)分析和挖掘流程介紹
?數(shù)據(jù)挖掘的基本任務
?定義分析和挖掘目標
?數(shù)據(jù)取樣
?數(shù)據(jù)探索
?單變量數(shù)據(jù)探索
?數(shù)據(jù)關聯(lián)性分析
?數(shù)據(jù)預處理
?數(shù)據(jù)特征工程構建和選擇
?挖掘建模
模型評價
Python數(shù)據(jù)分析庫實戰(zhàn)
?Python數(shù)據(jù)挖掘常用模塊
?Numpy
?pandas
?Matplotlib
Python機器學習庫:Scikit-learn
Spark編程模型和解析
?Spark的編程模型
?Spark編程模型解析
?Partition實現(xiàn)機制
?RDD的特點、操作、依賴關系
?Transformation RDD詳解
?Action RDD詳解
?Spark的累加器詳解
?Spark的廣播變量詳解
?Spark容錯機制
—lineage和checkpoint詳解
?Spark的運行方式
?Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實踐
?Spark SQL原理
?Spark SQL的Catalyst優(yōu)化器
?Spark SQL內(nèi)核
?Spark SQL和Hive連接
?DataFrame和DataSet架構
?Fataframe、DataSet和Spark SQL的比較
?SparkSQL parquet格式實戰(zhàn)
?Spark SQL的實例和編程
?Spark SQL的實例操作demo
?Spark SQL的編程
Spark SQL實操演示
PySpark原理和基礎操作
?Pyspark實例創(chuàng)建
1.引入庫
2.轉換實現(xiàn)
pyspark pandas series創(chuàng)建
pyspark pandas dataframe創(chuàng)建
from_pandas轉換
Spark DataFrame轉換
?PySpark Pandas操作
1.讀取行列索引
2.內(nèi)容轉換為數(shù)組
3.DataFrame統(tǒng)計描述
4.轉置
5.排序
按行索引排序
按某列值排序
PySpark數(shù)據(jù)分析營銷案例實戰(zhàn)
?一、數(shù)據(jù)概況分析
? 數(shù)據(jù)概況
? 數(shù)據(jù)清洗
?二、單變量分析
? 觀察樣本0、1的平衡性
? 觀察均值大小
? 可視化
?三、相關性分析和可視化
?四、邏輯回歸模型的建立和評估
? 模型建立
? 模型評估
? 模型優(yōu)化
?五、業(yè)務價值
?六、模型管理、發(fā)布和調(diào)用
七、MLFlow模型管理工具介紹和實戰(zhàn)

課程費用

5800.00 /人

課程時長

2

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求