課程簡介
數(shù)據(jù)分析技能培訓的培訓時長為2天,培訓內(nèi)容涵蓋數(shù)據(jù)思維的概念、特點、方法論和應用價值,以及基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享。此外,還介紹了數(shù)據(jù)分析和挖掘流程,包括數(shù)據(jù)取樣、探索、預處理和特征工程構建等。在Python和Spark編程方面,學員將學習Python數(shù)據(jù)挖掘常用模塊、Numpy、pandas和Matplotlib等庫,以及Spark編程模型、RDD操作和Spark SQL原理和實踐等內(nèi)容。這些內(nèi)容將幫助學員掌握數(shù)據(jù)分析技能,提高數(shù)據(jù)處理和分析能力,為大數(shù)據(jù)時代的業(yè)務發(fā)展打下堅實基礎
目標收益
培訓對象
課程大綱
數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論 |
?數(shù)據(jù)思維的概念 ?數(shù)據(jù)思維的特點 ?數(shù)據(jù)思維的方法論 ?數(shù)據(jù)思維的應用價值 ?數(shù)據(jù)思維的應用流程 ?數(shù)據(jù)思維的模式 — 全量數(shù)據(jù)思維 — 容錯性思維 — 相關性思維 |
基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享 |
?數(shù)據(jù)采集 ?數(shù)據(jù)存儲 ?數(shù)據(jù)處理 ?數(shù)據(jù)建模( 數(shù)據(jù)指標和維度) 數(shù)據(jù)分析和可視化 |
數(shù)據(jù)分析和挖掘流程介紹 |
?數(shù)據(jù)挖掘的基本任務 ?定義分析和挖掘目標 ?數(shù)據(jù)取樣 ?數(shù)據(jù)探索 ?單變量數(shù)據(jù)探索 ?數(shù)據(jù)關聯(lián)性分析 ?數(shù)據(jù)預處理 ?數(shù)據(jù)特征工程構建和選擇 ?挖掘建模 模型評價 |
Python數(shù)據(jù)分析庫實戰(zhàn) |
?Python數(shù)據(jù)挖掘常用模塊 ?Numpy ?pandas ?Matplotlib Python機器學習庫:Scikit-learn |
Spark編程模型和解析 |
?Spark的編程模型 ?Spark編程模型解析 ?Partition實現(xiàn)機制 ?RDD的特點、操作、依賴關系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark的累加器詳解 ?Spark的廣播變量詳解 ?Spark容錯機制 —lineage和checkpoint詳解 ?Spark的運行方式 ?Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實踐 |
?Spark SQL原理 ?Spark SQL的Catalyst優(yōu)化器 ?Spark SQL內(nèi)核 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構 ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實戰(zhàn) ?Spark SQL的實例和編程 ?Spark SQL的實例操作demo ?Spark SQL的編程 Spark SQL實操演示 |
PySpark原理和基礎操作 |
?Pyspark實例創(chuàng)建 1.引入庫 2.轉換實現(xiàn) pyspark pandas series創(chuàng)建 pyspark pandas dataframe創(chuàng)建 from_pandas轉換 Spark DataFrame轉換 ?PySpark Pandas操作 1.讀取行列索引 2.內(nèi)容轉換為數(shù)組 3.DataFrame統(tǒng)計描述 4.轉置 5.排序 按行索引排序 按某列值排序 |
PySpark數(shù)據(jù)分析營銷案例實戰(zhàn) |
?一、數(shù)據(jù)概況分析 ? 數(shù)據(jù)概況 ? 數(shù)據(jù)清洗 ?二、單變量分析 ? 觀察樣本0、1的平衡性 ? 觀察均值大小 ? 可視化 ?三、相關性分析和可視化 ?四、邏輯回歸模型的建立和評估 ? 模型建立 ? 模型評估 ? 模型優(yōu)化 ?五、業(yè)務價值 ?六、模型管理、發(fā)布和調(diào)用 七、MLFlow模型管理工具介紹和實戰(zhàn) |
數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論 ?數(shù)據(jù)思維的概念 ?數(shù)據(jù)思維的特點 ?數(shù)據(jù)思維的方法論 ?數(shù)據(jù)思維的應用價值 ?數(shù)據(jù)思維的應用流程 ?數(shù)據(jù)思維的模式 — 全量數(shù)據(jù)思維 — 容錯性思維 — 相關性思維 |
基于大數(shù)據(jù)平臺落地數(shù)據(jù)思維的案例分享 ?數(shù)據(jù)采集 ?數(shù)據(jù)存儲 ?數(shù)據(jù)處理 ?數(shù)據(jù)建模( 數(shù)據(jù)指標和維度) 數(shù)據(jù)分析和可視化 |
數(shù)據(jù)分析和挖掘流程介紹 ?數(shù)據(jù)挖掘的基本任務 ?定義分析和挖掘目標 ?數(shù)據(jù)取樣 ?數(shù)據(jù)探索 ?單變量數(shù)據(jù)探索 ?數(shù)據(jù)關聯(lián)性分析 ?數(shù)據(jù)預處理 ?數(shù)據(jù)特征工程構建和選擇 ?挖掘建模 模型評價 |
Python數(shù)據(jù)分析庫實戰(zhàn) ?Python數(shù)據(jù)挖掘常用模塊 ?Numpy ?pandas ?Matplotlib Python機器學習庫:Scikit-learn |
Spark編程模型和解析 ?Spark的編程模型 ?Spark編程模型解析 ?Partition實現(xiàn)機制 ?RDD的特點、操作、依賴關系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark的累加器詳解 ?Spark的廣播變量詳解 ?Spark容錯機制 —lineage和checkpoint詳解 ?Spark的運行方式 ?Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實踐 ?Spark SQL原理 ?Spark SQL的Catalyst優(yōu)化器 ?Spark SQL內(nèi)核 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構 ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實戰(zhàn) ?Spark SQL的實例和編程 ?Spark SQL的實例操作demo ?Spark SQL的編程 Spark SQL實操演示 |
PySpark原理和基礎操作 ?Pyspark實例創(chuàng)建 1.引入庫 2.轉換實現(xiàn) pyspark pandas series創(chuàng)建 pyspark pandas dataframe創(chuàng)建 from_pandas轉換 Spark DataFrame轉換 ?PySpark Pandas操作 1.讀取行列索引 2.內(nèi)容轉換為數(shù)組 3.DataFrame統(tǒng)計描述 4.轉置 5.排序 按行索引排序 按某列值排序 |
PySpark數(shù)據(jù)分析營銷案例實戰(zhàn) ?一、數(shù)據(jù)概況分析 ? 數(shù)據(jù)概況 ? 數(shù)據(jù)清洗 ?二、單變量分析 ? 觀察樣本0、1的平衡性 ? 觀察均值大小 ? 可視化 ?三、相關性分析和可視化 ?四、邏輯回歸模型的建立和評估 ? 模型建立 ? 模型評估 ? 模型優(yōu)化 ?五、業(yè)務價值 ?六、模型管理、發(fā)布和調(diào)用 七、MLFlow模型管理工具介紹和實戰(zhàn) |