課程簡介
本系列課程從實際的業(yè)務需求出發(fā),結合行業(yè)的典型應用特點,圍繞實際的商業(yè)問題,對數據預測建模的過程進行了全面的介紹(從模型選擇,到特征選擇,再到訓練模型,評估模型,以及優(yōu)化模型和模型解讀),通過大量的操作演練,幫助學員掌握數據建模的思路、方法、技巧,以提升學員的數據建模的能力,支撐運營決策的目的。
目標收益
1、了解數據建模的標準過程
2、明白時序預測的基本思想,熟悉常用的時序預測模型
3、掌握常用的分類預測模型,理解模型基本原理
4、學會解讀分類預測模型的含義
5、理解并掌握定性預測模型的質量評估指標
6、了解分類預測模型的集成優(yōu)化思想
培訓對象
產品銷量部、業(yè)務支撐部、運營分析部、數據分析部、大數據系統(tǒng)開發(fā)部等對業(yè)務數據分析有較高要求的相關人員。
課前準備
1、每個學員自備一臺便攜機(必須)。
2、便攜機中事先安裝好Microsoft Office Excel 2013版本及以上。
3、便攜機中事先安裝好IBM SPSS Statistics v19版本及以上。
注:講師可以提供試用版本軟件及分析數據源。
課程大綱
第一部分:數據建模過程—流程步驟篇 |
1、預測建模六步法 ?選擇模型:基于業(yè)務選擇恰當的數據模型 ?特征工程:選擇對目標變量有顯著影響的屬性來建模 ?訓練模型:采用合適的算法對模型進行訓練,尋找到最優(yōu)參數 ?評估模型:進行評估模型的質量,判斷模型是否可用 ?優(yōu)化模型:如果評估結果不理想,則需要對模型進行優(yōu)化 ?應用模型:如果評估結果滿足要求,則可應用模型于業(yè)務場景 2、數據挖掘常用的模型 ?定量預測模型:回歸預測、時序預測等 ?定性預測模型:邏輯回歸、決策樹、神經網絡、支持向量機等 ?市場細分:聚類、RFM、PCA等 ?產品推薦:關聯分析、協(xié)同過濾等 ?產品優(yōu)化:回歸、隨機效用等 ?產品定價:定價策略/最優(yōu)定價等 3、特征工程/特征選擇/變量降維 ?基于變量本身特征 ?基于相關性判斷 ?因子合并(PCA等) ?IV值篩選(評分卡使用) ?基于信息增益判斷(決策樹使用) 4、模型評估 ?模型質量評估指標:R^2、正確率/查全率/查準率/特異性等 ?預測值評估指標:MAD、MSE/RMSE、MAPE、概率等 ?模型評估方法:留出法、K拆交叉驗證、自助法等 ?其它評估:過擬合評估、殘差檢驗 5、模型優(yōu)化 ?優(yōu)化模型:選擇新模型/修改模型 ?優(yōu)化數據:新增顯著自變量 ?優(yōu)化公式:采用新的計算公式 ?集成思想:Bagging/Boosting/Stacking 6、常用預測模型介紹 ?時序預測模型 ?回歸預測模型 ?分類預測模型 |
第二部分:定量預測模型—時序預測篇 |
營銷問題:像利率/CPI/GDP等按時序變化的指標如何預測?當銷量隨季節(jié)周期變動時該如何預測? 1、回歸預測vs時序預測 2、因素分解思想 3、時序預測常用模型 ?趨勢擬合 ?季節(jié)擬合 ?平均序列擬合 4、評估預測值的準確度指標:MAD、RMSE、MAPE 5、移動平均(MA) ?應用場景及原理 ?移動平均種類 ?一次移動平均 ?二次移動平均 ?加權移動平均 ?移動平均比率法 ?移動平均關鍵問題 ?如何選取最優(yōu)參數N ?如何確定最優(yōu)權重系數 演練:平板電腦銷量預測及評估 演練:快銷產品季節(jié)銷量預測及評估 6、指數平滑(ES) ?應用場景及原理 ?最優(yōu)平滑系數的選取原則 ?指數平滑種類 ?一次指數平滑 ?二次指數平滑(Brown線性、Holt線性、Holt指數、阻尼線性、阻尼指數) ?三次指數平滑 演練:煤炭產量預測 演練:航空旅客量預測及評估 7、溫特斯季節(jié)預測模型 ?適用場景及原理 ?Holt-Winters加法模型 ?Holt-Winters乘法模型 演練:汽車銷量預測及評估 8、平穩(wěn)序列模型(ARIMA) ?序列的平穩(wěn)性檢驗 ?平穩(wěn)序列的擬合模型 ?AR(p)自回歸模型 ?MA(q)移動模型 ?ARMA(p,q)自回歸移動模型 ?模型的識別與定階 ?ACF圖/PACF圖 ?最小信息準則 ?序列平穩(wěn)化處理 ?變量變換 ?k次差分 ?d階差分 ?ARIMA(p,d,q)模型 演練:上海證券交易所綜合指數收益率序列分析 演練:服裝銷售數據季節(jié)性趨勢預測分析 ?平穩(wěn)序列的建模流程 |
第三部分:定性預測模型—分類預測篇 |
問題:如何評估客戶購買產品的可能性?如何預測客戶的購買行為?如何提取某類客戶的典型特征?如何向客戶精準推薦產品或業(yè)務? 1、分類模型概述及其應用場景 2、常見分類預測模型 3、邏輯回歸(LR) ?邏輯回歸的適用場景 ?邏輯回歸的模型原理 ?邏輯回歸分類的幾何意義 ?邏輯回歸的種類 ?二項邏輯回歸 ?多項邏輯回歸 ?如何解讀邏輯回歸方程 ?帶分類自變量的邏輯回歸分析 ?多項邏輯回歸/多分類邏輯回歸 案例:如何評估用戶是否會購買某產品(二項邏輯回歸) 案例:多品牌選擇模型分析(多項邏輯回歸) 4、分類決策樹(DT) 問題:如何預測客戶行為?如何識別潛在客戶? 風控:如何識別欠貸者的特征,以及預測欠貸概率? 客戶保有:如何識別流失客戶特征,以及預測客戶流失概率? ?決策樹分類簡介 案例:美國零售商(Target)如何預測少女懷孕 演練:識別銀行欠貨風險,提取欠貸者的特征 ?決策樹分類的幾何意義 ?構建決策樹的三個關鍵問題 ?如何選擇最佳屬性來構建節(jié)點 ?如何分裂變量 ?修剪決策樹 ?選擇最優(yōu)屬性生長 ?熵、基尼索引、分類錯誤 ?屬性劃分增益 ?如何分裂變量 ?多元劃分與二元劃分 ?連續(xù)變量離散化(最優(yōu)分割點) ?修剪決策樹 ?剪枝原則 ?預剪枝與后剪枝 ?構建決策樹的四個算法 ?C5.0、CHAID、CART、QUEST ?各種算法的比較 ?如何選擇最優(yōu)分類模型? 案例:商場用戶的典型特征提取 案例:客戶流失預警與客戶挽留 案例:識別拖欠銀行貨款者的特征,避免不良貨款 案例:識別電信詐騙者嘴臉,讓通信更安全 ?多分類決策樹 案例:不同套餐用戶的典型特征 ?決策樹模型的保存與應用 5、人工神經網絡(ANN) ?神經網絡概述 ?神經網絡基本原理 ?神經網絡的結構 ?神經網絡分類的幾何意義 ?神經網絡的建立步驟 ?神經網絡的關鍵問題 ?BP反向傳播網絡(MLP) ?徑向基網絡(RBF) 案例:評估銀行用戶拖欠貨款的概率 6、判別分析(DA) ?判別分析原理 ?判別分析種類 ?Fisher線性判別分析 案例:MBA學生錄取判別分析 案例:上市公司類別評估 7、最近鄰分類(KNN) ?KNN模型的基本原理 ?KNN分類的幾何意義 ?K近鄰的關鍵問題 8、支持向量機(SVM) ?SVM基本原理 ?線性可分問題:最大邊界超平面 ?線性不可分問題:特征空間的轉換 ?維災難與核函數 9、貝葉斯分類(NBN) ?貝葉斯分類原理 ?計算類別屬性的條件概率 ?估計連續(xù)屬性的條件概率 ?預測分類概率(計算概率) ?拉普拉斯修正 案例:評估銀行用戶拖欠貨款的概率 |
第四部分:定性預測模型—模型評估篇 |
1、模型的評估指標 ?兩大矩陣:混淆矩陣,代價矩陣 ?六大指標:Acc,P,R,Spec,F1,lift ?三條曲線: ?ROC曲線和AUC ?PR曲線和BEP ?KS曲線和KS值 2、模型的評估方法 ?原始評估法 ?留出法(Hold-Out) ?交叉驗證法(k-fold cross validation) ?自助采樣法(Bootstrapping) |
第五部分:定性預測模型—集成優(yōu)化篇 |
1、模型的優(yōu)化思路 2、集成算法基本原理 ?單獨構建多個弱分類器 ?多個弱分類器組合投票,決定預測結果 3、集成方法的種類 ?Bagging ?Boosting ?Stacking 4、Bagging集成 ?數據/屬性重抽樣 ?決策依據:少數服從多數 ?典型模型:隨機森林RF 5、Boosting集成 ?基于誤分數據建模 ?樣本選擇權重更新公式 ?決策依據:加權投票 ?典型模型:AdaBoost模型 |
第一部分:數據建模過程—流程步驟篇 1、預測建模六步法 ?選擇模型:基于業(yè)務選擇恰當的數據模型 ?特征工程:選擇對目標變量有顯著影響的屬性來建模 ?訓練模型:采用合適的算法對模型進行訓練,尋找到最優(yōu)參數 ?評估模型:進行評估模型的質量,判斷模型是否可用 ?優(yōu)化模型:如果評估結果不理想,則需要對模型進行優(yōu)化 ?應用模型:如果評估結果滿足要求,則可應用模型于業(yè)務場景 2、數據挖掘常用的模型 ?定量預測模型:回歸預測、時序預測等 ?定性預測模型:邏輯回歸、決策樹、神經網絡、支持向量機等 ?市場細分:聚類、RFM、PCA等 ?產品推薦:關聯分析、協(xié)同過濾等 ?產品優(yōu)化:回歸、隨機效用等 ?產品定價:定價策略/最優(yōu)定價等 3、特征工程/特征選擇/變量降維 ?基于變量本身特征 ?基于相關性判斷 ?因子合并(PCA等) ?IV值篩選(評分卡使用) ?基于信息增益判斷(決策樹使用) 4、模型評估 ?模型質量評估指標:R^2、正確率/查全率/查準率/特異性等 ?預測值評估指標:MAD、MSE/RMSE、MAPE、概率等 ?模型評估方法:留出法、K拆交叉驗證、自助法等 ?其它評估:過擬合評估、殘差檢驗 5、模型優(yōu)化 ?優(yōu)化模型:選擇新模型/修改模型 ?優(yōu)化數據:新增顯著自變量 ?優(yōu)化公式:采用新的計算公式 ?集成思想:Bagging/Boosting/Stacking 6、常用預測模型介紹 ?時序預測模型 ?回歸預測模型 ?分類預測模型 |
第二部分:定量預測模型—時序預測篇 營銷問題:像利率/CPI/GDP等按時序變化的指標如何預測?當銷量隨季節(jié)周期變動時該如何預測? 1、回歸預測vs時序預測 2、因素分解思想 3、時序預測常用模型 ?趨勢擬合 ?季節(jié)擬合 ?平均序列擬合 4、評估預測值的準確度指標:MAD、RMSE、MAPE 5、移動平均(MA) ?應用場景及原理 ?移動平均種類 ?一次移動平均 ?二次移動平均 ?加權移動平均 ?移動平均比率法 ?移動平均關鍵問題 ?如何選取最優(yōu)參數N ?如何確定最優(yōu)權重系數 演練:平板電腦銷量預測及評估 演練:快銷產品季節(jié)銷量預測及評估 6、指數平滑(ES) ?應用場景及原理 ?最優(yōu)平滑系數的選取原則 ?指數平滑種類 ?一次指數平滑 ?二次指數平滑(Brown線性、Holt線性、Holt指數、阻尼線性、阻尼指數) ?三次指數平滑 演練:煤炭產量預測 演練:航空旅客量預測及評估 7、溫特斯季節(jié)預測模型 ?適用場景及原理 ?Holt-Winters加法模型 ?Holt-Winters乘法模型 演練:汽車銷量預測及評估 8、平穩(wěn)序列模型(ARIMA) ?序列的平穩(wěn)性檢驗 ?平穩(wěn)序列的擬合模型 ?AR(p)自回歸模型 ?MA(q)移動模型 ?ARMA(p,q)自回歸移動模型 ?模型的識別與定階 ?ACF圖/PACF圖 ?最小信息準則 ?序列平穩(wěn)化處理 ?變量變換 ?k次差分 ?d階差分 ?ARIMA(p,d,q)模型 演練:上海證券交易所綜合指數收益率序列分析 演練:服裝銷售數據季節(jié)性趨勢預測分析 ?平穩(wěn)序列的建模流程 |
第三部分:定性預測模型—分類預測篇 問題:如何評估客戶購買產品的可能性?如何預測客戶的購買行為?如何提取某類客戶的典型特征?如何向客戶精準推薦產品或業(yè)務? 1、分類模型概述及其應用場景 2、常見分類預測模型 3、邏輯回歸(LR) ?邏輯回歸的適用場景 ?邏輯回歸的模型原理 ?邏輯回歸分類的幾何意義 ?邏輯回歸的種類 ?二項邏輯回歸 ?多項邏輯回歸 ?如何解讀邏輯回歸方程 ?帶分類自變量的邏輯回歸分析 ?多項邏輯回歸/多分類邏輯回歸 案例:如何評估用戶是否會購買某產品(二項邏輯回歸) 案例:多品牌選擇模型分析(多項邏輯回歸) 4、分類決策樹(DT) 問題:如何預測客戶行為?如何識別潛在客戶? 風控:如何識別欠貸者的特征,以及預測欠貸概率? 客戶保有:如何識別流失客戶特征,以及預測客戶流失概率? ?決策樹分類簡介 案例:美國零售商(Target)如何預測少女懷孕 演練:識別銀行欠貨風險,提取欠貸者的特征 ?決策樹分類的幾何意義 ?構建決策樹的三個關鍵問題 ?如何選擇最佳屬性來構建節(jié)點 ?如何分裂變量 ?修剪決策樹 ?選擇最優(yōu)屬性生長 ?熵、基尼索引、分類錯誤 ?屬性劃分增益 ?如何分裂變量 ?多元劃分與二元劃分 ?連續(xù)變量離散化(最優(yōu)分割點) ?修剪決策樹 ?剪枝原則 ?預剪枝與后剪枝 ?構建決策樹的四個算法 ?C5.0、CHAID、CART、QUEST ?各種算法的比較 ?如何選擇最優(yōu)分類模型? 案例:商場用戶的典型特征提取 案例:客戶流失預警與客戶挽留 案例:識別拖欠銀行貨款者的特征,避免不良貨款 案例:識別電信詐騙者嘴臉,讓通信更安全 ?多分類決策樹 案例:不同套餐用戶的典型特征 ?決策樹模型的保存與應用 5、人工神經網絡(ANN) ?神經網絡概述 ?神經網絡基本原理 ?神經網絡的結構 ?神經網絡分類的幾何意義 ?神經網絡的建立步驟 ?神經網絡的關鍵問題 ?BP反向傳播網絡(MLP) ?徑向基網絡(RBF) 案例:評估銀行用戶拖欠貨款的概率 6、判別分析(DA) ?判別分析原理 ?判別分析種類 ?Fisher線性判別分析 案例:MBA學生錄取判別分析 案例:上市公司類別評估 7、最近鄰分類(KNN) ?KNN模型的基本原理 ?KNN分類的幾何意義 ?K近鄰的關鍵問題 8、支持向量機(SVM) ?SVM基本原理 ?線性可分問題:最大邊界超平面 ?線性不可分問題:特征空間的轉換 ?維災難與核函數 9、貝葉斯分類(NBN) ?貝葉斯分類原理 ?計算類別屬性的條件概率 ?估計連續(xù)屬性的條件概率 ?預測分類概率(計算概率) ?拉普拉斯修正 案例:評估銀行用戶拖欠貨款的概率 |
第四部分:定性預測模型—模型評估篇 1、模型的評估指標 ?兩大矩陣:混淆矩陣,代價矩陣 ?六大指標:Acc,P,R,Spec,F1,lift ?三條曲線: ?ROC曲線和AUC ?PR曲線和BEP ?KS曲線和KS值 2、模型的評估方法 ?原始評估法 ?留出法(Hold-Out) ?交叉驗證法(k-fold cross validation) ?自助采樣法(Bootstrapping) |
第五部分:定性預測模型—集成優(yōu)化篇 1、模型的優(yōu)化思路 2、集成算法基本原理 ?單獨構建多個弱分類器 ?多個弱分類器組合投票,決定預測結果 3、集成方法的種類 ?Bagging ?Boosting ?Stacking 4、Bagging集成 ?數據/屬性重抽樣 ?決策依據:少數服從多數 ?典型模型:隨機森林RF 5、Boosting集成 ?基于誤分數據建模 ?樣本選擇權重更新公式 ?決策依據:加權投票 ?典型模型:AdaBoost模型 |