課程簡介
理解數據挖掘的基本算法,比如決策樹,聚類算法,邏輯回歸,關聯(lián)規(guī)則。在這個基礎上理解機器學習更加深入的內容:bagging&boosting,概率圖模型(LDA,PLSA),樹模型(GBDT,MART) ,對于深度學習有一定的認知(word2vetcor,表征學習).不單單介紹算法的應用場景,更進一步從最優(yōu)化理論的高度解釋為何這些數據挖掘的算法要這樣設計。
目標收益
課程中的理論和經驗來自于對初級,中級數據挖掘工程經常遇問題的歸納、分析與總結,有針對性的給出解決方法,課程將重現這些問題的例講解,并對應到學員的實際工作問題,使學員能夠把傳授的經驗和自己的問題結合起來,有效的啟發(fā)思路、激發(fā)興趣、提供解決問題需要的新思經典案例,通過實路新方法。
學員的收獲總結起來有3點:
1:了解實際的事例結合說基本算法的各種變體,開闊思路
2:將一次培訓深化為深入了解一個細分領域的一個渠道,之后可以接收到培訓內容中知識點對應的業(yè)界最新更新。
3:加入“數據挖掘”職業(yè)圈,學員可以有一個加入職業(yè)社交圈的機會,和業(yè)內人士相互交流,相互切磋。
培訓對象
1:有一定的程序和數學基礎,希望對于數據挖掘有個知識體系的梳理,同時深入了解在實際生產過程中數據挖掘的各種算法的應用的,希望從初級走向中級的,數據增值產業(yè)的從業(yè)者。尤其是想做數據挖掘但是效果不顯著,希望在公司內部得到更多重視的團隊,派出兩三人參加這個課程,效果尤佳。
2:對于數據挖掘,商業(yè)智能感興趣,希望從事類似的工作,但是又感到所謂“大數據”知識體系繁雜,無論是廣度還是深度都很難開始的“迷?!比耸?。
課程大綱
廣義線性分類的原理和應用 |
內容:logistic Regression和計算廣告學 n1.二分類問題的例子 n2.邏輯回歸的數學原理 n3.傳統(tǒng)廣告,計算廣告,廣告實時交易平臺 n4.數據預處理和維度提取 n5.LR在計算廣告中的應用 n6.LR的效果測評,模型調優(yōu) n7.LR模型中理論與工程的折中 n8.LR和他的小伙伴們:廣義線性模型 n9.新情況,基于移動端的廣告實時交易平臺,LR的各種變體 |
決策樹,聚類和異常點檢測 |
內容:決策樹和異常點檢測 n1.決策樹的原理 n2.各種決策樹的生成算法 n3.決策樹在異常點檢測中的應用 n4.決策樹的剪枝 n5.其它異常點檢測的應用小技巧 n6.聚類算法的原理 n7.聚類算法的常見問題:初始點選擇 n8.聚類算法和決策樹在異常點檢測中的應用 n9.結合計算廣告,談兩個異常點檢測小例子 |
概率圖模型 |
n1.貝葉斯網絡(有向圖模型) n2.馬爾科夫網(無向圖模型) n3.條件隨機場(局部有向圖模型) n4.LDA,PLSA |
Bagging & boosting |
n1.bagging n2.boosting n3.隨機森林 n4.提升樹 n5.GBDT |
分解因子機 |
n1.非負矩陣分解 n2.協(xié)同過濾 n3.分解因子機 |
巨型圖挖掘 |
n1.復雜網絡介紹 n2.當前巨型圖應用場景 n3.隨機圖,自然圖, n4.常用的圖計算框架(google的bagel,graphlab的graphx) n5.巨型圖上的算法實現原理 n6.常用的基于圖的算法實現 n7.隨機游走,pageRank基于圖的實現 n8.svd介紹以及svd在圖框架的實現 n9.圖挖掘與推薦系統(tǒng)(qzone的廣告系統(tǒng)廣點通,twitter的內容推薦) |
深度學習初探 |
n1:word2vec n2:node2vec n3:CNN n4:DNN n5:lstm |
機器學習框架 |
n1:spark n2:參數服務器 n3:Tensorflow和其他深度學習框架 |
廣義線性分類的原理和應用 內容:logistic Regression和計算廣告學 n1.二分類問題的例子 n2.邏輯回歸的數學原理 n3.傳統(tǒng)廣告,計算廣告,廣告實時交易平臺 n4.數據預處理和維度提取 n5.LR在計算廣告中的應用 n6.LR的效果測評,模型調優(yōu) n7.LR模型中理論與工程的折中 n8.LR和他的小伙伴們:廣義線性模型 n9.新情況,基于移動端的廣告實時交易平臺,LR的各種變體 |
決策樹,聚類和異常點檢測 內容:決策樹和異常點檢測 n1.決策樹的原理 n2.各種決策樹的生成算法 n3.決策樹在異常點檢測中的應用 n4.決策樹的剪枝 n5.其它異常點檢測的應用小技巧 n6.聚類算法的原理 n7.聚類算法的常見問題:初始點選擇 n8.聚類算法和決策樹在異常點檢測中的應用 n9.結合計算廣告,談兩個異常點檢測小例子 |
概率圖模型 n1.貝葉斯網絡(有向圖模型) n2.馬爾科夫網(無向圖模型) n3.條件隨機場(局部有向圖模型) n4.LDA,PLSA |
Bagging & boosting n1.bagging n2.boosting n3.隨機森林 n4.提升樹 n5.GBDT |
分解因子機 n1.非負矩陣分解 n2.協(xié)同過濾 n3.分解因子機 |
巨型圖挖掘 n1.復雜網絡介紹 n2.當前巨型圖應用場景 n3.隨機圖,自然圖, n4.常用的圖計算框架(google的bagel,graphlab的graphx) n5.巨型圖上的算法實現原理 n6.常用的基于圖的算法實現 n7.隨機游走,pageRank基于圖的實現 n8.svd介紹以及svd在圖框架的實現 n9.圖挖掘與推薦系統(tǒng)(qzone的廣告系統(tǒng)廣點通,twitter的內容推薦) |
深度學習初探 n1:word2vec n2:node2vec n3:CNN n4:DNN n5:lstm |
機器學習框架 n1:spark n2:參數服務器 n3:Tensorflow和其他深度學習框架 |