課程簡介
大數(shù)據(jù)分析和挖掘在互聯(lián)網(wǎng)公司中已經(jīng)得到實質(zhì)性的推進和應用,典型的應用場景包括搜索引擎的搜索結(jié)果和搜索廣告排序、電商網(wǎng)站的商品推薦和虛假信息檢測、電子郵件服務中垃圾郵件檢測、互聯(lián)網(wǎng)安全公司的病毒和木馬檢測、視頻和新聞分享網(wǎng)站中視頻和新聞推薦、互聯(lián)網(wǎng)金融服務中的用戶信譽評估等。
特別的場景包裹,社交網(wǎng)絡的火爆可以看成是促使大數(shù)據(jù)技術迅猛發(fā)展的直接驅(qū)動原因。社交網(wǎng)絡的數(shù)據(jù)呈現(xiàn)大規(guī)模、異構(gòu)、網(wǎng)狀相連的特征,為大數(shù)據(jù)挖掘提供了更復雜、更有挑戰(zhàn)的案例。在社交網(wǎng)絡中,大數(shù)據(jù)挖掘的應用更是覆蓋了70%左右的場景。經(jīng)典的使用場景諸如好友新鮮事(tweets)智能排序、好友推薦、好友搜索、社交廣告等。
當前,本地生活服務、O2O、互聯(lián)網(wǎng)金融、企業(yè)級服務等的火爆,更是大數(shù)據(jù)的用武之地,成為成為助推業(yè)務發(fā)展最有效的技術利器和產(chǎn)品設計及運營的思維。
大數(shù)據(jù)受到廣泛認可,究其原因,主要是如果大數(shù)據(jù)相關技術得到較好的使用,會帶來從服務的訪問量到收入變現(xiàn)能力等關鍵數(shù)據(jù)指標的實質(zhì)提升。以講師親身項目經(jīng)驗為例:一個新的好友推薦算法的上線可能帶來80%以上的“關注量”或者“加好友申請量”的提高;對手機通訊錄匹配算法的優(yōu)化升級,可使手機號對應的社交網(wǎng)絡的用戶帳號匹配量增加55%以上;社交廣告中用戶定向和廣告排序算法的引入,可使廣告收入暴漲100%以上。又如,用戶社交圈智能劃分算法的上線,使很多用戶的三四百個好友被自動合理分到合適的社交圈中,免去他們手動逐個操作的麻煩,提升了用戶體驗,他們評價“真心覺得做到了我的心里”、“給數(shù)據(jù)挖掘跪了”。
目標收益
本課程將圍繞大數(shù)據(jù)最本質(zhì)的特點—智能化為主線,從大數(shù)據(jù)的產(chǎn)品思維、數(shù)據(jù)分析重要工具、數(shù)據(jù)挖掘核心技術等層面深入講述
數(shù)據(jù)挖掘的高階話題,包括有偏數(shù)據(jù)挖掘、數(shù)據(jù)流挖掘、在線學習、高級數(shù)據(jù)預處理技術等。同時課程案例豐富,重點從社交網(wǎng)絡圖譜挖掘、推薦引擎等做實站案例講解。該課程使學員:
理解大數(shù)據(jù)基本概率、理解大數(shù)據(jù)產(chǎn)品設計思維、理解大數(shù)據(jù)基礎技術架構(gòu)
掌握社交圖譜挖掘的一到兩個經(jīng)典數(shù)據(jù)挖掘案例的解決方案
掌握社交好友推薦中一到兩個經(jīng)典案例的解決方案
掌握如何搭建一個實用的推薦引擎的方法;
掌握數(shù)據(jù)挖掘的經(jīng)典方法論:數(shù)據(jù)挖掘過程、模型評估標準等
側(cè)重掌握最普遍使用的分類預測技術的方法,
培訓對象
重點面向產(chǎn)品和技術人員,包括數(shù)據(jù)挖掘工程師、數(shù)據(jù)分析師、大數(shù)據(jù)工程師、算法專家、項目經(jīng)理、技術經(jīng)理、數(shù)據(jù)產(chǎn)品經(jīng)理以及其他具有一定數(shù)據(jù)挖掘經(jīng)驗的人員。
課程大綱
1.大數(shù)據(jù)時代概述 |
1.1 大數(shù)據(jù)解決的問題是什么? 1.2 大數(shù)據(jù)公司(部門)的都在做什么? 1.3 如何建立自己的大數(shù)據(jù)能力? |
2.數(shù)據(jù)挖掘過程和實用工具使用 |
2.1 數(shù)據(jù)挖掘過程的方法及其思想介紹 2.1.1 常見的數(shù)據(jù)收集途徑和方式 2.1.2 數(shù)據(jù)探索與可視化技巧 2.1.3 數(shù)據(jù)準備 2.1.4 特征選擇 2.1.5 樣本選擇 2.1.6 機器學習實用算法羅列與思想介紹(側(cè)重分類算法) 2.1.7 提高模型準確率方法 2.1.8 模型評估和比較 2.1.9 如何選擇合適的評估指標 2.1.10 模型可視化 2.2 挖掘工具Weka使用實踐 2.2.1 數(shù)據(jù)挖掘常用工具介紹及優(yōu)缺點對比 2.2.2 Weka使用介紹 2.2.3 Weka使用舉例:金融服務中用戶信譽評估 |
3.深入分類挖掘新技術 |
3.1 產(chǎn)業(yè)實戰(zhàn)中如何研發(fā)一個新的數(shù)據(jù)挖掘算法 3.1.1 算法建模的思路 3.1.1.1 需求驅(qū)動的算法建模 3.1.1.2 理論驅(qū)動的算法建模 3.1.2 產(chǎn)業(yè)實戰(zhàn)一個新算法的通用流程 3.2 機器學習算法理論深入 3.2.1 Bias Variance困境 3.2.2 Under fitting, Over fitting 3.3 常用多模型算法詳解 3.3.1 Ensemble Selection 3.3.2 Bagging 3.3.3 Boosting 3.3.4 Stacking 3.3.5 Meta-learning 3.3.6 Random Forest 3.3.7 Random Trees 3.3.8 Error-Correcting Output Codes(ECOC) 3.4 Dynamic Data Mining(DDM):分而治之的多模型框架研發(fā)過程 3.4.1 理論驅(qū)動 3.4.2 DMM建模研發(fā) 3.4.3 算法驗證及上線 3.5 模型評估高級話題 3.5.1 模型評估方法 3.5.2 模型評估指標深入討論 3.5.2.1 Accuracy, Errorrate 3.5.2.2 Recall, Precision, F-?‐measure 3.5.2.3 Specificity, Sensitivity, G-?‐mean 3.5.2.3 ROC,AUC |
4.深入常用實戰(zhàn)數(shù)據(jù)預處理與有偏挖掘技術 |
4.1 有偏數(shù)據(jù)挖掘 4.1.1 有偏數(shù)據(jù)挖掘的場景 4.1.2 有偏數(shù)據(jù)挖掘的問題根源 4.1.3 有偏數(shù)據(jù)挖掘的解決方案 4.1.3.1 Under sampling, Oversampling 4.1.3.2 Weighting 4.1.3.3 Data Synthesis 4.1.3.4 Cost-sensitive learning 4.2 高級數(shù)據(jù)預處理實戰(zhàn)策略 4.2.1 重視Missing Values 4.2.2 合理抽取特征 4.2.3 數(shù)據(jù)清洗:數(shù)據(jù)一致性檢測 4.2.4 噪聲平滑 4.2.5 特征泛化 |
5.深入在線學習與數(shù)據(jù)流挖掘 |
5.1 在線數(shù)據(jù)流挖掘基本概念 5.1.1 Batch Learningvs. Online Mining 5.2 數(shù)據(jù)流挖掘的關鍵挑戰(zhàn) 5.2.1 概念、概念漂移、數(shù)據(jù)規(guī)模Stream Mining, Online 5.3 兩類經(jīng)典在線流挖掘算法匯總 5.3.1 基于概念漂移主動監(jiān)測的算法 5.3.2 基于概念漂移自適應的算法 5.3.3 個人創(chuàng)新性方法:DDM-T,DDM-P 5.4 進階:有偏在線數(shù)據(jù)流挖掘的解決方案 5.4.1 DDM-T的有偏流挖掘的改進 5.5 在線數(shù)據(jù)流挖掘總結(jié) |
6.深入社交圖譜及推薦引擎實戰(zhàn) |
6.1 推薦引擎解決的問題 6.2 推薦系統(tǒng)歷史 6.3 通用推薦引擎基礎架構(gòu) 6.3.1 統(tǒng)一展示邏輯 6.3.2 實驗分流平臺 6.3.3 推薦結(jié)果預處理 6.3.4 推薦結(jié)果召回 6.3.5 推薦過濾去重 6.3.6 推薦排序 6.3.7 推薦解釋 6.3.8 實時數(shù)據(jù)統(tǒng)計分析平臺 6.3.9 系統(tǒng)監(jiān)控平臺 6.3.10 數(shù)據(jù)挖掘和推薦算法管理 6.4 社會化推薦引擎 6.4.1 好友推薦使用場景舉例 6.4.2 好友推薦主要挑戰(zhàn) 6.4.3 好友推薦引擎架構(gòu) 6.5 社會化推薦引擎算法案例講解 6.5.1 Online Learning的特點和一般流程 6.5.1.1 在線挖掘數(shù)據(jù)特點 6.5.1.2 在線挖掘基本過程 6.5.2 二度好友模型:案例講解 6.5.2.1 二度好友模型解決的問題 6.5.2.2 二度好友模型的建模過程 6.5.2.3 二度好友模型的效果評估 6.5.3 好友簇算法:案例講解 6.5.3.1 好友簇算法解決的問題 6.5.3.2 聚類方法原理 6.5.3.3 好友簇算法的建模過程 6.5.3.4 好友簇算法的效果評估 6.5.4 加好友申請接受率預估模型:案例講解 6.5.4.1 加好友申請接受率預估解決的問題 6.5.4.2 加好友申請接受率預估的建模過程 6.5.4.3 加好友申請接受率預估的效果評估 6.6 社交圖譜挖掘介紹 6.6.1 社交網(wǎng)絡數(shù)據(jù)挑戰(zhàn) 6.6.2 社交網(wǎng)絡中的數(shù)據(jù)挖掘意義 6.6.3 社交圖譜挖掘主要任務 6.6.4 社交圖譜挖掘通用路標 6.7 社交圖譜挖掘案例講解:好友親密度模型 6.7.1 好友親密度模型的意義 6.7.2 經(jīng)典用戶行為分析建模方法簡介 6.7.3 好友親密度建模過程 6.7.4 好友親密度模型效果分析 6.8 社交圖譜挖掘案例講解:好友自動分組 6.8.1 好友智能分組的意義 6.8.2 社區(qū)發(fā)現(xiàn)簡介 6.8.3 好友自動分組建模過程 6.8.4 好友自動分組效果評估 |
7.學員問題解答 |
1.大數(shù)據(jù)時代概述 1.1 大數(shù)據(jù)解決的問題是什么? 1.2 大數(shù)據(jù)公司(部門)的都在做什么? 1.3 如何建立自己的大數(shù)據(jù)能力? |
2.數(shù)據(jù)挖掘過程和實用工具使用 2.1 數(shù)據(jù)挖掘過程的方法及其思想介紹 2.1.1 常見的數(shù)據(jù)收集途徑和方式 2.1.2 數(shù)據(jù)探索與可視化技巧 2.1.3 數(shù)據(jù)準備 2.1.4 特征選擇 2.1.5 樣本選擇 2.1.6 機器學習實用算法羅列與思想介紹(側(cè)重分類算法) 2.1.7 提高模型準確率方法 2.1.8 模型評估和比較 2.1.9 如何選擇合適的評估指標 2.1.10 模型可視化 2.2 挖掘工具Weka使用實踐 2.2.1 數(shù)據(jù)挖掘常用工具介紹及優(yōu)缺點對比 2.2.2 Weka使用介紹 2.2.3 Weka使用舉例:金融服務中用戶信譽評估 |
3.深入分類挖掘新技術 3.1 產(chǎn)業(yè)實戰(zhàn)中如何研發(fā)一個新的數(shù)據(jù)挖掘算法 3.1.1 算法建模的思路 3.1.1.1 需求驅(qū)動的算法建模 3.1.1.2 理論驅(qū)動的算法建模 3.1.2 產(chǎn)業(yè)實戰(zhàn)一個新算法的通用流程 3.2 機器學習算法理論深入 3.2.1 Bias Variance困境 3.2.2 Under fitting, Over fitting 3.3 常用多模型算法詳解 3.3.1 Ensemble Selection 3.3.2 Bagging 3.3.3 Boosting 3.3.4 Stacking 3.3.5 Meta-learning 3.3.6 Random Forest 3.3.7 Random Trees 3.3.8 Error-Correcting Output Codes(ECOC) 3.4 Dynamic Data Mining(DDM):分而治之的多模型框架研發(fā)過程 3.4.1 理論驅(qū)動 3.4.2 DMM建模研發(fā) 3.4.3 算法驗證及上線 3.5 模型評估高級話題 3.5.1 模型評估方法 3.5.2 模型評估指標深入討論 3.5.2.1 Accuracy, Errorrate 3.5.2.2 Recall, Precision, F-?‐measure 3.5.2.3 Specificity, Sensitivity, G-?‐mean 3.5.2.3 ROC,AUC |
4.深入常用實戰(zhàn)數(shù)據(jù)預處理與有偏挖掘技術 4.1 有偏數(shù)據(jù)挖掘 4.1.1 有偏數(shù)據(jù)挖掘的場景 4.1.2 有偏數(shù)據(jù)挖掘的問題根源 4.1.3 有偏數(shù)據(jù)挖掘的解決方案 4.1.3.1 Under sampling, Oversampling 4.1.3.2 Weighting 4.1.3.3 Data Synthesis 4.1.3.4 Cost-sensitive learning 4.2 高級數(shù)據(jù)預處理實戰(zhàn)策略 4.2.1 重視Missing Values 4.2.2 合理抽取特征 4.2.3 數(shù)據(jù)清洗:數(shù)據(jù)一致性檢測 4.2.4 噪聲平滑 4.2.5 特征泛化 |
5.深入在線學習與數(shù)據(jù)流挖掘 5.1 在線數(shù)據(jù)流挖掘基本概念 5.1.1 Batch Learningvs. Online Mining 5.2 數(shù)據(jù)流挖掘的關鍵挑戰(zhàn) 5.2.1 概念、概念漂移、數(shù)據(jù)規(guī)模Stream Mining, Online 5.3 兩類經(jīng)典在線流挖掘算法匯總 5.3.1 基于概念漂移主動監(jiān)測的算法 5.3.2 基于概念漂移自適應的算法 5.3.3 個人創(chuàng)新性方法:DDM-T,DDM-P 5.4 進階:有偏在線數(shù)據(jù)流挖掘的解決方案 5.4.1 DDM-T的有偏流挖掘的改進 5.5 在線數(shù)據(jù)流挖掘總結(jié) |
6.深入社交圖譜及推薦引擎實戰(zhàn) 6.1 推薦引擎解決的問題 6.2 推薦系統(tǒng)歷史 6.3 通用推薦引擎基礎架構(gòu) 6.3.1 統(tǒng)一展示邏輯 6.3.2 實驗分流平臺 6.3.3 推薦結(jié)果預處理 6.3.4 推薦結(jié)果召回 6.3.5 推薦過濾去重 6.3.6 推薦排序 6.3.7 推薦解釋 6.3.8 實時數(shù)據(jù)統(tǒng)計分析平臺 6.3.9 系統(tǒng)監(jiān)控平臺 6.3.10 數(shù)據(jù)挖掘和推薦算法管理 6.4 社會化推薦引擎 6.4.1 好友推薦使用場景舉例 6.4.2 好友推薦主要挑戰(zhàn) 6.4.3 好友推薦引擎架構(gòu) 6.5 社會化推薦引擎算法案例講解 6.5.1 Online Learning的特點和一般流程 6.5.1.1 在線挖掘數(shù)據(jù)特點 6.5.1.2 在線挖掘基本過程 6.5.2 二度好友模型:案例講解 6.5.2.1 二度好友模型解決的問題 6.5.2.2 二度好友模型的建模過程 6.5.2.3 二度好友模型的效果評估 6.5.3 好友簇算法:案例講解 6.5.3.1 好友簇算法解決的問題 6.5.3.2 聚類方法原理 6.5.3.3 好友簇算法的建模過程 6.5.3.4 好友簇算法的效果評估 6.5.4 加好友申請接受率預估模型:案例講解 6.5.4.1 加好友申請接受率預估解決的問題 6.5.4.2 加好友申請接受率預估的建模過程 6.5.4.3 加好友申請接受率預估的效果評估 6.6 社交圖譜挖掘介紹 6.6.1 社交網(wǎng)絡數(shù)據(jù)挑戰(zhàn) 6.6.2 社交網(wǎng)絡中的數(shù)據(jù)挖掘意義 6.6.3 社交圖譜挖掘主要任務 6.6.4 社交圖譜挖掘通用路標 6.7 社交圖譜挖掘案例講解:好友親密度模型 6.7.1 好友親密度模型的意義 6.7.2 經(jīng)典用戶行為分析建模方法簡介 6.7.3 好友親密度建模過程 6.7.4 好友親密度模型效果分析 6.8 社交圖譜挖掘案例講解:好友自動分組 6.8.1 好友智能分組的意義 6.8.2 社區(qū)發(fā)現(xiàn)簡介 6.8.3 好友自動分組建模過程 6.8.4 好友自動分組效果評估 |
7.學員問題解答 |