課程簡介
通過介紹大數據的核心計算和存儲組件,以及整個完整的大數據平臺架構,結合具體的數據分析和機器學習案例分析,讓大家了解和掌握大數據平臺、機器學習和數據分析相關知識、最新的發(fā)展趨勢和如何應用到實際項目實踐中。
目標收益
通過介紹大數據的核心計算和存儲組件,以及整個完整的大數據平臺架構,結合具體的數據分析和機器學習案例分析,讓大家了解和掌握大數據平臺、數據分析和機器學習相關知識、最新的發(fā)展趨勢,以及如何應用到實際項目實踐中。
培訓對象
課程大綱
大數據和大數據平臺概念 |
1. 大數據技術的發(fā)展歷程和應用背景、大數據產業(yè)鏈概況,以及大數據技術在互聯網等行業(yè)中的應用實踐; 2. 數據平臺的基本概念和架構:數據平臺的組成部分,功能和作用:包括數據存儲、計算、傳輸(輸入/輸出)、任務調度系統(tǒng)、開發(fā)者平臺、數據質量監(jiān)控系統(tǒng)等。以某知名互聯網公司數據平臺架構為例進行分享,節(jié)點2000+,存儲50PB 3. 大數據在企業(yè)運營中的應用 |
Hadoop分布式存儲HDFS介紹 |
1. Hadoop大數據存儲系統(tǒng)HDFS的技術原理及應用實戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢、應用現狀和發(fā)展趨勢 2. HDFS分布式存儲系統(tǒng)的核心關鍵技術、設計精髓、基本工作原理、系統(tǒng)架構、文件存儲模式、工作機制、存儲擴容與吞吐性能擴展 |
MapReduce計算執(zhí)行框架 |
1. 大數據平臺中的并行計算處理與函數式編程技術原理,以及數據并行技術—MapReduce技術的工作機制、工作原理、性能調優(yōu)和大數據處理架構,以及MapReduce技術的發(fā)展趨勢 2. Hadoop MapReduce并行處理平臺的系統(tǒng)架構、核心功能模塊、MapReduce編程應用開發(fā)實踐 |
資源調度框架YARN介紹 |
1. YARN 集群的架構 2. 資源分配和故障恢復 3. 使用 YARN Web 用戶界面 4. 管理正在運行的作業(yè) 5. 配置公平調度器 6. 實現多租戶架構 |
Hadoop集群的高級特性、集群建設和運維實踐 |
1. Namenode\DataNode節(jié)點硬件以及網絡選擇 2. 集群高可用配置 3. 集群機房實際部署拓撲推薦——PB級別容量集群的實際配置方案 4. 集群監(jiān)控和自動化運維實踐 5. 常見的 Hadoop Clusters 的故障排除 |
數據倉庫和數據分析實踐 |
1. Hive基本介紹和Hive在數據倉庫中的使用 2. Hive的配置和使用 3. Hive的HQL擴展開發(fā) 數據倉庫建設經驗分享——以知名互聯網公司倉庫建設實踐經驗:表數量2萬+、分析師200+、模型和任務數量2萬+ |
Spark分享和實踐 |
1. Spark的基礎概念 2. Spark安裝和配置 3. RDD 基本概念 4. Spark SQL和DataFrames介紹 5. Spark Streaming開發(fā)實踐 Spark SQL和Hive在數據分析中的整合實踐 |
實時和流計算 |
1. 介紹Flink相關概念和基礎知識,以及如何使用Flink等。 2. 以流量實時化和實時推薦為例,介紹實時系統(tǒng)的使用場景、系統(tǒng)架構和最佳實踐 3. Spark相關介紹和基礎知識 4. Spark/Spark SQL/Spark Streaming的使用場景和特點 5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點 案例分享:實時和離線融合在互聯網公司的實踐 |
機器學習和深度學習知識原理 |
1. 機器學習知識與人工智能、深度學習關系; 2. 機器學習應用場景是什么; 3. 機器學習分類和算法基本介紹:監(jiān)督學習算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等); 4. 機器學習分類和算法基本介紹:無監(jiān)督學習算法(K-Means、PCA、LDA等); 5. 機器學習評估指標; 6. 機器學習常用數學知識; |
特征工程和模型訓練 |
1. 特征工程(特征提取,特征離散化,特征交叉等); 2. 3.如何大規(guī)模實時&離線訓練模型(訓練集、測試集、驗證集/評估指標AUC、ABTest 等) |
大規(guī)模機器學習平臺 |
1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機器學習和深度學習框架開發(fā)) 2. 數據存儲:實時特征+離線歷史數據 3. 大規(guī)模分布式計算:CPU + GPU 4. 模型發(fā)布和上線 5. 我們的大規(guī)模機器學習平臺分享(支持200+ 算法和模型開發(fā)人員) |
用戶畫像在個性化性化推薦系統(tǒng)領域 |
案例簡介:用戶畫像數據體系建設,以及基于用戶畫像數據、用戶實時行為數據的個性化推薦系統(tǒng)介紹 1. 用戶畫像體系介紹 2. 用戶特征抽取 3. 用戶特征存儲和應用 4. 個性化推薦系統(tǒng)和用戶畫像的結合 |
推薦系統(tǒng)實踐 |
案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級別的銷售額提升 1. 推薦系統(tǒng)整體架構 2. 算法和模型支持 3. 算法評估和灰度 4. ABT效果檢驗 |
知名互聯網公司的數據驅動精準化營銷實踐 |
案例簡介:結合用戶畫像數據,給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析 1. 用戶寬表建設 2. 根據特征選擇用戶群體 3. PUSH系統(tǒng)和用戶數據整合 4. PUSH效果分析(根據用戶行為數據分析營銷效果、用戶留存以及活動ROI) |
實時數據看板分享(雙十一大屏) |
案例簡介:雙十一大促銷售額、轉化率、UV、漏斗等核心數據實時大屏展示 1. 訂單和用戶行為數據實時接入 2. 使用Flink(Spark)做實時數據計算 3. HBase存儲計算指標 4. 數據Service提供訪問接口 5. 前端大屏動態(tài)秒級更新數據 |
數據運營平臺介紹 |
數據運營平臺支持商務、運營等對公司日常銷售、轉換率、用戶訪問、品牌等的售賣詳細情況分析;分為固定產品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機會 1. 運營看板實例分享 2. 自助分析系統(tǒng)建設經驗分享 |
大數據和大數據平臺概念 1. 大數據技術的發(fā)展歷程和應用背景、大數據產業(yè)鏈概況,以及大數據技術在互聯網等行業(yè)中的應用實踐; 2. 數據平臺的基本概念和架構:數據平臺的組成部分,功能和作用:包括數據存儲、計算、傳輸(輸入/輸出)、任務調度系統(tǒng)、開發(fā)者平臺、數據質量監(jiān)控系統(tǒng)等。以某知名互聯網公司數據平臺架構為例進行分享,節(jié)點2000+,存儲50PB 3. 大數據在企業(yè)運營中的應用 |
Hadoop分布式存儲HDFS介紹 1. Hadoop大數據存儲系統(tǒng)HDFS的技術原理及應用實戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢、應用現狀和發(fā)展趨勢 2. HDFS分布式存儲系統(tǒng)的核心關鍵技術、設計精髓、基本工作原理、系統(tǒng)架構、文件存儲模式、工作機制、存儲擴容與吞吐性能擴展 |
MapReduce計算執(zhí)行框架 1. 大數據平臺中的并行計算處理與函數式編程技術原理,以及數據并行技術—MapReduce技術的工作機制、工作原理、性能調優(yōu)和大數據處理架構,以及MapReduce技術的發(fā)展趨勢 2. Hadoop MapReduce并行處理平臺的系統(tǒng)架構、核心功能模塊、MapReduce編程應用開發(fā)實踐 |
資源調度框架YARN介紹 1. YARN 集群的架構 2. 資源分配和故障恢復 3. 使用 YARN Web 用戶界面 4. 管理正在運行的作業(yè) 5. 配置公平調度器 6. 實現多租戶架構 |
Hadoop集群的高級特性、集群建設和運維實踐 1. Namenode\DataNode節(jié)點硬件以及網絡選擇 2. 集群高可用配置 3. 集群機房實際部署拓撲推薦——PB級別容量集群的實際配置方案 4. 集群監(jiān)控和自動化運維實踐 5. 常見的 Hadoop Clusters 的故障排除 |
數據倉庫和數據分析實踐 1. Hive基本介紹和Hive在數據倉庫中的使用 2. Hive的配置和使用 3. Hive的HQL擴展開發(fā) 數據倉庫建設經驗分享——以知名互聯網公司倉庫建設實踐經驗:表數量2萬+、分析師200+、模型和任務數量2萬+ |
Spark分享和實踐 1. Spark的基礎概念 2. Spark安裝和配置 3. RDD 基本概念 4. Spark SQL和DataFrames介紹 5. Spark Streaming開發(fā)實踐 Spark SQL和Hive在數據分析中的整合實踐 |
實時和流計算 1. 介紹Flink相關概念和基礎知識,以及如何使用Flink等。 2. 以流量實時化和實時推薦為例,介紹實時系統(tǒng)的使用場景、系統(tǒng)架構和最佳實踐 3. Spark相關介紹和基礎知識 4. Spark/Spark SQL/Spark Streaming的使用場景和特點 5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點 案例分享:實時和離線融合在互聯網公司的實踐 |
機器學習和深度學習知識原理 1. 機器學習知識與人工智能、深度學習關系; 2. 機器學習應用場景是什么; 3. 機器學習分類和算法基本介紹:監(jiān)督學習算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等); 4. 機器學習分類和算法基本介紹:無監(jiān)督學習算法(K-Means、PCA、LDA等); 5. 機器學習評估指標; 6. 機器學習常用數學知識; |
特征工程和模型訓練 1. 特征工程(特征提取,特征離散化,特征交叉等); 2. 3.如何大規(guī)模實時&離線訓練模型(訓練集、測試集、驗證集/評估指標AUC、ABTest 等) |
大規(guī)模機器學習平臺 1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機器學習和深度學習框架開發(fā)) 2. 數據存儲:實時特征+離線歷史數據 3. 大規(guī)模分布式計算:CPU + GPU 4. 模型發(fā)布和上線 5. 我們的大規(guī)模機器學習平臺分享(支持200+ 算法和模型開發(fā)人員) |
用戶畫像在個性化性化推薦系統(tǒng)領域 案例簡介:用戶畫像數據體系建設,以及基于用戶畫像數據、用戶實時行為數據的個性化推薦系統(tǒng)介紹 1. 用戶畫像體系介紹 2. 用戶特征抽取 3. 用戶特征存儲和應用 4. 個性化推薦系統(tǒng)和用戶畫像的結合 |
推薦系統(tǒng)實踐 案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級別的銷售額提升 1. 推薦系統(tǒng)整體架構 2. 算法和模型支持 3. 算法評估和灰度 4. ABT效果檢驗 |
知名互聯網公司的數據驅動精準化營銷實踐 案例簡介:結合用戶畫像數據,給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析 1. 用戶寬表建設 2. 根據特征選擇用戶群體 3. PUSH系統(tǒng)和用戶數據整合 4. PUSH效果分析(根據用戶行為數據分析營銷效果、用戶留存以及活動ROI) |
實時數據看板分享(雙十一大屏) 案例簡介:雙十一大促銷售額、轉化率、UV、漏斗等核心數據實時大屏展示 1. 訂單和用戶行為數據實時接入 2. 使用Flink(Spark)做實時數據計算 3. HBase存儲計算指標 4. 數據Service提供訪問接口 5. 前端大屏動態(tài)秒級更新數據 |
數據運營平臺介紹 數據運營平臺支持商務、運營等對公司日常銷售、轉換率、用戶訪問、品牌等的售賣詳細情況分析;分為固定產品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機會 1. 運營看板實例分享 2. 自助分析系統(tǒng)建設經驗分享 |