架構師
互聯網
大數據
機器學習
數據分析
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

大數據平臺和機器學習應用實踐

課程費用

6800.00 /人

課程時長

2

成為教練

課程簡介

通過介紹大數據的核心計算和存儲組件,以及整個完整的大數據平臺架構,結合具體的數據分析和機器學習案例分析,讓大家了解和掌握大數據平臺、機器學習和數據分析相關知識、最新的發(fā)展趨勢和如何應用到實際項目實踐中。

目標收益

通過介紹大數據的核心計算和存儲組件,以及整個完整的大數據平臺架構,結合具體的數據分析和機器學習案例分析,讓大家了解和掌握大數據平臺、數據分析和機器學習相關知識、最新的發(fā)展趨勢,以及如何應用到實際項目實踐中。

培訓對象

課程大綱

大數據和大數據平臺概念 1. 大數據技術的發(fā)展歷程和應用背景、大數據產業(yè)鏈概況,以及大數據技術在互聯網等行業(yè)中的應用實踐;
2. 數據平臺的基本概念和架構:數據平臺的組成部分,功能和作用:包括數據存儲、計算、傳輸(輸入/輸出)、任務調度系統(tǒng)、開發(fā)者平臺、數據質量監(jiān)控系統(tǒng)等。以某知名互聯網公司數據平臺架構為例進行分享,節(jié)點2000+,存儲50PB
3. 大數據在企業(yè)運營中的應用
Hadoop分布式存儲HDFS介紹 1. Hadoop大數據存儲系統(tǒng)HDFS的技術原理及應用實戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢、應用現狀和發(fā)展趨勢
2. HDFS分布式存儲系統(tǒng)的核心關鍵技術、設計精髓、基本工作原理、系統(tǒng)架構、文件存儲模式、工作機制、存儲擴容與吞吐性能擴展
MapReduce計算執(zhí)行框架 1. 大數據平臺中的并行計算處理與函數式編程技術原理,以及數據并行技術—MapReduce技術的工作機制、工作原理、性能調優(yōu)和大數據處理架構,以及MapReduce技術的發(fā)展趨勢
2. Hadoop MapReduce并行處理平臺的系統(tǒng)架構、核心功能模塊、MapReduce編程應用開發(fā)實踐
資源調度框架YARN介紹 1. YARN 集群的架構
2. 資源分配和故障恢復
3. 使用 YARN Web 用戶界面
4. 管理正在運行的作業(yè)
5. 配置公平調度器
6. 實現多租戶架構
Hadoop集群的高級特性、集群建設和運維實踐 1. Namenode\DataNode節(jié)點硬件以及網絡選擇
2. 集群高可用配置
3. 集群機房實際部署拓撲推薦——PB級別容量集群的實際配置方案
4. 集群監(jiān)控和自動化運維實踐
5. 常見的 Hadoop Clusters 的故障排除
數據倉庫和數據分析實踐 1. Hive基本介紹和Hive在數據倉庫中的使用
2. Hive的配置和使用
3. Hive的HQL擴展開發(fā)
數據倉庫建設經驗分享——以知名互聯網公司倉庫建設實踐經驗:表數量2萬+、分析師200+、模型和任務數量2萬+
Spark分享和實踐 1. Spark的基礎概念
2. Spark安裝和配置
3. RDD 基本概念
4. Spark SQL和DataFrames介紹
5. Spark Streaming開發(fā)實踐
Spark SQL和Hive在數據分析中的整合實踐
實時和流計算 1. 介紹Flink相關概念和基礎知識,以及如何使用Flink等。
2. 以流量實時化和實時推薦為例,介紹實時系統(tǒng)的使用場景、系統(tǒng)架構和最佳實踐
3. Spark相關介紹和基礎知識
4. Spark/Spark SQL/Spark Streaming的使用場景和特點
5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點
案例分享:實時和離線融合在互聯網公司的實踐
機器學習和深度學習知識原理 1. 機器學習知識與人工智能、深度學習關系;
2. 機器學習應用場景是什么;
3. 機器學習分類和算法基本介紹:監(jiān)督學習算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等);
4. 機器學習分類和算法基本介紹:無監(jiān)督學習算法(K-Means、PCA、LDA等);
5. 機器學習評估指標;
6. 機器學習常用數學知識;
特征工程和模型訓練 1. 特征工程(特征提取,特征離散化,特征交叉等);
2. 3.如何大規(guī)模實時&離線訓練模型(訓練集、測試集、驗證集/評估指標AUC、ABTest 等)
大規(guī)模機器學習平臺 1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機器學習和深度學習框架開發(fā))
2. 數據存儲:實時特征+離線歷史數據
3. 大規(guī)模分布式計算:CPU + GPU
4. 模型發(fā)布和上線
5. 我們的大規(guī)模機器學習平臺分享(支持200+ 算法和模型開發(fā)人員)
用戶畫像在個性化性化推薦系統(tǒng)領域 案例簡介:用戶畫像數據體系建設,以及基于用戶畫像數據、用戶實時行為數據的個性化推薦系統(tǒng)介紹
1. 用戶畫像體系介紹
2. 用戶特征抽取
3. 用戶特征存儲和應用
4. 個性化推薦系統(tǒng)和用戶畫像的結合
推薦系統(tǒng)實踐 案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級別的銷售額提升
1. 推薦系統(tǒng)整體架構
2. 算法和模型支持
3. 算法評估和灰度
4. ABT效果檢驗
知名互聯網公司的數據驅動精準化營銷實踐 案例簡介:結合用戶畫像數據,給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析
1. 用戶寬表建設
2. 根據特征選擇用戶群體
3. PUSH系統(tǒng)和用戶數據整合
4. PUSH效果分析(根據用戶行為數據分析營銷效果、用戶留存以及活動ROI)
實時數據看板分享(雙十一大屏) 案例簡介:雙十一大促銷售額、轉化率、UV、漏斗等核心數據實時大屏展示
1. 訂單和用戶行為數據實時接入
2. 使用Flink(Spark)做實時數據計算
3. HBase存儲計算指標
4. 數據Service提供訪問接口
5. 前端大屏動態(tài)秒級更新數據
數據運營平臺介紹 數據運營平臺支持商務、運營等對公司日常銷售、轉換率、用戶訪問、品牌等的售賣詳細情況分析;分為固定產品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機會
1. 運營看板實例分享
2. 自助分析系統(tǒng)建設經驗分享
大數據和大數據平臺概念
1. 大數據技術的發(fā)展歷程和應用背景、大數據產業(yè)鏈概況,以及大數據技術在互聯網等行業(yè)中的應用實踐;
2. 數據平臺的基本概念和架構:數據平臺的組成部分,功能和作用:包括數據存儲、計算、傳輸(輸入/輸出)、任務調度系統(tǒng)、開發(fā)者平臺、數據質量監(jiān)控系統(tǒng)等。以某知名互聯網公司數據平臺架構為例進行分享,節(jié)點2000+,存儲50PB
3. 大數據在企業(yè)運營中的應用
Hadoop分布式存儲HDFS介紹
1. Hadoop大數據存儲系統(tǒng)HDFS的技術原理及應用實戰(zhàn),以及分布式文件系統(tǒng)HDFS概述、功能、作用、優(yōu)勢、應用現狀和發(fā)展趨勢
2. HDFS分布式存儲系統(tǒng)的核心關鍵技術、設計精髓、基本工作原理、系統(tǒng)架構、文件存儲模式、工作機制、存儲擴容與吞吐性能擴展
MapReduce計算執(zhí)行框架
1. 大數據平臺中的并行計算處理與函數式編程技術原理,以及數據并行技術—MapReduce技術的工作機制、工作原理、性能調優(yōu)和大數據處理架構,以及MapReduce技術的發(fā)展趨勢
2. Hadoop MapReduce并行處理平臺的系統(tǒng)架構、核心功能模塊、MapReduce編程應用開發(fā)實踐
資源調度框架YARN介紹
1. YARN 集群的架構
2. 資源分配和故障恢復
3. 使用 YARN Web 用戶界面
4. 管理正在運行的作業(yè)
5. 配置公平調度器
6. 實現多租戶架構
Hadoop集群的高級特性、集群建設和運維實踐
1. Namenode\DataNode節(jié)點硬件以及網絡選擇
2. 集群高可用配置
3. 集群機房實際部署拓撲推薦——PB級別容量集群的實際配置方案
4. 集群監(jiān)控和自動化運維實踐
5. 常見的 Hadoop Clusters 的故障排除
數據倉庫和數據分析實踐
1. Hive基本介紹和Hive在數據倉庫中的使用
2. Hive的配置和使用
3. Hive的HQL擴展開發(fā)
數據倉庫建設經驗分享——以知名互聯網公司倉庫建設實踐經驗:表數量2萬+、分析師200+、模型和任務數量2萬+
Spark分享和實踐
1. Spark的基礎概念
2. Spark安裝和配置
3. RDD 基本概念
4. Spark SQL和DataFrames介紹
5. Spark Streaming開發(fā)實踐
Spark SQL和Hive在數據分析中的整合實踐
實時和流計算
1. 介紹Flink相關概念和基礎知識,以及如何使用Flink等。
2. 以流量實時化和實時推薦為例,介紹實時系統(tǒng)的使用場景、系統(tǒng)架構和最佳實踐
3. Spark相關介紹和基礎知識
4. Spark/Spark SQL/Spark Streaming的使用場景和特點
5. 在流處理方向Spark Stream和Flink的區(qū)別和使用特點
案例分享:實時和離線融合在互聯網公司的實踐
機器學習和深度學習知識原理
1. 機器學習知識與人工智能、深度學習關系;
2. 機器學習應用場景是什么;
3. 機器學習分類和算法基本介紹:監(jiān)督學習算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等);
4. 機器學習分類和算法基本介紹:無監(jiān)督學習算法(K-Means、PCA、LDA等);
5. 機器學習評估指標;
6. 機器學習常用數學知識;
特征工程和模型訓練
1. 特征工程(特征提取,特征離散化,特征交叉等);
2. 3.如何大規(guī)模實時&離線訓練模型(訓練集、測試集、驗證集/評估指標AUC、ABTest 等)
大規(guī)模機器學習平臺
1. 模型開發(fā)(如何支持Python、Spark ML、R、TensorFlow、PyTorch等機器學習和深度學習框架開發(fā))
2. 數據存儲:實時特征+離線歷史數據
3. 大規(guī)模分布式計算:CPU + GPU
4. 模型發(fā)布和上線
5. 我們的大規(guī)模機器學習平臺分享(支持200+ 算法和模型開發(fā)人員)
用戶畫像在個性化性化推薦系統(tǒng)領域
案例簡介:用戶畫像數據體系建設,以及基于用戶畫像數據、用戶實時行為數據的個性化推薦系統(tǒng)介紹
1. 用戶畫像體系介紹
2. 用戶特征抽取
3. 用戶特征存儲和應用
4. 個性化推薦系統(tǒng)和用戶畫像的結合
推薦系統(tǒng)實踐
案例簡介:我們的推薦系統(tǒng)如何支持每天上億用戶訪問;以及億級別的銷售額提升
1. 推薦系統(tǒng)整體架構
2. 算法和模型支持
3. 算法評估和灰度
4. ABT效果檢驗
知名互聯網公司的數據驅動精準化營銷實踐
案例簡介:結合用戶畫像數據,給不同用戶人群發(fā)送PUSH(短信)的營銷效果分析
1. 用戶寬表建設
2. 根據特征選擇用戶群體
3. PUSH系統(tǒng)和用戶數據整合
4. PUSH效果分析(根據用戶行為數據分析營銷效果、用戶留存以及活動ROI)
實時數據看板分享(雙十一大屏)
案例簡介:雙十一大促銷售額、轉化率、UV、漏斗等核心數據實時大屏展示
1. 訂單和用戶行為數據實時接入
2. 使用Flink(Spark)做實時數據計算
3. HBase存儲計算指標
4. 數據Service提供訪問接口
5. 前端大屏動態(tài)秒級更新數據
數據運營平臺介紹
數據運營平臺支持商務、運營等對公司日常銷售、轉換率、用戶訪問、品牌等的售賣詳細情況分析;分為固定產品、自助分析系統(tǒng)等,挖掘深層次的商業(yè)機會
1. 運營看板實例分享
2. 自助分析系統(tǒng)建設經驗分享

課程費用

6800.00 /人

課程時長

2

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求