課程簡介
結(jié)合講師在阿里大數(shù)據(jù)平臺十年的工作經(jīng)驗和在阿里計算平臺實時計算組三年的工作經(jīng)驗,通過實踐和工程角度出發(fā),介紹不一樣的實時計算。計算從基礎(chǔ)到深入,并結(jié)合真實案例和客戶自己的問題,全程干貨。
目標收益
通過培訓,可以讓學員對實時數(shù)據(jù)處理有更深入和全面的理解,掌握實時數(shù)據(jù)平臺建設思路,了解實時數(shù)據(jù)處理技術(shù),并能夠在實際應用中解決實時計算預到的工程問題。
熟悉互聯(lián)網(wǎng)公司(如阿里巴巴、Uber、華為)的所面臨的問題和工程實踐經(jīng)驗。
培訓對象
了解大數(shù)據(jù)的軟件架構(gòu)師。
中級和高級軟件工程師。
課程大綱
實時計算現(xiàn)狀和分析 |
實時計算相關(guān)概念 實時數(shù)據(jù)特點 實時計算相關(guān)技術(shù)介紹 國內(nèi)外企業(yè)典型實時計算架構(gòu) 實時計算應用場景總結(jié) 1. EL(Extract Load):異構(gòu)系統(tǒng)數(shù)據(jù)同步、增量數(shù)據(jù)歸集 2. ETL(Extract Transform Load):數(shù)據(jù)預處理(清洗、集成、轉(zhuǎn)換) 3. EMT(Extract Match Trigger):CEP、SQL 4. EAT(Extract Algorithm Trigger) |
實時計算應用場景總結(jié) |
實時計算平臺應該具備功能 1. 數(shù)據(jù)采集 2. 數(shù)據(jù)加工 3. 數(shù)據(jù)寫入 4. 運維監(jiān)控 5. 可視化操作 6. 數(shù)據(jù)安全 7. 多租戶 數(shù)據(jù)加工能做什么 1. 預處理 (1) SQL (2) UDF (3) 插件 2. 規(guī)則匹配 (1) UDAF (2) CEP (3) SQL (4) 插件 3. 多個流上數(shù)據(jù)關(guān)聯(lián) 4. 流上數(shù)據(jù)與外部數(shù)據(jù)關(guān)聯(lián)(Lookup) 實時計算平臺建設痛點 1. 技術(shù)問題 2. 人才問題 3. 投入產(chǎn)出效率問題 |
實時計算平臺落地實踐 |
實時計算平臺設計思想 1. 實時計算平臺設計目標 2. 實時計算平臺設計規(guī)范 實時計算平臺架構(gòu)設計 數(shù)據(jù)采集平臺 1. 數(shù)據(jù)采集平臺架構(gòu)設計 2. 數(shù)據(jù)采集平臺功能設計 (1) 全量數(shù)據(jù)拉取設計:MYSQL、ORACLE (2) 增量數(shù)據(jù)拉取方案:MYSQL數(shù)據(jù)接入、ORACLE數(shù)據(jù)接入 3. 數(shù)據(jù)采集平臺特性解析 (1) ORACLE表結(jié)構(gòu)變更 (2) 全量拉取分片策略 (3) 數(shù)據(jù)追源ums_id_ (4) 數(shù)據(jù)鏈路心跳 數(shù)據(jù)計算平臺 1. 數(shù)據(jù)計算平臺架構(gòu)設計 2. 數(shù)據(jù)計算平臺功能設計 (1) 平臺管理 (2) 數(shù)據(jù)安全 (3) 運維監(jiān)控 (4) 數(shù)據(jù)解析 (5) 數(shù)據(jù)加工 (6) 數(shù)據(jù)寫入 3. 數(shù)據(jù)計算平臺特性解析 (1) 冪等寫入 (2) 多Flow支持(Spark/Flink) (3) 動態(tài)Flow指令(Spark/Flink) (4) 監(jiān)控數(shù)據(jù)采集(Spark/Flink)(Error和統(tǒng)計) (5) HDFS小文件(Spark) (6) 業(yè)務時間策略(Spark)(流上Join和Lookup) (7) Flow漂移(Spark) (8) 熱加載Topic變化(Spark) (9) Lookup性能優(yōu)化(Spark) (10) UDF熱加載(Spark) (11) 自定義數(shù)據(jù)格式(Spark/Flink?) (12) CEP可視化(Flink) (13) 啟動加載數(shù)據(jù)Schema (Flink) 案例解析 1. 阿里案例 2. 華為案例 3. Uber案例 |
流批一體化 |
流批一體化產(chǎn)品 1. 阿里流批一體化產(chǎn)品 2. 華為流批一體化產(chǎn)品 3. Uber流批一體化產(chǎn)品 4. Apache Pulsar 5. Delta Lake 流批一體化總結(jié) |
實時數(shù)據(jù)湖 |
數(shù)據(jù)湖的概念 數(shù)據(jù)湖與數(shù)據(jù)倉庫、數(shù)據(jù)中臺區(qū)別 實時數(shù)據(jù)湖實踐 實時數(shù)據(jù)湖總結(jié) |
實時計算現(xiàn)狀和分析 實時計算相關(guān)概念 實時數(shù)據(jù)特點 實時計算相關(guān)技術(shù)介紹 國內(nèi)外企業(yè)典型實時計算架構(gòu) 實時計算應用場景總結(jié) 1. EL(Extract Load):異構(gòu)系統(tǒng)數(shù)據(jù)同步、增量數(shù)據(jù)歸集 2. ETL(Extract Transform Load):數(shù)據(jù)預處理(清洗、集成、轉(zhuǎn)換) 3. EMT(Extract Match Trigger):CEP、SQL 4. EAT(Extract Algorithm Trigger) |
實時計算應用場景總結(jié) 實時計算平臺應該具備功能 1. 數(shù)據(jù)采集 2. 數(shù)據(jù)加工 3. 數(shù)據(jù)寫入 4. 運維監(jiān)控 5. 可視化操作 6. 數(shù)據(jù)安全 7. 多租戶 數(shù)據(jù)加工能做什么 1. 預處理 (1) SQL (2) UDF (3) 插件 2. 規(guī)則匹配 (1) UDAF (2) CEP (3) SQL (4) 插件 3. 多個流上數(shù)據(jù)關(guān)聯(lián) 4. 流上數(shù)據(jù)與外部數(shù)據(jù)關(guān)聯(lián)(Lookup) 實時計算平臺建設痛點 1. 技術(shù)問題 2. 人才問題 3. 投入產(chǎn)出效率問題 |
實時計算平臺落地實踐 實時計算平臺設計思想 1. 實時計算平臺設計目標 2. 實時計算平臺設計規(guī)范 實時計算平臺架構(gòu)設計 數(shù)據(jù)采集平臺 1. 數(shù)據(jù)采集平臺架構(gòu)設計 2. 數(shù)據(jù)采集平臺功能設計 (1) 全量數(shù)據(jù)拉取設計:MYSQL、ORACLE (2) 增量數(shù)據(jù)拉取方案:MYSQL數(shù)據(jù)接入、ORACLE數(shù)據(jù)接入 3. 數(shù)據(jù)采集平臺特性解析 (1) ORACLE表結(jié)構(gòu)變更 (2) 全量拉取分片策略 (3) 數(shù)據(jù)追源ums_id_ (4) 數(shù)據(jù)鏈路心跳 數(shù)據(jù)計算平臺 1. 數(shù)據(jù)計算平臺架構(gòu)設計 2. 數(shù)據(jù)計算平臺功能設計 (1) 平臺管理 (2) 數(shù)據(jù)安全 (3) 運維監(jiān)控 (4) 數(shù)據(jù)解析 (5) 數(shù)據(jù)加工 (6) 數(shù)據(jù)寫入 3. 數(shù)據(jù)計算平臺特性解析 (1) 冪等寫入 (2) 多Flow支持(Spark/Flink) (3) 動態(tài)Flow指令(Spark/Flink) (4) 監(jiān)控數(shù)據(jù)采集(Spark/Flink)(Error和統(tǒng)計) (5) HDFS小文件(Spark) (6) 業(yè)務時間策略(Spark)(流上Join和Lookup) (7) Flow漂移(Spark) (8) 熱加載Topic變化(Spark) (9) Lookup性能優(yōu)化(Spark) (10) UDF熱加載(Spark) (11) 自定義數(shù)據(jù)格式(Spark/Flink?) (12) CEP可視化(Flink) (13) 啟動加載數(shù)據(jù)Schema (Flink) 案例解析 1. 阿里案例 2. 華為案例 3. Uber案例 |
流批一體化 流批一體化產(chǎn)品 1. 阿里流批一體化產(chǎn)品 2. 華為流批一體化產(chǎn)品 3. Uber流批一體化產(chǎn)品 4. Apache Pulsar 5. Delta Lake 流批一體化總結(jié) |
實時數(shù)據(jù)湖 數(shù)據(jù)湖的概念 數(shù)據(jù)湖與數(shù)據(jù)倉庫、數(shù)據(jù)中臺區(qū)別 實時數(shù)據(jù)湖實踐 實時數(shù)據(jù)湖總結(jié) |