課程簡介
本課程是基于金融行業(yè)技術(shù)實踐和業(yè)務(wù)應(yīng)用場景,結(jié)合當(dāng)前企業(yè)級應(yīng)用場景進(jìn)行綜合性課程設(shè)計。從專業(yè)知識,專業(yè)技能,通用技能多維度全面培養(yǎng)數(shù)據(jù)庫優(yōu)化人才的綜合能力。
目標(biāo)收益
培訓(xùn)對象
課程大綱
流批一體以及數(shù)據(jù)湖技術(shù)講解 4小時 |
1.Flink流批一體架構(gòu)、原理與實踐 (1)讀寫模型 2.數(shù)據(jù)湖數(shù)據(jù)湖理念介紹 3.Hudi批流一體架構(gòu)、原理與實踐 4.Hudi核心組件 (1)有序的時間軸元數(shù)據(jù) (2)分層布局的數(shù)據(jù)文件 (3)索引(多種實現(xiàn)方式) 5.Hudi表設(shè)計 (1)Timeline (2)數(shù)據(jù)文件--Hoodie key (3)索引 6.Hudi表類型(讀寫時模式區(qū)分) (1)Copy-On-Write 寫時復(fù)制表 (2)Merge-On-Read 讀時合并表 7.數(shù)據(jù)湖Iceberg對比和技術(shù)實現(xiàn) 8.Trino技術(shù)和方案實踐 9.presto查詢引擎應(yīng)用 10.多庫多表實時入湖最佳實踐 11.數(shù)據(jù)湖并發(fā)控制實踐 12.數(shù)據(jù)湖最佳實踐 |
實戰(zhàn)案例 4小時 |
1.金融行業(yè)Top客戶應(yīng)用場景、規(guī)模建設(shè)等情況 2.OLAP實時化業(yè)務(wù)場景實踐(深度講解) (1)大數(shù)據(jù)金融信貸項目 ①項目需求分析 1)用戶信用卡持卡用戶特征分析 2)信用卡用戶消費行為分析 3)用戶信用卡管理行為分析 4)頁面訪問Top實時 5)動賬管理行為分析 6)…… (2)系統(tǒng)架構(gòu)設(shè)計 (3)數(shù)據(jù)流程設(shè)計 (4)離線分析 (5)實時分析 (6)實時化探索 3.某行基于hudi的數(shù)據(jù)湖構(gòu)建實踐 (1)業(yè)務(wù)痛點 ①當(dāng)前數(shù)倉架構(gòu):批流雙鏈路對應(yīng)不同的存儲和計算組件,維護(hù)和資源成本高 ②痛點:數(shù)據(jù)調(diào)度、數(shù)據(jù)同步和修復(fù)回刷等場景 (2)為什么選擇數(shù)據(jù)湖Hudi (3)方案:技術(shù)選型(實時化、離線) ①如何使用Hudi解決業(yè)務(wù)問題 ②Hudi模型設(shè)計與傳統(tǒng)的離線數(shù)倉模型設(shè)計 ③基于Hudi的模式設(shè)計(寫模型設(shè)計) ④確定合適的分區(qū)和文件大小來解決數(shù)據(jù)更新中毛刺問題 (4)應(yīng)用場景:數(shù)據(jù)一鍵入湖、流量日志分流、物化查詢加速、實時數(shù)倉演進(jìn) (5)生產(chǎn)環(huán)境最優(yōu)選擇 ①表類型選擇 1)存儲類型 2)索引類型:支持多索引 3)Bucket數(shù)量:bucket index設(shè)計實踐 4)主鍵列 5)索引列 (6)數(shù)據(jù)寫入方式:通過數(shù)據(jù)寫入的瓶頸進(jìn)行綜合分析以及Flink On Hudi 的更新瓶頸 (7)數(shù)據(jù)查詢方式:無法使用數(shù)據(jù)時間進(jìn)行快照查詢以及異步物化視圖、數(shù)據(jù)緩存等 (8)合并寬表能力不足解決、維表 JOIN延長 (9)優(yōu)化文件布局 (10)數(shù)據(jù)湖并發(fā)控制缺陷解決 (11)多流合并優(yōu)化實踐 (12)實時數(shù)倉并進(jìn):基于Kafka的ETL到基于視圖的ETL、Flink、Hudi、Trino應(yīng)用; 4.某銀行借鑒某互聯(lián)網(wǎng)數(shù)據(jù)湖應(yīng)用案例剖析 |
使用經(jīng)驗(針對源碼缺陷進(jìn)行分析) 1小時 |
1.Hudi Pipelines模塊,支持流寫Hudi在線同步源碼schema變更 2.Hudi項目對Timestamp字段類型的支持,使Presto能正常查詢Hudi表 3.確保Presto查詢Hudi MOR多分區(qū)表查詢正常 4.確保FlinkSQL增刪改查Hudi多分區(qū)表功能正常 5.hudi-common模塊,解決TaskManager NPE異常 |
流批一體以及數(shù)據(jù)湖技術(shù)講解 4小時 1.Flink流批一體架構(gòu)、原理與實踐 (1)讀寫模型 2.數(shù)據(jù)湖數(shù)據(jù)湖理念介紹 3.Hudi批流一體架構(gòu)、原理與實踐 4.Hudi核心組件 (1)有序的時間軸元數(shù)據(jù) (2)分層布局的數(shù)據(jù)文件 (3)索引(多種實現(xiàn)方式) 5.Hudi表設(shè)計 (1)Timeline (2)數(shù)據(jù)文件--Hoodie key (3)索引 6.Hudi表類型(讀寫時模式區(qū)分) (1)Copy-On-Write 寫時復(fù)制表 (2)Merge-On-Read 讀時合并表 7.數(shù)據(jù)湖Iceberg對比和技術(shù)實現(xiàn) 8.Trino技術(shù)和方案實踐 9.presto查詢引擎應(yīng)用 10.多庫多表實時入湖最佳實踐 11.數(shù)據(jù)湖并發(fā)控制實踐 12.數(shù)據(jù)湖最佳實踐 |
實戰(zhàn)案例 4小時 1.金融行業(yè)Top客戶應(yīng)用場景、規(guī)模建設(shè)等情況 2.OLAP實時化業(yè)務(wù)場景實踐(深度講解) (1)大數(shù)據(jù)金融信貸項目 ①項目需求分析 1)用戶信用卡持卡用戶特征分析 2)信用卡用戶消費行為分析 3)用戶信用卡管理行為分析 4)頁面訪問Top實時 5)動賬管理行為分析 6)…… (2)系統(tǒng)架構(gòu)設(shè)計 (3)數(shù)據(jù)流程設(shè)計 (4)離線分析 (5)實時分析 (6)實時化探索 3.某行基于hudi的數(shù)據(jù)湖構(gòu)建實踐 (1)業(yè)務(wù)痛點 ①當(dāng)前數(shù)倉架構(gòu):批流雙鏈路對應(yīng)不同的存儲和計算組件,維護(hù)和資源成本高 ②痛點:數(shù)據(jù)調(diào)度、數(shù)據(jù)同步和修復(fù)回刷等場景 (2)為什么選擇數(shù)據(jù)湖Hudi (3)方案:技術(shù)選型(實時化、離線) ①如何使用Hudi解決業(yè)務(wù)問題 ②Hudi模型設(shè)計與傳統(tǒng)的離線數(shù)倉模型設(shè)計 ③基于Hudi的模式設(shè)計(寫模型設(shè)計) ④確定合適的分區(qū)和文件大小來解決數(shù)據(jù)更新中毛刺問題 (4)應(yīng)用場景:數(shù)據(jù)一鍵入湖、流量日志分流、物化查詢加速、實時數(shù)倉演進(jìn) (5)生產(chǎn)環(huán)境最優(yōu)選擇 ①表類型選擇 1)存儲類型 2)索引類型:支持多索引 3)Bucket數(shù)量:bucket index設(shè)計實踐 4)主鍵列 5)索引列 (6)數(shù)據(jù)寫入方式:通過數(shù)據(jù)寫入的瓶頸進(jìn)行綜合分析以及Flink On Hudi 的更新瓶頸 (7)數(shù)據(jù)查詢方式:無法使用數(shù)據(jù)時間進(jìn)行快照查詢以及異步物化視圖、數(shù)據(jù)緩存等 (8)合并寬表能力不足解決、維表 JOIN延長 (9)優(yōu)化文件布局 (10)數(shù)據(jù)湖并發(fā)控制缺陷解決 (11)多流合并優(yōu)化實踐 (12)實時數(shù)倉并進(jìn):基于Kafka的ETL到基于視圖的ETL、Flink、Hudi、Trino應(yīng)用; 4.某銀行借鑒某互聯(lián)網(wǎng)數(shù)據(jù)湖應(yīng)用案例剖析 |
使用經(jīng)驗(針對源碼缺陷進(jìn)行分析) 1小時 1.Hudi Pipelines模塊,支持流寫Hudi在線同步源碼schema變更 2.Hudi項目對Timestamp字段類型的支持,使Presto能正常查詢Hudi表 3.確保Presto查詢Hudi MOR多分區(qū)表查詢正常 4.確保FlinkSQL增刪改查Hudi多分區(qū)表功能正常 5.hudi-common模塊,解決TaskManager NPE異常 |