課程簡(jiǎn)介
隨著大數(shù)據(jù)技術(shù)的使用越來(lái)越廣泛,企業(yè)面臨數(shù)據(jù)整合、數(shù)據(jù)分層、數(shù)據(jù)管理、數(shù)據(jù)使用、 數(shù)據(jù)湖等問(wèn)題尤為的重要。使得基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖建設(shè)非常的必要。本次 大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的培訓(xùn)理論和實(shí)踐相結(jié)合,通過(guò)一些企業(yè)級(jí)的真實(shí)案例實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái) 數(shù)倉(cāng)、數(shù)據(jù)湖的建設(shè)。
目標(biāo)收益
1. 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的概念和架構(gòu)
2. 數(shù)據(jù)建模的技術(shù)、流程和注意點(diǎn)
3. 數(shù)據(jù)整合、處理和展示的流程
4. 基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖的技術(shù)和案例分享
5. 電信和銀行等傳統(tǒng)行業(yè)大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖的落地案例和經(jīng)驗(yàn)分享
6. 關(guān)系模型和維度模型的應(yīng)用場(chǎng)景
培訓(xùn)對(duì)象
數(shù)據(jù)架構(gòu)師、數(shù)據(jù)分析和挖掘人員、模型師、大數(shù)據(jù)架構(gòu)師、ETL 開(kāi)發(fā)工程師、業(yè)務(wù)人員
課程大綱
第一章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖介紹 |
1.數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu) 2.數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程方法論 3.數(shù)倉(cāng)五層結(jié)構(gòu) 4.數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì) 5.數(shù)據(jù)湖體系架構(gòu) 6.數(shù)據(jù)湖技術(shù)架構(gòu) 7.數(shù)據(jù)湖構(gòu)建步驟 8.數(shù)據(jù)服務(wù)概念 9.數(shù)倉(cāng)和數(shù)據(jù)湖的區(qū)別 |
第二章 數(shù)據(jù)建模介紹 |
1. 數(shù)據(jù)建模概念 2. 為什么要數(shù)據(jù)建模 3. 數(shù)據(jù)建模的方法論介紹 4. 概念模型 5. 邏輯模型 6. 物理模型 7. 數(shù)據(jù)建模常用工具介紹 |
第三章 數(shù)據(jù)建模實(shí)戰(zhàn)(維度模型) |
1. 維度建模概念 2. 為什么要維度建模 3. 維度表介紹 4. 維度種類 5. 緩慢變化維處理 6. 快速變化維處理 7. 代理鍵 8. 維度的三種模型介紹:星型模型、雪花模型、多維模型 9. 事實(shí)表的類型 10. 基于維度模型數(shù)據(jù)倉(cāng)庫(kù)的基本概念 11. 維度模型建設(shè)步驟 |
第四章 范式建模和維度建模的比較 |
1. 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)范式建模和維度建模的引用場(chǎng)景 2. 范式建模解決的問(wèn)題領(lǐng)域 3. 維度建模解決的問(wèn)題領(lǐng)域 4. 關(guān)系建模和維度建模的比較 |
第五章 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)架構(gòu) |
1. 數(shù)據(jù)倉(cāng)庫(kù)典型架構(gòu)介紹:、ODS 層、DW 層、DM 層 2. 數(shù)據(jù)安全控制 3. ETL 任務(wù)調(diào)度 |
第六章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖總體架構(gòu) |
1.數(shù)據(jù)倉(cāng)庫(kù)典型架構(gòu)介紹 —ODS層 —DW層 —DM層 —ADS層 2.數(shù)據(jù)體系規(guī)劃 3.數(shù)據(jù)分層思想 4.貼源層數(shù)據(jù)建設(shè) 5.統(tǒng)一數(shù)據(jù)底座建設(shè) 6.數(shù)據(jù)集市建設(shè)設(shè)計(jì) 7.標(biāo)簽數(shù)據(jù)層建設(shè)計(jì) 8.應(yīng)用數(shù)據(jù)層建設(shè) |
第七章 指標(biāo)數(shù)據(jù)建模案例分享 |
1.業(yè)務(wù)需求 2.數(shù)倉(cāng)總線矩陣梳理 3.維度建模 – 選擇業(yè)務(wù)過(guò)程 4.維度建模 – 聲明粒度 5.維度建模 – 確定維度 6.維度建模 – 確定事實(shí) 7.維度建模 – 模型的擴(kuò)展與集成 8.ETL&BI設(shè)計(jì) – 金字塔原理 9.數(shù)據(jù)底座建設(shè)理念和線路 10.指標(biāo)關(guān)聯(lián)關(guān)系矩陣 |
第八章: 數(shù)據(jù)湖的數(shù)據(jù)架構(gòu)數(shù)據(jù)架構(gòu)實(shí)戰(zhàn) |
1.數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) —離線數(shù)據(jù)接入 —實(shí)時(shí)的數(shù)據(jù)接入 2.數(shù)據(jù)處理過(guò)程 —數(shù)據(jù)的 ETL —數(shù)據(jù)分層(ODS、DW 和 DM 等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗(yàn) 3.數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實(shí)時(shí)應(yīng)用 —數(shù)據(jù)實(shí)驗(yàn)室 —數(shù)據(jù)展示工具(BI 工具) |
第九章 數(shù)據(jù)湖落地技術(shù)實(shí)戰(zhàn) |
1. RDBMS 導(dǎo)入導(dǎo)出到 hadoop 數(shù)據(jù)倉(cāng)庫(kù) 2. Sqoop 工具介紹和使用 3. DataX 工具介紹 4. CDC 工具介紹(Oracle OGG 和 Mysql Binlog) 5. Flink CDC介紹和實(shí)戰(zhàn) 6. 實(shí)時(shí)非結(jié)構(gòu)化數(shù)據(jù)的采集 7. 從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉(cāng)庫(kù) 8. 基于 Hadoop、Spark、Flink 數(shù)據(jù)湖的數(shù)據(jù)分層(ODS、DW、 DWS/B、DM、ST) 9. 數(shù)據(jù)湖不同層之間的數(shù)據(jù)交互和 ETL |
第十章 案例實(shí)戰(zhàn)分享(數(shù)據(jù)倉(cāng)庫(kù)建設(shè)0到1) |
1.離線數(shù)據(jù)平臺(tái)典型架構(gòu)介紹 2.流式數(shù)據(jù)平臺(tái)典型架構(gòu)介紹 3.流批一體數(shù)據(jù)平臺(tái)典型架構(gòu)介紹 4.數(shù)據(jù)倉(cāng)庫(kù)0到1建設(shè)案例分享 5.數(shù)據(jù)倉(cāng)庫(kù)建設(shè)規(guī)范 6.自上而下和自下而上的建設(shè)融合 7.數(shù)據(jù)分層架構(gòu)和注意事項(xiàng) 8.數(shù)據(jù)分層設(shè)計(jì)原則和ETL處理流 9.數(shù)據(jù)分層公共數(shù)據(jù)下沉設(shè)計(jì)準(zhǔn)側(cè) 10.數(shù)據(jù)標(biāo)準(zhǔn)和口徑梳理流程,解決數(shù)據(jù)口徑的不一致 11.如何將業(yè)務(wù)需求梳理成數(shù)據(jù)需求從而設(shè)計(jì)ADS數(shù)據(jù)服務(wù)應(yīng)用分享 12.如何控制數(shù)據(jù)處理鏈路,實(shí)現(xiàn)高效的數(shù)據(jù)處理 13.數(shù)據(jù)集市建設(shè)的要點(diǎn)和注意點(diǎn) 14.批量數(shù)據(jù)裝載、整合、處理和全流程ETL處理過(guò)程最佳實(shí)戰(zhàn) 15.實(shí)時(shí)數(shù)據(jù)抽取、整合、處理和全流程ETL處理過(guò)程最佳實(shí)戰(zhàn) |
第一章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖介紹 1.數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu) 2.數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程方法論 3.數(shù)倉(cāng)五層結(jié)構(gòu) 4.數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì) 5.數(shù)據(jù)湖體系架構(gòu) 6.數(shù)據(jù)湖技術(shù)架構(gòu) 7.數(shù)據(jù)湖構(gòu)建步驟 8.數(shù)據(jù)服務(wù)概念 9.數(shù)倉(cāng)和數(shù)據(jù)湖的區(qū)別 |
第二章 數(shù)據(jù)建模介紹 1. 數(shù)據(jù)建模概念 2. 為什么要數(shù)據(jù)建模 3. 數(shù)據(jù)建模的方法論介紹 4. 概念模型 5. 邏輯模型 6. 物理模型 7. 數(shù)據(jù)建模常用工具介紹 |
第三章 數(shù)據(jù)建模實(shí)戰(zhàn)(維度模型) 1. 維度建模概念 2. 為什么要維度建模 3. 維度表介紹 4. 維度種類 5. 緩慢變化維處理 6. 快速變化維處理 7. 代理鍵 8. 維度的三種模型介紹:星型模型、雪花模型、多維模型 9. 事實(shí)表的類型 10. 基于維度模型數(shù)據(jù)倉(cāng)庫(kù)的基本概念 11. 維度模型建設(shè)步驟 |
第四章 范式建模和維度建模的比較 1. 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)范式建模和維度建模的引用場(chǎng)景 2. 范式建模解決的問(wèn)題領(lǐng)域 3. 維度建模解決的問(wèn)題領(lǐng)域 4. 關(guān)系建模和維度建模的比較 |
第五章 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)架構(gòu) 1. 數(shù)據(jù)倉(cāng)庫(kù)典型架構(gòu)介紹:、ODS 層、DW 層、DM 層 2. 數(shù)據(jù)安全控制 3. ETL 任務(wù)調(diào)度 |
第六章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖總體架構(gòu) 1.數(shù)據(jù)倉(cāng)庫(kù)典型架構(gòu)介紹 —ODS層 —DW層 —DM層 —ADS層 2.數(shù)據(jù)體系規(guī)劃 3.數(shù)據(jù)分層思想 4.貼源層數(shù)據(jù)建設(shè) 5.統(tǒng)一數(shù)據(jù)底座建設(shè) 6.數(shù)據(jù)集市建設(shè)設(shè)計(jì) 7.標(biāo)簽數(shù)據(jù)層建設(shè)計(jì) 8.應(yīng)用數(shù)據(jù)層建設(shè) |
第七章 指標(biāo)數(shù)據(jù)建模案例分享 1.業(yè)務(wù)需求 2.數(shù)倉(cāng)總線矩陣梳理 3.維度建模 – 選擇業(yè)務(wù)過(guò)程 4.維度建模 – 聲明粒度 5.維度建模 – 確定維度 6.維度建模 – 確定事實(shí) 7.維度建模 – 模型的擴(kuò)展與集成 8.ETL&BI設(shè)計(jì) – 金字塔原理 9.數(shù)據(jù)底座建設(shè)理念和線路 10.指標(biāo)關(guān)聯(lián)關(guān)系矩陣 |
第八章: 數(shù)據(jù)湖的數(shù)據(jù)架構(gòu)數(shù)據(jù)架構(gòu)實(shí)戰(zhàn) 1.數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) —離線數(shù)據(jù)接入 —實(shí)時(shí)的數(shù)據(jù)接入 2.數(shù)據(jù)處理過(guò)程 —數(shù)據(jù)的 ETL —數(shù)據(jù)分層(ODS、DW 和 DM 等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗(yàn) 3.數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實(shí)時(shí)應(yīng)用 —數(shù)據(jù)實(shí)驗(yàn)室 —數(shù)據(jù)展示工具(BI 工具) |
第九章 數(shù)據(jù)湖落地技術(shù)實(shí)戰(zhàn) 1. RDBMS 導(dǎo)入導(dǎo)出到 hadoop 數(shù)據(jù)倉(cāng)庫(kù) 2. Sqoop 工具介紹和使用 3. DataX 工具介紹 4. CDC 工具介紹(Oracle OGG 和 Mysql Binlog) 5. Flink CDC介紹和實(shí)戰(zhàn) 6. 實(shí)時(shí)非結(jié)構(gòu)化數(shù)據(jù)的采集 7. 從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉(cāng)庫(kù) 8. 基于 Hadoop、Spark、Flink 數(shù)據(jù)湖的數(shù)據(jù)分層(ODS、DW、 DWS/B、DM、ST) 9. 數(shù)據(jù)湖不同層之間的數(shù)據(jù)交互和 ETL |
第十章 案例實(shí)戰(zhàn)分享(數(shù)據(jù)倉(cāng)庫(kù)建設(shè)0到1) 1.離線數(shù)據(jù)平臺(tái)典型架構(gòu)介紹 2.流式數(shù)據(jù)平臺(tái)典型架構(gòu)介紹 3.流批一體數(shù)據(jù)平臺(tái)典型架構(gòu)介紹 4.數(shù)據(jù)倉(cāng)庫(kù)0到1建設(shè)案例分享 5.數(shù)據(jù)倉(cāng)庫(kù)建設(shè)規(guī)范 6.自上而下和自下而上的建設(shè)融合 7.數(shù)據(jù)分層架構(gòu)和注意事項(xiàng) 8.數(shù)據(jù)分層設(shè)計(jì)原則和ETL處理流 9.數(shù)據(jù)分層公共數(shù)據(jù)下沉設(shè)計(jì)準(zhǔn)側(cè) 10.數(shù)據(jù)標(biāo)準(zhǔn)和口徑梳理流程,解決數(shù)據(jù)口徑的不一致 11.如何將業(yè)務(wù)需求梳理成數(shù)據(jù)需求從而設(shè)計(jì)ADS數(shù)據(jù)服務(wù)應(yīng)用分享 12.如何控制數(shù)據(jù)處理鏈路,實(shí)現(xiàn)高效的數(shù)據(jù)處理 13.數(shù)據(jù)集市建設(shè)的要點(diǎn)和注意點(diǎn) 14.批量數(shù)據(jù)裝載、整合、處理和全流程ETL處理過(guò)程最佳實(shí)戰(zhàn) 15.實(shí)時(shí)數(shù)據(jù)抽取、整合、處理和全流程ETL處理過(guò)程最佳實(shí)戰(zhàn) |