課程簡(jiǎn)介
隨著大數(shù)據(jù)技術(shù)的使用越來(lái)越廣泛,企業(yè)面臨數(shù)據(jù)整合、數(shù)據(jù)分層、數(shù)據(jù)管理、數(shù)據(jù)使用、數(shù)據(jù)湖等問(wèn)題尤為的重要。使得基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖建設(shè)非常的必要。本次大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的培訓(xùn)理論和實(shí)踐相結(jié)合,通過(guò)一些企業(yè)級(jí)的真實(shí)案例實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái)數(shù)倉(cāng)、數(shù)據(jù)湖的建設(shè)。
本次課程包含3NF模型和維度模型的使用經(jīng)驗(yàn)分享,金融行業(yè)的10大主題域模型等。
目標(biāo)收益
1. 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的概念和架構(gòu)
2. 數(shù)據(jù)建模的技術(shù)、流程和注意點(diǎn)
3. 數(shù)據(jù)整合、處理和展示的流程
4. 基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖的技術(shù)和案例分享
5. 電信和銀行等傳統(tǒng)行業(yè)大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖的落地案例和經(jīng)驗(yàn)分享
6. 關(guān)系模型和維度模型的應(yīng)用場(chǎng)景
培訓(xùn)對(duì)象
1. 數(shù)據(jù)架構(gòu)師
2. 數(shù)據(jù)分析和挖掘人員
3. 模型師
4. 大數(shù)據(jù)架構(gòu)師
5. ETL開(kāi)發(fā)工程師
6. 業(yè)務(wù)人員
學(xué)員基礎(chǔ):
1. 對(duì)大數(shù)據(jù)技術(shù)了解
2. 對(duì)業(yè)務(wù)了解
課程大綱
第一章:數(shù)據(jù)分析技術(shù)介紹和比較(SQL on Hadoop) |
M-OLAP分析應(yīng)用場(chǎng)景介紹 1. Kylin實(shí)現(xiàn)M-OALP介紹 2. R-OLAP應(yīng)用分析場(chǎng)景介紹 3. SparkSQL應(yīng)用場(chǎng)景介紹 4. Impala應(yīng)用場(chǎng)景介紹 5. Presto應(yīng)用場(chǎng)景介紹 6. sparkSQL、Impala和Presto之間的比較 7. Elasticsearch應(yīng)用場(chǎng)景介紹 8. ELK應(yīng)用案例介紹和分享 |
第二章:數(shù)據(jù)建模方法介紹(范式模型) |
1. 關(guān)系建模概念 2. 為什么要關(guān)系數(shù)據(jù)建模 3. 關(guān)系建模的方法介紹 4. 概念模型 5. 邏輯模型 6. 物理模型 7. Teradata 金融十大模型主題域介紹 8. 關(guān)系建模的應(yīng)用場(chǎng)景 |
第三章:數(shù)據(jù)建模方法介紹(維度模型) |
1. 維度建模概念 2. 為什么要維度建模 3. 維度表介紹 4. 維度種類 5. 緩慢變化維處理 6. 快速變化維處理 7. 代理鍵 8. 維度的三種模型介紹:星型模型、雪花模型、多維模型 9. 事實(shí)表的類型 10. 基于維度模型數(shù)據(jù)倉(cāng)庫(kù)的基本概念 11. 維度模型建設(shè)步驟 |
第四章:范式建模和維度建模的比較 |
1. 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)范式建模和維度建模的引用場(chǎng)景 2. 范式建模解決的問(wèn)題領(lǐng)域 3. 維度建模解決的問(wèn)題領(lǐng)域 4. 關(guān)系建模和維度建模的比較 |
第五章:數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)架構(gòu) |
1. 數(shù)據(jù)倉(cāng)庫(kù)典型架構(gòu)介紹:、ODS層、DW層、DM層 2. 數(shù)據(jù)安全控制 3. ETL任務(wù)調(diào)度 4. 元數(shù)據(jù)管理 |
第六章:數(shù)據(jù)湖設(shè)計(jì)架構(gòu) |
1. 數(shù)據(jù)湖概念介紹 2. 數(shù)據(jù)湖分區(qū)介紹:著落區(qū)、處理區(qū)、表達(dá)去、探索區(qū) 3. 數(shù)據(jù)湖實(shí)現(xiàn)的技術(shù)介紹 4. 數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)之間的關(guān)系 |
第七章:大數(shù)據(jù)平臺(tái)的數(shù)據(jù)架構(gòu) |
1.數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) —離線數(shù)據(jù)接入 —實(shí)時(shí)的數(shù)據(jù)接入 2.數(shù)據(jù)處理過(guò)程 —數(shù)據(jù)的ETL —數(shù)據(jù)分層(ODS、DW和DM等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗(yàn) 3.數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實(shí)時(shí)應(yīng)用 —數(shù)據(jù)實(shí)驗(yàn)室 —數(shù)據(jù)展示工具(BI工具) |
第八章:HIVE數(shù)據(jù)倉(cāng)庫(kù)集群的多維分析建模應(yīng)用實(shí)踐 |
1. 基于Hadoop的大型分布式數(shù)據(jù)倉(cāng)庫(kù)在行業(yè)中的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用案例 2. Hive數(shù)據(jù)倉(cāng)庫(kù)集群的平臺(tái)體系結(jié)構(gòu)、核心技術(shù)剖析 3. Hive Server的工作原理、機(jī)制與應(yīng)用 4. Hive數(shù)據(jù)倉(cāng)庫(kù)集群的安裝部署與配置優(yōu)化 5. Hive應(yīng)用開(kāi)發(fā)技巧 6. Hive SQL剖析與應(yīng)用實(shí)踐 7. Hive數(shù)據(jù)倉(cāng)庫(kù)表與表分區(qū)、表操作、數(shù)據(jù)導(dǎo)入導(dǎo)出 8. Hive數(shù)據(jù)倉(cāng)庫(kù)報(bào)表設(shè)計(jì) 9. Hive數(shù)據(jù)倉(cāng)庫(kù)表的文件格式介紹 10. 基于Hive的數(shù)據(jù)分層實(shí)現(xiàn) (ODS、DW、DWS/B、DM、ST) 11. 公共緯度的設(shè)計(jì) 12. 雜項(xiàng)緯度的設(shè)計(jì) 13. 緯度退化的設(shè)計(jì) 14. 周期快照的設(shè)計(jì) 15. 拉鏈表的設(shè)計(jì) |
第九章:數(shù)據(jù)抽取、采集和整合 |
1. RDBMS導(dǎo)入導(dǎo)出到hadoop數(shù)據(jù)倉(cāng)庫(kù) 2. Sqoop工具介紹和使用 3. DataX工具介紹 4. CDC工具介紹(Oracle OGG和Mysql Binlog) 5. Hadoop數(shù)據(jù)導(dǎo)出到RDBMS介紹和注意點(diǎn) 6. 實(shí)時(shí)非結(jié)構(gòu)化數(shù)據(jù)的采集 7. 從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉(cāng)庫(kù) 8. 基于Hadoop數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分層(ODS、DW、DWS/B、DM、ST) 9. 數(shù)據(jù)倉(cāng)庫(kù)不同層之間的數(shù)據(jù)交互和ETL |
第十章:維度模型實(shí)時(shí)案例分享 |
1. 維度模型設(shè)計(jì)步驟 2. 業(yè)務(wù)主體劃分 3. 維度的一致性與一致性維度 4. 客戶維度模型 5. 合約維度模型 6. 賬戶維度模型 7. 機(jī)構(gòu)維度模型 |
第十一章:基于大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)案例分析 |
1. 互聯(lián)網(wǎng)基于大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)介紹 2. 金融基于大數(shù)據(jù)平臺(tái)建設(shè)數(shù)據(jù)倉(cāng)庫(kù)案例分享 |
第一章:數(shù)據(jù)分析技術(shù)介紹和比較(SQL on Hadoop) M-OLAP分析應(yīng)用場(chǎng)景介紹 1. Kylin實(shí)現(xiàn)M-OALP介紹 2. R-OLAP應(yīng)用分析場(chǎng)景介紹 3. SparkSQL應(yīng)用場(chǎng)景介紹 4. Impala應(yīng)用場(chǎng)景介紹 5. Presto應(yīng)用場(chǎng)景介紹 6. sparkSQL、Impala和Presto之間的比較 7. Elasticsearch應(yīng)用場(chǎng)景介紹 8. ELK應(yīng)用案例介紹和分享 |
第二章:數(shù)據(jù)建模方法介紹(范式模型) 1. 關(guān)系建模概念 2. 為什么要關(guān)系數(shù)據(jù)建模 3. 關(guān)系建模的方法介紹 4. 概念模型 5. 邏輯模型 6. 物理模型 7. Teradata 金融十大模型主題域介紹 8. 關(guān)系建模的應(yīng)用場(chǎng)景 |
第三章:數(shù)據(jù)建模方法介紹(維度模型) 1. 維度建模概念 2. 為什么要維度建模 3. 維度表介紹 4. 維度種類 5. 緩慢變化維處理 6. 快速變化維處理 7. 代理鍵 8. 維度的三種模型介紹:星型模型、雪花模型、多維模型 9. 事實(shí)表的類型 10. 基于維度模型數(shù)據(jù)倉(cāng)庫(kù)的基本概念 11. 維度模型建設(shè)步驟 |
第四章:范式建模和維度建模的比較 1. 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)范式建模和維度建模的引用場(chǎng)景 2. 范式建模解決的問(wèn)題領(lǐng)域 3. 維度建模解決的問(wèn)題領(lǐng)域 4. 關(guān)系建模和維度建模的比較 |
第五章:數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)架構(gòu) 1. 數(shù)據(jù)倉(cāng)庫(kù)典型架構(gòu)介紹:、ODS層、DW層、DM層 2. 數(shù)據(jù)安全控制 3. ETL任務(wù)調(diào)度 4. 元數(shù)據(jù)管理 |
第六章:數(shù)據(jù)湖設(shè)計(jì)架構(gòu) 1. 數(shù)據(jù)湖概念介紹 2. 數(shù)據(jù)湖分區(qū)介紹:著落區(qū)、處理區(qū)、表達(dá)去、探索區(qū) 3. 數(shù)據(jù)湖實(shí)現(xiàn)的技術(shù)介紹 4. 數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)之間的關(guān)系 |
第七章:大數(shù)據(jù)平臺(tái)的數(shù)據(jù)架構(gòu) 1.數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) —離線數(shù)據(jù)接入 —實(shí)時(shí)的數(shù)據(jù)接入 2.數(shù)據(jù)處理過(guò)程 —數(shù)據(jù)的ETL —數(shù)據(jù)分層(ODS、DW和DM等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗(yàn) 3.數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實(shí)時(shí)應(yīng)用 —數(shù)據(jù)實(shí)驗(yàn)室 —數(shù)據(jù)展示工具(BI工具) |
第八章:HIVE數(shù)據(jù)倉(cāng)庫(kù)集群的多維分析建模應(yīng)用實(shí)踐 1. 基于Hadoop的大型分布式數(shù)據(jù)倉(cāng)庫(kù)在行業(yè)中的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用案例 2. Hive數(shù)據(jù)倉(cāng)庫(kù)集群的平臺(tái)體系結(jié)構(gòu)、核心技術(shù)剖析 3. Hive Server的工作原理、機(jī)制與應(yīng)用 4. Hive數(shù)據(jù)倉(cāng)庫(kù)集群的安裝部署與配置優(yōu)化 5. Hive應(yīng)用開(kāi)發(fā)技巧 6. Hive SQL剖析與應(yīng)用實(shí)踐 7. Hive數(shù)據(jù)倉(cāng)庫(kù)表與表分區(qū)、表操作、數(shù)據(jù)導(dǎo)入導(dǎo)出 8. Hive數(shù)據(jù)倉(cāng)庫(kù)報(bào)表設(shè)計(jì) 9. Hive數(shù)據(jù)倉(cāng)庫(kù)表的文件格式介紹 10. 基于Hive的數(shù)據(jù)分層實(shí)現(xiàn) (ODS、DW、DWS/B、DM、ST) 11. 公共緯度的設(shè)計(jì) 12. 雜項(xiàng)緯度的設(shè)計(jì) 13. 緯度退化的設(shè)計(jì) 14. 周期快照的設(shè)計(jì) 15. 拉鏈表的設(shè)計(jì) |
第九章:數(shù)據(jù)抽取、采集和整合 1. RDBMS導(dǎo)入導(dǎo)出到hadoop數(shù)據(jù)倉(cāng)庫(kù) 2. Sqoop工具介紹和使用 3. DataX工具介紹 4. CDC工具介紹(Oracle OGG和Mysql Binlog) 5. Hadoop數(shù)據(jù)導(dǎo)出到RDBMS介紹和注意點(diǎn) 6. 實(shí)時(shí)非結(jié)構(gòu)化數(shù)據(jù)的采集 7. 從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉(cāng)庫(kù) 8. 基于Hadoop數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分層(ODS、DW、DWS/B、DM、ST) 9. 數(shù)據(jù)倉(cāng)庫(kù)不同層之間的數(shù)據(jù)交互和ETL |
第十章:維度模型實(shí)時(shí)案例分享 1. 維度模型設(shè)計(jì)步驟 2. 業(yè)務(wù)主體劃分 3. 維度的一致性與一致性維度 4. 客戶維度模型 5. 合約維度模型 6. 賬戶維度模型 7. 機(jī)構(gòu)維度模型 |
第十一章:基于大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)案例分析 1. 互聯(lián)網(wǎng)基于大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)介紹 2. 金融基于大數(shù)據(jù)平臺(tái)建設(shè)數(shù)據(jù)倉(cāng)庫(kù)案例分享 |