課程簡介
案例背景:
隨著人工智能的普及,機器學習、深度學習已經被廣泛應用于各個行業(yè)。然后數據顯示目前分布式訓練在很多場景下依然面臨復雜度高、訓練效率達不到期望的狀況。分布式訓練的性能優(yōu)化受到了越來越多的關注。華為云Volcano團隊針對GPU利用率低、數據傳輸延遲、節(jié)點計算密度不足等場景進行了優(yōu)化實踐,提供了多種解決方案并取得了實質性的成果。
解決思路:
我們主要針對分布式訓練的特點,主要從調度方面進行了優(yōu)化,提供了組調度、binpack、拓撲調度、GPU共享等多種調度策略,有效縮短了分布式訓練的時間。同時我們增強了分布式訓練作業(yè)的生命周期管理,讓分布式訓練更簡單、更高效。
成果:
優(yōu)化后實際分布式訓練性能提升30%以上
目標收益
1. 機器學習、深度學習平臺優(yōu)化經驗
2. 基于Kubernetes的機器學習平臺調度系統(tǒng)設計經驗
3. 開源社區(qū)運作、參與經驗
培訓對象
課程內容
案例方向
數據商業(yè)化/大數據架構/NLP/人工智能產品落地
案例背景
隨著人工智能的普及,機器學習、深度學習已經被廣泛應用于各個行業(yè)。然后數據顯示目前分布式訓練在很多場景下依然面臨復雜度高、訓練效率達不到期望的狀況。分布式訓練的性能優(yōu)化受到了越來越多的關注。華為云Volcano團隊針對GPU利用率低、數據傳輸延遲、節(jié)點計算密度不足等場景進行了優(yōu)化實踐,提供了多種解決方案并取得了實質性的成果。
收益
1. 機器學習、深度學習平臺優(yōu)化經驗
2. 基于Kubernetes的機器學習平臺調度系統(tǒng)設計經驗
3. 開源社區(qū)運作、參與經驗
解決思路
我們主要針對分布式訓練的特點,主要從調度方面進行了優(yōu)化,提供了組調度、binpack、拓撲調度、GPU共享等多種調度策略,有效縮短了分布式訓練的時間。同時我們增強了分布式訓練作業(yè)的生命周期管理,讓分布式訓練更簡單、更高效。
結果
優(yōu)化后實際分布式訓練性能提升30%以上