架構(gòu)師
互聯(lián)網(wǎng)
架構(gòu)設(shè)計(jì)
DevOps
運(yùn)維
數(shù)據(jù)庫
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

百度智能運(yùn)維AIOps專場

百度 智能運(yùn)維AIOps團(tuán)隊(duì)

曾國偉,百度資深數(shù)據(jù)庫架構(gòu)師、資深研發(fā)工程師,私有云數(shù)據(jù)庫技術(shù)負(fù)責(zé)人,主導(dǎo)百度泛數(shù)據(jù)庫運(yùn)維框架構(gòu)建。2012年入職百度,先后負(fù)責(zé)百度分布式數(shù)據(jù)庫運(yùn)維,數(shù)據(jù)庫高可用、資源管理等技術(shù)方向,百度公有云數(shù)據(jù)庫開發(fā),私有云數(shù)據(jù)庫的架構(gòu)設(shè)計(jì)與開發(fā)工作。
王博,先后參與異常檢測系統(tǒng)、報(bào)警收斂、故障診斷等相關(guān)工作。目前是異常檢測系統(tǒng)的技術(shù)負(fù)責(zé)人。
王藝,智能運(yùn)維團(tuán)隊(duì)架構(gòu)負(fù)責(zé)人。先后負(fù)責(zé)百度鏈接庫、百度志愿計(jì)算、百度統(tǒng)一資源管理的研發(fā),經(jīng)歷過千億級(jí)鏈接的洗禮,也調(diào)度過數(shù)十萬量級(jí)的服務(wù)器,熱衷于直面架構(gòu)技術(shù)挑戰(zhàn),在分布式計(jì)算,分布式資源、任務(wù)調(diào)度方面經(jīng)驗(yàn)豐富。
哈晶晶, 百度智能云架構(gòu)師。先后負(fù)責(zé)服務(wù)管理、資源管理、變更管理、故障管理的業(yè)務(wù)分析和架構(gòu)設(shè)計(jì)工作,熱衷于基礎(chǔ)運(yùn)維平臺(tái)和智能運(yùn)維解決方案的探索。當(dāng)前主要關(guān)注支持百度搜索、廣告、FEED流等核心業(yè)務(wù)故障發(fā)現(xiàn)、定位和自愈解決方案,推進(jìn)AIOps應(yīng)用落地。

曾國偉,百度資深數(shù)據(jù)庫架構(gòu)師、資深研發(fā)工程師,私有云數(shù)據(jù)庫技術(shù)負(fù)責(zé)人,主導(dǎo)百度泛數(shù)據(jù)庫運(yùn)維框架構(gòu)建。2012年入職百度,先后負(fù)責(zé)百度分布式數(shù)據(jù)庫運(yùn)維,數(shù)據(jù)庫高可用、資源管理等技術(shù)方向,百度公有云數(shù)據(jù)庫開發(fā),私有云數(shù)據(jù)庫的架構(gòu)設(shè)計(jì)與開發(fā)工作。 王博,先后參與異常檢測系統(tǒng)、報(bào)警收斂、故障診斷等相關(guān)工作。目前是異常檢測系統(tǒng)的技術(shù)負(fù)責(zé)人。 王藝,智能運(yùn)維團(tuán)隊(duì)架構(gòu)負(fù)責(zé)人。先后負(fù)責(zé)百度鏈接庫、百度志愿計(jì)算、百度統(tǒng)一資源管理的研發(fā),經(jīng)歷過千億級(jí)鏈接的洗禮,也調(diào)度過數(shù)十萬量級(jí)的服務(wù)器,熱衷于直面架構(gòu)技術(shù)挑戰(zhàn),在分布式計(jì)算,分布式資源、任務(wù)調(diào)度方面經(jīng)驗(yàn)豐富。 哈晶晶, 百度智能云架構(gòu)師。先后負(fù)責(zé)服務(wù)管理、資源管理、變更管理、故障管理的業(yè)務(wù)分析和架構(gòu)設(shè)計(jì)工作,熱衷于基礎(chǔ)運(yùn)維平臺(tái)和智能運(yùn)維解決方案的探索。當(dāng)前主要關(guān)注支持百度搜索、廣告、FEED流等核心業(yè)務(wù)故障發(fā)現(xiàn)、定位和自愈解決方案,推進(jìn)AIOps應(yīng)用落地。

課程費(fèi)用

6800.00 /人

課程時(shí)長

3小時(shí)

成為教練

課程簡介

一、《百度云金融級(jí)數(shù)據(jù)庫高可用保障》
數(shù)據(jù)庫的高可用和數(shù)據(jù)一致性一直是業(yè)務(wù)對數(shù)據(jù)庫的強(qiáng)需求,在金融級(jí)業(yè)務(wù)場景下更為突出。本演講為各位分享百度多年積累的數(shù)據(jù)庫高可用經(jīng)驗(yàn)和架構(gòu)設(shè)計(jì),介紹百度云如何快速、準(zhǔn)確地感知故障,并進(jìn)行故障恢復(fù),盡可能地降低數(shù)據(jù)庫服務(wù)故障的RTO、RPO,為百度云支撐金融級(jí)業(yè)務(wù)數(shù)據(jù)庫服務(wù)保駕護(hù)航。
二、《百度海量指標(biāo)異常檢測設(shè)計(jì)與實(shí)踐》
自動(dòng)異常檢測是智能監(jiān)控系統(tǒng)的精髓所在。百度的業(yè)務(wù)種類繁多,業(yè)務(wù)的監(jiān)控需求也不盡相同,面對監(jiān)控系統(tǒng)所采集的數(shù)以億計(jì)的監(jiān)控指標(biāo),如何能夠?qū)崿F(xiàn)全自動(dòng)化的異常檢測,是一個(gè)巨大的挑戰(zhàn)。怎樣支持百度各類業(yè)務(wù)的流量、收入、PVLOST、響應(yīng)時(shí)間等業(yè)務(wù)指標(biāo)監(jiān)測?如何解決海量指標(biāo)的自動(dòng)算法選擇與參數(shù)自動(dòng)訓(xùn)練問題?這次演講,我們將介紹百度自動(dòng)異常檢測系統(tǒng)面臨的主要挑戰(zhàn),在各種典型場景下的智能異常檢測算法以及系統(tǒng)架構(gòu)和策略模型。此外,我們不僅會(huì)展示百度自動(dòng)異常檢測系統(tǒng)在實(shí)際場景中的良好效果,還會(huì)開放一個(gè)試用的站點(diǎn),歡迎大家申請?jiān)囉谩?br /> 三、《AIOps平臺(tái)架構(gòu)實(shí)踐》
AIOps近年來已經(jīng)逐漸代替DevOps,成為運(yùn)維領(lǐng)域最具曝光度的名詞。本次分享將從百度智能運(yùn)維的整體架構(gòu)開始,按照數(shù)據(jù)流和控制流兩條線,介紹百度在智能運(yùn)維研發(fā)領(lǐng)域的工程經(jīng)驗(yàn),討論如何以可擴(kuò)展的方式,將人的智慧融入到運(yùn)維系統(tǒng)當(dāng)中。
四、《基于AIOps的故障自愈實(shí)踐》
在業(yè)務(wù)規(guī)模龐大、架構(gòu)復(fù)雜,迭代速度快、服務(wù)可用性要求高的背景下,故障處理對運(yùn)維人員的挑戰(zhàn)與日俱增,故障處理的質(zhì)量和效率不但影響業(yè)務(wù)的可用性還影響運(yùn)維人員工作的幸福度。百度在2014年開始智能故障處理的探索,制定了一套基于AIOps的故障自愈方案,提高故障處理可靠性,同時(shí)降低故障時(shí)間。此方案在百度內(nèi)部應(yīng)用廣泛,在搜索、廣告、FEED流、地圖、AI等核心業(yè)務(wù)均取得了較好應(yīng)用效果。本次分享將介紹百度故障處理從人工處理、工具輔助、部分自動(dòng)化、有條件的自動(dòng)化到高度自動(dòng)化的演進(jìn)過程,并且以單機(jī)器、單實(shí)例、單集群和全局故障場景為例分享百度故障自愈實(shí)踐。

目標(biāo)收益

培訓(xùn)對象

課程內(nèi)容

一、《百度云金融級(jí)數(shù)據(jù)庫高可用保障》
數(shù)據(jù)庫的高可用和數(shù)據(jù)一致性一直是業(yè)務(wù)對數(shù)據(jù)庫的強(qiáng)需求,在金融級(jí)業(yè)務(wù)場景下更為突出。本演講為各位分享百度多年積累的數(shù)據(jù)庫高可用經(jīng)驗(yàn)和架構(gòu)設(shè)計(jì),介紹百度云如何快速、準(zhǔn)確地感知故障,并進(jìn)行故障恢復(fù),盡可能地降低數(shù)據(jù)庫服務(wù)故障的RTO、RPO,為百度云支撐金融級(jí)業(yè)務(wù)數(shù)據(jù)庫服務(wù)保駕護(hù)航。
二、《百度海量指標(biāo)異常檢測設(shè)計(jì)與實(shí)踐》
自動(dòng)異常檢測是智能監(jiān)控系統(tǒng)的精髓所在。百度的業(yè)務(wù)種類繁多,業(yè)務(wù)的監(jiān)控需求也不盡相同,面對監(jiān)控系統(tǒng)所采集的數(shù)以億計(jì)的監(jiān)控指標(biāo),如何能夠?qū)崿F(xiàn)全自動(dòng)化的異常檢測,是一個(gè)巨大的挑戰(zhàn)。怎樣支持百度各類業(yè)務(wù)的流量、收入、PVLOST、響應(yīng)時(shí)間等業(yè)務(wù)指標(biāo)監(jiān)測?如何解決海量指標(biāo)的自動(dòng)算法選擇與參數(shù)自動(dòng)訓(xùn)練問題?這次演講,我們將介紹百度自動(dòng)異常檢測系統(tǒng)面臨的主要挑戰(zhàn),在各種典型場景下的智能異常檢測算法以及系統(tǒng)架構(gòu)和策略模型。此外,我們不僅會(huì)展示百度自動(dòng)異常檢測系統(tǒng)在實(shí)際場景中的良好效果,還會(huì)開放一個(gè)試用的站點(diǎn),歡迎大家申請?jiān)囉谩?br /> 三、《AIOps平臺(tái)架構(gòu)實(shí)踐》
AIOps近年來已經(jīng)逐漸代替DevOps,成為運(yùn)維領(lǐng)域最具曝光度的名詞。本次分享將從百度智能運(yùn)維的整體架構(gòu)開始,按照數(shù)據(jù)流和控制流兩條線,介紹百度在智能運(yùn)維研發(fā)領(lǐng)域的工程經(jīng)驗(yàn),討論如何以可擴(kuò)展的方式,將人的智慧融入到運(yùn)維系統(tǒng)當(dāng)中。
四、《基于AIOps的故障自愈實(shí)踐》
在業(yè)務(wù)規(guī)模龐大、架構(gòu)復(fù)雜,迭代速度快、服務(wù)可用性要求高的背景下,故障處理對運(yùn)維人員的挑戰(zhàn)與日俱增,故障處理的質(zhì)量和效率不但影響業(yè)務(wù)的可用性還影響運(yùn)維人員工作的幸福度。百度在2014年開始智能故障處理的探索,制定了一套基于AIOps的故障自愈方案,提高故障處理可靠性,同時(shí)降低故障時(shí)間。此方案在百度內(nèi)部應(yīng)用廣泛,在搜索、廣告、FEED流、地圖、AI等核心業(yè)務(wù)均取得了較好應(yīng)用效果。本次分享將介紹百度故障處理從人工處理、工具輔助、部分自動(dòng)化、有條件的自動(dòng)化到高度自動(dòng)化的演進(jìn)過程,并且以單機(jī)器、單實(shí)例、單集群和全局故障場景為例分享百度故障自愈實(shí)踐。

課程費(fèi)用

6800.00 /人

課程時(shí)長

3小時(shí)

預(yù)約體驗(yàn)票 我要分享

近期公開課推薦

近期公開課推薦

活動(dòng)詳情

提交需求