RIIL綜合業(yè)務(wù)運維管理平臺建設(shè)目的意在構(gòu)造一體化、全流程、可視化的綜合業(yè)務(wù)運維管理平臺,通過這一管理平臺,把機房動力環(huán)境監(jiān)控、基礎(chǔ)硬件設(shè)備監(jiān)控等全部納入到統(tǒng)一平臺中進行監(jiān)視和管理,建立全面的資源配置信息庫和監(jiān)視信息庫,挖掘不同系統(tǒng)間的關(guān)聯(lián)關(guān)系。通過運維管理平臺進行深入的故障相關(guān)性分析,及時有效地提供綜合統(tǒng)計分析報表,提升現(xiàn)有的運行管理水平,從目前的被動應(yīng)對轉(zhuǎn)變成主動監(jiān)視、主動管理,有效地提升運維人員的工作效率,提高關(guān)鍵應(yīng)用的可用性,減少處理故障時間,預(yù)防問題發(fā)生,為業(yè)務(wù)正常開展提供有力保障。
運維團隊核心關(guān)鍵目標(biāo)是,保障各類業(yè)務(wù)的持續(xù)穩(wěn)定運行。為了達成這樣的目標(biāo),客戶往往會部署四項核心關(guān)鍵的工作來支撐,分別是:風(fēng)險預(yù)防管理(我們熟悉的巡檢)、監(jiān)控與告警管理(每個客戶都會采購或自研監(jiān)控系統(tǒng)來確保發(fā)現(xiàn)問題)、故障和問題的處理(快速的定位和解決問題)以及應(yīng)急響應(yīng)與演練(減少重復(fù)和災(zāi)難性的問題帶來的危害),以此來減少或降低故障的發(fā)生次數(shù),及時處理掉已發(fā)生的故障,并盡可能降低對業(yè)務(wù)的影響。
但是,隨著信息化大量建設(shè)、以及數(shù)字化轉(zhuǎn)型,運維團隊面臨著巨大的挑戰(zhàn):
1、大量優(yōu)先網(wǎng)絡(luò)、無線網(wǎng)絡(luò)、虛擬化網(wǎng)絡(luò)的大范圍建設(shè):云、虛擬化帶來的IT基礎(chǔ)資源規(guī)模化、爆發(fā)式的增長,且呈現(xiàn)出敏捷遷移、動態(tài)變化的現(xiàn)象,導(dǎo)致運維人員從以前上百臺設(shè)備的管理到現(xiàn)在幾千臺設(shè)備的管理,同時,資源從穩(wěn)態(tài)向動態(tài)的變化導(dǎo)致監(jiān)控盲區(qū)增加,IT資源的狀態(tài)、故障無法及時快速感知。
2、大量業(yè)務(wù)系統(tǒng)的建設(shè):以前基本上都是單機應(yīng)用,如前些年的SOA(面向服務(wù)架構(gòu),多系統(tǒng)集成調(diào)用),而這些年則以微服務(wù)化為主,這種變遷導(dǎo)致應(yīng)用系統(tǒng)架構(gòu)復(fù)雜度極具增加,結(jié)合IT資源的動態(tài)性,運維團隊對于復(fù)雜業(yè)務(wù)系統(tǒng)的故障排查變得異常困難,未來,整個變化還會延續(xù)。
3、數(shù)字化轉(zhuǎn)型使得IT業(yè)務(wù)系統(tǒng)對企業(yè)或組織的經(jīng)營起到了關(guān)鍵的支撐價值,從前整合運維的壓力更關(guān)注設(shè)備穩(wěn)定運,而現(xiàn)在必須要考慮用戶體驗,因為IT的核心價值就是支撐業(yè)務(wù)用戶。但當(dāng)前運維團隊并沒有特好的手段來感知用戶體驗,進而優(yōu)化用戶體驗,導(dǎo)致當(dāng)下用戶的體驗不可控,抱怨日益增加。
RIIL新一代智能運維平臺,我們希望幫助用戶構(gòu)建“先見先行”的運維數(shù)據(jù)洞察能力。
1、通過多源運維數(shù)據(jù)的接入,將各類運維數(shù)據(jù)實現(xiàn)統(tǒng)一納管,無論是IT資源的原始指標(biāo)數(shù)據(jù)、模擬用戶的撥測數(shù)據(jù),還是第三方系統(tǒng)的監(jiān)控數(shù)據(jù)、自動化腳本的執(zhí)行數(shù)據(jù)等,均能實現(xiàn)全量的統(tǒng)一存儲。
2、所有的數(shù)據(jù)之間都是有關(guān)系的,以業(yè)務(wù)系統(tǒng)為例,會有依賴支撐關(guān)系,以網(wǎng)絡(luò)為例,會有網(wǎng)絡(luò)連接關(guān)系等,因此通過對這些數(shù)據(jù)間的復(fù)雜關(guān)系自動感知與發(fā)現(xiàn),形成運維的知識圖譜(比如我們的城市地圖,所有的公路之間都是有鏈接的,我們用高德地圖首先看到的是一張連通的關(guān)系網(wǎng))。
3、無論是用戶發(fā)起對業(yè)務(wù)系統(tǒng)的訪問,還是用戶間的數(shù)據(jù)交換,核心就是找到一條最優(yōu)的網(wǎng)絡(luò)路徑從A點到B點,類似我們在高德中從北京翠微大廈要去天安門,可能有三條路,高德會自動計算一條最優(yōu)的路徑(網(wǎng)絡(luò)也是如此),所以通過對于數(shù)據(jù)轉(zhuǎn)發(fā)的真實路徑洞察,就可以幫助運維快速準(zhǔn)確地識別到端到端的數(shù)據(jù)轉(zhuǎn)發(fā)路徑,來支撐到故障的定界、定位。
最后,這條路徑上,到底哪些節(jié)點不通了,哪些節(jié)點變慢了,我們通過指標(biāo)體系的方式、幫助運維快速定位到具體的節(jié)點,從而實現(xiàn)故障的深度分析和定位(類似我們看到高德中,哪些地點交通管制了,哪些地點出車禍了,哪些地方塞車了等等)。
結(jié)合對于多元數(shù)據(jù)的統(tǒng)一接入,對于運維圖譜的構(gòu)建以及真實數(shù)據(jù)路徑的洞察和指標(biāo)評價體系的構(gòu)建,幫助運維講分散的數(shù)據(jù)轉(zhuǎn)化為具備高消費價值的信息與知識,來支撐運維故障隱患的“先見”、處置防范的”先行“。