如果要評(píng)選世界上壓力最大的工作,那么運(yùn)維管理估計(jì)會(huì)大概率的入圍。
人們形容運(yùn)維人的工作日常:不是在解決問(wèn)題就是在解決問(wèn)題的路上。以至于運(yùn)維人自己也感嘆干的工作是操著賣白fen的心、賺著賣白菜的錢……
運(yùn)維工作有多難?來(lái)通過(guò)一個(gè)真實(shí)案例直觀感受一下。
某大型汽車集團(tuán),在全球汽車行業(yè)排名前列,不僅部署了Tivoli、SAP、EP、SDAP等眾多軟件,還應(yīng)用了Zabbix等諸多開源軟件;隨著云計(jì)算的普及,該集團(tuán)還將部分業(yè)務(wù)部署在公有云之中。數(shù)據(jù)量龐大且類型豐富,復(fù)雜的多云環(huán)境,繁多的監(jiān)控運(yùn)維工具,超級(jí)多的無(wú)效運(yùn)維事件,讓該集團(tuán)運(yùn)維工作挑戰(zhàn)巨大,運(yùn)維人員日常工作中如坐針氈,“惶惶不可終日”。
類似情況在其他企業(yè)比比皆是。同為打工人,運(yùn)維人不該被這樣對(duì)待。如何改變這種局面?近年來(lái),智能運(yùn)維異軍突起,成為解救企業(yè)和運(yùn)維人員的及時(shí)雨。
智能運(yùn)維,即通過(guò)結(jié)合大數(shù)據(jù)和機(jī)器學(xué)習(xí)等相關(guān)技術(shù),以數(shù)據(jù)采集與分析各種數(shù)據(jù)支持所有主要的IT運(yùn)營(yíng)功能,將徹底改變過(guò)去傳統(tǒng)運(yùn)維的種種詬病,被認(rèn)為既是解放運(yùn)維人員的救星,也可為眾多企業(yè)的數(shù)字化轉(zhuǎn)型保駕護(hù)航。
運(yùn)維為何就這么難
在當(dāng)下,很多企業(yè)經(jīng)過(guò)多年數(shù)字化建設(shè),通過(guò)整合監(jiān)控與告警、與ITSM集成、自動(dòng)化運(yùn)維,基本建成了包含“監(jiān)控、管理、控制”三大維度的運(yùn)維體系。但這種典型的傳統(tǒng)運(yùn)維體系卻是大而不強(qiáng)、全而不準(zhǔn)。
究其原因,它是時(shí)間的產(chǎn)物,伴隨著企業(yè)數(shù)字化建設(shè)的進(jìn)程而逐漸搭建起的,缺乏頂層設(shè)計(jì)和全局視角,更像是眾多工具與產(chǎn)品的堆砌。由于底層數(shù)據(jù)并未徹底打通,導(dǎo)致工具與工具、方案與方案彼此之間并不存在強(qiáng)邏輯聯(lián)系,依然是以“各自為政”為主。
以監(jiān)控維度為例,在運(yùn)維界有句老話:監(jiān)控先行。整個(gè)集中監(jiān)控體系的構(gòu)建,從最早的網(wǎng)絡(luò)管理,到后續(xù)的數(shù)據(jù)庫(kù)/數(shù)據(jù)庫(kù)管理、存儲(chǔ)/服務(wù)器管理,再到之后的虛擬化/云管理,才逐漸形成集中監(jiān)控體系,通過(guò)不同的監(jiān)控工具來(lái)實(shí)現(xiàn)這些平臺(tái)的實(shí)時(shí)告警查看和平臺(tái)優(yōu)化建議。但現(xiàn)實(shí)中,這種監(jiān)控體系卻無(wú)法覆蓋與打通鏈路監(jiān)控(Traces)、指標(biāo)監(jiān)控(Metrics)和日志監(jiān)控(Logs)全部運(yùn)維數(shù)據(jù),不能構(gòu)建起面向業(yè)務(wù)自上而下的監(jiān)控全覆蓋。
監(jiān)控體系自身尚且如此,監(jiān)控與管理、控制之間就更缺乏全鏈路的聯(lián)動(dòng)。這些情況直接導(dǎo)致了當(dāng)前很多企業(yè)在運(yùn)維上面臨著運(yùn)維數(shù)據(jù)范圍不足、告警泛濫、根因分析定位難、缺少全鏈路聯(lián)動(dòng)分析等情況。
首先,企業(yè)數(shù)字化轉(zhuǎn)型的進(jìn)程中,面臨著IT環(huán)境日趨復(fù)雜、應(yīng)用大量增加、設(shè)備種類繁多等情況。Gartner就預(yù)測(cè)設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)量正以每年2-3倍的速度增長(zhǎng),且數(shù)據(jù)類型多樣。另一方面,業(yè)務(wù)和環(huán)境的復(fù)雜性也讓運(yùn)維對(duì)象、數(shù)據(jù)與指標(biāo)覆蓋不足,運(yùn)維數(shù)據(jù)范圍不足造成故障發(fā)生前缺少健康度洞察,難以提前預(yù)測(cè)故障事件。
其次,大量設(shè)備與應(yīng)用,各種各樣的監(jiān)控工具,讓監(jiān)控對(duì)象條目過(guò)多、告警數(shù)量多造成當(dāng)故障事件發(fā)生時(shí),告警泛濫,誤報(bào)、漏報(bào)情況嚴(yán)重,難以實(shí)現(xiàn)精準(zhǔn)告警。更加致命的是,故障事件發(fā)生之后,基于告警的機(jī)制很難有效定位問(wèn)題,缺少調(diào)用鏈信息,難以定位到服務(wù)和請(qǐng)求類的根本原因。
另外,業(yè)務(wù)依賴關(guān)系復(fù)雜也造成了整個(gè)運(yùn)維缺少全局運(yùn)維視圖,跨多系統(tǒng)的運(yùn)維無(wú)法聯(lián)動(dòng),單業(yè)務(wù)系統(tǒng)內(nèi)部的服務(wù)調(diào)用請(qǐng)求難以分析。
“傳統(tǒng)運(yùn)維是建立在CMDB的基礎(chǔ)之上,CMDB自身的限制性、時(shí)效性、可維護(hù)性、復(fù)雜性等決定了其無(wú)法給運(yùn)維人員呈現(xiàn)不同運(yùn)維工具之間的監(jiān)控關(guān)系。”愛數(shù)運(yùn)維技術(shù)專家透露道。
因此,智能運(yùn)維開始呼之欲出,也即現(xiàn)在流行的AIOps。Gartner認(rèn)為,AIOps將跨平臺(tái)的數(shù)據(jù)鏈進(jìn)行打通與集成,通過(guò)機(jī)器學(xué)習(xí)和大數(shù)據(jù)等技術(shù),讓運(yùn)維獲得主動(dòng)、個(gè)性化和動(dòng)態(tài)的洞察力,從而支撐起所有IT運(yùn)營(yíng)的功能。Gartner并預(yù)測(cè)到2022年,有40%的大型企業(yè)將會(huì)進(jìn)行部署AIOps平臺(tái)。
智能運(yùn)維雖好,卻也有一個(gè)很現(xiàn)實(shí)的問(wèn)題,即全球沒(méi)有一家公司的產(chǎn)品可以覆蓋全部數(shù)據(jù)范圍來(lái)幫助用戶構(gòu)建智能運(yùn)維中心。借助生態(tài)的力量,廠商與廠商在產(chǎn)品、技術(shù)以及方案層面的打通與聯(lián)動(dòng)就成為當(dāng)前智能運(yùn)維最重要的發(fā)展方向。例如,愛數(shù)與聽云在今年的戰(zhàn)略合作就開啟了智能運(yùn)維方案打造的新思路。
如何讓智能運(yùn)維1+1>2
愛數(shù)與聽云在智能運(yùn)維領(lǐng)域開啟了新模式。今年1月份,雙方攜手正式推出了智能運(yùn)維整合方案,旨在幫助客戶全面管理、深度洞察海量、多源、異構(gòu)的機(jī)器數(shù)據(jù)。
具體來(lái)看,中國(guó)用戶對(duì)于這種智能運(yùn)維整合方案需求更加迫切。中國(guó)企業(yè)的業(yè)務(wù)規(guī)模性和復(fù)雜性在全球無(wú)出其右,帶來(lái)了對(duì)于日益主動(dòng)的IT運(yùn)營(yíng)、更加細(xì)化的成本優(yōu)化目標(biāo)和質(zhì)量期望、更加快速的故障響應(yīng)與處理、更加穩(wěn)定的業(yè)務(wù)持續(xù)性等運(yùn)維需求。
在雙方的整合方案中,愛數(shù)聚焦在智能運(yùn)維領(lǐng)域多年,擁有深厚的技術(shù)積累和豐富的實(shí)踐經(jīng)驗(yàn),其AnyRobot是一款開放、高效、經(jīng)濟(jì)的機(jī)器數(shù)據(jù)分析平臺(tái);而聽云是國(guó)內(nèi)唯一一家連續(xù)多年入選Gartner APM魔力象限的廠商,主要聚焦在應(yīng)用性能管理和用戶體驗(yàn)優(yōu)化。
愛數(shù)AnyRobot主要聚焦指標(biāo)監(jiān)控(Metrics)和日志監(jiān)控(Logs)數(shù)據(jù),而聽云智能監(jiān)控產(chǎn)品主要聚焦鏈路監(jiān)控(Traces)、指標(biāo)監(jiān)控(Metrics)數(shù)據(jù),雙方聯(lián)合方案則實(shí)現(xiàn)了全方位接入企業(yè)各維度機(jī)器數(shù)據(jù),可以全方位提高客戶運(yùn)維效率,驅(qū)動(dòng)組織業(yè)務(wù)運(yùn)營(yíng)創(chuàng)新。
聽云與愛數(shù)簽署戰(zhàn)略合作
例如,該智能運(yùn)維整體方案可以實(shí)現(xiàn)日志溯源與智能分析,通過(guò)運(yùn)維數(shù)據(jù)間開放集成,AnyRobot實(shí)時(shí)采集業(yè)務(wù)應(yīng)用及其底層基礎(chǔ)設(shè)施的日志數(shù)據(jù),與聽云APM應(yīng)用性能監(jiān)控?cái)?shù)據(jù)進(jìn)行開放共享,對(duì)用戶業(yè)務(wù)系統(tǒng)的機(jī)器數(shù)據(jù)進(jìn)行統(tǒng)一管理。在運(yùn)維故障分析過(guò)程中,可直接追蹤事件發(fā)生過(guò)程,一鍵定位故障根源,確保業(yè)務(wù)運(yùn)營(yíng)高效運(yùn)行,并提供端到端的完整應(yīng)用性能優(yōu)化方案,提升用戶體驗(yàn)。
另外,該智能運(yùn)維整體方案還可以對(duì)配置的日志告警數(shù)據(jù)和性能監(jiān)控?cái)?shù)據(jù)進(jìn)行綜合分析,避免重復(fù)告警;并增加智能告警算法,根據(jù)告警歷史數(shù)據(jù)進(jìn)行智能檢測(cè),從而提高告警準(zhǔn)確性,縮短故障發(fā)現(xiàn)時(shí)間、減少誤報(bào)漏報(bào)、提升故障修復(fù)效率。
與此同時(shí),除了監(jiān)控之外,愛數(shù)與聽云產(chǎn)品的開放性,也保證了解決方案可以跟ITSM和自動(dòng)化運(yùn)維平臺(tái)之間進(jìn)行打通與聯(lián)動(dòng)。
某種程度來(lái)看,愛數(shù)與聽云走到一起,就是在幫助用戶打通過(guò)去傳統(tǒng)運(yùn)維的種種“壁壘”,讓運(yùn)維數(shù)據(jù)、工具、平臺(tái)可以實(shí)現(xiàn)打通與聯(lián)通,讓運(yùn)維真正成為一盤棋。與此同時(shí),雙方合作也揭示運(yùn)維平臺(tái)未來(lái)的發(fā)展趨勢(shì)。
運(yùn)維平臺(tái)趨勢(shì):開放、高效、經(jīng)濟(jì)
隨著大部分企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,業(yè)務(wù)數(shù)字化程度不斷提升,運(yùn)維所面臨的復(fù)雜性、多樣性將會(huì)只增不減。由于運(yùn)維所涉及的相關(guān)領(lǐng)域與內(nèi)容實(shí)在是太過(guò)于廣泛,未來(lái)也不能一家公司就可以徹底搞定,所以在業(yè)務(wù)復(fù)雜性不斷提升的趨勢(shì)下,運(yùn)維平臺(tái)走向開放、高效與經(jīng)濟(jì)乃是大勢(shì)所趨。
以愛數(shù)AnyRobot機(jī)器數(shù)據(jù)分析平臺(tái)為例,其產(chǎn)品從設(shè)計(jì)開始就聚焦了開放、高效、經(jīng)濟(jì)三個(gè)核心特征。
在開放性方面,愛數(shù)AnyRobot采用了創(chuàng)新Hub架構(gòu),實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)、多機(jī)器數(shù)據(jù)平臺(tái)的統(tǒng)一納管,可以讓用戶具備更多機(jī)器數(shù)據(jù)接入的能力,同時(shí)機(jī)器數(shù)據(jù)接入之后,實(shí)現(xiàn)統(tǒng)一的機(jī)器數(shù)據(jù)分析平臺(tái)和通用的數(shù)據(jù)消費(fèi)能力。
開放性給運(yùn)維帶來(lái)何種好處?舉個(gè)例子,金融、電信、能源、互聯(lián)網(wǎng)等行業(yè)的眾多用戶,在底層數(shù)據(jù)分析平臺(tái)上采用了開源數(shù)據(jù)分析平臺(tái)ELK或商業(yè)數(shù)據(jù)分析平臺(tái)Splunk,并且運(yùn)行多年,與各個(gè)業(yè)務(wù)捆綁緊密。隨著技術(shù)的發(fā)展,安全審計(jì)等的要求,僅僅依靠ELK或者Splunk已不能完全符合用戶的真實(shí)需求,愛數(shù)AnyRobot的Hub架構(gòu)讓與ELK、Splunk等共同服務(wù)用戶的機(jī)器數(shù)據(jù)的采集、存儲(chǔ)和分析。
此外,在高效層面,愛數(shù)AnyRobot還采用了小程序架構(gòu),讓用戶更好地獲取應(yīng)用分析App的能力;在經(jīng)濟(jì)層面,愛數(shù)AnyRobot采用了存算分離架構(gòu),實(shí)現(xiàn)計(jì)算與存儲(chǔ)分離,同時(shí)計(jì)算可以實(shí)現(xiàn)完全的彈性擴(kuò)展,最大限度的為用戶節(jié)省各種資源。
從長(zhǎng)遠(yuǎn)來(lái)看,開放、高效、經(jīng)濟(jì)的運(yùn)維平臺(tái)也是最符合企業(yè)用戶對(duì)于運(yùn)維的要求。未來(lái),隨著企業(yè)數(shù)字化轉(zhuǎn)型的深入,以及像愛數(shù)、聽云這些中國(guó)智能運(yùn)維廠商利用生態(tài)不斷完善聯(lián)合解決方案,中國(guó)用戶有望得到更加出色的智能運(yùn)維產(chǎn)品與服務(wù)。