是不是運(yùn)維自動(dòng)化系統(tǒng)引入一些智能化的算法就算是智能運(yùn)維系統(tǒng)呢?個(gè)人觀點(diǎn)看,不是的。今天老白和大家一起探討一下智能化運(yùn)維系統(tǒng),從系統(tǒng)建設(shè)的思路上看,如果還是沿用傳統(tǒng)運(yùn)維自動(dòng)化系統(tǒng)的建設(shè)模式去建設(shè)智能化運(yùn)維系統(tǒng),那么可能無法發(fā)揮智能化的優(yōu)勢。
我們以前都習(xí)慣于采用網(wǎng)管式的運(yùn)維模式進(jìn)行系統(tǒng)運(yùn)維,傳統(tǒng)的運(yùn)維自動(dòng)化工具包括Openview、Tivoli、bmc potral等都屬于此類的工具。而隨著IT運(yùn)維需求的不斷演進(jìn),傳統(tǒng)的網(wǎng)管式運(yùn)維方式已經(jīng)無法滿足我們的要求了,因此近些年智能化運(yùn)維的需求越來越迫切?,F(xiàn)在很多企業(yè)都在開發(fā)智能化運(yùn)維系統(tǒng),但是什么樣的系統(tǒng)才算是智能運(yùn)維系統(tǒng)呢?里面用了一些LSTM、隨機(jī)森林這樣的算法的系統(tǒng)就算是智能運(yùn)維系統(tǒng)?以前的用了一些均方差,平均值的系統(tǒng)就只能算傳統(tǒng)運(yùn)維自動(dòng)化系統(tǒng)?似乎答案并不是那么簡單的,而且似乎也沒有什么標(biāo)準(zhǔn)化的答案。
傳統(tǒng)的基于網(wǎng)管思想的運(yùn)維自動(dòng)化系統(tǒng)是需要人去盯著看的,因?yàn)槌讼到y(tǒng)宕了無法訪問了,運(yùn)維自動(dòng)化系統(tǒng)可以發(fā)出明確的報(bào)警之外,其他的一些異常只能通過基線預(yù)警、日志告警等方式做出一些預(yù)警。這些預(yù)警到底會(huì)不會(huì)對(duì)系統(tǒng)產(chǎn)生十分嚴(yán)重的影響,會(huì)不會(huì)導(dǎo)致業(yè)務(wù)連續(xù)性的問題或者引起系統(tǒng)性能問題,影響最終用戶的體驗(yàn),這一切系統(tǒng)都無法給你一個(gè)明確的答案。因此我們需要有人去看,去分析。因此這些運(yùn)維自動(dòng)化系統(tǒng)往往提供了大量的十分漂亮的可視化界面,可以將系統(tǒng)的各種指標(biāo)、狀態(tài)等以最便于運(yùn)維人員查看的方式組織起來,在屏幕上直觀展示,而分析系統(tǒng)有沒有問題完全依靠看這些屏幕的人。隨著企業(yè)信息系統(tǒng)規(guī)模的不斷膨脹,這種運(yùn)維模式已經(jīng)難以為繼了。比如一個(gè)智能工廠,在兩年前的服務(wù)器數(shù)量才不到200臺(tái),而最近兩年這個(gè)數(shù)量擴(kuò)大了10倍。以前很多企業(yè)都要求做機(jī)房巡檢,每天要做三次人工巡檢。隨著企業(yè)數(shù)據(jù)中心的不斷擴(kuò)大,機(jī)房數(shù)量也從十來個(gè)變成幾百個(gè),而且可能機(jī)房跨越多座建筑物,如果一個(gè)運(yùn)維人員做一次人工機(jī)房巡檢,一個(gè)上午基本上也差不多報(bào)銷了。解決這個(gè)問題的方法很簡單,使用機(jī)房巡檢機(jī)器人或者攝像頭傳感器系統(tǒng)就可以了。運(yùn)維自動(dòng)化系統(tǒng)也是如此,很多企業(yè)需要做系統(tǒng)日檢,每天一上班,運(yùn)維人員就通過跑各種腳本去把系統(tǒng)完整的巡檢一遍。后來系統(tǒng)數(shù)量越來越多了,沒辦法一個(gè)個(gè)登上去做日檢了,就做了一套腳本,每天自動(dòng)跑一遍,然后通過一個(gè)工具把結(jié)果做一個(gè)匯總分析,告訴運(yùn)維人員日檢的結(jié)果。這種模式是現(xiàn)在企業(yè)IT運(yùn)維的正確方向。
現(xiàn)在的用戶需要什么樣的運(yùn)維自動(dòng)化系統(tǒng)呢?是特別全面的,能夠很漂亮的展現(xiàn)系統(tǒng)方方面面細(xì)節(jié)的系統(tǒng)嗎?我個(gè)人認(rèn)為不是的,因?yàn)槿绻阋芾淼南到y(tǒng)成百上千的時(shí)候,只看匯總數(shù)據(jù)不直觀,對(duì)單一系統(tǒng)認(rèn)真去看一看又看不過來。這些漂亮的展示界面最終只會(huì)成為無人問津的擺設(shè)。
因此我覺得,做智能化運(yùn)維系統(tǒng)應(yīng)該突破傳統(tǒng)的運(yùn)維自動(dòng)化系統(tǒng)的框架去考慮。系統(tǒng)的重點(diǎn)不再是能夠多么漂亮,多么全面的展示一些系統(tǒng)的運(yùn)行狀態(tài)了。因?yàn)楹芸赡苓\(yùn)維人員已經(jīng)沒有精力去看這些漂亮的界面了。智能化運(yùn)維系統(tǒng)與傳統(tǒng)運(yùn)維系統(tǒng)之間的差別是具有強(qiáng)大的分析能力。如何把這種優(yōu)勢發(fā)揮到最大才是智能化運(yùn)維系統(tǒng)的目標(biāo),如果智能化運(yùn)維系統(tǒng)只是傳統(tǒng)的外觀加上智能化的算法,那么智能化的能力就無法得到充分的發(fā)揮了。
你有沒有想過這樣一個(gè)智能化運(yùn)維的場景,運(yùn)維人員不需要盯著運(yùn)維大屏去看,而當(dāng)系統(tǒng)出現(xiàn)隱患的時(shí)候,你的微信,短信會(huì)收到相關(guān)的信息,運(yùn)維中心的智能音箱會(huì)發(fā)出明確的告警。你通過智能音箱可以了解到系統(tǒng)故障的原因與處置建議,然后你一聲令下,就可以自動(dòng)完成處置。而當(dāng)系統(tǒng)沒有任何告警的時(shí)候,你可以放心的去干其他事情,或者悠閑的坐在那喝咖啡。這個(gè)場景是不是很令人向往?這就是智能化運(yùn)維系統(tǒng)的目標(biāo)。
要達(dá)到這一的目標(biāo),最關(guān)鍵的問題是要構(gòu)建一個(gè)能夠讓人放心的智能化分析引擎,這個(gè)引擎確實(shí)是可信的,當(dāng)它不發(fā)出告警的時(shí)候,你可以相信系統(tǒng)運(yùn)行是無風(fēng)險(xiǎn)的,那么你就真的可以放心的去干其他事情了。要達(dá)到這個(gè)目標(biāo),我們需要更多更準(zhǔn)確的采集系統(tǒng)的運(yùn)行指標(biāo),并且通過各種算法在后臺(tái)進(jìn)行大量的狀態(tài)分析,同時(shí)這些分析也需要十分強(qiáng)大的知識(shí)庫作為支撐。
最近和一些朋友討論運(yùn)維自動(dòng)化系統(tǒng)的時(shí)候,好多客戶都會(huì)提出一些需求,比如能不能做一個(gè)什么樣的界面,能讓我分析某個(gè)問題。我都會(huì)問他,你真的需要通過某些數(shù)據(jù)的展示來分析問題嗎?你真的有時(shí)間去看這些界面嗎?如果你的系統(tǒng)在某個(gè)時(shí)段出現(xiàn)了問題,需要去分析。第一種方式是系統(tǒng)能夠直接生成一份報(bào)告,把這個(gè)時(shí)段所有的問題都分析出來給你看,包括你能夠想到的所有分析維度,都已經(jīng)幫你檢查好了,并且確定了是否存在問題;第二種方式是你首先打開sql審計(jì)工具,看看系統(tǒng)中的某條SQL語句在這個(gè)時(shí)間段是不是出問題了,然后再打開IO分析工具,看看這個(gè)時(shí)間段系統(tǒng)IO有沒有問題,再去看看并發(fā)量是不是出現(xiàn)了異常。你會(huì)選擇哪種方式呢?我想你肯定毫不猶豫地會(huì)選擇第一種方式。那么我們以前還要采取第二種方式呢?這是因?yàn)橹挥性诰哂兄悄芑\(yùn)維能力的情況下,第一種方式才能夠成為可能。既然智能化運(yùn)維有這種能力了,我們?yōu)槭裁催€要用傳統(tǒng)的方式去建設(shè)運(yùn)維自動(dòng)化系統(tǒng)呢?
智能化運(yùn)維工具的核心是智能化分析算法,這些都應(yīng)該是隱藏在后臺(tái)的,看不見的。曾經(jīng)有人問我,老白,你們的運(yùn)維自動(dòng)化平臺(tái)里不是用了圖數(shù)據(jù)庫嗎,我怎么看不見你們有這方面的界面?我覺得圖數(shù)據(jù)庫和圖推理算法根本就不需要有啥界面,現(xiàn)在的很多知識(shí)圖譜的項(xiàng)目都是畫出一張十分復(fù)雜的圖,看上去挺漂亮的,不過這個(gè)知識(shí)圖譜不能提供強(qiáng)大的分析能力,把一個(gè)運(yùn)維知識(shí)圖譜展示在你的界面里,估計(jì)除了裝逼,也沒多大作用了。我們的圖數(shù)據(jù)庫是存儲(chǔ)運(yùn)維知識(shí)的,而運(yùn)維知識(shí)都已經(jīng)被應(yīng)用在各種分析報(bào)告里了。運(yùn)維人員并不需要通過查看知識(shí)圖譜來輔助運(yùn)維,只需要通過基于圖推理的分析工具提供的分析結(jié)論,就可以完成你所需要的運(yùn)維分析了。其他方面的智能化算法也是如此,運(yùn)維人員需要基于隨機(jī)森林或者LSTM的系統(tǒng)狀態(tài)預(yù)測,并不需要去了解LSTM算法,而只需要看到通過LSTM給你產(chǎn)生的預(yù)測結(jié)果就可以了。
如果你的智能化運(yùn)維系統(tǒng)讓你感到運(yùn)維變得復(fù)雜了,那肯定就不對(duì)了。智能化運(yùn)維系統(tǒng),一定是平時(shí)讓你感到運(yùn)維變得簡單了,而真正出現(xiàn)問題的時(shí)候,又能夠提供強(qiáng)大的分析能力的系統(tǒng),否則你肯定遇到假的智能化運(yùn)維系統(tǒng)了。