現(xiàn)在是一個不斷創(chuàng)造新名詞的時代,周日一個朋友和我討論一個數(shù)字孿生的問題。他們要上一個數(shù)字孿生的項(xiàng)目,我聽到數(shù)字孿生這幾個字就對他肅然起敬,居然要干這么前沿的一個事情。我說你們真有錢,居然干得起數(shù)字孿生。他很奇怪,說沒多少錢啊,也就一百來萬的預(yù)算。當(dāng)時我就十分奇怪了,居然有人可以用這么少的錢干一個數(shù)字孿生的項(xiàng)目。仔細(xì)一問,原來是建一套3D可視化的系統(tǒng),把生產(chǎn)環(huán)境的一些數(shù)據(jù)傳輸過來,用3D進(jìn)行展示。把3D可視化項(xiàng)目包裝成數(shù)字孿生這種玩法,實(shí)際上是這些年我們浮躁的IT界常有的事情。運(yùn)維自動化領(lǐng)域也是如此,各種新鮮的詞匯不斷出現(xiàn),不過老白還是更愿意把這些還是稱為運(yùn)維自動化。
運(yùn)維自動化工作包含部署自動化、監(jiān)控自動化、告警自動化、系統(tǒng)優(yōu)化、SLA保障、IT資產(chǎn)管理等工作領(lǐng)域,要想構(gòu)建一套完整的運(yùn)維自動化系統(tǒng)是要做十分大的投入的,很多中小型企業(yè)甚至沒有經(jīng)費(fèi)去構(gòu)建一個完整的CMDB。另外,運(yùn)維自動化系統(tǒng)還需要和ITIL等管理流程平臺貫通。二十年前,很多大型企業(yè)使用PATROL來構(gòu)建一個運(yùn)維監(jiān)控系統(tǒng),使用REMEDY來進(jìn)行ITIL流程的管理。
這些年運(yùn)維自動化也經(jīng)歷了數(shù)個階段,經(jīng)歷了操作自動化、場景自動化、智能化運(yùn)營等多個階段。
最早期的運(yùn)維自動化是操作自動化,把一些需要手工操作的工作固化下來,通過專用系統(tǒng)或者工具腳本實(shí)現(xiàn)自動化的執(zhí)行。這個階段主要解決一些手工操作效率較低,故障率較高,易誤操作的問題。
第二個階段的運(yùn)維自動化是場景自動化,就是通過自動化手段實(shí)現(xiàn)一些簡單或者復(fù)雜的運(yùn)維場景的自動化工作,比如狀態(tài)巡檢、自動化日檢、運(yùn)行日報(bào)、故障溯源、主備系統(tǒng)切換、系統(tǒng)擴(kuò)容等。與第一階段不同的是,場景自動化不僅僅是提供一些自動化的工作腳本和工具,而是能夠根據(jù)不同的環(huán)境與不同的場景,自動選擇相關(guān)的分析策略,調(diào)用相關(guān)的知識點(diǎn)工具進(jìn)行自動化的工作,完成自動化的處置。
運(yùn)維自動化的第三個階段是智能化運(yùn)營,此階段的運(yùn)維自動化系統(tǒng)是以數(shù)據(jù)與算法為核心的,通過積累歷史的運(yùn)維數(shù)據(jù),利用分析算法,能夠根據(jù)數(shù)據(jù)進(jìn)行分析和判斷,并做出決策和執(zhí)行。此階段的運(yùn)維自動化系統(tǒng)需要具有比較強(qiáng)大的分析策略,能夠?qū)崿F(xiàn)準(zhǔn)確的自動化操作,不過并不是所有的工作都能夠以智能分析獲得自動化操作的結(jié)果,部分關(guān)鍵節(jié)點(diǎn)仍然需要進(jìn)行人工判斷。
其實(shí)第三階段就是我們常說的AIOPS,不過因?yàn)閿?shù)據(jù)與算法的積累問題,目前AIOPS能夠覆蓋的場景仍然有限,絕大多數(shù)運(yùn)維自動化仍然停留在第二階段上。自動運(yùn)維或者智能運(yùn)維實(shí)際上并不是運(yùn)維自動化的終極目標(biāo),實(shí)際上運(yùn)維自動化是服務(wù)于我們的運(yùn)維業(yè)務(wù)的,就像運(yùn)維工作是服務(wù)于企業(yè)的業(yè)務(wù)的一樣。某個信息系統(tǒng)該如何進(jìn)行自動化的運(yùn)維,數(shù)據(jù)庫故障時可以自動切換還是需要人工干預(yù)切換,這取決于我們的業(yè)務(wù)需求和SLA,并不取決于運(yùn)維自動化系統(tǒng)的能力本身。
運(yùn)維自動化的目的是盡可能用自動化的系統(tǒng)來替代人的工作,運(yùn)營和維護(hù)的價值最終體現(xiàn)在業(yè)務(wù)中,而實(shí)現(xiàn)此目標(biāo)的方法是運(yùn)營服務(wù)化,如果用一個目前比較時髦的說法就是“運(yùn)營即服務(wù)”。
IT部門在企業(yè)內(nèi)部能夠真正的實(shí)現(xiàn)運(yùn)營服務(wù)化,IT部門必須成為一個利潤中心,只有如此,在我們的大型企業(yè)中,運(yùn)維自動化才能成為真正的剛需。這些年老白一直在企業(yè)內(nèi)推廣運(yùn)維自動化工具與基于運(yùn)維自動化工具的服務(wù)體系,不過接受這種模式的用戶占比并不高。大家都在學(xué)習(xí)互聯(lián)網(wǎng)公司的IT運(yùn)維的技術(shù)與理念,但是我們的核心業(yè)務(wù)并不像互聯(lián)網(wǎng)企業(yè)一樣是以IT為核心,因此這種模仿最終只是一種東施效顰的模仿。因?yàn)樾畔⑾到y(tǒng)運(yùn)行的好壞,性能有沒有問題并不是絕大多數(shù)領(lǐng)導(dǎo)比較關(guān)心的問題。缺乏自動化手段,大不了讓弟兄們加加班,出了問題找不到根因,下回再出事的時候領(lǐng)導(dǎo)可能都已經(jīng)忘了這次故障。系統(tǒng)資源浪費(fèi)點(diǎn)也沒關(guān)系,反正每年的IT預(yù)算都在增長。
運(yùn)維自動化建設(shè)應(yīng)該是基于具體的工作目標(biāo)的,周五參加一個會的時候,客戶的領(lǐng)導(dǎo)說了幾句十分經(jīng)典的話。我們建設(shè)運(yùn)維自動化系統(tǒng),總是基于一個十分全面的設(shè)計(jì),然后再去慢慢實(shí)現(xiàn),也許等我們把設(shè)計(jì)都實(shí)現(xiàn)的時候,信息系統(tǒng)已經(jīng)變得面目全非了。我們應(yīng)該從我們目前面臨的問題入手,解決問題就行。這些年我們發(fā)生過哪些故障,總結(jié)了哪些經(jīng)驗(yàn)教訓(xùn),能不能先不考慮是不是用一些高大上的新技術(shù)還是用采用比較低級的比較傳統(tǒng)的方法,把這些東西先變成自動化了,解決我們現(xiàn)在的一些關(guān)鍵問題呢?這一點(diǎn)老白是十分贊同的,唯有如此,才能做出真正有用的運(yùn)維自動化工具,而不是做一些玩具讓運(yùn)維人員多了一些需要運(yùn)維的系統(tǒng)。