IT運(yùn)維管理是時(shí)下IT界最熱門的話題之一。眾所周知,IT運(yùn)維管理的作用就是保障IT數(shù)據(jù)的連續(xù)性及業(yè)務(wù)的正常保存。因此,數(shù)據(jù)中心的正常運(yùn)營(yíng)離不開IT運(yùn)維部門的支撐。
數(shù)據(jù)中心的正常運(yùn)轉(zhuǎn)離不開運(yùn)維,運(yùn)維在數(shù)據(jù)中心中扮演的角色越來越重要。很多人也在探討新的運(yùn)維技術(shù),以便可以通過技術(shù)更新來進(jìn)一步提升運(yùn)維水平。傳統(tǒng)的運(yùn)維絕大部分都是被動(dòng)式地處理問題,即將系統(tǒng)建好,設(shè)備上線之后,就守著這些設(shè)備,確保不出問題,真出了問題快速響應(yīng)去解決,這種運(yùn)維方式,工作量體現(xiàn)在出現(xiàn)問題之后,解決問題的能力是運(yùn)維能力的重要體現(xiàn)方面。
但是,亡羊補(bǔ)牢,很多時(shí)候悔之晚矣,損失已經(jīng)發(fā)生,再怎么挽回也只能是盡量減少損失、止損。新運(yùn)維的技術(shù)都倡導(dǎo)將運(yùn)維的工作提前,要未雨綢繆、防患于未然,狀態(tài)運(yùn)維就是其中一種。所謂的狀態(tài)運(yùn)維技術(shù),是一種預(yù)防性的運(yùn)維方式,以設(shè)備實(shí)時(shí)運(yùn)行狀態(tài)和技術(shù)參數(shù)為依據(jù),對(duì)設(shè)備健康情況和所處的狀態(tài)進(jìn)行評(píng)價(jià),隨后制定相應(yīng)運(yùn)維的行動(dòng)計(jì)劃。狀態(tài)運(yùn)維是根據(jù)設(shè)備日常運(yùn)行情況記錄、周期性檢查記錄和在線狀態(tài)監(jiān)測(cè)等提供設(shè)備當(dāng)前和歷史信息資料,通過對(duì)這些信息資料進(jìn)行分析處理,來判斷設(shè)備是否處于健康的運(yùn)行狀態(tài)和可能發(fā)生的變化趨勢(shì),及時(shí)發(fā)現(xiàn)故障特征,在事故發(fā)生前采取合理的運(yùn)維行動(dòng),防止故障突然發(fā)生,保證設(shè)備一直處于健康的運(yùn)行狀態(tài)。
狀態(tài)運(yùn)維是將運(yùn)維的工作做在了故障發(fā)生前,通過其故障前的一系列表現(xiàn),提前發(fā)現(xiàn)問題。這就像是地震預(yù)測(cè),雖說地震預(yù)測(cè)技術(shù)還不夠準(zhǔn)確,但不少時(shí)候已經(jīng)可以提前一定時(shí)間發(fā)現(xiàn)哪里有可能會(huì)發(fā)生地震,這樣就可以在地震來之前,將人員和物品轉(zhuǎn)移走,避免人員傷亡。
大數(shù)據(jù)和人工智能是狀態(tài)運(yùn)維必不可少的技術(shù),若不是這兩種技術(shù)的出現(xiàn)和火熱,也不可能出現(xiàn)狀態(tài)運(yùn)維的概念。狀態(tài)運(yùn)維的技術(shù)要依靠大量的歷史數(shù)據(jù),這包括設(shè)備之前運(yùn)行的所有狀態(tài),發(fā)生過的所有故障,一臺(tái)設(shè)備的各種日志信息、告警、故障表現(xiàn)、特性等數(shù)據(jù)都不少,要將數(shù)據(jù)中心所有設(shè)備的這些信息都集中起來,那必然是海量數(shù)據(jù),還要從這些海量數(shù)據(jù)找到一定的必然規(guī)律,這就需要借助大數(shù)據(jù)技術(shù)分析,得出一些有總結(jié)的東西出來。比如:當(dāng)設(shè)備出現(xiàn)內(nèi)部端口DOWN告警,就知道會(huì)影響到網(wǎng)絡(luò)轉(zhuǎn)發(fā)流量,就需要將這臺(tái)設(shè)備隔離,讓網(wǎng)絡(luò)流量不流經(jīng)這臺(tái)設(shè)備;比如發(fā)現(xiàn)設(shè)備CPU高,設(shè)備的狀態(tài)效率就會(huì)降低,在設(shè)備癱了之前,就要找到導(dǎo)致CPU高的原因,將CPU降下來,避免故障的發(fā)生,通過大數(shù)據(jù)技術(shù)讓狀態(tài)運(yùn)維可以做到預(yù)防運(yùn)維。狀態(tài)的運(yùn)維還要依仗人工智能進(jìn)行一定的預(yù)判,分析設(shè)備未來的工作狀態(tài),比如設(shè)備內(nèi)部溫度每升高一度,狀態(tài)效率就要下降20%,類似這樣的預(yù)測(cè)分析。
俗話說“冰凍三尺,非一日之寒”,任何事物都是由量變到質(zhì)變的發(fā)展過程,在故障發(fā)生之前,設(shè)備多多少少都會(huì)有一些異常表現(xiàn)。有人可能會(huì)說,設(shè)備若發(fā)生硬件故障,怎么預(yù)測(cè),天知道明天會(huì)有哪臺(tái)設(shè)備會(huì)出現(xiàn)硬件故障。其實(shí)依然有手段可以監(jiān)測(cè),從而做到預(yù)判,只不過現(xiàn)在的監(jiān)測(cè)技術(shù)還比較初級(jí),不夠深入。若將設(shè)備CPU的時(shí)鐘、Catch內(nèi)存、指令運(yùn)算這些過程都監(jiān)控起來,那么只要CPU運(yùn)行有偏差,就會(huì)發(fā)現(xiàn),任何一個(gè)CPU故障都有一個(gè)過程,不可能一下子所有的模塊部件都不靈光了,在其CPU徹底死掉之前,抓到異常信息即可,這樣瞬間將業(yè)務(wù)遷移到其它設(shè)備上去,將這臺(tái)設(shè)備隔離,從而避免等到CPU徹底死掉,業(yè)務(wù)掛掉再去處理,通過人工智能技術(shù)讓狀態(tài)運(yùn)維可以做到預(yù)知運(yùn)維。
狀態(tài)運(yùn)維不僅可以保障設(shè)備持續(xù)健康運(yùn)行,減少失效時(shí)間,提高生產(chǎn)率,還大大降低了大型設(shè)備由于故障停機(jī)造成數(shù)據(jù)中心的財(cái)產(chǎn)損失和設(shè)備的運(yùn)維成本,改善庫存和供應(yīng)鏈,對(duì)增加數(shù)據(jù)中心利潤(rùn),改善數(shù)據(jù)中心經(jīng)濟(jì)效益具有切實(shí)重要的指導(dǎo)意義。
現(xiàn)在,狀態(tài)運(yùn)維受到越來越多人的重視,數(shù)據(jù)中心已經(jīng)不允許隨意中斷業(yè)務(wù),很多技術(shù)專家都在絞盡腦汁為數(shù)據(jù)中心的穩(wěn)定運(yùn)行出謀劃策,狀態(tài)運(yùn)維是數(shù)據(jù)中心要走的必由之路。不過,現(xiàn)在的數(shù)據(jù)中心運(yùn)維水平差距有點(diǎn)大,能夠做到預(yù)防運(yùn)維的翎毛鳳角,能做到預(yù)知運(yùn)維的恐怕還沒有,不然怎么那么多大型數(shù)據(jù)中心時(shí)不時(shí)的還在發(fā)生一些影響業(yè)務(wù)的故障呢,連亞馬遜、阿里云這類的技術(shù)型巨頭企業(yè)都避免不了。所以,基于狀態(tài)運(yùn)維的發(fā)展方向沒錯(cuò),但還需要努力,需要大量的歷史有效數(shù)據(jù),而不是無用的垃圾數(shù)據(jù);需要先進(jìn)的適合數(shù)據(jù)中心環(huán)境的人工智能技術(shù),而不是隨便拿來人工智能技術(shù)硬往數(shù)據(jù)中心的設(shè)備上套,那預(yù)知結(jié)果很可能會(huì)事與愿違,反而成了開展運(yùn)維工作的絆腳石,最怕不出故障時(shí)天天預(yù)報(bào),真出了故障又不報(bào),這樣的技術(shù)不用也罷。
狀態(tài)運(yùn)維作為未來數(shù)據(jù)中心運(yùn)維的發(fā)展方向,必將為數(shù)據(jù)中心帶來無限好處。其實(shí),早在二十年前1998年,美國(guó)軍方就提出故障預(yù)測(cè)與健康管理PHM這一概念,對(duì)設(shè)備由定期運(yùn)維轉(zhuǎn)變成預(yù)知性的運(yùn)維,只不過當(dāng)時(shí)的計(jì)算機(jī)技術(shù)還不夠發(fā)達(dá),計(jì)算能力也較低,很多想法沒有技術(shù)可以實(shí)現(xiàn)?,F(xiàn)如今,云計(jì)算、大數(shù)據(jù)、人工智能計(jì)等新技術(shù)撲面而來,計(jì)算能力也得到急速提升,就算單機(jī)的計(jì)算速度有限,也可以通過云計(jì)算將多臺(tái)設(shè)備聯(lián)合起來同時(shí)計(jì)算,這樣就不存在計(jì)算能力限制的問題。狀態(tài)運(yùn)維呼之欲出,再次來到人們面前。雖很多技術(shù)仍需完善,數(shù)據(jù)中心的基礎(chǔ)水平也可能不夠,但并不妨礙這一技術(shù)的發(fā)展,為數(shù)據(jù)中心的運(yùn)維添磚加瓦。
(原標(biāo)題:談數(shù)據(jù)中心設(shè)備狀態(tài)運(yùn)維技術(shù))