今天由于市場(chǎng)競(jìng)爭(zhēng)越來(lái)越激烈,企業(yè)內(nèi)部業(yè)務(wù)部門對(duì)IT的依賴越來(lái)越高,企業(yè)外部客戶對(duì)企業(yè)提供的服務(wù)也越來(lái)越苛求,因此企業(yè)對(duì)IT服務(wù)水平的要求就越來(lái)越高。 此外,CIO還要面臨一系列的挑戰(zhàn),例如:系統(tǒng)變更頻繁、人力不足、人員流動(dòng)率高、系統(tǒng)復(fù)雜度增加,還有永無(wú)止境的成本壓力。因此越來(lái)越多的企業(yè),開(kāi)始在傳統(tǒng)系統(tǒng)監(jiān)控的基礎(chǔ)之上,利用 ITOA來(lái)更好地從海量的操作數(shù)據(jù)中收集、組織、分析、發(fā)現(xiàn)、識(shí)別和預(yù)測(cè)運(yùn)維過(guò)程中復(fù)雜的模式和信息,作為運(yùn)維優(yōu)化的基礎(chǔ),或是進(jìn)一步運(yùn)用這些洞察力達(dá)到業(yè)務(wù)創(chuàng)新,獲得更高的商業(yè)價(jià)值。
為了更進(jìn)一步理解這些原始運(yùn)維數(shù)據(jù)背后隱藏的信息或代表的意義,ITOA常會(huì)用到可視化分析、機(jī)器學(xué)習(xí)、預(yù)測(cè)性分析、根本原因分析、圖形分析、文字分析、行為分析等不同方法,從各種不同角度對(duì)運(yùn)維數(shù)據(jù)進(jìn)行深度分析。
ITOA在異常發(fā)現(xiàn)與預(yù)測(cè)、異常診斷、性能容量管理、事件管理、告警優(yōu)化、網(wǎng)絡(luò)與安全管理、運(yùn)維自動(dòng)化、用戶體驗(yàn)優(yōu)化等應(yīng)用場(chǎng)景能起到非常好的作用。 舉個(gè)例子,我們有一個(gè)大型企業(yè)的客戶,由于業(yè)務(wù)增長(zhǎng)快速,在內(nèi)部搭建了一個(gè)包含數(shù)千虛擬機(jī)的私有云平臺(tái),為了支撐多變的應(yīng)用需求,云平臺(tái)每天必須處理高達(dá)數(shù)萬(wàn)次的操作命令,完成大量資源布署、調(diào)整、移轉(zhuǎn)、回收等動(dòng)作。在這些操作過(guò)程中,難免因?yàn)橐恍┸浻布蛉藶榈脑?,造成作業(yè)的失敗。
在過(guò)去,由于云平臺(tái)規(guī)模龐大,管理團(tuán)隊(duì)人力不足,為了發(fā)現(xiàn)這些運(yùn)維異常的狀況,必須依賴傳統(tǒng)監(jiān)控工具,但這些工具能力有限,往往只能檢查特定指標(biāo)有沒(méi)有超過(guò)閥值,或是在個(gè)別系統(tǒng)出現(xiàn)錯(cuò)誤日志之后才發(fā)出告警,但這種作法的效果并不好,比如在建立虛擬機(jī)的作業(yè)中,其中一個(gè)所需的資源因?yàn)槟撤N原因處在鎖定狀態(tài),云平臺(tái)可能會(huì)重復(fù)啟動(dòng)多次的嘗試請(qǐng)求而不會(huì)立刻發(fā)出錯(cuò)誤的返回碼,在這種狀況下,必須等到很長(zhǎng)的時(shí)間經(jīng)過(guò),而整個(gè)作業(yè)卻仍然不能完成后,系統(tǒng)才會(huì)返回超時(shí)的錯(cuò)誤信息,觸發(fā)告警。
另外在某些狀況下,由于工作線程本身消失或出現(xiàn)異常,預(yù)定的作業(yè)無(wú)法進(jìn)行,這種問(wèn)題也常常不能及時(shí)被發(fā)現(xiàn)。在這些狀況下,用戶往往必須在事后才能被動(dòng)的發(fā)現(xiàn)故障,通知管理團(tuán)隊(duì)開(kāi)始定位、診斷與處理問(wèn)題,如此一來(lái),系統(tǒng)資源不能在預(yù)定時(shí)間完成供應(yīng),對(duì)系統(tǒng)可用性就會(huì)直接產(chǎn)生影響。
為了改善這種狀況,這家企業(yè)的CIO采取了ITOA日志大數(shù)據(jù)分析技術(shù)進(jìn)行監(jiān)控系統(tǒng)的優(yōu)化,首先管理團(tuán)隊(duì)將云平臺(tái)系統(tǒng)海量的歷史日志進(jìn)行集中化存儲(chǔ)與分析,接著,再?gòu)倪@些日志所代表的運(yùn)維軌跡,發(fā)現(xiàn)每個(gè)云平臺(tái)作業(yè)的操作模式,這些操作模式再與生產(chǎn)環(huán)境中實(shí)時(shí)產(chǎn)生的運(yùn)維數(shù)據(jù)作比對(duì),一旦發(fā)現(xiàn)生產(chǎn)環(huán)境產(chǎn)生的數(shù)據(jù)與正常操作模式發(fā)生重大的差異,就代表系統(tǒng)作業(yè)可能產(chǎn)生異常,此時(shí)監(jiān)控系統(tǒng)就會(huì)針對(duì)這種可疑狀況及時(shí)發(fā)出告警,讓管理團(tuán)隊(duì)能夠提早發(fā)現(xiàn)系統(tǒng)的異?;蚩梢蔂顩r,并及時(shí)采取必要行動(dòng),避免問(wèn)題的惡化或發(fā)生。
經(jīng)由上述案例的說(shuō)明,可以知道如果能夠善用大數(shù)據(jù)運(yùn)維分析的方法,的確可以顯著提高企業(yè)IT系統(tǒng)運(yùn)維的質(zhì)量。隨著客戶對(duì)企業(yè)運(yùn)營(yíng)穩(wěn)定性的要求越來(lái)越高,IT在企業(yè)創(chuàng)新過(guò)程中扮演的角色越來(lái)越重要,ITOA的應(yīng)用勢(shì)必日益受到企業(yè)CIO們的進(jìn)一步重視。
IBM作為全球領(lǐng)先的運(yùn)維服務(wù)商,累積大量運(yùn)維經(jīng)驗(yàn),實(shí)際應(yīng)用認(rèn)知與大數(shù)據(jù)技術(shù),來(lái)提升生產(chǎn)環(huán)境的運(yùn)維質(zhì)量,也能提供端到端解決方案,來(lái)滿足不同運(yùn)維場(chǎng)景的需求。客戶可以輕易的結(jié)合自身業(yè)務(wù)與環(huán)境的狀況,選擇適合的平臺(tái)、工具與方法,優(yōu)化自身運(yùn)維能力,提高系統(tǒng)可用性,滿足業(yè)務(wù)需求,并通過(guò)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新。