運(yùn)維數(shù)據(jù):建設(shè)與落地AIOps的基石

ZAKER科技
自全球著名IT咨詢機(jī)構(gòu)Gartner在2017年正式提出AIOps以來(lái),國(guó)內(nèi)外各個(gè)企業(yè)與廠商都在積極探索與嘗試?yán)么髷?shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)來(lái)改進(jìn)和增強(qiáng)傳統(tǒng)IT運(yùn)維能力(如在監(jiān)控、自動(dòng)化和服務(wù)管理等方向)。

自全球著名IT咨詢機(jī)構(gòu)Gartner在2017年正式提出AIOps以來(lái),國(guó)內(nèi)外各個(gè)企業(yè)與廠商都在積極探索與嘗試?yán)么髷?shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)來(lái)改進(jìn)和增強(qiáng)傳統(tǒng)IT運(yùn)維能力(如在監(jiān)控、自動(dòng)化和服務(wù)管理等方向)。

關(guān)于AIOps,業(yè)界有很多的定義和解釋,但筆者在2019年底參加Gartner全球I&O大會(huì)時(shí),分析師Charley Rich一語(yǔ)道破了本質(zhì):“智能運(yùn)維另外一個(gè)名字就是數(shù)據(jù)分析;(My name is AIOps, but you can call me Data Analytics……)”。所以,撥開迷霧,除了各種各樣數(shù)據(jù)應(yīng)用場(chǎng)景、高深復(fù)雜的算法和酷炫的可視化,其最基礎(chǔ)的部分就是數(shù)據(jù)——運(yùn)維數(shù)據(jù)是構(gòu)建和落地AIOps的基石。

運(yùn)維數(shù)據(jù)驅(qū)動(dòng)AIOps成為必選項(xiàng)

業(yè)務(wù)增長(zhǎng)速度快、架構(gòu)復(fù)雜度指數(shù)級(jí)升高,帶來(lái)的是運(yùn)維數(shù)據(jù)的極大變化。傳統(tǒng)運(yùn)維數(shù)據(jù)一般僅涉及到底層基礎(chǔ)設(shè)施以及部分應(yīng)用,但是在以用戶體驗(yàn)和業(yè)務(wù)結(jié)果為核心的外向型運(yùn)維管理模式下,運(yùn)維數(shù)據(jù)的邊界已然被打開了。

現(xiàn)在的運(yùn)維數(shù)據(jù)不僅包括面向多層技術(shù)棧的各類參數(shù)與文件,同時(shí)還包括了各種用戶體驗(yàn)的數(shù)據(jù)以及與企業(yè)休戚相關(guān)的核心業(yè)務(wù)質(zhì)量KPI等,如下圖所示。

面向全棧的運(yùn)維數(shù)據(jù)

運(yùn)維數(shù)據(jù)的另外一個(gè)特點(diǎn)是數(shù)據(jù)類型的多樣性(Variety),可分為時(shí)序型指標(biāo)、追蹤(關(guān)聯(lián))模型、日志數(shù)據(jù)、配置管理數(shù)據(jù)、告警事件、工單數(shù)據(jù)和運(yùn)維知識(shí)/運(yùn)維知識(shí)圖譜等類型。

運(yùn)維數(shù)據(jù)邊界的開放,同時(shí)意味著數(shù)據(jù)量的極速暴漲,以某大型企業(yè)運(yùn)維部門的數(shù)據(jù)為例,在2017年數(shù)據(jù)處理量穩(wěn)定在150億條/天, 2018年的數(shù)據(jù)是800億條/天,而到2019年中處理量已經(jīng)達(dá)到了驚人的2000億條/天,數(shù)據(jù)洪水帶來(lái)價(jià)值挖掘成本也越來(lái)越高。

運(yùn)維監(jiān)控另一個(gè)突出特點(diǎn)是問(wèn)題發(fā)現(xiàn)的敏捷性,故障發(fā)生的同時(shí)就要根據(jù)數(shù)據(jù)實(shí)現(xiàn)事件的產(chǎn)生與消息通知。因此大部分運(yùn)維數(shù)據(jù)都是流式數(shù)據(jù),數(shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低,因此必須實(shí)時(shí)計(jì)算并給出秒級(jí)響應(yīng)。

運(yùn)維監(jiān)控最核心任務(wù)之一就是對(duì)業(yè)務(wù)應(yīng)用的故障預(yù)防、定位與處置。而在處理突發(fā)故障時(shí),現(xiàn)有工具和解決手段存在效率低、不準(zhǔn)確、不及時(shí)的問(wèn)題,因?yàn)槲覀兠嫦虻腎T環(huán)境架構(gòu)比以往規(guī)模更大、復(fù)雜度更高、海量數(shù)據(jù)的挖掘更困難,而處理海量、實(shí)時(shí)、多樣的數(shù)據(jù)并產(chǎn)生高價(jià)值的工作恰恰是機(jī)器學(xué)習(xí)的特長(zhǎng)。因此,利用機(jī)器學(xué)習(xí)等AI技術(shù)對(duì)運(yùn)維數(shù)據(jù)進(jìn)行處理的AIOps,成為運(yùn)維發(fā)展的必然走向。

面向智能運(yùn)維的數(shù)據(jù)體系方案

落地AIOps戰(zhàn)略,一方面要強(qiáng)調(diào)運(yùn)維數(shù)據(jù)的基礎(chǔ)作用,另一面要形成運(yùn)維數(shù)據(jù)治理與應(yīng)用的全局體系,圍繞規(guī)劃、系統(tǒng)與實(shí)施三個(gè)階段,面向運(yùn)維數(shù)據(jù)的全生命周期與業(yè)務(wù)導(dǎo)向結(jié)果,從數(shù)據(jù)的整體規(guī)劃、運(yùn)維數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)的計(jì)算與處理、指標(biāo)管理體系規(guī)劃與實(shí)施、專業(yè)運(yùn)維數(shù)據(jù)庫(kù)的建立以及數(shù)據(jù)的典型應(yīng)用場(chǎng)景等多角度著手,如下圖所示。

【面向AIOps的數(shù)據(jù)體系建設(shè)】

面向未來(lái)的基于數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維管理模式將以主動(dòng)、集中、業(yè)務(wù)價(jià)值為核心,構(gòu)建一種顛覆傳統(tǒng)運(yùn)維的全新管理方法:

●從IT系統(tǒng)的各個(gè)對(duì)象,以及現(xiàn)有監(jiān)控工具中獲取全量,海量以及多樣的運(yùn)維數(shù)據(jù);

●將指標(biāo)、事件、告警、日志、工單等各類運(yùn)維數(shù)據(jù)在運(yùn)維大數(shù)據(jù)系統(tǒng)上進(jìn)行統(tǒng)一存儲(chǔ)與處理;

●通過(guò)機(jī)器學(xué)習(xí)和先進(jìn)的運(yùn)維場(chǎng)景分析方法,主動(dòng)識(shí)別和響應(yīng)數(shù)據(jù)模型潛在的問(wèn)題,評(píng)價(jià)IT基礎(chǔ)設(shè)施和應(yīng)用對(duì)于業(yè)務(wù)運(yùn)營(yíng)的影響。

數(shù)據(jù)作為企業(yè)的核心資產(chǎn),提升數(shù)據(jù)分析能力、數(shù)據(jù)決策水平以及數(shù)字化運(yùn)維效能,努力營(yíng)造“基于數(shù)據(jù)說(shuō)話、基于數(shù)據(jù)管理、基于數(shù)據(jù)決策”的工作氛圍是數(shù)字化轉(zhuǎn)型的行動(dòng)方針。

對(duì)于運(yùn)維團(tuán)隊(duì),面向不斷變化的業(yè)務(wù)與極速挑戰(zhàn),更要用“夯實(shí)數(shù)據(jù)基礎(chǔ),提升數(shù)據(jù)質(zhì)量,穩(wěn)步推進(jìn)數(shù)據(jù)應(yīng)用”作出表率。借助新的運(yùn)維數(shù)據(jù)管理模式,能對(duì)IT系統(tǒng)以及業(yè)務(wù)進(jìn)行高效精準(zhǔn)的管理,輔助故障根因分析,有效降低MTTD(Mean Time To Detect,平均故障檢測(cè)時(shí)間)和MTTR(Mean Time To Restore,平均故障恢復(fù)時(shí)間),并大幅減輕運(yùn)維工作壓力,顯著降低成本,不斷提升服務(wù)質(zhì)量和用戶體驗(yàn)。

運(yùn)維數(shù)據(jù)的典型應(yīng)用場(chǎng)景

所有運(yùn)維數(shù)據(jù)的智能運(yùn)維場(chǎng)景,都是AIOps本身的應(yīng)用場(chǎng)景,這里用問(wèn)題發(fā)現(xiàn)、智能告警、故障診斷、數(shù)據(jù)預(yù)測(cè)等幾個(gè)典型場(chǎng)景進(jìn)行舉例說(shuō)明。

(1)智能異常檢測(cè):企業(yè)IT系統(tǒng)規(guī)模的擴(kuò)大、運(yùn)維環(huán)境的復(fù)雜化、監(jiān)控?cái)?shù)據(jù)量的海量增長(zhǎng),使得運(yùn)維人員從海量的數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題的難度也越來(lái)越大。而智能異常檢測(cè)通過(guò)基于歷史數(shù)據(jù)模型的異常檢測(cè)等方法,能夠自動(dòng)、實(shí)時(shí)、準(zhǔn)確地從監(jiān)控?cái)?shù)據(jù)中發(fā)現(xiàn)異常,為后續(xù)故障的分析與處理提供基礎(chǔ)。根據(jù)對(duì)象的不同異常檢測(cè)可劃分為數(shù)據(jù)源異常檢測(cè)、文本異常檢測(cè)、數(shù)據(jù)源異常檢測(cè)。

(2)智能異常預(yù)測(cè):在實(shí)際的運(yùn)維過(guò)程中,故障往往不是獨(dú)立存在的。海恩法則告訴我們,任何不安全的事故都可以預(yù)防。智能異常預(yù)測(cè)通過(guò)對(duì)重要特性數(shù)據(jù)進(jìn)行預(yù)測(cè)算法學(xué)習(xí)來(lái)實(shí)現(xiàn)故障的提前診斷、從而避免損失。故障預(yù)測(cè)的典型場(chǎng)景包括:磁盤故障預(yù)測(cè)、網(wǎng)絡(luò)故障預(yù)測(cè)以及內(nèi)存泄露預(yù)測(cè)等。

(3)故障關(guān)聯(lián)分析:在運(yùn)維過(guò)程中,各類監(jiān)控工具每天會(huì)產(chǎn)生大量冗余的告警,而這些告警之間可能存在一些關(guān)聯(lián),只有找到產(chǎn)生告警的根本原因才能快速、有效地對(duì)故障進(jìn)行處理。關(guān)聯(lián)分析可以用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系。在智能運(yùn)維中,我們通過(guò)對(duì)歷史數(shù)據(jù)的學(xué)習(xí)和分析,發(fā)現(xiàn)有意義的關(guān)聯(lián)數(shù)據(jù),再通過(guò)對(duì)關(guān)聯(lián)數(shù)據(jù)的分析建立業(yè)務(wù)與硬件的拓?fù)潢P(guān)系,從而實(shí)現(xiàn)故障的提前預(yù)警以及根源分析。

(4)故障根因分析:對(duì)故障進(jìn)行根源分析是在眾多可能引起故障的因素中,追溯到導(dǎo)致故障發(fā)生的癥結(jié)所在,并找出根本性的解決方案。利用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法,我們可以找出不同因素之間的強(qiáng)相關(guān)關(guān)系,并利用這些關(guān)系,推斷出哪些因素是根本性的因素。故障根因分析可以幫助用戶快速診斷問(wèn)題、提高故障的定位速度以及修復(fù)效率。

(5)容量規(guī)劃預(yù)測(cè):為保證業(yè)務(wù)的正常運(yùn)營(yíng),企業(yè)需要對(duì)容量進(jìn)行合理的評(píng)估。過(guò)多的預(yù)留容量會(huì)造成浪費(fèi)、增加企業(yè)成本;而過(guò)少的容量則可能帶來(lái)故障、造成業(yè)務(wù)損失。而隨著IT架構(gòu)的廣泛云化,容量評(píng)估也不僅僅是對(duì)硬件需求的預(yù)測(cè),更有可能是為優(yōu)化業(yè)務(wù)運(yùn)行成本而進(jìn)行的服務(wù)平臺(tái)選擇的關(guān)鍵。利用智能運(yùn)維中的解決方案,通過(guò)分析業(yè)務(wù)量、業(yè)務(wù)性能以及資源的占用情況的歷史數(shù)據(jù),并結(jié)合業(yè)務(wù)量預(yù)測(cè)數(shù)據(jù)來(lái)建立容量規(guī)劃模型,從而在保證業(yè)務(wù)性能最優(yōu)的同時(shí)幫助企業(yè)節(jié)省運(yùn)營(yíng)成本。

(6)業(yè)務(wù)與性能關(guān)聯(lián)分析:應(yīng)用故障以及性能問(wèn)題發(fā)生時(shí),往往會(huì)影響用戶體驗(yàn)進(jìn)而對(duì)業(yè)務(wù)造成影響,在智能運(yùn)維方案里,通過(guò)建立業(yè)務(wù)關(guān)鍵指標(biāo)與性能之間的關(guān)系模型,從海量的歷史數(shù)據(jù)中分析性能與業(yè)務(wù)之間的非線性、多因素關(guān)系,從事后的影響評(píng)估、事前的What-if預(yù)測(cè)分析等多方面來(lái)考慮性能問(wèn)題對(duì)業(yè)務(wù)的影響。比如通過(guò)分析IT性能提升與降低對(duì)業(yè)務(wù)好壞的量化影響來(lái)快速發(fā)現(xiàn)業(yè)務(wù)與IT性能之間的量化關(guān)系,分析IT性能對(duì)業(yè)務(wù)的影響程度。

(7)告警壓縮:企業(yè)各種監(jiān)控工具會(huì)產(chǎn)生海量的告警信息,這些告警信息中可能存在大量的冗余告警甚至形成告警風(fēng)暴,對(duì)運(yùn)維人員產(chǎn)生極大干擾。傳統(tǒng)運(yùn)維平臺(tái)無(wú)法對(duì)告警風(fēng)暴進(jìn)行有效處理,而在智能運(yùn)維中,我們針對(duì)短時(shí)、大量、甚至是持續(xù)的冗余告警,可以通過(guò)相似度、相關(guān)性判斷對(duì)這些冗余告警進(jìn)行合并,從而為運(yùn)維人員提供有效的告警信息,大幅降低運(yùn)維工作難度、提升運(yùn)維KPI。

(8)智能化故障處理:傳統(tǒng)運(yùn)維管理中對(duì)故障的處理非常依賴運(yùn)維人員的經(jīng)驗(yàn),但人的經(jīng)驗(yàn)無(wú)法覆蓋所有故障范圍,運(yùn)維人員經(jīng)驗(yàn)不足可能造成運(yùn)維效率低下或者產(chǎn)生錯(cuò)誤決策。而在智能運(yùn)維中,將API接入的實(shí)時(shí)監(jiān)測(cè)結(jié)果或預(yù)測(cè)結(jié)果引入決策知識(shí)庫(kù)(智慧大腦)智能生成決策建議,并根據(jù)實(shí)際結(jié)果及趨勢(shì)判斷采用的處理策略,可以是人工處理或者自動(dòng)處理。故障智能處理可以減少問(wèn)題排查的時(shí)間、大幅提高問(wèn)題解決的效率,提升企業(yè)運(yùn)維標(biāo)準(zhǔn)化程度。

總結(jié)和展望

運(yùn)維數(shù)據(jù)作為AIOps的最基礎(chǔ)構(gòu)成,無(wú)疑起到了基石的作用。企業(yè)在實(shí)施AIOps時(shí),必須從最開始就注重運(yùn)維數(shù)據(jù),建設(shè)數(shù)字化運(yùn)維數(shù)據(jù)體系,踐行數(shù)據(jù)文化與應(yīng)用模式,面向業(yè)務(wù)與用戶體驗(yàn)不斷迭代與優(yōu)化,才能把AIOps戰(zhàn)略落到實(shí)處。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論