AIOps園區(qū)網(wǎng)絡(luò)運(yùn)維實(shí)踐

Emerging涌現(xiàn)
Gartner預(yù)測(cè),我們會(huì)看到當(dāng)前的IT應(yīng)用程序會(huì)發(fā)生劇變,而且我們管理整個(gè)IT生態(tài)系統(tǒng)的方式也會(huì)改變。這些變化的關(guān)鍵是Gartner所稱的AIOps平臺(tái)。

00 AIOps概念

國際慣例,我們先介紹一下AIOps的概念:AIOps,即Artificial Intelligence for IT Operations,智能運(yùn)維,將人工智能應(yīng)用于運(yùn)維領(lǐng)域,基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過機(jī)器學(xué)習(xí)的方式來進(jìn)一步解決自動(dòng)化運(yùn)維沒辦法解決的問題。

Gartner預(yù)測(cè),我們會(huì)看到當(dāng)前的IT應(yīng)用程序會(huì)發(fā)生劇變,而且我們管理整個(gè)IT生態(tài)系統(tǒng)的方式也會(huì)改變。這些變化的關(guān)鍵是Gartner所稱的AIOps平臺(tái)。

我們今天要討論的,就是AIOps的需求挑戰(zhàn),以及我們通過怎么樣的方式去應(yīng)對(duì)這種挑戰(zhàn)。

01新技術(shù)、新挑戰(zhàn),呼喚高度智能的電信網(wǎng)絡(luò)

1.jpg

正如大家所知道的那樣,近年來以5G為代表的新技術(shù)在電信網(wǎng)絡(luò)中得到了快速的應(yīng)用,新技術(shù)的應(yīng)用,同時(shí)也給我們帶來了很多的收益,比如大連接、低時(shí)延、高速率等等。5G的發(fā)展,讓這些數(shù)據(jù)都至少有一個(gè)數(shù)量級(jí)的提升。

但是,在數(shù)據(jù)量級(jí)的提升,伴隨著的,是運(yùn)維難度的增加,從而,給運(yùn)維帶來了如下挑戰(zhàn):

1.網(wǎng)絡(luò)復(fù)雜性:

數(shù)據(jù)量級(jí)的增大,讓網(wǎng)絡(luò)變得更加復(fù)雜:新技術(shù)得到了快速應(yīng)用,舊技術(shù)卻沒有同步退出,導(dǎo)致我們每引入一項(xiàng)新技術(shù),都需要在原來的復(fù)雜度上做一個(gè)加法。而在某些場(chǎng)景,甚至要去做乘法。

2.jpg

比如,在無線領(lǐng)域,2G/3G/4G/5G,“四代同堂”;在核心網(wǎng),PS/CS/MS物聯(lián)網(wǎng)等等十域并存......如此高的網(wǎng)絡(luò)復(fù)雜度勢(shì)必會(huì)給運(yùn)維帶來相當(dāng)大的挑戰(zhàn)。

2.2B新需求

運(yùn)維的第二個(gè)挑戰(zhàn)是To B的新場(chǎng)景,也就是企業(yè)應(yīng)用。5G的應(yīng)用推動(dòng)了智能制造,網(wǎng)絡(luò)也逐步融入到了企業(yè)的生產(chǎn)制造流程當(dāng)中。在這種情況下,對(duì)網(wǎng)絡(luò)可靠性的要求必然會(huì)提高,畢竟網(wǎng)絡(luò)一旦出問題,生產(chǎn)流程就可能會(huì)受影響,甚至?xí)袛啵@樣造成的損失將會(huì)非常大。

3.jpg

3.成本壓力

成本壓力主要是由前面兩個(gè)挑戰(zhàn)傳導(dǎo)而來。前兩個(gè)挑戰(zhàn)導(dǎo)致我們要么面臨一個(gè)比較復(fù)雜的網(wǎng)絡(luò),要么就是有更高的要求。如果我們以傳統(tǒng)的運(yùn)維方式去應(yīng)對(duì)的話,必然會(huì)導(dǎo)致成本的急劇上升。當(dāng)然,成本的提高,還有一個(gè)因素就是能耗。畢竟,5G的能耗要高于4G的能耗。

4.jpg

講完上述內(nèi)容,我們需要思考如何去應(yīng)對(duì)網(wǎng)絡(luò)運(yùn)維面對(duì)的這些挑戰(zhàn)呢?AI技術(shù)是關(guān)鍵。

02 AI是提升電信網(wǎng)絡(luò)自動(dòng)化和智能化的關(guān)鍵技術(shù)

在運(yùn)維成本方面,有統(tǒng)計(jì)顯示,90%的運(yùn)維都需要人工去參與,而70%的成本就是人力成本。在這種情況下,一個(gè)很自然的想法就是能不能使用AI的技術(shù)來降低人的成本,來提高運(yùn)維效率。

比如剛才提到5G能耗問題,我們能否通過人工智能的技術(shù)來去降低能耗呢?從過往的實(shí)踐經(jīng)驗(yàn)來看,上述問題的答案是肯定的。

接下來,我們通過三個(gè)例子來說明。

5.jpg

1.基站節(jié)能

第一個(gè)例子是基站節(jié)能的一個(gè)例子。基站的能耗是非常高的。在布網(wǎng)初期,基站用戶較少,有時(shí)候基站常常是空開。針對(duì)情況,運(yùn)營(yíng)商自然而然想到,能不能對(duì)話務(wù)量做出一些預(yù)測(cè)。如果我們能精準(zhǔn)的預(yù)測(cè)話務(wù)量的話,那么,在話務(wù)量小的時(shí)候,我們就可以把一定量的載波關(guān)掉,從而達(dá)到一個(gè)節(jié)能目的。據(jù)統(tǒng)計(jì),在預(yù)測(cè)話務(wù)量的過程中,通過LSTM神經(jīng)網(wǎng)絡(luò)來做預(yù)測(cè),可以實(shí)現(xiàn)節(jié)能10%以上的一個(gè)目標(biāo)。

2.核心網(wǎng)KPI異常檢測(cè)

第二個(gè)例子,是一個(gè)異常檢測(cè)的一個(gè)案例:在運(yùn)營(yíng)商的核心網(wǎng)部署KPI異常檢測(cè)服務(wù)。原有的異常檢測(cè)服務(wù),是使用固定閾值進(jìn)行告警通知。而AI技術(shù),則更加智能、及時(shí)、準(zhǔn)確地識(shí)別異常。

具體例子是在我們使用過程中,有一天晚上,新的檢測(cè)手段比老方法提前五個(gè)小時(shí)對(duì)故障發(fā)出了提示,運(yùn)維人員收到提示之后,連夜就把故障進(jìn)行了修復(fù)??蛻糇匀环浅M意,因?yàn)楣收闲迯?fù)之后,避免了故障影響早高峰的用戶體驗(yàn)。

3.故障識(shí)別及根因定位

通常網(wǎng)絡(luò)上一旦發(fā)生故障,就會(huì)觸發(fā)大量的告警,而系統(tǒng)同時(shí)又以高經(jīng)緯維度進(jìn)行運(yùn)維派單。如果多個(gè)網(wǎng)員上報(bào)多個(gè)告警,那么就會(huì)出現(xiàn)這種重復(fù)派單。也就是說發(fā)生了一個(gè)故障,多網(wǎng)員上報(bào)告警,最后可能導(dǎo)致在多個(gè)域(無線域和傳輸域等)都去派單。比如,一次斷電,可能派發(fā)十幾個(gè)工單去處理。那么,面對(duì)這種情況,能否通過AI技術(shù)實(shí)現(xiàn)精準(zhǔn)派單,達(dá)到一故障一工單的目標(biāo)?答案是,可以的。具體操作我們會(huì)在后續(xù)講解中給出。

03開發(fā)AI應(yīng)用仍然面臨挑戰(zhàn):開發(fā)門檻高、周期長(zhǎng)

從上面三個(gè)例子我們可以看出,AI相對(duì)來說,還是非常靠譜的。但是既然AI如此靠譜,為什么沒有得到全面快速的應(yīng)用呢?因?yàn)锳I的開發(fā)還面臨著不小的挑戰(zhàn),簡(jiǎn)單概括就是六個(gè)字:門檻高,周期長(zhǎng)。

6.jpg

上圖是Gartner的一份研究報(bào)告。它從四個(gè)維度分析了AI應(yīng)用的主要障礙。其中最主要的3點(diǎn):

1)人員技能

2)理解增益與用途

3)數(shù)據(jù)范圍與質(zhì)量

回到我們說的六個(gè)字:門檻高,周期長(zhǎng)。

1.門檻高

此處說的“門檻高”,第一點(diǎn)是指缺乏AI算法開發(fā)人員。一般的運(yùn)維團(tuán)隊(duì)不會(huì)配置專門的AI算法開發(fā)人員,這樣必然導(dǎo)致AI技能的缺失。但這不是最關(guān)鍵的,因?yàn)锳I人員通過培訓(xùn)、培養(yǎng)、招聘等手段,都可以解決。

最關(guān)鍵的,也就是我們說的第二點(diǎn),算法與業(yè)務(wù)結(jié)合難。如果要想把一個(gè)應(yīng)用做好,最好的是從業(yè)務(wù)出發(fā),根據(jù)業(yè)務(wù)的實(shí)際情況選擇合適的算法,這樣才能把應(yīng)用做好,這點(diǎn)是非常重要的。但在實(shí)際操作過程中,首先,需要有一個(gè)業(yè)務(wù)專家對(duì)運(yùn)維要有深刻的理解;其次,還需要有一個(gè)精通AI的算法專家。在這之后,需要他們有充足的時(shí)間和意愿坐下來深入的交流。在這里,時(shí)間和意愿都會(huì)成為阻礙。

第三點(diǎn)是數(shù)據(jù)。數(shù)據(jù)包含兩個(gè)問題:工程問題和標(biāo)注問題。工程問題其實(shí)和接下來要說的第四點(diǎn)是一致的。即,開發(fā)一個(gè)AI應(yīng)用實(shí)際上是相當(dāng)大的工程量,因?yàn)槭紫刃枰尤牒A康亩嗄B(tài)的數(shù)據(jù)去完成模型的訓(xùn)練和推理,最后還要去完成結(jié)果的展示,包括去對(duì)接一些現(xiàn)有的系統(tǒng)。因此除了前面需要的運(yùn)維專家和算法專家,還需要很多工程開發(fā)人員。

7.jpg

2.周期長(zhǎng)

開發(fā)門檻高,就決定了開發(fā)周期長(zhǎng),畢竟有這么高的門檻,如果不能很好的解決的話,那么周期必然會(huì)特別長(zhǎng)。開發(fā)周期長(zhǎng)會(huì)導(dǎo)致:

第一是,理解增益和用途。怎么理解呢?也就是說,如果我們長(zhǎng)時(shí)間拿不到結(jié)果,那么企業(yè)決策人員就可能對(duì)AI能產(chǎn)生的效果會(huì)表示懷疑,

第二是,時(shí)間越長(zhǎng),大家對(duì)項(xiàng)目的期望就會(huì)越高。假設(shè)同樣是做一個(gè)東西取得了同樣的效果,比如說故障修復(fù)時(shí)長(zhǎng)降低5%,兩年做出來的和一個(gè)月做出來的,得到的評(píng)價(jià)可能就完全不一樣。

8.jpg

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論