漫談5G核心網(wǎng)新運維

網(wǎng)優(yōu)雇傭軍
動態(tài)的閾值,能夠精準的發(fā)現(xiàn)網(wǎng)絡隱性事故,但是實現(xiàn)運維的閉環(huán),還需要智能的對異常情況進行分析,快速找到根因。這里,華為提供了一種多指標關聯(lián)分析功能,如果某個KPI指標異常了,系統(tǒng)可以按照貢獻度去對相關的指標進行排序,工程師可以基于此快速的找到最大貢獻度的KPI,從而快速的定位問題的根因。

核心網(wǎng),是通信網(wǎng)絡的大腦,承擔著網(wǎng)絡全局資源的調度及管理。進入5G時代,核心網(wǎng)肩上的擔子更重了,其承載著來自千行百業(yè)的多樣化業(yè)務需求。如何實現(xiàn)5G時代的核心網(wǎng)高效、低成本和高可靠運維,成為了運營商及業(yè)界關注的焦點。那5G時代的核心網(wǎng)運維有哪些挑戰(zhàn)?又有哪些新變化呢?

5G時代的核心網(wǎng)運維挑戰(zhàn)

運維對象規(guī)模和復雜性急劇上升——不同于以往4G時代,5G時代由于網(wǎng)絡應用深入到多樣化的業(yè)務場景,網(wǎng)絡規(guī)模急劇加大。通過切片方式來進行業(yè)務的管理,導致了業(yè)務也會更加動態(tài)和復雜,從而讓網(wǎng)絡管理難度大幅增加;網(wǎng)絡的管理對象也急劇增多,除了傳統(tǒng)意義上的運營商的公網(wǎng),還有各行各業(yè)的行業(yè)用戶專網(wǎng),如何能夠針對不同對象合理化,分域的運維,基于各個行業(yè)進行SLA保障,也是非常棘手的一個問題;同時,隨著NFV,微服務架構等技術的不斷引入,網(wǎng)絡實現(xiàn)了分層解耦,按需部署,但同時也帶來了運維復雜度的上升,故障的定位定界成為了5G時代運維極大的挑戰(zhàn);2/3/4/5G時代遺留下來多個獨立的運維入口,也讓原本就復雜的運維工作,變得更加的繁瑣,傳統(tǒng)煙囪式的運維團隊和流程模式也因數(shù)據(jù)之間相互隔離,流程的非自動化,無法在5G時代繼續(xù)下去。

人力要求和企業(yè)成本的挑戰(zhàn)——與4G主要面向消費者市場不同,5G將賦能千行百業(yè),與各行各業(yè)的生產(chǎn)效率、業(yè)務創(chuàng)新等緊密相關,這要求5G新業(yè)務能敏捷上線,業(yè)務發(fā)布將從原來的幾個月縮短到幾天,甚至是小時級,還要求運營商提供高SLA的網(wǎng)絡來保障企業(yè)的生產(chǎn)、業(yè)務等流程高效穩(wěn)定運行,否則可能會給行業(yè)帶來經(jīng)濟損失,這單靠傳統(tǒng)的人工運維模式無法支撐業(yè)務及網(wǎng)絡的要求。同時,5G時代不僅網(wǎng)絡更復雜,業(yè)務更多樣化,伴隨著低時延應用和行業(yè)專網(wǎng)興起,還將有大量MEC邊緣節(jié)點廣泛分布于網(wǎng)絡的不同位置,這都將新增大量的上站維護工作量和運維成本,因此,如何最大程度減少Opex,是運營商在5G這個新戰(zhàn)場上不得不考慮的問題。

如何破除以上挑戰(zhàn)?

讓網(wǎng)絡像自動駕駛汽車一樣,自動化,智能化的行駛

在這樣的挑戰(zhàn)背景下,業(yè)界做了很多的探索和嘗試,試圖在方案架構,運維技術,運維方式等方面進行變革,將自動化,智能化引入5G核心網(wǎng)運維。有人提出一個有趣的設想,我們的網(wǎng)絡是否可以像自動駕駛汽車一樣,在沒有人干預的情況下,自動,智能的行駛。這樣的假設讓業(yè)界產(chǎn)生了很強的共鳴,也展開了無數(shù)的討論,其中比較著名的就是TMF提出的自動駕駛網(wǎng)絡的5層演進節(jié)奏,全面詮釋了網(wǎng)絡在未來10年的演進方向。

來源:自動駕駛網(wǎng)絡白皮書

這個圖將自動駕駛網(wǎng)絡的演進分為從level0到level5幾個級別,讓我們知道網(wǎng)絡自動化將會是一個長期的目標,是一個逐步實現(xiàn)的過程,其中AI的能力也會逐步的引入各個領域實現(xiàn)整個演進的轉變。

那5G時代的核心網(wǎng)運維如何逐步實現(xiàn)“自動駕駛”呢?

運維架構轉型

首先需要考慮的是運維架構層面的改變。

眾所周知,存量網(wǎng)絡的管理系統(tǒng)多且孤立分散,數(shù)據(jù)相互隔離;管理面能力沒有服務化,無法按需進行靈活的部署,導致了底層資源浪費;傳統(tǒng)管理面和業(yè)務網(wǎng)元是分離的,這不符合5G時代核心網(wǎng)網(wǎng)元實時控制,本地自治的訴求。為了解決這些問題,就需要在管理面架構上進行融合,實現(xiàn)跨域跨代跨平臺跨層的統(tǒng)一管理。就如華為提供的iMaster MAE-CN方案,非常巧妙的將傳統(tǒng)網(wǎng)管,VNFM LCM,NFVO,NSSMF,MEAO及相關運維工具子系統(tǒng)進行融合。一方面,這些組件并不是粗暴式的堆疊,而是以微服務的方式存在,方便客戶按需部署,另一方面,最重要的是它打通了傳統(tǒng)煙囪式的運維體系,讓數(shù)據(jù)可無縫互通,不僅能夠讓日常運維操作簡單許多,更重要的是增加了發(fā)掘數(shù)據(jù)更多價值的可能性。同時,這些組件都連接著一個智能的調度引擎,通過系統(tǒng)而靈活的調度,實現(xiàn)從網(wǎng)絡設計,部署,到運維、優(yōu)化的端到端的管理,而不僅僅是傳統(tǒng)意義上簡單的運維。

AI引入日常監(jiān)控場景——主動預防實現(xiàn)亞健康狀態(tài)精準識別

另一個非常重要的轉變就是技術的改變。這里,大部分的廠商都嘗試通用引入AI技術,自動化,智能化的處理核心網(wǎng)運維問題。

熟知核心網(wǎng)運維的工程師,一定深有體會,在建網(wǎng)初期,工程師要花費大量時間逐條進行上萬個KPI指標對象的閾值設置,這個閾值是根據(jù)以往的專家經(jīng)驗進行設置,由于是靜態(tài)的閾值,這就給后續(xù)日常監(jiān)控埋下了可能出現(xiàn)誤報,漏報異常的情況的隱患,告警的可信度大打折扣。況且不同子網(wǎng)情況不同,子網(wǎng)間這些閾值的設置無法復制,工程師只能通過人工的方式,一個個子網(wǎng)進行設置。最棘手的是異常檢測之后的根因分析,工程師需要人工逐條KPI進行故障定位,同時在大量KPI指標中篩選出該異常KPI的關聯(lián)KPI,通過查看關聯(lián)KPI的測量值,進一步定位異常的原因。這樣全程人工主導的運維方式,效率提升真的是難上加難。

那如何通過AI技術去解放工程師日常的運維工作呢?

我們從閾值的設置入手,看看通過AI如何進行智能的KPI的異常檢測。剛才我們提到,傳統(tǒng)的閾值設置是基于專家經(jīng)驗設定的靜態(tài)閾值,工作量大,也不準確,隔上一段時間,還需要根據(jù)現(xiàn)網(wǎng)的實際情況進行閾值的糾正調整。這里,華為提出了動態(tài)閾值的概念,如何理解呢?首先,有一個AI的訓練模型,每周對現(xiàn)網(wǎng)歷史數(shù)據(jù)進行采樣,通過AI算法持續(xù)的去訓練校準這個模型。然后,將現(xiàn)網(wǎng)的實時KPI數(shù)據(jù)導入訓練好的模型中,得到動態(tài)閾值范圍,也就是說,當網(wǎng)絡發(fā)生變化時,閾值范圍也會發(fā)生變化,因此,在網(wǎng)絡出現(xiàn)異常的早期階段,就會有潛在的KPI指標超過閾值范圍,系統(tǒng)上報異常。這樣,在某種程度上,可以幫助我們提前發(fā)現(xiàn)網(wǎng)絡隱患和故障,而不是在主要KPI已經(jīng)異常后去處理故障。

動態(tài)的閾值,能夠精準的發(fā)現(xiàn)網(wǎng)絡隱性事故,但是實現(xiàn)運維的閉環(huán),還需要智能的對異常情況進行分析,快速找到根因。這里,華為提供了一種多指標關聯(lián)分析功能,如果某個KPI指標異常了,系統(tǒng)可以按照貢獻度去對相關的指標進行排序,工程師可以基于此快速的找到最大貢獻度的KPI,從而快速的定位問題的根因。

AI引入變更操作場景——構筑“三道防線”實現(xiàn)機器值守

除了日常監(jiān)控場景外,重大變更場景也會使用AI。

我們知道,在5G時代,產(chǎn)品版本發(fā)布頻率越來越高。因此,會進行大量的重大操作,如普通升級、灰度升級、配置變更、擴容等?,F(xiàn)網(wǎng)70%以上的重大事故是由于網(wǎng)絡變更導致的。一旦異常,對業(yè)務和用戶體驗影響很大。每年有數(shù)千次的變更,給運營商帶來了巨大的挑戰(zhàn)。同時,由于人工操作量大,網(wǎng)絡異常識別平均耗時5小時。導致在業(yè)務影響增加時,無法提前分析和發(fā)現(xiàn)異常,這樣就錯過了解決問題的時間窗口。

因此,在這種場景下,工程師希望運維方案能夠建立變更前、變更中、變更后三道防線,提前規(guī)避風險和問題。

現(xiàn)在,讓我們來看看這個系統(tǒng)是如何工作的。

首先,在變更前,系統(tǒng)自動進行在線健康檢查,確保待變更網(wǎng)絡健康。其次,變更過程中,所有變更準備和操作均按照規(guī)范自動執(zhí)行。例如,在變更前的計劃中明確每個操作的結果。這樣,每一步的操作,都可以有依據(jù),方便變更過程中進行對比。最后,在變更值守階段,需要持續(xù)實時監(jiān)控網(wǎng)絡異常情況。這里,華為利用復合LSTM神經(jīng)網(wǎng)絡遞歸生成多指標關聯(lián)分析。其將指標分為呼叫類指標組、注冊類指標組、接入類指標組等。該算法可以訓練每個組,使每個組可以生成出一個關聯(lián)性。當某個異常發(fā)生時,對應群組的關聯(lián)性就會發(fā)生改變。這樣就可以快速定位異常指標組。再通過KPI貢獻度,識別出異常KPI。接下來,我們再來看看如何快速定界異常點。其根據(jù)歷史的專家經(jīng)驗,在系統(tǒng)中預置了很多故障場景;同時,把告警、日志、KPI等多維度因素作為一個事件,與預置場景進行匹配,這樣就能快速定界網(wǎng)絡異常了。這樣就可以幫助我們快速、及時地定位問題了。

AI的引入,最終實現(xiàn)從被動運維到主動運維轉型

以上分享了兩個引入AI的運維場景。不難發(fā)現(xiàn),將AI引入到運維的場景后,傳統(tǒng)運維方式逐漸發(fā)生了變化。傳統(tǒng)的方式是一種被動的運維方式,就是當故障已經(jīng)出現(xiàn)了,我們才通過各種各樣的系統(tǒng),方法,以及人工的方式,去盡可能快速準確的進行故障定界定位,從而快速恢復。而AI的引入,讓我們對運維的模式有了新的想法。我們可以基于AI技術去進行主動運維,也就是說在故障發(fā)生之前,主動的識別網(wǎng)絡的風險,將網(wǎng)絡的亞健康問題暴露出來,在它變成故障之前就把它處理掉,而不是等亞健康問題變成故障后,才去解決問題。然后再通過AI技術,快速的定位問題,將風險快速識別。

5G讓網(wǎng)絡自動駕駛成為了焦點,而AI的引入加速了網(wǎng)絡自動駕駛的演進。未來的5到10年將是網(wǎng)絡自動駕駛快速孵化,演進的時代,讓我們拭目以待。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論