核心網(wǎng)是網(wǎng)絡(luò)大腦,也是5G使能行業(yè)數(shù)字化轉(zhuǎn)型的引擎,但現(xiàn)有運維模式通過多年的實踐,核心網(wǎng)運維仍存在幾大窘境。
人員能力提升緩慢
維護(hù)人員既要做分析、又要去操作,可能最后分析沒做好、操作無法落實。維護(hù)人員就是解決設(shè)備問題。現(xiàn)有的運維機制是:設(shè)備產(chǎn)生告警、監(jiān)控收告警派工單、維護(hù)人員處理工單、監(jiān)控核實回單質(zhì)量完成閉環(huán)。看似多么完美的管理流程。實際上,維護(hù)人員在看到告警的時候可能無法準(zhǔn)確定位問題根因。這就對維護(hù)人員的技能水平提出了較高的要求。只有具有較高的技能水平、多年的維護(hù)經(jīng)驗,才能夠具有從虛虛實實的告警信息中分析出關(guān)鍵問題點。這僅僅是做了第一步。其次還要具備處理問題的能力。這個問題該如何處理?可能需要更換板卡的能力、可能需要聯(lián)系承載網(wǎng)、周邊網(wǎng)元協(xié)同處理等等的協(xié)同能力。
實際上,人員真實技能和實際工作技能需求的缺口始終存在。這就導(dǎo)致一個大家都不想看到的但又是實際存在情況:有時我們又沒做好故障分析、也沒做好故障處理。
維護(hù)人員故障處理能力的提升需要大量的案例來支撐,而實際上核心網(wǎng)沒有大量的故障案例來支撐大批的維護(hù)人員提升能力。這就導(dǎo)致:維護(hù)人員間的故障處理能力始終不是均衡的。這就好比醫(yī)生看病一樣,醫(yī)生的經(jīng)驗來源于大量的臨床經(jīng)驗。我們之所以相信老中醫(yī)、老醫(yī)生,是因為這些醫(yī)生處置過大量的病例(=故障案例),處置這些病例的同時也提升了醫(yī)生自身的能力和水平。如果僅僅是依靠看書學(xué)習(xí)病例,是無法顯著提升醫(yī)生的水平的。同樣的道理,維護(hù)工作也類似醫(yī)生,既需要學(xué)習(xí)也需要案例來支撐能力提升。這就是為什么一些核心網(wǎng)的前輩們所說的:培養(yǎng)一個成熟的核心網(wǎng)人員至少需要3年以上的原因。
監(jiān)管能力不足
現(xiàn)在的設(shè)備監(jiān)控模式是:設(shè)備產(chǎn)生告警然后發(fā)送給廠家OMC,廠家OMC再發(fā)送給集中故障系統(tǒng),集中故障系統(tǒng)再派EOMS工單給維護(hù)人員(監(jiān)控人員同步人工通知部分告警情況。)這個監(jiān)控模式不僅僅適用于核心網(wǎng)設(shè)備,也應(yīng)用于所有無線、傳輸、動力等專業(yè)的設(shè)備。不僅僅適用于網(wǎng)絡(luò)管理中心,也應(yīng)用于所有的分公司。這個模式通過多年的運營已經(jīng)暴露出至少三大主要問題:
第一大問題:故障通知存在時延問題
核心網(wǎng)不發(fā)生故障是難以實現(xiàn)的,核心網(wǎng)的維護(hù)目標(biāo)應(yīng)該定位成:不發(fā)生重大故障。重大故障不是從0瞬間突變成重大故障,而是從0變成小故障,再發(fā)展成大故障。在故障監(jiān)管上,核心網(wǎng)需要告警通知的時延足夠短,多短?我認(rèn)為15分鐘以內(nèi)就是目標(biāo)。而實際上,現(xiàn)有的模式下部分告警時延已經(jīng)超過1小時甚至更多。
第二大問題:告警沒有聚類分析,監(jiān)管無法準(zhǔn)確定位到根因
舉一個例子:所有的核心網(wǎng)設(shè)備都會上承載網(wǎng),就是和CE相連。如果CE出了點動靜必然導(dǎo)致和它相連的設(shè)備出現(xiàn)故障告警。不同類型的核心網(wǎng)設(shè)備同時出故障的幾率相對不大,所以這種情況下,應(yīng)該同步判斷CE是否有故障,同步通知承載網(wǎng)專業(yè)。簡而言之,就是故障根因定位(尤其是跨專業(yè)的故障根因定位)在當(dāng)前運維體系下至少是缺失的。這就導(dǎo)致監(jiān)控人員和專業(yè)人員在判斷故障的標(biāo)準(zhǔn)不一致,監(jiān)控人員判斷故障只有告警,而專業(yè)人員在故障判斷上會有多種手段。這就導(dǎo)致出現(xiàn)了監(jiān)控只有通知功能,無法發(fā)揮“指揮調(diào)度”功能。
第三大問題:監(jiān)管系統(tǒng)自身的故障將導(dǎo)致告警通知體系失靈
所以的設(shè)備都有故障率,區(qū)別只在于故障率的大小而已!那么,我們的故障監(jiān)控體系會不會失靈呢?監(jiān)管體系是一個依靠多專業(yè)、多人員配合的體系。多專業(yè)配合:涉及核心網(wǎng)設(shè)備的告警準(zhǔn)確上報、廠家網(wǎng)管的穩(wěn)定運行、集中故障系統(tǒng)軟\硬件的穩(wěn)定運行等大量異廠家的配合問題。還存在中間環(huán)節(jié)的升級改造等情況。任何一個環(huán)節(jié)的失靈都將導(dǎo)致監(jiān)控系統(tǒng)的失靈。
管理視圖和維護(hù)視圖嚴(yán)重不一致
我舉一個例子:在一個周六的早上,有領(lǐng)導(dǎo)問我,為什么核心網(wǎng)的故障數(shù)量增長這么多?(指每天的監(jiān)控日報)這個事情我從接到任務(wù)開始一直弄到下午4點,才做完全部分析。領(lǐng)導(dǎo)的疑問在機制上至少反映了三方面問題:
問題1:管理人員視圖和維護(hù)人員視圖不一致
這是什么意思呢?這個監(jiān)控日報是沒有發(fā)到維護(hù)人員手上的。維護(hù)人員沒有掌握這個生產(chǎn)資料,這就會導(dǎo)致管理人員的要求和維護(hù)人員的工作沒辦法統(tǒng)一。簡單的說,領(lǐng)導(dǎo)有這個信息,維護(hù)人員沒這個信息,維護(hù)人員可能就沒有去關(guān)注。
問題2:管理視圖和維護(hù)視圖的定位出現(xiàn)了偏差
我并非對日報本身持否定意見。我是把日報定位成管理視圖,就是領(lǐng)導(dǎo)看到的或者需要知道的信息。領(lǐng)導(dǎo)看到的信息應(yīng)該是各級信息分析處理后的匯總。管理視圖的定位到底是用于驅(qū)動工作的實施還是用于獲取信息?就監(jiān)控日報而言,我覺得這個管理視圖更多的應(yīng)該是用于信息總結(jié)。它還缺少一個維護(hù)人員視圖和監(jiān)控日報管理視圖相結(jié)合用于驅(qū)動工作實施。簡單的說:監(jiān)控日報現(xiàn)在的分析只是分析專業(yè)告警總量,沒有就各類設(shè)備、各臺設(shè)備的告警量進(jìn)行統(tǒng)計分析。需要對各類設(shè)備、每臺設(shè)備的告警量進(jìn)行分析,這些分析將用于三級經(jīng)理、主管層級的管理人員實施管理,同時這個維護(hù)視圖還需要維護(hù)人員用于管理設(shè)備。而到了更高級別的領(lǐng)導(dǎo),他們的管理視圖是具備信息下鉆的能力:既能看總量,又能看各專業(yè)的詳細(xì)分析。簡而言之,管理視圖可以直接看到具體某類、某臺設(shè)備的告警數(shù)量、類型變化以及變化趨勢,能夠直接看到責(zé)任人。而這個工作不需要人來做,而應(yīng)該由系統(tǒng)自動完成。這就是最理想的情況:管理者通過管理界面可以獲取各類信息,能夠有一覽眾山小、一切盡在掌握的感覺。維護(hù)人員通過維護(hù)界面可以獲取處理問題的必要信息,越是分析到末梢越好。
最后用一段來自總部對當(dāng)前運維囧境的總結(jié):
網(wǎng)絡(luò)的平穩(wěn)運行仍需依靠運維人員的維護(hù)操作,無法做到即插即用、無法做到自治自愈。流程沒有端到端打通、數(shù)據(jù)和系統(tǒng)割裂,完成一個或一類任務(wù)需要跨系統(tǒng),沒有統(tǒng)一完整的視圖。規(guī)則主要靠人的經(jīng)驗,支撐手段靠數(shù)據(jù)驅(qū)動、算法驅(qū)動、AI驅(qū)動的程度不足。數(shù)據(jù)自動采集、自動呈現(xiàn)手段能力不足,大量寶貴的人力資源消耗的數(shù)據(jù)收集、整理、反饋的工作中。
面向5G時代,核心網(wǎng)的穩(wěn)定性更加重要,如何實現(xiàn)高可靠的設(shè)備穩(wěn)定性,這對網(wǎng)絡(luò)運維提出了更高的要求。我們不是生存在刀耕火種的年代,現(xiàn)代化的網(wǎng)絡(luò)運維工作必須依靠智能化的工具和系統(tǒng)來獲取運維信息、提升運維效率,同時具備自動發(fā)現(xiàn)問題、自動定位問題、自動解決問題的能力,這就是我們常說的“智慧運維”。