交通銀行數(shù)據(jù)中心自2006年成立至今,始終為交通銀行提供高質(zhì)量的IT服務(wù),支撐著交通銀行的業(yè)務(wù)范圍從國(guó)內(nèi)拓展到全球,經(jīng)營(yíng)模式從傳統(tǒng)線下轉(zhuǎn)向線下線上一體化。在這14年里,數(shù)據(jù)中心的網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,從最初的單中心逐漸延伸到了三地四中心運(yùn)營(yíng);使用的網(wǎng)絡(luò)技術(shù)也從傳統(tǒng)的交換路由、負(fù)載均衡、防火墻逐步發(fā)展到軟件定義網(wǎng)絡(luò)、網(wǎng)絡(luò)服務(wù)虛擬化等各類新興技術(shù)。如何高質(zhì)量、高效率地運(yùn)維龐雜的網(wǎng)絡(luò)環(huán)境,已經(jīng)成為網(wǎng)絡(luò)運(yùn)維人員的必答題。
2019年起,交通銀行數(shù)據(jù)中心啟動(dòng)了智能數(shù)據(jù)中心建設(shè),開(kāi)啟了運(yùn)維工作智能化轉(zhuǎn)型的序幕。在此背景下,網(wǎng)絡(luò)部依托大數(shù)據(jù)、遠(yuǎn)程遙測(cè)等技術(shù)建成了網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)中臺(tái),喚醒了海量的網(wǎng)絡(luò)運(yùn)維數(shù)據(jù),并在此基礎(chǔ)上結(jié)合自動(dòng)化、可視化、智能化等運(yùn)維手段和清單革命等先進(jìn)的運(yùn)維管理理念,邁出了網(wǎng)絡(luò)運(yùn)維的數(shù)字化轉(zhuǎn)型之路。
運(yùn)維轉(zhuǎn)型始于數(shù)據(jù)
網(wǎng)絡(luò)運(yùn)維數(shù)字化轉(zhuǎn)型的基礎(chǔ)是建設(shè)網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)中臺(tái),完成運(yùn)維大數(shù)據(jù)治理。我們用兩年時(shí)間進(jìn)行了網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)的梳理和分類,并根據(jù)各類網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)的特點(diǎn),針對(duì)性地搭建網(wǎng)絡(luò)運(yùn)維大數(shù)據(jù)平臺(tái),逐步完成了網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)的治理工作。目前,網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分為網(wǎng)絡(luò)資源與配置數(shù)據(jù)、性能數(shù)據(jù)、流量數(shù)據(jù)、日志數(shù)據(jù)和運(yùn)維流程數(shù)據(jù)五類。數(shù)據(jù)中臺(tái)已存有設(shè)備、專線、IP地址、域名等10類網(wǎng)絡(luò)資源與配置數(shù)據(jù)84萬(wàn)余條,關(guān)聯(lián)關(guān)系44萬(wàn)余條。同時(shí),數(shù)據(jù)中臺(tái)每分鐘還接受性能、流量、日志等增量數(shù)據(jù),平均每分鐘入庫(kù)性能數(shù)據(jù)2萬(wàn)余條,流量指標(biāo)數(shù)據(jù)90萬(wàn)余條,運(yùn)行日志數(shù)據(jù)200萬(wàn)條。此外,通過(guò)與數(shù)據(jù)中心配置管理數(shù)據(jù)庫(kù)和流程平臺(tái)的對(duì)接,各類應(yīng)用、設(shè)備的配置數(shù)據(jù)和變更、事件等流程數(shù)據(jù)也能夠?qū)崟r(shí)進(jìn)入數(shù)據(jù)中臺(tái)。
在網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)基座的有力支撐下,網(wǎng)絡(luò)部已完成四大運(yùn)維場(chǎng)景的數(shù)字化轉(zhuǎn)型:一是將傳統(tǒng)手工繪制的網(wǎng)絡(luò)拓?fù)鋱D升級(jí)到了網(wǎng)絡(luò)拓?fù)淇梢暬?;二是將傳統(tǒng)表格式的網(wǎng)絡(luò)資源管理升級(jí)到了應(yīng)用級(jí)的網(wǎng)絡(luò)資源可視化;三是將傳統(tǒng)的網(wǎng)絡(luò)定點(diǎn)抓包分析升級(jí)到了應(yīng)用級(jí)的網(wǎng)絡(luò)流量可視化;四是將傳統(tǒng)的經(jīng)驗(yàn)式故障定位升級(jí)到了清單化的自動(dòng)檢查定位。這些場(chǎng)景的數(shù)字化轉(zhuǎn)型幫助網(wǎng)絡(luò)運(yùn)維人員提高了網(wǎng)絡(luò)運(yùn)維管理的質(zhì)效。
網(wǎng)絡(luò)拓?fù)淇梢暬?/strong>
“每個(gè)公司都會(huì)有一個(gè)神一樣的網(wǎng)絡(luò)工程師,整個(gè)網(wǎng)絡(luò)拓?fù)?、每個(gè)IP網(wǎng)段、各個(gè)技術(shù)細(xì)節(jié)他都了然于胸,這個(gè)人不能休假,不能生病,更不能關(guān)機(jī),否則一旦遇到復(fù)雜問(wèn)題,其他人會(huì)手足無(wú)措。”這是一位網(wǎng)絡(luò)運(yùn)維老兵的感慨,也是所有運(yùn)維工作者的心聲。如何實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)鋱D的實(shí)時(shí)自動(dòng)更新,如何使故障排查搶修不再僅僅依靠某個(gè)人或某幾個(gè)人,如何使運(yùn)維經(jīng)驗(yàn)?zāi)軌蛳嗷ラg有效傳遞?我們通過(guò)網(wǎng)絡(luò)數(shù)據(jù)治理工作,理順了網(wǎng)絡(luò)資源相互間的關(guān)系,完成了網(wǎng)絡(luò)區(qū)域拓?fù)淇梢暬?,解決了這個(gè)難題。同時(shí),我們通過(guò)定期抓取和比對(duì)設(shè)備配置備份、表項(xiàng)等數(shù)據(jù),實(shí)現(xiàn)了70%以上網(wǎng)絡(luò)信息的自動(dòng)化采集和關(guān)聯(lián),結(jié)合定期人工校驗(yàn),確保了信息的準(zhǔn)確性。網(wǎng)絡(luò)拓?fù)淇梢暬軌驅(qū)?fù)雜的網(wǎng)絡(luò)架構(gòu)模塊化、層次化地展現(xiàn)給運(yùn)維人員,幫助運(yùn)維人員直觀認(rèn)知網(wǎng)絡(luò)環(huán)境,快速洞悉運(yùn)行狀態(tài)。
應(yīng)用視角的網(wǎng)絡(luò)資源可視化
網(wǎng)絡(luò)是一張四通八達(dá)的公路網(wǎng),將各個(gè)計(jì)算、存儲(chǔ)節(jié)點(diǎn)互聯(lián)起來(lái)。當(dāng)其承載的應(yīng)用發(fā)生異常時(shí),究竟涉及哪些網(wǎng)絡(luò)節(jié)點(diǎn),相互關(guān)聯(lián)的其他IT資源又有哪些,狀態(tài)及性能情況怎樣,如何快速定位復(fù)雜的故障原因,運(yùn)維人員往往無(wú)的放矢。2020年,我們理順了網(wǎng)絡(luò)資源與各類IT資源、應(yīng)用節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)了應(yīng)用級(jí)網(wǎng)絡(luò)配置信息的直觀展現(xiàn)。應(yīng)用級(jí)可視化能夠從應(yīng)用的視角直觀地展現(xiàn)應(yīng)用節(jié)點(diǎn)與直連交換機(jī)的關(guān)聯(lián)關(guān)系,應(yīng)用使用的廣域網(wǎng)線路、負(fù)載均衡、HTTPS加解密等各類網(wǎng)絡(luò)資源,以及應(yīng)用內(nèi)部交互途經(jīng)的網(wǎng)絡(luò)設(shè)備等各類信息,如圖1所示,是網(wǎng)絡(luò)運(yùn)維人員與系統(tǒng)、應(yīng)用、設(shè)備等運(yùn)維團(tuán)隊(duì)的溝通橋梁。特別在生產(chǎn)搶修場(chǎng)景中,應(yīng)用級(jí)可視化能夠幫助運(yùn)維人員快速了解故障應(yīng)用涉及的網(wǎng)絡(luò)資源,針對(duì)性地組織排查,是提升排障質(zhì)效的關(guān)鍵工具。
圖1應(yīng)用視角的網(wǎng)絡(luò)資源可視化
化繁為簡(jiǎn)的網(wǎng)絡(luò)流量可視化
一直以來(lái),網(wǎng)絡(luò)環(huán)境總是以一種“黑盒”形象出現(xiàn)在系統(tǒng)、應(yīng)用等運(yùn)維人員面前。流量分析數(shù)據(jù)量大、流量分析網(wǎng)絡(luò)部署成本高、流量監(jiān)控工具使用復(fù)雜,都是造成應(yīng)用級(jí)流量分析難以落地的重要原因。然而,隨著遠(yuǎn)程遙測(cè)、邊緣智能等技術(shù)的不斷發(fā)展,我們嘗試逐步突破原有瓶頸,探索建設(shè)全網(wǎng)流量可視化工具。
交換機(jī)的封裝遠(yuǎn)程端口鏡像(ERSPAN)提供了一種折中的解決方案,該方案通過(guò)交換機(jī)直接將流量數(shù)據(jù)收斂至TCP鏈接級(jí),雖然降低了一部分流量分析的顆粒度,但大大提升了流量分析實(shí)現(xiàn)的性價(jià)比。工具能夠產(chǎn)生全網(wǎng)的TCP流量全景視圖,展示數(shù)據(jù)流走向、時(shí)延等信息,如圖2所示,幫助網(wǎng)絡(luò)運(yùn)維人員快速洞察全網(wǎng)服務(wù)質(zhì)量,識(shí)別異常流量,輔助故障定界。
圖2局域網(wǎng)流量鏈接級(jí)可視化
清單革命后的網(wǎng)絡(luò)自動(dòng)化檢查
《清單革命》講述了一個(gè)復(fù)雜任務(wù)如何細(xì)分拆解,并在短時(shí)間內(nèi)通過(guò)團(tuán)隊(duì)協(xié)作精準(zhǔn)完成的方法,作者是美國(guó)白宮顧問(wèn)阿圖·葛文德。顯然,大型數(shù)據(jù)中心的應(yīng)急搶修工作也屬于這個(gè)范疇。根據(jù)清單革命的理念,結(jié)合網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)中臺(tái)、動(dòng)態(tài)基線、日志頻率識(shí)別等大數(shù)據(jù)和人工智能技術(shù),網(wǎng)絡(luò)部首先實(shí)現(xiàn)了各種網(wǎng)絡(luò)資源的自動(dòng)化檢查。已實(shí)現(xiàn)的網(wǎng)絡(luò)資源包括各種設(shè)備、線路、端口、域名、虛擬服務(wù)等10類。在此基礎(chǔ)上,運(yùn)維人員可以按照實(shí)際的排障場(chǎng)景,按需將網(wǎng)絡(luò)資源排列組合為網(wǎng)絡(luò)區(qū)域自檢、應(yīng)用系統(tǒng)關(guān)聯(lián)網(wǎng)絡(luò)資源自檢等。在實(shí)際使用過(guò)程中,網(wǎng)絡(luò)自動(dòng)化檢查模塊能夠在5分鐘內(nèi)完成一個(gè)網(wǎng)絡(luò)區(qū)域或者一套應(yīng)用系統(tǒng)所涉及網(wǎng)絡(luò)資源的自動(dòng)化檢查,高亮顯示運(yùn)行狀態(tài)、容量、日志等各類異常,如圖3所示,幫助網(wǎng)絡(luò)運(yùn)維人員在緊急事件發(fā)生后快速找到疑似的故障點(diǎn),提升排障效率。
圖3應(yīng)用系統(tǒng)相關(guān)網(wǎng)絡(luò)資源的自動(dòng)化檢查
交通銀行數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維的數(shù)字化轉(zhuǎn)型之路已經(jīng)起步,可以預(yù)見(jiàn),隨著越來(lái)越多的應(yīng)用場(chǎng)景將被挖掘、研發(fā)和部署。網(wǎng)絡(luò)運(yùn)維數(shù)字化轉(zhuǎn)型的成果將會(huì)為數(shù)據(jù)中心業(yè)務(wù)系統(tǒng)的保障能力帶來(lái)質(zhì)的飛躍,支撐金融科技高速發(fā)展。
(本文作者皆就職于交通銀行數(shù)據(jù)中心)