摘要:為了支持智能化網(wǎng)絡(luò)計算和虛擬化網(wǎng)絡(luò)功能部署,新一代智能交換機(jī)通過在現(xiàn)有交換機(jī)架構(gòu)的基礎(chǔ)上加入智能交換板以及相應(yīng)的數(shù)據(jù)包處理框架,為用戶提供高性能、高通量、通用化的網(wǎng)絡(luò)服務(wù)軟硬件支撐平臺。
作為近些年來熱門的研究話題,人工智能(AI)已經(jīng)融入到日常生活的方方面面,一個AI無處不在的新時代已經(jīng)到來。在分布式計算機(jī)系統(tǒng)中,無論是中心云服務(wù)器還是邊緣計算服務(wù)器都變得更加智能,然而,連接云服務(wù)器與邊緣服務(wù)器并控制著數(shù)據(jù)傳遞的互聯(lián)網(wǎng)本身卻是最后一個不包含AI的領(lǐng)域之一。在互聯(lián)網(wǎng)設(shè)計之初,各種硬件設(shè)施異常昂貴,設(shè)計者認(rèn)為互聯(lián)網(wǎng)應(yīng)只具有最小的傳輸能力,卻從未想過會發(fā)展到如今如此龐大的規(guī)模。網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)中的任何細(xì)微調(diào)整都會產(chǎn)生連鎖反應(yīng),從而可能危及整個網(wǎng)絡(luò)秩序。
盡管有歷史遺留問題,AI浪潮已經(jīng)開始沖擊網(wǎng)絡(luò)的某些領(lǐng)域。例如,部署云和大數(shù)據(jù)設(shè)施,通過收集、分析和推斷與用戶、應(yīng)用程序、設(shè)備或網(wǎng)絡(luò)流量有關(guān)的網(wǎng)絡(luò)數(shù)據(jù)來進(jìn)行網(wǎng)絡(luò)系統(tǒng)級集中式智能。除此之外,也有許多研究工作從智能網(wǎng)絡(luò)流量分析和預(yù)測、智能網(wǎng)絡(luò)資源管理、智能路由規(guī)劃和故障診斷,甚至智能體驗質(zhì)量設(shè)置等方面探索AI如何影響網(wǎng)絡(luò)功能。值得注意的是,所有上述智能算法都是在假設(shè)存在運行這些算法的中央服務(wù)器或云服務(wù)器的情況下提出的。網(wǎng)絡(luò)內(nèi)智能的缺失不僅浪費網(wǎng)絡(luò)帶寬,還使得對網(wǎng)絡(luò)事件的響應(yīng)速度變慢。為突破AI進(jìn)入網(wǎng)絡(luò)基礎(chǔ)設(shè)施的障礙,同時又不違反互聯(lián)網(wǎng)基本的“端到端”原則,需要重新設(shè)計和創(chuàng)新交換機(jī)架構(gòu):將網(wǎng)絡(luò)智能部署在網(wǎng)絡(luò)中間節(jié)點上,以實現(xiàn)對網(wǎng)絡(luò)事件的在線識別和網(wǎng)絡(luò)策略的本地執(zhí)行。
智能網(wǎng)絡(luò)時代的網(wǎng)元平臺
借力于各類高新技術(shù)產(chǎn)業(yè)的發(fā)展以及新型網(wǎng)絡(luò)技術(shù)的提出,將AI融入互聯(lián)網(wǎng)的條件已趨于成熟:存儲以及計算資源價格大幅度降低,使得網(wǎng)絡(luò)交換機(jī)可以配備功能強(qiáng)大的CPU甚至是GPU;NFV允許網(wǎng)絡(luò)功能高速開發(fā),并且消除了對專有或特定硬件的依賴;各類開源深度學(xué)習(xí)平臺針對CPU和GPU提供了計算密集型的AI算法,為AI算法在網(wǎng)絡(luò)內(nèi)部署提供了無縫的方式。為了支持智能化網(wǎng)絡(luò)計算和虛擬化網(wǎng)絡(luò)功能部署,新一代智能交換機(jī)通過在現(xiàn)有交換機(jī)架構(gòu)的基礎(chǔ)上加入智能交換板以及相應(yīng)的數(shù)據(jù)包處理框架,為用戶提供高性能、高通量、通用化的網(wǎng)絡(luò)服務(wù)軟硬件支撐平臺。
1. 智能交換機(jī)的硬件設(shè)計
圖 1展示了智能交換機(jī)的邏輯硬件架構(gòu),主要包括交換線卡、管理線卡、網(wǎng)板、背板和智能計算線卡。其中,背板用于連接主控線卡、網(wǎng)板、交換線卡和風(fēng)扇電源等,提供插卡的供電、數(shù)據(jù)、管理、控制平面的各種通道;交換線卡提供業(yè)務(wù)傳輸?shù)耐獠课锢斫涌?,完成?shù)據(jù)接收和發(fā)送;網(wǎng)板主要負(fù)責(zé)跨接口單板卡之間的數(shù)據(jù)轉(zhuǎn)發(fā)交換,負(fù)責(zé)各接口板之間報文的交換、分發(fā)、調(diào)度、控制;管理線卡提供設(shè)備的管理和控制功能,根據(jù)用戶的操作指令來管理系統(tǒng)、監(jiān)視性能,并向用戶反饋設(shè)備運行情況;智能計算線卡接收交換線卡的業(yè)務(wù)數(shù)據(jù),提供通用的計算存儲資源以及高性能數(shù)據(jù)包抓取、解析、處理框架,根據(jù)部署的網(wǎng)絡(luò)服務(wù)執(zhí)行相應(yīng)的計算任務(wù)。
圖 1 智能網(wǎng)絡(luò)交換機(jī)的硬件結(jié)構(gòu)
在上述硬件架構(gòu)下,通過配置ACL規(guī)則可以將業(yè)務(wù)流量從交換線卡,經(jīng)由內(nèi)部交換網(wǎng)板鏡像至智能計算板。在智能計算板上利用DPDK的零拷貝、CPU親和性以及大頁內(nèi)存等特性提供高效的數(shù)據(jù)包抓取與解析處理功能。同時利用多核CPU的并行特性,提供流模式下的序列處理功能,避免流模式下多核并行的同步操作。為了進(jìn)一步提高數(shù)據(jù)包處理的性能,智能計算板上還配備了通用GPU,通過GPU的高并發(fā)特性支持高通量場景下的數(shù)據(jù)包過濾、正則匹配、特征提取等功能,同時利用GPU的計算資源為基于AI的網(wǎng)絡(luò)應(yīng)用提供平臺。
2. 高性能網(wǎng)絡(luò)流量處理框架
如圖 2所示,智能交換機(jī)的流量處理框架由數(shù)據(jù)平面、知識平面和管控平面三個部分組成,完成對流量感知、學(xué)習(xí)和策略分發(fā)的一體化流程。
圖 2 智能交換機(jī)的軟件框架
數(shù)據(jù)平面主要包括數(shù)據(jù)包捕獲和特征提取兩個模塊。數(shù)據(jù)包捕獲模塊通過匹配數(shù)據(jù)包中端口、協(xié)議和IP地址等字段,篩選出屬于同一條流的數(shù)據(jù)包。在高速網(wǎng)絡(luò)中,匹配過程通常使用多個線程并行操作。特征提取模塊從原始數(shù)據(jù)包提取包含更多信息的特征數(shù)據(jù),這些特征數(shù)據(jù)包括結(jié)構(gòu)特征,統(tǒng)計特征和隱含特征。結(jié)構(gòu)特征是指原始數(shù)據(jù)包中包含協(xié)議、IP地址和服務(wù)類型等的包頭信息,統(tǒng)計特征是包括包大小、包間持續(xù)時間等的統(tǒng)計特征。隱藏特征是指數(shù)據(jù)包中數(shù)據(jù)的潛在屬性,這些屬性可以被卷積神經(jīng)網(wǎng)絡(luò)提取。
知識平面是指利用AI算法深入解析來自數(shù)據(jù)平面的特征數(shù)據(jù),從而分析網(wǎng)絡(luò)實體和網(wǎng)絡(luò)應(yīng)用的行為。具體來說,通過解析統(tǒng)計特征,可以實時觀測網(wǎng)絡(luò)動態(tài),實現(xiàn)流量可視化;通過學(xué)習(xí)不同應(yīng)用程序的不同模式,可以實現(xiàn)應(yīng)用分類功能;通過學(xué)習(xí)網(wǎng)絡(luò)實體的正常行為,偏離正常行為即檢測為異常,可以實現(xiàn)攻擊檢測功能;通過分析網(wǎng)絡(luò)實體的事件日志,可以實現(xiàn)故障檢測功能。
管控平面是指利用知識平面的分析結(jié)果,對于不同的流量執(zhí)行不同的控制策略。這些控制策略包括流攔截、轉(zhuǎn)發(fā)調(diào)度和帶寬分配等。流攔截是指丟棄非法數(shù)據(jù)包,從而可以快速防御網(wǎng)絡(luò)攻擊。轉(zhuǎn)發(fā)調(diào)度是指借助交換機(jī)本地主控卡,動態(tài)調(diào)整轉(zhuǎn)發(fā)信息庫(FIB)的轉(zhuǎn)發(fā)端口,它還支持為某些應(yīng)用程序分配帶寬和優(yōu)先級,以滿足特定應(yīng)用的服務(wù)質(zhì)量(QoS)要求。通過遠(yuǎn)程進(jìn)程調(diào)用(PRC)協(xié)議,網(wǎng)絡(luò)管理者可以靈活地部署他們制定的控制策略。
AI賦能網(wǎng)絡(luò)的應(yīng)用場景
下面是目前人工智能應(yīng)用在網(wǎng)絡(luò)領(lǐng)域的一些典型場景。應(yīng)該說,將人工智能技術(shù)應(yīng)用于網(wǎng)絡(luò)領(lǐng)域前景非常廣闊,應(yīng)用場景也非常豐富,隨著技術(shù)的進(jìn)一步發(fā)展,場景還會不斷增多。
1. 智能安全檢測系統(tǒng)
傳統(tǒng)的基于規(guī)則和特征匹配的安全檢測方法難以處理加密流量和零日攻擊的檢測問題。AI算法因其特有的泛化能力,基于AI的異常檢測和攻擊分類算法受到了廣泛的研究。此外通過研究深度學(xué)習(xí)模型增量更新的能力,可以實現(xiàn)檢測模型的自我更新,最大程度上減少分析攻擊樣本、提取攻擊特征的人工代價。圖 3展示了基于深度學(xué)習(xí)的自演進(jìn)安全檢測框架,通過初始樣本訓(xùn)練的檢測器,能夠在部署階段從環(huán)境中檢測并收集未知攻擊樣本,再利用新樣本更新模型,實現(xiàn)學(xué)習(xí)與檢測的閉環(huán)。這一過程主要包括未知攻擊檢測和增量學(xué)習(xí)兩個主要過程。
圖 3 基于深度學(xué)習(xí)的智能安全檢測框架
未知攻擊檢測過程可以采用貝葉斯神經(jīng)網(wǎng)絡(luò)作為檢測模型,貝葉斯神經(jīng)網(wǎng)絡(luò)通過在神經(jīng)網(wǎng)絡(luò)的權(quán)重上引入分布使得神經(jīng)網(wǎng)絡(luò)不僅能給出流量的檢測結(jié)果,還能給出檢測結(jié)果的不確定性。已知攻擊產(chǎn)生的檢測結(jié)果不確定性較小,未知攻擊的檢測結(jié)果不確定性大,將不確定性較大的流量判定為未知攻擊流量,交由人工篩選。人工篩選出未知攻擊和識別錯誤的已知攻擊,并打上正確的標(biāo)簽。利用這些新樣本數(shù)據(jù),檢測模型一方面不斷更新舊知識以提高檢測準(zhǔn)確率,另一方面學(xué)習(xí)新知識,實現(xiàn)對未知攻擊的精確分類。
2. 網(wǎng)絡(luò)智能優(yōu)化
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,不同類型的數(shù)據(jù)包充斥著整個網(wǎng)絡(luò),紛繁復(fù)雜的應(yīng)用服務(wù)有著不同的業(yè)務(wù)需求:直播服務(wù)在追求低延時的同時期望擁有更高的畫質(zhì),云計算服務(wù)需要在用戶容忍時間內(nèi)更快速地將結(jié)果返回給用戶,云存儲以及文件傳輸服務(wù)則需要保持連接的穩(wěn)定。TCP擁塞控制依舊是當(dāng)下主流的網(wǎng)絡(luò)自調(diào)節(jié)方式,但由于TCP無法感知業(yè)務(wù)類型,也不能感知網(wǎng)絡(luò)狀態(tài),使其無法智能調(diào)控不同流量占比,嚴(yán)重影響網(wǎng)絡(luò)傳輸效率。
作為部署在網(wǎng)絡(luò)中的智能節(jié)點,智能網(wǎng)絡(luò)交換機(jī)可以感知不同流量的業(yè)務(wù)類型,利用基于深度學(xué)習(xí)的方法,實現(xiàn)智能網(wǎng)絡(luò)流量控制。在各個局域網(wǎng)中部署中央控制器,用于收集以及廣播網(wǎng)絡(luò)狀態(tài)信息,同時也需要對全局所有智能交換機(jī)做出的決策進(jìn)行評估;每個智能交換機(jī)上部署決策器,在基于本地以及全局網(wǎng)絡(luò)狀態(tài)的基礎(chǔ)上做出獨立決策,并利用中央控制器給出的評估值訓(xùn)練其決策器。通過網(wǎng)絡(luò)中的迭代訓(xùn)練,提高智能交換機(jī)的管控能力,進(jìn)而優(yōu)化網(wǎng)絡(luò)流量分布,提高用戶體驗。
3. 網(wǎng)絡(luò)智能運維
早期的運維工作大多是依靠運維人員的經(jīng)驗完成的,成本高且效率低下。智能運維借助大數(shù)據(jù)和AI算法賦能,對IT運維數(shù)據(jù)進(jìn)行深入解析,從而實現(xiàn)故障檢測和故障溯源等功能,受到了廣泛的關(guān)注。
圖 4 基于LSTM模型的網(wǎng)絡(luò)故障檢測流程圖
運維數(shù)據(jù)大部分以日志形式出現(xiàn),在計算機(jī)系統(tǒng)中,日志常用來輸出各設(shè)備的狀態(tài)信息,通過分析這些日志,可以檢測故障。如圖 4所示,智能化檢測方法提取日志模板序列,進(jìn)行編碼生成語義向量,最后利用深度學(xué)習(xí)算法(如LSTM模型)學(xué)習(xí)這些語義向量,從而自動檢測故障,可以減少人力成本。對于大型的數(shù)據(jù)中心,網(wǎng)絡(luò)設(shè)備眾多并且存在耦合關(guān)系,單個設(shè)備發(fā)生故障,其他眾多與之存在耦合關(guān)系的設(shè)備其關(guān)鍵指標(biāo)(KPI)也會隨之表現(xiàn)出異常狀態(tài),因此對故障溯源具有重要意義。通過構(gòu)建運維知識圖譜,發(fā)掘網(wǎng)絡(luò)設(shè)備之間的關(guān)聯(lián)關(guān)系,并計算相互耦合的設(shè)備之間的關(guān)聯(lián)系數(shù)。從而在某個設(shè)備KPI發(fā)生異常時實現(xiàn)故障的自動溯源。
結(jié)束語
AI嵌入網(wǎng)絡(luò)基礎(chǔ)設(shè)施,實現(xiàn)網(wǎng)絡(luò)運行的智能化,使得交換結(jié)構(gòu)朝著適應(yīng)網(wǎng)絡(luò)智能的方向發(fā)展。與現(xiàn)有的交換機(jī)架構(gòu)不同,通過引入智能平面,智能網(wǎng)絡(luò)交換機(jī)可以在繼承原有的數(shù)據(jù)平面和控制平面的同時,增加支撐智能計算的可插拔模塊,在不增加現(xiàn)有基礎(chǔ)設(shè)施的情況下,實現(xiàn)以低成本的方式升級現(xiàn)有的網(wǎng)絡(luò)。