混合云之下,金融企業(yè)應(yīng)具備的分布式網(wǎng)絡(luò)監(jiān)控系統(tǒng)

云杉網(wǎng)絡(luò)
混合云分布式網(wǎng)絡(luò)監(jiān)控系統(tǒng)應(yīng)緊密結(jié)合業(yè)務(wù),向網(wǎng)絡(luò)智能運(yùn)維邁進(jìn)。為金融企業(yè)解決實(shí)際網(wǎng)絡(luò)監(jiān)控難題,規(guī)劃整體運(yùn)維、安全平臺(tái),避免重復(fù)建設(shè),補(bǔ)齊資源池內(nèi)網(wǎng)絡(luò)保障這一缺失板塊。

引言

經(jīng)過十多年的發(fā)展,企業(yè)在IT基礎(chǔ)設(shè)施以及云原生的業(yè)務(wù)應(yīng)用上穩(wěn)步推進(jìn)。上云業(yè)務(wù)規(guī)模增加,混合云中網(wǎng)絡(luò)變得更為復(fù)雜,企業(yè)對(duì)業(yè)務(wù)安全的訴求、行業(yè)主管部門監(jiān)管的要求有增無減。本方案介紹如何面向金融企業(yè)混合云環(huán)境,將網(wǎng)絡(luò)保障與應(yīng)用業(yè)務(wù)緊密結(jié)合建設(shè)有效的網(wǎng)絡(luò)監(jiān)控、分析系統(tǒng)。

混合云網(wǎng)絡(luò)監(jiān)控面臨的新挑戰(zhàn)

網(wǎng)絡(luò)監(jiān)控診斷并不是一個(gè)新的領(lǐng)域,其伴隨著網(wǎng)絡(luò)的發(fā)展始終存在。企業(yè)IT基礎(chǔ)設(shè)施部門對(duì)此也并不陌生,但在混合云、云原生環(huán)境中,網(wǎng)絡(luò)監(jiān)控診斷面臨新的挑戰(zhàn)。主要集中在:

·資源池內(nèi)的網(wǎng)絡(luò)監(jiān)控診斷

·網(wǎng)絡(luò)與業(yè)務(wù)應(yīng)用緊密結(jié)合

·網(wǎng)絡(luò)監(jiān)控架構(gòu)需要彈性擴(kuò)展

基于分布式技術(shù)的網(wǎng)絡(luò)流量監(jiān)控設(shè)計(jì)

傳統(tǒng)網(wǎng)絡(luò)監(jiān)控多集中在物理網(wǎng)絡(luò)側(cè),并且以集中處理為主,通過分光設(shè)備、端口鏡像等方式獲取網(wǎng)絡(luò)流量,在集中的分析設(shè)備上進(jìn)行處理。在混合云環(huán)境中,傳統(tǒng)方式已經(jīng)不能符合先進(jìn)基礎(chǔ)設(shè)施的要求,主要體現(xiàn)在:規(guī)模復(fù)雜、東西向流量大、擴(kuò)展性。

分布式流量采集處理

在云環(huán)境中,資源池內(nèi)的東西向流量交換是由軟件編寫,運(yùn)行在服務(wù)器計(jì)算節(jié)點(diǎn)上的虛擬交換機(jī)完成的。資源池化后,簡(jiǎn)單的通過采集點(diǎn)來繪制業(yè)務(wù)訪問路徑失效。虛擬交換機(jī)數(shù)量巨大,流量數(shù)據(jù)也不可能再進(jìn)行匯聚和集中處理。迫切需要通過新型的流量采集進(jìn)行云網(wǎng)內(nèi)的流量獲取,分布式架構(gòu)是一個(gè)合理且可擴(kuò)展的設(shè)計(jì)方案。

分布式計(jì)算系統(tǒng)中,流量采集器不僅要具備采集網(wǎng)絡(luò)流量的要求,同時(shí)也要作為本地流量的處理操作單元,這樣分布在各個(gè)資源池內(nèi)的采集器,既能避免集中處理的性能瓶頸,同時(shí)也避免單點(diǎn)故障。即使單一采集器出現(xiàn)了故障或者性能瓶頸,也僅影響本地資源池流量的獲取及處理。

另外,采集器需為分布式計(jì)算系統(tǒng)提供統(tǒng)一的抽象處理能力,包括去重、過濾、壓縮、截?cái)?、?biāo)記等。形成網(wǎng)絡(luò)流量的采集處理抽象層,對(duì)于網(wǎng)絡(luò)流量數(shù)據(jù)的分析消費(fèi)透明,明確分層解耦。

分布式網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)查詢

在分布式數(shù)據(jù)平臺(tái)設(shè)計(jì)中,主要分為數(shù)據(jù)應(yīng)用層、數(shù)據(jù)服務(wù)層、數(shù)據(jù)接入層以及時(shí)序數(shù)據(jù)庫(kù)存儲(chǔ)層。應(yīng)用層向消費(fèi)端提供數(shù)據(jù)應(yīng)用,在混合云的網(wǎng)絡(luò)數(shù)據(jù)平臺(tái)中,主要提供網(wǎng)絡(luò)性能、異常以及智能趨勢(shì)應(yīng)用。服務(wù)層抽象平臺(tái)各類服務(wù),包括登錄、回溯、預(yù)測(cè)、查詢等,供應(yīng)用調(diào)取。分布式時(shí)序數(shù)據(jù)庫(kù),在所在區(qū)域內(nèi)實(shí)現(xiàn)數(shù)據(jù)冗余存儲(chǔ)。

對(duì)于全網(wǎng)流量獲取和處理后,可以形成流日志等數(shù)據(jù),供其他數(shù)據(jù)平臺(tái)、可視化平臺(tái)調(diào)用,提供對(duì)整體網(wǎng)絡(luò)性能、異常、趨勢(shì)等數(shù)據(jù)應(yīng)用。

網(wǎng)絡(luò)流量獲取及預(yù)處理

在生產(chǎn)環(huán)境中,獲取混合云、云原生環(huán)境中的網(wǎng)絡(luò)流、數(shù)據(jù)包并非易事,基于分布式架構(gòu),在可擴(kuò)展網(wǎng)絡(luò)監(jiān)控框架下,流量采集與后端監(jiān)控分析實(shí)現(xiàn)解耦,在采集側(cè)需要支持物理網(wǎng)絡(luò)、KVM、ESXi、容器等資源池網(wǎng)絡(luò)環(huán)境,為全網(wǎng)流量采集方案提供基礎(chǔ)捕獲能力。

平臺(tái)控制中樞

對(duì)于多數(shù)據(jù)中心、多云異構(gòu)的混合云基礎(chǔ)設(shè)施,面臨采集器的數(shù)量巨大的問題,如在容器環(huán)境中,單一資源池?fù)碛?0-100臺(tái)物理計(jì)算節(jié)點(diǎn),運(yùn)行10000-20000個(gè)Pod單元。

對(duì)混合云的整體網(wǎng)絡(luò)監(jiān)控也需要提供統(tǒng)一的服務(wù)提供點(diǎn)。控制器是整個(gè)平臺(tái)的控制中樞,以集群方式部署并具備高可用能力。在多點(diǎn)環(huán)境部署時(shí),要充分考慮管理策略、采集策略、分發(fā)策略、預(yù)處理策略的同步和一致性。多數(shù)分支機(jī)構(gòu)通常不需要獨(dú)立部署控制器,可以按實(shí)際情況,將采集器劃分在附近區(qū)域的控制器管理下。

公有云環(huán)境中,控制器部署在虛擬機(jī)中,管理范圍內(nèi)的采集器。

數(shù)據(jù)節(jié)點(diǎn)

網(wǎng)絡(luò)流量數(shù)據(jù)是典型的時(shí)間序列數(shù)據(jù),同時(shí)具備相應(yīng)的網(wǎng)絡(luò)特性。滿足網(wǎng)絡(luò)監(jiān)控診斷要求,需要具備對(duì)所存儲(chǔ)的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分組聚合,提供高性能查詢能力,展示網(wǎng)絡(luò)趨勢(shì)、規(guī)律、異常等。數(shù)據(jù)節(jié)點(diǎn)分布式運(yùn)行網(wǎng)絡(luò)時(shí)序數(shù)據(jù)庫(kù),為平臺(tái)提供時(shí)序數(shù)據(jù)的快速寫入、持久化、多緯度的聚合查詢等基本功能。

此外,云環(huán)境中所固有的彈性也要求時(shí)序數(shù)據(jù)庫(kù)需要支持彈性伸縮。

網(wǎng)絡(luò)知識(shí)圖譜

在網(wǎng)絡(luò)監(jiān)控所涉及到的分析對(duì)象中,將最終鉆取到的具體數(shù)據(jù)包看做是“點(diǎn)”,提供深入詳細(xì)的協(xié)議識(shí)別,異常排查證據(jù)。完整的業(yè)務(wù)訪問路徑,一條網(wǎng)絡(luò)流則是由多個(gè)“點(diǎn)”連成的“線”。在路徑中包括鏈路、防火墻、負(fù)載均衡、服務(wù)等信息,是網(wǎng)絡(luò)保障業(yè)務(wù)穩(wěn)定運(yùn)行的關(guān)鍵視角。流信息包含了關(guān)鍵的網(wǎng)絡(luò)元數(shù)據(jù)。

“點(diǎn)”與“線”在傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控方案中很常見,在混合云環(huán)境中,只要能采集到相應(yīng)的現(xiàn)網(wǎng)流量,展現(xiàn)及分析都變化不大。但在多地?cái)?shù)據(jù)中心、資源池化,并且涉及公有云資源,專線鏈路的IT環(huán)境,市場(chǎng)上缺少全局的網(wǎng)絡(luò)狀態(tài)視角,這并不是一個(gè)單純的統(tǒng)計(jì)匯總視角,而是一張關(guān)聯(lián)IaaS資源、PaaS資源、服務(wù)應(yīng)用的知識(shí)圖譜。

在網(wǎng)絡(luò)監(jiān)控診斷的過程中,不同崗位,不同階段運(yùn)用不同的操作以及有不同的關(guān)注點(diǎn)。知識(shí)圖譜包含網(wǎng)絡(luò)所涉及的對(duì)象實(shí)體映射關(guān)系,顯示結(jié)構(gòu)拓?fù)渑c現(xiàn)網(wǎng)流量的一系列不同視角的視圖展示,應(yīng)用可視化技術(shù)描述資源實(shí)體及搜索技術(shù)提供更深度更廣度的搜索交互。

在混合云網(wǎng)絡(luò)中,通過有效的網(wǎng)絡(luò)流量采集、數(shù)據(jù)分類存儲(chǔ)以及網(wǎng)絡(luò)“面”、“線”、“點(diǎn)”的緊密結(jié)合,以應(yīng)對(duì)企業(yè)網(wǎng)絡(luò)監(jiān)控診斷的挑戰(zhàn)。

容器網(wǎng)絡(luò)監(jiān)控診斷場(chǎng)景

云原生系統(tǒng)發(fā)展迅速,大量企業(yè)已經(jīng)將容器環(huán)境投入至生產(chǎn),有效的容器網(wǎng)絡(luò)保障是迫切的需求。本節(jié)以Kubernetes環(huán)境為例,解決網(wǎng)絡(luò)監(jiān)控診斷的難題。

在容器環(huán)境部署及管理方案中,對(duì)于系統(tǒng)監(jiān)控報(bào)警會(huì)更多地關(guān)注開源項(xiàng)目Prometheus,客戶嘗試其結(jié)合Grafana 、Zabbix以解決容器網(wǎng)絡(luò)監(jiān)控保障的難題,雖然涉及到一部分網(wǎng)絡(luò)指標(biāo),但對(duì)于深入的網(wǎng)絡(luò)需求,以及規(guī)模擴(kuò)容后,對(duì)采集器控制、采集精度、關(guān)聯(lián)分析等有更高的要求,以上是存在瓶頸的。

如上圖所示,容器網(wǎng)絡(luò)流量通過采集器進(jìn)行獲取,支持虛擬機(jī),物理服務(wù)器做為計(jì)算節(jié)點(diǎn)的部署環(huán)境,物理網(wǎng)絡(luò)流量由分光鏡像獲取;對(duì)于容器環(huán)境,建議以Pod為單元獲取網(wǎng)絡(luò)流量,從而實(shí)現(xiàn)對(duì)全網(wǎng)流量數(shù)據(jù)的獲取。

容器網(wǎng)絡(luò)的監(jiān)控診斷,最大的挑戰(zhàn)是其固有的波動(dòng)特性,全網(wǎng)的流量數(shù)據(jù)以及網(wǎng)絡(luò)知識(shí)圖譜保證對(duì)全網(wǎng)狀態(tài)的可視化,此外針對(duì)重點(diǎn)業(yè)務(wù)應(yīng)用,需要將其納入視圖進(jìn)行持續(xù)關(guān)注。包含完整的容器資源、應(yīng)用、網(wǎng)絡(luò)幾個(gè)維度才能完整繪制出業(yè)務(wù)的端到端網(wǎng)絡(luò)路徑。

如何對(duì)業(yè)務(wù)進(jìn)行畫像,是描述業(yè)務(wù)應(yīng)用網(wǎng)絡(luò)訪問路徑的關(guān)鍵。不同于傳統(tǒng)物理網(wǎng)絡(luò)中通過探針位置定位網(wǎng)絡(luò)路徑,在池化后的網(wǎng)絡(luò)環(huán)境中,采集器將面向整個(gè)資源池,涵蓋所有的Pod資源,并且要面對(duì)容器自身的波動(dòng)性。對(duì)業(yè)務(wù)的監(jiān)控要涵蓋業(yè)務(wù)應(yīng)用所涉及的全部資源。

通過業(yè)務(wù)所涉資源的描述,資源池內(nèi)的流量將按此規(guī)則過濾,實(shí)現(xiàn)業(yè)務(wù)應(yīng)用端到端訪問的網(wǎng)絡(luò)監(jiān)控與診斷。 在整條路徑中,分段排查網(wǎng)絡(luò)狀態(tài),快速縮小問題范圍,定位異常原因。網(wǎng)絡(luò)圖譜中,區(qū)域、節(jié)點(diǎn)、POD、IP等多維度的網(wǎng)絡(luò)狀態(tài)查詢展示,不斷縮小范圍,回溯定位網(wǎng)絡(luò)流、數(shù)據(jù)包進(jìn)行分析取證。

總結(jié)

混合云分布式網(wǎng)絡(luò)監(jiān)控系統(tǒng)應(yīng)緊密結(jié)合業(yè)務(wù),向網(wǎng)絡(luò)智能運(yùn)維邁進(jìn)。為金融企業(yè)解決實(shí)際網(wǎng)絡(luò)監(jiān)控難題,規(guī)劃整體運(yùn)維、安全平臺(tái),避免重復(fù)建設(shè),補(bǔ)齊資源池內(nèi)網(wǎng)絡(luò)保障這一缺失板塊。

題圖來源:Pixabay

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論