云計算數(shù)據(jù)中心的網(wǎng)絡(luò)運維包括兩個方面,即數(shù)據(jù)中心網(wǎng)絡(luò)管理員運維和租戶網(wǎng)絡(luò)管理員運維兩個不同的視角。數(shù)據(jù)中心網(wǎng)絡(luò)運維包括從安裝部署、業(yè)務(wù)發(fā)放、故障定界定位、狀態(tài)監(jiān)控到網(wǎng)絡(luò)變更的整個生命周期。不同的運維視角有不同的運維要求,但簡單、高效、開放、可視的數(shù)據(jù)中心網(wǎng)絡(luò),是運維對于數(shù)據(jù)中心網(wǎng)絡(luò)的基本要求。
網(wǎng)絡(luò)運維要求
數(shù)據(jù)中心網(wǎng)絡(luò)運維涵蓋了除業(yè)務(wù)發(fā)放之外的網(wǎng)絡(luò)安裝部署、故障定位、質(zhì)量監(jiān)控、升級擴容等。數(shù)據(jù)中心的運維的核心問題是在成本、效率和質(zhì)量三者之間取得平衡,并沿著標準化->自動化->智能化的方向演進,最終達到是自動化、可視化和智能化的總體運維目標。
自動化
運維自動化主要解決網(wǎng)絡(luò)業(yè)務(wù)配置量大、上線周期長的問題,主要包括:
設(shè)備零配置開局:提供設(shè)備自動安裝部署功能,加快設(shè)備部署效率;通過批量掃描、納管設(shè)備,壓縮業(yè)務(wù)布放準備時間。
網(wǎng)絡(luò)服務(wù)自動化:包括二三層網(wǎng)絡(luò)配置的自動化下發(fā)和四層-七層增值業(yè)務(wù)的自動化對接和配置。
設(shè)備替換自動配置:備件替換時,設(shè)備配置自動化下發(fā)。
配置一致性檢查:包括SDN控制器北向與云計算管理平臺、南向與設(shè)備的配置一致性檢查。
可視化
運維可視化主要解決網(wǎng)絡(luò)故障定界和定位困難的問題,主要包括:
網(wǎng)絡(luò)和計算資源可視:包括整網(wǎng)資源、邏輯網(wǎng)絡(luò)資源、設(shè)備資源、計算節(jié)點位置信息等可視化。
網(wǎng)絡(luò)拓撲可視:包括應(yīng)用網(wǎng)絡(luò)拓撲可視、邏輯網(wǎng)絡(luò)拓撲可視和物理網(wǎng)絡(luò)拓撲可視,以及上述三層網(wǎng)絡(luò)拓撲的互視。
業(yè)務(wù)路徑可視:包括業(yè)務(wù)實際轉(zhuǎn)發(fā)路徑的呈現(xiàn)、VTEP間的ECMP多路徑探測、業(yè)務(wù)連通性檢測(MAC/IP Ping、IP Trace)、網(wǎng)絡(luò)邊緣的環(huán)路檢測。
智能化
運維智能化是運維發(fā)展方向,主要包括:
環(huán)路檢測:智能檢測網(wǎng)絡(luò)中的環(huán)路,降低環(huán)路對業(yè)務(wù)網(wǎng)絡(luò)造成的影響。
服務(wù)質(zhì)量檢測:網(wǎng)絡(luò)業(yè)務(wù)質(zhì)量隨流可視,智能計算網(wǎng)絡(luò)服務(wù)質(zhì)量。
大數(shù)據(jù)運維:智能網(wǎng)流分析系統(tǒng)通過對網(wǎng)絡(luò)流量進行數(shù)據(jù)采集和大數(shù)據(jù)分析,實現(xiàn)流量趨勢預(yù)測、網(wǎng)絡(luò)故障自愈、網(wǎng)絡(luò)性能調(diào)優(yōu)等功能。
智能化的網(wǎng)絡(luò)運維也對可視化和自動化提出了更高的要求,主要包括:
1)可視化:看得見、看得清
“看得見”包含兩個含義:觀察的對象、觀察的實時性。觀察的對象不僅要支持觀察物理設(shè)備、接口、鏈路等物理對象,同時還要支持觀察報文轉(zhuǎn)發(fā)路徑、業(yè)務(wù)交互關(guān)系和質(zhì)量等邏輯對象;觀察的實時性則是要支持對毫秒級現(xiàn)象的感知,如識別網(wǎng)絡(luò)中的微突發(fā)流量擁塞現(xiàn)象。而“看得清”則意味著針對觀察的準確性,一方面需要采集海量數(shù)據(jù),另一方面針對這些海量數(shù)據(jù)進行實時分析,識別異常的業(yè)務(wù)流。
2)自動化排障:主動分析、自動排障
運維系統(tǒng)應(yīng)能及時、主動、智能地發(fā)現(xiàn)網(wǎng)絡(luò)中存在的故障,就需要能自主地對海量數(shù)據(jù)進行分析,識別出網(wǎng)絡(luò)中的異常事件,例如識別出業(yè)務(wù)連通性問題、流量擁塞端口等。并結(jié)合機器學習算法,決策是否生成故障模型推薦給用戶。對于自動化排障,則要求運維系統(tǒng)能基于故障數(shù)據(jù)的分析、以及對故障案例庫的自學習,根據(jù)不同的故障模式編排出用戶可執(zhí)行的排障任務(wù)鏈,從而將故障定位定界時長從天級、小時級降低到分鐘級。