從云到AI,數(shù)據(jù)中心邁向“超燃”新時(shí)代

華為網(wǎng)絡(luò)
越來(lái)越多的應(yīng)用運(yùn)行在云上,數(shù)據(jù)中心做為數(shù)字化的基礎(chǔ)架構(gòu)重要性不言而喻,而DCI作為支撐性的基礎(chǔ),一旦故障影響嚴(yán)重。DCI引入高效智能運(yùn)維,實(shí)現(xiàn)從人工到自動(dòng),從被動(dòng)到主動(dòng)的運(yùn)維轉(zhuǎn)變是必然的選擇。
  數(shù)據(jù)中心業(yè)務(wù)正在走向云和智能時(shí)代
 
  在過去的十年中,數(shù)據(jù)中心業(yè)務(wù)已從以WEB服務(wù)為中心走向以云服務(wù)為中心,今天,數(shù)據(jù)中心正從云計(jì)算時(shí)代走向智能時(shí)代。數(shù)字化過程中不斷產(chǎn)生的海量數(shù)據(jù),如何完成海量數(shù)據(jù)的篩選和有用信息的自動(dòng)重組,通過AI從海量數(shù)據(jù)中挖掘智慧成為智能時(shí)代不變的主題,云智能時(shí)代已經(jīng)到來(lái)。華為GIV(Global Industry Vision)預(yù)測(cè),到2025年,97%的大企業(yè)將采用AI,人機(jī)協(xié)創(chuàng)無(wú)所不在,AI成為企業(yè)數(shù)字化轉(zhuǎn)型的下一站,利用AI助力決策、重塑商業(yè)模式與生態(tài)系統(tǒng)、重建客戶體驗(yàn)的能力將是數(shù)字化轉(zhuǎn)型計(jì)劃取得成功的關(guān)鍵推動(dòng)力。
 
 
  數(shù)字化過程中將產(chǎn)生大量的數(shù)據(jù),華為GIV預(yù)測(cè),2025年全球存儲(chǔ)數(shù)據(jù)量將高達(dá)180ZB,其中非結(jié)構(gòu)化數(shù)據(jù)(比如原始采集的語(yǔ)音、視頻、圖片等未加工數(shù)據(jù))比例持續(xù)提高,未來(lái)將達(dá)到95%以上,基于人工處理的大數(shù)據(jù)分析處理方法無(wú)法應(yīng)對(duì)如此的海量數(shù)據(jù),而基于機(jī)器運(yùn)算進(jìn)行深度學(xué)習(xí)的AI算法,可以完成海量無(wú)效數(shù)據(jù)的篩選和有用信息的自動(dòng)重組,從而提供更加高效的決策建議和更加智慧化的行為指引。云和智能時(shí)代企業(yè)DC的使命正在從聚焦業(yè)務(wù)快速發(fā)放向聚焦數(shù)據(jù)高效處理進(jìn)行轉(zhuǎn)變。
 
 
  伴隨著AI的熱潮,深度學(xué)習(xí)服務(wù)器集群涌現(xiàn),以及各種SSD等高性能新型存儲(chǔ)介質(zhì)的發(fā)展,對(duì)通信時(shí)延提出了更高的要求(us級(jí))。例如金融領(lǐng)域高頻交易(HFT)的性能敏感型環(huán)境中,低時(shí)延是處理巨大交易容量的關(guān)鍵。NASDAQ一筆訂單的最快成交速度是100微秒左右,通信時(shí)延成為數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)需要考慮的首要因素,需要從兩個(gè)方面降低時(shí)延:
 
  服務(wù)器內(nèi)部通信協(xié)議棧變革首當(dāng)其沖。在AI數(shù)據(jù)運(yùn)算和SSD分布式存儲(chǔ)系統(tǒng)中,傳統(tǒng)的TCP/IP協(xié)議棧處理所需的數(shù)十微秒固定時(shí)延成為明顯的瓶頸,RDMA替代TCP/IP成為大勢(shì)所趨。采用RDMA可以將計(jì)算的效率同比提升6~8倍,而服務(wù)器內(nèi)1us的傳輸時(shí)延也使得SSD分布式存儲(chǔ)的時(shí)延從ms級(jí)降低到us級(jí)成為可能,所以在最新的NVMe接口協(xié)議中,RDMA成為主流的默認(rèn)網(wǎng)絡(luò)通信協(xié)議棧。
 
  為減少光纖傳輸時(shí)延,需要考慮針對(duì)時(shí)延敏感應(yīng)用的物理位置就近設(shè)立數(shù)據(jù)中心,分布式數(shù)據(jù)中心成為新的趨勢(shì)。如何快速而有節(jié)奏地提升DCN/DCI帶寬,并在帶寬提升的同時(shí)保證無(wú)損網(wǎng)絡(luò)的“0丟包、低時(shí)延、高吞吐”要求,以匹配業(yè)務(wù)快速發(fā)展的訴求,成為數(shù)據(jù)中心DCN/DCI方案首先要面對(duì)的問題。摩爾定律支撐了數(shù)據(jù)中心帶寬的增長(zhǎng),數(shù)據(jù)中心內(nèi)部互聯(lián)DCN接口即將進(jìn)入單端口100G+時(shí)代,而作為DC互聯(lián)及DCN出口承載的DCI網(wǎng)絡(luò)也已發(fā)展到10T級(jí)的波分互聯(lián)。
 
  劃重點(diǎn)
 
  面向AI的數(shù)據(jù)運(yùn)算要求“0丟包、低時(shí)延、高吞吐”的無(wú)損網(wǎng)絡(luò),需要從服務(wù)器內(nèi)部通信協(xié)議變革及數(shù)據(jù)中心互聯(lián)兩方面同時(shí)考慮。
 
  數(shù)據(jù)中心互聯(lián)快速部署、智能簡(jiǎn)化運(yùn)維成為趨勢(shì),以支撐彈性數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)營(yíng)與擴(kuò)展。
 
  AI、HPC等高性能業(yè)務(wù)對(duì)網(wǎng)絡(luò)的依賴度逐漸增強(qiáng),無(wú)損網(wǎng)絡(luò)的擁塞控制算法需要網(wǎng)卡和網(wǎng)絡(luò)進(jìn)行協(xié)作,網(wǎng)絡(luò)從設(shè)計(jì)開始就需要考慮到后期運(yùn)維時(shí)如何能夠快速、精準(zhǔn)地掌握全網(wǎng)設(shè)備、鏈路的實(shí)時(shí)狀態(tài),用于支撐業(yè)務(wù)的平穩(wěn)運(yùn)行與擴(kuò)展。多波長(zhǎng)復(fù)用的光纖傳輸系統(tǒng)廣泛應(yīng)用于DCI,而光模擬信號(hào)的業(yè)務(wù)發(fā)放及維護(hù)模式不同于普通的數(shù)字網(wǎng)絡(luò),運(yùn)營(yíng)商往往配有較為龐大的光網(wǎng)絡(luò)專業(yè)維護(hù)團(tuán)隊(duì),而ISP及金融行業(yè)數(shù)據(jù)中心網(wǎng)絡(luò)均由IT人員建設(shè)和維護(hù),人員與經(jīng)驗(yàn)相對(duì)電信運(yùn)營(yíng)商有較大差距,快速開通業(yè)務(wù)、快速精準(zhǔn)排障成為關(guān)鍵挑戰(zhàn)。隨著數(shù)據(jù)中心建設(shè)規(guī)模的海量增長(zhǎng),數(shù)據(jù)中心互聯(lián)需求倍增,這一挑戰(zhàn)已成為數(shù)據(jù)中心發(fā)展的關(guān)鍵瓶頸之一。
 
  1、引入自動(dòng)規(guī)劃、自動(dòng)配置、智能告警分析系統(tǒng),有助于實(shí)現(xiàn)數(shù)據(jù)中心DCI系統(tǒng)簡(jiǎn)化運(yùn)維。
 
  云業(yè)務(wù)快速發(fā)展和上線,網(wǎng)絡(luò)頻繁改造擴(kuò)容,傳統(tǒng)波分的安裝、連纖、配置、調(diào)測(cè)等需要專業(yè)的規(guī)劃與配置,自動(dòng)規(guī)劃與配置工具可以讓運(yùn)維人員從繁瑣專業(yè)的開局中解放,自動(dòng)高效不出錯(cuò),支撐業(yè)務(wù)云化快速上線,和頻繁擴(kuò)容。相對(duì)人工配置,自動(dòng)工具除了大幅提升上線效率,還大幅提高配置準(zhǔn)確率。例如傳統(tǒng)人工連纖出錯(cuò)概率高,據(jù)統(tǒng)計(jì)甚至高達(dá)5%,如果一不小心連錯(cuò),業(yè)務(wù)不通從上至下排查原因,重新檢查校驗(yàn)就更加耗時(shí)費(fèi)力。
 
  2、智能運(yùn)維系統(tǒng)取代傳統(tǒng)網(wǎng)絡(luò)管理系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)中心主動(dòng)運(yùn)維
 
  越來(lái)越多的應(yīng)用運(yùn)行在云上,數(shù)據(jù)中心做為數(shù)字化的基礎(chǔ)架構(gòu)重要性不言而喻,而DCI作為支撐性的基礎(chǔ),一旦故障影響嚴(yán)重。DCI引入高效智能運(yùn)維,實(shí)現(xiàn)從人工到自動(dòng),從被動(dòng)到主動(dòng)的運(yùn)維轉(zhuǎn)變是必然的選擇。相對(duì)傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控系統(tǒng),智能運(yùn)維系統(tǒng)通過內(nèi)置光Sensor,實(shí)現(xiàn)光纖網(wǎng)與光系統(tǒng)網(wǎng)絡(luò)全局可視,光網(wǎng)絡(luò)健康度特別是光功率衰減、光波長(zhǎng)漂移等物理參數(shù)的變化提前預(yù)警,自動(dòng)分析過濾告警,基于經(jīng)驗(yàn)庫(kù)自動(dòng)判斷故障根因,以減少網(wǎng)絡(luò)故障率,大幅提升網(wǎng)絡(luò)可用率。
 
  劃重點(diǎn)
 
  數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維亟須引入自動(dòng)化配置與維護(hù)工具,以實(shí)時(shí)調(diào)整配置,快速定位故障,實(shí)現(xiàn)無(wú)損網(wǎng)絡(luò)運(yùn)維智簡(jiǎn)化,以支持云智能時(shí)代的數(shù)據(jù)中心業(yè)務(wù)快速發(fā)展。
THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論