自從2016年AlphaGo打敗李世石之后,人工智能已經(jīng)成為各大企業(yè)爭(zhēng)奪的科技高地,而無(wú)人駕駛、人臉支付、無(wú)人超市等AI應(yīng)用層出不究,正在改變我們的日常工作與生活。數(shù)據(jù)中心作為人工智能產(chǎn)業(yè)鏈的重要環(huán)節(jié),基礎(chǔ)設(shè)施運(yùn)維仍然主要依靠經(jīng)驗(yàn)豐富的運(yùn)維團(tuán)隊(duì)與標(biāo)準(zhǔn)固化的運(yùn)維流程來支撐,這需要消耗大量的人力與物力來保障數(shù)據(jù)中心的業(yè)務(wù)可用性。那么,隨著人工智能技術(shù)的應(yīng)用與普及,數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維是否可以實(shí)現(xiàn)少人化、無(wú)人化,大幅提升人均運(yùn)維效率,更好的支撐IT業(yè)務(wù)的發(fā)展?
一、無(wú)人運(yùn)維全新重構(gòu)現(xiàn)有的運(yùn)維模式
在傳統(tǒng)模式下,數(shù)據(jù)中心運(yùn)維離不開人,但人也是最大的安全隱患。根據(jù)行業(yè)調(diào)研結(jié)果,數(shù)據(jù)中心基礎(chǔ)設(shè)施失效故障中,約有80%的故障存在人為因素。而在引入人工智能技術(shù)之后,數(shù)據(jù)中心運(yùn)維則不再受限于人的因素,可以采用更加高效和可靠的措施來提升運(yùn)維的質(zhì)量與效率,逐步演進(jìn)到無(wú)人值守的模式。
大幅簡(jiǎn)化日常巡檢工作
數(shù)據(jù)中心運(yùn)維工作中,50%的人力消耗在日常巡檢工作中。但當(dāng)前巡檢多依賴于運(yùn)維人員的眼看耳聽,巡檢質(zhì)量難以保證。華為創(chuàng)新性提出了AI無(wú)人巡檢方案,采用遠(yuǎn)程抄表、圖像識(shí)別、聲音識(shí)別等多種技術(shù),讓90%的人工巡檢內(nèi)容轉(zhuǎn)變成自動(dòng)化、遠(yuǎn)程無(wú)人處理,大幅降低巡檢人力成本,提高了巡檢質(zhì)量。以聲音故障(壓縮機(jī)故障、UPS風(fēng)機(jī)異響等)為例:華為采用大數(shù)據(jù)技術(shù)建立了設(shè)備異響的數(shù)字化模型,明確了這種異常情況的特征值;然后通過遍布在數(shù)據(jù)中心內(nèi)的聲音傳感器,實(shí)時(shí)采集設(shè)備運(yùn)行聲音,通過降噪處理、提取并對(duì)比特征值,從而精準(zhǔn)識(shí)別設(shè)備異響,并智能給出可能的故障原因。
提前預(yù)警實(shí)現(xiàn)預(yù)測(cè)性維護(hù)
數(shù)據(jù)中心運(yùn)維的核心目標(biāo)是保障設(shè)備在全生命周期的正常運(yùn)行。傳統(tǒng)的運(yùn)維模式主要側(cè)重于事后的應(yīng)急維修、事前的預(yù)防式維護(hù),而結(jié)合人工智能技術(shù),我們可以基于設(shè)備失效模式與歷史運(yùn)行數(shù)據(jù),精準(zhǔn)評(píng)估設(shè)備健康度,提前識(shí)別設(shè)備異常。華為iPower解決方案,數(shù)據(jù)中心供配電全鏈路的可視可管,從而實(shí)現(xiàn)預(yù)測(cè)性維護(hù),保障了數(shù)據(jù)中心供配電系統(tǒng)安全性。例如針對(duì)因螺絲松動(dòng)而引發(fā)的母排溫度過高、斷路器燒毀這一運(yùn)維問題,華為采用DNN算法生成母排溫度預(yù)測(cè)模型,可以根據(jù)溫度變化曲線,在達(dá)到高溫告警閥值之前就提前預(yù)警,給出預(yù)警位置與處理建議。借助iPower解決方案的設(shè)備預(yù)警功能,設(shè)備維護(hù)工作可以從周期性維護(hù)工作轉(zhuǎn)變成按需進(jìn)行,大幅降低數(shù)據(jù)中心運(yùn)維工作。
注:基于銅排溫度預(yù)測(cè)模型(100%負(fù)載率)
智能協(xié)同降低數(shù)據(jù)中心能耗
在數(shù)據(jù)中心全生命周期成本中,電費(fèi)支出占比可達(dá)到60%。為了降低數(shù)據(jù)中心的PUE,傳統(tǒng)運(yùn)維方式是由高級(jí)別的暖通運(yùn)維專家基于自己從業(yè)經(jīng)驗(yàn)來進(jìn)行調(diào)節(jié),優(yōu)化結(jié)果難以保證。華為采用人工智能技術(shù),推出了iCooling解決方案,實(shí)現(xiàn)數(shù)據(jù)中心系統(tǒng)級(jí)能效優(yōu)化,實(shí)測(cè)可以降低數(shù)據(jù)中心PUE約8~15%。
二、無(wú)人運(yùn)維需要數(shù)字化、智能化的設(shè)備支撐
人工智能在數(shù)據(jù)中心運(yùn)維中的落地,離不開強(qiáng)大的AI算力來支撐。華為的無(wú)人運(yùn)維解決方案集成了AI智能控制器,通過內(nèi)置昇騰310 AI模塊來可以提供強(qiáng)大算力,確保AI運(yùn)維的準(zhǔn)確性、實(shí)時(shí)性。此外,華為的FusionPower產(chǎn)品采用智能化部件,可以精準(zhǔn)識(shí)別各個(gè)關(guān)鍵部件運(yùn)行情況,提前識(shí)別設(shè)備異常并生成預(yù)警,支撐數(shù)據(jù)中心的無(wú)人運(yùn)維。
三、迭代演進(jìn)可以更好的保障無(wú)人運(yùn)維的落地
在向無(wú)人運(yùn)維的演進(jìn)過程中,數(shù)據(jù)中心運(yùn)營(yíng)者可以將整個(gè)過程劃分成許多個(gè)較小的任務(wù),有些任務(wù)可以由人來完成,有些任務(wù)交給機(jī)器來完成,借助AI技術(shù)讓人與機(jī)器更好的協(xié)同。通過這種方法,讓運(yùn)維團(tuán)隊(duì)逐步了解與熟悉人工智能技術(shù),增強(qiáng)對(duì)人工智能應(yīng)用效果的信心。
華為結(jié)合自己20+年超過200個(gè)數(shù)據(jù)中心運(yùn)維經(jīng)驗(yàn)與行業(yè)領(lǐng)先的AI無(wú)人運(yùn)維技術(shù),推出了數(shù)據(jù)中心運(yùn)維使能服務(wù),并在解決方案中集成了AI智能控制器,通過內(nèi)置昇騰310 AI模塊來可以提供強(qiáng)大算力,確保AI運(yùn)維的準(zhǔn)確性、實(shí)時(shí)性,幫助數(shù)據(jù)中心運(yùn)營(yíng)者實(shí)現(xiàn)從手工運(yùn)維向數(shù)字運(yùn)維、無(wú)人運(yùn)維的平滑演進(jìn)。