導(dǎo)讀:對人工智能硬件而言,算力是技術(shù)實現(xiàn)的保障,這需要大量強有力的數(shù)據(jù)中心提供基礎(chǔ)支持。但傳統(tǒng)數(shù)據(jù)中心存在諸多痛點,亟需借力人工智能,開展數(shù)據(jù)中心的革命。
自從2016年AlphaGo打敗李世石之后,人工智能的能力開始逐漸被世人了解,人工智能開始真正落地。Gartner的數(shù)據(jù)顯示,到2020年,人工智能預(yù)計將減少180萬個就業(yè)機會。好消息是,它也將創(chuàng)造230萬個就業(yè)崗位。如今,AI相關(guān)專利申請量飆升,AI芯片需求也不斷增加,微軟已決定采購華為新開發(fā)的AI芯片應(yīng)用于中國的數(shù)據(jù)中心。
然而,人工智能技術(shù)的發(fā)展與落地應(yīng)用還遠未成熟。對人工智能硬件而言,算力是技術(shù)實現(xiàn)的保障,這需要大量強有力的數(shù)據(jù)中心提供基礎(chǔ)支持。但傳統(tǒng)數(shù)據(jù)中心存在諸多痛點,亟需借力人工智能,開展數(shù)據(jù)中心的革命。
實際上,人工智能的發(fā)展少不了數(shù)據(jù)中心的支撐,與此同時,智能化是未來能源基礎(chǔ)設(shè)施發(fā)展的必由之路,在此過程中,人工智能也將助推數(shù)據(jù)中心朝智能化方向發(fā)展。
數(shù)據(jù)中心與AI如何擦出火花?
數(shù)據(jù)中心成千上萬臺服務(wù)器為人工智能所需的計算能力提供了物理基礎(chǔ),人工智能也將給數(shù)據(jù)中心帶來了新的革命,其帶來的積極影響主要有三個方面。
一是便于數(shù)據(jù)中心管理和控制。未來的數(shù)據(jù)發(fā)展必將走向軟件定義,但隨著數(shù)據(jù)中心呈現(xiàn)復(fù)雜化,人工處理的精力和能力都有限。如果通過人工智能利用其學(xué)習(xí)能力,對以往管理數(shù)據(jù)進行智能分析,就可得到可觀準確的決策。
二是降低數(shù)據(jù)中心能耗。數(shù)據(jù)中心是能耗大戶,巨額的電能費用已經(jīng)成為數(shù)據(jù)中心高速發(fā)展的瓶頸,很多互聯(lián)網(wǎng)巨頭的自建數(shù)據(jù)中心開始想盡一切辦法去降低能耗。人工智能技術(shù)就可以充分計算PUE值,再根據(jù)PUE值反推哪些因素對其影響最大,再去優(yōu)化這些部分,從而達到降低能耗的目的,提升數(shù)據(jù)中心運行效率。
例如,谷歌使用DeepMind提供的AI技術(shù),在機房的能耗上獲得了大幅的削減,相應(yīng)減少PUE值。具體而言,通過建立機器學(xué)習(xí)的模型,對機房的PUE指標趨勢進行預(yù)測,從而指導(dǎo)制冷設(shè)備的配置優(yōu)化,減少了閑置的用于制冷的電力消耗。這項技術(shù)能夠為谷歌減少15%的數(shù)據(jù)中心整體耗電量,節(jié)省下來的成本相當可觀。
三是數(shù)據(jù)中心的數(shù)據(jù)加工。數(shù)據(jù)中心擁有海量數(shù)據(jù),原有的計算方式效率太低。借助AI技術(shù)的智能化運維,就可以對這些數(shù)據(jù)進行深度分析,將數(shù)據(jù)進行過濾、整理、組建各種模擬模型,這些加工后的數(shù)據(jù)可能會產(chǎn)生巨大的價值。如果是數(shù)據(jù)中心的運行數(shù)據(jù),則可以通過智能運算,獲得提升數(shù)據(jù)中心運維水平機會;如果是數(shù)據(jù)中心的存儲數(shù)據(jù),則可以通過只能運算獲得行業(yè)市場狀況,進行人員特征的分析等。
數(shù)據(jù)中心運維日趨智能化
人工智能為數(shù)據(jù)中心提供了全新的機遇:未來可以建設(shè)智能化的數(shù)據(jù)中心,用來替代簡單重復(fù)勞動,在大量數(shù)據(jù)中提取規(guī)律性信息,大量方案中優(yōu)選最佳方案,復(fù)合數(shù)據(jù)環(huán)境下選擇最優(yōu)模式。
具體到智能運維領(lǐng)域,目前依靠已有的日志進行模式識別,可以實現(xiàn)實時監(jiān)控,潛在故障告警,實時故障定位,重點區(qū)域問題監(jiān)控,還可實現(xiàn)解決方案智能化推薦;在節(jié)能降耗方面,可實現(xiàn)整個基礎(chǔ)設(shè)施的智能化管理,提高可靠性,降低IT能耗,減少制冷消耗,從而節(jié)省電力。
然而,人工智能亦對數(shù)據(jù)中心帶來了不小的挑戰(zhàn)。據(jù)信通院研究數(shù)據(jù)顯示,在供電方面,AI使得數(shù)據(jù)中心功率密度從5kW提升到21kW及以上,給供配電基礎(chǔ)設(shè)施帶來挑戰(zhàn);在制冷方面,AI帶來的高功率帶來高散熱,風(fēng)冷向液冷轉(zhuǎn)變;在邊緣計算方面,AI使得網(wǎng)絡(luò)限制數(shù)據(jù)需要端側(cè)處理,要建設(shè)好邊緣數(shù)據(jù)中心。
智能微模塊3.0將成智能化里程碑
目前,行業(yè)內(nèi)已有不少智能化數(shù)據(jù)中心解決方案問世。以華為公司為例,2018年6月CEBIT2018期間,華為發(fā)布了一款名為“智能微模塊3.0”的智能化解決方案,主要圍繞(iPower,iCooling,iManager)特性,加入AI優(yōu)化運行算法,實現(xiàn)數(shù)據(jù)中心基礎(chǔ)設(shè)施整體功能的智能化融合,使得數(shù)據(jù)中心的高效智能如虎添翼。
智能微模塊3.0將通過智能化AI算法主動判斷運行狀態(tài),實現(xiàn)供電鏈路毫秒級故障檢測,秒級故障定位,毫秒級故障隔離,分鐘級故障恢復(fù)功能;突破行業(yè)困擾已久的冷媒泄漏檢測難題;提升數(shù)據(jù)中心全生命周期空間、電力、制冷及人力資源的高效利用。
其中,iPower可實現(xiàn)供電全鏈路可視及告警精確定位,并擁有基于AI技術(shù)的電池管理系統(tǒng),配合毫秒級故障隔離,以保障供電的可靠性。iCooling,基于AI的自優(yōu)化算法,同等工況下溫控系統(tǒng)節(jié)電可達8%;溫控系統(tǒng)精確制冷,消除熱點隱患,提升數(shù)據(jù)中心運行的穩(wěn)定性。同時,AI算法支持空調(diào)冷媒容量的自檢測,提高可靠性。iManager是智能微模塊3.0的大腦,讓機房運維變得更加簡單、高效:底層設(shè)備借助先進的IoT技術(shù),擺脫傳統(tǒng)串口通訊速度慢的問題,同時設(shè)備高度自學(xué)習(xí)、自適應(yīng),為整個系統(tǒng)智能化打造堅實的基礎(chǔ);系統(tǒng)平臺通過云化改造,構(gòu)建DCIM+管理資源池,全球數(shù)據(jù)中心運營經(jīng)驗共享,邁出數(shù)據(jù)中心智能化、自優(yōu)化的重要一步。對于出租型數(shù)據(jù)中心,華為DCIM+通過對租戶資源使用情況進行動態(tài)分析,識別不同類型用戶的需求,輔助數(shù)據(jù)中心的規(guī)劃建設(shè)與擴容。智能識別高價值客戶類型,牽引優(yōu)勢資源向高價值用戶轉(zhuǎn)移,優(yōu)化資源配置,提升出租收益。
數(shù)據(jù)中心基礎(chǔ)設(shè)施發(fā)展經(jīng)歷了散件化組合,產(chǎn)品化整合,智能化融合三個發(fā)展階段?,F(xiàn)在,華為將AI技術(shù)運用到數(shù)據(jù)中心基礎(chǔ)設(shè)施管理中,能夠大幅提升數(shù)據(jù)中心的可靠性、能源效率以及運維效率,最終幫助客戶降低全生命周期TCO,增加收入。