本文來自中國電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng)(www.cena.com.cn),作者/劉晶。
東數(shù)西算工程,是一個(gè)平衡需求、算力、電力資源的工程。東部的數(shù)據(jù)增長快、算力需求大,但土地少、電力資源緊張;西部土地多、電力充沛,而且氣溫低,有利于降低數(shù)據(jù)中心的耗電量。因此,貴州、內(nèi)蒙古等地在六七年前就開始建設(shè)大型數(shù)據(jù)中心。但這些年的發(fā)展證明,西部數(shù)據(jù)中心的利用率一直不夠,上架率不足50%,因?yàn)樯霞苈什蛔?,能耗?yōu)勢也體現(xiàn)不到位。
東數(shù)西算工程對(duì)數(shù)據(jù)中心的建設(shè)是規(guī)劃加引導(dǎo),全國八大樞紐節(jié)點(diǎn)十大數(shù)據(jù)中心集群是規(guī)劃,企業(yè)、行業(yè)在建設(shè)數(shù)據(jù)中心時(shí)向這些節(jié)點(diǎn)匯聚則需要引導(dǎo),特別是在西部數(shù)據(jù)中心的利用率不高的情況下,如何讓向西部數(shù)據(jù)中心投資的企業(yè)“入股不虧”,是東數(shù)西算工程整盤棋的關(guān)鍵。
西部要做好冷數(shù)據(jù)處理
中國工程院院士鄔賀銓在4月21日舉辦的“第二屆中國IDC行業(yè)Discovery大會(huì)”上認(rèn)為,西部數(shù)據(jù)中心發(fā)展的重點(diǎn)是做好冷數(shù)據(jù)的處理。
通常數(shù)據(jù)分為冷數(shù)據(jù)和熱數(shù)據(jù),冷數(shù)據(jù)就是調(diào)度不那么頻繁的數(shù)據(jù),冷數(shù)據(jù)占到整個(gè)數(shù)據(jù)總量的80%。東部數(shù)據(jù)中心適宜處理對(duì)實(shí)時(shí)性、可靠性要求比較高的一些熱數(shù)據(jù),即推理服務(wù)、視頻通話、實(shí)驗(yàn)觀察、工業(yè)互聯(lián)網(wǎng)、金融證券、實(shí)時(shí)直播、遠(yuǎn)程醫(yī)療等產(chǎn)生的數(shù)據(jù)。但是冷熱數(shù)據(jù)也是相對(duì)的,今天的熱數(shù)據(jù)過了幾個(gè)月以后就變成冷數(shù)據(jù)。
適合西部處理的冷數(shù)據(jù)類型包括:數(shù)據(jù)標(biāo)注、清洗、后臺(tái)加工、日志分析、月報(bào)分析、模型訓(xùn)練、渲染、物理經(jīng)學(xué)、生物信息計(jì)算、生產(chǎn)倉儲(chǔ)等歷史數(shù)據(jù),還包括金融備份數(shù)據(jù)、按合規(guī)要求保存3年的數(shù)據(jù)、按合規(guī)要求存儲(chǔ)的醫(yī)療影像、DDoS清洗中心、災(zāi)備中心等數(shù)據(jù)。
西部處理冷數(shù)據(jù)的優(yōu)勢是低碳。在數(shù)據(jù)中心的能耗構(gòu)成中,IT設(shè)備占45%、供電損耗占10%,散熱損耗占43%。鄔賀銓表示,冷數(shù)據(jù)的調(diào)度沒那么頻繁,如果用磁帶處理、存儲(chǔ)這些冷數(shù)據(jù),要比用磁盤存儲(chǔ)節(jié)省73%的存儲(chǔ)成本。
西部要建大型甚至超大型數(shù)據(jù)中心
在利用率相同的情況下,數(shù)據(jù)中心越大能效越好、效率越高。
西部數(shù)據(jù)中心的優(yōu)勢是低碳帶來的低成本。“從長遠(yuǎn)來看,能建大型數(shù)據(jù)中心就不建小型數(shù)據(jù)中心,能建超大型數(shù)據(jù)中心就不建大型的數(shù)據(jù)中心。”鄔賀銓說,“可以按需分期建設(shè)、分步投入,因?yàn)橥ǔ?shù)據(jù)中心的服務(wù)器每三四年就要更新,更新的服務(wù)器成本更低、能效更好。”
在高密度的機(jī)架中提升上架率,是提升能效的一個(gè)重要路徑。將來數(shù)據(jù)中心的機(jī)架平均功率為8.5千瓦,與平均功率4.5千瓦的相比,每千瓦的成本下降68%。上架率高、機(jī)架平均功率高,但每千瓦的成本折算下來是明顯降低的。在數(shù)據(jù)中心的能耗構(gòu)成中,一般是IT設(shè)備能耗占45%,供電和散熱能耗占53%。同一個(gè)西部數(shù)據(jù)中心,上架率50%,PUE值在1.5到1.6;上架率65%,PUE值能降低到1.3左右。
除了發(fā)揮低碳優(yōu)勢,西部數(shù)據(jù)中心也要注意提升算力網(wǎng)絡(luò)的性能,降低數(shù)據(jù)傳輸中數(shù)據(jù)包的丟包率。如果丟包,由于丟包引起的數(shù)據(jù)重新傳輸會(huì)浪費(fèi)很多算力資源,有資料統(tǒng)計(jì),對(duì)重要的業(yè)務(wù)0.1%的丟包率將導(dǎo)致算力損失50%,除此之外還會(huì)增加能耗。
發(fā)展數(shù)據(jù)預(yù)處理產(chǎn)業(yè)或?qū)⒊蔀橐粋€(gè)機(jī)會(huì)
鄔賀銓認(rèn)為,西部數(shù)據(jù)中心要想辦法提高市場吸引力,不僅要有運(yùn)維管理隊(duì)伍,還要有市場開拓隊(duì)伍。
盡管企業(yè)的數(shù)據(jù)高速增長,但利用率并不高。有統(tǒng)計(jì)顯示,企業(yè)數(shù)據(jù)目前只有32%的是被利用、被激活的,發(fā)展數(shù)據(jù)中心,就是要吸引更多的企業(yè)數(shù)據(jù)進(jìn)入數(shù)據(jù)中心。
西部市場的拓展可以從完善數(shù)據(jù)中心的生態(tài)入手。大數(shù)據(jù)的挖掘有很長的產(chǎn)業(yè)鏈,其中數(shù)據(jù)預(yù)處理是勞動(dòng)密集的環(huán)節(jié),數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算是重資產(chǎn)和算力環(huán)節(jié),而數(shù)據(jù)挖掘是智力密集環(huán)節(jié),這些環(huán)節(jié)需要有各種各樣的硬件、軟件和服務(wù)來支撐。
“與東部相比,西部的大數(shù)據(jù)產(chǎn)業(yè)鏈有明顯的短板。西部如果只注重于數(shù)據(jù)的存儲(chǔ)和計(jì)算,由于這是重資產(chǎn)和算力環(huán)節(jié),因此投資大、回報(bào)長,僅僅依靠財(cái)政補(bǔ)貼電費(fèi)和土地出讓金這種方式來吸引數(shù)據(jù)中心入住,是很難持久的。”鄔賀銓說。他同時(shí)表示,發(fā)展數(shù)據(jù)預(yù)處理產(chǎn)業(yè)可以成為西部的一個(gè)機(jī)會(huì)。
數(shù)據(jù)預(yù)處理產(chǎn)業(yè),包括數(shù)據(jù)的標(biāo)注、清洗、脫敏,也包括開展本地?cái)?shù)據(jù)的挖掘服務(wù)。鄔賀銓提議,可以建設(shè)大數(shù)據(jù)預(yù)處理服務(wù)基地。
目前70%的數(shù)據(jù)預(yù)處理是由人來完成的,這是一個(gè)知識(shí)化的勞動(dòng)密集型行業(yè),人社部將這一職業(yè)命名為AI訓(xùn)練師。預(yù)計(jì)到今年年底,全國需要500萬AI訓(xùn)練師。在百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地,現(xiàn)有數(shù)據(jù)標(biāo)注師超過2300人,這種預(yù)處理不僅僅是標(biāo)注,還含有人工智能的訓(xùn)練。
阿里有600多名AI訓(xùn)練師訓(xùn)練智能客服機(jī)器人,在像“雙11”這樣業(yè)務(wù)量很大、客服需求量也很大的時(shí)候,阿里用智能客服機(jī)器人代替了8.5萬個(gè)客服,完成了97%的在線服務(wù)。
鄔賀銓表示,西部數(shù)據(jù)中心可以積極引進(jìn)服務(wù)器組裝產(chǎn)業(yè)。數(shù)據(jù)中心的機(jī)房,除了IT設(shè)備以外,還要有電力設(shè)施、制冷系統(tǒng)、防雷系統(tǒng)、安防系統(tǒng)、災(zāi)備系統(tǒng),還有硬件軟件以及綜合布線和各種工程服務(wù)。西部可以結(jié)合數(shù)據(jù)中心的發(fā)展,發(fā)展數(shù)據(jù)中心機(jī)房的服務(wù)業(yè),建立工程和運(yùn)維隊(duì)伍,提供數(shù)據(jù)中心機(jī)房建設(shè)的工程服務(wù)。