低能耗的數(shù)據(jù)中心需求不僅關(guān)系到了人類(lèi)環(huán)境的可持續(xù)發(fā)展,也直接決定了算力的成本和服務(wù)的競(jìng)爭(zhēng)力。
01
數(shù)據(jù)中心面臨的挑戰(zhàn)
上世紀(jì)60年代也就是最早的互聯(lián)網(wǎng)大型機(jī)的時(shí)代,不超過(guò)100萬(wàn)節(jié)點(diǎn)進(jìn)行連接。80年代差不多有一千萬(wàn),90年代差不多有一個(gè)億。2000年進(jìn)入了熟悉的桌面互聯(lián)網(wǎng),差不多10億設(shè)備進(jìn)行互聯(lián)。
2010年進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,有100多個(gè)億設(shè)備進(jìn)入互聯(lián)網(wǎng)連接。最新IOT時(shí)代,不僅是手機(jī),還有我們的電腦和家電,所有設(shè)備都會(huì)連接到了互聯(lián)網(wǎng),超過(guò)500億設(shè)備連接到互聯(lián)網(wǎng)連接數(shù)量成倍的增長(zhǎng)。
大數(shù)據(jù)、云計(jì)算的快速發(fā)展,讓世界變得更加互聯(lián),人類(lèi)生活感覺(jué)到更加便捷的同時(shí),背后產(chǎn)生越來(lái)越多的數(shù)據(jù)。數(shù)據(jù)以難以想象的速度快速增長(zhǎng),國(guó)際數(shù)據(jù)公司最新統(tǒng)計(jì)和預(yù)測(cè),全球數(shù)據(jù)會(huì)從2018年32ZB增長(zhǎng)到2025年的175ZB。數(shù)據(jù)成倍的增長(zhǎng),將會(huì)需要越來(lái)越多的計(jì)算能力進(jìn)行運(yùn)算和處理。
回顧近幾十年處理器的發(fā)展,摩爾定律逐漸放緩,當(dāng)摩爾定律放緩以后,想追求更高的計(jì)算力,散熱和能耗遭遇到挑戰(zhàn)。云計(jì)算資源集中化,高密度提升必然會(huì)帶來(lái)單個(gè)服務(wù)器和機(jī)柜的功率的上升,對(duì)支撐服務(wù)器穩(wěn)定運(yùn)行的數(shù)據(jù)中心也會(huì)有巨大的能耗挑戰(zhàn)。另外,數(shù)據(jù)中心的耗電量占4%左右。低能耗的數(shù)據(jù)中心需求呼聲越來(lái)越高,不僅關(guān)系到了人類(lèi)環(huán)境的可持續(xù)發(fā)展,也直接決定了算力的成本和服務(wù)的競(jìng)爭(zhēng)力。
上海市最近發(fā)布了新建數(shù)據(jù)中心PUE嚴(yán)格控制在1.3以下。國(guó)家對(duì)新基建時(shí)代的能耗,以及各地政府對(duì)能效的要求也越來(lái)越嚴(yán)格。對(duì)未來(lái)大數(shù)據(jù),大規(guī)模的數(shù)據(jù)中心的建設(shè)會(huì)更加嚴(yán)格的控制,我們不得不對(duì)挑戰(zhàn)進(jìn)行不斷地探索。
既要解決高密度的計(jì)算問(wèn)題,又要解決能效的問(wèn)題,成本更低,可靠性高,這是未來(lái)數(shù)據(jù)中心的挑戰(zhàn),倒逼我們不斷的思考和探索未來(lái)下一代的數(shù)據(jù)中心怎樣解決挑戰(zhàn)。
02
風(fēng)冷不冷液冷才是冷
為什么用液冷?就目前可行的產(chǎn)業(yè)方向看,大多數(shù)的企業(yè)都是從兩個(gè)大的方向上努力:
第一:CPU芯片持續(xù)改進(jìn),可以增大芯片的面積,增加芯片的尺寸,但同樣帶來(lái)負(fù)面效應(yīng)。
第二:液體代替空氣冷(風(fēng)吹)卻介質(zhì),通過(guò)液體對(duì)比空氣的性質(zhì),可以提升能力,這是提高散熱效率的關(guān)鍵點(diǎn)。常規(guī)的冷卻是空氣冷卻,冷卻介質(zhì)就是空氣。
阿里云基礎(chǔ)設(shè)施服務(wù)器研發(fā)架構(gòu)師鐘楊帆說(shuō):“液冷就是通過(guò)液體,比如說(shuō)水或者說(shuō)其它的特殊不導(dǎo)電的液體代替空氣,將芯片內(nèi)存以及CPU等發(fā)熱部件的熱量直接帶走,而不通過(guò)傳統(tǒng)的低效的空氣。”
阿里云在面臨這些問(wèn)題的時(shí)候,也是在不斷的思索,不斷的探索和嘗試?,F(xiàn)在大規(guī)模使用的空氣冷卻的技術(shù)架構(gòu),使用空氣介質(zhì)作為傳導(dǎo)。整體的架構(gòu)可以看到,浸沒(méi)液冷代替了空氣介質(zhì),提高了冷卻效率。從架構(gòu)上看,這是做了很大的減法,完全排除了能效比較低的冷卻設(shè)備,比如說(shuō)風(fēng)扇和空調(diào)。
從風(fēng)扇、硬盤(pán)、CPU等等角度看,傳統(tǒng)的冷卻都是空氣將熱量帶走,少量的部件通過(guò)液體帶走。如果采用了一種介質(zhì)或者說(shuō)采用了一種技術(shù)可以完全的替代空氣,能夠使得熱量完全的從液體上帶走,這樣的冷卻效率會(huì)大幅度的提升,以及達(dá)到一個(gè)極致的冷卻效果。
與此同時(shí),未來(lái)服務(wù)器的數(shù)量會(huì)越來(lái)越多,規(guī)模會(huì)越來(lái)越大,除了考慮可靠性的問(wèn)題,還需降低失效率。
傳統(tǒng)空氣冷卻的影響失效率的因素看,主要是溫度、振動(dòng)、粉塵、潮濕。在數(shù)據(jù)中心里,失效率最高的是硬盤(pán)失效。溫度提高對(duì)硬盤(pán)的失效率故障顯著增加。未來(lái)如何通過(guò)溫度的適當(dāng)降低,同時(shí)減少振動(dòng)粉塵和潮濕的因素影響,提高數(shù)據(jù)中心的可靠性和降低失效率這是一個(gè)值得研究得課題。
03
“泡”澡效果最好但挑戰(zhàn)仍然很多
阿里云從2015年開(kāi)始對(duì)比了不同的冷卻架構(gòu),包括空氣冷卻,冷板液冷,從不同的維度進(jìn)行總結(jié)和對(duì)比。從空氣冷卻到冷板液冷,從各個(gè)方面進(jìn)行對(duì)比,實(shí)踐中不同的嘗試著驗(yàn)證迭代,結(jié)果證明:浸沒(méi)液冷是數(shù)據(jù)中心的一個(gè)躍遷式的技術(shù)創(chuàng)新,具有高可靠、高可用的特點(diǎn)。
一項(xiàng)新的技術(shù)在規(guī)模不大的時(shí)候,可能不太容易發(fā)現(xiàn)問(wèn)題和所面臨的挑戰(zhàn),但一旦規(guī)模大了以后,我們要看在實(shí)際的應(yīng)用過(guò)程中會(huì)出現(xiàn)什么樣的問(wèn)題,怎么解決規(guī)模化的挑戰(zhàn)。
浸沒(méi)液冷的技術(shù)優(yōu)勢(shì),之前基本上沒(méi)有看到在互聯(lián)網(wǎng)數(shù)據(jù)中心大規(guī)模進(jìn)行部署,液冷領(lǐng)域很難看到大規(guī)模的部署數(shù)據(jù)中心。鐘楊帆說(shuō):“現(xiàn)在很多問(wèn)題沒(méi)有說(shuō)非得用液冷解決,牽一發(fā)而動(dòng)全身,面臨一些全新的挑戰(zhàn),這是革命性的變化,這仍然一個(gè)很大的工程。”
先看基礎(chǔ)設(shè)施是否可以達(dá)到與風(fēng)冷同樣的可靠性,如果可靠性很差,問(wèn)題就很大。介質(zhì)變了,放在液體中是不是可以長(zhǎng)期穩(wěn)定的工作,液體是不是不導(dǎo)電?很多的全新領(lǐng)域都需要解決。
再就是運(yùn)維的挑戰(zhàn),因?yàn)槊芏雀吡艘院?,它的重量也?huì)更重了,如何維護(hù)?
在基礎(chǔ)設(shè)施里,完全的重構(gòu),把數(shù)據(jù)中心和服務(wù)器融合在一起去考慮,全部整合在一起做重構(gòu),以及極簡(jiǎn)的設(shè)計(jì)。
04
冷卻不再靠天
阿里云2018年部署的張北數(shù)據(jù)中心,為了降低能耗,實(shí)現(xiàn)節(jié)能環(huán)保的探索。最早2017年建立了互聯(lián)網(wǎng)行業(yè)的服務(wù)器集群是在杭州。2018年開(kāi)啟了液冷的商用,包括了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò),全部都實(shí)現(xiàn)了浸沒(méi)液冷的轉(zhuǎn)化。杭州,今年剛剛建設(shè)成的一個(gè)全球規(guī)模最大的浸沒(méi)液冷數(shù)據(jù)中心,這是全中國(guó)首個(gè)綠色數(shù)據(jù)中心。
“我們對(duì)比測(cè)算過(guò)了,如果相比傳統(tǒng)的數(shù)據(jù)中心,阿里云這一個(gè)數(shù)據(jù)中心每年可以節(jié)省至少上千萬(wàn)元元的電。經(jīng)過(guò)長(zhǎng)期、規(guī)?;牟渴?-3年的時(shí)間,高密度通過(guò)高效液體冷卻可以打破空氣冷卻瓶頸,在單機(jī)柜的功率密度可以提升3倍以上。”鐘楊帆表示。
高可靠,硬盤(pán)、內(nèi)存和CPU進(jìn)行對(duì)比,通過(guò)全密閉的浸沒(méi)實(shí)驗(yàn)的技術(shù),可以降低整體的部件失效率達(dá)到50%以上。高能效,我們對(duì)能效也是不斷的追求的指標(biāo),通過(guò)數(shù)據(jù)中心IT設(shè)備冷卻一體化的架構(gòu)創(chuàng)新設(shè)計(jì),根本上去除低能效的部件。除了服務(wù)器以外,整體的能耗可以下降40%左右。高可用,自然冷卻高度依賴(lài)氣象條件,很多的數(shù)據(jù)中心選擇了比較冷的地方,靠近北極,就是為了利用當(dāng)?shù)乇容^優(yōu)的自然環(huán)境。
浸沒(méi)冷卻完全是不再依賴(lài)任何的氣象條件,可以在高溫,高濕,以及在腐蝕性,海邊的惡劣的環(huán)境中進(jìn)行運(yùn)行。大多數(shù)數(shù)據(jù)中心,里面的噪聲很吵,這是風(fēng)冷數(shù)據(jù)中心的特點(diǎn)。因?yàn)轱L(fēng)冷需要風(fēng)扇,所以會(huì)有聲音。雖然說(shuō)進(jìn)去以后非常吵,令人厭煩,但無(wú)可奈何。
鐘楊帆說(shuō):“進(jìn)入浸沒(méi)數(shù)據(jù)中心以后,你會(huì)發(fā)現(xiàn)基本上沒(méi)有聲音了,這是非常安靜的,對(duì)運(yùn)維人員是比較大的改善。”
05
結(jié)語(yǔ)
液冷這個(gè)新的行業(yè),因?yàn)樗锩缘刈冞w,必須得重塑發(fā)展,然后進(jìn)行推廣和擴(kuò)大。希望所有的行業(yè)伙伴一起可以參與進(jìn)來(lái)建設(shè)整個(gè)行業(yè)生態(tài),能夠助力新基建,幫助數(shù)據(jù)中心能夠達(dá)到節(jié)能綠色環(huán)保。