數(shù)據(jù)中心運(yùn)轉(zhuǎn)將產(chǎn)生大量的熱量,因此給數(shù)據(jù)中心降溫是必不可少的一個環(huán)節(jié)。以往企業(yè)大多采用空氣冷卻系統(tǒng),如今隨著企業(yè)數(shù)據(jù)中心負(fù)載壓力的增大,傳統(tǒng)的空氣冷卻系統(tǒng)已不能滿足企業(yè)的需求,因此企業(yè)數(shù)據(jù)中心的管理人員們迫切需要尋找比空氣冷卻系統(tǒng)更有效的替代方案。
液體冷卻方案有望進(jìn)入更多的企業(yè)數(shù)據(jù)中心。在本文中,我們就將從五個方面的原因入手與廣大讀者朋友們共同展開探討。
我們已經(jīng)采訪了一系列的數(shù)據(jù)中心操作運(yùn)營人員和供應(yīng)商,詢問了他們關(guān)于將液體冷卻方案推廣到主流應(yīng)用的看法。受訪者中的一部分人并不想透露其所在數(shù)據(jù)中心所采用的具體的應(yīng)用程序,并聲稱他們將這些工作負(fù)載及其冷卻方式視為其所在企業(yè)的競爭優(yōu)勢。
一系列的超大規(guī)模云服務(wù)運(yùn)營商,包括諸如微軟、谷歌的母公司Alphabet、臉書 Facebook和百度,已經(jīng)組建起了一只專門致力于打造采用液體冷卻服務(wù)器機(jī)架的開放式規(guī)范的群體,但該群體目前并沒有說明他們將會使用的具體方案。然而,在這些超大規(guī)模數(shù)據(jù)中心中,至少有一類工作負(fù)載明顯需要采用液體冷卻方案,即:由GPU加速的機(jī)器學(xué)習(xí)系統(tǒng)(或者對于谷歌公司而言,便是其最新的TPU張量處理器,該公司曾公開表示其TPU現(xiàn)在使用的是直接冷卻芯片的液體冷卻設(shè)計)。
盡管當(dāng)前的企業(yè)數(shù)據(jù)中心運(yùn)營商們對于液體冷卻方案的采用這一主題感到疑慮和擔(dān)憂,但目前已經(jīng)有一些使用趨勢開始出現(xiàn)了。如果您企業(yè)在數(shù)據(jù)中心支持以下任何工作負(fù)載,那么您的數(shù)據(jù)中心在未來也可能采用液體冷卻方案:
1. AI和加速器
近年來,由摩爾定律所描述的年度CPU性能增長的速率已經(jīng)呈現(xiàn)出大幅放緩的趨勢。部分的原因是由于加速器處理器(主要是GPU),以及FPGA和專用ASIC正越來越多地進(jìn)入企業(yè)數(shù)據(jù)中心。
GPU驅(qū)動的機(jī)器學(xué)習(xí)可能是除HPC(高性能計算)領(lǐng)域之外最為常見的硬件加速使用案例。然而,在由市場調(diào)研機(jī)構(gòu)451 Research最近所進(jìn)行的一項調(diào)查中,大約有三分之一的IT服務(wù)提供商表示說,他們所在的企業(yè)計劃在在線數(shù)據(jù)挖掘、分析、工程模擬、視頻、其他實時媒體、欺詐檢測、負(fù)載平衡以及類似延遲敏感的服務(wù)中采用該加速系統(tǒng)。
硬件加速器具有比CPU高得多的熱設(shè)計點(TDP,thermal design points),通常需要消耗200W或更多的功率來對其實施冷卻;而添加高性能服務(wù)器CPU,那么您企業(yè)數(shù)據(jù)中心的一款單一的系統(tǒng)就將需要超過1kW的功率來對其實施冷卻。
英特爾公司也在積極的突破其傳統(tǒng)設(shè)計的服務(wù)器處理器的150W功率的限制。 “越來越多的企業(yè)客戶想要更強(qiáng)大的芯片產(chǎn)品,我們開始看到這些芯片產(chǎn)品所消耗的功率瓦特數(shù)量正在逐漸上升。”來自Uptime Institute的執(zhí)行董事安迪勞倫斯(Andy Lawrence)表示說。
當(dāng)前企業(yè)數(shù)據(jù)中心服務(wù)器的機(jī)架密度正在不斷上升。大多數(shù)數(shù)據(jù)中心正常運(yùn)行軌道上現(xiàn)在至少有一些超過10kW的機(jī)架,而20%的機(jī)架上甚至還有30kW或更高功率密度的機(jī)架。但這些工作負(fù)載并不被視為高性能計算。“他們只是表示他們的工作負(fù)載有更高密度的機(jī)架而已。”勞倫斯表示說。
“如果將GPU與英特爾處理器放在一起,他們的功率密度可能會達(dá)到以前的三倍。”他說。液體冷卻方案顯然非常適合這些加速器,特別是浸入式冷卻方案,可以冷卻GPU和CPU。
2. 冷卻高密度存儲
隨著當(dāng)前企業(yè)數(shù)據(jù)中心的存儲密度的持續(xù)增加,可能會使得有效的冷卻存儲變得更加困難。數(shù)據(jù)中心所安裝的大部分存儲容量都是由非密封的硬盤驅(qū)動器所組成的,不能采用液體冷卻方案。然而,較新的技術(shù)在這方面則為業(yè)界的企業(yè)用戶們帶來了希望。例如,固態(tài)的驅(qū)動器可以使用全浸入式的解決方案進(jìn)行冷卻。此外,在最新一代的存儲硬件中創(chuàng)建支持高密度,高速讀/寫頭的氦氣要求密封單元,使其適用于液體冷卻方案。
正如在451 Research所發(fā)布的報告中所指出的那樣,固態(tài)硬盤和充滿氦氣的硬盤驅(qū)動器的組合意味著無需將空氣冷卻存儲與液體冷卻處理方式分開。硬盤驅(qū)動器的可靠性的提升還帶了一大益處,即:在冷卻液中浸入驅(qū)動器可以有助于減少熱量和濕度對組件的影響。
3. 網(wǎng)絡(luò)邊緣計算
減少當(dāng)前和未來應(yīng)用程序延遲的需求進(jìn)一步的推動了對網(wǎng)絡(luò)邊緣新一代數(shù)據(jù)中心的需求。這些可以是在無線塔、工廠操作車間或零售店中所部署的高密度的遠(yuǎn)程設(shè)施。而且這些設(shè)施可能會越來越多地托管高密度的計算硬件,例如用于機(jī)器學(xué)習(xí)的GPU打包集群。
雖然并非所有的邊緣數(shù)據(jù)中心都是采用的液體冷卻的方案,但許多邊緣數(shù)據(jù)中心將被設(shè)計用于支持在無法使用傳統(tǒng)冷卻方案的密閉空間中的繁重工作負(fù)載,或者在沒有使用傳統(tǒng)的先決條件的新部署環(huán)境中實施冷卻。由于降低了能耗,液體冷卻方案使得在沒有大容量供電的地方更容易部署邊緣站點。
而根據(jù)勞倫斯的預(yù)計介紹,多達(dá)20%的邊緣數(shù)據(jù)中心可以使用液體冷卻方案。他設(shè)想遠(yuǎn)程的微模塊化高密度數(shù)據(jù)中心站點支持每臺機(jī)架40kW。
4. 高頻交易和區(qū)塊鏈
許多現(xiàn)代金融服務(wù)行業(yè)企業(yè)的工作負(fù)載都是計算密集型的,需要高性能的CPU以及GPU。這些工作負(fù)載包括高頻交易系統(tǒng)和基于區(qū)塊鏈的應(yīng)用程序,如智能合約和加密貨幣。
例如,綠色 革命冷卻技術(shù)公司(GRC,Green Revolution Cooling)的某家企業(yè)客戶便是一家高頻交易公司,該企業(yè)客戶公司正在測試其浸入式冷卻解決方案。當(dāng)綠色 革命冷卻技術(shù)公司推出了用于加密貨幣采礦的浸入式冷卻產(chǎn)品,同時比特幣的價格也從2017年底開始飆升時,該公司也經(jīng)歷了有史以來最大幅度的銷售飆升。
GRC的首席執(zhí)行官Peter Poulin告訴 記者說,GRC公司的另一家位于特立尼達(dá)和多巴哥的企業(yè)客戶正在以每臺機(jī)架100kW的功率運(yùn)行加密貨幣服務(wù),并將一個溫水冷卻回路連接到蒸發(fā)塔。由于溫水冷卻比冷水冷卻方案更加節(jié)能,因此該冷卻方案可以在沒有機(jī)械冷卻器的熱帶環(huán)境條件下正常運(yùn)行。
5. 傳統(tǒng)冷卻方案的成本費(fèi)用昂貴
當(dāng)基于空氣的冷卻系統(tǒng)無法處理高密度的冷卻需求時,液體冷卻方案便開始凸顯出其意義了。
例如,地球科學(xué)公司CGG使用了GRC的浸入式液體冷卻系統(tǒng),以便為其位于休斯頓的數(shù)據(jù)中心提供冷卻降溫,CGG在該數(shù)據(jù)中心主要進(jìn)行地震相關(guān)數(shù)據(jù)的處理分析工作,他們在商用服務(wù)器上使用的是功能強(qiáng)大的GPU,每臺機(jī)架消耗高達(dá)23kW的功率。這種功率密度是相對較高的,但這種密度通常采用的是空氣冷卻方案。CGG的高級系統(tǒng)部門經(jīng)理Ted Barragy表示說:“我們將沉重的計算服務(wù)器放入沉浸式水箱進(jìn)行冷卻。但事實上,與其說是此舉是為了滿足應(yīng)用程序的工作負(fù)載,還不如說沉浸液體冷卻方案更符合成本經(jīng)濟(jì)。
在其升級過程中,浸入式的液體冷卻方案取代了CGG公司舊數(shù)據(jù)中心過去所采用的傳統(tǒng)冷卻設(shè)備。根據(jù)Barragy的介紹,由于進(jìn)行了升級,該團(tuán)隊恢復(fù)了幾兆瓦的電力容量。“即使在添加了服務(wù)器和沉浸式水箱幾年之后,我們?nèi)匀粨碛邪胝淄叩碾娏Y源尚未使用。”他說。“這是一個老舊的傳統(tǒng)數(shù)據(jù)中心,其大約有一半的功率消耗都用于低效的空氣冷卻系統(tǒng)。”
Barragy還表示,浸入式冷卻數(shù)據(jù)中心的PUE值大約為1.05。這比該公司位于休斯頓的另一處新建的、但卻采用的是空氣冷卻方案的數(shù)據(jù)中心的冷卻效率更高,后者的PUE值為1.35。
“很多人認(rèn)為這種液體冷卻僅僅只是適合于每臺機(jī)架的計算功率密度真正達(dá)到60kW至100kW的高密度的冷卻解決方案,但對于我們的主流企業(yè)客戶來說,該方案還有其他方面的顯著優(yōu)勢,”Poulin說。
來自Uptime Institute的首席技術(shù)官克里斯布朗(Chris Brown)表示說,他們目前已經(jīng)看到業(yè)界對于液體冷卻方案的興趣的普遍增加。而這正是由當(dāng)前企業(yè)數(shù)據(jù)中心迫切要求實現(xiàn)更高的能效和更低的運(yùn)營成本所推動的。
“液體冷卻方案這方面的重點不再是圍繞著超高密度,而是一般的企業(yè)級數(shù)據(jù)中心的運(yùn)營管理人員們可以用于冷卻任何IT資產(chǎn)的方案。”他說。“該方案目前正在進(jìn)入更常見的密度解決方案和更多普通的數(shù)據(jù)中心。”
(原標(biāo)題:數(shù)據(jù)中心液體冷卻方案正在興起的五大原因)