本文來(lái)自微信公眾號(hào)“數(shù)據(jù)中心運(yùn)維管理”。
如今,許多數(shù)據(jù)中心的每個(gè)IT機(jī)架的功率密度都在不斷增加,上升到幾年前看似極端且遙不可及的水平,但如今在部署空氣冷卻的同時(shí)被認(rèn)為既常見(jiàn)又典型。例如,Uptime Institute在2020年的調(diào)查發(fā)現(xiàn),由于計(jì)算密集型工作負(fù)載,密度為20 kW及更高的機(jī)架正在成為許多數(shù)據(jù)中心的現(xiàn)實(shí)。
這種增長(zhǎng)讓數(shù)據(jù)中心利益相關(guān)者想知道風(fēng)冷IT設(shè)備(ITE)以及用于將冷供氣與熱廢氣分離的密封裝置是否最終達(dá)到了其極限,以及液體冷卻是否是長(zhǎng)期解決方案。然而,答案并不像“是”或“否”那么簡(jiǎn)單。
展望未來(lái),預(yù)計(jì)數(shù)據(jù)中心將從100%風(fēng)冷過(guò)渡到包含風(fēng)冷和液冷解決方案的混合模型,所有新的和現(xiàn)有的風(fēng)冷數(shù)據(jù)中心都需要密封以提高效率、性能和可持續(xù)性。此外,那些轉(zhuǎn)向液體冷卻的人可能仍然需要遏制來(lái)支持其關(guān)鍵任務(wù)應(yīng)用,具體取決于部署的服務(wù)器技術(shù)的類(lèi)型。
有人可能會(huì)問(wèn),為什么空氣冷卻與液體冷卻的爭(zhēng)論現(xiàn)在成為業(yè)界的熱門(mén)話題?為了回答這個(gè)問(wèn)題,我們需要了解是什么推動(dòng)了液體冷卻的需求、其他選擇,以及如何在繼續(xù)利用空氣作為主要冷卻機(jī)制的同時(shí)評(píng)估這些選擇。
風(fēng)冷和液冷可以共存嗎?
對(duì)于那些剛進(jìn)入數(shù)據(jù)行業(yè)的人來(lái)說(shuō),這是我們以前所處的位置,空氣和液體冷卻成功共存,同時(shí)通過(guò)板內(nèi)空氣-水熱交換器去除大量熱量。這個(gè)過(guò)程一直持續(xù)到20世紀(jì)90年代行業(yè)主要轉(zhuǎn)向CMOS技術(shù)為止,從那時(shí)起我們就一直在數(shù)據(jù)中心使用空氣冷卻。
由于空氣是數(shù)據(jù)中心冷卻的主要來(lái)源,ASHRAE(美國(guó)供暖、制冷和空調(diào)工程師協(xié)會(huì))一直致力于使這項(xiàng)技術(shù)盡可能高效和可持續(xù)。自2004年以來(lái),在ITE和冷卻系統(tǒng)制造商的參與下發(fā)布了一套冷卻IT服務(wù)器的通用標(biāo)準(zhǔn),名為:TC9.9數(shù)據(jù)處理環(huán)境熱指南。
ASHRAE重點(diǎn)關(guān)注數(shù)據(jù)中心ITE冷卻的效率和可靠性。已發(fā)布多個(gè)修訂版本,最新版本于2021年發(fā)布(修訂版5)。最新一代TC9.9突出了新型高密度風(fēng)冷ITE(H1級(jí)),更注重冷卻高密度服務(wù)器和機(jī)架,但由于冷卻送風(fēng)溫度較低,因此在能源效率方面進(jìn)行了權(quán)衡建議冷卻ITE。
至于空氣冷卻和液體冷卻是否可以在數(shù)據(jù)中心空白中共存的問(wèn)題——這種情況已經(jīng)存在了幾十年,而且展望未來(lái),許多專家預(yù)計(jì)這兩種冷卻技術(shù)將在未來(lái)幾年中共存。
服務(wù)器功耗趨勢(shì)揭示了什么?
人們很容易認(rèn)為,在冷卻方面,無(wú)論是現(xiàn)在還是將來(lái),一種尺寸都可以滿足所有功耗和冷卻消耗,但這并不準(zhǔn)確。更重要的是關(guān)注我們正在設(shè)計(jì)或運(yùn)營(yíng)的數(shù)據(jù)中心的實(shí)際工作負(fù)載。
過(guò)去,對(duì)于空氣冷卻的一個(gè)常見(jiàn)假設(shè)是,一旦每個(gè)機(jī)架的功率超過(guò)25kW,就應(yīng)該過(guò)渡到液體冷卻。但業(yè)界對(duì)此做出了一些改變,使數(shù)據(jù)中心能夠通過(guò)傳統(tǒng)風(fēng)冷方式將每個(gè)機(jī)架冷卻至甚至超過(guò)35kW。
科學(xué)數(shù)據(jù)中心主要包括機(jī)器學(xué)習(xí)人工智能等GPU驅(qū)動(dòng)的應(yīng)用和加密貨幣挖掘等高級(jí)分析,是該行業(yè)通常正在向液體冷卻過(guò)渡或轉(zhuǎn)向的領(lǐng)域。但如果你看看其他一些工作負(fù)載,比如云和大多數(shù)企業(yè),增長(zhǎng)率正在上升,但從成本角度來(lái)看,風(fēng)冷仍然有意義。關(guān)鍵是從業(yè)務(wù)的角度看這個(gè)問(wèn)題,我們每個(gè)數(shù)據(jù)中心要實(shí)現(xiàn)什么目標(biāo)?
是什么推動(dòng)了服務(wù)器功率的增長(zhǎng)?
直到2010年左右,企業(yè)還在使用單核處理器,但一旦可用,他們就轉(zhuǎn)向多核處理器。然而,這些雙核和四核處理器的功耗仍然相對(duì)平穩(wěn)。這使得服務(wù)器制造商能夠?qū)W⒂诶鋮sITE的較低氣流速率,從而提高整體效率。
2018年左右,隨著這些處理器的尺寸不斷縮小,更高的多核處理器成為常態(tài),隨著這些處理器達(dá)到性能極限,計(jì)算密集型應(yīng)用程序繼續(xù)實(shí)現(xiàn)新性能水平的唯一方法是增加功耗。服務(wù)器制造商一直在盡可能多地安裝服務(wù)器,但由于CPU功耗,在某些情況下,數(shù)據(jù)中心很難通過(guò)空氣冷卻來(lái)散熱,從而需要替代冷卻解決方案,例如液體冷卻。
幾年來(lái),服務(wù)器制造商也一直在提高服務(wù)器之間的溫度增量,這對(duì)效率也有很大幫助,因?yàn)闇囟仍隽吭礁?,散熱所需的氣流就越少。然而,服?wù)器制造商反過(guò)來(lái)也達(dá)到了極限,導(dǎo)致數(shù)據(jù)中心運(yùn)營(yíng)商不得不增加氣流來(lái)冷卻高密度服務(wù)器并跟上不斷增加的功耗。
空氣冷卻的附加選項(xiàng)
值得慶幸的是,業(yè)界正在采用多種方法來(lái)成功冷卻每個(gè)機(jī)架高達(dá)甚至超過(guò)35 kW的功率密度,通常采用傳統(tǒng)的空氣冷卻。這些選項(xiàng)首先是部署冷通道或熱通道遏制。如果通常不使用密封裝置,則每個(gè)機(jī)架的機(jī)架密度不應(yīng)高于5 kW,并需要額外的送風(fēng)量來(lái)補(bǔ)償再循環(huán)空氣和熱點(diǎn)。
那么降低溫度呢?2021年,ASHRAE發(fā)布了第五代TC9.9,重點(diǎn)介紹了新型高密度風(fēng)冷IT設(shè)備,該設(shè)備需要使用比上一類(lèi)服務(wù)器更嚴(yán)格的供電溫度。
在某些時(shí)候,高密度服務(wù)器和機(jī)架也需要從空氣冷卻過(guò)渡到液體冷卻,特別是在未來(lái)幾年內(nèi),每個(gè)處理器的CPU和GPU預(yù)計(jì)將超500瓦或更高。但這種轉(zhuǎn)變不是自動(dòng)的,也不適合所有人。
液體冷卻并不是滿足未來(lái)所有冷卻需求的理想解決方案或補(bǔ)救措施。相反,選擇液體冷卻而不是空氣冷卻與多種因素有關(guān),包括特定位置、氣候(溫度/濕度)、功率密度、工作負(fù)載、效率、性能、熱再利用和可用物理空間。
這凸顯了數(shù)據(jù)中心利益相關(guān)者需要采取整體方法來(lái)冷卻其關(guān)鍵系統(tǒng)。它不會(huì)也不應(yīng)該是我們只考慮空氣冷卻或液體冷卻的方法。相反,關(guān)鍵是要了解每種冷卻技術(shù)的權(quán)衡,并僅部署對(duì)應(yīng)用最有意義的技術(shù)。