高密度主機托管和企業(yè)數(shù)據(jù)中心的冷卻系統(tǒng)考慮因素

機房360
litao984lt編譯
當(dāng)前,在計算機技術(shù)領(lǐng)域的最新進展以及高性能CPU和GPU的日益普及使得企業(yè)用戶們能夠在計算機分析方面達到新的高度,包括使用大數(shù)據(jù)分析、人工智能、高頻交易、石油和天然氣研究以及網(wǎng)絡(luò)規(guī)?;虡I(yè)模式。對于這些技術(shù)...

當(dāng)前,在計算機技術(shù)領(lǐng)域的最新進展以及高性能CPU和GPU的日益普及使得企業(yè)用戶們能夠在計算機分析方面達到新的高度,包括使用大數(shù)據(jù)分析、人工智能、高頻交易、石油和天然氣研究以及網(wǎng)絡(luò)規(guī)?;虡I(yè)模式。對于這些技術(shù)普及采用的快速增長已經(jīng)超過了大多數(shù)主機托管和企業(yè)基礎(chǔ)設(shè)施大規(guī)模冷卻這些高度密集的服務(wù)器機架的能力。

雖然許多基礎(chǔ)設(shè)施均承諾能夠以每平方英尺一瓦特為基礎(chǔ),以便能夠為高于標(biāo)準(zhǔn)服務(wù)器機架密度的計算機系統(tǒng)提供冷卻的能力,但是許多基礎(chǔ)設(shè)施(如果不是全部的話)均無法大規(guī)模地實現(xiàn)對于如此高密度的新的計算機系統(tǒng)的有效管理。故而主機托管和企業(yè)數(shù)據(jù)中心必須考慮這些新的計算機如何在數(shù)據(jù)中心環(huán)境中進行交互,了解可用于冷卻這些密集服務(wù)器的各種解決方案,并構(gòu)建可支持當(dāng)前和未來使用的最新計算機機架的基礎(chǔ)架構(gòu)。

隨著當(dāng)前的IT企業(yè)組織對于高密度計算機使用的不斷增加,運行這些先進系統(tǒng)的要求也在相應(yīng)提升。推動更高效的數(shù)據(jù)中心是與數(shù)據(jù)中心建筑物的電源使用效率(PUE)密切相關(guān)的主題,而后者的定義計算公式為:(數(shù)據(jù)中心總設(shè)備能耗)/(IT設(shè)備的能耗)。對于高性能計算(HPC)集群和高密度計算機架而言,其每臺機架的功率密度高達100 kW,有時甚至更高,每臺機架的平均密度估計為35 kW。

故而當(dāng)前的建筑物業(yè)主、主機托管設(shè)施、企業(yè)數(shù)據(jù)中心、Web規(guī)?;髽I(yè)、政府機構(gòu)、大學(xué)和國家級的研究實驗室都在積極努力的升級其冷卻基礎(chǔ)設(shè)施,以便不僅能夠為這些新的計算機系統(tǒng)所產(chǎn)生的熱量提供冷卻散熱,并且與此同時還要盡可能的減少或消除它們對建筑的能源消耗量或PUE的影響。

當(dāng)前在石油和天然氣勘探研究、金融交易機構(gòu)、網(wǎng)絡(luò)營銷等行業(yè)中對于“大數(shù)據(jù)分析”技術(shù)的快速采用進一步突顯了對數(shù)據(jù)中心高效冷卻的需求。這是因為世界上大多數(shù)的計算機服務(wù)器機房和數(shù)據(jù)中心都沒有配備或準(zhǔn)備好處理當(dāng)前和下一代服務(wù)器計算機所產(chǎn)生的大量熱負荷。如果我們假設(shè)由高密度計算機所消耗的功率都100%的轉(zhuǎn)換為熱能的話,那么也就很容易理解“為什么當(dāng)下的企業(yè)數(shù)據(jù)中心必須要以有效且高效的方式去除這些熱量”這一議題會成為業(yè)界廣泛關(guān)注的焦點了。

研究高密度計算機系統(tǒng)的冷卻解決方案

1、浸沒式冷卻方案

新的超高性能計算機芯片能夠讓HPC系統(tǒng)的設(shè)計人員們開發(fā)出每臺機架可達100 kW的特殊集群,并且?guī)缀蹩梢猿侥壳八锌捎玫姆?wù)器冷卻方法。浸沒式冷卻系統(tǒng)提供填充有特殊設(shè)計的非導(dǎo)電介電液體的槽,允許整個服務(wù)器浸沒在液體中,而不會跨計算機電路產(chǎn)生電導(dǎo)的風(fēng)險。這些高效系統(tǒng)可以消除高密度計算機系統(tǒng)產(chǎn)生的熱量高達100%。一旦這些熱量被轉(zhuǎn)移到介電流體中,然后就可以通過熱交換器,泵和閉環(huán)冷卻系統(tǒng)很容易地移除了。

通常,傳統(tǒng)的企業(yè)數(shù)據(jù)中心為了能夠順利部署采用新的浸沒式冷卻系統(tǒng),都需要進行翻新。包括CRAC、高架地板和垂直服務(wù)器機架等傳統(tǒng)的冷卻設(shè)備都將被浸沒式的液體槽和更新的閉環(huán)溫水冷卻系統(tǒng)所取代。這些液體槽水平安置在地板上,為IT人員提供了一大新的優(yōu)勢,但卻是以占據(jù)了每平方英尺高成本的數(shù)據(jù)中心占地面積空間為代價的。服務(wù)器由其所有者或第三方通過移除可能受到電介質(zhì)流體負面影響的組件被修改——例如硬盤驅(qū)動器和原始設(shè)備制造商(OEM)可能無法保證的其他組件??紤]到對于相關(guān)基礎(chǔ)設(shè)施所實施的這些巨大改變將極大地限制企業(yè)未來的OEM服務(wù)器選項,并且僅限于具有專用浸入式冷卻技術(shù)的服務(wù)器機房使用,故而企業(yè)數(shù)據(jù)中心應(yīng)該專門考慮未來的服務(wù)器更新選項。

雖然浸入式冷卻為世界上最極端的HPC系統(tǒng)提供了極高的效率,但這種HPC系統(tǒng)的普遍稀缺性及其所需的對于基礎(chǔ)設(shè)施升級和維護方面的挑戰(zhàn)是目前市場廣泛對其普及接受的一大難題。

圖一:浸沒式冷卻

2、直接到冷卻芯片,片上冷卻方案

最近,直接冷卻到芯片或片上冷卻技術(shù)在HPC行業(yè)取得了重大進展。小型散熱器被直接連接到計算機的CPU和GPU,從而創(chuàng)建了高效的緊密耦合服務(wù)器散熱。來自服務(wù)器的高達70%的散熱將由直接到芯片的散熱器收集,并通過小型的毛細管系統(tǒng)傳輸?shù)嚼鋮s液分配單元(CDU)。然后,CDU將熱量傳遞到單獨的閉環(huán)冷卻系統(tǒng),以排出來自計算機房的熱量。其熱平衡使得30%或更多的熱量被拒絕進入到現(xiàn)有的服務(wù)器房間冷卻基礎(chǔ)設(shè)施。

通常用于直接到芯片冷卻的溫水冷卻系統(tǒng)一般被認為是不使用制冷設(shè)備的冷卻系統(tǒng),例如閉環(huán)干式冷卻器(類似于大型散熱器)和冷卻塔,并且最近由美國供暖制冷與空調(diào)工程師協(xié)會(ASHRAE)進行了量化。以生產(chǎn)“W-3或W-4”水溫或介乎2°C - 46°C(36°F-115°F)的水溫。與典型的冷藏冷卻系統(tǒng)相比,這些系統(tǒng)所消耗的能量顯著減少,并為直接到芯片的冷卻系統(tǒng)提供了足夠的散熱,因為它們可以在W3-W4范圍內(nèi)的冷卻水供應(yīng)溫度下保持運行。

如果重新利用和恰當(dāng)?shù)氖褂媚軌蛴兄谔岣邤?shù)據(jù)中心整體建筑的效率和PUE的話,直接芯片冷卻解決方案也可用于回收低等級的水熱。這種形式的熱回收的優(yōu)點會受到該建筑物的采暖、通風(fēng)和空氣調(diào)節(jié)(HVAC)系統(tǒng)功能的限制。HVAC建筑設(shè)計在世界各地是不同的。由于大多數(shù)建筑物中都普遍使用基于水的終端設(shè)備,因此歐洲的許多地方都可以從低等級的熱回收中受益。相比之下,大多數(shù)北美地區(qū)的HVAC建筑設(shè)計使用具有電子再熱終端盒的中央強制空氣加熱和冷卻系統(tǒng),故而很少使用從直接到芯片或片上冷卻系統(tǒng)的低等級熱回收。分配再生溫水的可行性也應(yīng)在使用建筑水力基礎(chǔ)設(shè)施之前一起進行研究。

根據(jù)最近由歐內(nèi)斯特·勞倫斯伯克利國家實驗室所進行的一項名為“電子設(shè)備的直接液體冷卻”的研究得出結(jié)論:在優(yōu)化的實驗室條件下,市場領(lǐng)先的直接芯片冷卻系統(tǒng)所達到的最佳冷卻性能為70%。這對于這樣的系統(tǒng)留下了有趣且可能適得其反的結(jié)果,因為來自計算機系統(tǒng)的大量熱量仍然必須禁止進入到周圍的房間,然后必須通過諸如計算機房空調(diào)(CRAC)或計算機室空氣處理器(CRAH)等更傳統(tǒng)、效率更低的裝置來冷卻。(如下圖二)。

為了更好地了解部署直接或片上冷卻系統(tǒng)的新效果,必須將HPC集群視為整體建筑能耗的一部分,然后可以直接與建筑物PUE相連??紤]到具有直接芯片冷卻功能的35 kW機架將至少拒絕10.5 kW(占30%)的熱量散發(fā)到計算機房,平均一臺HPC群集包括6臺機架式計算機(不包括高密度存儲陣列),直接到芯片或片上冷卻系統(tǒng)將在既定空間內(nèi)排出至少60kW的熱負荷。利用CRAC或CRAH排除這種余熱的最常用方法會導(dǎo)致原始效率增益的顯著下降。

在采用片上冷卻系統(tǒng)時,還需要考慮數(shù)據(jù)中心內(nèi)部實際基礎(chǔ)設(shè)施的需求,以及更重要的服務(wù)器機架內(nèi)部的需求所提出其他方面的挑戰(zhàn)。為了使溫水冷卻到芯片水平,必須通過許多小軟管將水輸送到機架內(nèi)部,然后這些軟管又將直接輸送到芯片熱交換器/泵。雖然這些安裝的規(guī)模很小,但是需要IT人員來管理裝滿大量軟管的機架背面,以及用于連接冷卻系統(tǒng)入口和出水的分配頭。

直接芯片冷卻系統(tǒng)直接連接到HPC集群的主板,設(shè)計或多或少是永久性的。通常根據(jù)需求或預(yù)算,HPC群集平均每3到5年需要進行更新(或替換)。考慮到這一點,如果在托管環(huán)境中使用,則每次實施更新或客戶端重定位都需要為冷卻系統(tǒng)基礎(chǔ)結(jié)構(gòu)的更改準(zhǔn)備好設(shè)施規(guī)劃。

直接芯片冷卻在高效冷卻當(dāng)今高密度計算機集群方面取得了顯著進步,但是一旦進入更大的計算機房或建筑物環(huán)境,就必須考慮整體的建筑性能,基礎(chǔ)設(shè)施成本影響和在其整個使用壽命周期內(nèi)總的投資回報率了。

圖二:直接片上冷卻方案

3、具備密封容器系統(tǒng)的機架行級冷卻方案

在2000年代初,冷卻開始向數(shù)據(jù)中心內(nèi)的服務(wù)器機架靠近,主要是由于服務(wù)器熱負荷的快速增加,以及傳統(tǒng)CRAC和CRAH空調(diào)系統(tǒng)無法推動足夠的冷空氣來滿足服務(wù)器的冷卻散熱需求。早期推出的方案之一便是機架行級冷卻(In-Row Cooler)技術(shù),其是傳統(tǒng)CRAC和CRAH的變體,但重新設(shè)計了不同的外形,夾在相鄰的服務(wù)器機架之間。

機架行級冷卻方案為較高密度服務(wù)器機架提供了卻管理冷能力,只需將冷卻部件放置在靠近熱源的位置即可。來自熱通道(服務(wù)器機架后部)的暖空氣通過機架行級冷卻器吸入,由冷水或制冷劑冷卻,然后排放到冷通道(服務(wù)器機架前部)。通常,服務(wù)器的熱負荷決定了兩種最常用的機架行內(nèi)冷卻器的尺寸分別為12英寸寬或24英寸寬。機架密度越高,服務(wù)器機架和行內(nèi)冷卻器之間的比例就越接近。每臺5x服務(wù)器機架的低密度數(shù)據(jù)中心可以使用1x 12英寸規(guī)格的機架行內(nèi)冷卻器,而對于其他服務(wù)器機架的更高密度系統(tǒng),可能需要1x 24英寸規(guī)格的機架行內(nèi)冷卻器。

盡管將機架行內(nèi)冷卻器定位在服務(wù)器機架附近可以實現(xiàn)冷卻效率的提高,但是曾經(jīng)占據(jù)數(shù)據(jù)中心周邊空間的大型CRAC或CRAH單元則需要被轉(zhuǎn)移到服務(wù)器機架之間的可能更有價值的空間。

對于主機托管設(shè)施而言,其機架空間與企業(yè)的凈利潤直接相關(guān),因此這種進行成本的權(quán)衡變得至關(guān)重要。許多大型企業(yè)和托管設(shè)施還在可重復(fù)的網(wǎng)格模式上加載空白區(qū)域,從而允許在IT和基礎(chǔ)設(shè)施設(shè)計布局上逐步擴展和統(tǒng)一。如果按規(guī)?;渴?,可以以這種方式管理機架行內(nèi)的系統(tǒng),但是如果用作高密度區(qū)域的補充冷卻技術(shù),或者在集合的情況下用于支持本地化高密度客戶端的冷卻,則機架行內(nèi)系統(tǒng)可能會破壞整個空白區(qū)域的一致性,并為負責(zé)部署的MEP站點團隊帶來額外的挑戰(zhàn)。

圖三:具有熱通道密封遏制方案的行內(nèi)冷卻器

密封遏制系統(tǒng),無論其是熱通道還是冷通道,都為行內(nèi)冷卻策略增添了另一種巧妙的方案。熱通道密封系統(tǒng)最常用于熱通道,旨在將熱空氣夾在服務(wù)器機架后部的過道中。關(guān)于設(shè)施基礎(chǔ)設(shè)施所面臨的挑戰(zhàn)的討論將被排除在該討論之外,許多企業(yè)已成功克服這些挑戰(zhàn)。與本文所探討的更相關(guān)的是熱通道密封系統(tǒng)對更高密度IT設(shè)備的性能影響,這是經(jīng)常被企業(yè)數(shù)據(jù)中心管理人員們所疏忽的重大問題。

從熱力學(xué)的角度來看,密封遏制的熱通道有助于實現(xiàn)熱通道中的熱空氣溫度的最大化,從而使得在機架行內(nèi)系統(tǒng)進入行內(nèi)熱交換器的熱空氣與冷水或制冷劑之間具有更大的ITD(初始溫差),以便用來去除熱量。這增加了機架行內(nèi)冷卻器系統(tǒng)的性能和效率。然而,這種策略未能解決當(dāng)今最新的密集型IT設(shè)備的極其重要的氣流要求。每千瓦計算功率的空氣流量可以從80cfm到130cfm不等,這不僅僅是由于計算機制造商的不同,而且還會因CPU和GPU制造商的不同而變化。目前可用的大多數(shù)(如果不是全部的話)行內(nèi)冷卻器在這些情況下均會存在氣流不足的情況。

通常,在部署完成之后所發(fā)現(xiàn)的問題往往是熱通道中的熱空氣的熱堆疊效應(yīng)??吹綗嵬ǖ赖哪康氖遣东@熱空氣似乎是很明顯的。然而,更重要的關(guān)鍵點則是行內(nèi)系統(tǒng)必須能夠移動服務(wù)器排放到熱痛到的相同流量的空氣。任何不足都會導(dǎo)致服務(wù)器風(fēng)扇的背壓,以前稱為堆疊。熱堆疊往往會在服務(wù)器風(fēng)扇上產(chǎn)生過多的工作負載,盡管更有問題的情況是芯片級產(chǎn)生的過熱。熱堆疊迫使CPU和GPU退回,限制了計算級別的性能,實際上會破壞計算機的設(shè)計性能。即使安裝后的糾正不是不可能的,這種情況也會相當(dāng)困難。在高密度IT設(shè)備上部署帶有密封系統(tǒng)的行內(nèi)冷卻器之前,企業(yè)數(shù)據(jù)中心的MEP團隊,IT運營團隊和客戶(如果適用的話)應(yīng)共享設(shè)計成功的行內(nèi)冷卻策略所需的相關(guān)數(shù)據(jù)。

背板換熱器

在制造和使用HPC集群和高密度服務(wù)器機架的過程中,背板換熱器(Active Rear Door Heat Exchangers,ARDH)越來越受歡迎。ARDH能夠在幾乎沒有基礎(chǔ)設(shè)施變化的情況下從服務(wù)器機架中移除100%的熱量,從而提高系統(tǒng)效率和便利性。這些系統(tǒng)通常與機架無關(guān),并能夠取代任何行業(yè)標(biāo)準(zhǔn)服務(wù)器機架的后門背板。他們利用一系列高效風(fēng)扇和冷卻水來消除計算機系統(tǒng)的熱量。電子換向(EC)風(fēng)扇用于匹配CFM中的服務(wù)器空氣流量,以確保從服務(wù)器中移除所有熱量。

一款A(yù)RDH在57F-75F之間使用清潔水或乙二醇混合物,這在大多數(shù)數(shù)據(jù)中心通常都很容易獲得,如果沒有的話,可以利用冷凍水廠,閉式冷卻系統(tǒng)如冷卻塔,干式冷卻器或這些系統(tǒng)的組合來生產(chǎn)。利用ARDH允許將高密度服務(wù)器機架安裝在現(xiàn)有計算機房中,例如主機托管設(shè)施或傳統(tǒng)數(shù)據(jù)中心,并且?guī)缀醪恍枰淖兓A(chǔ)設(shè)施,對周圍的計算機機架也沒有任何影響。

背板換熱器可以為每臺計算機架移除高達75 kW的功率,并能夠隨著集群經(jīng)歷多個更新周期,為企業(yè)用戶提供大量的擴展功能。這些系統(tǒng)一旦部署,通過監(jiān)控內(nèi)部服務(wù)器機架溫度和外部室溫,為數(shù)據(jù)中心所有者提供相應(yīng)的優(yōu)勢,確保維持熱中性環(huán)境。

最近,服務(wù)器制造商的實驗室測試發(fā)現(xiàn),添加ARDH實際上降低了機架內(nèi)計算機的風(fēng)扇功耗,而并未抵消ARDH風(fēng)扇陣列的最小功耗。雖然這初略看上去是違反直覺的,但深入研究表明,即使在高密度工作負載下,ARDH風(fēng)扇有助于使得服務(wù)器的風(fēng)扇消耗更少的能量,并且性能更好。測試還表明了硬件性能提高,從而延長了服務(wù)器的預(yù)期壽命。

ARDH提供對機架后部的完全訪問,可以安裝在頂部和底部供水配置中,提供進一步的靈活性,無論是否使用高架活動地板,都可以集成到新的或現(xiàn)有的設(shè)施中。大多數(shù)主機托管機構(gòu)都希望吸引最廣泛的潛在客戶,這使得ARDH成為數(shù)據(jù)中心冷卻的一個方便且具有戰(zhàn)略重要性的選擇。冷卻方案可以根據(jù)需要隨時隨地的快速部署,而不會影響周圍的機架或相鄰客戶。ARDH可以在整個數(shù)據(jù)中心或更高密度區(qū)域進行規(guī)?;渴?。

圖四:位于俄勒岡州波特蘭的Infomart數(shù)據(jù)中心的LinkedIn服務(wù)器上所部署的機架冷卻系統(tǒng)

結(jié)論

企業(yè)數(shù)據(jù)中心已經(jīng)成為當(dāng)前許多大型財富500強乃至100強企業(yè)運營的支柱,特別是當(dāng)考慮到當(dāng)下最為火爆的網(wǎng)絡(luò)規(guī)?;虡I(yè)模式的情況下。大型主機托管設(shè)施已經(jīng)大大超越了過去那些僅僅只是為客戶提供簡單的服務(wù)器管理的傳統(tǒng)商業(yè)模式,其現(xiàn)在通常作為外部投資者的復(fù)雜金融工具。對于企業(yè)和主機托管數(shù)據(jù)中心而言,應(yīng)注重特別設(shè)計方面的考慮,這些數(shù)據(jù)中心現(xiàn)在在推動企業(yè)利潤方面發(fā)揮著不可或缺的作用,同時還希望能夠更進一步的降低操作風(fēng)險。這些曾用于分析金融投資的財務(wù)條款,但現(xiàn)在在描述新的數(shù)據(jù)中心建設(shè)所將涉及到的風(fēng)險回報時也經(jīng)常聽到。

當(dāng)前,CPU和GPU芯片技術(shù)的演變大約已經(jīng)經(jīng)歷了18個月了,這意味著計算機性能升級和密度還將增加。在考慮更新之前,主機托管和企業(yè)基礎(chǔ)設(shè)施通常預(yù)計有10到15年的使用壽命周期。由于這兩條趨勢線很少相互交叉,因此數(shù)據(jù)中心設(shè)計團隊必須考慮能夠與其所需的相關(guān)IT設(shè)備相媲美的計算機冷卻系統(tǒng)。最近在這些關(guān)鍵設(shè)施中,每平方英尺的建筑設(shè)計輪廓的總瓦數(shù)方面得到了太多關(guān)注。每平方英尺所消耗的瓦特數(shù)的計算和模擬計算流體動力學(xué)(CFD)設(shè)計很少考慮高密度IT設(shè)備的大規(guī)模部署,限制了這些機架在彼此靠近和相鄰的低密度IT設(shè)備上按比例的安排。每臺機架級別25kW及以上的服務(wù)器機架的普及程度很容易超過傳統(tǒng)冷卻技術(shù)的成就,并且暴露了大量數(shù)據(jù)中心的準(zhǔn)備不足,而這些數(shù)據(jù)中心無法很好的管理當(dāng)今最新計算機的冷卻要求和許多主機托管客戶的要求。

目前有幾種可靠的技術(shù)可用于冷卻當(dāng)今的高密度服務(wù)器,而企業(yè)數(shù)據(jù)中心必須選擇一種高效實用的系統(tǒng),該系統(tǒng)可匹配相關(guān)建筑的冷卻基礎(chǔ)設(shè)施,以及未來的更新策略和預(yù)算順利運行。冷卻這些高級計算機的工程和設(shè)計計劃應(yīng)該在選擇采購相關(guān)計算機系統(tǒng)之前或同時進行,因為現(xiàn)在的企業(yè)經(jīng)常利用冷卻系統(tǒng)本身來確保最佳和有保證的計算機性能,以及確保對于所簽署的SLA協(xié)議的遵守。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論