“熄燈”數(shù)據(jù)中心,你準(zhǔn)備好了嗎?

小二郎
熄燈數(shù)據(jù)中心的基本思想非常簡(jiǎn)單,就是指一種無(wú)人值守的數(shù)據(jù)中心,其中部署著完全自動(dòng)化的設(shè)施,無(wú)需任何人員參與即可完成操作。通過(guò)“熄燈”的方式,大大節(jié)省了能源和人員管理成本。

360截圖16440809323970.png

“熄燈”(lights-out)數(shù)據(jù)中心的概念已經(jīng)流行了很多年,但是為什么要運(yùn)營(yíng)這樣一個(gè)數(shù)據(jù)中心呢?它們會(huì)在不久的未來(lái)發(fā)展應(yīng)用嗎?

熄燈數(shù)據(jù)中心的基本思想非常簡(jiǎn)單,就是指一種無(wú)人值守的數(shù)據(jù)中心,其中部署著完全自動(dòng)化的設(shè)施,無(wú)需任何人員參與即可完成操作。通過(guò)“熄燈”的方式,大大節(jié)省了能源和人員管理成本。

事實(shí)上,“熄燈”這個(gè)想法源自制造業(yè),具體可以追溯到Philip K Dick在1955年發(fā)表的一篇短篇小說(shuō)。文中提及,在荷蘭,飛利浦工廠可以在少數(shù)質(zhì)檢人員的監(jiān)督下制造剃須刀。而在日本Fanuc工廠,即便長(zhǎng)期關(guān)閉空調(diào)和供暖系統(tǒng),也完全不影響機(jī)器人的生產(chǎn)效率。

十多年來(lái),傳統(tǒng)數(shù)據(jù)中心一直通過(guò)運(yùn)營(yíng)人員管理和維護(hù)數(shù)百臺(tái)甚至數(shù)千臺(tái)服務(wù)器。除非更換硬件或修復(fù)故障,他們通常不會(huì)進(jìn)入機(jī)房。數(shù)據(jù)中心的機(jī)械和電氣設(shè)備也都是自動(dòng)化的,因此冷卻裝置可以在無(wú)人值守的情況下運(yùn)行,并且提示工程師或致電制造商,以進(jìn)行偶爾的預(yù)防性維護(hù)。

長(zhǎng)久以來(lái),傳統(tǒng)數(shù)據(jù)中心一直在通過(guò)人工來(lái)管理和維護(hù)服務(wù)器。為此,給運(yùn)維人員提供工作環(huán)境和條件所進(jìn)行的各種安全設(shè)置和環(huán)境設(shè)施或多或少的都需要利用一定的空間和能源。

熄燈數(shù)據(jù)中心在2011年首次亮相,當(dāng)時(shí)美國(guó)互聯(lián)網(wǎng)服務(wù)提供商AOL公司進(jìn)行了一次大型展示,宣布推出名為ATC的小型無(wú)人值守微型設(shè)施。AOL公司技術(shù)副總裁Mike Manos是一位曾在微軟公司工作過(guò)的數(shù)據(jù)中心專家,他在一篇博文中對(duì)熄燈數(shù)據(jù)中心的理念表示贊賞,認(rèn)為這種技術(shù)“從根本上改變了業(yè)務(wù)”。

熄燈數(shù)據(jù)中心的宣傳炒作

如今,十年過(guò)去了,AOL公司早已不復(fù)存在,而數(shù)據(jù)中心仍然需要運(yùn)營(yíng)人員進(jìn)行維護(hù)和管理。

確實(shí),ATC的一些創(chuàng)意一直存在,通??梢圆捎妙A(yù)先安裝服務(wù)器的方式將機(jī)架安裝在這樣的數(shù)據(jù)中心中。

數(shù)據(jù)中心設(shè)計(jì)師指出,數(shù)據(jù)中心的機(jī)架和服務(wù)器可以放置得更近一些,如果不考慮建筑物適宜人類居住的因素,則可以通過(guò)在較高的溫度下運(yùn)行來(lái)削減冷卻費(fèi)用。而抽取空氣中的氧氣可以防止火災(zāi),并減少腐蝕。

但是總的來(lái)說(shuō),數(shù)據(jù)中心仍然充斥著大量大型設(shè)施,仍然需要配備現(xiàn)場(chǎng)工作人員。

Uptime Institute是數(shù)據(jù)中心可靠性方面的權(quán)威機(jī)構(gòu),該機(jī)構(gòu)一直建議數(shù)據(jù)中心運(yùn)營(yíng)人員需要隨時(shí)準(zhǔn)備處理出現(xiàn)的任何問(wèn)題。該機(jī)構(gòu)的技術(shù)專家Richard F.Van Loo在2015年發(fā)布的一份簡(jiǎn)報(bào)中表示,

對(duì)于需要在Tier III級(jí)或Tier IV數(shù)據(jù)中心設(shè)施運(yùn)營(yíng)關(guān)鍵業(yè)務(wù)的組織來(lái)說(shuō),我們建議至少有一到兩家數(shù)據(jù)中心運(yùn)營(yíng)商的工作人員全天候(一年365天24X7)在現(xiàn)場(chǎng)工作。

熄燈數(shù)據(jù)中心的發(fā)展在此后發(fā)生了一些變化,尤其是規(guī)模較小的數(shù)據(jù)中心提供商,例如EdgeConneX公司。

EdgeConneX公司在美國(guó)和歐洲構(gòu)建的24個(gè)數(shù)據(jù)中心一直致力于采用一個(gè)熄燈運(yùn)營(yíng)模式。該公司的主要業(yè)務(wù)是二線數(shù)據(jù)中心市場(chǎng)的內(nèi)容分發(fā),以及不需專職人員操作的數(shù)據(jù)中心設(shè)施的設(shè)計(jì),當(dāng)需要提供上門(mén)服務(wù)時(shí),可利用先進(jìn)的監(jiān)控設(shè)備,并進(jìn)行遠(yuǎn)程操作。

EdgeConneX公司的設(shè)計(jì)也許是利用自動(dòng)化來(lái)簡(jiǎn)化數(shù)據(jù)中心的運(yùn)營(yíng)的最雄心勃勃的例子,是一種利用設(shè)計(jì)作為工具改變商業(yè)模式的經(jīng)濟(jì)學(xué)。其采用了一種先進(jìn)的設(shè)計(jì)和操作模板,讓EdgeConneX公司快速改造現(xiàn)有數(shù)據(jù)中心建筑達(dá)到第三級(jí)的冗余度,可以支持更多的高功率密度的工作負(fù)載,每個(gè)機(jī)柜可超過(guò)20千瓦。

EdgeConneX公司CIO Lance Devin表示,

我們的整個(gè)業(yè)務(wù)前提都是基于熄燈數(shù)據(jù)中心的。我們通常部署電力容量為2MW的數(shù)據(jù)中心,而不是100MW的大型數(shù)據(jù)中心。因?yàn)槲覀儫o(wú)法承擔(dān)在數(shù)據(jù)中心安排3名工程師、17名安全人員以及2名維護(hù)人員所需的成本。

EdgeConneX公司擁有廣泛的客戶群,并運(yùn)行分段管理系統(tǒng),該系統(tǒng)可以讓客戶控制IT硬件,而EdgeConneX公司則負(fù)責(zé)管理電源和冷卻基礎(chǔ)設(shè)施。

這樣的數(shù)據(jù)中心雖說(shuō)算不上完全“熄燈”,但EdgeConneX能夠遠(yuǎn)程控制安全性,這樣一來(lái),客戶服務(wù)人員就可以通過(guò)服務(wù)臺(tái)來(lái)進(jìn)行操作,無(wú)需與任何操作人員進(jìn)行現(xiàn)實(shí)碰面。

疫情封鎖推動(dòng)熄燈運(yùn)營(yíng)

隨著新冠疫情席卷全球,大多數(shù)公司(甚至是那些被認(rèn)為不可或缺的公司)都采取了嚴(yán)格的居家隔離,在家辦公政策。這也導(dǎo)致了一些問(wèn)題的出現(xiàn):

依靠現(xiàn)場(chǎng)數(shù)據(jù)中心支持人員的公司很快意識(shí)到,由于平時(shí)都是他們的員工在現(xiàn)場(chǎng)監(jiān)視數(shù)據(jù)中心,因此他們自身對(duì)數(shù)據(jù)中心操作的了解有限或沒(méi)有可視性;

許多積極主動(dòng)型并且早前就已經(jīng)部署了遠(yuǎn)程功能DCIM(數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理)的公司很快就發(fā)現(xiàn)了他們?cè)诟采w范圍上的空白;

被視為“低優(yōu)先級(jí)”的云遷移項(xiàng)目已經(jīng)變?yōu)?ldquo;高優(yōu)先級(jí)”甚至“最高優(yōu)先級(jí)”;

由于許多公司此次準(zhǔn)備不充分,因此,他們更期待可以做好下一次準(zhǔn)備。以下是大多數(shù)公司應(yīng)該采取的一些非常具體的策略:

將數(shù)據(jù)中心外包給云服務(wù)提供商或托管公司,以保證正常情況下甚至危機(jī)期間,關(guān)鍵應(yīng)用程序的正常運(yùn)行;

通過(guò)遠(yuǎn)程或通過(guò)自動(dòng)化監(jiān)視和執(zhí)行維護(hù)和升級(jí)功能,使內(nèi)部數(shù)據(jù)中心盡可能“熄滅”。

當(dāng)越來(lái)越多的工作人員需要遠(yuǎn)程居家辦公時(shí),數(shù)據(jù)中心運(yùn)營(yíng)商采用的遠(yuǎn)程控制服務(wù)也呈現(xiàn)激增趨勢(shì)。根據(jù)數(shù)據(jù)中心運(yùn)營(yíng)商QTS Data Centers公司首席技術(shù)官Brent Bensten的說(shuō)法,在由于疫情而導(dǎo)致封鎖的前三周內(nèi),該公司遠(yuǎn)程管理門(mén)戶(服務(wù)交付平臺(tái)或SDP)的登錄量激增了30%,而用戶在該系統(tǒng)上花費(fèi)的時(shí)間也是原來(lái)的2倍。

Bensten表示,

新冠疫情加速了遠(yuǎn)程管理平臺(tái)和工具的應(yīng)用,因此可以遠(yuǎn)程完成以前在現(xiàn)場(chǎng)完成的工作。

熄燈運(yùn)營(yíng)還是繼續(xù)面臨技能短缺問(wèn)題?

在許多情況下,“熄燈”是降低數(shù)據(jù)中心技能要求的一種方式,既可以作為一種削減成本的手段,也可以作為解決難以尋求熟練員工問(wèn)題的一種方式。

施耐德電氣公司的工程師Steven Carlini在一篇博客文章中對(duì)“為什么將來(lái)每個(gè)數(shù)據(jù)中心都將成為熄燈數(shù)據(jù)中心”進(jìn)行了解釋。他認(rèn)為,企業(yè)應(yīng)該“盡可能”讓其內(nèi)部部署數(shù)據(jù)中心實(shí)現(xiàn)“熄燈”,部分原因是為了應(yīng)對(duì)疫情導(dǎo)致的封鎖,另一部分原因是為了解決技能短缺問(wèn)題。

Carlini表示,

熄燈和無(wú)人值守的說(shuō)法可能并不完全準(zhǔn)確,因?yàn)榘踩藛T很可能會(huì)在現(xiàn)場(chǎng)工作。建議數(shù)據(jù)中心應(yīng)該雇用具備機(jī)械技能的安全人員,并讓他們實(shí)施即插即用的硬件更換工作,有些公司已經(jīng)在嘗試使用Zoom視頻軟件指導(dǎo)人員進(jìn)行維護(hù)和維修。

在很多情況下,“熄燈”數(shù)據(jù)中心的概念已經(jīng)演變?yōu)椴恍枰嗉寄艿牡胤健?/p>

水下數(shù)據(jù)中心的探索

那么,真正“熄燈”運(yùn)營(yíng)的數(shù)據(jù)中心真的存在嗎?可能有一些數(shù)據(jù)中心以這種方式運(yùn)行,但是并未公開(kāi);也可能是出于保密的原因,或是因?yàn)樽罱K失敗了,例如AOL公司的ATC數(shù)據(jù)中心。

但是,我們確實(shí)知道一個(gè)知名案例。

早在2016年,微軟公司就曾向外界發(fā)布了一個(gè)創(chuàng)新型的“環(huán)保”數(shù)據(jù)中心——Project Natick數(shù)據(jù)中心(事實(shí)上,該項(xiàng)目于2014年已經(jīng)啟動(dòng),2016年才正式對(duì)外公布)。最初,微軟先是建造了一個(gè)水下數(shù)據(jù)中心的原型——代號(hào)Leona Philpot的數(shù)據(jù)中心膠囊,并于2015年安置在加州海岸附近10米深的海水下長(zhǎng)達(dá)四個(gè)月。Leona Philpot數(shù)據(jù)中心膠囊無(wú)需人員值守,使用壽命可達(dá)20年以上,采用可再生能源,每五年更換一次服務(wù)器硬件。

2018年,Project Natick研究項(xiàng)目進(jìn)入到第二階段,開(kāi)始設(shè)計(jì)和制造成熟完整的水下艙室。此次,微軟公司研究團(tuán)隊(duì)在12個(gè)數(shù)據(jù)中心機(jī)架上放滿服務(wù)器,然后將服務(wù)器部署在一個(gè)壓力容器中,并將其沉入蘇格蘭海岸附近的海底。

2020年,微軟公司從海底打撈回這個(gè)代號(hào)為“SSDC-002”的水下數(shù)據(jù)中心。這個(gè)數(shù)據(jù)中心是一種充滿氮?dú)獾匿撡|(zhì)容器,其中12個(gè)機(jī)架中運(yùn)行864臺(tái)服務(wù)器,其存儲(chǔ)容量達(dá)到27.6PB,并通過(guò)電纜和光纖連接與地面的設(shè)施相連。

Project Natick水下數(shù)據(jù)中心負(fù)責(zé)人David Cutler表示,

我們?cè)跓o(wú)人接觸的情況下運(yùn)營(yíng)了該設(shè)備長(zhǎng)達(dá)25個(gè)月零8天,其結(jié)果無(wú)疑是令人滿意的。

可靠性和摩爾定律

水下數(shù)據(jù)中心服務(wù)器的可靠性要比陸地上同類服務(wù)器高出7倍。Project Natick水下數(shù)據(jù)中心使用了一批二手服務(wù)器,并將其中135臺(tái)服務(wù)器放置在陸基數(shù)據(jù)中心中運(yùn)行,其余的855臺(tái)服務(wù)器部署在這個(gè)水下數(shù)據(jù)中心。

結(jié)果顯示,在135臺(tái)陸地服務(wù)器中,有8臺(tái)服務(wù)器在兩年內(nèi)發(fā)生了故障。而在水下數(shù)據(jù)中心的855臺(tái)服務(wù)器中,只有6臺(tái)服務(wù)器發(fā)生故障。這些服務(wù)器都執(zhí)行相同的任務(wù),并且沒(méi)有進(jìn)行任何維護(hù),但是傳統(tǒng)數(shù)據(jù)中心的振動(dòng)和氧氣環(huán)境似乎影響了其可靠性。

關(guān)于”熄燈“數(shù)據(jù)中心的一大反對(duì)意見(jiàn)是,需要定期更換服務(wù)器和存儲(chǔ)設(shè)備,這并不是因?yàn)榉?wù)器和存儲(chǔ)設(shè)備已經(jīng)耗盡,而是因?yàn)樗鼈円呀?jīng)過(guò)時(shí)。幾十年來(lái),IT硬件遵循摩爾定律(即硬件性能隨著技術(shù)進(jìn)步每18個(gè)月翻一番),采用新服務(wù)器僅在使用能源成本方面就可以在三年內(nèi)收回投資。

如今,芯片工藝現(xiàn)在已經(jīng)接近極限,摩爾定律也即將終結(jié),而服務(wù)器的使用壽命將更長(zhǎng)。Cutler預(yù)測(cè),這將使數(shù)據(jù)中心運(yùn)營(yíng)商最終走向”熄燈“模式。在數(shù)據(jù)中心的整個(gè)生命周期中,服務(wù)器往往占據(jù)很大一部分成本。在后摩爾定律時(shí)代,實(shí)際上沒(méi)有理由每?jī)赡旮鼡Q一次基礎(chǔ)架構(gòu)。”

在邊緣采用熄燈數(shù)據(jù)中心

盡管傳統(tǒng)數(shù)據(jù)中心仍然需要運(yùn)營(yíng)人員進(jìn)行管理,但新的應(yīng)用場(chǎng)景和邊緣計(jì)算領(lǐng)域?qū)⒖赡苄枰\(yùn)營(yíng)熄燈數(shù)據(jù)中心。

物聯(lián)網(wǎng)等新技術(shù)以及人們將媒體和應(yīng)用程序流氏傳輸?shù)郊抑械男枨?,?dǎo)致了對(duì)高度分散的低延遲資源的需求。這意味著需要靠近人員和數(shù)據(jù)源部署大量小型數(shù)據(jù)中心設(shè)施。大多數(shù)的邊緣數(shù)據(jù)中心規(guī)模要比微軟公司Project Natick水下數(shù)據(jù)中心(代號(hào)SSDC-002)小得多,還有一些甚至在燈柱上安裝。

除非能夠完全消除現(xiàn)場(chǎng)訪問(wèn)和運(yùn)營(yíng),否則邊緣數(shù)據(jù)中心的容量將成為經(jīng)濟(jì)成本上的噩夢(mèng),就像電話網(wǎng)絡(luò)在光纖機(jī)柜中表現(xiàn)的一樣。

讓我們回到“熄燈”概念誕生的最初。當(dāng)AOL公司技術(shù)副總裁Mike ManosMike Manos提出這一想法時(shí),他實(shí)際上是在談?wù)撨吘売?jì)算設(shè)施,旨在使AOL公司的服務(wù)更貼近客戶。

Cutler表示,隨著技術(shù)的進(jìn)步和發(fā)展,熄燈數(shù)據(jù)中心的發(fā)展可能比人們想象的還要快,將會(huì)成為數(shù)據(jù)中心行業(yè)的一種趨勢(shì)。

雖然目前,“熄燈”數(shù)據(jù)中心仍然面臨種種挑戰(zhàn),但有一件事是肯定的:無(wú)人值守的“熄燈”數(shù)據(jù)中心不再是一個(gè)科學(xué)項(xiàng)目或者一個(gè)幻想,隨著技術(shù)的進(jìn)步和發(fā)展,它的發(fā)展可能比人們想象的還要快,它將成為數(shù)據(jù)中心行業(yè)的一種趨勢(shì)。

本文翻譯自:https://blog.se.com/datacenter/2020/06/22/why-every-data-center-in-the-future-will-be-lights-out/與https://www.datacenterdynamics.com/en/analysis/what-lights-out-data-center/

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論