而一個典型的數(shù)據(jù)中心在一個月甚至兩個月的時間內(nèi)沒有進行維護的情況下,能夠以維持自身的運行并實現(xiàn)其服務水平目標。盡管有關(guān)冠狀病毒大流行即將到來的的第一個警告信號出現(xiàn)在今年1月初,但對北美和歐洲各國來說,冠狀病毒的爆發(fā)還沒有超過兩個月的時間。到目前為止,全球的數(shù)據(jù)中心運營商似乎已經(jīng)對這一挑戰(zhàn)做出了適當?shù)幕貞赫{(diào)整輪班,盡量減少交接班和社交接觸,采取預防措施對數(shù)據(jù)設施進行清潔和消毒,以及只進行必要的維護等。
數(shù)據(jù)中心與其他任何復雜的基礎設施一樣,都依賴于強大的供應鏈。設備故障(即使在正常情況下也是不可避免的)可以通過維護人員的處理和運行冗余設備的供應鏈管理來應對。
新型冠狀病毒疫情已經(jīng)對供應鏈產(chǎn)生了負面影響,歐洲制造業(yè)和全球組裝和分銷行業(yè)的生產(chǎn)和運營受到影響。例如,全球主要的液體制冷機組和暖通空調(diào)部件制造商之一Clint公司的大部分部件都在意大利各地的工廠生產(chǎn)。
數(shù)據(jù)中心運營商尚未感受到疫情對設備供應沖擊的影響。與此同時,他們的一些最大用戶報告說,他們使用數(shù)據(jù)中心配備計算設備的交貨時間顯著延長。如果世界各國能夠很快擺脫經(jīng)濟停滯狀態(tài),那么數(shù)據(jù)中心行業(yè)供應商可以及時提高產(chǎn)量以滿足大量需求。
雖然美國少數(shù)幾個的州計劃在5月重新開放,但專家們目前預計,其他州要到6月底或7月才能恢復開放。但目前還不清楚何時可以將病毒和抗體的檢測擴展到足夠的水平(這是各州重新開放的關(guān)鍵前提之一)。冠狀病毒疫苗可能需要一年多才能真正應用。與此同時,美國確診的冠狀病毒病例不斷增加。
可能持續(xù)六個月的時間
數(shù)據(jù)中心的正常運營在沒有備用組件和定期維護的情況下能否堅持6個月時間?數(shù)據(jù)中心工程咨詢機構(gòu)i3 Solutions公司董事長Ed Ansett表示,即使是金融服務等最具風險規(guī)避能力的業(yè)務垂直領(lǐng)域(至少在其基礎設施方面),也將數(shù)據(jù)中心外包,并從高度容錯、強健的基礎設施向較低平臺冗余度轉(zhuǎn)變。
他說,“一是數(shù)據(jù)中心是否具備足夠的經(jīng)驗豐富的運維人員,而就病毒帶來的影響而言,這是一個很大的問題;二是有沒有多余的可用空間?在發(fā)生故障時是否有足夠的備件?”
Ansett表示,這一切都取決于冠狀病毒疫情將會持續(xù)多久。他說,六個月的時間表可能是可持續(xù)和可恢復的。數(shù)據(jù)中心行業(yè)可能具有反彈所需的彈性。但如果這種情況持續(xù)得更長,那么將會看到噩夢一般的現(xiàn)實。由于網(wǎng)絡的高度相互依賴性以及意想不到的后果,人們不知道將會發(fā)生什么。”
數(shù)據(jù)中心運營商(尤其是商業(yè)服務提供商)需要隨時掌握備件庫存情況。然而面臨最大的問題是,能否在庫存減少時及時補充。
NTT公司全球數(shù)據(jù)中心高級運營副總裁Bob Woolley說:“當然,我們總是在數(shù)據(jù)中心備有重要的備件。我們已經(jīng)嘗試增加一些額外的備件,但是在短時間內(nèi)只能做這些。”
Woolley表示,NTT公司與其他數(shù)據(jù)中心運營商一樣,通常在每個數(shù)據(jù)中心設施中都備有一些的物資,但這是為了應對颶風和地震等短期緊急情況。從長遠來看,數(shù)據(jù)中心管理人員關(guān)注的是在六個月的時間范圍內(nèi)這些物資是否夠用(例如供應鏈從2月中斷,這將導致在7月或8月初的某個時間出現(xiàn)短缺)。
他們習慣于將維護暫停一個月,也許兩個月,其中包括響應客戶明確的延期請求。但在六個月之后,貸款機構(gòu)、保險公司和其他承保機構(gòu)開始衡量數(shù)據(jù)中心風險水平。很快,其風險水平可能會變得不可接受。
Woolley說:“我們確實擁有評估數(shù)據(jù)中心可靠性的工程師,我們讓他們圍繞維護延期進行風險評估,以便我們不斷評估風險水平。與此同時,我們將繼續(xù)調(diào)整維護計劃,以期我們將在一個月或兩個月內(nèi)恢復正常運行。”
但他警告說,這種維護不能持續(xù)超過六個月,屆時數(shù)據(jù)中心恢復正常運行將變得困難。如果要取消六個月的維護停滯期,那么工程團隊需要努力使他們的服務水平恢復到正常水平,這將給供應鏈帶來極大的壓力。維護團隊的積壓工作量是正常工作量的五倍。NTT公司希望以及時更換零件,其他所有數(shù)據(jù)中心運營商也是如此樣。而需求激增將使維護計劃進一步推遲。
并非所有數(shù)據(jù)中心運營商都已減少了維護計劃。美國最大的數(shù)據(jù)中心提供商之一CoreSite公司高級副總裁Anthony Hatzenbuehler表示,該公司的數(shù)據(jù)中心一直正常進行。
他說:“正如許多業(yè)內(nèi)同行一樣,我們減少了進入數(shù)據(jù)中心的人員數(shù)量,我們采取了與供應商進行合作,制定需要實施的協(xié)議、并且保持社交距離等措施。”
Hatzenbuehler解釋說,CoreSite公司可以在預定的時間段內(nèi)在其數(shù)據(jù)中心設施保持足夠的發(fā)電機燃料,但不會根據(jù)時間表管理備件庫存。他說,數(shù)據(jù)中心現(xiàn)場存放的零件包括UPS和發(fā)電機零件,但最大的庫存通常是機械零件。
Hatzenbuehler表示,CoreSite公司通過與供應商的合作,并未使該公司擔心未來備件的可用性。他說,一些供應商對CoreSite公司保持其定期維護計劃表示感謝。當數(shù)據(jù)中心運營商出現(xiàn)預期的維護需求高峰時,他們將不得不增加其積壓的客戶數(shù)量。
從改變到適應
數(shù)據(jù)中心標準機構(gòu)Uptime Institute公司產(chǎn)首席技術(shù)官Chris Brown一直在調(diào)查其數(shù)據(jù)中心運營商網(wǎng)絡,他說,長期運營數(shù)據(jù)中心的另一個潛在結(jié)果可能是新的習慣。
Brown說,“如果仍在應對冠狀病毒疫情,那么在2021年2月,當人們?nèi)栽诘却呙缪兄瞥鰜頃r,數(shù)據(jù)中心運營習慣可能會成為新的規(guī)范,因為人們不喜歡改變。”
Brown認為,任何行業(yè)的人都會在一段時間內(nèi)抵制變革。一旦臨時協(xié)議被解除,標準和實踐通常會恢復到它們以前熟悉的模式。但在某種程度上,在沒有所有明確信號的情況下,這些暫時的模式變成了“新常態(tài)”。
例如,Uptime Institute公司的一些客戶通過為其設施配備一些初級人員,他們通過頭盔攝像頭將其遠程工作的經(jīng)驗豐富的員工進行溝通。然后,這些員可以指導進行維護和保養(yǎng)。
Brown說,“這可能造成這樣的一種情況,雖然疫情結(jié)束,但疫情期間采用的工作方法和措施可能會繼續(xù)采用。這是因為長期采用這種模式,人們通常已經(jīng)適應。而數(shù)據(jù)中心運營商越早擺脫目前的模式,冠狀病毒疫情引發(fā)實質(zhì)性改變的可能性就越小。但是如果疫情一直持續(xù)12到14個月,那么很可能成一種慣例。”
Digital Realty公司全球運營高級副總裁Danny Lane表示,他們的團隊正在積極研究實現(xiàn)自動化甚至采用人工智能的方法以實現(xiàn)維護人員工作。他說:“我們有積極的研發(fā)計劃,評估人工智能和機器學習的能力,以簡化工作流程,并為技術(shù)專家配備改進的數(shù)據(jù)分析,其重點是更智能地工作,而不是更精簡的工作。”
彈性極限
在任何經(jīng)濟體系中,消費者之間的根本行為改變都會改變甚至重塑供應鏈。如果數(shù)據(jù)中心運營商最終接受緊急狀態(tài)作為一種新規(guī)范,那么它將為更加保守的消費模式鋪平道路,數(shù)據(jù)中心組件和設備的生命周期得以延長,使數(shù)據(jù)中心設施采用這種少花錢多辦事的模式。其更長的生命周期可能導致創(chuàng)新放緩。對不太重要的數(shù)據(jù)中心設施和替代數(shù)據(jù)中心設施的投資將會無限期擱置。
如果在疫情分析的背景下達成共識,那么就會這樣:數(shù)據(jù)中心已經(jīng)對其供應鏈管理政策進行了調(diào)整,這將使它們能夠在5月或7月保持合理的功能或者可能最快到6月,數(shù)據(jù)中心設施可能無法保留維持停機或設備故障所需的冗余。而到今年9月,一些故障可能開始出現(xiàn),導致服務水平下降。
Ansett表示:“如果有足夠的時間,將會發(fā)生的事情之一就是更高的故障率。成這些故障的原因不僅僅是零部件短缺,事實上,這可能是遇到的最小問題。如果發(fā)現(xiàn)很多系統(tǒng)都失敗了,我并不感到驚訝,因為它們沒有經(jīng)過正確的測試和調(diào)試,或者可能一開始就沒有正確的設計。這聽起來好像危言聳聽,但人們發(fā)現(xiàn)將會出現(xiàn)這樣的后果。”