可能對于我們來說停一會電沒什么太大關(guān)系,但對于數(shù)據(jù)中心卻是滅頂之災(zāi)。近年來,因為停電而發(fā)生宕機(jī)的事件時常發(fā)生,數(shù)據(jù)中心宕機(jī)不僅會導(dǎo)致用戶無法正常訪問應(yīng)用程序,還會導(dǎo)致企業(yè)業(yè)務(wù)方面的損失。據(jù)有關(guān)業(yè)內(nèi)專家表示,數(shù)據(jù)中心宕機(jī)在美國每分鐘的平均損失接近8,000美元。
幾乎每個數(shù)據(jù)中心行業(yè)內(nèi)的人聽到這幾個字眼都會毛骨悚然!
作為數(shù)據(jù)中心行業(yè),停電帶來的影響難以估量,不僅在財務(wù)方面損失甚重,而且還會影響企業(yè)在行業(yè)內(nèi)的信譽(yù)和形象。
還記得2017年5月27日CBRE數(shù)據(jù)中心的停電事故嗎?雖然已經(jīng)過去18個月之久,但是現(xiàn)在想起來仍然惶恐。因為CBRE數(shù)據(jù)中心停電事故的發(fā)生,英國航空公司的預(yù)訂、辦理登機(jī)手續(xù)系統(tǒng)、呼叫中心和移動應(yīng)用程序受影響而無法使用,導(dǎo)致英國航空公司672個航班被取消,75000名乘客的航班被取消或延遲,預(yù)計損失超過1億英鎊。
英國航空公司擁有Boadicea House和Comet House兩個數(shù)據(jù)中心,在停電事故中,Boadicea House首先受到影響,而作為備份數(shù)據(jù)中心的Boadicea House在事故中并沒有發(fā)揮作用,因此事故一直持續(xù)了三天時間。
事后,經(jīng)英國航空公司調(diào)查,此次事故并不是因為網(wǎng)絡(luò)攻擊而是由于承包商意外封鎖數(shù)據(jù)中心電源造成的。
除了英國航空公司停電事故之外,國外還有許多類似的情況,例如,美國達(dá)美航空公司數(shù)據(jù)中心的電力中斷,造成高達(dá)1.5億美元的經(jīng)濟(jì)損失;美國“超級碗”賽場斷電,耽誤賽事日程等。
然而,數(shù)據(jù)中心運(yùn)營商所面臨的困難是確定停電的根本原因,因為電力中斷的原因比較復(fù)雜,例如,服務(wù)器負(fù)載過重,導(dǎo)致系統(tǒng)崩潰;當(dāng)?shù)仉娏?yīng)商的供應(yīng)問題,工作人員誤操作的人為因素等。
為了確保數(shù)據(jù)中心停電事故再次發(fā)生,數(shù)據(jù)中心運(yùn)營商應(yīng)該關(guān)注的最重要的問題:
1、可以隨著快速發(fā)展的電力系統(tǒng)遷移嗎?
數(shù)據(jù)中心在不同發(fā)展階段,對電力需求也在變化。因此,能夠分析數(shù)據(jù)中心一段時間內(nèi)對電力的需求是非常重要的,以便更容易地進(jìn)行長期預(yù)測。
2、電源鏈?zhǔn)欠袷艿酵{?
越來越多的數(shù)據(jù)中心連接到網(wǎng)絡(luò),除了機(jī)架中包含的終端和訪問點之外,很多渠道可能會成為破壞網(wǎng)路犯罪行為的破壞途徑。
此外,網(wǎng)絡(luò)違規(guī)行為甚至不需要通過電線和電纜來實施。狡猾的犯罪分子可能會進(jìn)入某個數(shù)據(jù)中心,破壞內(nèi)部的電力供應(yīng)。但是,不僅僅是外部的惡意人員所造成的危害,也要警惕數(shù)據(jù)中心內(nèi)部工作人員的行為。有些知識和經(jīng)驗不足的工作人員在與接口進(jìn)行交互的過程中犯錯,也會造成不可估量的傷害。
為了防止出現(xiàn)這種情況,運(yùn)維文檔和流程控制至關(guān)重要。采用更多的硬件不是防止災(zāi)難性停電的最佳選擇,事實上,添加額外的硬件實際上可能使控制情況更加糟糕。
3、災(zāi)難恢復(fù)計劃是什么?記錄文檔了嗎?
在不影響業(yè)務(wù)環(huán)境的情況下進(jìn)行斷電測試,實際上是采用虛擬開關(guān)設(shè)備,這將允許數(shù)據(jù)中心運(yùn)營商可以應(yīng)對最壞的情況,并實施恢復(fù)服務(wù)。
數(shù)據(jù)中心工作人員總是假設(shè)他們的電源供應(yīng)鏈和電源備份系統(tǒng)是萬無一失的,但是如果沒有故障安全測試,會認(rèn)為面臨什么樣的結(jié)果?
電源故障模擬使數(shù)據(jù)中心運(yùn)營商可能找到缺乏冗余的設(shè)施,并發(fā)現(xiàn)單點故障。但是,這需要文檔進(jìn)行記錄。因此,數(shù)據(jù)中心運(yùn)營商在災(zāi)難性的電源故障之前,建立斷電測試機(jī)制并記錄其恢復(fù)過程。
4、可以實時監(jiān)控操作嗎?
數(shù)據(jù)中心運(yùn)營商必須知道哪些設(shè)備現(xiàn)在在哪里,使用了多少電能。對于不斷增加基礎(chǔ)架構(gòu)的數(shù)據(jù)中心來說,這往往會很困難,因為這可能會對電源容量和電源分配產(chǎn)生巨大的影響。
注意所有移動部件的唯一有效方法是單一視圖。這種整體視圖具有實時監(jiān)控和警報的功能,使數(shù)據(jù)中心運(yùn)營商能夠減輕風(fēng)險,并進(jìn)行更改以避免災(zāi)難發(fā)生。
5、知道所有互連設(shè)備和系統(tǒng)的一切情況嗎?
對于數(shù)據(jù)中心運(yùn)營至關(guān)重要的是,需要電力鏈記錄在一起,從進(jìn)入建筑物的電力,再通過UPS、PDU/提供給所有的機(jī)架設(shè)備。這意味著數(shù)據(jù)中心運(yùn)營需要知道哪些與電力相關(guān)的設(shè)備,以及設(shè)備各自的相互依賴關(guān)系。這可以讓數(shù)據(jù)中心運(yùn)營了解某些設(shè)備故障或脫機(jī)維護(hù)時的潛在影響。此外,還應(yīng)該了解每個電源鏈設(shè)備的狀態(tài)。
可以通過采用數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理(DCIM)實現(xiàn)對電源管理。DCIM使數(shù)據(jù)中心運(yùn)營能夠以最高的效率運(yùn)行數(shù)據(jù)中心,同時允許所有相關(guān)人員改進(jìn)整體運(yùn)營情況,并識別漏洞,從而保持電源鏈的安全。
部署的DCIM還可以讓數(shù)據(jù)中心運(yùn)營全面了解自己的產(chǎn)品,通過共享實時數(shù)據(jù)和易于理解的圖表,消除IT和設(shè)施之間的通信孤島。
由于數(shù)據(jù)中心停電的原因很多,嘗試用人工方法和電子表格來跟上基礎(chǔ)設(shè)施的所有變化是費(fèi)力的,并引起不可預(yù)見的風(fēng)險。因此,必須采取適當(dāng)可行的方法和措施進(jìn)行管理。
(原標(biāo)題:數(shù)據(jù)中心停!電??!到底有多恐怖?)