如何避免數據中心企業(yè)重蹈覆轍?

數據中心運維管理
佚名
近年來,數據中心起火事件頻繁發(fā)生,今年6月份,北京亦莊某數據中心機房柴油機就發(fā)生一起起火事故。數據中心起火將給企業(yè)帶來毀滅性的災害,因此數據中心企業(yè)十分重視。隨著夏季的來臨,溫度逐漸升高,發(fā)生數據中心...

近年來,數據中心起火事件頻繁發(fā)生,今年6月份,北京亦莊某數據中心機房柴油機就發(fā)生一起起火事故。數據中心起火將給企業(yè)帶來毀滅性的災害,因此數據中心企業(yè)十分重視。隨著夏季的來臨,溫度逐漸升高,發(fā)生數據中心起火的概率就越來越大,因此數據中心企業(yè)該如何在這驕陽似火的季節(jié)里減少火災隱患、避免重蹈覆轍?

亦莊電力公司對泰和變電站、博興變電站和科創(chuàng)街變電站進行改造,其中泰和變電站、博興變電站改造期間為6月1日至15日,科創(chuàng)街變電站為6月15日至6月30日,共計30天時間。在進行改造期間,用電單位務必將平日用電負荷減少、限制25%。于是,部分數據中心開始使用柴油發(fā)電機進行帶載,以保障數據中心的正常運行。

多家金融機構和73家村鎮(zhèn)銀行的所有設備宕機,服務全部中斷長達7小時以上——去年亦莊某數據中心的斷電事故,仍令人心有余悸。調查發(fā)現,當時兩臺老舊的UPS負載過高,切到旁路,很快三臺柴油發(fā)電機接連出現“失磁”報警,停止運行,導致機房全部設備斷電,系統宕機……

在大多數人的印象里一定會認為數據中心和火災沒有太大關系,因為數據中心里除了電子設備就是電子設備,沒有太多易燃物品,再加上數據中心具有完善的消防監(jiān)控系統,認為就算有些火災隱患也很快就消去了。然而,實際恰恰相反,數據中心卻成了火災的高發(fā)行業(yè)。

2017年4月,擁有信息黃埔之稱的北京郵電大學校園核心機房著火受損,眾多北京高校校園網紛紛崩潰。

2015年11月16日阿塞拜疆人都在當天中斷了互聯網連接,其原因是其國內的三角洲電信公司的一個數據中心設施發(fā)生了火災;2015年10月13日,Windows Azure上海數據中心發(fā)生故障,是由服務器所在機房著火斷電引起,導致Azure基礎設施離線無法提供正常服務,受影響的用戶包括金融、互聯網、房地產;2015年5月26日早晨,遠在美國亞利桑那州平頂山的蘋果工廠發(fā)生火災,起火點位于該公司數據處理中心屋頂光伏項目;2015年1月10日亞馬遜公司正在美國弗吉尼亞州建設的一座數據中心著火。

2014年7月20日重慶農商行數據中心發(fā)生重大火災,整個機房全部燒毀,直接損失達到一個億以上。

還有更多沒有被媒體報出來,沒有造成嚴重影響的火災就更數不勝數了,作為高科技技術最為集中的場所,數據中心有各種各樣高技術的消防監(jiān)控系統,為何火災還是屢禁不止?

數據中心起火原因

數據中心作為提供信息資源服務的基地,應具有非常好的機房環(huán)境、安全保證、網絡帶寬、主機的數量和主機的性能、大的存儲數據空間、軟件環(huán)境以及優(yōu)秀的服務性能。

數據中心火災的主要特點是: 散熱困難、煙氣量大、用電量大、電氣火災居多、火災損失大、撲救難度大、節(jié)點易燃燒。

在數據機房發(fā)生的各類事故中,火災事故約占80%左右。主要包括以下幾種:

1、電子計算機本身起火;

2、配套設備或附屬裝置起火;

3、空調設備或電氣設備起火;

4、外來火災侵擾。

對于起火原因,據日本計算機制造商對用戶所作的調查表明:

1、計算機故障占3.4%;

2、交換器與配電箱故障占6.9%;

3、設備裝配錯誤占10.2%;

4、調節(jié)器故障占10.3%;

5、火焰蔓延引起的第二次火災占17.1%;

6、與計算機無關的其他原因造成的火災占52.1%.

選址的門道很深

數據中心最大特點正是高耗能,整個數據中心投資最大的部分也正是供電系統。供電系統是整個通信系統的動力來源,它相當于一個人的心臟和血管,負責把能量輸送到系統的每一臺設備,是其他所有系統能夠正常工作的前提和基礎,因此,穩(wěn)定的供電系統成為了數據中心運營商的重要考量因素。

據悉,北京市發(fā)改委于2014年出臺了產業(yè)禁止目錄,其中將PUE大于1.5的數據中心列為禁止項目,2015年8月又進一步限制在城六區(qū)新建數據中心。由此可見,數據中心是的建設選址不僅要保證建筑物的質量,還要保證配套設施的完備性和長期運轉的高可靠性,并要考慮到在用電高峰季節(jié)臨時性限電政策對數據中心帶來的影響。

以Facebook公司為例,該公司計劃在美國亨茨維爾北部建造一座全新的數據中心,看中的正是當地可提供可靠的可再生能源、強大的本地基礎設施。在國內,中國電信開普勒(佛山)數據中心則直接將園區(qū)選在佛山福能大數據產業(yè)園之中,依托的是其股東佛山電建集團安全可靠的電力資源,不僅可享受優(yōu)惠政策,還可享受低廉電價。據悉,開普勒數據中心實現了真正的雙路供電,電力來自三個不同變電站,分別引入四路電纜,實現了高壓有聯絡,同時配有柴油發(fā)電機與UPS系統,供電保障率99.9999%。未來福能發(fā)電廠為開普勒高壓室提供10KV的電力的備用通道。

冷卻系統上大做文章

據悉,電力成本占數據中心整個支出成本的50%-70%,其中一半是機器設備散熱需要的空調費。行業(yè)數據顯示,數據中心設備運行時的最佳溫度為22℃,上下浮動不能超過2℃。在基準溫度情況下,溫度每升高10℃計算機的可靠性就下降25%。

然而,大多數的數據中心冷卻和電源的容量如今都已過度配置,通常所部署冷卻容量比必要的冷卻容量要高出三倍。根據調研機構Gartner公司的調查,數據中心40%的冷卻成本被浪費。如何更科學合理地節(jié)能降耗,成為擺在數據中心運營商面前的難題。國內外不乏一些獨辟蹊徑的路數,諸如微軟將數據中心沉入海底,騰訊將數據中心建在山洞……

難道只有這些非常規(guī)手段嗎?實則不然,有一些切實可行的節(jié)能降耗方案也取得了顯著的收效,諸如機房采用封閉冷通道以及精確下送風方式,地板結構下沉,機柜熱通道背靠背,優(yōu)化氣流組織,避免冷熱氣流混合,提高制冷效率;采用雙環(huán)路管道,提高空調系統安全和可靠性;利用天然發(fā)電機余熱加熱水,給溴化鋰制冷機提供熱源,回收利用了余熱,達到了節(jié)能減排目的——這些常規(guī)卻有所突破創(chuàng)新的舉措正是開普勒數據中心進行的積極探索,并借力模塊化機房設計等一系列手段,實現PUE值可達1.31.4的指標。

運維管理能夠防微杜漸

工欲善其事必先利其器——可靠的電力保障與高效節(jié)能的冷卻系統正是數據中心提供穩(wěn)定服務的基礎,然而光有硬件和技術支撐還遠遠不夠。對于數據中心發(fā)生的故障,行業(yè)專家認為故障多發(fā)的原因還是在運維管理上,正所謂“三分技術,七分管理”,數據中心的故障大多源自于人禍。

運維工作對數據中心來說至關重要,關乎整個數據中心業(yè)務的正常運行。一旦突發(fā)故障,具備一定的專業(yè)技能和應急能力的運維團隊可及時對故障原因作出準確判斷并迅速找出解決方法,避免宕機風險,從而達到防微杜漸的效果。

在實踐中,運營商需要對數據中心里面的溫濕度、電能、水流及風量等進行全面實時的監(jiān)控,以期發(fā)現潛在問題,通過預警機制及相應的流程做到防患于未然,并為應急措施及節(jié)能措施提供可靠的指導依據。數據中心的日常業(yè)務運維主要包括日常檢查、應用變更、軟硬件升級以及應對突發(fā)故障四大方面內容。其中,日常檢查作為業(yè)務運維的基礎性工作,其意義非同小可。

如今,不少數據中心運營商都采用了全自動化二維碼巡檢系統,可自定義巡檢路線,自動生成巡檢任務,手機APP自動接收巡檢任務,并一鍵生成巡檢報告,自動評估巡檢健康度,為客戶提供高效的智能化運維服務——據悉,這種系統是由開普勒數據中心首創(chuàng),并得到了業(yè)界的普遍認可。

除了日常運維,數據中心的應急預案也很重要,建設災備系統正是其重要的環(huán)節(jié)。其實,我國早在2007年時就頒布了首個關于災備的國家標準《信息系統災難恢復規(guī)范》?,F在的數據中心承載的業(yè)務越來越重要,引入有效的災備技術,在性能惡化時提出預警,使企業(yè)能提前感知并采取相應的修補動作,避免宕機事件的發(fā)生,能減少數據中心發(fā)生故障時帶來的損失。

然而,不要以為有了災備系統,就可以高枕無憂了,如果后期不對其進行管理,從不更新災備預案,這樣的災備系統在面臨突發(fā)狀況時也只能是形同虛設了。

競爭壓力激增,轉型機遇來襲

實際上,除了供電系統與運維管理系統之外,影響數據中心正常運維的因素還有許多,諸如充足穩(wěn)定的網絡資源、安全的消防保障等。然而,不少數據中心服務提供商忙于能夠迅速帶來經濟效益的一線業(yè)務投入,卻忽略了包括應用在內的軟件的運維問題。

伴隨著以互聯網應用服務為載體的數據中心建設需求日益激增,包括運營商、互聯網巨頭在內的眾多企業(yè)紛紛加入到投建數據中心的熱潮之中,由于投建數據中心的技術門檻并不高,一時間泥沙俱下。因此,選擇靠譜的數據中心服務供應商也不是件易事。

如今,數據中心各服務商已在技術、服務、價格、宣傳等領域全面展開競爭,最終比拼的還是其技術實力。憑借佛山“互聯網+”創(chuàng)新創(chuàng)業(yè)產業(yè)園的基因,借力佛山市福能發(fā)電廠,融合直連中國華南地區(qū)國際出口電信骨干網資源優(yōu)勢,背靠珠三角經濟帶,總投資80億元、規(guī)劃建設2萬個機架的中國電信開普勒(佛山)大數據中心將于今年6月底投入正式運營。

面臨數據中心業(yè)務模式日益趨于定制化、高端化的局面,開普勒數據中心的業(yè)務種類由當初的網站和服務器托管、應用托管等基礎業(yè)務,進行了更大范圍的延伸拓展,其增值服務覆蓋了網絡/服務器實時監(jiān)控及告警、現場軟/硬件支持、入侵檢測、流量清洗、鏈路測試、網絡故障排除、巡檢監(jiān)控等多項內容,可以滿足客戶多樣化及垂直專業(yè)化服務的需求。屆時,該數據中心可輻射至廣東、廣西、福建等華南地區(qū),滿足行業(yè)用戶異地備份的需求,并可滿足華南地區(qū)大中企業(yè)客戶超萬家中小小型企業(yè)的發(fā)展需求。

未來,智能化運維管理將在數據中心行業(yè)得到越來越多的重視,將科學、系統的理念以及專業(yè)的管理和服務貫徹數據中心整個生命周期,將會為客戶創(chuàng)造最大化的價值,也將為整個數據中心產業(yè)帶來新氣象。

(原標題:驕陽似火 細數史上數據中心火災 如何才能避免重蹈覆轍)

THEEND