近日,媒體報道,主機(jī)托管公司W(wǎng)ebNX位于美國猶他州的奧格登數(shù)據(jù)中心著火。大火起源于數(shù)據(jù)中心大樓的一臺發(fā)電機(jī),后蔓延至多臺服務(wù)器。由于數(shù)據(jù)中心火災(zāi),奧格登市的一些IT服務(wù)在周日和周一都癱瘓。
WebNX在Facebook帖子中將這起事件歸咎于本地停電后備用發(fā)電機(jī)發(fā)生故障。該公司表示:“周日下午,奧格登市出現(xiàn)停電;按照設(shè)計,我們的備用發(fā)電機(jī)自動開啟??墒蔷驮谶@個供電切換期間,我們最近專門針對這種情形進(jìn)行了常規(guī)測試和基準(zhǔn)測試的一臺備用發(fā)電機(jī)遇到了災(zāi)難性故障,著火了...“
而就在今年3月份,歐洲云計算巨頭OVH位于法國斯特拉斯堡的機(jī)房發(fā)生嚴(yán)重火災(zāi),其中一個數(shù)據(jù)中心被完全燒毀,另有一個數(shù)據(jù)中心的建筑物部分受損。
本次火情,疑似部分客戶設(shè)備主用、災(zāi)備服務(wù)器在一個機(jī)房樓或者主備云服務(wù)器在一個機(jī)房樓,導(dǎo)致約360萬網(wǎng)站出現(xiàn)故障,約1.5萬名客戶的資料可能受到影響,部分客戶數(shù)據(jù)完全丟失且無法恢復(fù)。
不止這些,2020年8月,澳洲電信Telstra位于英國首都倫敦的托管數(shù)據(jù)中心由于UPS故障引起火災(zāi)并引起宕機(jī)。當(dāng)?shù)叵啦块T共調(diào)集了4輛消防車和25名消防員到場救援。
2019年7月,某地市的一家移動公司大樓機(jī)房失火,現(xiàn)場濃煙滾滾,火情嚴(yán)重。該大樓地處市中心,是這個地市移動較大的機(jī)房,下面的營業(yè)廳也曾經(jīng)是最大的營業(yè)廳。
2018年11月,韓國三大電信運(yùn)營商之一KT位于首爾市中心的大樓發(fā)生火災(zāi),事故原因為地下電纜隧道起火。火災(zāi)燒毀16.8萬股電話線和220套光纜。由于通信設(shè)備受損,此次事故導(dǎo)致韓國的警察、醫(yī)院、金融等社會基礎(chǔ)設(shè)施被迫停轉(zhuǎn)。
2018年8月,東京某建筑發(fā)生火災(zāi),該建筑為建設(shè)中的亞馬遜AWS東京數(shù)據(jù)中心。起火是由于聚氨酯保溫材料被乙炔氣火炬上落下的火花引起。大火燃燒了八個小時,導(dǎo)致五人死亡,五十人受傷,燒毀了大約三分之一建筑物!
2017年6月,巴中地區(qū)某中國鐵通機(jī)房起火,現(xiàn)場濃煙滾滾,經(jīng)過近一個小時緊張撲救,火災(zāi)才被徹底撲滅。
2017年4月,北京郵電大學(xué)網(wǎng)絡(luò)數(shù)據(jù)中心突發(fā)火災(zāi)。起火原因系UPS蓄電池組故障引起。由于北郵的網(wǎng)絡(luò)信息中心機(jī)房是北京多所高校的校園網(wǎng)上游節(jié)點(diǎn)機(jī)房,此次起火導(dǎo)致包括中國政法、北京理工、北航等多所北京高校網(wǎng)絡(luò)崩潰。
2015年10月,Windows Azure上海數(shù)據(jù)中心發(fā)生故障,是由服務(wù)器所在機(jī)房著火斷電引起,導(dǎo)致Azure基礎(chǔ)設(shè)施離線無法提供正常服務(wù),受影響的用戶包括金融、互聯(lián)網(wǎng)、房地產(chǎn)等行業(yè)。
2014年7月,重慶農(nóng)商行數(shù)據(jù)中心發(fā)生重大火災(zāi),整個機(jī)房全部燒毀,據(jù)估計造成直接損失達(dá)到一個億以上。
2009年7月,位于西雅圖的Fisher Plaza數(shù)據(jù)中心的變壓器起火引發(fā)火災(zāi)。此次火災(zāi)影響甚大,造成了包括微軟Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等網(wǎng)站服務(wù)器的中斷運(yùn)行
2008年3月,美國威斯康辛數(shù)據(jù)中心被火燒得一塌糊涂。根據(jù)事后統(tǒng)計,這次大火已經(jīng)燒掉了75臺服務(wù)器、路由器和交換機(jī),當(dāng)?shù)卮罅康恼军c(diǎn)都癱瘓。
......
數(shù)據(jù)中心機(jī)房作為海量數(shù)據(jù)的關(guān)鍵載體,是信息化的核心場所,其復(fù)雜性、特殊性和重要性不言而喻,但往往數(shù)據(jù)中心機(jī)房又是如此的脆弱。數(shù)據(jù)中心機(jī)房的安全是整個計算機(jī)信息系統(tǒng)安全的前提,如果數(shù)據(jù)中心機(jī)房存在這樣那樣的不安全因素,從而導(dǎo)致發(fā)生數(shù)據(jù)中心機(jī)房事故,則整個信息系統(tǒng)的安全也就不可能實現(xiàn)。特別是機(jī)房火災(zāi),一旦發(fā)生將給機(jī)房造成不可挽回的巨大損失。
如何做好機(jī)房的防火及數(shù)據(jù)災(zāi)備工作?我們結(jié)合《信息安全技術(shù)網(wǎng)絡(luò)安全等級保護(hù)基本要求》(GB/T 22239-2019)及實際測評要求,建議如下:
防火要求
以等保第三級安全要求為例,防火要求:
機(jī)房內(nèi)設(shè)置火災(zāi)自動消防系統(tǒng),可以在發(fā)生火災(zāi)時,自動檢測、報警并滅火,如自動氣體消防系統(tǒng)、自動噴淋消防系統(tǒng)。
使用相應(yīng)耐火等級的建材。耐火建材可以有效阻止火災(zāi)的發(fā)生和蔓延。
對機(jī)房進(jìn)行區(qū)域劃分并設(shè)置隔離防火措施。區(qū)域劃分可以很好的阻止火勢蔓延,避免造成更多損失。
溫濕度要求
除了防火措施本身,機(jī)房的溫濕度也影響防火工作。根據(jù)《基本要求》溫濕度控制要求:
應(yīng)設(shè)置溫濕度自動調(diào)節(jié)設(shè)施,使機(jī)房溫濕度的變化在設(shè)備運(yùn)行所允許的范圍之內(nèi)。
實際操作中,機(jī)房內(nèi)需要安裝空調(diào)、除濕機(jī)、通風(fēng)機(jī)等設(shè)備,使機(jī)房內(nèi)的溫濕度變化保持在適宜范圍內(nèi)。通常機(jī)房內(nèi)適宜的溫度18~27℃,空氣濕度35~75%。
安全運(yùn)維-環(huán)境管理
做好硬件設(shè)備準(zhǔn)備工作后,日常運(yùn)維中也很重要,應(yīng)做到:
應(yīng)指定專門的部門或人員負(fù)責(zé)機(jī)房安全管理維護(hù)工作;
對機(jī)房出入進(jìn)行管理、登記,記錄包括來訪人員、來訪時間、離開時間、攜帶物品等;
定期對機(jī)房供配電、空調(diào)、溫濕度控制、消防等設(shè)施進(jìn)行維護(hù)管理,并做好維護(hù)信息記錄。
數(shù)據(jù)備份與恢復(fù)
做好預(yù)防管理,不意味著可以一勞永逸,災(zāi)難的發(fā)生往往是不可預(yù)測無法阻擋,而數(shù)據(jù)備份工作是信息系統(tǒng)正常運(yùn)行使用的最重要保障。數(shù)據(jù)備份工作應(yīng)做到:
對重要數(shù)據(jù)庫的本地數(shù)據(jù)做每天全量備份(或每天增量備份,定期全量備份),定期測試備份數(shù)據(jù)是否正??捎?;
應(yīng)該建設(shè)災(zāi)備中心,對重要數(shù)據(jù)提供異地數(shù)據(jù)備份,保證本地系統(tǒng)發(fā)生災(zāi)難后不可恢復(fù)時,能利用異地備份對數(shù)據(jù)進(jìn)行恢復(fù);
對重要業(yè)務(wù)數(shù)據(jù)處理系統(tǒng),應(yīng)當(dāng)提供熱冗余,當(dāng)發(fā)生災(zāi)難時可以迅速切換至備用系統(tǒng),保證業(yè)務(wù)系統(tǒng)的正常使用。
數(shù)據(jù)備份的類型、儲存介質(zhì)、周期各有不同,可以根據(jù)自身的業(yè)務(wù)狀況、重要性、成本等因素選擇適合的模式。
應(yīng)急預(yù)案與應(yīng)急演練
建議根據(jù)不同的火災(zāi)風(fēng)險場景(如UPS、供電線路、柴油發(fā)電機(jī)失火等),分別制定切實可行的應(yīng)急預(yù)案,并按照桌面演練、模擬演練、實戰(zhàn)演練逐步開展應(yīng)急演練,確保應(yīng)急預(yù)案可靠有效。并定期根據(jù)情況進(jìn)行修訂和演練。