對于數(shù)據(jù)中心而言,宕機是一件十分難以承受的事情,甚至可以說是滅頂之災(zāi)。根據(jù)調(diào)研機構(gòu)Gartner公司報告說,數(shù)據(jù)中心宕機平均每分鐘成本為5600美元,因此可以想象一小時、兩小時的宕機可造成的損失有多大。近幾年,數(shù)據(jù)中心宕機事件頻繁發(fā)生,我們也從中得到了一些教訓(xùn),本文將從幾個方面簡單為大家介紹下平時在運營數(shù)據(jù)中心時需注意的事項。
盡管在2018年,我們?nèi)匀豢吹降拇蠖鄶?shù)數(shù)據(jù)中心中斷。
根據(jù)Uptime Institute今年夏天公布的調(diào)查結(jié)果,近三分之一的數(shù)據(jù)中心在過去一年中發(fā)生了中斷,而前一年則為25%。但這一增長并不是由于一些致命的新惡意軟件造成的。
相反,導(dǎo)致停機的三大原因是斷電(33%),網(wǎng)絡(luò)故障(30%)以及IT或軟件錯誤(28%)。
最重要的是,80%的數(shù)據(jù)中心經(jīng)理表示他們最近的停機是可以預(yù)防的。
您無法阻止雷擊(例如9月份在圣安東尼奧市Microsoft Azure數(shù)據(jù)中心的雷擊)或零日漏洞攻擊。攻擊。但是,通過適當(dāng)?shù)囊?guī)劃和數(shù)據(jù)中心設(shè)計,由于意外的天氣事件,攻擊,常規(guī)人為錯誤或未打補丁的系統(tǒng)導(dǎo)致的中斷,是可以最大限度地減少的。
在中斷發(fā)生后,使數(shù)據(jù)中心快速啟動并運行同樣重要。根據(jù)咨詢公司ITIC今年的報告,一小時的數(shù)據(jù)中心運營商平均停機時間為260,000美元,而五分鐘的停機時間僅為2,600美元。
基礎(chǔ)設(shè)施冗余仍然有效
在最基本的層面上,數(shù)據(jù)中心系統(tǒng)需要備份。備份電源和冷卻系統(tǒng),備份數(shù)據(jù),甚至備份整個數(shù)據(jù)中心。
備份工作。據(jù)Uptime稱,擁有2N冷卻和電源架構(gòu)的數(shù)據(jù)中心。換句話說,一個完全冗余的鏡像系統(tǒng),去年有22%的用戶經(jīng)歷了停電。與那些選擇更便宜,不完全冗余的N+1方法的人相比,減少了三分之一的中斷,其中他們的33%報告了停電。
完整數(shù)據(jù)中心的備份可提供更高的可靠性。根據(jù)Uptime的數(shù)據(jù),40%的數(shù)據(jù)中心經(jīng)理表示他們會在兩個或多個站點上復(fù)制工作負載和數(shù)據(jù)。
“如果你有一個數(shù)據(jù)中心并且有雷擊,那么你就會失敗,”SSH Communications Security首席技術(shù)官Markku Rossi表示。“你應(yīng)該有一個輔助數(shù)據(jù)中心,它們之間存在物理隔離,因此它們不依賴于相同的能源。”
他補充說,沒有任何數(shù)據(jù)中心能夠免受這個問題的影響,他指的是微軟中美洲數(shù)據(jù)中心的9月份數(shù)據(jù)中心。
“進行第二次設(shè)置并能夠立即進行失效備援,”他說。
無論什么備份系統(tǒng)到位,規(guī)劃和測試都是關(guān)鍵,Rossi補充說,規(guī)劃需要考慮當(dāng)今數(shù)據(jù)中心的復(fù)雜性,其中問題可能引發(fā)其他問題。
他使用了最近在物理維護期間發(fā)生的GitHub中斷作為例子。“他們在幾分鐘內(nèi)修復(fù)了物理問題,但需要24小時才能使數(shù)據(jù)正確同步,”他說。
數(shù)據(jù)中心經(jīng)理需要查明潛在的問題區(qū)域,然后在發(fā)生事情時準(zhǔn)備好工具和流程。
Rossi說:“專注于建立流程,建立你為失敗做準(zhǔn)備所需的心態(tài)。”
加強數(shù)據(jù)中心
數(shù)據(jù)中心管理人員應(yīng)該從最近發(fā)生的與惡意軟件相關(guān)的中斷中吸取的最大教訓(xùn)之一就是,擁有一個強化的perimeter已經(jīng)不夠了,攻擊者會通過的。
顯然,保持防御最新,以防惡意軟件進入是至關(guān)重要的。但數(shù)據(jù)中心管理人員必須準(zhǔn)備好二級保護。
其中包括惡意流量檢測機制,網(wǎng)絡(luò)防御(如分段)和最低權(quán)限的訪問和通信方法。
幾乎所有的數(shù)據(jù)中心停機都是由于糟糕的規(guī)劃和投資決策,加上流程不良或無法遵循流程,Uptime Institute研究執(zhí)行主任Andy Lawrence在6月份的報告中寫道。“幾乎所有由正常運行時間研究所報告或研究的故障以前都發(fā)生過,而且通常有很好的文檔記錄。”
閃電襲擊和新型惡意軟件可能占據(jù)所有頭條新聞,但最基本的還是要關(guān)注其恢復(fù)能力方面。
(原標(biāo)題:今年數(shù)據(jù)中心宕機的教訓(xùn):關(guān)注基本面)