為防止數(shù)據(jù)中心宕機(jī),企業(yè)該怎么做

今日頭條
云爍服務(wù)
數(shù)據(jù)中心發(fā)生宕機(jī)可能對(duì)我們來說并沒有什么太大的影響,最多幾分鐘不上網(wǎng),但對(duì)于數(shù)據(jù)中心企業(yè)來說卻是毀滅性的災(zāi)害。數(shù)據(jù)中心宕機(jī)不僅會(huì)給企業(yè)帶來巨大的財(cái)產(chǎn)損失且還會(huì)影響用戶體驗(yàn)度,因此數(shù)據(jù)中心企業(yè)該如何加強(qiáng)...

數(shù)據(jù)中心發(fā)生宕機(jī)可能對(duì)我們來說并沒有什么太大的影響,最多幾分鐘不上網(wǎng),但對(duì)于數(shù)據(jù)中心企業(yè)來說卻是毀滅性的災(zāi)害。數(shù)據(jù)中心宕機(jī)不僅會(huì)給企業(yè)帶來巨大的財(cái)產(chǎn)損失且還會(huì)影響用戶體驗(yàn)度,因此數(shù)據(jù)中心企業(yè)該如何加強(qiáng)數(shù)據(jù)中心的運(yùn)維管理防止機(jī)房宕機(jī)?

雖然造成宕機(jī)的原因很多,但歸結(jié)起來,都與運(yùn)維管理不到位分不開關(guān)系,因此,如何加強(qiáng)數(shù)據(jù)中心的運(yùn)維工作,是避免宕機(jī)發(fā)生的根本。

事實(shí)上,在運(yùn)維過程中,數(shù)據(jù)中心面臨著諸多的挑戰(zhàn):

數(shù)據(jù)中心的運(yùn)營(yíng)費(fèi)用。這就要求在建立數(shù)據(jù)中心之前,進(jìn)行預(yù)算和規(guī)劃;又比如能源成本上升,這可以通過使用新技術(shù)緩解,例如虛擬化和云主機(jī)托管,可以大大降低能源成本;再比如維護(hù)和冷卻要求,數(shù)據(jù)中心設(shè)施和組件需要在適合的溫度下全天不間斷的工作,這需要完善的冷卻系統(tǒng),以保持所需的溫度。

除此以外,數(shù)據(jù)中心還面臨著溝通融合、基礎(chǔ)設(shè)施要求、缺乏資源、服務(wù)器效率、數(shù)據(jù)中心安全、網(wǎng)絡(luò)阻塞等挑戰(zhàn)。但是,數(shù)據(jù)中心最不愿意見到的事情莫過于斷電,這將會(huì)給運(yùn)維人員帶來很多的麻煩。近來,不少公司因?yàn)閿?shù)據(jù)中心的電力中斷而備受困擾,比如美國(guó)達(dá)美航空公司數(shù)據(jù)中心的電力中斷,造成高達(dá)1.5億美元的經(jīng)濟(jì)損失,又比如美國(guó)“超級(jí)碗”賽場(chǎng)斷電,耽誤賽事日程。

對(duì)于數(shù)據(jù)中心的運(yùn)維,我們要做好以下幾點(diǎn)工作:

1.跟隨數(shù)據(jù)中心的變化,電力系統(tǒng)進(jìn)行升級(jí)

可以說數(shù)據(jù)中心的不同階段,對(duì)電力需求也在不停的變化,比如增加服務(wù)器或者交換機(jī)都有可能對(duì)電力產(chǎn)生巨大的需求,所以及時(shí)掌握數(shù)據(jù)中心在這一時(shí)間段對(duì)電力的需求,變得十分重要。

此外,還需要對(duì)數(shù)據(jù)中心的供電進(jìn)行合理的評(píng)估,以免數(shù)據(jù)中心超載,供電不足造成停電的狀況。

2.知道所有互連設(shè)備和系統(tǒng)的一切情況

對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)至關(guān)重要的是,需要電力鏈記錄在一起,從進(jìn)入建筑物的電力,再通過UPS、PDU/提供給所有的機(jī)架設(shè)備。這意味著數(shù)據(jù)中心運(yùn)營(yíng)需要知道哪些與電力相關(guān)的設(shè)備,以及設(shè)備各自的相互依賴關(guān)系。這可以讓數(shù)據(jù)中心運(yùn)營(yíng)了解某些設(shè)備故障或脫機(jī)維護(hù)時(shí)的潛在影響。此外,還應(yīng)該了解每個(gè)電源鏈設(shè)備的狀態(tài)。

可以通過采用數(shù)據(jù)中心基礎(chǔ)架構(gòu)管理(DCIM)實(shí)現(xiàn)對(duì)電源管理。DCIM使數(shù)據(jù)中心運(yùn)營(yíng)能夠以最高的效率運(yùn)行數(shù)據(jù)中心,同時(shí)允許所有相關(guān)人員改進(jìn)整體運(yùn)營(yíng)情況,并識(shí)別漏洞,從而保持電源鏈的安全。部署的DCIM還可以讓數(shù)據(jù)中心運(yùn)營(yíng)全面了解自己的產(chǎn)品,通過共享實(shí)時(shí)數(shù)據(jù)和易于理解的圖表,消除IT和設(shè)施之間的通信孤島。

3.確保電源系統(tǒng)沒有受到攻擊或威脅

數(shù)據(jù)中心是通過網(wǎng)絡(luò)進(jìn)行連接,當(dāng)然除了基架中包含的終端和訪問點(diǎn)之外,很多渠道可能會(huì)成為破壞數(shù)據(jù)中心的途徑,所以保護(hù)這些渠道免受破壞,成為數(shù)據(jù)中心建設(shè)需要考慮的問題。

在這里,網(wǎng)絡(luò)攻擊成為一種可能性,很多黑客可能不直接破壞供電系統(tǒng),而是通過網(wǎng)絡(luò)進(jìn)入到數(shù)據(jù)中心,以達(dá)到破壞數(shù)據(jù)中心供電的目的。此外,我們不應(yīng)該只防止通過網(wǎng)絡(luò)手段對(duì)數(shù)據(jù)中心進(jìn)行破壞的黑客,還應(yīng)該防止內(nèi)部人員的破壞,有些工作人員因?yàn)樽陨斫?jīng)驗(yàn)不足,一個(gè)小小的錯(cuò)誤,有可能導(dǎo)致數(shù)據(jù)中心供電的中斷。

所以,為了防止通過以上手段進(jìn)行破壞的行為,建立運(yùn)維文檔和流程控制變得十分重要。在這里,采用更多的硬件不是防止災(zāi)難性停電的最佳選擇,不妨采用軟件層面的管理,來的更加穩(wěn)妥一些。

不妨多模擬故障安全測(cè)試,做好完整的災(zāi)難恢復(fù)計(jì)劃數(shù)據(jù)中心在運(yùn)營(yíng)過程中,難免會(huì)出一些故障,所謂有備而無(wú)患,在真正出bug的狀況下,之前遇到過或者曾經(jīng)模擬了出錯(cuò)的場(chǎng)景,才更有經(jīng)驗(yàn)去應(yīng)對(duì)故障。在這里,我們建議在不影響業(yè)務(wù)環(huán)境的情況下對(duì)數(shù)據(jù)中心進(jìn)行斷電測(cè)試,使用虛擬的開關(guān)設(shè)備,將允許數(shù)據(jù)中心運(yùn)營(yíng)商可以應(yīng)對(duì)最壞的情況,并對(duì)其進(jìn)行恢復(fù)。

數(shù)據(jù)中心工作人員總是假設(shè)他們的電源供應(yīng)鏈和電源備份系統(tǒng)是萬(wàn)無(wú)一失的,但是如果沒有故障安全測(cè)試,會(huì)認(rèn)為面臨什么樣的結(jié)果?電源故障模擬使數(shù)據(jù)中心運(yùn)營(yíng)商可能找到缺乏冗余的設(shè)施,并發(fā)現(xiàn)單點(diǎn)故障。但是,這需要文檔進(jìn)行記錄。因此,數(shù)據(jù)中心運(yùn)營(yíng)商在災(zāi)難性的電源故障之前,建立斷電測(cè)試機(jī)制并記錄其恢復(fù)過程。

4.數(shù)據(jù)中心建設(shè)應(yīng)該實(shí)時(shí)監(jiān)控操作

對(duì)數(shù)據(jù)中心進(jìn)行實(shí)時(shí)監(jiān)控操作,是以防萬(wàn)一的做法,所以數(shù)據(jù)中心運(yùn)營(yíng)商必須知道設(shè)備都被放在哪里,以及使用了多少電能。雖然對(duì)于不斷增加基礎(chǔ)架構(gòu)的數(shù)據(jù)中心來說,這很困難,也有可能對(duì)電池容量和電源分配產(chǎn)生巨大的影響,但是注意所有移動(dòng)部件的唯一方法就是單一視圖,這種整體視圖具有實(shí)時(shí)監(jiān)控和警報(bào)的功能,使數(shù)據(jù)中心運(yùn)營(yíng)商能夠減輕風(fēng)險(xiǎn),并進(jìn)行更改以避免災(zāi)難發(fā)生。

宕機(jī)是一個(gè)代價(jià)極高的問題,在生產(chǎn)力和協(xié)作方面會(huì)造成相當(dāng)大的業(yè)務(wù)損失。加強(qiáng)數(shù)據(jù)中心的運(yùn)維工作,努力確保在每一個(gè)環(huán)節(jié)上都能阻止宕機(jī)的發(fā)生,是每一位運(yùn)維人員都要考慮的事情!

(原標(biāo)題:機(jī)房面臨嚴(yán)峻宕機(jī)風(fēng)險(xiǎn),如何加強(qiáng)數(shù)據(jù)中心的運(yùn)維管理?)

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論