電源故障是導(dǎo)致數(shù)據(jù)中心運(yùn)行中斷的常見(jiàn)原因,但它們并不是唯一的罪魁禍?zhǔn)?。隨著企業(yè)計(jì)算環(huán)境變得越來(lái)越復(fù)雜,IT系統(tǒng)和網(wǎng)絡(luò)故障正在導(dǎo)致越來(lái)越多的數(shù)據(jù)中心宕機(jī)。
數(shù)據(jù)中心設(shè)施咨詢機(jī)構(gòu)Uptime Institute的主要業(yè)務(wù)為提供彈性服務(wù),為建立和運(yùn)行數(shù)據(jù)中心提供建議以及認(rèn)證服務(wù)。該公司一直在研究公開(kāi)發(fā)表的宕機(jī)報(bào)道,以追蹤導(dǎo)致意外停機(jī)的原因。過(guò)去三年中,他們已經(jīng)從傳統(tǒng)媒體或社交媒體上報(bào)道出來(lái)的162次宕機(jī)報(bào)告中篩選出了一些信息??捎玫臄?shù)據(jù)在這三年內(nèi)不斷增加,研究人員收集到了2016年27次宕機(jī)、2017年57次宕機(jī)以及2018年78次宕機(jī)的數(shù)據(jù)。
Uptime Institute的研究執(zhí)行董事AndyLawrence表示:“曝光出來(lái)的宕機(jī)事故成為新聞的次數(shù)正變得越來(lái)越多。”
在研究結(jié)果公布的同時(shí),Lawrence指出,目前他們正記錄著全球每天發(fā)生的幾乎所有的重大運(yùn)行中斷事件。雖然這并不一定意味著運(yùn)行中斷的次數(shù)在急劇增加,但是宕機(jī)時(shí)間正在受到越來(lái)越多的關(guān)注。“我們很清楚,運(yùn)行中斷產(chǎn)生的影響肯定會(huì)增加。”
Uptime Institute的一個(gè)重要研究發(fā)現(xiàn)是,電源在整個(gè)故障中影響較小,但網(wǎng)絡(luò)和IT系統(tǒng)的影響則較為深遠(yuǎn)。導(dǎo)致變化的一個(gè)原因是電力系統(tǒng)比過(guò)去更加可靠,這減少了本地?cái)?shù)據(jù)中心發(fā)生電力故障的次數(shù)。
技術(shù)行業(yè)在過(guò)去二十年中一直專注于如何設(shè)計(jì)電力系統(tǒng),即使電力系統(tǒng)某處出現(xiàn)故障或整個(gè)系統(tǒng)發(fā)生故障,IT資產(chǎn)也能繼續(xù)運(yùn)行。Uptime Institute首席技術(shù)官Chris Brown稱:“供應(yīng)雙線IT設(shè)備的2N配電系統(tǒng)的出現(xiàn)使得IT系統(tǒng)能夠在經(jīng)歷一系列獨(dú)立事件和事故后仍能繼續(xù)保持運(yùn)行。”
同時(shí),日益復(fù)雜的IT環(huán)境導(dǎo)致了更多的IT和網(wǎng)絡(luò)問(wèn)題。Uptime Institute負(fù)責(zé)IT優(yōu)化和戰(zhàn)略的副總裁Todd Traver稱:“數(shù)據(jù)現(xiàn)在分布在多個(gè)地方,這些數(shù)據(jù)極為依賴網(wǎng)絡(luò)。應(yīng)用程序的構(gòu)建以及數(shù)據(jù)庫(kù)的復(fù)制同樣也非常依賴網(wǎng)絡(luò)。這是一個(gè)非常復(fù)雜的系統(tǒng)。”
對(duì)數(shù)據(jù)中心運(yùn)行中斷的嚴(yán)重性的評(píng)估
為了區(qū)分可能導(dǎo)致業(yè)務(wù)崩潰的運(yùn)行中斷和僅僅造成不便的運(yùn)行中斷,Uptime Institute對(duì)此進(jìn)行了分級(jí)。該評(píng)級(jí)系統(tǒng)可讓研究人員了解運(yùn)行中斷的整體情況是如何隨時(shí)間而變化的。Uptime Institute的評(píng)估分為五個(gè)等級(jí):
●1級(jí)為可忽略不計(jì)的中斷。該級(jí)別的中斷會(huì)被記錄下來(lái),但是對(duì)服務(wù)的影響很小或沒(méi)有明顯影響,也沒(méi)有出現(xiàn)服務(wù)中斷。
●2級(jí)的特點(diǎn)為最低程度的服務(wù)中斷。服務(wù)出現(xiàn)中斷,但對(duì)用戶、客戶或聲譽(yù)的影響微乎其微。
●3級(jí)為重要業(yè)務(wù)發(fā)生服務(wù)中斷,涉及客戶或用戶服務(wù),主要特點(diǎn)是范圍、持續(xù)時(shí)間或影響有限。對(duì)財(cái)務(wù)的影響輕微甚至沒(méi)有,但是會(huì)產(chǎn)生一些聲譽(yù)或合規(guī)方面的影響。
●4級(jí)為嚴(yán)重的業(yè)務(wù)或服務(wù)中斷,涉及服務(wù)和/或操作。波及面包括財(cái)務(wù)損失、數(shù)據(jù)泄露、聲譽(yù)損害并可能出現(xiàn)安全問(wèn)題??赡軙?huì)導(dǎo)致客戶損失。
●5級(jí)為關(guān)鍵業(yè)務(wù)或任務(wù)出現(xiàn)中斷,包括服務(wù)和/或運(yùn)營(yíng)出現(xiàn)重大和破壞性中斷??赡軙?huì)造成重大財(cái)務(wù)損失、安全問(wèn)題、數(shù)據(jù)泄露、客戶損失和名譽(yù)損失。
在分析了三年內(nèi)所有公開(kāi)的數(shù)據(jù)中心運(yùn)行中斷(級(jí)別1到5)事件后,Uptime Institute發(fā)現(xiàn)IT系統(tǒng)和網(wǎng)絡(luò)問(wèn)題已經(jīng)超過(guò)了電源成為了主要原因(見(jiàn)圖)。
在逐年對(duì)原因進(jìn)行比較后,這種趨勢(shì)會(huì)顯得尤為突出。2017年,電力是28%運(yùn)行中斷事件的罪魁禍?zhǔn)住4文?,僅有11%的運(yùn)行中斷事件的主因?yàn)橥k?。與IT系統(tǒng)有關(guān)的故障則在這兩年中基本保持一致。其中,2017年32%的運(yùn)行中斷事件的主因?yàn)橄到y(tǒng)故障,2018年這一比例為35%。網(wǎng)絡(luò)作為運(yùn)行中斷的主要原因在顯著增長(zhǎng)。其中,2017年19%的運(yùn)行中斷事件被歸咎于網(wǎng)絡(luò),2018年這一比例飆升到了32%。
Traver在談到2018年運(yùn)行中斷事件數(shù)量大幅增長(zhǎng)時(shí)指出,“這些事情之間的確是相互聯(lián)系的。這也就是為什么網(wǎng)絡(luò)中斷的大幅上升會(huì)導(dǎo)致運(yùn)行中斷的原因所在。這些東西不是連接在一個(gè)或兩個(gè)站點(diǎn)上,而是連接在三個(gè)、四個(gè)站點(diǎn),甚至更多的站點(diǎn)上。如今,網(wǎng)絡(luò)在IT彈性方面正發(fā)揮著越來(lái)越大的作用。
此外,隨著更多IT資源被移交給服務(wù)提供商,并且不再受使用它們的企業(yè)的直接控制,管理和操作也變得越來(lái)越復(fù)雜。Traver稱:“在2018年,三分之二的運(yùn)行中斷事件與網(wǎng)絡(luò)和IT有關(guān)。這是在過(guò)去幾年中出現(xiàn)的一個(gè)重大變化。”
深入研究數(shù)據(jù)中心的宕機(jī)時(shí)間
Uptime Institute對(duì)導(dǎo)致數(shù)據(jù)中心運(yùn)行中斷的具體原因進(jìn)行了深入的研究。在網(wǎng)絡(luò)方面,導(dǎo)致運(yùn)行中斷的常見(jiàn)原因包括:
● 連接數(shù)據(jù)中心的外部光纖被切斷,并且未充分選擇備份路由。
● 主要交換機(jī)間歇性故障,且未部署次要路由器。
● 主要交換機(jī)故障且沒(méi)有備份。
● 維護(hù)期間未正確配置流量。
● 路由器和軟件定義的網(wǎng)絡(luò)未正確配置。
● 無(wú)備用的單個(gè)組件(如交換機(jī)和路由器)發(fā)生斷電。
Traver指出,“錯(cuò)誤配置的路由器和軟件定義的網(wǎng)絡(luò)是常見(jiàn)的網(wǎng)絡(luò)問(wèn)題。這一問(wèn)題應(yīng)當(dāng)可通過(guò)測(cè)試被檢測(cè)出來(lái)。”
當(dāng)談到光纖被切斷問(wèn)題時(shí),Traver說(shuō),企業(yè)此時(shí)往往沒(méi)有意識(shí)到他們發(fā)生了單點(diǎn)故障。“企業(yè)可能有兩個(gè)獨(dú)立的服務(wù)提供商,但他們不知道,兩個(gè)提供商的光纖埋在同一個(gè)溝渠中。同時(shí),企業(yè)也沒(méi)有對(duì)這一問(wèn)題展開(kāi)恰當(dāng)?shù)谋M職調(diào)查。”
當(dāng)IT為罪魁禍?zhǔn)讜r(shí),造成運(yùn)行中斷的主要原因如下:
● 對(duì)升級(jí)工作管理不善,對(duì)軟件級(jí)別測(cè)試不充分。
● 大型磁盤驅(qū)動(dòng)器或存儲(chǔ)區(qū)域網(wǎng)絡(luò)發(fā)生故障并出現(xiàn)數(shù)據(jù)損壞。這可能是由硬件故障引起的,配置或編程錯(cuò)誤讓問(wèn)題雪上加霜。
● 負(fù)載平衡或流量管理系統(tǒng)中發(fā)生同步故障或程序錯(cuò)誤。
● 未能對(duì)故障/同步或?yàn)?zāi)難恢復(fù)系統(tǒng)進(jìn)行正確的編程。
● 無(wú)備用的單個(gè)組件(如服務(wù)器或大型磁盤驅(qū)動(dòng)器)發(fā)生斷電。
談到負(fù)載均衡/流量管理問(wèn)題,Lawrence表示,在企業(yè)嘗試將IT資源部署的更為分散時(shí),可能會(huì)出現(xiàn)程序錯(cuò)誤和同步問(wèn)題。Lawrence說(shuō):“減少對(duì)單一站點(diǎn)的依賴性通常是企業(yè)戰(zhàn)略的一部分,但是它們就像擠壓氣球一樣,問(wèn)題突然出現(xiàn)在其他地方。”
Traver補(bǔ)充道,如果企業(yè)沒(méi)有認(rèn)真規(guī)劃他們?cè)谒衅脚_(tái)上的應(yīng)用程序和數(shù)據(jù),或是沒(méi)有展開(kāi)經(jīng)常性測(cè)試,那么這些問(wèn)題就會(huì)發(fā)生。
當(dāng)電源是罪魁禍?zhǔn)讜r(shí),導(dǎo)致運(yùn)行中斷的一些主要原因包括:
● 雷擊導(dǎo)致出現(xiàn)電涌和斷電。備份軟件/配置失敗。
● 轉(zhuǎn)換開(kāi)關(guān)出現(xiàn)間歇性故障,導(dǎo)致無(wú)法啟動(dòng)發(fā)電機(jī),或轉(zhuǎn)移到第二個(gè)數(shù)據(jù)中心。
● UPS故障和無(wú)法轉(zhuǎn)移到輔助系統(tǒng)。
● 操作錯(cuò)誤,關(guān)閉或未正確配置電源。
● 公用電力斷電,隨后發(fā)生發(fā)電機(jī)或UPS故障。
● 電涌導(dǎo)致IT設(shè)備損壞。
● IT設(shè)備未配備兩種互為備份的電源供給方式。
Brown稱,在以電源問(wèn)題為主因的運(yùn)行中斷事件中,所有具體原因大家都非常熟悉。“這些都是數(shù)據(jù)中心的工程師們幾十年來(lái)一直在努力解決的問(wèn)題,即如何圍繞這些問(wèn)題進(jìn)行設(shè)計(jì),以及如何利用他們的設(shè)計(jì)緩解這些問(wèn)題。”
Traver表示,總的來(lái)說(shuō),企業(yè)需要更加關(guān)注數(shù)據(jù)中心的彈性。他說(shuō):“要知道自己的系統(tǒng)是如何設(shè)計(jì)的,充分理解各部分之間的關(guān)聯(lián)性。同時(shí)還要知道故障是如何發(fā)生的,以及故障發(fā)生后的應(yīng)急預(yù)案。而我認(rèn)為這一塊是缺失的。”
Lawrence總結(jié)道,“如今設(shè)備正越來(lái)越好,管理越來(lái)越出色,經(jīng)驗(yàn)也越來(lái)越豐富。整個(gè)行業(yè)正變得越來(lái)越成熟。但即便如此,運(yùn)行中斷仍將是一個(gè)非常重要和代價(jià)高昂的問(wèn)題。”
作者:Ann Bednarz,主要負(fù)責(zé)為《網(wǎng)絡(luò)世界》采訪報(bào)道IT職業(yè)、外包和互聯(lián)網(wǎng)文化方面的新聞。
編譯:陳琳華
原文網(wǎng)址:https://www.networkworld.com/article/3373646/network-problems-responsible-for-more-data-center-outages.html