日前據(jù)悉,信用卡發(fā)行商Visa公司的數(shù)據(jù)中心本月早些時候遭遇停機(jī),那么人們還記得2011年臭名昭著的為期四天的停電?那么發(fā)生了什么?以及Visa公司為避免再次停機(jī)采取了什么措施?
Visa公司歐洲分公司的首席執(zhí)行官CharlotteHogg表示,由于數(shù)據(jù)中心的交換機(jī)出現(xiàn)故障,6月早些時候歐洲各地的數(shù)百萬客戶受到影響,導(dǎo)致信用卡業(yè)務(wù)處理中斷了10小時。
作為對英國財政部要求自行解釋的要求,Hogg向英國國會議員跨黨派委員會發(fā)出了一封詳細(xì)信函中的數(shù)據(jù)中心問題。
停電發(fā)生在6月1日,停機(jī)事件發(fā)生在英國夏令時14:35,并于00:45結(jié)束。英國數(shù)據(jù)中心運(yùn)營團(tuán)隊(duì)意識到處理系統(tǒng)功能已經(jīng)存在“部分退化”,據(jù)說已經(jīng)制定了相應(yīng)的協(xié)議來處理這個問題。
其第一步是召開技術(shù)響應(yīng)團(tuán)隊(duì)評估會議。隨后,這一問題升級為危機(jī)管理協(xié)議,并就此問題發(fā)布了媒體聲明。
該公司在英國經(jīng)營著兩個數(shù)據(jù)中心,其中任何一個據(jù)稱都能夠在歐洲處理Visa公司的100%交易。在“正常情況下”,系統(tǒng)是同步的,任何一個數(shù)據(jù)中心停電,另一個可以立即接管。Hogg說,每個中心都內(nèi)置了設(shè)備和控制的多種備份形式。
每個數(shù)據(jù)中心都配置了兩臺核心交換機(jī),一臺主要的交換機(jī)和一臺次要的交換機(jī)。如果主要交換機(jī)發(fā)生故障,在“正常運(yùn)行”狀態(tài)下,備用交換機(jī)將接管。在這種情況下,主要數(shù)據(jù)中心交換機(jī)中的某個組件出現(xiàn)“非常罕見的部分故障”,從而導(dǎo)致備份交換機(jī)無法啟動。
因此,該公司花費(fèi)比通常在主要數(shù)據(jù)中心隔離系統(tǒng)更長的時間。主要數(shù)據(jù)中心的故障系統(tǒng)繼續(xù)嘗試與輔助數(shù)據(jù)中心同步消息。這在輔助數(shù)據(jù)中心創(chuàng)建了消息積壓,這反過來又減緩了該站點(diǎn)處理傳入事務(wù)的能力。
數(shù)據(jù)中心工作人員采取了一些關(guān)鍵措施來嘗試緩解問題,其中包括關(guān)閉主站點(diǎn)的軟件應(yīng)用程序,并通過人工和自動方式清理輔助數(shù)據(jù)中心的消息積壓。
直到19:10左右才完全停用導(dǎo)致主要數(shù)據(jù)中心事務(wù)失敗的系統(tǒng)。到那時,輔助數(shù)據(jù)中心已經(jīng)開始正常處理幾乎所有的交易。到20:15,其影響“基本解決”,6月2凌晨00:45處理水平正常。
事件發(fā)生時,整個系統(tǒng)都沒有中斷。相反,在整個中斷期間,未能處理的交易百分比“波動”。
Hogg說:“我們尚不清楚為什么交換機(jī)在當(dāng)時出現(xiàn)故障,但我們正在與]制造商合作對交換機(jī)進(jìn)行取證分析。”
她補(bǔ)充說:“根據(jù)他們的初步調(diào)查結(jié)果,我們被告知這是非常罕見的失敗。制造商向我們提供了有關(guān)軟件的建議,用于在發(fā)生類似的故障時自動監(jiān)控和關(guān)閉交換機(jī)。而在運(yùn)行時,該計劃將不斷審查交換機(jī)中的關(guān)鍵組件,以跟蹤其可用性。如果檢測到相同的錯誤,程序?qū)⒆詣咏邮战M件或切換操作。”
她表示,Visa公司還在內(nèi)部開展工作、開發(fā)和安裝其他新功能,以便以“更加自動化和及時的方式”將處理環(huán)境中的故障組件隔離并刪除。
該公司還正在對其測試和運(yùn)營以及事件響應(yīng)流程進(jìn)行審查。Visa公司已將其歐洲處理遷移至其全球處理系統(tǒng)VisaNet。此遷移計劃于2018年底前完成。VisaNet基于與歐洲系統(tǒng)不同的技術(shù)架構(gòu),擁有多個數(shù)據(jù)中心并服務(wù)于多個地區(qū)。
VisaNet有四個雙活圖像協(xié)同工作,與歐洲的系統(tǒng)相比,它具有更大的容量和規(guī)模。
Hogg說:“VisaNet在檢測和恢復(fù)6月1日影響歐洲系統(tǒng)的部分故障時具有更強(qiáng)的適應(yīng)能力。”
Hogg表示,“它可以用一個命令隔離和刪除失敗的組件,只需幾分鐘時間即可從處理環(huán)境中刪除故障組件。通過這樣做,我們在其他數(shù)據(jù)中心的操作系統(tǒng)可以忽略故障系統(tǒng)并繼續(xù)無縫運(yùn)行。”
Hogg證實(shí),6月1日的停機(jī)事件與這次移徙沒有任何關(guān)系,而其移徙事件自2月份以來一直在進(jìn)行。
在很多方面,Visa公司歐洲分公司運(yùn)營中斷在2011年臭名昭著的為期四天的全球黑莓智能手機(jī)中斷事件中發(fā)生,當(dāng)英國數(shù)據(jù)中心的網(wǎng)絡(luò)交換機(jī)出現(xiàn)故障,并且備份系統(tǒng)未能完全啟動時,由于狹窄設(shè)計的網(wǎng)絡(luò)陷入癱瘓,導(dǎo)致日志堵塞。當(dāng)然,黑莓手機(jī)當(dāng)時并沒有從事件中恢復(fù)過來,這加速了用戶向iPhone和Android設(shè)備的遷移。