影響其Azure云計(jì)算服務(wù)的服務(wù)中斷是由于LeapYear錯(cuò)誤引起的

南充在線
云將導(dǎo)致宕機(jī),這是一個(gè)基本問(wèn)題。但是,無(wú)論是您自己的基礎(chǔ)架構(gòu)還是云基礎(chǔ)架構(gòu),您都需要為宕機(jī)做好準(zhǔn)備。您需要了解風(fēng)險(xiǎn)是什么。這全都與風(fēng)險(xiǎn)管理有關(guān)。

微軟于2月29日確認(rèn),影響其Azure云計(jì)算服務(wù)的服務(wù)中斷是由于Leap Year錯(cuò)誤引起的。中斷顯然是由愛(ài)爾蘭的一臺(tái)密鑰服務(wù)器觸發(fā)的,該服務(wù)器中的證書(shū)于2月28日午夜到期。

電子控制文件沒(méi)有考慮到西方日歷每四年增加2月的額外一天。這是簡(jiǎn)單的人為錯(cuò)誤,是計(jì)算機(jī)錯(cuò)誤的最常見(jiàn)原因。

當(dāng)鐘聲敲響到午夜時(shí)分,事情很快就變得混亂了,云系統(tǒng)的多米諾骨牌效應(yīng)開(kāi)始了。由于停機(jī),許多西半球站點(diǎn)和英國(guó)政府的G-Cloud CloudStore成為了許多停頓的原因。盡管微軟確實(shí)在Azure團(tuán)隊(duì)博客中報(bào)告說(shuō)該問(wèn)題“大部分”已得到解決,但微軟一直在追蹤其步驟以查明到底發(fā)生了什么,并且還沒(méi)有說(shuō)太多。

“該問(wèn)題很快被解決,并且確定是由軟件錯(cuò)誤引起的。 Microsoft Server and Cloud公司副總裁Bill Laing在2月29日的Windows Azure Team Blog中寫(xiě)道。”在進(jìn)行最終的根本原因分析時(shí),此問(wèn)題似乎是由于a年的時(shí)間計(jì)算不正確造成的。”

Microsoft工程師創(chuàng)建了一種解決方法,同時(shí)仍在處理影響某些次區(qū)域和客戶(hù)的問(wèn)題。根據(jù)Windows Azure Service Dashboard的數(shù)據(jù),到3月1日,幾乎所有區(qū)域都已備份并開(kāi)始運(yùn)行,但美國(guó)中南部區(qū)域的Windows Azure Compute警報(bào)除外。該警報(bào)于2月29日上午發(fā)布,表明傳入流量有問(wèn)題。

“這是一個(gè)經(jīng)典的計(jì)算機(jī)科學(xué)問(wèn)題,”云網(wǎng)關(guān)提供商N(yùn)asuni的首席執(zhí)行官兼創(chuàng)始人Andres Rodriguez對(duì)eWEEK表示。云存儲(chǔ)前端Nasuni使用Azure,Amazon S3,Rackspace和其他云存儲(chǔ)提供商作為其客戶(hù)端的目標(biāo)。

“這是Le年的問(wèn)題。日期未正確調(diào)整。它們沒(méi)有將the年的日期(2月29日)考慮在內(nèi)。當(dāng)事情在愛(ài)爾蘭開(kāi)始時(shí),它們的開(kāi)始時(shí)間是格林尼治標(biāo)準(zhǔn)時(shí)間零,在2月29日,正瘋狂地指著它??赡苁钳傋铀频膹哪情g大廳冒出來(lái)的煙。

Rodriguez (如圖)提醒eWEEK讀者,只有Azure云的計(jì)算層崩潰了,Nasuni本身是客戶(hù)的存儲(chǔ)服務(wù)部分沒(méi)有受到影響。Nasuni的存儲(chǔ)服務(wù)在多個(gè)云系統(tǒng)之間是冗余的,因此,如果一個(gè)系統(tǒng)出現(xiàn)故障,數(shù)據(jù)將不會(huì)受到影響。

Rodriguez說(shuō),實(shí)際上,如果IT經(jīng)理不考慮在至少兩個(gè)云服務(wù)提供商的堆棧上復(fù)制其關(guān)鍵業(yè)務(wù)數(shù)據(jù)的話,他們可能會(huì)被解雇。這正是Azure在2月29日說(shuō)明的原因。

重溫大局的原因

很快,Microsoft將完全恢復(fù)并運(yùn)行,并且在Azure上運(yùn)行的世界將恢復(fù)工作。但是有理由停下來(lái)考慮更大的前景。

在這個(gè)數(shù)字設(shè)備瘋狂的世界里,我們享受著無(wú)數(shù)的IT好處。但是我們還需要記住,數(shù)據(jù)系統(tǒng)中也有很多致命弱點(diǎn),它們可能直接受到黑客,環(huán)境事件,斷電,黑子,人為錯(cuò)誤的影響。

隨著時(shí)間的流逝,我們?cè)絹?lái)越善于發(fā)現(xiàn)這些孔并堵塞它們。但是事實(shí)是,我們可能永遠(yuǎn)無(wú)法完全解決IT系統(tǒng)固有的全部安全風(fēng)險(xiǎn)的四分之一,因?yàn)樯婕暗淖兞刻嗔?,而且涉及的人員也很多。

底線很簡(jiǎn)單,但是很多人花了一些時(shí)間來(lái)學(xué)習(xí)它:每個(gè)企業(yè)都需要像管理所有本地系統(tǒng)一樣管理自己的系統(tǒng)?包括所有VPN網(wǎng)絡(luò),遠(yuǎn)程辦公室和設(shè)備,云。和/或其中的云服務(wù)。

長(zhǎng)期存儲(chǔ)行業(yè)分析師安迪·曼恩(Andi Mann)目前是CA Technologies的首席云戰(zhàn)略專(zhuān)家,他在2011年4月亞馬遜斷電后對(duì)eWEEK表示: “了解[關(guān)于此類(lèi)事件的第一件事是,這不會(huì)改變。適用于2月29日的Microsoft boo-boo。

“云將導(dǎo)致宕機(jī),這是一個(gè)基本問(wèn)題。但是,無(wú)論是您自己的基礎(chǔ)架構(gòu)還是云基礎(chǔ)架構(gòu),您都需要為宕機(jī)做好準(zhǔn)備。您需要了解風(fēng)險(xiǎn)是什么。這全都與風(fēng)險(xiǎn)管理有關(guān)。”

羅德里格斯說(shuō):“這些云提供商擁有龐大的數(shù)據(jù)中心,但是仍然必須編寫(xiě)該龐大數(shù)據(jù)中心中您自己的應(yīng)用程序,以處理該數(shù)據(jù)中心中計(jì)算層的崩潰。您不能指望云提供商會(huì)這樣做那是給你的。”

就像去年Amazon EC2遭受的一次重大故障以及2月29日Le年日那面紅臉的微軟所遭受的一次重大故障一樣,沒(méi)有什么能比喻云服務(wù)的聲譽(yù)了。入侵系統(tǒng)的壞人可能發(fā)生在任何人,云或無(wú)云。您會(huì)盡力確保獲得類(lèi)似的東西。但是,由于云應(yīng)用程序提供商的過(guò)錯(cuò)而導(dǎo)致的總停機(jī)完全是另一回事。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論