負(fù)責(zé)AWS云存儲業(yè)務(wù)的高管表示,亞馬遜網(wǎng)絡(luò)服務(wù)從未見過整個數(shù)據(jù)中心在其龐大的全球基礎(chǔ)設(shè)施領(lǐng)域出現(xiàn)故障。
“我們從來沒有見過數(shù)據(jù)中心的丟失,”亞馬遜S3的副總裁兼總經(jīng)理Mai-Lan Tomsen Bukovec是AWS云計算服務(wù)EC2的存儲伙伴,他在周四發(fā)表的一篇主題演講中說道:拉斯維加斯會議。
亞馬遜S3是AWS云計算服務(wù)EC2的存儲伙伴,其副總裁兼總經(jīng)理Mai-Lan Tomsen Bukovec周四在拉斯維加斯大會上發(fā)表主旨演講時表示:“我們從未見過數(shù)據(jù)中心的消失。”
多年來,這家全球最大的云服務(wù)提供商曾多次出現(xiàn)服務(wù)中斷,包括今年7月在黃金日促銷活動中令人尷尬的中斷。因為它是世界上最大的云,它的中斷通常會影響成千上萬的企業(yè),包括一些互聯(lián)網(wǎng)上訪問量最大的網(wǎng)站。本文列出了多年來在DCK上報道的一系列AWS中斷。
但是,根據(jù)Bukovec的說法,這些中斷從未導(dǎo)致整個數(shù)據(jù)中心的丟失。
如果這是真的,那么數(shù)據(jù)中心正常運行時間的記錄將是罕見的(即使考慮到整個數(shù)據(jù)中心不必為了擾亂成千上萬的客戶)。即使是具有最多基礎(chǔ)設(shè)施冗余和最復(fù)雜的自動故障轉(zhuǎn)移系統(tǒng)的設(shè)施也會不時出現(xiàn),通常是由于人為錯誤,但有時也是因為故障轉(zhuǎn)移系統(tǒng)本身無法預(yù)料的故障。
Bukovec在描述AWS基礎(chǔ)設(shè)施工程師確??蛻魯?shù)據(jù)“持久性”的長度時表示了這一點。盡管整個AWS數(shù)據(jù)中心從未停止過,但系統(tǒng)的設(shè)計使客戶可以快速檢索存儲在任何建筑物中的數(shù)據(jù),以防發(fā)生此類中斷。
“我們對此感到擔(dān)心,包括擴展和容量建模,以及處理它的軟件系統(tǒng),所以你不必這樣做,”她說。
其他超大規(guī)模云平臺還設(shè)計其基礎(chǔ)架構(gòu),以便在單個數(shù)據(jù)中心發(fā)生故障時繼續(xù)運行。Facebook故意不時關(guān)閉數(shù)據(jù)中心以測試平臺的彈性。
亞馬遜最大的云競爭對手微軟Azure無法做出這樣的聲明。今年早些時候,雷擊導(dǎo)致公用事業(yè)基礎(chǔ)設(shè)施的電力負(fù)荷激增,為德克薩斯州圣安東尼奧市的Azure數(shù)據(jù)中心提供動力,壓倒了其保護機制并關(guān)閉了整個設(shè)施。
世界各地的每個AWS可用區(qū)域都包含多個可用區(qū)域。“在每個區(qū)域,你至少有一個數(shù)據(jù)中心。”Bukovec說。它從來不是建筑物內(nèi)有其他數(shù)據(jù)中心的房間;“這是整棟建筑。”她說。
許多可用區(qū)域由多個數(shù)據(jù)中心組成,雖然AWS公開分享每個區(qū)域中的區(qū)域數(shù)量,但它并未公開每個區(qū)域中的設(shè)施數(shù)量。云提供商目前在19個地理區(qū)域擁有57個可用區(qū)。它已宣布計劃再建15個區(qū)和5個其他區(qū)域。
以下是我們多年來對AWS云中斷的一些報道:
2017年,由于錯誤命令致AWS宕機,導(dǎo)致互聯(lián)網(wǎng)癱瘓
2017年,Equinix停電是AWS云中斷背后的一個原因
以下是導(dǎo)致周日亞馬遜云服務(wù)宕機的原因
2015年,亞馬遜數(shù)據(jù)中心停電影響Netflix、Heroku等公司
2013年,網(wǎng)絡(luò)問題導(dǎo)致亞馬遜云停機
2012年,軟件漏洞,層疊故障導(dǎo)致亞馬遜宕機
2012年,多個發(fā)電機故障導(dǎo)致亞馬遜云服務(wù)中斷
2012年,亞馬遜EC2云面臨更多問題
2012年,亞馬遜數(shù)據(jù)中心在經(jīng)受風(fēng)暴期間斷電
2011年,亞馬遜主要停電事件在網(wǎng)絡(luò)上掀起波瀾
2011年,亞馬遜提供有關(guān)都柏林停電的更多細(xì)節(jié)
2011年,亞馬遜:網(wǎng)絡(luò)錯誤導(dǎo)致云中斷
2010年,亞馬遜:硬件故障導(dǎo)致停電
2009年,亞馬遜網(wǎng)絡(luò)服務(wù)中斷
原文作者:Yevgeniy Sverdlik