6月底的一場(chǎng)風(fēng)暴襲擊美國(guó)弗吉尼亞北部,致使超過(guò)350萬(wàn)人失去了電力供應(yīng),而亞馬遜位于弗吉尼亞的US-East-1數(shù)據(jù)中心也隨之癱瘓,由于數(shù)據(jù)中心停止運(yùn)行,亞馬遜的云服務(wù)Amazon Web Services也因此一度中斷服務(wù)。此次亞馬遜云服務(wù)中斷事件再次引發(fā)了對(duì)于云服務(wù)的可靠性的疑慮,并且一家網(wǎng)站還因此而放棄了亞馬遜的云服務(wù)。
亞馬遜的云服務(wù)Amazon Web Services屬于基礎(chǔ)設(shè)施即服務(wù),作為業(yè)界數(shù)一數(shù)二的云服務(wù)提供商,亞馬遜云有許多客戶,此次風(fēng)暴致使Amazon Web Services中斷,不可避免的使得一些運(yùn)行在其中的網(wǎng)站或是業(yè)務(wù)中斷。
Netflix,Pinterest,Instagram,Heroku,這些利用亞馬遜的基礎(chǔ)設(shè)施云服務(wù)運(yùn)行業(yè)務(wù)的公司,都傳出消息出現(xiàn)中斷服務(wù),其原因正是AWS數(shù)據(jù)中心由于風(fēng)暴而電力中斷。
為亞馬遜US-East-1數(shù)據(jù)中心所在的弗吉尼亞州提供電力的Dominion Virginia公司在聲明中表示,90萬(wàn)個(gè)家庭因?yàn)轱L(fēng)暴而電力中斷。導(dǎo)致亞馬遜數(shù)據(jù)中心電力中斷的這場(chǎng)風(fēng)暴時(shí)速達(dá)80英里每小時(shí),并且伴隨著閃電,風(fēng)暴刮倒的大樹(shù)壓斷了電線,引發(fā)弗吉尼亞州北部的電力中斷。
亞馬遜數(shù)據(jù)中心所處的弗吉尼亞北部是此次風(fēng)暴的重災(zāi)區(qū),直到風(fēng)暴的第二天下午,總共83萬(wàn)2千人中還有38萬(wàn)5千人沒(méi)有電力供應(yīng)。
至于Amazon Web Services的數(shù)據(jù)中心的電力情況,有消息稱斷電9分鐘就恢復(fù)了,不過(guò)其云服務(wù)就沒(méi)有那么快恢復(fù)了。亞馬遜有一個(gè)專門(mén)公布其云計(jì)算服務(wù)的運(yùn)行狀況的網(wǎng)站,名為Amazon Web Services健康公示板,在其中我們可以查看亞馬遜云服務(wù)的運(yùn)行狀況記錄。
根據(jù)Amazon Web Services健康狀況公示,亞馬遜云計(jì)算服務(wù)Elastic Compute Cloud(EC2)在6月29號(hào)晚上8點(diǎn)21的時(shí)候開(kāi)始出現(xiàn)連接問(wèn)題,8點(diǎn)40的時(shí)候,亞馬遜官方宣布風(fēng)暴而致使亞馬遜數(shù)據(jù)中心電力中斷,不過(guò)9分鐘之后,電力得到恢復(fù),亞馬遜就開(kāi)始重新啟動(dòng)EC2云服務(wù),并且更新相關(guān)數(shù)據(jù)。
到晚上11點(diǎn)19分,半數(shù)以上的EC2用戶和三分之一的相關(guān)數(shù)據(jù)得到恢復(fù)。但是Elastic Load Balancers和Elastic Block Storage受到的影響,需要更多的時(shí)間來(lái)維修,30日10點(diǎn)25,亞馬遜宣布大部分受到影響的EC2用戶,由于沒(méi)有使用EBS硬盤(pán),其服務(wù)已經(jīng)得到恢復(fù)了正常,不過(guò)那些使用EBS硬盤(pán)的客戶就沒(méi)有那么幸運(yùn)了。
云搜索和相關(guān)數(shù)據(jù)服務(wù)也由于電力中斷而受到了影響到30號(hào)早上,這些服務(wù)的的大部分用戶已經(jīng)恢復(fù)了使用。
對(duì)已此次亞馬遜云服務(wù)宕機(jī)的時(shí)間,有關(guān)專家指出,考慮云計(jì)算的可靠性,采用過(guò)云計(jì)算的IT企業(yè)下一筆預(yù)算很可能是將自己的業(yè)務(wù)放到多家云服務(wù)提供商中,據(jù)悉,近期谷歌、微軟都推出或是更新了基礎(chǔ)設(shè)施即服務(wù)類型的云服務(wù)。
云計(jì)算的可靠性隱患
對(duì)于云計(jì)算,亞馬遜Amazon Web Services的EC2云服務(wù)的用戶Okta有一個(gè)說(shuō)法,建成云平臺(tái),客戶會(huì)來(lái),建好云平臺(tái),客戶會(huì)留下。Okta是一個(gè)用戶身份管理服務(wù)商,雖然亞馬遜的EC2服務(wù)因?yàn)轱L(fēng)暴導(dǎo)致電力中斷而宕機(jī),但是Okta是將他的業(yè)務(wù)建立在多個(gè)云平臺(tái)之上,因此Okta的服務(wù)沒(méi)有經(jīng)歷過(guò)一次宕機(jī)。
但是對(duì)于亞馬遜云服務(wù)另外一個(gè)用戶來(lái)說(shuō),情況就不是這樣了,一個(gè)網(wǎng)上約會(huì)網(wǎng)站W(wǎng)hatsyourprice.com,類似于現(xiàn)在中國(guó)的婚戀網(wǎng)站,其使用亞馬遜兩個(gè)云服務(wù)平臺(tái)建立自己的業(yè)務(wù)。此次電力中斷導(dǎo)致其運(yùn)行在亞馬遜云平臺(tái)的業(yè)務(wù)中斷,Whatsyourprice.com收到了其顧客的上千條投訴,Whatsyourprice.com的首席執(zhí)行官Brandon Wade在一次接受采訪時(shí)表示,這是Whatsyourprice.com開(kāi)業(yè)以來(lái)從未遇到過(guò)的情況。
Instagram、Quora、Heroku、Pinterest,Hootsuite以及Netflix等的用戶也在網(wǎng)上或是Twitter中抱怨服務(wù)中斷。
對(duì)于Whatsyourprice.com來(lái)說(shuō),此次風(fēng)暴導(dǎo)致兩個(gè)小時(shí)的業(yè)務(wù)中斷成為了壓死駱駝的最后一根稻草,早在6月14號(hào)的時(shí)候,Whatsyourprice.com就經(jīng)歷過(guò)一次2個(gè)小時(shí)的業(yè)務(wù)中斷,那一次是因?yàn)槎虝r(shí)間內(nèi)的大量的用戶活動(dòng)導(dǎo)致服務(wù)器不堪重負(fù)。
Wade,這位Whatsyourprice.com的CEO,并沒(méi)有等到亞馬遜的官方事故分析或是咨詢師的分析,就已經(jīng)把他的系統(tǒng),在亞馬遜基礎(chǔ)設(shè)施云服務(wù)運(yùn)行的10臺(tái)虛擬服務(wù)器,轉(zhuǎn)移到了拉斯維加斯的代理主機(jī)上,Whatsyourprice.com的總部就是在拉斯維加斯。
Wade表示:“亞馬遜是一個(gè)名譽(yù)非常好的公司,但是我們不能有這些業(yè)務(wù)中斷,對(duì)于我們來(lái)說(shuō),(業(yè)務(wù)的連續(xù)性)是至關(guān)重要的。”
Whatsyourprice.com還將會(huì)在拉斯維加斯尋找第二個(gè)代理主機(jī),這樣即使在一處的主機(jī)出現(xiàn)故障,他的業(yè)務(wù)也不會(huì)下線。這就是Wade在亞馬遜云服務(wù)所需要的架構(gòu)上的物理實(shí)現(xiàn)?!?/p>
如何提高云計(jì)算可靠性
Wade的公司曾經(jīng)采用的是位于Ashburn的亞馬遜US-East-1數(shù)據(jù)中心的兩個(gè)服務(wù)平臺(tái),每個(gè)服務(wù)平臺(tái)都有自己的網(wǎng)絡(luò)和電力系統(tǒng),來(lái)保障即使一個(gè)服務(wù)平臺(tái)中的,而另外一個(gè)還能保持業(yè)務(wù)的連續(xù)性。
對(duì)于此次亞馬遜云服務(wù)中斷導(dǎo)致Whatsyourprice.com的業(yè)務(wù)下線,Wade在一封郵件中表示,在亞馬遜云服務(wù)中斷期間,他的IT管理人員不能在未收風(fēng)暴斷電影響而正常運(yùn)行的服務(wù)平臺(tái)上安裝新的應(yīng)用。并且在這期間,他也不能講大量的數(shù)據(jù)轉(zhuǎn)移備份。因此,即使只有一個(gè)服務(wù)平臺(tái)出現(xiàn)故障,一些AWS云服務(wù)軟件的不能預(yù)見(jiàn)的其它問(wèn)題,會(huì)使得他們的網(wǎng)站業(yè)務(wù)中斷。
Wade還表示,6月份的兩次亞馬遜云服務(wù)中斷都導(dǎo)致了Whatsyourprice.com整個(gè)網(wǎng)站的癱瘓。
Whatsyourprice.com的案例印證了Okta對(duì)于云服務(wù)平臺(tái)的說(shuō)法,“建成云平臺(tái),客戶會(huì)來(lái),建好云平臺(tái),客戶會(huì)留下”。
Okta同樣經(jīng)歷了6月14號(hào)以及19號(hào)的亞馬遜云服務(wù)中斷的事件,但是其業(yè)務(wù)卻沒(méi)有下線中止。Okta聲稱他的在線用戶管理系統(tǒng)完全值得依賴因?yàn)樗钦嬲牧沐礄C(jī)架構(gòu)。
Eric Berg,Okta的產(chǎn)品經(jīng)理表示,任何單一獨(dú)立的平臺(tái)都會(huì)有可能宕機(jī),Eric Berg表示有必要自己保證業(yè)務(wù)的可靠性,因?yàn)轭櫩秃涂蛻舨荒苋萑体礄C(jī),因此Okta才會(huì)在采用亞馬遜云服務(wù)的同時(shí)還采用其他云服務(wù)。
不僅僅是亞馬遜云服務(wù),其他的云計(jì)算服務(wù)也會(huì)不可避免的出現(xiàn)宕機(jī)。服務(wù)提供商必需使得自己的服務(wù)在云計(jì)算平臺(tái)宕機(jī)時(shí)還能繼續(xù)運(yùn)行其服務(wù)業(yè)務(wù)。
Whatsyourprice.com的首席執(zhí)行官Wade表示,不同于你今天錯(cuò)過(guò)電影可以明天再看,約會(huì)是需要正確的人和正確的時(shí)間,如果一個(gè)在線約會(huì)服務(wù)癱瘓,客戶也許就會(huì)失去見(jiàn)生命中另外一半的機(jī)會(huì)。
Wade還表示,Whatsyourprice.com將不會(huì)再使用亞馬遜的EC2云服務(wù),因?yàn)樗臄?shù)據(jù)中心時(shí)不時(shí)的出現(xiàn)問(wèn)題。
全文總結(jié):
當(dāng)云計(jì)算越來(lái)越受是,其隱患也就越來(lái)越顯現(xiàn)在人們面前。是否具有高可靠性是公司在選擇云計(jì)算服務(wù)提供商首先考慮的問(wèn)題,但是需要指出的是,宕機(jī)是不可避免的問(wèn)題,一個(gè)系統(tǒng)再怎么可靠100%的運(yùn)行時(shí)間是難以保證的。云計(jì)算服務(wù)宕機(jī)的問(wèn)題之所以被大家重視,是因?yàn)樵品?wù)上面有著諸多企業(yè)的業(yè)務(wù)。影響著諸多用戶和客戶。對(duì)于可靠性的要求,就像一句俗語(yǔ)將的一樣,不要把雞蛋都放在一個(gè)籃子里面。預(yù)算允許的話,同時(shí)選擇多家云服務(wù)可以降低業(yè)務(wù)中斷的可能性。