最近公有云不夠太平,在阿里云故障、AWS故障、谷歌云故障之后,騰訊云也掛了……,幾大公有云頻頻出現(xiàn)故障,一時(shí)讓很多上云的小伙伴們無從選擇,還能有靠譜點(diǎn)的嗎?其實(shí),關(guān)于公有云的故障,早就引起了很多不滿,一度成為人們上云的最大障礙。這些都是公有云里的大牌,市場(chǎng)地位顯赫,技術(shù)過硬,也是不差錢的金主,但仍逃不過故障的魔掌,其它的公有云就更不用提了,只是市場(chǎng)份額不大,出了故障也不像這幾個(gè)更受人們關(guān)注罷了。這說明在公有云的道路上,還有很長(zhǎng)的路要走,還需要不斷完善。
公有云仍算是一個(gè)新鮮事物,伴隨著云計(jì)算的出現(xiàn)而出現(xiàn)的,迅速成為了一種新的IT服務(wù)模式,與傳統(tǒng)的機(jī)房租賃不同,客戶需要自己買設(shè)備,放到機(jī)房中自己運(yùn)營(yíng),業(yè)務(wù)斷了也得自己處理,損失自己承受?,F(xiàn)在公有云則不同,這時(shí)客戶租用的是公有云提供的整個(gè)服務(wù),客戶一下子成了甲方,有權(quán)利對(duì)乙方造成的損失進(jìn)行索賠,所以當(dāng)公有云故障時(shí),自然這些甲方不高興,其實(shí)以前機(jī)房故障也并不少,只是啞巴吃黃連,有苦說不出?,F(xiàn)在則不同,將業(yè)務(wù)交給了公有云,就要求公有云不能出故障,這樣雖顯得無理,但只是站的立場(chǎng)不同而已??陀^上講,上云之后,依仗先進(jìn)的數(shù)據(jù)中心架構(gòu)和運(yùn)維水平,故障頻率和時(shí)長(zhǎng)較以往已有大幅減少。的確,我們是偶爾能聽到某個(gè)公有云又?jǐn)嗔恕5笖?shù)一數(shù),按年計(jì)算也不過一兩次而已,這對(duì)偌大的、全年24小時(shí)滿負(fù)運(yùn)行的公有云實(shí)屬不易。航空飛機(jī)、火箭、航天這些領(lǐng)域不也發(fā)生過大大小小的故障嗎?公有云就要全年無故障運(yùn)行?當(dāng)然,出現(xiàn)了故障總是要總結(jié)經(jīng)驗(yàn)的,避免同樣的錯(cuò)誤第二次發(fā)生。
現(xiàn)在的公有云承載了太多業(yè)務(wù),網(wǎng)絡(luò)架構(gòu)和規(guī)模都很龐大,復(fù)雜性可想而知,要讓這樣一個(gè)龐大的IT系統(tǒng)運(yùn)轉(zhuǎn)起來,并且還要長(zhǎng)時(shí)間不出問題,難,很難!公有云企業(yè)也是絞盡腦汁,確保業(yè)務(wù)不出問題,一切以業(yè)務(wù)為先。有人可能會(huì)說,為何不增加冗余備份系統(tǒng),冗余的確可以降低故障發(fā)生,就像飛機(jī)一定要攜帶兩個(gè)或者四個(gè)發(fā)動(dòng)機(jī)一樣,但這樣無疑增加了系統(tǒng)復(fù)雜度,要處處都要備份,這樣的公有云運(yùn)行起來也顯得臃腫,所以要在冗余和復(fù)雜度上做好權(quán)衡。一味地追求冗余,最終這個(gè)公有云可能變得不能用。現(xiàn)在公有云基礎(chǔ)架構(gòu)上都倡導(dǎo)簡(jiǎn)化,比如網(wǎng)絡(luò)層級(jí)要減少,無用的網(wǎng)絡(luò)協(xié)議棄用,能減則減,這樣的公有云才好維護(hù),出了故障也能很快感知到,切換到冗余設(shè)備或系統(tǒng)上來。公有云擁有大量專業(yè)技術(shù)人才,也在如何保證業(yè)務(wù)持續(xù)性方面做了大量研究,對(duì)公有云的任何部分都做假設(shè),任一個(gè)環(huán)節(jié)出問題都有備用方案,從而確保業(yè)務(wù)不受影響,這項(xiàng)工作正在做,也會(huì)一直做下去。
與其將命運(yùn)交給別人,不如掌握在自己手中。作為用戶,一方面我們要上云,一方面也要把握好這個(gè)度。公有云的確可以給上云業(yè)務(wù)帶來好處,最大的好處就是IT投入成本大幅降低,租用公有云的業(yè)務(wù)很廉價(jià),這要比自己購買設(shè)備,自己做運(yùn)維要便宜得多。但并不是什么業(yè)務(wù)都要上云,要做好取舍,關(guān)鍵業(yè)務(wù)是否掌握到自己手里,也好不受制于人,這是作為一個(gè)上云用戶要認(rèn)真考慮的事情,自己的業(yè)務(wù)是否能得到完全保障。一旦確定上云,那要做好選擇,有條件的要選擇多云,即將業(yè)務(wù)跑在多個(gè)公有云上,我們經(jīng)常聽到有公有云故障,但從沒聽到過兩個(gè)公有云同時(shí)故障,可以選擇兩家或更多家公有云部署業(yè)務(wù),萬一其中一個(gè)公有云故障,業(yè)務(wù)可以順利切換到另外一個(gè)公有云上,確保業(yè)務(wù)不受影響。也許這樣的投入成本要高一點(diǎn),但就要看我們對(duì)業(yè)務(wù)的重視程度了,能夠忍受可能故障帶來的損失。另外,要向公有云要護(hù)身符,一旦公有云故障,給自己的業(yè)務(wù)帶來損失,可以根據(jù)故障損失來要索賠,避免自己遭受額外的損失。一般公有云急于擴(kuò)張,是很可能答應(yīng)去簽訂這樣的保護(hù)協(xié)議的,這樣就給自己增加了一個(gè)保障,這對(duì)公有云方也是一個(gè)約束,讓其更加不敢有故障,從方方面面去確保不出故障。
公有云已經(jīng)走下了神壇,和我們的工作和生活緊密聯(lián)系在一起,有太多的業(yè)務(wù)都與此有關(guān),可公有云不過也才發(fā)展十年的時(shí)間,我們要給它成長(zhǎng)的空間,讓它不斷得到完善。正因?yàn)楣性莆颂嗟年P(guān)注,所以一出故障,事件就會(huì)很快發(fā)酵,影響范圍很廣。人無完人,更何況是這樣復(fù)雜的新生系統(tǒng),出現(xiàn)故障再正常不過了。對(duì)于大部分的公有云,早已將保持業(yè)務(wù)穩(wěn)定性放在了首位,它們?cè)诒澈笞隽舜罅康墓ぷ?,一切就是確保用戶的業(yè)務(wù)不受影響,在此基礎(chǔ)上再去搞擴(kuò)張,搞發(fā)展,這和用戶的想法不謀而合。相比以往的技術(shù),公有云在可靠性方面其實(shí)是有很大提升的,新的技術(shù)在冗余上做很多文章,包括虛擬化技術(shù)、軟件定義、災(zāi)備技術(shù)等等,只不過現(xiàn)在一出故障,就成了眾矢之的,壞消息傳的太快。當(dāng)然,我們?nèi)砸逦卣J(rèn)識(shí)到,公有云還處于起步階段,難以避免會(huì)出現(xiàn)這樣或者那樣的問題,我們要給公有云成長(zhǎng)的空間。公有云能夠快速部署業(yè)務(wù),建設(shè)成本極低,免維護(hù),這些都是優(yōu)勢(shì),是其能夠獲得大量用戶支持,市場(chǎng)不斷高速增長(zhǎng)的原因,它的未來也一定是光明的,會(huì)有越來越多的用戶選擇公有云所提供的服務(wù)。對(duì)于公有云的可靠性,我們要給予一定的寬容心,給它成長(zhǎng)的空間。