很多公共云提供商在日常運(yùn)營中通常不可避免地遭遇災(zāi)難性中斷,而IT管理人員需要從云平臺的故障和教訓(xùn)中學(xué)習(xí),并將其應(yīng)用到內(nèi)部基礎(chǔ)設(shè)施當(dāng)中。
云平臺(尤其是大型公共云平臺)具有多種冗余級別,但沒有一個(gè)平臺能夠抵御出現(xiàn)的意外停機(jī)。云計(jì)算平臺和數(shù)據(jù)中心一樣,都會遇到導(dǎo)致停機(jī)的問題。
組織內(nèi)部部署的硬件故障和軟件錯(cuò)誤是不可避免的,但公共云為IT管理人員提供了應(yīng)對這些問題的方法。公共云具有可用性集合、冗余數(shù)據(jù)中心、可用性區(qū)域和云區(qū)域,使管理人員能夠在遭遇中斷時(shí)更好地規(guī)劃業(yè)務(wù)運(yùn)營。這些策略很重要,但管理員必須設(shè)計(jì)可靠的應(yīng)用程序,以利用公共云冗余功能。
組織IT資產(chǎn)的彈性更多地取決于應(yīng)用程序而不是基礎(chǔ)設(shè)施,這種想法與傳統(tǒng)的思維方式不同。在過去的二十年中,管理員通過備份、復(fù)制和其他以基礎(chǔ)設(shè)施為中心的技術(shù)保持彈性。但是對于絕大多數(shù)公共云平臺來說,此策略不再有效。
近年來,云計(jì)算提供商遭受的損失已超過其承受能力。云計(jì)算提供商提供的云服務(wù)在出現(xiàn)中斷時(shí),行業(yè)廠商和用戶似乎都在學(xué)習(xí)如何設(shè)計(jì)本地云冗余,管理人員希望將這些教訓(xùn)應(yīng)用于傳統(tǒng)的虛擬化數(shù)據(jù)中心冗余。
重新思考數(shù)據(jù)中心的冗余
對于大多數(shù)傳統(tǒng)組織來說,一些基本的服務(wù)都是為防止停機(jī)而設(shè)計(jì)的。網(wǎng)絡(luò)時(shí)間協(xié)議和網(wǎng)絡(luò)路由等服務(wù)設(shè)計(jì)通常是高度冗余。然而,僅僅因?yàn)橄到y(tǒng)應(yīng)該是冗余的,并不意味著其配置已經(jīng)為利用自然冗余做好了充分準(zhǔn)備。
一些核心服務(wù)并沒有高度可用的選項(xiàng)。IT部門幾乎總是面臨必須處理的技術(shù)債務(wù),這就要求對行為并不理想的遺留系統(tǒng)提供支持。例如,一些遺留的應(yīng)用程序身份驗(yàn)證系統(tǒng)只能存在于服務(wù)器上,這限制了數(shù)據(jù)中心的冗余功能。
管理人員不應(yīng)將所有雞蛋放在一個(gè)籃子里。對于大多數(shù)的傳統(tǒng)部署,最好在數(shù)據(jù)中心內(nèi)部使用冗余硬件。管理人員可以通過使用不共享系統(tǒng)的冗余虛擬化群集來進(jìn)一步采取這種策略,這類似于可以提供多個(gè)可用性區(qū)域的云計(jì)算提供商。這可以使應(yīng)用程序依賴數(shù)據(jù)中心更高級別的冗余,但只有當(dāng)業(yè)務(wù)需求保證該級別的冗余保護(hù)時(shí)才有價(jià)值。
通過在云平臺和數(shù)據(jù)中心之間并行實(shí)施這些策略,在采用類似的傳統(tǒng)基礎(chǔ)設(shè)施時(shí),使用公共云提供商的概念(如可用性區(qū)域)可能會有所幫助。這種術(shù)語使開發(fā)人員能夠更輕松地理解基礎(chǔ)設(shè)施概念,因?yàn)樗麄兛赡苁煜ゎ愃频脑聘拍睢?/p>
云計(jì)算冗余并不完美,停機(jī)中斷提供了經(jīng)驗(yàn)教訓(xùn)
高度冗余的系統(tǒng)不會免受性能下降的影響。在最近的公共云中斷事件中,其目錄服務(wù)無法使服務(wù)從一個(gè)區(qū)域保持運(yùn)行到另一個(gè)區(qū)域。重新調(diào)整的流量超過其他區(qū)域的能力,使服務(wù)無法滿足需求。
當(dāng)管理人員設(shè)計(jì)數(shù)據(jù)中心冗余時(shí),他們必須在發(fā)生中斷時(shí)對負(fù)載進(jìn)行規(guī)劃。管理人員可能有兩臺服務(wù)器來支持?jǐn)?shù)據(jù)中心冗余,但是其中一臺服務(wù)器可能無法處理整個(gè)負(fù)載。關(guān)鍵是需要設(shè)計(jì)滿足正常和異常狀態(tài)下業(yè)務(wù)需求的系統(tǒng)。
許多組織都認(rèn)為如果配置正確,在中斷期間會發(fā)現(xiàn)其他情況。Netflix公司推出的Chaos Monkey系統(tǒng)就是人們所熟知的模擬中斷事件,而其提供的經(jīng)驗(yàn)教訓(xùn)是,如果管理人員沒有練習(xí)處理實(shí)際的中斷,他們永遠(yuǎn)不會知道IT系統(tǒng)將如何反應(yīng)。而沒有一個(gè)系統(tǒng)是孤島,每個(gè)應(yīng)用程序和服務(wù)都具有進(jìn)一步使測試復(fù)雜化的依賴性。
停機(jī)中斷在私有數(shù)據(jù)中心和公共云中并不罕見,但在數(shù)據(jù)中心內(nèi)部,管理人員通常需要了解并理解系統(tǒng)的內(nèi)部工作方式。當(dāng)云計(jì)算提供商的服務(wù)出現(xiàn)中斷時(shí),可能會感到并沒有從停機(jī)中學(xué)到什么教訓(xùn),但這不是事實(shí)。雖然公共云提供商使用與傳統(tǒng)數(shù)據(jù)中心不同的工具和方法,但有關(guān)構(gòu)建和調(diào)整冗余的經(jīng)驗(yàn)教訓(xùn)是通用的。