論數(shù)據(jù)中心冗余備份重要性

企業(yè)網(wǎng)D1Net
佚名
數(shù)據(jù)中心要做備份系統(tǒng)是老生常談了,重要性不言而喻。數(shù)據(jù)中心是由成千上萬臺電子設(shè)備組成的,這些設(shè)備難免運(yùn)行中出現(xiàn)這樣那樣的問題,系統(tǒng)具備冗余備份非常重要。比如一個擁有上萬臺服務(wù)器的數(shù)據(jù),幾乎每天可能都有...

數(shù)據(jù)中心要做備份系統(tǒng)是老生常談了,重要性不言而喻。數(shù)據(jù)中心是由成千上萬臺電子設(shè)備組成的,這些設(shè)備難免運(yùn)行中出現(xiàn)這樣那樣的問題,系統(tǒng)具備冗余備份非常重要。比如一個擁有上萬臺服務(wù)器的數(shù)據(jù),幾乎每天可能都有服務(wù)器損壞,要保證系統(tǒng)的運(yùn)行不受影響,必須做備份,當(dāng)一臺服務(wù)器故障時,其它服務(wù)器可以自動接管,業(yè)務(wù)不受任何影響。

不過,要將數(shù)據(jù)中心從頭到腳整個系統(tǒng)都做好備份談何容易,不僅僅是要投入大量資金,還要投入人力去維護(hù),耗費(fèi)的精力往往讓絕大部分的數(shù)據(jù)中心望而卻步,所以數(shù)據(jù)中心往往在部分設(shè)備、部分系統(tǒng)上實現(xiàn)了冗余備份,故障時業(yè)務(wù)能平滑切換。

就在上個月底,阿里云發(fā)生了一次較大規(guī)模、較長時間的故障,很快在網(wǎng)上引發(fā)了熱議,很多的云用戶業(yè)務(wù)全部中斷一小時,帶來了很大損失。且不論原因如何,至少阿里云業(yè)務(wù)自身并未做好備份。當(dāng)發(fā)現(xiàn)故障后,并沒有及時將業(yè)務(wù)切換到備份系統(tǒng)中,或者備份系統(tǒng)就是缺失的?,F(xiàn)在的云全天候都有業(yè)務(wù),時刻不能停歇,這給數(shù)據(jù)中心提出了極大挑戰(zhàn),讓成千上萬臺設(shè)備上跑的業(yè)務(wù)一直正常,異常的時候還可以自動自愈,這需要大量的技術(shù)來保障,如果系統(tǒng)設(shè)計的不夠好,往往就會出問題。

要保證數(shù)據(jù)中心業(yè)務(wù)不中斷,只有采用冗余備份技術(shù)一條路可走,并將備份技術(shù)滲透到數(shù)據(jù)中心的每個環(huán)節(jié)才行,確保任何一個環(huán)節(jié)故障,系統(tǒng)業(yè)務(wù)都能正常運(yùn)轉(zhuǎn)。這就好比一架飛機(jī),飛機(jī)的發(fā)動機(jī)、機(jī)翼、通風(fēng)系統(tǒng)等等都有備份,以便在發(fā)生故障時,飛機(jī)使用備用系統(tǒng),也能夠保持繼續(xù)正常飛行,這樣的設(shè)計使得飛機(jī)成為世界上最安全的設(shè)備,是冗余備份做的最好的系統(tǒng)。與飛機(jī)相比,數(shù)據(jù)中心的復(fù)雜性更高,零部件和設(shè)備數(shù)量更多,要做好整個系統(tǒng)的冗余備份就更加困難。

做數(shù)據(jù)中心備份對資金的需求量很大,最簡單的冗余備份就是再建一個災(zāi)備數(shù)據(jù)中心或者重要設(shè)備都有冗余備份,顯然這樣會使得數(shù)據(jù)中心的支出大幅增加,原來需要10個億,考慮到各個環(huán)節(jié)甚至整個數(shù)據(jù)中心做備份,就需要20個億甚至更多,但這樣的投入并不能將收入提升一倍,這也是很多數(shù)據(jù)中心投入過多的原因。

災(zāi)備數(shù)據(jù)中心往往都是一些金融銀行這些完全不差錢的金主才會去建設(shè),災(zāi)備數(shù)據(jù)中心可以在一個數(shù)據(jù)中心發(fā)生故障時,將業(yè)務(wù)整體切換到災(zāi)備數(shù)據(jù)中心,平時災(zāi)備數(shù)據(jù)中心完全是陪太子讀書,不去承載任何業(yè)務(wù),但還是要正常維護(hù)。所以,這樣建設(shè)和后期運(yùn)維投入資金都是蠻大的。如果做不到數(shù)據(jù)中心的備份,那就對核心設(shè)備和業(yè)務(wù)做備份,當(dāng)核心設(shè)備故障時,可以直接將業(yè)務(wù)切換到備份設(shè)備來繼續(xù)運(yùn)行,保證數(shù)據(jù)中心業(yè)務(wù)不受影響。這就要根據(jù)數(shù)據(jù)中心的資金情況,有選擇地去選擇冗余備份的設(shè)備和系統(tǒng),盡可能用最少的錢做更加完備的冗余。

除了資金,引入冗余備份的技術(shù)亦十分重要。當(dāng)主用設(shè)備或系統(tǒng)故障時,能否感知到并平滑切換到備用系統(tǒng),這也是需要很多技術(shù)保證的,否則備份設(shè)備和系統(tǒng)依然形同虛設(shè)。如果不能自動檢測和切換,采用手工切換也是一種辦法,總之要保證主用系統(tǒng)出故障時,業(yè)務(wù)能平滑切換到備份系統(tǒng)上,這樣的冗余備份才是有效的。

還有除了設(shè)備備份,從技術(shù)角度出發(fā),也可以達(dá)到冗余備份的效果,比如網(wǎng)絡(luò)層面部署等價路由,服務(wù)器部署集群和虛擬機(jī),當(dāng)路由出問題時,流量可以切換到其它網(wǎng)絡(luò)鏈路上,當(dāng)虛擬機(jī)出問題時,可以自動遷移到正常的服務(wù)器上運(yùn)行,通過引入備份技術(shù)來減少設(shè)備資金上的投入。不過,也要注意,不要引入過多的冗余技術(shù),這樣會使得整個系統(tǒng)運(yùn)行低效,而且設(shè)計過于復(fù)雜后,非常不便于運(yùn)維,出了問題排查起來非常困難,一旦主用系統(tǒng)故障后無法切換到備用系統(tǒng),排查和恢復(fù)業(yè)務(wù)可能會無從下手,反而造成業(yè)務(wù)更長時間的中斷,如此得不償失。

所以,部署一些冗余備份技術(shù)是必要的,但不要過于復(fù)雜,不需要那些看著高大上的技術(shù),要簡單有效,主備自動切換自如。現(xiàn)在的數(shù)據(jù)中心,云計算、軟件定義等新技術(shù)盛行,這極大地增加了系統(tǒng)復(fù)雜度,若引入過多備份技術(shù),系統(tǒng)復(fù)雜度將呈幾何指數(shù)型增加,反倒不利于數(shù)據(jù)中心業(yè)務(wù)穩(wěn)定。

當(dāng)然并不能因為困難,就不做備份?,F(xiàn)在的數(shù)據(jù)中心,如果不做任何的業(yè)務(wù)備份,是無法承載任何重要業(yè)務(wù)的,尤其是互聯(lián)網(wǎng)業(yè)務(wù),已經(jīng)不由地我們?nèi)ゾ芙^,如果數(shù)據(jù)中心反復(fù)頻繁出現(xiàn)業(yè)務(wù)中斷,給客戶的業(yè)務(wù)帶來損失,在如今信息傳遞高度發(fā)達(dá)的今天,負(fù)面影響會迅速擴(kuò)散,很快會讓數(shù)據(jù)中心流失大量客戶,最終無法繼續(xù)運(yùn)營下去?,F(xiàn)在的數(shù)據(jù)中心,需要全天候24小時都在運(yùn)轉(zhuǎn),一刻也不能停歇,不允許有半點中斷。比如像阿里云、騰訊云都要和客戶簽訂協(xié)議,一旦由于故障引發(fā)的業(yè)務(wù)中斷,要做出相應(yīng)賠償,若總是中斷,賠償都賠不起了。

我們一定要重視數(shù)據(jù)中心的業(yè)務(wù)冗余備份,從設(shè)備、網(wǎng)絡(luò)、業(yè)務(wù)、系統(tǒng)等方方面面都要考慮冗余,以便在遇到故障時,從容應(yīng)對,在用戶無感知的情況下,處理掉故障。誰也無法預(yù)知未來在什么時刻會發(fā)生什么樣的故障,也許當(dāng)我們建好備份數(shù)據(jù)中心后,主用數(shù)據(jù)中心一次也沒有出過大型故障,但也可能在我們沒有做備份數(shù)據(jù)中心時,數(shù)據(jù)中心發(fā)生了致命的無法修復(fù)故障,又有誰敢去賭呢?還是乖乖地將冗余備份系統(tǒng)做好吧,雖然要多花費(fèi)些資金和人力,但值得。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論