2020年世界備份日提醒:堅(jiān)持3-2-1備份策略,刪庫也不怕!

中國存儲網(wǎng)
正所謂,意識決定思維,思維決定行為。企業(yè)應(yīng)當(dāng)樹立合理的數(shù)據(jù)治理思維和意識,將其作為企業(yè)數(shù)據(jù)管理策略的核心,從而在數(shù)據(jù)備份、管理、刪除、容災(zāi)、演練等方面制定清晰明確的運(yùn)維團(tuán)隊(duì)組織架構(gòu)、權(quán)限劃分、審批流程、危險告警機(jī)制等。

世界備份日又到了,每年的這個時候我們都要強(qiáng)調(diào)備份數(shù)據(jù)的重要性,回顧過往一年的數(shù)據(jù)丟失和宕機(jī)事件。

價值30億的刪庫事件

2020年伊始,微盟就上了熱搜,原因是生產(chǎn)數(shù)據(jù)庫被刪庫了。

2月23日19點(diǎn),微盟出現(xiàn)了大規(guī)模系統(tǒng)故障,官方消息稱是運(yùn)維員工在生產(chǎn)環(huán)境的“刪庫”操作引發(fā)的。飛來橫禍,給2019年剛上市的微盟帶來了巨大損失,自2月23日出現(xiàn)宕機(jī)以來,微盟市值合計(jì)蒸發(fā)30.88億港元,還有300萬商家無故躺槍。

最后,騰訊云花了168小時“復(fù)活”了微盟。為什么用了這么多時間呢?難道他們不備份嗎?

具體細(xì)節(jié)我們不知道,但是最大的可能就是,備份也被干掉了,最后只能從磁盤底層掃描恢復(fù)數(shù)據(jù),這當(dāng)然需要很長時間了。

假如,微盟有良好的備份策略,有災(zāi)備規(guī)劃,做過災(zāi)備演練,或許不會損失那么多。

最簡單有效的數(shù)據(jù)備份策略就是123備份原則,即:同一數(shù)據(jù)至少保留三份,包括原數(shù)據(jù);保存到二種以上存儲介質(zhì)上,比如光盤和硬盤;至少有一份異地備份,本地災(zāi)難后還可恢復(fù)。

具體到混合云環(huán)境中,數(shù)據(jù)備份321原則就是:服務(wù)器、本地存儲、異地云存儲三份副本,以此實(shí)現(xiàn)云中數(shù)據(jù)備份至本地、本地同步到云以及災(zāi)后快速恢復(fù),最終確保業(yè)務(wù)連續(xù)性和數(shù)據(jù)資產(chǎn)安全。

加強(qiáng)數(shù)據(jù)保護(hù)意識

從根本上看,數(shù)據(jù)損失事件的層出不窮很大程度上可歸因于企業(yè)缺乏數(shù)據(jù)治理意識和理念。正所謂,意識決定思維,思維決定行為。企業(yè)應(yīng)當(dāng)樹立合理的數(shù)據(jù)治理思維和意識,將其作為企業(yè)數(shù)據(jù)管理策略的核心,從而在數(shù)據(jù)備份、管理、刪除、容災(zāi)、演練等方面制定清晰明確的運(yùn)維團(tuán)隊(duì)組織架構(gòu)、權(quán)限劃分、審批流程、危險告警機(jī)制等。例如,企業(yè)運(yùn)維體系應(yīng)當(dāng)實(shí)現(xiàn)備份、恢復(fù)和刪除的“三 權(quán)分立”,以及備份管理員、監(jiān)控管理員、審計(jì)管理員的“三員分立”。有了合理的數(shù)據(jù)治理意識和思維,企業(yè)才能為各種可預(yù)測、不可預(yù)測的突發(fā)狀況做到未雨綢繆,全方位確保數(shù)據(jù)安全。

2019年宕機(jī)事件

宕機(jī)成本在線計(jì)算器

世事無常,對于IT運(yùn)維來講,同樣是這樣。過去的2019年里許多大公司出現(xiàn)宕機(jī),敲響了他們?nèi)轂?zāi)備份的警鐘。

2019年5月13日,中國電信宕機(jī)事件揭示了其全球影響力

2019年5月13日,中國電信經(jīng)歷了一次重大故障,持續(xù)了將近5小時,后續(xù)又持續(xù)幾個小時。中國電信在其主干網(wǎng)上遭受了嚴(yán)重的數(shù)據(jù)包丟失,主要是中國大陸的網(wǎng)絡(luò)基礎(chǔ)設(shè)施受到較大影響,但是也波及了中國電信的新加坡和美國包括洛杉磯等多個節(jié)點(diǎn),全世界有一百多種服務(wù)受到干擾。

2019年6月2日,Google Cloud宕機(jī)

在2019年6月2日,Google Cloud Platform發(fā)生了嚴(yán)重的網(wǎng)絡(luò)中斷,影響了美國西部、美國東部和美國中部地區(qū)的托管服務(wù)。此次宕機(jī)也影響了Google自己的應(yīng)用程序,包括GSuite和YouTube。該宕機(jī)持續(xù)了四個多小時,幾天后,Google就此事件發(fā)布了官方報告。ThousandEyes 的優(yōu)勢在于能夠?qū)崟r查看宕機(jī)情況,并在更詳細(xì)的信息公開之前有效地揭示宕機(jī)的特點(diǎn)和規(guī)模。

大約從美國東部時間上午9點(diǎn)開始,相關(guān)工作人員觀察到試圖連接到GCP us-west2-a中托管服務(wù)的全局監(jiān)視器的數(shù)據(jù)包丟失率達(dá)到100%。在GCP美國東部幾個地區(qū)(包括us-east4-c)托管的站點(diǎn)也看到了類似的損失。

事實(shí)證明,部分Google網(wǎng)絡(luò)完全不可用是由于Google的網(wǎng)絡(luò)控制平面意外脫機(jī)導(dǎo)致的。谷歌后來透露,在宕機(jī)期間,一套自動策略確定了哪些服務(wù)可以在未受影響的網(wǎng)絡(luò)中部分訪問或不能訪問。

從云服務(wù)中斷中獲得的最重要的教訓(xùn)是,確保任何云架構(gòu)都具有足夠的彈性措施(無論是在多區(qū)域基礎(chǔ)上還是在多云基礎(chǔ)上),以防止將來再次發(fā)生中斷,這一點(diǎn)至關(guān)重要。可以說即使在云中,IT基礎(chǔ)架構(gòu)和服務(wù)有時也會出現(xiàn)中斷。

2019年6月24日,Cloudflare CDN宕機(jī)

在將近兩個小時的時間里,一個重大的BGP路由錯誤對試圖訪問Cloudflare服務(wù)的用戶造成了嚴(yán)重影響,包括游戲平臺Discord和Nintendo Life。經(jīng)分析發(fā)現(xiàn),該BGP路由泄漏來自多方因素。DQE是一家傳輸提供商,是此次泄漏的源頭,該泄漏是通過DQE和Verizon的客戶Allegheny Technologies傳播的。不幸的是,Verizon進(jìn)一步傳播了路由泄漏,從而擴(kuò)大了影響。

此次重大宕機(jī)影響了Cloudflare約15%的全球流量,并影響了Discord、Facebook和Reddit等服務(wù),持續(xù)時間約兩小時。路由泄漏也影響了對一些AWS服務(wù)的訪問。

該事件的根本原因可歸因于DQE使用的BGP優(yōu)化軟件,該軟件創(chuàng)建了到Cloudflare服務(wù)的路由,而這些路由只能在DQE的內(nèi)部網(wǎng)絡(luò)中使用。當(dāng)這些路線意外地泄露給其中一位客戶時,混亂就隨之而來了。

這次事件再次提醒我們,在以云為中心的世界中,企業(yè)要想成功地向用戶提供服務(wù),就必須對網(wǎng)絡(luò)具有可見性。

2019年7月4日,Apple服務(wù)在7月4日受到影響

2019年7月4日,連接到Apple網(wǎng)站及其部分服務(wù)(例如Apple Pay)的用戶經(jīng)歷了長達(dá)90多分鐘的嚴(yán)重丟包。這個問題導(dǎo)致許多用戶無法成功連接到Apple。該數(shù)據(jù)包丟失是由BGP路由震蕩引起的。當(dāng)一個路由公告被快速連續(xù)地(通常是反復(fù))發(fā)出和撤回時,BGP路由就會出現(xiàn)問題。

此次事件蘋果在早期成功阻止了事情的發(fā)酵。

從這次事件中得到的教訓(xùn)是,宕機(jī)不會憑空發(fā)生,有時僅根據(jù)其時機(jī)和環(huán)境來判斷,即使是嚴(yán)重的中斷也可能會被忽視(或者反過來,明明不嚴(yán)重卻引起嚴(yán)重的騷動)。

2019年9月6日,維基百科被DDoS攻擊

由于大規(guī)模持續(xù)的分布式拒絕服務(wù)(DDoS)攻擊,2019年9月6日,世界各地對維基百科網(wǎng)站的訪問中斷了將近9個小時。DDoS攻擊可以擊垮目標(biāo)網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,并在服務(wù)提供商網(wǎng)絡(luò)內(nèi)部造成擁塞,從而導(dǎo)致數(shù)據(jù)包丟失。

在事件過程中,世界各地的HTTP服務(wù)器可用性顯著下降,并且HTTP響應(yīng)時間急劇增加。許多地區(qū)的用戶無法建立Internet連接,無法與維基百科服務(wù)器進(jìn)行持續(xù)通信,此次攻擊造成了高達(dá)60%的數(shù)據(jù)包丟失,這進(jìn)一步阻止了對維基百科網(wǎng)站的訪問。

雖然DDoS事件在Internet上時有發(fā)生,但組織應(yīng)該主動了解這些事件的范圍和影響,并驗(yàn)證DDoS緩解措施是否有效。

2019年12月支付寶網(wǎng)絡(luò)故障

12月5日下午5時許,有多個地區(qū)網(wǎng)友反映,支付寶出現(xiàn)網(wǎng)絡(luò)故障,賬號無法正常支付、無法登陸、無法收到驗(yàn)證碼等;打開余額寶后,不能顯示余額,只能顯示網(wǎng)絡(luò)無法鏈接;支付寶錢包界面顯示“網(wǎng)絡(luò)繁忙,請稍后再試”狀況。

有用戶關(guān)注支付寶使用及賬戶安全情況,并調(diào)侃,馬上到每個月9號、10號,花唄是不是可以不用還了?

5日下午5點(diǎn)25分,支付寶官方回應(yīng)稱,“剛剛,支付寶的機(jī)房網(wǎng)絡(luò)出現(xiàn)了短暫抖動,影響了部分用戶的使用體驗(yàn)。一切已經(jīng)恢復(fù)正常,大家的資金和信息安全不會受到影響。”

最后,衷心希望各種數(shù)據(jù)丟失、宕機(jī)事件都能越來越少,這需要我們每個人都加強(qiáng)數(shù)據(jù)保護(hù)意識。

記住世界備份日,記住321備份策略!

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論