今天,一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來的災難!》的文章刷爆了IT圈。北京清博數(shù)控科技有限公司在該文中爆料,因為受到騰訊云云硬盤故障(物理硬盤固件版本bug導致的靜默錯誤)影響,該公司所屬“前沿數(shù)控平臺”存放在云上的數(shù)據(jù)全部丟失。
隨后,騰訊云官方對外說明,解釋該硬盤靜默錯誤是在極小概率下被觸發(fā),并承諾對用戶進行13余萬額外補償?shù)恼f明,但數(shù)據(jù)丟失還是引發(fā)了巨大的輿論效應。
在數(shù)字化時代,數(shù)據(jù)資產(chǎn)對于企業(yè)來說越來越重要。隨著各行各業(yè)深度擁抱云計算,云上的數(shù)據(jù)安全也成了企業(yè)關注的焦點。不過騰訊云遇到的用戶數(shù)據(jù)丟失問題,并不是個案,在其他云廠商身上也曾經(jīng)上演。
作為云計算行業(yè)的領頭羊,亞馬遜旗下的AWS早前幾年在數(shù)據(jù)丟失上有過多次踩坑經(jīng)歷。據(jù)公開消息,2011年-2012年,AWS先后發(fā)生三次故障,故障導致EBS卷和Single-AZ RDS實例無法恢復。
谷歌云也遇到過數(shù)據(jù)丟失,不過,其遇到的情況有點像是“天災”。2015年8月20日,雷電天氣有四次擊中了比利時布魯塞爾一處電力設施,并導致主要電力系統(tǒng)的供電中斷,而谷歌的數(shù)據(jù)中心恰好就位于該電力設施的附近,導致磁盤受損、部分云存儲系統(tǒng)斷線、數(shù)據(jù)丟失。雖然數(shù)據(jù)中心很快便切換到了備用電源,但這一切換卻依舊導致0.000001%的數(shù)據(jù)遭到了刪除,且無法恢復。
雖然0.000001%的數(shù)據(jù)丟失比例看起來極小,但行業(yè)人士估計,谷歌大概擁有10-15EB的數(shù)據(jù)(每EB等于100萬TB),因此0.000001%的數(shù)據(jù)依舊相當于100多GB的數(shù)據(jù)內容。
中國云計算的老大阿里云也遇到過類似的問題。今年1月,麥田音樂網(wǎng)(www.mtyyw.com)在其博客中發(fā)帖,因阿里云服務器崩潰,磁盤分區(qū)表損壞,自己存放在阿里云上的數(shù)據(jù)全部丟失。后來經(jīng)長時間盡力恢復,最終終于找回在2017年9月份的備份包。該時間點之后至2018年間的所有數(shù)據(jù)均丟失。
這一事件也在知名技術社區(qū)v2ex的一篇控訴帖中得到證實。用戶在帖子中吐槽,在阿里云上的ECS 生產(chǎn)環(huán)境倆主機被無故釋放。在帖子評論中,還有人爆料線上redis實例被釋放。
騰訊云以及其他云計算廠商所遇到的數(shù)據(jù)丟失問題,說明了一個事實:即使有多少個9的可靠性,畢竟不是100%,小概率不管有多小,依然是有可能發(fā)生的。這就像是墨菲定律所說的,凡是可能出錯的事就一定會出錯。
我將騰訊云數(shù)據(jù)丟失事件發(fā)到微頭條后,引發(fā)了大家的激烈討論。其中有網(wǎng)友留言稱,“云數(shù)據(jù)就是放在別人手里,自己竟然沒有備份,實在難以想象!”
站在用戶的角度,如果是單機部署,不管放哪家云上,都存在一定的風險。雖然云平臺的確有多副本機制,但所有副本都壞了也不是不可能。用戶應該充分考慮備份策略和多活機制,這樣既能防范云計算層面的問題,也能杜絕應用層錯誤和誤操作導致的問題。
可以說,騰訊云數(shù)據(jù)丟失事件,帶來的警示作用是很大的。一方面,云計算基于服務提供商的技術水準以及規(guī)模效應,整體在數(shù)據(jù)保障上相對自有服務器更具優(yōu)勢;另一方面,大型云平臺自身非常復雜,絕對安全的、100%不出問題的云也不存在,用戶自身也需要做好數(shù)據(jù)備份和恢復演練。
因為,“備份重于一切”才是IT運維中的唯一真理。