美國太平洋時間12月14日凌晨3點(diǎn)47分左右,YouTube、Google云端硬盤,Gmail,Google Meet,Google文檔,Google搜索,Google Play,Google Home,Google Maps停服,這是谷歌近半年內(nèi)第三次出現(xiàn)大規(guī)模宕機(jī)事件。
經(jīng)過近50分鐘的緊急處理,相關(guān)服務(wù)在當(dāng)?shù)貢r間凌晨4點(diǎn)32分恢復(fù)正常,并向受到該問題影響的所有用戶表示歉意。
至于這次宕機(jī)的原因,來自谷歌官方的表述是“internal storage quota issue”。在谷歌后續(xù)的一份初步調(diào)查報告中,提到導(dǎo)致宕機(jī)的原因?yàn)?ldquo;我們的自動配額管理系統(tǒng)出現(xiàn)了問題,降低了谷歌中央身份管理系統(tǒng)的容量,導(dǎo)致其在全球范圍內(nèi)返回錯誤。因此,我們無法驗(yàn)證用戶請求是否經(jīng)過認(rèn)證,并向用戶提供錯誤。”
那么,這個“自動配額管理”是什么意思呢?
存儲專家解釋道,數(shù)據(jù)在存儲盤中的存放,并不是“既來之,則安之”,而是需要規(guī)劃一個存儲池,被劃在這個池中的數(shù)據(jù)只能在對應(yīng)的空間中存放。池子有多大,就是通過上面的“配額”來管理的。
這次導(dǎo)致谷歌宕機(jī)的“自動配額管理系統(tǒng)出現(xiàn)了問題”,就好比我們?nèi)プ疖?,先要有一張票,才能上車。但是現(xiàn)在售票員在工作時間劃水跑了,大家沒有買到票,結(jié)果人在站外著急瞪眼,車在站里空空如也。
想要徹底避免類似問題,就需要我們的運(yùn)維工作不僅僅監(jiān)控磁盤是否寫滿并報警,還要做出資源池級別的容量監(jiān)控,以便更進(jìn)一步做出提前預(yù)測,避免自動額度管理系統(tǒng)“罷工”。華為AI運(yùn)維提供面向池級、盤級、系統(tǒng)級的容量閾值監(jiān)控、容量預(yù)測告警,同時,華為也提供自動資源發(fā)放管理的能力。
近期,科技巨頭公司、證券公司頻頻故障癱瘓,影響小則波及一個區(qū)域,大則波及全球。IT基礎(chǔ)設(shè)施層面的高可靠構(gòu)筑誠然是前提,是“金剛鉆”,但問題往往出現(xiàn)在運(yùn)維階段,“手藝”怎么樣,才是決定“瓷器活”能否做成的決定性因素。
有著深厚先進(jìn)技術(shù)積累的科技、金融領(lǐng)域企業(yè)尚且在運(yùn)維上頻頻觸礁,其他領(lǐng)域的風(fēng)險和困境可想而知。
調(diào)查數(shù)據(jù)顯示,隨著全球數(shù)據(jù)規(guī)模的爆炸性增長,企業(yè)數(shù)據(jù)中心的故障中,存儲設(shè)備相關(guān)故障已經(jīng)占到70%以上。以某國際互聯(lián)網(wǎng)社交企業(yè)為例,每天需要修復(fù)數(shù)據(jù)高達(dá)24TB,每天修復(fù)帶來的跨機(jī)架流量高達(dá)180TB。技術(shù)和新應(yīng)用的層出不窮,也帶來運(yùn)維復(fù)雜化的副作用。
傳統(tǒng)的運(yùn)維高度依賴人的經(jīng)驗(yàn)和精力,運(yùn)維人員的一天就是從虛機(jī)、存儲,再到數(shù)據(jù)、網(wǎng)絡(luò),更像一名企業(yè)的救火隊(duì)員。在全球產(chǎn)業(yè)邁進(jìn)數(shù)字化、智能化的背景下,如何使能統(tǒng)一的AI運(yùn)維,扭轉(zhuǎn)傳統(tǒng)“人拉肩抗”的局面,從而實(shí)現(xiàn)支持企業(yè)業(yè)務(wù)平穩(wěn)運(yùn)行,業(yè)務(wù)戰(zhàn)略突破的目標(biāo),已經(jīng)逐漸成為全球行業(yè)頭部企業(yè)的共同訴求:
01
首先,運(yùn)維系統(tǒng)從一個追求穩(wěn)態(tài)的系統(tǒng),走向追求穩(wěn)態(tài)+敏態(tài)的系統(tǒng)。這就意味著,運(yùn)維系統(tǒng)不僅要追求7*24小時的穩(wěn)健運(yùn)行,還要追求對業(yè)務(wù)的敏捷使能。
02
其次,運(yùn)維已經(jīng)不僅僅只是一個支撐系統(tǒng),更多的是要與業(yè)務(wù)融合,成為一個生產(chǎn)系統(tǒng),給業(yè)務(wù)帶來新的價值;
03
最后,運(yùn)維的流程將慢慢地從“以人為中心”向“面向自動化的業(yè)務(wù)流程重構(gòu)”,最終走向“自動駕駛”的IT運(yùn)維系統(tǒng)。
在數(shù)據(jù)基礎(chǔ)設(shè)施運(yùn)維層面,運(yùn)維的自動化水平是數(shù)字化轉(zhuǎn)型的核心體現(xiàn)之一。特別是面向核心系統(tǒng)或新興業(yè)務(wù),運(yùn)維將更多地參與到生產(chǎn)系統(tǒng)中去,運(yùn)維與業(yè)務(wù)的結(jié)合會越來越緊密。
只有讓更多的運(yùn)維人員從繁雜的例行工作解放出來,才能投入到更加有創(chuàng)新性的工作中去。華為存儲基于智能運(yùn)維平臺DME逐步構(gòu)建面向智能運(yùn)維的AI能力,圍繞客戶關(guān)心的設(shè)備異常、容量預(yù)警等關(guān)鍵場景為客戶業(yè)務(wù)的正常運(yùn)行保駕護(hù)航。
具體來看看華為智能存儲運(yùn)維有哪些“法寶”?
設(shè)備側(cè)+云端容量預(yù)測
假設(shè)客戶能夠提前預(yù)知陣列或存儲池,甚至更細(xì)粒度對象的容量變化趨勢,那么,由于容量配額不足所導(dǎo)致的服務(wù)宕機(jī)情況則會大大減少。華為提供“云上+本地”聯(lián)動的運(yùn)維能力,基于時序預(yù)測等關(guān)鍵技術(shù),能夠向客戶提供未來最長365天的容量趨勢預(yù)測,并能夠提前預(yù)警80%配額,提醒用戶提前擴(kuò)容。
提前14天風(fēng)險盤預(yù)測
如今,通過華為存儲的異常檢測模型服務(wù),可以提前14天預(yù)測到硬盤故障。華為硬盤異常檢測模型服務(wù)基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)技術(shù),每日采集數(shù)據(jù)中心硬盤數(shù)據(jù)(硬盤ID、SN、硬盤非安全斷電次數(shù)、通電時長),從歷史數(shù)據(jù)中識別硬盤不同屬性的突變模式對當(dāng)前狀態(tài)進(jìn)行預(yù)測,結(jié)合用戶反饋數(shù)據(jù),定期執(zhí)行模型自優(yōu)化,持續(xù)提升預(yù)測精度。為DC硬盤提供主動運(yùn)維。
截止目前,華為硬盤異常檢測模型已經(jīng)服務(wù)于200+企業(yè)DC,幫助客戶提前14天識別硬盤故障或風(fēng)險,預(yù)測的誤報率低于0.1%。
存儲性能異常預(yù)測管理
基于時間序列預(yù)測等關(guān)鍵技術(shù)的性能預(yù)測特性,以及基于閾值觸發(fā)的性能潮汐預(yù)警,能夠讓客戶預(yù)知設(shè)備關(guān)鍵性能指標(biāo)變化趨勢。時延、IOPS、塊帶寬盡在掌握,以提早發(fā)現(xiàn)設(shè)備性能瓶頸點(diǎn),輔助客戶盡早規(guī)避可能發(fā)生的異常。
傳統(tǒng)的專家經(jīng)驗(yàn)規(guī)則或靜態(tài)閾值預(yù)警,無法覆蓋大多數(shù)性能異常場景,且可能存在誤報漏報的情況。華為提供基于機(jī)器學(xué)習(xí)的關(guān)鍵性能KPI異常檢測及根因定界特性,無監(jiān)督自學(xué)習(xí)的異常檢測模型能夠?qū)崟r檢測設(shè)備時延是否異常,現(xiàn)網(wǎng)數(shù)據(jù)測試驗(yàn)證,異常檢測準(zhǔn)確率近90%;存儲設(shè)備內(nèi)置基于多集成樹算法融合模型,外加皮爾遜相關(guān)性關(guān)聯(lián)分析算法,實(shí)現(xiàn)異常根因的定界分析。
華為智能存儲引擎DME基于“云-中心-設(shè)備”三層AI架構(gòu),攜手客戶在智能運(yùn)維的自動駕駛之路上不斷創(chuàng)新,持續(xù)擴(kuò)大自動化的邊界。從被動運(yùn)維走向主動運(yùn)維,持續(xù)降低運(yùn)維門檻及成本,實(shí)時確??蛻魳I(yè)務(wù)體驗(yàn)最優(yōu)。