隨著數(shù)字化轉(zhuǎn)型在大型金融機構(gòu)的持續(xù)推進,數(shù)字化服務(wù)的性能和可用性成為企業(yè)業(yè)務(wù)和IT部門最關(guān)注的指標。
大型金融機構(gòu)的IT系統(tǒng)較為復(fù)雜,因此對用戶體驗的要求也相對較高,如何從性能和可用性故障中快速恢復(fù),成為IT運維和開發(fā)團隊的最重要的責(zé)任之一。
MTTR 成為衡量企業(yè)IT運維水平的重要指標,簡單來說就是從故障出現(xiàn)到恢復(fù)的平均時長。
什么是MTTR?
MTTR(Mean Time To recovery)是指平均恢復(fù)時間。MTTR主要包括兩部分時間:確認異常發(fā)生所必需的時間,以及處置修復(fù)所需要的時間。
在運維場景下,從異常發(fā)生到最終恢復(fù)的時間越短,可能造成的業(yè)務(wù)影響和損失程度就越小。
通常情況下,對比各個階段的時間長度,MTTK最長,也是最能體現(xiàn)提升效果的階段。
MTTR 包括:
MTTR = MTTI + MTTK + MTTF + MTTV
一般來說,MTTK 是其中耗時最長的過程。那么,EZSonar 如何幫助運維團隊通過縮短 MTTK 來提高故障處理速度?
首先,MTTK 中的“Know”的目標是能夠制定出有效的恢復(fù)方案,因此至少要能分析出導(dǎo)致當(dāng)前故障的直接原因。
無論是通過人工分析還是算法自動分析,前提都要有足夠的數(shù)據(jù),以及在性能上可以支撐這些分析的平臺。
平臺和數(shù)據(jù)處理能力是提高MTTR的根基
大型金融機構(gòu)IT系統(tǒng)復(fù)雜、數(shù)據(jù)量大,每天的流量數(shù)據(jù)量和日志數(shù)據(jù)量都是PB級別的,每天產(chǎn)生大量的告警,這些告警能否監(jiān)控到非常細顆粒的業(yè)務(wù)數(shù)據(jù)?并及時、快速地給出具體信息?真正實地的為金融機構(gòu)解決好精細化告警問題,必須要有一個堅實的大數(shù)據(jù)平臺和數(shù)據(jù)處理能力。
EZSonar4.2的大數(shù)據(jù)架構(gòu)
提供了切實有效的平臺和數(shù)據(jù)基礎(chǔ):
1. EZSonar的流量解碼探針可以將每一筆交易的內(nèi)容字段實現(xiàn)解碼,并計算性能指標,這是數(shù)據(jù)基礎(chǔ)。
2. 每一筆的交易都保存在 ElasticSearch + kafka 中,可以根據(jù)任意條件對每一筆交易進行實時的搜索和統(tǒng)計計算,其性能支持實現(xiàn)秒級響應(yīng),這是數(shù)據(jù)處理能力基礎(chǔ)。
撇開數(shù)據(jù)處理能力及硬件資源占用,去談及高效的運維監(jiān)控,是不太現(xiàn)實的,對用戶而言,更是一種不負責(zé)任。
EZSonar4.2交易監(jiān)控系統(tǒng)告警與縮短MTTR
1. 交易監(jiān)控系統(tǒng)何時告警
在實際應(yīng)用中,監(jiān)控到交易異常后會觸發(fā)告警,通知運維人員進行處置,運維人員根據(jù)告警信息進行針對性響應(yīng)??梢?,告警是整個故障修復(fù)過程的起點,很顯然,起點的位置決定了 MTTR 的大小。
通常,告警都是在故障發(fā)生之后觸發(fā)的,但是一般故障都不是一個孤立的事件,總是從一些小問題開始,逐步嚴重,最終導(dǎo)致千里之堤,毀于蟻穴。如果能提前發(fā)現(xiàn)這些小問題的指征,發(fā)出告警及時處置,能夠避免隨后大故障的發(fā)生。
例如,二代支付系統(tǒng)每天都會有不少業(yè)務(wù)報錯,從一段時間的總數(shù)來看,報錯是比較穩(wěn)定的,但是如果細粒度監(jiān)控就可能發(fā)現(xiàn)某一種錯誤碼出現(xiàn)的頻率越來越高,此時就意味著某些交易環(huán)節(jié)出現(xiàn)了隱患。
其根本原因是多樣的,比如變更了業(yè)務(wù)處理邏輯,修改了調(diào)用關(guān)系等。如果不及時進行人為干預(yù),隨著業(yè)務(wù)運行很可能導(dǎo)致某些業(yè)務(wù)徹底無法工作,帶來嚴重后果和經(jīng)濟損失。
2. 交易監(jiān)控系統(tǒng)能否為告警應(yīng)急處置提供信息支持
在告警的應(yīng)急處置中,往往需要依賴告警信息,如果交易監(jiān)控能夠有更精準的數(shù)據(jù)和更智能的分析手段,那么對制定有效的應(yīng)急處置方案將提供極大幫助,讓運維人員迅速做出決策,從而最大限度的縮短 MTTK。
例如,第三方支付系統(tǒng)產(chǎn)生交易量突發(fā)告警,告警信息中不僅有總交易數(shù)量,還把涉及到的支付寶、微信支付、京東支付等渠道分別占據(jù)多少比例列出來,幫助管理員更直觀地看到突發(fā)的具體來源。
網(wǎng)銀系統(tǒng)響應(yīng)時間超長觸發(fā)告警,告警信息中不僅提供一個平均響應(yīng)時間的概要信息,而是把網(wǎng)銀系統(tǒng)按照每種交易類型、每個交易機構(gòu)等維度的響應(yīng)時間都列出來,那么定位問題就非常直觀和迅速了。
動態(tài)針分割線
因此,在縮短MTTR方面,EZSonar4.2 告警的首要目標——提前故障處理的起點,甚至提前到真正故障發(fā)生之前。
EZSonar4.2 將通過以下兩個方向的努力,實現(xiàn)上述目標:
1. 更多的告警。
2. 更少的告警。