本文來自微信公眾號(hào)“twt企業(yè)IT社區(qū)”。
鄧毓江西農(nóng)信運(yùn)維技術(shù)經(jīng)理:本議題由某股份制銀行存儲(chǔ)架構(gòu)師曾祥滿、某商業(yè)銀行存儲(chǔ)工程師徐子晨針對(duì)議題下關(guān)鍵點(diǎn)發(fā)表主張,幾位專家的主張?jiān)谀侈r(nóng)商銀行架構(gòu)師胡海光、某農(nóng)信資深技術(shù)經(jīng)理雷智及我本人的復(fù)議后,形成了一定的共識(shí),希望可以對(duì)同行有一定的參考。
曾祥滿某股份制銀行存儲(chǔ)架構(gòu)師:
為了提升存儲(chǔ)告警處理的自動(dòng)化運(yùn)維管理水平,一方面需要在告警消息的精準(zhǔn)推送上下功夫,在硬件監(jiān)控平臺(tái)新增恢復(fù)告警,減少告警定位和設(shè)備報(bào)修中帶來的時(shí)間人力開銷;另一方面還需要打造智能平臺(tái),促進(jìn)硬件監(jiān)控平臺(tái)和ITIL管理平臺(tái)自然銜接,從而替代運(yùn)維人員做好流程管理的跟進(jìn)及反饋等工作。
存儲(chǔ)作為存放金融企業(yè)數(shù)據(jù)中心各類生產(chǎn)數(shù)據(jù)的重要載體,其日常的安全平穩(wěn)運(yùn)行至關(guān)重要。特別是應(yīng)對(duì)若干存儲(chǔ)的大量告警,如何從大量告警中提取關(guān)鍵告警消息并及時(shí)處理異常,可謂對(duì)存儲(chǔ)平臺(tái)的穩(wěn)定運(yùn)行起到保駕護(hù)航的作用。存儲(chǔ)告警處理作為常規(guī)工作,一方面需要在技術(shù)層面上及時(shí)發(fā)現(xiàn)告警并處理,另一方面還要在制度層面符合ITIL流程管理的規(guī)定。存儲(chǔ)告警中硬盤及電池的告警相對(duì)較多,此類告警出現(xiàn)時(shí)通常需要更換備件解決,且更換操作均屬于標(biāo)準(zhǔn)流程。因此,存儲(chǔ)硬件類告警的日常處理,如果兼顧流程、實(shí)際情況能納入自動(dòng)化管理,對(duì)于工作效率的提升將十分明顯。下面分別介紹“傳統(tǒng)、目前、未來”三個(gè)階段在發(fā)現(xiàn)存儲(chǔ)故障、提交廠商信息報(bào)修、同步ITIL流程三個(gè)方面的具體情況,旨在幫助讀者更好地了解在自動(dòng)化推進(jìn)中各階段亟需解決的問題。
一、傳統(tǒng)存儲(chǔ)故障處理流程
1.發(fā)現(xiàn)存儲(chǔ)故障
機(jī)房值班人員通過每天定期現(xiàn)場(chǎng)巡檢,借助存儲(chǔ)物理亮燈可以發(fā)現(xiàn)異常情況并告知存儲(chǔ)運(yùn)維人員進(jìn)行處理。由于人工巡檢頻率較低,發(fā)現(xiàn)異常相對(duì)比較滯后,且存在漏檢可能。為了能及時(shí)發(fā)現(xiàn)存儲(chǔ)設(shè)備存在的告警,早期通過在各存儲(chǔ)管理平臺(tái)配置SNMP Trap,將告警信息由運(yùn)行監(jiān)控中心發(fā)送給存儲(chǔ)運(yùn)維人員。這類告警即時(shí)性相當(dāng)高,有效輔助運(yùn)維人員在第一時(shí)間發(fā)現(xiàn)設(shè)備異常,但告警消息數(shù)目較多且缺乏過濾及壓縮,也給運(yùn)維人員的日常工作帶來了一定的困擾。
2.提交廠商日志確認(rèn)并安排維修
SNMP Trap類告警消息因缺少設(shè)備序列號(hào)、機(jī)柜位置、部件位置、部件規(guī)格等明確信息,無法直接轉(zhuǎn)發(fā)給廠商工程師進(jìn)行設(shè)備報(bào)修,一般需要單獨(dú)收集相關(guān)日志發(fā)送給廠商進(jìn)一步分析,或者需要運(yùn)維人員通過命令行或GUI等工具反饋具體信息給廠商。設(shè)備報(bào)修要求出具相關(guān)部件的準(zhǔn)確信息,而基于一定規(guī)則定制的告警消息無疑將使報(bào)修流程化繁為簡(jiǎn),在日常運(yùn)維中將節(jié)省大量的時(shí)間。
3.納入ITIL流程
存儲(chǔ)硬件更換在制度上納入ITIL流程變更管理,通常需要由存儲(chǔ)運(yùn)維人員在ITIL管理平臺(tái)申請(qǐng)事件工單和變更工單。運(yùn)維人員梳理設(shè)備告警情況,并跟廠商確認(rèn)好部件更換工作,先在ITIL管理平臺(tái)中提出事件工單,然后關(guān)聯(lián)此事件工單創(chuàng)建變更工單。事件工單經(jīng)服務(wù)臺(tái)確認(rèn)后需要運(yùn)維人員反饋事件原因和解決方案。變更工單經(jīng)變更經(jīng)理審核后需運(yùn)維人員制定方案,并依次經(jīng)變更經(jīng)理、室經(jīng)理、分管負(fù)責(zé)人審批后方能實(shí)施。變更實(shí)施完成后,運(yùn)維人員還需要在事件工單和變更工單中說明變更時(shí)間和實(shí)施情況,如圖1所示。
圖1傳統(tǒng)階段存儲(chǔ)故障處理流程示意圖
二、目前存儲(chǔ)故障處理流程
1.發(fā)現(xiàn)存儲(chǔ)故障
引入硬件監(jiān)控平臺(tái),按照一定的時(shí)段輪詢獲取各品牌型號(hào)存儲(chǔ)的告警信息。此類告警較Trap而言即時(shí)性相對(duì)較差,但采用了一定的規(guī)則過濾出等級(jí)較高的信息進(jìn)行推送。告警消息少而精,便于定制,能更好地滿足運(yùn)維人員的日常管理要求。例如,針對(duì)重復(fù)的告警,可以采用壓縮算法,通常可以4小時(shí)報(bào)一次,直到問題解決。針對(duì)info、warning等較低級(jí)別的告警可以實(shí)現(xiàn)過濾,而只給運(yùn)維人員推送error和critical等較高級(jí)別的告警。
2.提交廠商關(guān)鍵信息并派件維修
借助硬件監(jiān)控平臺(tái)的廣泛使用,設(shè)備告警消息通過運(yùn)行監(jiān)控中心按一定規(guī)則拼接后可以發(fā)送給運(yùn)維人員。對(duì)于絕大多數(shù)情況,運(yùn)維人員無需再登陸系統(tǒng)進(jìn)行二次確認(rèn),直接可將告警消息轉(zhuǎn)發(fā)給廠商人員即可安排派件維修。
3.納入ITIL流程
同傳統(tǒng)階段,運(yùn)維人員仍需在日常工作中消耗一定的時(shí)間和精力來申請(qǐng)事件及變更工單并跟進(jìn)流轉(zhuǎn)。如圖2所示。
圖2目前階段存儲(chǔ)故障處理流程示意圖
三、未來存儲(chǔ)故障處理流程
前兩個(gè)階段在變更實(shí)施和ITIL流程管理上,兩條線相對(duì)獨(dú)立尚未進(jìn)行融合,這與自動(dòng)化運(yùn)維管理仍有一定的差距。為進(jìn)一步優(yōu)化日常存儲(chǔ)告警的處理工作,未來應(yīng)著力于在ITIL流程中實(shí)現(xiàn)工單中模板化的東西由系統(tǒng)推送,并根據(jù)監(jiān)控平臺(tái)推送的恢復(fù)告警來自動(dòng)反饋工單的解決方案和實(shí)施情況等信息。
1.發(fā)現(xiàn)存儲(chǔ)故障和判斷故障恢復(fù)
目前硬件監(jiān)控平臺(tái)只能抓取設(shè)備的異常告警,對(duì)于故障修復(fù)后未能生成恢復(fù)類告警,需要人工參與判斷是否完成故障修復(fù)。若監(jiān)控平臺(tái)對(duì)于特定設(shè)備能及時(shí)判斷故障是否修復(fù)并生成恢復(fù)告警,則有益于推進(jìn)ITIL流程的自動(dòng)化管理,極大減少人工參與環(huán)節(jié)。
2.提交廠商關(guān)鍵信息并派件維修
此部分盡可能針對(duì)不同品牌型號(hào)的存儲(chǔ)及不同部件,進(jìn)一步細(xì)化告警信息,從而實(shí)現(xiàn)告警消息轉(zhuǎn)發(fā)后的正常派件維修即可。
3.ITIL流程自動(dòng)化審批
硬件監(jiān)控平臺(tái)將收集到的異常告警及時(shí)推送至智能平臺(tái)。智能平臺(tái)加工整合收集到的異常告警,識(shí)別出常見的壞件告警(例如硬盤、電池告警),并基于選定的時(shí)間范圍,按照既定的模板向ITIL管理平臺(tái)提交事件工單和變更工單申請(qǐng)。變更工單經(jīng)變更經(jīng)理審核確認(rèn)后,由智能平臺(tái)提供模板完成方案制定環(huán)節(jié)的提交。ITIL管理平臺(tái)在事件工單經(jīng)服務(wù)臺(tái)審批后發(fā)送給智能平臺(tái)處理,并將變更工單實(shí)施環(huán)節(jié)發(fā)送至智能平臺(tái)進(jìn)行處理。后續(xù)由硬件監(jiān)控平臺(tái)捕捉設(shè)備告警是否修復(fù),如正常完成修復(fù),向智能平臺(tái)及時(shí)推送恢復(fù)告警消息。智能平臺(tái)最終基于恢復(fù)告警消息,向ITIL管理平臺(tái)反饋實(shí)施情況從而關(guān)閉相關(guān)工單。顯然,智能平臺(tái)承擔(dān)了運(yùn)維人員ITIL流程管理相關(guān)的工作,其對(duì)監(jiān)控告警的識(shí)別和整合發(fā)揮著不可替代的作用。如圖3所示。
圖3未來階段存儲(chǔ)故障處理流程示意圖
綜上所述,為了提升存儲(chǔ)告警處理的自動(dòng)化運(yùn)維管理水平,一方面需要在告警消息的精準(zhǔn)推送上下功夫,在硬件監(jiān)控平臺(tái)新增恢復(fù)告警,減少告警定位和設(shè)備報(bào)修中帶來的時(shí)間人力開銷;另一方面還需要打造智能平臺(tái),促進(jìn)硬件監(jiān)控平臺(tái)和ITIL管理平臺(tái)自然銜接,從而替代運(yùn)維人員做好流程管理的跟進(jìn)及反饋等工作。
徐子晨某商業(yè)銀行存儲(chǔ)工程師:
通過技術(shù)手段構(gòu)建智能自動(dòng)化的生產(chǎn)力工具,已然成為了提高運(yùn)維效率、釋放運(yùn)維壓力、改善運(yùn)維工作的主要模式。
一、引言
銀行金融機(jī)構(gòu)的信息系統(tǒng)根據(jù)監(jiān)管要求信息科技部門都會(huì)建立健全的投產(chǎn)及變更管理機(jī)制、制度與流程,用于承擔(dān)技術(shù)管理工作及日常運(yùn)維保障。存儲(chǔ)管理規(guī)模大、廠商多樣化、設(shè)備數(shù)量、版本、類型眾多、存儲(chǔ)資源管理日趨復(fù)雜;由于設(shè)備數(shù)量眾多,硬盤、電池、電源、控制器、光模塊、光纖線路等故障量也會(huì)相對(duì)增多,日常保障設(shè)備可靠性存在挑戰(zhàn),同時(shí)也產(chǎn)生了很多簡(jiǎn)單且重復(fù)的運(yùn)維流程工作。構(gòu)建存儲(chǔ)網(wǎng)絡(luò)可視化資源圖譜,實(shí)時(shí)監(jiān)控存儲(chǔ)設(shè)備物理部件運(yùn)行狀態(tài),不僅限于硬盤、電源、控制器等重要部件,還要重點(diǎn)關(guān)注存儲(chǔ)網(wǎng)絡(luò)光纖鏈路質(zhì)量、鏈路抖動(dòng)、模塊光功率衰減、鏈路失效和潛在的設(shè)備故障隱患等問題,收集故障日志研究分析,更精準(zhǔn)的儲(chǔ)備備品備件,提高維護(hù)效率,節(jié)約本地倉儲(chǔ)壓力。同時(shí),依托先進(jìn)信息技術(shù)手段的虛擬勞動(dòng)力,根據(jù)預(yù)先設(shè)定的程序、操作指令,實(shí)現(xiàn)業(yè)務(wù)流程由機(jī)器人自動(dòng)處理故障引發(fā)的工單流程和繁復(fù)的人工操作。
二、傳統(tǒng)環(huán)境的存儲(chǔ)運(yùn)維現(xiàn)狀是什么樣的
1)運(yùn)維制度:根據(jù)《中華人民共和國銀行業(yè)監(jiān)督管理辦法》《中華人民共和國商業(yè)銀行法》制定規(guī)范化、標(biāo)準(zhǔn)化的信息技術(shù)服務(wù)平臺(tái),結(jié)合銀行業(yè)ITIL最佳實(shí)踐來指導(dǎo)IT運(yùn)維流程,通過服務(wù)臺(tái)、事件管理、變更管理等業(yè)務(wù)流程對(duì)故障事件進(jìn)行處理,正確報(bào)告進(jìn)展情況,配合運(yùn)維人員解決故障事件。
2)運(yùn)維架構(gòu):通過一體化的運(yùn)維監(jiān)控平臺(tái),運(yùn)維部門往往是第一時(shí)間接收到故障告警的,告警事件會(huì)以短信和工單的方式提交到設(shè)備運(yùn)維人員,運(yùn)維人員會(huì)根據(jù)監(jiān)控平臺(tái)中告警設(shè)備的故障類型、備件類型、數(shù)據(jù)中心位置等一系列信息在IT服務(wù)管理平臺(tái)中提交工單,等待審批,審批通過后方可聯(lián)系設(shè)備廠商進(jìn)行故障備件更換維修。
3)運(yùn)維范圍:包括存儲(chǔ)、光纖交換機(jī)、服務(wù)器等多廠商、多型號(hào)、多配置的硬件設(shè)備;處理邏輯上的、物理上的各類突發(fā)告警事件;根據(jù)相應(yīng)故障事件發(fā)起故障處理流程,跟蹤流程,解決故障。
4)運(yùn)維技能:能準(zhǔn)確識(shí)別并解析各廠商、各型號(hào)、各配置硬件設(shè)備的常規(guī)告警事件,熟練掌握各類型故障處理流程。傳統(tǒng)環(huán)境存儲(chǔ)運(yùn)維流程如圖4所示。
圖4傳統(tǒng)環(huán)境存儲(chǔ)運(yùn)維流程
通過技術(shù)手段實(shí)現(xiàn)運(yùn)維監(jiān)控自動(dòng)化,制度流程提請(qǐng)自動(dòng)化一體化運(yùn)維平臺(tái)結(jié)合RPA技術(shù)和移動(dòng)運(yùn)維理念實(shí)現(xiàn)自動(dòng)化運(yùn)維。
1.運(yùn)維平臺(tái)智能化
作為智能化的運(yùn)維平臺(tái),不僅具備傳統(tǒng)運(yùn)維平臺(tái)大屏展示、配置管理、告警轉(zhuǎn)發(fā)等基礎(chǔ)功能,還要具備故障關(guān)聯(lián)分析、關(guān)鍵閾值動(dòng)態(tài)調(diào)整、量化指標(biāo)趨勢(shì)預(yù)測(cè)和故障預(yù)測(cè)分析等高階功能。通過收集硬件故障計(jì)數(shù)并量化成故障趨勢(shì)圖判斷目標(biāo)設(shè)備的亞健康狀態(tài),在故障發(fā)生前提前處理,防患于未然。例如:SAN交換機(jī)端口或服務(wù)器HBA卡端口光模塊存在自然劣化現(xiàn)象(如圖8),從運(yùn)維監(jiān)控角度講,就是通過sfpshow命令檢索到的接收或發(fā)送光功率的數(shù)值會(huì)發(fā)生緩慢的下降,下面是觀察到的幾種變化曲線(如圖5-圖7所示):
圖5曲線一
圖6曲線二
圖7曲線三
圖8根據(jù)光衰判斷端口健康狀況
針對(duì)告警信息的事件收集,分析判斷存儲(chǔ)鏈路狀態(tài),排除由于日常維護(hù)導(dǎo)致的報(bào)警噪音,如圖9。
圖9分析交換機(jī)間端口狀態(tài)判斷服務(wù)器端狀況排除端口問題
2.巡檢維護(hù)自動(dòng)化
使用RPA對(duì)IT服務(wù)管理平臺(tái)故障硬件更換流程進(jìn)行編排錄制,通過識(shí)別硬件告警平臺(tái)告警信息,解析故障類別、編排提單流程,達(dá)到定時(shí)執(zhí)行全天運(yùn)行,自動(dòng)處理釋放人力,可回滾可追溯且準(zhǔn)確無誤的效果。全線自動(dòng)化運(yùn)維管理如圖10所示。
圖10全線自動(dòng)化運(yùn)維管理
3.應(yīng)急處置移動(dòng)化
最令人頭疼的是故障問題發(fā)生在非工作時(shí)段,故障處理效率會(huì)隨之下降,使用移動(dòng)化處理模式可以在不登錄終端設(shè)備的情況下快速處理問題。存儲(chǔ)交換機(jī)端口出現(xiàn)誤碼往往伴隨著業(yè)務(wù)系統(tǒng)出現(xiàn)交易超時(shí),以下是在移動(dòng)端處理端口中斷的過程(圖11-圖13):
圖11短信告警信息
圖12移動(dòng)平臺(tái)告警信息&系統(tǒng)拓?fù)?/p>
圖13移動(dòng)平臺(tái)停止端口
四、結(jié)語
全線自動(dòng)化運(yùn)維管理依托于傳統(tǒng)運(yùn)維環(huán)境的基礎(chǔ)之上,所有的故障預(yù)測(cè)、流程編排、移動(dòng)化辦公都離不開一個(gè)可靠安心的運(yùn)維底座,只有夯實(shí)IT基礎(chǔ)設(shè)施環(huán)境,提供準(zhǔn)確的數(shù)據(jù)和清晰的運(yùn)維架構(gòu),打通接口,聯(lián)調(diào)各個(gè)工具,才能轉(zhuǎn)變傳統(tǒng)的運(yùn)維模式。
結(jié)束語
上述兩個(gè)案例通過打造存儲(chǔ)智能運(yùn)維平臺(tái),可以讓企業(yè)在存儲(chǔ)故障處理流程自動(dòng)化、巡檢維護(hù)自動(dòng)化、運(yùn)維平臺(tái)智能化、應(yīng)急處置移動(dòng)化等四個(gè)方面有很大幫助,大大提升運(yùn)維故障處置效率,以此轉(zhuǎn)變傳統(tǒng)的存儲(chǔ)運(yùn)維模式,實(shí)現(xiàn)存儲(chǔ)運(yùn)維的智能化、自動(dòng)化轉(zhuǎn)型。