在數據中心運維工作中,故障是不可避免的。對于在出現故障情況時,如何做到將損失降到最低、如何避免今后出現類似故障,總結出故障處理流程。
1、糾正錯誤
在得知故障發(fā)生后,第一時間安排人員到現場對故障情況進行查看,確認故障的現象與范圍。由引起故障之外的第二人對故障錯誤進行糾正,在過程中注意衍生故障或二次錯誤的發(fā)生
對于不能立即恢復的故障,可采用臨時措施修復故障影響。要注意控制故障范圍的蔓延,盡量將故障影響范圍控制在最小范圍內
2、匯報領導
在故障得到初步控制后,立即上報領導及通報相關部門。對于人員配備允許的情況下,在糾正錯誤的同時匯報領導。盡量早的通知相應領導及負責人,可對一線人員給予必要的支持與指導,有助于故障的有效控制
3、形成書面報告
在故障得到處理或階段性處理完成后,由當事人對故障情況進行還原,形成書面文字報告,具體詳細描述事件經過,經當事人確認后存檔留存,形成原始記錄
4、查找根本原因
組織當事人、故障處理人等相關人員,根據實際故障現象、處理方法、當事人情況報告等資料,進行根本原因分析,進行必要的理論邏輯推演,確定產生故障的根本原因
5、處罰意見
針對當事人情況報告、故障根本原因分析,及時出具處罰意見,處罰意見中根據各人員所負主要責任、管理責任、連帶責任等進行不同的處罰決定
6、整改方案
以故障根本原因為依據,組織相關人員會議,討論預防預案、整改方案,并進行培訓學習,引以為戒;對相同類工作進行相關三個月回溯檢查,檢查排除潛在隱患
7、后續(xù)跟進
在事件處理完畢后,持續(xù)至少三個月事件跟蹤評測,查看整改方案的執(zhí)行力度與落實情況,對在執(zhí)行過程中暴露的新問題再進行適當的調整與完善
通過樹立更新組織過程資產,建立經驗教訓知識庫,以及注重PDCA閉環(huán)管理的故障處理思路。雖然故障不可避免,但相信可以避免重蹈覆轍,實現迭代式的持續(xù)提升的目的
問題處理流程: