對于從事運維行業(yè)多年的小灰帽來看,在大多數(shù)企業(yè)中,運維部門的地位長期以來都是被邊緣化的,不受公司和領(lǐng)導重視。
很多企業(yè)的管理者通常會覺得運維部門是成本部門,只需要能支撐起業(yè)務就行。業(yè)務部門只負責提業(yè)務需求,開發(fā)部門只管做功能的開發(fā),很多非功能性的需求問題長期無人重視,只能靠運維人員肩挑人扛到處救火,可以認為是運維部門靠自己的血肉之軀實現(xiàn)了業(yè)務部門和開發(fā)部門的信息化。
在這樣的背景下,不光企業(yè)的管理者不知道該如何評價運維的價值,甚至很多運維從業(yè)者都不知道自己除了到處救火外還應該去關(guān)注什么,當然也可能是因為沒有時間和精力去思考。
“黑盒運維”&“白盒運維”
黑盒運維與白盒運維的靈感來自軟件測試中的黑盒測試與白盒測試的概念,反映運維管理的工作模式和信息透明程度。
黑盒運維和白盒運維
“黑盒運維”
黑盒運維反映了運維的不成熟,表現(xiàn)為人肉運維和管理缺失的自動化。即需要運維人員加班加點依靠人力被動地滿足業(yè)務部門的需求。欠缺標準化、規(guī)范化,基本顧不上運維的自動化改造和精細化管理,更加無法去了解自己所運維的業(yè)務。
傳統(tǒng)運維
傳統(tǒng)的運維人員實際上是所謂的“黑盒運維”,不斷地去做重復性和繁瑣性的操作,時間長了之后,只知道自己管理的服務器能正常對外服務,但是卻不知道應用之間的依賴關(guān)系,哪些配置是有效配置、哪些配置是無效配置。只敢加配置,不敢刪配置,不斷累積,欠的技術(shù)債越來越多。在這樣的背景下,當遇到業(yè)務系統(tǒng)崩潰等極端情況時,需要完整重建系統(tǒng)時候,就很容易一籌莫展,故障恢復時間長,進而給企業(yè)造成更大的損失。
為了徹底解決“黑盒運維”的困境,我認為真正有效的根源解決做法是:從“黑盒運維”走向“白盒運維”。
“白盒運維”
“白盒運維”即擺脫“黑盒運維”系統(tǒng)信息不透明,運行狀態(tài)不可控的運維困境,基于配置管理,以構(gòu)建IT系統(tǒng)的全息視圖。使用戶全面掌控IT系統(tǒng)的處理流程、架構(gòu)藍圖、配置信息、運行狀態(tài)、環(huán)境變化、演進趨勢,配備各類自動化工具和處理手段,做到閉環(huán)管理、全面掌控、數(shù)字化運營。
自動化運維
運維的核心和難點其實是配置管理,運維人員只有真正的清楚所管理的系統(tǒng)的功能和配置,才能從根源上解決到處救火疲于奔命的情況,也才能真正的杜絕業(yè)務問題和運維事故的發(fā)生,從根本上解決運維的問題。
從黑盒運維走向白盒運維,再進一步實現(xiàn)devops(開發(fā)運維銜接)和軟件定義數(shù)據(jù)中心,就是所謂的運維2.0了。很顯然,這個單靠運維部門自身是做不到的,需要每一個企業(yè)的管理者、業(yè)務部門、開發(fā)部門去思考。因此,出現(xiàn)業(yè)務和運維問題時,我希望不要簡單地讓運維來背黑鍋,而是讓大家真正的從中得到教訓和啟示。