【作者】劉建明,某銀行系統(tǒng)運維工程師,主要從事服務(wù)器、操作系統(tǒng)、中間件、數(shù)據(jù)庫及虛擬化平臺等基礎(chǔ)設(shè)施的運維和管理工作。曾獲IBM CATE,Redhat RHCA,Oracle OCP,VMware VCP等證書,在系統(tǒng)運維管理方面擁有豐富的經(jīng)驗。
前言
近兩年,運維人需要面對不斷涌現(xiàn)的新興技術(shù)和架構(gòu)轉(zhuǎn)型的要求,例如企業(yè)上云、分布式、容器化、雙中心雙活等等。隨著傳統(tǒng)企業(yè)把更多的業(yè)務(wù)向線上化和數(shù)字化發(fā)展,IT運維也面臨著業(yè)務(wù)模式改變隨之而來的更多要求。做好運維,除了學(xué)好新技術(shù),更需要從運維理念、運維方式和運維視角轉(zhuǎn)變等方面去適應(yīng)變化。以下是我個人的一些思考。
一、企業(yè)傳統(tǒng)IT運維面臨的挑戰(zhàn)
我們的傳統(tǒng)IT運維人員在運維工作上應(yīng)該能體會到了三個明顯的變化。
第一,運維對象越來越多
隨著企業(yè)推進(jìn)數(shù)字化轉(zhuǎn)型,新增的應(yīng)用系統(tǒng)越來越多;隨著線上業(yè)務(wù)規(guī)模擴(kuò)大,應(yīng)用系統(tǒng)不斷地進(jìn)行細(xì)化拆分,組件的數(shù)量越來越多;隨著微服務(wù)的推行,節(jié)點朝著小而多的方向迅速發(fā)展。現(xiàn)在,一套應(yīng)用系統(tǒng)有幾百臺服務(wù)器,幾百個容器已經(jīng)是常見的事情。
虛擬機(jī)和容器的爆炸式擴(kuò)大增長,已經(jīng)不是危言聳聽,而是實實在在發(fā)生的現(xiàn)狀。這要求著運維人員投入更多的精力來保障和運維系統(tǒng)。傳統(tǒng)的運維模式,例如操作文檔手工運維,腳本方式手工運維,按系統(tǒng)類型分類運維,大量個性化特殊化運維等等,隨著規(guī)模的擴(kuò)大,管理的難道呈指數(shù)級增加,運維管理能力也會達(dá)到極限。這個時候,運維人員面對各種工單往往應(yīng)接不暇,焦頭爛額,運維沒有成就感。然而要投入更多的運維人力,又加大了溝通、培訓(xùn)和協(xié)調(diào)等的管理成本,堆人的路已經(jīng)行不通。
第二,運維要求越來越高
IT規(guī)模小的時候,傳統(tǒng)運維可能還可以停留在幾臺服務(wù)器的搭建,基礎(chǔ)軟件的安裝,日常的變更維護(hù)等等,只要保證系統(tǒng)的安全穩(wěn)定運行即可。但是,隨著企業(yè)的規(guī)模發(fā)展,對運維也會提出更高的要求,例如幾百臺服務(wù)器規(guī)?;牟渴穑瑤浊_大批量的操作,分鐘級甚至秒級的敏捷資源供給,自動化的資源擴(kuò)縮等。今年疫情期間,企業(yè)為了滿足線上辦公的需求,要求馬上提供上百臺遠(yuǎn)程桌面服務(wù)器供員工線上辦公;企業(yè)頻繁地開展線上秒殺活動,在活動期間需要批量部署上線大量的應(yīng)用服務(wù)器,活動結(jié)束馬上回收;近段時間,基金開戶和銷售火爆,很多基金公司的應(yīng)用系統(tǒng)幾近癱瘓,如何保證及時地提供資源。在這些場景下,依靠傳統(tǒng)的資源管理和人工操作方式已經(jīng)無法滿足業(yè)務(wù)對運維服務(wù)的要求。
第三,運維服務(wù)用戶越來越多
傳統(tǒng)企業(yè)環(huán)境下,運維僅服務(wù)于研發(fā),研發(fā)服務(wù)于業(yè)務(wù)部門,服務(wù)用戶都比較單一。現(xiàn)在很多企業(yè)成立了多個研發(fā)中心和測試中心,還不斷地擴(kuò)大分支機(jī)構(gòu),分支機(jī)構(gòu)又有獨立的應(yīng)用系統(tǒng)建設(shè)需求,同時也提供IT服務(wù)給第三方公司。在這種情況下,我們的運維人員需要面對各種各樣的用戶環(huán)境和多種多樣的用戶需求,首先溝通成本會非常高,其次也無法保證能夠提供一致的運維服務(wù),第三運維質(zhì)量也因為人員差異而參差不齊。
以上的三個變化,對于還沒準(zhǔn)備好的傳統(tǒng)運維人員而言,將是巨大的挑戰(zhàn)和壓力。一方面業(yè)務(wù)迅猛發(fā)展,領(lǐng)導(dǎo)不斷下要求給指標(biāo);另一方面,運維人手不足,工具跟不上,平臺不給力。
除了上面三個因業(yè)務(wù)發(fā)展帶來的規(guī)模上的變化,我們的運維也面臨著如何化解新技術(shù)的壓力。例如自動化運維、可視化運維、智能化運維等各種平臺和工具的引入,運維人需要選擇,讓平臺能結(jié)合各種運維場景切實發(fā)揮作用;例如云計算、容器云、大數(shù)據(jù)、分布式、區(qū)塊鏈和大量開源軟件的應(yīng)用,運維需要了解原理、部署排障、融合創(chuàng)新;例如系統(tǒng)高可用技術(shù)、雙活中心技術(shù)等,運維需要將它們有效落地。這些技術(shù),需要運維人員不斷地學(xué)習(xí)和跟進(jìn)。傳統(tǒng)行業(yè)的運維人員,面對眼花繚亂的運維新技術(shù),往往不知如何入手,陷入迷茫。
二、傳統(tǒng)IT運維應(yīng)該如何轉(zhuǎn)變
面對各種業(yè)務(wù)上和技術(shù)上的新變化,傳統(tǒng)的運維人員應(yīng)該如何應(yīng)對?
運維工作充滿了大量的簡單重復(fù)勞動,運維工作如何突圍?
運維人員每天忙碌,承受壓力,又不被認(rèn)可,運維的價值在哪里?
面對以上的三個問題,我認(rèn)為,運維要從過去的被動式運維向主動型運維轉(zhuǎn)變,從操作型向管理型轉(zhuǎn)變,從背鍋式運維向價值型運維轉(zhuǎn)變。當(dāng)企業(yè)的規(guī)模發(fā)展到一定程度后,運維要向運營轉(zhuǎn)型,從技術(shù)支撐到價值輸出。
要實現(xiàn)這三個運維轉(zhuǎn)變和向運營轉(zhuǎn)型,我個人認(rèn)為我們應(yīng)該從三個方面去做出改變,分別為改變運維理念,改變運維管理方式和改變運維知識體系。具體如下:
第一、運維管理理念要改變。
業(yè)務(wù)在變,需求在變,運維也要對應(yīng)著改變,最重要的是在運維理念上要首先做出改變。傳統(tǒng)的運維工作,只要做好運維支撐工作就可以了,從來不關(guān)心業(yè)務(wù)情況?,F(xiàn)在做運維,要將對運維的認(rèn)識提升到業(yè)務(wù)層面,把自己從傳統(tǒng)的支持中心向服務(wù)中心、價值中心轉(zhuǎn)變,提升IT服務(wù)供給能力,滿足企業(yè)業(yè)務(wù)的發(fā)展需求。
運維部門過去一直認(rèn)為是花錢堆硬件的部門,就是買買買,沒有什么價值。但是,隨著上文提到的三個明顯變化的發(fā)生,光買硬件已經(jīng)無法滿足業(yè)務(wù)的需求。運維不光要做到能用,還要做到好用;不光只買硬件,更要充分運用各種軟件和平臺來提升運維服務(wù)能力。我們的運維理念要以業(yè)務(wù)價值為導(dǎo)向進(jìn)行轉(zhuǎn)變。
那么如何實現(xiàn)以業(yè)務(wù)價值為導(dǎo)向呢?怎么做能夠滿足業(yè)務(wù)價值導(dǎo)向呢?我認(rèn)為我們要改變過去被動接工單的運維模式,轉(zhuǎn)變?yōu)橐詷?biāo)準(zhǔn)服務(wù)目錄,場景化服務(wù)為接口呈現(xiàn)的主動對外方式。讓運維提供的服務(wù),從后臺展現(xiàn)到前臺,以明確清晰的方式讓用戶主動進(jìn)行各種選擇和使用。
通過服務(wù)目錄,運維工作也能夠保證對外服務(wù)標(biāo)準(zhǔn)的一致性。同時,通過服務(wù)目錄,運維的質(zhì)量和主動性也有了抓手。服務(wù)目錄好不好,用戶滿不滿意,也是評價和測量運維工作做得好壞的一個標(biāo)準(zhǔn)。
服務(wù)目錄只是一個對外接口,其后臺所承載的運維流程、管理平臺、腳本工具,積累的技術(shù)和經(jīng)驗,是運維真正的內(nèi)功。通過深入了解用戶的需求,設(shè)計梳理運維服務(wù)目錄;通過服務(wù)目錄,優(yōu)化各種流程、建設(shè)各種平臺和選擇各種技術(shù)。這樣面對琳瑯滿目的技術(shù),我們的運維人員也有了學(xué)習(xí)技術(shù)的方向和目標(biāo)。
第二、運維管理方式要改變。
運維理念的轉(zhuǎn)變,必然帶來運維管理方式的改變,但是這個改變是需要至上而下進(jìn)行,需要管理層主動推動。那么,運維管理方式要改變什么?我想,首先是要整合,把制度、流程和技術(shù)進(jìn)行整合,把服務(wù)器、操作系統(tǒng)、網(wǎng)絡(luò)和存儲等進(jìn)行整合;其次是建立服務(wù)治理機(jī)制,根據(jù)PDCA方法論形成運維管理閉環(huán);第三是建立運維數(shù)字化,讓運維一目了然;第四是完善智能監(jiān)控分析體系;第五提升運維自動化和智能化水平。
傳統(tǒng)企業(yè)的運維我覺得有兩個維度,豎向的應(yīng)用系統(tǒng)維度,如具體應(yīng)用系統(tǒng)的架構(gòu)設(shè)計、應(yīng)用變更、監(jiān)控分析、故障切換、容量管理等等,和橫向的專業(yè)平臺維度,如服務(wù)器硬件、存儲設(shè)備、操作系統(tǒng)、虛擬化平臺、中間件、數(shù)據(jù)庫、終端等等。運維管理方式,是采用豎向運維還是橫向運維,需要與企業(yè)的IT規(guī)模和發(fā)展階段相匹配的。這兩種不同的方式也是分久必合,合久必分。企業(yè)IT規(guī)模小,豎向較合適,幾個人共同承擔(dān)了應(yīng)用系統(tǒng)、服務(wù)器、網(wǎng)絡(luò)、存儲和基礎(chǔ)軟件等所有的運維工作,溝通路徑短,效率高;然后,隨著IT規(guī)模變大,一個人無法兼顧所有技術(shù)棧的運維,于是根據(jù)技術(shù)領(lǐng)域進(jìn)行了細(xì)化分離,讓專業(yè)的人做專業(yè)的事;現(xiàn)在,隨著新需求的產(chǎn)生,又需要各專業(yè)領(lǐng)域的運維團(tuán)隊緊密合作,比如云計算,容器云,動態(tài)擴(kuò)縮,自動化和智能化運維等,匯合了服務(wù)器、網(wǎng)絡(luò)、存儲和中間件等技術(shù),需要各團(tuán)隊通力合作。這種新運維方式下,需要相應(yīng)的組織架構(gòu)調(diào)整和改變來支撐,比如成立虛擬的云團(tuán)隊。
第三,運維知識體系要改變。
以上兩點改變,更多的是從上而下的改變,做為運維人員也需要從自身出發(fā)進(jìn)行改變,讓自己的知識體系適應(yīng)新的運維模式。那么運維人員要怎么做?我想運維人員要從架構(gòu)視角、開發(fā)視角看運維,提升自主運維的核心技術(shù)能力。
在運維知識體系和新技術(shù)落地上,twt已經(jīng)給我們提供了很多資料和做了大量介紹。隨著基礎(chǔ)平臺云化,容器化,以及分布式架構(gòu)的逐漸應(yīng)用,運維人員需要掌握的技術(shù)不再是單一的領(lǐng)域,而是需要多領(lǐng)域的融合貫通,對虛擬化、操作系統(tǒng)、網(wǎng)絡(luò)、存儲、監(jiān)控、自動化工具和運維開發(fā)等都需要掌握。例如,我們的要求虛擬化團(tuán)隊,不光管理好平臺,更要通過開發(fā)提升工作效率。
運維人員的視角也要從更高的業(yè)務(wù)特性和開發(fā)人員需求出發(fā),不局限于我有什么就用什么,而是要用戶需要什么我們提供什么,并主動提升服務(wù)的質(zhì)量和效率,主動地關(guān)注團(tuán)隊提供的專業(yè)服務(wù)是否滿足用戶需求,是否讓用戶滿意和好用。例如,運維人如果去支撐和融入devops這個新的模式。
三、傳統(tǒng)IT運維轉(zhuǎn)向運營
我們說運維要向運營轉(zhuǎn)變,為什么是運營而不是運維呢?首先來看一下運營的概念,運營是對運營過程的計劃、組織、實施和控制,是與產(chǎn)品生產(chǎn)和服務(wù)創(chuàng)造密切相關(guān)的各項管理工作的總稱。從另一個角度來講,運營管理也可以指為對生產(chǎn)和提供公司主要的產(chǎn)品和服務(wù)的系統(tǒng)進(jìn)行設(shè)計、運行、評價和改進(jìn)的管理工作。從概念中,我們可以看到,運營是針對產(chǎn)品和服務(wù),那么IT運營的產(chǎn)品和服務(wù)是什么呢?是的,就是運維,運營是對運維這個產(chǎn)品和服務(wù)的設(shè)計、運行、評價和管理。我們說金融科技的本質(zhì)不是科技,而是服務(wù),是從用戶的角度出發(fā)看待問題,一切以用戶滿意為前提。IT運營也是如此,它將運維這件事,從用戶的角度來思考,運維不是簡單的技術(shù)支撐,簡單的故障解決,簡單的背鍋任勞任怨,運維是要滿足用戶的需求,運維是運維人員提供的一個產(chǎn)品和服務(wù)。
我們可以看到,如果給用戶足夠的便利,用戶自己能解決大部分的問題。比如網(wǎng)上購物,購買理財,購買基金等等,只要操作簡單便捷,老人也能輕易做到。運維也是如此,并不是運維非要做得苦逼,而是運維這個產(chǎn)品和服務(wù)不夠便利。我們現(xiàn)在慢慢地看到很多公有云廠商,提供了非常多的便利服務(wù),哪怕不懂運維的人,也能輕松地搭建出一套套監(jiān)管控一體化俱全的應(yīng)用系統(tǒng)來。作為傳統(tǒng)IT運維人員,需要從這方面多多學(xué)習(xí)和轉(zhuǎn)變。
四、最后
如果說過去的傳統(tǒng)運維像經(jīng)營一家大排檔,客人看菜點菜,廚師依需求做菜。這種模式存在幾個問題,一是客人其實也不知道要吃什么菜;二、不是每道菜,廚師都會做;三、菜做的好壞,客戶是否滿意,取決于每個廚師的手藝。所以,大排檔模式只適應(yīng)小規(guī)模經(jīng)營,而開不成連鎖店。到了一定的規(guī)模,我們的運維要像經(jīng)營肯德基、海底撈等連鎖店一樣,無論面對多少客戶量,我們用標(biāo)準(zhǔn)的流程,提供一致的菜式,一致的服務(wù)。我們用心于菜式的品類和質(zhì)量,用心于服務(wù)的滿意度。
面對快節(jié)奏的變化,運維人員應(yīng)該沉下心來,對外以做產(chǎn)品的心態(tài)做運維,追求用戶極致的體驗;對內(nèi)建立標(biāo)準(zhǔn)的流程,打造高效的工具,讓運維變得簡單輕松。