以業(yè)務(wù)為中心重塑運維崗位能力 | 運維進階

隨著運維能力持續(xù)提升,硬件、系統(tǒng)軟件的工作更加標準化與自動化,而業(yè)務(wù)運維復(fù)雜性越來越高,運維崗位能力需要以業(yè)務(wù)為中心,重塑崗位能力。

運維體系的發(fā)展,是一個不斷從“組織、流程、平臺、場景”四個維度不斷適應(yīng)IT環(huán)境變化的過程,整個過程形成了一個運行數(shù)字世界的適應(yīng)性系統(tǒng)。這個適應(yīng)性系統(tǒng)由不斷改進的組件與越來越復(fù)雜的連接組成,系統(tǒng)的持續(xù)改進目標是為了更高效的適應(yīng)復(fù)雜性、不確定性的變化。在運維適應(yīng)性系統(tǒng)組件包括硬件、系統(tǒng)軟件、業(yè)務(wù)系統(tǒng)、人、運維效能工具。隨著“需求(need)、改變(change)、風(fēng)險(risk)、適應(yīng)(adapt)”的循環(huán)飛輪的運維能力持續(xù)提升,硬件、系統(tǒng)軟件的工作更加標準化與自動化,而業(yè)務(wù)運維復(fù)雜性越來越高,運維崗位能力需要以業(yè)務(wù)為中心,重塑崗位能力。

如何適應(yīng)變化

在筆者文章“構(gòu)建運維適應(yīng)性系統(tǒng)”中,提到運維適應(yīng)性系統(tǒng)的建設(shè)是一個圍繞“需求(need)、改變(change)、風(fēng)險(risk)、適應(yīng)(adapt)”4個節(jié)點循環(huán),達到能力螺旋上升的飛輪循環(huán)。即,運維能力的提升來源于更高(質(zhì))、更多(量)、更快(速度)的需求驅(qū)動;為了適應(yīng)新的需求,組織引入新的技術(shù)與新方法;新改變通常會產(chǎn)生新的風(fēng)險;綜合優(yōu)化組織、流程、場景、平臺能力,解決風(fēng)險,形成適應(yīng)性能力;建立了適應(yīng)性能力后可以支持更高、更快、更多的需求。本節(jié)先看運維面臨的變化。

IT部門面臨加快交付效率,提升運維質(zhì)量的挑戰(zhàn)。以金融行業(yè)為例,按照金融業(yè)信息技術(shù)“十三五”發(fā)展規(guī)劃目標,“十三五”期間金融經(jīng)營機構(gòu)的重點任務(wù)主要包括:進一步完善金融信息基礎(chǔ)設(shè)施,健全網(wǎng)絡(luò)安全體系,推動新技術(shù)應(yīng)用,深化金融標準化戰(zhàn)略,優(yōu)化信息技術(shù)治理體系,提供更加集約、高效、安全的金融信息技術(shù)服務(wù)。信息化時代,國內(nèi)領(lǐng)先的金融企業(yè)構(gòu)建了大量的IT系統(tǒng),并利用了金融信息化契機獲得商業(yè)上的成功。隨著市場復(fù)雜性與不確定性不斷加快,線上應(yīng)用的壽命越來越短,以蘋果應(yīng)用市場為例2019年上半年平均每天下架的應(yīng)用接近2300款應(yīng)用,環(huán)比增長45.58%,前端的應(yīng)用必須能夠快速響應(yīng)政策環(huán)境、監(jiān)管要求、用戶需求才能在不斷加快的大背景下獲得企業(yè)競爭力。但在信息化傳統(tǒng)封閉架構(gòu)下,金融企業(yè)IT系統(tǒng)形成一個個垂直的煙囪,缺乏信息互聯(lián)和共享,為了滿足業(yè)務(wù)日益多樣化的需求,主要采用先豎向滿足業(yè)務(wù),再橫向打通,交付業(yè)務(wù)需求的成本越來越高。所以,如何確保系統(tǒng)穩(wěn)定和業(yè)務(wù)合規(guī)的前提下,提供敏捷交付管理及業(yè)務(wù)需求的能力是金融企業(yè)IT部門面臨的第一挑戰(zhàn)。

另外,生產(chǎn)系統(tǒng)業(yè)務(wù)連續(xù)性保障形勢不容樂觀,以證券行業(yè)交易所為例,今年以來,全球各地交易所技術(shù)故障風(fēng)險事件頻發(fā):德意志交易所于今年4、7月因軟件故障導(dǎo)致中歐及東歐幾個國家衍生品和股票交易受阻;8月新西蘭交易所連續(xù)6天收到網(wǎng)絡(luò)攻擊被迫多次中斷交易;10月東京交易所因系統(tǒng)切換異常導(dǎo)致全天暫停交易;10月墨西哥交易所因交易引擎斷開暫停交易;10月泛歐交易所因中間件系統(tǒng)問題暫停所有產(chǎn)品交易;11月澳洲交易所開盤后交易中斷停業(yè)一天等。如何在企業(yè)快速發(fā)展過程中,加強業(yè)務(wù)連續(xù)性保障能力則是第二個挑戰(zhàn)。

推動基礎(chǔ)架構(gòu)云化、云原生應(yīng)用興起正當(dāng)其時。交付效率與運行質(zhì)量的挑戰(zhàn)可以轉(zhuǎn)換為:降低運營成本、提供高效彈性、防范信息安全、提高交付效率、保障連續(xù)性風(fēng)險等技術(shù)目標,需要引入架構(gòu)云化、云原生方法三個技術(shù)/方法。當(dāng)前,大部分中大型企業(yè)都確定了基礎(chǔ)設(shè)施層面云計算戰(zhàn)略,一些有能力或?qū)π畔踩砸蟾叩钠髽I(yè),重點推進私有云建設(shè),并結(jié)合大型云服務(wù)廠商提供的公有云或行業(yè)機構(gòu)提供的行業(yè)云,形成混合云的運營模式。可以預(yù)想,云計算集中了企業(yè)資源,通過集約化帶來的成本優(yōu)勢,將為企業(yè)提供更穩(wěn)定、高彈性、低成本的基礎(chǔ)設(shè)施、數(shù)據(jù)庫、中間件,及其它平臺層的PAAS組件。伴隨著云基礎(chǔ)設(shè)施的落地,企業(yè)不僅是簡單的將現(xiàn)有應(yīng)用系統(tǒng)分步搬上云,也面臨如何更好的利用云計算彈性擴展、分布式、按需獲取、安全可靠等優(yōu)點,這就推動了應(yīng)用架構(gòu)在開始設(shè)計時都要考慮將來能夠運行于云環(huán)境,由此帶動了云原生應(yīng)用的興起。對云原生的定義,云原生計算基金會(CNCF)作出以下定義:“云原生技術(shù)有利于各組織在公有云、私有云和混合云等新型動態(tài)環(huán)境中,構(gòu)建和運行可彈性擴展的應(yīng)用。云原生的代表技術(shù)包括容器、服務(wù)網(wǎng)格(Service Mesh)、微服務(wù)、不可變基礎(chǔ)設(shè)施和聲明式API。”以下摘自互聯(lián)網(wǎng)中關(guān)于云原生的定義、要素、設(shè)計理念的圖:

1.png

云化基礎(chǔ)設(shè)施、云原生方法,簡化了上層應(yīng)用的交付效率,但將復(fù)雜性落在運維側(cè)。云化基礎(chǔ)設(shè)施,使得企業(yè)不再需要按項目或需求去購買、部署、維護硬件和系統(tǒng)軟件,無需資源消費方參與復(fù)雜硬件及系統(tǒng)軟件的維護,標準化了基礎(chǔ)設(shè)施、系統(tǒng)軟件運維,用自動化替代了原來大量操作性工作。但云化基礎(chǔ)設(shè)施架構(gòu)必然面臨要對企業(yè)原有系統(tǒng)進行改造,由于傳統(tǒng)企業(yè)大部分重要交易業(yè)務(wù)系統(tǒng)均采用煙囪部署架構(gòu),且運行多年后,現(xiàn)有系統(tǒng)架構(gòu)越來越復(fù)雜,“動則生變,變則異常”己成常態(tài)。采用云原生方法,雖然幫助業(yè)務(wù)快速迭代,但廣泛使用的開源技術(shù)與分布式節(jié)點粒度的分解,也帶來了架構(gòu)的復(fù)雜性,交易鏈路節(jié)點數(shù)量迅速膨脹,同時軟件代碼與項目交付流程也發(fā)生了改變,都提高了業(yè)務(wù)運維的復(fù)雜性。在技術(shù)的應(yīng)用上,還需要關(guān)注新技術(shù)的選擇時機,很多新技術(shù)通常是解決一個軟件研發(fā)過程的問題,但是新技術(shù)的坑需要經(jīng)過一系列質(zhì)量內(nèi)建手段、線上生產(chǎn)事件來填,如何在一個合適的時機引入一個新技術(shù)是一個風(fēng)險。

以業(yè)務(wù)為中心,推動運維能力提升,配套運維平臺化建設(shè)是當(dāng)前行為有效的適應(yīng)手段。行業(yè)不同,對業(yè)務(wù)連續(xù)性的理解并不一樣。以google提出的devOps其中一個原則:“愿意承擔(dān)一部分試錯帶來的損失”,在金融行業(yè)則不適用。以證券實時交易為例,業(yè)務(wù)停滯一秒均可能帶來巨大損失,證券自身的業(yè)務(wù)特點以及外部監(jiān)管“零容忍”的要求,信息系統(tǒng)業(yè)務(wù)連續(xù)性的訴求會高于其他行業(yè),確保業(yè)務(wù)連續(xù)性成為證券行業(yè)IT運維的核心任務(wù),業(yè)務(wù)連續(xù)性管理的總體目標是提高公司的風(fēng)險防范能力、有效地減少非計劃的業(yè)務(wù)中斷、防范運維操作風(fēng)險,對于首次出現(xiàn)的未知異常能夠利用工作量化分析并快速定位,確保在重大災(zāi)難性事件發(fā)生后能按計劃恢復(fù)業(yè)務(wù)連續(xù)性。在這樣的行業(yè)背景下,運維團隊的角色肯定不能僅會應(yīng)急三把斧或工具研發(fā)的角色,而應(yīng)該能夠深耕業(yè)務(wù)并運用工程能力的運維角色。運維平臺化的作用是對運維的賦能,而不是替代運維,運維平臺需要圍繞運維組織的“提高業(yè)務(wù)連續(xù)性保障、提升業(yè)務(wù)交易系統(tǒng),輔助提升客戶體驗、提升IT運營服務(wù)質(zhì)量”等價值創(chuàng)造,持續(xù)豐富“監(jiān)管控析”的工具平臺體系,不斷推進工作線上化、自動化、服務(wù)化的落地。

從Google SRE到BRE

與傳統(tǒng)運維崗位相比,SRE更加強調(diào)“可靠性”與“工程能力”。SRE(Site Reliability Engineering,站點可靠性/穩(wěn)定性工程師),要從其名稱看看SRE的崗位角色。S(site),最初代表Google的運維服務(wù),隨著團隊的擴大,實際上S的范圍也擴展到了其它應(yīng)用系統(tǒng)。R(Reliability),google認為是運維組織要不斷的優(yōu)化系統(tǒng)架構(gòu)、運維流程,讓系統(tǒng)更加可靠,擴展性更好,能更有效的利用資源。可以看出,SRE相比傳統(tǒng)運維,明確強調(diào)了“可靠性”保障,這推動了SRE聚焦資源落到盡可能增加MTTF(不出故障的時間)和縮短MTTR(出故障后的恢復(fù)時間)兩個指標上,并圍繞這兩個關(guān)鍵指標加強系統(tǒng)運行風(fēng)險排查與解除,并加強風(fēng)險發(fā)生后的應(yīng)急能力。E(工程師),工程師需要具備有工程能力,在google指需要具備軟件研發(fā)能力的工程師,能夠和業(yè)務(wù)研發(fā)團隊共同工作,研發(fā)系統(tǒng)以外的額外組件。再看看SRE日常工作:日常需求處理、容量規(guī)劃、資源部署、監(jiān)控告警、預(yù)案梳理、災(zāi)備演練、OnCall值班、應(yīng)急事件響應(yīng)、故障處置、影響分析、應(yīng)急復(fù)盤、軟件研發(fā)、項目站立會、系統(tǒng)設(shè)計、項目進度推進、工具落地推廣等??梢钥吹?,SRE區(qū)別于傳統(tǒng)運維崗位的第二個特征是“工程性能力”,狹義的講是軟件開發(fā)能力,但又與業(yè)務(wù)開發(fā)有些區(qū)別,SRE的開發(fā)偏向于提升業(yè)務(wù)連續(xù)性上的研發(fā),業(yè)務(wù)開發(fā)偏向于業(yè)務(wù)功能研發(fā)。(關(guān)于SRE的更多信息,我摘一些在《SRE Google運維解密》中一些SRE的觀點,見文章結(jié)尾,這里暫不展開)

Google認為S、R、E三個詞中,最關(guān)鍵的是E,可能是因為這個原因,國內(nèi)很多人把SRE等同于運維開發(fā)。站在金融行業(yè),我個人認為如果SRE是金融行業(yè)運維崗位能力發(fā)展的參照方向,應(yīng)該以S與R為本,E是手段,或者說應(yīng)該是“BRE”(Business reliability Engineering)。

首先,前面提到金融行業(yè)更加強調(diào)業(yè)務(wù)連續(xù)性,運維角色必須懂業(yè)務(wù),去掉業(yè)務(wù)屬性,這支運維團隊就失去了靈魂。所以一個好的運維人員不僅是能夠操作各類監(jiān)控、應(yīng)急恢復(fù)、咨詢解答、變更操作等能力,他還應(yīng)該是在整個IT團隊中具備最全局掌握所負責(zé)系統(tǒng)應(yīng)用部署架構(gòu)、可用性架構(gòu)、上下游關(guān)系、最小功能模塊失效影響、容量性能分析等能力的角色。

其次,從Google SRE由來看,SER是一支獨立成長于原有運維團隊的組織,也就是這支團隊是一支全新投入的人力資源。但金融企業(yè)的運維團隊通常比較穩(wěn)定,相比研發(fā)團隊根據(jù)業(yè)務(wù)需求不斷擴大,運維團隊規(guī)模通常不怎么變化,運維團隊的工作能力就像海綿一樣擠擠又能承擔(dān)更多。所以,運維團隊的轉(zhuǎn)變重點是對現(xiàn)有運維人員能力建設(shè)。

另外,運維團隊中資深的工程師比較多。資深說明運維人員沉淀了更多經(jīng)驗,經(jīng)驗有助于在業(yè)務(wù)連續(xù)性保障中更快的定位問題。但從現(xiàn)實情況看,資深也導(dǎo)致個人學(xué)習(xí)意愿與學(xué)習(xí)能力的下降,所以讓現(xiàn)有運維團隊的人都能掌握軟件開發(fā)能力并不現(xiàn)實,如何既發(fā)揮好運維人員的經(jīng)驗,又能促進團隊的成長型思維是一個難點。

所以,我覺得運維團隊可以基于BRE角色建設(shè),提升業(yè)務(wù)連續(xù)性保障能力,再推動“提升業(yè)務(wù)交付效率”、“輔助提升客戶體驗”、“提升IT運營服務(wù)質(zhì)量”的能力建設(shè)。如果要勾畫BRE角色,可以考慮以下方向:

系統(tǒng)架構(gòu)師:清楚應(yīng)用系統(tǒng)部署架構(gòu),懂應(yīng)用邏輯架構(gòu),掌握上下游系統(tǒng)、高可用、容災(zāi)架構(gòu)等。

業(yè)務(wù)架構(gòu)師:清楚核心業(yè)務(wù)功能業(yè)務(wù)邏輯,當(dāng)核心功能不可用,甚至一筆關(guān)鍵交易異常時,能夠及時發(fā)現(xiàn),并快速應(yīng)急解決,或利用混沌工程加強業(yè)務(wù)風(fēng)險點。

可用性工程師:擅于利用工具,落實可用性改進,容量規(guī)劃,延遲優(yōu)化,性能優(yōu)化,業(yè)務(wù)架構(gòu)優(yōu)化,應(yīng)急演練,應(yīng)急預(yù)案編寫等工作。

運營分析師:具備數(shù)據(jù)思維,能夠讓系統(tǒng)運行,業(yè)務(wù)運作,客戶體驗,流程管理等數(shù)字化,并利用掌握的運營數(shù)據(jù)驅(qū)動研發(fā),測試,業(yè)務(wù)持續(xù)優(yōu)化。

運維操作員:各類監(jiān)控發(fā)現(xiàn)、輿情感知、故障應(yīng)急、根因分析、系統(tǒng)巡檢、咨詢反饋、變更交付、IT服務(wù)等工作。

加強被動性與主動性適應(yīng)性能力

結(jié)合上面提到的“系統(tǒng)架構(gòu)、業(yè)務(wù)架構(gòu)、可用性、運營分析、運維操作”五個維度,如果將運維工作分被動性與主動性兩類,可以大致分為:

1、被動性工作:根據(jù)事件增加監(jiān)控指標,加強監(jiān)控覆蓋面,提高監(jiān)控處理及時性,提升故障應(yīng)急處置自動化,優(yōu)化故障應(yīng)急協(xié)同機制,落實故障后問題的閉環(huán)跟蹤,提高生產(chǎn)變更發(fā)布自動化水平,建立生產(chǎn)問題咨詢反饋的服務(wù)機制等。

2、主動性工作:制定系統(tǒng)架構(gòu)標準,運維工作前移參與系統(tǒng)設(shè)計階段工作,構(gòu)建可視化的應(yīng)用上下游調(diào)用鏈路,持續(xù)推進業(yè)務(wù)邏輯架構(gòu)評估,加強對業(yè)務(wù)核心功能及數(shù)據(jù)的理解,推進混沌測試挖掘系統(tǒng)風(fēng)險點,落實故障應(yīng)急復(fù)盤機制,推進系統(tǒng)性能與容量、終端撥測、客戶體驗等分析工作,加強系統(tǒng)效能分析推動低效系統(tǒng)退出機制。

可以看到,被動性工作主要面向傳統(tǒng)運維的業(yè)務(wù)連續(xù)性保障工作,線上化、自動化主要是面向被動性工作范圍;主動性工作主要是利用運維對架構(gòu)、業(yè)務(wù)、運行數(shù)據(jù)的分析能力,增加運維全局可控能力,數(shù)字化、服務(wù)化主要是面向主動性工作。

最后,雖然金融企業(yè)的BRE不強調(diào)軟件開發(fā)能力,但他要擅于運用運維平臺工具來提升被動性與主動性的適應(yīng)性能力。這里的運維平臺工具,則需要由一支獨立職能的運維工具研發(fā)團隊,根據(jù)BRE實際的工作場景驅(qū)動,構(gòu)建在線、自動化、數(shù)據(jù)驅(qū)動的工作空間。運維工具研發(fā)團隊的定位是一支賦能BRE的工具開發(fā)團隊,需要一些能力:

理解BRE的工作場景,對BRE及管理決策崗位的痛點保持敏感度,能夠抽象高頻高價值的通用場景。

沉淀“監(jiān)管控析”平臺能力,具備快速落地應(yīng)用場景的能力。

保持對新技術(shù)及外部技術(shù)應(yīng)用的熱度,必要時承擔(dān)運維適應(yīng)性能力提升布道的角色。

建立運維平臺化能力成熟度模型,推動平臺化持續(xù)性提升。

【作者】彭華盛,騰訊TVP,10年+的金融領(lǐng)域運維工作,期間負責(zé)參與運維組織、流程、工具建設(shè),包括重大業(yè)務(wù)系統(tǒng)與數(shù)據(jù)中心工程性項目實施,標準化工作流程構(gòu)建,平臺工具體系的規(guī)劃與研發(fā)、數(shù)字化轉(zhuǎn)型研究與實施相關(guān)等,對金融領(lǐng)域的運維有較全面理解,更多信息可見個人公眾號“運維之路”。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論