【摘要】整個信息行業(yè)正大步邁向數字化、智能化,技術的沖擊無不催動著眾多企業(yè)的數字化轉型進程。信息技術部在數字化轉型過程中,更肩負著成功實現轉型、全面保障業(yè)務的重大責任,而在這支中流砥柱里,運維管理最不容小覷。作者曾陸續(xù)接觸過多個行業(yè),熟悉其業(yè)務框架和基礎架構,在本文中分享些個人從近幾年行業(yè)基礎架構的發(fā)展演進上,對基礎架構運維的點滴感悟。
【作者】李威,80 后一枚,初以存儲備份容災白手起家,晝伏夜出,奔赴在項目救火一線;隨后轉入基礎運維序列,混跡于運營商、金融行間;現塵埃暫定,落葉于某保險公司,負責數據中心相關管理工作,多與服務器存儲打交道,和虛擬化、超融合和云相聚一堂,在基礎資源架構設計與優(yōu)化、業(yè)務運維方面略有心得。
1、開篇前言
現今云計算、容器、超融合、大數據技術如日中天, DevOps 、 AIOps 興起, AI 、 5G 也不斷突破、成績喜人,整個信息行業(yè)大步邁向數字化、智能化。技術的沖擊無不催動著眾多企業(yè)的數字化轉型進程。然而數字化轉型并不是一件容易的事,不僅僅關乎企業(yè)在信息戰(zhàn)略上的調整、業(yè)務及架構上的創(chuàng)新,更要求企業(yè)面對轉型的沖擊實現業(yè)務增長與技術輸出的軟著陸,轉型到發(fā)展的平滑過渡。信息技術部是企業(yè)技術實力的牌面,在數字化轉型過程中,更肩負著成功實現轉型、全面保障業(yè)務的重大責任,而在這支中流砥柱里,運維管理最不容小覷。
筆者曾陸續(xù)接觸過運營商、保險、證券以及政府等多個行業(yè),熟悉其業(yè)務框架和基礎架構,借此機會,分享些個人從近幾年行業(yè)基礎架構的發(fā)展演進上,對基礎架構運維的點滴感悟。
2、當下之勢
2.1 基礎架構的變遷
2015 年以后,信息技術的發(fā)展陡然增速,超融合、私有云 / 私有云、容器、大數據等在架構、版本、功能等方面都有了長足的進步,并打開了企業(yè)市場。隨著近五年的發(fā)展,萬兆網絡互聯呈席卷之勢,迅速占領了數據中心。 X86 服務器性能日益強大, SSD 性價比完敗機械磁盤,一時間吹起了 AI 賦能、分布式、國產化轉型之風。技術的雷厲風行始終是其版本的迭代,傳統(tǒng)企業(yè)并不追新圖快,而是穩(wěn)中求勝,技術的真正效益還得依靠其在企業(yè)落地帶來的價值丈量。
最近幾年,國際巨頭背書、互聯網企業(yè)助推的分布式生態(tài)趨于穩(wěn)定,從計算、存儲到網絡各方面衍生的開放架構紛紛亮相,企業(yè)級解決方案、產品接踵而至,大數據、超融合、云等開放技術也在傳統(tǒng)企業(yè)內得以實裝。
如今企業(yè)基礎架構正處在這新舊交接的過渡期。以金融保險行業(yè)來說,現階段多數保險公司新舊架構并存,中國人壽、平安、太平等在內的絕大多數保險公司都開始了私有云、公有云或者混合云的嘗試,積極實現云轉型。相對于云,在容器和超融合方面,各大保險公司的步伐均已邁入前列, Openshift 、 k8s 、 Rancher 等主流容器及管理平臺均在保險行業(yè)落地,業(yè)務也逐步優(yōu)化改造以適配新的平臺。 Nutanix 、 FusionCube 以及 SmartX 等主流超融合平臺也打入了企e業(yè)數據中心,陸續(xù)承載業(yè)務系統(tǒng)的運行。大數據平臺、 AIOps/DevOps 體系建設,各保險公司或初窺門徑、或提上日程、或已小成規(guī)模。
新的技術、新的平臺紛紛涌入金融行業(yè)的信息化建設中,然而我們也應意識到數字化創(chuàng)新道路上的桎梏。由于各保險公司成立較早,業(yè)務框架與基礎資源架構偏向傳統(tǒng),與當前開放式架構或多或少存在兼容性問題,系統(tǒng)改造、優(yōu)化升級也不得不考慮在基礎建設之中。
金融企業(yè)的基礎架構戰(zhàn)線很長,不少家可以追溯到大、小型機時代,通過高性能巨型機來支撐業(yè)務,又經歷了傳統(tǒng)三件套服務器存儲網絡的分流,高性能需求業(yè)務與普通業(yè)務各執(zhí)一方,隨著服務器虛擬化產品的日臻完善,傳統(tǒng)基礎架構迎來了第三次沖擊,新業(yè)務乘上了虛擬化的快車,使得很長一段時間里基礎架構呈現三分之勢。
若以持續(xù)發(fā)展的眼光審視傳統(tǒng)架構,相對于今天的云、超融合、容器等,傳統(tǒng)架構雖然體態(tài)龐大,但涇渭分明,在繁雜的物理底層上也保持著規(guī)矩可循。新舊架構體系的迭代更替,是一個挑戰(zhàn),更是一份契機。
2.2 基礎架構的趨勢
縱觀近十年的 IT 基礎架構的發(fā)展,硬件性能翻番,直接奠定了基礎架構革新的基礎。無論是 INTEL 還是 AMD , CPU 的性能較之十年前不可同日而語,算力飛躍式升級,強大的算力驅動未來;更低延時、更高 IO 的萬兆互聯技術全網普及,直接改變了數據網絡的格局,帶來了分布式的更多可能;性價比更勝一籌的固態(tài)硬盤迅速反撲了機械磁盤的市場,顯著拔高了存儲性能的門檻,徹底改寫了數據存儲的篇章……計算、網絡、存儲的突飛猛進直接奠定了信息化的格局,也必將在未來五至十年里呈現各種趨勢,運維管理的重心也隨之有所偏向。
開放式架構體系與開源化產品已在各企業(yè)內部扎根,基礎架構也從傳統(tǒng)框架向多種開放式架構設計多路并進,數據中心內部多種架構形態(tài)還將持續(xù)許久。依托現今的架構格局,著眼當下信息技術的發(fā)展,不妨大膽揣度下未來幾年基礎架構設計、業(yè)務支撐的走勢:
分布式架構興起
算力驅動未來,更強大的算力也意味著更多的生產力。傳統(tǒng)架構受制于體系設計,無法實現靈活、便捷的擴展。然而計算存儲網絡技術的齊頭并進,給予了分布式的架構更多的青睞。分布式不僅放大了計算存儲網絡擴張優(yōu)勢,真正實現了動態(tài)架構、靈活擴展的能力,而且相對于傳統(tǒng)架構,綜合成本可期,其階段性的效益價值更容易為企業(yè)所接受。同時從業(yè)務角度方面分析,在業(yè)務框架不變的基礎上,分布式更能優(yōu)化業(yè)務的整體表現力,通過合理拆分業(yè)務邏輯,細分業(yè)務功能角色,給予了更充足的彈性空間,更符合業(yè)務的發(fā)展曲線。
隨著金融行業(yè)大力發(fā)展互聯網業(yè)務,分布式的需求勢必進一步擴大,憑借靈活的架構也會在未來占據更多席位。
輕量化的業(yè)務支撐
在近兩年里,容器產品的盛行也引發(fā)了企業(yè)對業(yè)務支撐模式的思考,很長一段時間里,數據中心都是依賴傳統(tǒng)架構提供服務能力,或者憑借虛擬化去支撐業(yè)務的需求。但在傳統(tǒng)框架內,資源的實際利用效率低,尤其是對中小型業(yè)務系統(tǒng)的支撐。傳統(tǒng)架構大處著眼,對業(yè)務系統(tǒng)的支撐大而全,無法做到小而精,而一些輕量級的產品,如輕量級容器應用、數據庫等卻能很好的滿足這塊需求,通過彈性擴展橫向增加性能,向上業(yè)務支撐靈活、可大可小。企業(yè) 2B 及互聯網方向業(yè)務劇增,中小型業(yè)務系統(tǒng)占比上升,輕量化業(yè)務支撐的需求也會同步增長。
除此之外,輕量化產品上線前期,對業(yè)務架構的改造也在一定程度上優(yōu)化、升級了業(yè)務的整體性能表現。上層應用集群的分解、業(yè)務數據結構的改造分離,逐漸淡化了前端后端、前臺后臺的固化模式,使得業(yè)務整體模式也更符合現今業(yè)務迅猛發(fā)展的需要。
全棧技術的聯動
在云、容器、超融合、大數據等多重開放式架構的混戰(zhàn)下,企業(yè)雖然享受著架構生態(tài)的紅利,但管理者也意識到管控精力逐漸被分化,成本開銷日益放大,多方獨立的局面不能持續(xù),平臺與運維的矛盾遲早要解決。 2019 年“全棧”的理念被多次提出,云、容器、大數據的一體化平臺應運而生,管理平面生態(tài)逐漸走向全?;?。企業(yè)內部的各項基礎資源、產品技術的隔離日益弱化,計算存儲網絡的聯動更加頻繁。
不僅如此,開放式架構的帶動下,運維管理的界限逐漸模糊。傳統(tǒng)架構中,服務器、存儲、網絡、安全,專崗專人,各司其職。開放架構下,計算存儲網絡即獨立又聯合,各功能上下游牽扯、組件間多層封裝。若系統(tǒng)出現異常,必須多方協調,全局排查,因而“一專多能”的角色要求至關重要。
2.3 運維管理的挑戰(zhàn)
隨著基礎架構的轉型,新的平臺和技術不斷涌入,運維管理面臨著不少挑戰(zhàn),接下來筆者以系統(tǒng)運維崗為例進行說明:
a 運維管理橫向維度拉伸
在傳統(tǒng)運維中,系統(tǒng)運維崗位主要負責數據中心基礎軟件系統(tǒng)(如虛擬化、云等)的運維工作,主要是保障底層平臺的穩(wěn)定運行?;A架構適時轉型,運維管理的橫向維度也進一步拉伸,更多基礎系統(tǒng)(如 HCI 平臺、云管平臺甚至是容器云平臺)加入了系統(tǒng)運維的崗位中。
隨著管理面的擴大,系統(tǒng)運維的難度也隨之提升。首先是技術的拓展上,新產品都在傳統(tǒng)技術層面上引入開放式架構技術,進行了不同程度的融合升級,例如 HCI 在傳統(tǒng)虛擬化基礎上加入了超融合底層承載分布式計算與存儲。其次與其他運維的聯動上,開放式架構的功能豐富、組件多、邏輯復雜,這也導致系統(tǒng)運維與其他維面的多處接壤,間接增加了運維的難度。以云管平臺的運維為例,門戶層由于服務級聯常與 ITSM 運維交互,功能層因對接多種數據庫常與 DBA 照面等。最后是角色定位的轉變,傳統(tǒng)運維由于職能純粹一般實行專人專崗,而在數字化轉型的趨勢下,開放式架構更需要“一專多能”的角色定位,尤其是云管、容器這類關聯性極強的平臺運維,不僅需要底層計算存儲網絡的基礎,更依賴云管、容器產品本身的技術儲備以及運維邊界上的理解與溝通。
b 運維上下游滲透
隨著開放式架構的演進,平臺的各項功能逐漸抽象化、服務化,系統(tǒng)運維橫向維度拉伸,其各處上下游的界限也逐漸模糊。這一思想在云和容器上體現得淋漓盡致。
在傳統(tǒng)運維中,即使是虛擬化或者 IaaS 云,向上支撐的單位還停留在虛擬機層面,不論與開發(fā)、應用還是數據庫等業(yè)務面的交互還存在明顯的分界。而隨著開放式的架構深入,容器云以及 PaaS 、 SaaS 云的落地,向上支持的精度更加細致,服務的表現力更為強大,基礎資源均逐漸抽象化為服務,按需部署。也是這轉變的過程中,運維上下游的聯系已潛移默化、悄然改變。例如, Rancher 等容器云平臺,運維過程中從部署、上線、排障以及優(yōu)化均已不似傳統(tǒng)運維中各崗位單打獨斗,而是開發(fā)、應用以及運維在業(yè)務的每一個環(huán)節(jié)都要進行充分討論、溝通、確定,共同協作完成系統(tǒng)框架、交互邏輯、參數配置、部署優(yōu)化等各項工作。隨著分布式架構的推廣,業(yè)務應用、中間件、數據庫精細化拆分的進展,業(yè)務各支撐面的黏性將進一步提高。
c 智能化運維管理
近些年在大數據以及 AI 技術的助力下,系統(tǒng)開發(fā)及運維都逐步走向智能化,如 DevOps/AIOps 等智能運維管理平臺出現在企業(yè)之中,取代了部分人工運維的工作。
在 AIOps 平臺的管理下,通過對運維數據進行學習訓練,將實際問題轉化為算法問題,從而自動化處理各類系統(tǒng)運維故障。目前結合 APM 性能數據, AIOps 平臺已可實現云及容器等平臺上應用節(jié)點異常檢測,實時告警并依靠決策樹嘗試自動重啟修復或動態(tài)擴容節(jié)點替換故障節(jié)點等;在故障預測及瓶頸分析方面,通過對歷史基準值的挖掘,預測系統(tǒng)的常態(tài),對關鍵性能失衡提前告警并給出排查建議;在平臺及系統(tǒng)容量預測上,通過對各項資源的投入及實際消耗分析、繪制未來趨勢曲線,為系統(tǒng)運維人員的擴容提供數理依據。
3、未來之行
隨著數字化轉型的腳步,運維管理橫向以及縱向都發(fā)生了質的變化,在橫向維度責任范圍已然擴大,從傳統(tǒng)的虛擬化向 HCI 、容器云以及更高層次的云模型發(fā)展??v向上系統(tǒng)開發(fā)、運維以及其他運維更加親密,走向運管協同的趨勢。
面對系統(tǒng)運維崗位的變化,筆者建議以一個基本點兩個中心出發(fā)、付諸行動:
一個基本點即是“技術為本”。作為系統(tǒng)運維,專業(yè)技術就是資本:當務之急是對新架構的掌握,提升云、容器、 AIOps 等知識積累,分布式架構的原理相似相融,云、 HCI 與虛擬化都有著千絲萬縷的潛在聯系,舉一反三、觸類旁通;其次做好廠商到運維組的知識轉移,以技術交流、管理培訓等方式加速運維管理技能的成長,廠商資源是數字化轉型前期重要的輔助資源,尤其是針對云及云管這類覆蓋面廣的平臺,合理利用廠商支持夯實產品運維的根基。最后,抓住實干的機會,系統(tǒng)運維修行的兩大核心 ----CASE 和項目,跟蹤 CASE 是檢驗個人運維能力最直接、最有效的方式,通過對故障的分析、推理及判斷完成理論到實踐的轉化,增長運維經驗。項目是對個人運維管理能力的綜合歷練,產品測試選型、架構部署、最佳實踐是最好的實際檢驗標準,豐富項目閱歷。
兩個中心即是“一專多能”的定位與“持續(xù)賦能”的覺悟。開放式架構盛行,業(yè)務下移,開發(fā)運維支撐上行,是必然的趨勢,不懂業(yè)務的運維不是優(yōu)秀的系統(tǒng)管理員。在實際運維過程中,理解并掌握業(yè)務基礎將成為運維管理員部署優(yōu)化、排障定位的有效輔助。系統(tǒng)運維不僅是維持基礎系統(tǒng)的穩(wěn)定,更需要保障與支撐業(yè)務的高效運行,而業(yè)務系統(tǒng)的最佳實踐效果往往依賴系統(tǒng)運維提出業(yè)務系統(tǒng)配置及架構優(yōu)化改良建議。在容器及云服務設計上,資源的 CPU 內存存儲配置、應用架構選型、系統(tǒng)的部署方式與實現,需要全面綜合系統(tǒng)開發(fā)、運維、應用等多位面的協同,業(yè)務基礎即是連接位面的重要樞紐。
如今隨著 DevOps/AIOps 等智能運維管理平臺的落地,不免引發(fā)對運維管理的另一則猜想:運維和管理都能做到智能、自動化了,那系統(tǒng)運維管理員是否會隨著技術發(fā)展逐漸被淘汰呢?
誠然,必須承認的是: AI 技術及算力的突破確實帶來了人工智能的迅速崛起,并且切實解決了一部分基礎問題,實現智能化需求。但我們也要意識到, AI 的智能化極度依賴其模型訓練積累,智能等級越高,其模型越復雜,訓練時間越長,成本越高。在智能化運維平臺的催化下,系統(tǒng)運維的職業(yè)思考更需深謀遠慮,基礎運維工作的接力即將由運維管理員交接給 AI ,而運維管理員則向著更高的管理層次邁進。