一、背景
近幾年來,隨著國內(nèi)云計(jì)算產(chǎn)業(yè)的飛速發(fā)展,以穩(wěn)重發(fā)展為特性的商業(yè)銀行數(shù)據(jù)中心在IT架構(gòu)上也開始了轉(zhuǎn)型,紛紛推進(jìn)IT架構(gòu)云化。在這樣的背景下,銀行數(shù)據(jù)中心云平臺(tái)的架構(gòu)設(shè)計(jì)、產(chǎn)品選型等建設(shè)性話題往往是銀行科技部門關(guān)注的重點(diǎn)。然而,保障業(yè)務(wù)健康運(yùn)行的背后“功臣”——運(yùn)維系統(tǒng)同樣至關(guān)重要,每一次IT系統(tǒng)的轉(zhuǎn)型,保障業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行都是最重要也是最艱難的部分。在當(dāng)前銀行IT系統(tǒng)紛紛向云架構(gòu)轉(zhuǎn)型的時(shí)刻,運(yùn)維系統(tǒng)再一次面臨著新的挑戰(zhàn)。
二、云模式下銀行數(shù)據(jù)中心運(yùn)維的特征
基于云計(jì)算的銀行數(shù)據(jù)中心的運(yùn)維體系主要特征如下。
(一)云計(jì)算集群規(guī)模大
組成云計(jì)算平臺(tái)的節(jié)點(diǎn)通常數(shù)量眾多的普通x86服務(wù)器,平臺(tái)的高可用性不再借助傳統(tǒng)的服務(wù)器硬件冗余方案來實(shí)現(xiàn),而是通過云計(jì)算自身的集群架構(gòu)高可用來保障服務(wù)的連續(xù)性。因此,云計(jì)算環(huán)境下運(yùn)維的基本單位為集群,云運(yùn)維的基本任務(wù),如擴(kuò)容,縮容、運(yùn)行監(jiān)控、事件管理、故障管理等也以集群為單位。而單集群的規(guī)模是衡量云計(jì)算平臺(tái)能力的重要指標(biāo)之一,對(duì)于數(shù)據(jù)中心而言,云計(jì)算集群必須達(dá)到一定規(guī)模才能發(fā)揮云計(jì)算平臺(tái)的高可用、低成本等優(yōu)勢(shì)。因此,云數(shù)據(jù)中心的設(shè)備規(guī)模從幾百向幾千、幾萬甚至幾十萬數(shù)量級(jí)演進(jìn)時(shí),給運(yùn)維帶來了巨大的挑戰(zhàn)。
(二)對(duì)云計(jì)算環(huán)境下的規(guī)范化要求更高
正是由于云計(jì)算環(huán)境發(fā)展的巨大規(guī)模具有可預(yù)見性,對(duì)于銀行數(shù)據(jù)中心,或者說任何一個(gè)計(jì)劃進(jìn)行云建設(shè)的企業(yè)來說,標(biāo)準(zhǔn)化和規(guī)范化,應(yīng)該是需要優(yōu)先于云平臺(tái)落地的東西。
在云計(jì)算的大規(guī)模集群環(huán)境下,集群的部署、遷移、擴(kuò)容等管理依賴于從數(shù)據(jù)中心設(shè)計(jì)、網(wǎng)絡(luò)設(shè)計(jì)、服務(wù)器選型到云平臺(tái)實(shí)現(xiàn)的全局統(tǒng)籌的規(guī)范化。制定規(guī)劃和標(biāo)準(zhǔn),再進(jìn)行設(shè)計(jì)架構(gòu),選擇云平臺(tái)產(chǎn)品,穩(wěn)步推進(jìn)落地實(shí)施方能保證云環(huán)境的建設(shè)朝著安全可控的方向穩(wěn)步發(fā)展。
(三)對(duì)集群的可運(yùn)維性要求更高
云計(jì)算數(shù)據(jù)中心采用了先進(jìn)的動(dòng)態(tài)資源調(diào)配技術(shù)、端到端的資源監(jiān)視和控制技術(shù)以及可量化的資源和負(fù)載匹配機(jī)制,云計(jì)算數(shù)據(jù)中心的最理想狀態(tài)應(yīng)該能實(shí)現(xiàn)7×24小時(shí)無人值守的、可遠(yuǎn)程管理的、設(shè)備到應(yīng)用端到端的統(tǒng)一管理。為確保安全、穩(wěn)定、持續(xù)的運(yùn)行,云計(jì)算數(shù)據(jù)中心需建立高度可信的計(jì)算平臺(tái)和網(wǎng)絡(luò)安全防范體系,建設(shè)數(shù)據(jù)復(fù)制、備份以及容災(zāi)中心。因此相比傳統(tǒng)運(yùn)維模式,云計(jì)算環(huán)境下對(duì)于大規(guī)模集群的可運(yùn)維性、可管理性的要求更高,這也是集群落地的剛性需求。
(四)數(shù)據(jù)中心的服務(wù)特性大大提高
相對(duì)于傳統(tǒng)的數(shù)據(jù)中心,云化后的數(shù)據(jù)中心的服務(wù)特征更加明顯,云數(shù)據(jù)中心將基礎(chǔ)設(shè)施、平臺(tái)、軟件以服務(wù)的形式提供給最終用戶,它利用虛擬化、SDN等技術(shù)將網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)以及應(yīng)用等資源池化,通過自動(dòng)化技術(shù)按需為用戶分配IT資源。因此在云運(yùn)維中IT請(qǐng)求交付流程的地位不斷突出,也使得云運(yùn)維顯示出明顯的運(yùn)營性質(zhì)。
三、云計(jì)算帶來運(yùn)維壓力和挑戰(zhàn)
隨著云計(jì)算技術(shù)的大規(guī)模應(yīng)用,傳統(tǒng)運(yùn)維模式向云計(jì)算環(huán)境下的運(yùn)維模式演進(jìn)面臨很多挑戰(zhàn),主要表現(xiàn)在以下幾個(gè)方面。
(一)運(yùn)維復(fù)雜度大大增加
云數(shù)據(jù)中心的設(shè)備規(guī)模從幾十、幾百向幾萬、幾十萬數(shù)量級(jí)演進(jìn)時(shí),海量硬件設(shè)備的使用對(duì)硬件故障的快速定位和隔離將帶來巨大挑戰(zhàn)。傳統(tǒng)人均50~100臺(tái)設(shè)備的維護(hù)效率,在大規(guī)模云化環(huán)境下,需要投入大量人力。同時(shí),采用虛擬化和分布式彈性技術(shù)也加劇了云數(shù)據(jù)中心的復(fù)雜度。眾多開源技術(shù)的引入也使得運(yùn)維變得越來越復(fù)雜,傳統(tǒng)人工運(yùn)維模式處理速度慢、出錯(cuò)概率高,已不再適用云模式架構(gòu)。
(二)運(yùn)維對(duì)象發(fā)生變化
傳統(tǒng)數(shù)據(jù)中心通常采用“煙囪式”的建設(shè)方式,因此提供的資源是靜態(tài)的,很難在不同IT系統(tǒng)之間進(jìn)行流轉(zhuǎn),難以采用統(tǒng)一的資源池對(duì)其進(jìn)行動(dòng)態(tài)分配。而云計(jì)算數(shù)據(jù)中心的核心優(yōu)勢(shì)在于“先聚合、后分割”,即能將所有IT資源(計(jì)算、存儲(chǔ)和網(wǎng)絡(luò))進(jìn)行集約化,然后針對(duì)多用戶對(duì)其進(jìn)行虛擬化分割,最終根據(jù)用戶的實(shí)際使用需求進(jìn)行動(dòng)態(tài)分配,從而實(shí)現(xiàn)更加靈活高效、低成本地使用資源。因此,運(yùn)維對(duì)象由獨(dú)立的設(shè)備轉(zhuǎn)變?yōu)榛A(chǔ)設(shè)施資源池,由各種監(jiān)控管理工具轉(zhuǎn)變?yōu)樵乒芾砥脚_(tái)、云運(yùn)營平臺(tái)和云監(jiān)控平臺(tái),傳統(tǒng)的運(yùn)維技術(shù)及管理制度不適用于新的運(yùn)維對(duì)象,同時(shí)也對(duì)運(yùn)維人員的經(jīng)驗(yàn)提出了更高要求。
(三)運(yùn)維人員的角色需要轉(zhuǎn)變
傳統(tǒng)運(yùn)維模式下運(yùn)維人員主要重點(diǎn)關(guān)注如何解決生產(chǎn)問題、維護(hù)系統(tǒng)穩(wěn)定健康運(yùn)行。而云模式下的運(yùn)維人員,不應(yīng)該是天天如同救火隊(duì)一樣地去解決問題,而是需要去搭建維護(hù)一個(gè)平臺(tái),來承載項(xiàng)目管理、持續(xù)集成、持續(xù)部署、快速上線等工作。同時(shí),運(yùn)維人員的角色需要從“運(yùn)維管理”轉(zhuǎn)變?yōu)?ldquo;運(yùn)維研發(fā)”,將運(yùn)維和開發(fā)相融合,促進(jìn)應(yīng)用架構(gòu)和基礎(chǔ)架構(gòu)的更好協(xié)同,發(fā)揮技術(shù)合力,提升整體創(chuàng)新能力。
(四)服務(wù)管理流程需要變革
云計(jì)算環(huán)境下系統(tǒng)的建設(shè)與資源的使用由“煙囪式”的獨(dú)建獨(dú)用轉(zhuǎn)變?yōu)槠脚_(tái)建設(shè)與池化共享。因此,服務(wù)管理流程從原有的單一事件管理和故障管理轉(zhuǎn)變?yōu)榻y(tǒng)一的針對(duì)資源發(fā)布、刪除、申請(qǐng)的服務(wù)管理流程,傳統(tǒng)的服務(wù)管理流程已不適用于新的運(yùn)維模式。
四、云模式下運(yùn)維架構(gòu)的轉(zhuǎn)變
(一)運(yùn)維體系重新梳理和建立
利用云計(jì)算技術(shù)池化部署資源及平臺(tái)后,運(yùn)維模式從傳統(tǒng)的“煙囪式”垂直運(yùn)維轉(zhuǎn)變?yōu)闄M向共享模式,運(yùn)維對(duì)象中增加了包含含資源管理和服務(wù)管理在內(nèi)的虛擬化管理層。因此,需要重新梳理并建立新的云計(jì)算運(yùn)維體系。
1、運(yùn)維組織架構(gòu)
云計(jì)算環(huán)境下的運(yùn)維組織架構(gòu)中包含以下三個(gè)運(yùn)維部門。職能管理部門:包括業(yè)務(wù)運(yùn)營管理單位和業(yè)務(wù)平臺(tái)運(yùn)維管理單位。運(yùn)維責(zé)任部門:包括云平臺(tái)運(yùn)維團(tuán)隊(duì)、硬件運(yùn)維團(tuán)隊(duì)和業(yè)務(wù)平臺(tái)運(yùn)維團(tuán)隊(duì)。技術(shù)支撐部門:主要為第三方技術(shù)單位。
2、云計(jì)算環(huán)境下的運(yùn)維崗位
云計(jì)算技術(shù)引入了虛擬化、資源管理、服務(wù)管理后,產(chǎn)生了云平臺(tái)資源管理員、云平臺(tái)操作管理員、云安全管理員、云平臺(tái)統(tǒng)計(jì)分析員等運(yùn)維崗位。
3、云計(jì)算環(huán)境下的運(yùn)維范圍
業(yè)務(wù)平臺(tái)運(yùn)維范圍:包括虛擬機(jī)操作系統(tǒng)及其上的中間件、數(shù)據(jù)庫、應(yīng)用系統(tǒng)、云運(yùn)營平臺(tái)等。云平臺(tái)運(yùn)維范圍:包括虛擬化軟件、云管理平臺(tái)、云監(jiān)控平臺(tái)等。云平臺(tái)硬件運(yùn)維范圍:包括服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)、安全設(shè)備等。
(二)實(shí)行敏捷高效運(yùn)維流程
云模式下運(yùn)維的未來會(huì)是如何呢?其實(shí)近幾年特別火爆的DevOps理念已經(jīng)給大家一個(gè)很好的啟示,未來運(yùn)維必然是在DevOps的基礎(chǔ)上繼續(xù)走下去。DevOps的目的是將一個(gè)項(xiàng)目的發(fā)起、設(shè)計(jì)、開發(fā)、質(zhì)量測試、安全檢查、部署等流程完全標(biāo)準(zhǔn)化、自動(dòng)化、流程化,把運(yùn)維、開發(fā)、項(xiàng)目管理人員緊密配合和無縫銜接,最終達(dá)到端到端的應(yīng)用交付。這是當(dāng)前運(yùn)維領(lǐng)域,比較流行的理念。
在這樣的理念指導(dǎo)下,我們?cè)颇J较聰?shù)據(jù)中心的運(yùn)維部門應(yīng)該圍繞敏捷、高效的創(chuàng)新目標(biāo),持續(xù)改進(jìn)生產(chǎn)運(yùn)維流程,發(fā)揮分布式架構(gòu)的優(yōu)勢(shì),支持敏捷開發(fā)和持續(xù)交付。這樣才可以將運(yùn)維觸角前移,主動(dòng)關(guān)注業(yè)務(wù)變化和營銷計(jì)劃,深入了解業(yè)務(wù)交易特性,加強(qiáng)以用戶為中心的協(xié)作,最終實(shí)現(xiàn)業(yè)務(wù)與科技的融合,將運(yùn)維部門在業(yè)務(wù)發(fā)展中的作用和地位提升到前所未有的高度。在銀行等金融行業(yè)近幾年有不少成功的案例,例如某些中小銀行的互聯(lián)網(wǎng)金融產(chǎn)品的上線和維護(hù)就是依托DevOps的模式實(shí)現(xiàn)了產(chǎn)品功能基于需求變化的快速發(fā)布和變更,得到用戶的高度好評(píng)。
(三)探索智能化運(yùn)維
云數(shù)據(jù)中心的資源規(guī)模、業(yè)務(wù)規(guī)模、組織規(guī)模遠(yuǎn)遠(yuǎn)超過傳統(tǒng)數(shù)據(jù)中心。新設(shè)備的快速部署、快速上線、納管監(jiān)控、資源編排、定期巡檢、升級(jí)和配置變更這些原本就頗為復(fù)雜的工作在規(guī)模和速度的雙重壓力下都變得更加艱巨,同時(shí)系統(tǒng)故障的數(shù)量和頻次遠(yuǎn)超傳統(tǒng)模式,光靠運(yùn)維人員手工操作已不現(xiàn)實(shí),因此在這樣的背景下智能化運(yùn)維手段逐步成為云運(yùn)維的首選。所謂智能化運(yùn)維主要體現(xiàn)在兩個(gè)方面。
1、全生命周期自動(dòng)化管理
云數(shù)據(jù)中心的資源規(guī)模和業(yè)務(wù)規(guī)模都遠(yuǎn)遠(yuǎn)超過傳統(tǒng)數(shù)據(jù)中心。傳統(tǒng)的手工方式實(shí)現(xiàn)云資源和云服務(wù)的上線、監(jiān)控、升級(jí)、變更、擴(kuò)容、限流、降級(jí)與下線的生命周期管理時(shí),效率低下、人員誤操作風(fēng)險(xiǎn)高,自動(dòng)化手段勢(shì)在必行。通過變?nèi)斯ぬ幚頌樽詣?dòng)化處理,提升運(yùn)維的人均維護(hù)效率,滿足業(yè)務(wù)的敏捷要求,逐步向無人值守的自動(dòng)化運(yùn)維最高境界演進(jìn)。
想實(shí)現(xiàn)自動(dòng)化運(yùn)維,就需要建設(shè)一個(gè)以工作流為中心的自動(dòng)化運(yùn)維平臺(tái),運(yùn)載日常運(yùn)維經(jīng)驗(yàn)標(biāo)準(zhǔn)化和工具化的框架,將復(fù)雜操作規(guī)范化、模塊化和簡單化。通過預(yù)先配置好使用頻度較高的變更操作場景,比如已知典型故障的修復(fù)操作、資源池的擴(kuò)/減容、補(bǔ)丁安裝、健康檢查、合規(guī)審計(jì)、軟件批量安裝、管理節(jié)點(diǎn)的配置備份,以及設(shè)備批量上下電等,可以實(shí)現(xiàn)開箱即用,從而大幅提升運(yùn)維的效率,降低變更時(shí)人工誤操作的概率。
2、智能化的故障預(yù)防與自愈
傳統(tǒng)模式下,運(yùn)維人員的工作模式常常是被動(dòng)等待問題發(fā)生,然后再進(jìn)行故障處理。根據(jù)有關(guān)數(shù)據(jù)統(tǒng)計(jì),運(yùn)維人員平均每天計(jì)劃內(nèi)的工作只占50%左右,剩下的時(shí)間都是在到處救火。隨著云數(shù)據(jù)中心規(guī)模快速增長,運(yùn)維人員需要處理的事件量越來越大,人工救火將力不從心。這就需要各家投入科技力量打造一個(gè)智能高效的運(yùn)維平臺(tái),利用大數(shù)據(jù)關(guān)聯(lián)分析與機(jī)器學(xué)習(xí)、態(tài)勢(shì)感知等技術(shù)為運(yùn)維系統(tǒng)賦予人工智能,提供從故障預(yù)防到故障定位、系統(tǒng)自愈、性能優(yōu)化等智能保障能力。當(dāng)然,想要達(dá)到這樣的智能化水平需要很長時(shí)間的研究探索和大成本投入,是需要一個(gè)過程去發(fā)展的。但這是如今云技術(shù)快速發(fā)展環(huán)境下運(yùn)維的發(fā)展趨勢(shì),我們必須順應(yīng)潮流去發(fā)展和提高。
五、總結(jié)
在云計(jì)算飛速發(fā)展的今天,業(yè)務(wù)和科技相結(jié)合甚至技術(shù)帶動(dòng)業(yè)務(wù)已是發(fā)展潮流,金融行業(yè)亦不例外。銀行數(shù)據(jù)中心在發(fā)展云計(jì)算的道路上應(yīng)該首先制定穩(wěn)定的云計(jì)算發(fā)展戰(zhàn)略,將云架構(gòu)標(biāo)準(zhǔn)化,穩(wěn)步推進(jìn)云計(jì)算的建設(shè)。在運(yùn)維架構(gòu)上優(yōu)化組織架構(gòu),推行敏捷高效的運(yùn)維流程,在此基礎(chǔ)上大力探索和發(fā)展智能化運(yùn)維方是未來發(fā)展之路。