本文來自微信公眾號“twt企業(yè)IT社區(qū)”。
信創(chuàng)技術(shù)在企業(yè)得到越來越廣泛的應(yīng)用,并逐步融入現(xiàn)有企業(yè)的IT基礎(chǔ)架構(gòu)當(dāng)中,不斷沖擊和更新現(xiàn)有運維體系。信創(chuàng)運維體系相較于傳統(tǒng)的運維體系,在運維技術(shù)和團隊、運維監(jiān)控、運維基線、容災(zāi)備份以及應(yīng)急處置等方面有哪些突出的變化和風(fēng)險?又應(yīng)當(dāng)如何從容應(yīng)對這些變化?這逐漸成為企業(yè)在更多關(guān)鍵應(yīng)用創(chuàng)新和自主可控落地時的決策參考之一。
本期為大家?guī)怼哆~向YB數(shù)據(jù)時代》2022年冬季刊“精細運營”欄目中的議題一:
信創(chuàng)環(huán)境下,如何利用存儲連接技術(shù)來滿足業(yè)務(wù)的新要求?
【欄目主編】鄧毓江西農(nóng)信運維技術(shù)經(jīng)理:本議題由某農(nóng)商銀行架構(gòu)師胡海光、某金融科技公司資深集成工程師孫偉光、某國有大型銀行資深架構(gòu)師Bryan針對議題下的關(guān)鍵點發(fā)表主張,幾位專家的主張在某金融機構(gòu)架構(gòu)師李威、秦皇島銀行信息科技部總經(jīng)理王登峰及我本人等多位專家的復(fù)議后,形成了一定的共識,供同行參考。
胡海光某農(nóng)商銀行架構(gòu)師:
在信創(chuàng)大趨勢到來之時,只有打造完善的信創(chuàng)標(biāo)準(zhǔn)運維體系、優(yōu)化運維管理工具、提升信創(chuàng)技術(shù)積累、制定信創(chuàng)運維應(yīng)急處置方案,才能從容應(yīng)對信創(chuàng)變革,保障企業(yè)數(shù)字化的順利轉(zhuǎn)型和業(yè)務(wù)的穩(wěn)定運行。
隨著我國信息技術(shù)產(chǎn)業(yè)的快速發(fā)展,信息技術(shù)創(chuàng)新能力大幅提升,產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化升級取得實質(zhì)進展,呈現(xiàn)出整體產(chǎn)業(yè)由弱向強轉(zhuǎn)變的趨勢,當(dāng)前已經(jīng)具備信創(chuàng)應(yīng)用推廣和發(fā)展基礎(chǔ)。同時作為數(shù)字“新基建”的重要組成部分,伴隨國產(chǎn)化、信創(chuàng)化趨勢浪潮的不斷推進,信創(chuàng)技術(shù)和方案逐漸發(fā)展成熟和實踐落地,推動著整體產(chǎn)業(yè)朝數(shù)字化轉(zhuǎn)型和國產(chǎn)自主可控的方向穩(wěn)步前行,越來越成為經(jīng)濟社會發(fā)展的核心驅(qū)動力。
對于信創(chuàng)方案落地的實現(xiàn)方式而言,不是簡單和盲目的國產(chǎn)化替換,也不是對國外產(chǎn)品和架構(gòu)的粗暴否定,而是在不犧牲性能和穩(wěn)定的前提下,伴隨信創(chuàng)技術(shù)的成熟和積累,有目的、有計劃的逐步逐次實現(xiàn)有效嘗試和替換。
對于信息系統(tǒng)而言,業(yè)務(wù)的連續(xù)性和運行的穩(wěn)定性關(guān)系著信息系統(tǒng)服務(wù)質(zhì)量的好壞,而連續(xù)性和穩(wěn)定性則是需要靠運維來支撐和保障,因此一套良好且適合的運維體系則是信息系統(tǒng)運行的方向指引和保障基礎(chǔ)。而信創(chuàng)信息系統(tǒng)的運維體系相比傳統(tǒng)的運維體系,就本質(zhì)和內(nèi)在而言存在著一定的區(qū)別,本文就信創(chuàng)運維體系給運維帶來的變化進行簡要說明。
以辦公管理系統(tǒng)應(yīng)用信創(chuàng)改造為例,該系統(tǒng)信創(chuàng)目標(biāo)為實現(xiàn)辦公管理系統(tǒng)在服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、中間件、OA系統(tǒng)、電子簽章等軟件、終端的全棧式國產(chǎn)化建設(shè)。在滿足國產(chǎn)化要求的基礎(chǔ)上實現(xiàn)辦公管理系統(tǒng)新建和歷史數(shù)據(jù)的遷移,最終完成該系統(tǒng)的全棧信創(chuàng)改造。而改造的落地方式分為可行性分析、選型、技術(shù)驗證、方案設(shè)計、應(yīng)用適配改造及測試、試點運行、項目遷移等幾個階段。
1)可行性分析:即對系統(tǒng)進行信創(chuàng)技術(shù)分析,編寫信創(chuàng)實施方案,確認項目計劃;
2)選型:與市場主流的信創(chuàng)芯片服務(wù)器、操作系統(tǒng)、軟件、終端等廠商進行交流、初步確認候選范圍;
3)技術(shù)驗證:實現(xiàn)應(yīng)用適配改造論證、驗證測試,并確認信創(chuàng)產(chǎn)品選用方案;
4)方案設(shè)計:即完成項目整體的方案設(shè)計并進行評審;
5)應(yīng)用適配改造及測試:即對應(yīng)用進行適配開發(fā)改造、驗證測試等工作;
6)試點運行:將開發(fā)及測試完成的應(yīng)用在信創(chuàng)環(huán)境上進行試點運行及試點跟蹤;
7)項目遷移:待試點運行成熟后,將該應(yīng)用切換為雙軌運行并總結(jié)項目經(jīng)驗,完成項目驗收。
該系統(tǒng)的部署架構(gòu)圖如圖1所示。
圖1:應(yīng)用信創(chuàng)改造部署架構(gòu)圖
由于該系統(tǒng)是全棧的信創(chuàng)改造,涉及到國芯服務(wù)器和交換機、國產(chǎn)存儲設(shè)備、操作系統(tǒng)、中間件、數(shù)據(jù)庫和安全軟件等,產(chǎn)品種類較多,范圍較廣,運維難度較大。因此對于信創(chuàng)應(yīng)用的運維來說,如何建立一套適合的運維體系關(guān)系著信創(chuàng)應(yīng)用運行的好壞和運維的后續(xù)保障。相比于傳統(tǒng)的運維體系而言,雖然在框架和方法上可以完全參照,但在具體運維方面上仍存在著一定的區(qū)別,如果完全復(fù)制傳統(tǒng)運維體系,則存在著無效管理、處置速度慢、運維體系缺失等問題?;诖爽F(xiàn)就信創(chuàng)應(yīng)用運維體系的相應(yīng)變化進行簡要說明。
1)運維技術(shù)和團隊方面
因信創(chuàng)改造涉及到各類軟硬件的國產(chǎn)化替代,部分產(chǎn)品還未在國內(nèi)大規(guī)模普及,運維人員對于以上軟硬件產(chǎn)品及相應(yīng)技術(shù)的技能儲備有限,對產(chǎn)品、技術(shù)特性了解不夠充分,對國內(nèi)自主產(chǎn)品體系尚未完全適應(yīng)。而相比傳統(tǒng)運維所用的技術(shù)已比較成熟,運維團隊人員配備也較充足,運維人員技術(shù)掌握度也較高;
2)運維監(jiān)控方面
傳統(tǒng)運維對相應(yīng)應(yīng)用的監(jiān)控指標(biāo)和維度已日趨穩(wěn)定,相應(yīng)的監(jiān)控和處置體系也較成熟,而信創(chuàng)應(yīng)用運維監(jiān)控體系仍在起步和發(fā)展階段,需隨著信創(chuàng)產(chǎn)品特性不斷完善,以及在應(yīng)用持續(xù)運行過程中持續(xù)調(diào)整和優(yōu)化;
3)運維基線方面
相比于傳統(tǒng)運維在運維基線方面比較成熟和明確,信創(chuàng)運維基線仍處在起步階段,相應(yīng)的操作系統(tǒng)和軟件等還未明確相應(yīng)的基線;
4)容災(zāi)備份方面
目前傳統(tǒng)應(yīng)用在容災(zāi)和備份方面采用的產(chǎn)品和解決方案大都為國外產(chǎn)品,如HADR、SRM及NBU等,產(chǎn)品功能強大且運行穩(wěn)定,而全棧信創(chuàng)在容災(zāi)備份方面需同國產(chǎn)容災(zāi)備份產(chǎn)品進行相應(yīng)的適配和驗證;
5)應(yīng)急處置方面
傳統(tǒng)應(yīng)用在應(yīng)急處置方面,處置方案及文檔齊全且進行多次的演練和驗證,在應(yīng)急處置方面較為成熟,而對于信創(chuàng)應(yīng)用而言應(yīng)急處置方案有些尚未體系化,演練缺失,缺乏有效的應(yīng)急處置經(jīng)驗。
當(dāng)然這是由于信創(chuàng)產(chǎn)業(yè)在當(dāng)前特殊背景下產(chǎn)生的一定問題,就信創(chuàng)運維體系而言還存在著如下風(fēng)險:
1)技術(shù)風(fēng)險
當(dāng)前整個信創(chuàng)環(huán)境如操作系統(tǒng)、CPU等硬件、數(shù)據(jù)庫、中間件等既相互協(xié)作又相互影響和制約,而當(dāng)前信創(chuàng)處于一個快速發(fā)展階段,因此在實際環(huán)境中就形成了一個個相對獨立的孤島,硬件不同、操作系統(tǒng)版本不同、應(yīng)用軟件千差萬別,這就對技術(shù)路線選型提出了很高的要求,既要向前兼容也需要向后兼容,否則產(chǎn)品的實施成本和維護成本就會急劇增大;
2)運維風(fēng)險
國產(chǎn)化產(chǎn)品多為各廠商自研或基于開源平臺封裝,同時各產(chǎn)品還未在國內(nèi)大規(guī)模普及,因此對產(chǎn)品的熟悉程度還存在欠缺,對專業(yè)技術(shù)人員的培養(yǎng)還存在差距。因此當(dāng)系統(tǒng)或產(chǎn)品發(fā)故障時,能否進行故障的快速定位、處理,能否對業(yè)務(wù)進行快速恢復(fù),減少業(yè)務(wù)損失成為一大風(fēng)險點;
3)開源風(fēng)險
信創(chuàng)產(chǎn)品生態(tài)非常龐大,能夠完全不依賴第三方開源代碼的公司非常少,為了提高運維效率,大量使用第三方開源代碼,無形之中給整個信創(chuàng)生態(tài)體系埋下隱患,一是違反開源協(xié)議產(chǎn)生侵權(quán)行為,面臨巨額罰款或者是停止侵權(quán)行為;二是有很多開源軟件具有故意留下的后門,存在巨大的安全漏洞而造成敏感信息的泄露或者是被操縱。
結(jié)合信創(chuàng)應(yīng)用以上存在的變化及風(fēng)險,就信創(chuàng)應(yīng)用帶來的運維變化而言,我們應(yīng)對的方案如下:
1)建立信創(chuàng)運維體系。結(jié)合ITSS和ITIL的要求,建立標(biāo)準(zhǔn)的信創(chuàng)應(yīng)用運維管理體系,形成完善的運維管理制度,同時結(jié)合國產(chǎn)化產(chǎn)品的特性,形成專有的運維管理體系,以保障信創(chuàng)相關(guān)應(yīng)用的穩(wěn)定運行;
2)提升信創(chuàng)技術(shù)能力。針對目前信創(chuàng)應(yīng)用技術(shù)能力缺乏的現(xiàn)狀,就信創(chuàng)相關(guān)技術(shù)開展相應(yīng)的交流、培訓(xùn)、認證等多種形式的活動,提升人員的技術(shù)能力;
3)完善人才配備和培養(yǎng)機制。加強各類引入技術(shù)的相關(guān)學(xué)習(xí)和培訓(xùn),在各類系統(tǒng)實施信創(chuàng)改造時確保做好知識轉(zhuǎn)移,也可通過同業(yè)調(diào)研、交流學(xué)習(xí)的方式,來提升自身人員的專業(yè)水準(zhǔn);
4)制定全面的應(yīng)急方案。針對系統(tǒng)硬件故障及系統(tǒng)軟件缺陷等風(fēng)險制訂全面的應(yīng)急預(yù)案。并根據(jù)項目重要程度合理規(guī)劃應(yīng)急預(yù)案演練的形式、數(shù)量和規(guī)模,提前安排人員和團隊進行演練,保障項目實施的有序可控。
本文以辦公管理系統(tǒng)信創(chuàng)應(yīng)用改造的過程為例,結(jié)合信創(chuàng)運維體系存在的差異和風(fēng)險進行綜合分析,雖然信創(chuàng)運維體系在目前仍有不足和缺失,但信創(chuàng)的趨勢已是大勢所趨,隨著國家“十四五”數(shù)字化的推進,信創(chuàng)產(chǎn)業(yè)發(fā)展必將持續(xù)深化,行業(yè)拓展也將不斷加速。而信創(chuàng)運維體系的建立,是信創(chuàng)產(chǎn)業(yè)持續(xù)發(fā)展和加速推進的堅實保障,因此對信創(chuàng)運維體系的帶來的變革值得我們深入研究和探索。在信創(chuàng)大趨勢到來之時,只有打造信創(chuàng)標(biāo)準(zhǔn)運維體系、優(yōu)化運維管理工具、提升信創(chuàng)技術(shù)積累、制定信創(chuàng)運維應(yīng)急處置方案,才能從容應(yīng)對信創(chuàng)變革,保障企業(yè)數(shù)字化的順利轉(zhuǎn)型和業(yè)務(wù)的穩(wěn)定運行。
孫偉光某金融科技公司資深集成工程師:
隨著信創(chuàng)的發(fā)展,迫切需要一個統(tǒng)一的IT運維系統(tǒng),能為各應(yīng)用系統(tǒng)、各種硬件基礎(chǔ)設(shè)施等提供一個綜合的運維管理平臺,實現(xiàn)集中的、實時的、可視化的、智能化的業(yè)務(wù)運行監(jiān)控管理和服務(wù)流程平臺,以便即時了解IT系統(tǒng)整體運行狀況,及時發(fā)現(xiàn)存在的隱患、風(fēng)險以及瓶頸所在,從而做出快速響應(yīng),確保各項業(yè)務(wù)的持續(xù)穩(wěn)定運作。實現(xiàn)日常運維管理工作的標(biāo)準(zhǔn)化、規(guī)范化、流程化和制度化,全面提升整體運維管理水平。
信創(chuàng)是“信息技術(shù)應(yīng)用創(chuàng)新”的簡稱,其產(chǎn)業(yè)主要包括新一代信息技術(shù)下的云計算、軟件(操作系統(tǒng)、中間件、數(shù)據(jù)庫、各類應(yīng)用軟件)、硬件(GPU/CPU、主機、各類終端)、安全(網(wǎng)絡(luò)安全)等領(lǐng)域,涵蓋了從IT底層基礎(chǔ)軟硬件到上層應(yīng)用軟件的全產(chǎn)業(yè)鏈的安全可控、自主創(chuàng)新等重要領(lǐng)域。
進入數(shù)字化時代以來,企業(yè)正在不斷加大軟硬件投入,以強化自身的數(shù)字化能力。而在信創(chuàng)政策驅(qū)動需求下,企業(yè)一般采用全棧信創(chuàng)的方案完成新建或改造系統(tǒng)IT基礎(chǔ)環(huán)境的建設(shè),從而衍生出了信創(chuàng)背景下的IT基礎(chǔ)架構(gòu)運維需求。目前軟硬件原廠商為企業(yè)提供一定的基礎(chǔ)運維,從企業(yè)運營角度看,并不能滿足其自身的業(yè)務(wù)穩(wěn)定性需要,所以提升運維能力是數(shù)字化時代企業(yè)進行轉(zhuǎn)型和發(fā)展必然需求。
金融業(yè)作為當(dāng)前IT建設(shè)和應(yīng)用的標(biāo)桿行業(yè),其IT運維水平和能力也是最高的,在行業(yè)監(jiān)管政策要求下,信創(chuàng)應(yīng)用不斷落地,如果沿用傳統(tǒng)架構(gòu)運維思路和產(chǎn)品將難以滿足信創(chuàng)應(yīng)用對運維迫切需求。
一、信創(chuàng)架構(gòu)下典型的運維方案設(shè)計
為確保信息化應(yīng)用的可用性和連續(xù)性,構(gòu)建以信息安全保障和系統(tǒng)運行保障為基礎(chǔ)的規(guī)范化運維服務(wù)保障體系,建立運維管理機制,明確以事件管理、問題管理等環(huán)節(jié)為基礎(chǔ)的運維服務(wù)流程。分析發(fā)生在生產(chǎn)運行環(huán)境的事件,確定最常發(fā)生或具有最大影響的事件,找出根本原因,通過預(yù)防性措施來防止事件的再次發(fā)生,保障系統(tǒng)、網(wǎng)絡(luò)、業(yè)務(wù)運行的穩(wěn)定性。
銀行的IT系統(tǒng)包含有業(yè)務(wù)系統(tǒng)、管理系統(tǒng)、辦公系統(tǒng)三類。目前,我司辦公系統(tǒng)(OA、郵件)完成了信創(chuàng)改造。但由于產(chǎn)品及兼容性問題無法與現(xiàn)有的運維及監(jiān)控管理平臺對接,造成了現(xiàn)有信創(chuàng)系統(tǒng)采用手工方式監(jiān)控管理,缺乏集中統(tǒng)一的主動式監(jiān)控報警,故障預(yù)警能力差,不能全面反映系統(tǒng)運行的性能狀況及提前發(fā)現(xiàn)系統(tǒng)的潛在隱患。
信創(chuàng)系統(tǒng)運維工作占用了較多的人力資源,由于缺乏有效的服務(wù)流程工具,需要較多的運維人員才能完成對關(guān)鍵信息系統(tǒng)的運行監(jiān)控和維護操作,運維人員的數(shù)量會隨著信息系統(tǒng)的增加而不斷增加。要改變這種局面,需要梳理整個運維工作流程,建立一個服務(wù)流程平臺,實現(xiàn)運行監(jiān)控、系統(tǒng)維護和系統(tǒng)建設(shè)三個環(huán)節(jié)的人員分離,減少人力資源占用。同時,在故障管理、問題管理、配置管理流程控制方面雖有制度但缺乏相應(yīng)剛性約束。
獨立的運行態(tài)勢分析,缺乏關(guān)聯(lián)和整體性。由于信創(chuàng)應(yīng)用系統(tǒng)獨立運行、維護和管理,所以與傳統(tǒng)系統(tǒng)的運行態(tài)勢分析和審計也是相互獨立的,不但各個系統(tǒng)會單獨分析,即使同一系統(tǒng)中的每個網(wǎng)絡(luò)設(shè)備,每個主機系統(tǒng)及每個數(shù)據(jù)庫系統(tǒng)都要分別進行分析,缺乏集中統(tǒng)一的系統(tǒng)分析。同時在故障發(fā)生后,缺乏對故障進行跟蹤記錄分析以提供解決故障的準(zhǔn)確依據(jù)。
通過對信創(chuàng)架構(gòu)下運維需求分析,產(chǎn)品選型設(shè)計需要遵循如下原則和運維管理制度機制。
•開放性原則:遵循各類標(biāo)準(zhǔn)化協(xié)議與規(guī)范,通過豐富的適配器滿足各種國產(chǎn)網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫、中間件、業(yè)務(wù)應(yīng)用系統(tǒng)等多樣性需求。
•可擴展、易集成原則:能適應(yīng)不斷發(fā)展的業(yè)務(wù)需求。實現(xiàn)具備高度集成性,可以和第三方產(chǎn)品(其他系統(tǒng)監(jiān)控軟硬件互聯(lián)或接入本系統(tǒng)進行監(jiān)控提供接口)進行集成,進行功能擴展,方便統(tǒng)一管理。
•兼容性:持續(xù)跟進國產(chǎn)各品牌設(shè)備型號的升級適配,全面保障系統(tǒng)穩(wěn)定可靠運行。實現(xiàn)一體化多級管控、集中告警、運維管理。
建立相應(yīng)的運維管理應(yīng)急機制:突發(fā)事件應(yīng)急策略是對中斷或嚴重影響業(yè)務(wù)的故障、宕機、數(shù)據(jù)丟失等進行快速響應(yīng)和處理,在最短時間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng),將損失降到最低。在系統(tǒng)維護過程中,突發(fā)事件的出現(xiàn)是很難完全避免的,針對這種情況,我們設(shè)計了完善的突發(fā)事件應(yīng)急策略:定期規(guī)范檢查各硬件設(shè)備的運轉(zhuǎn)情況和應(yīng)用軟件運行情況,同時根據(jù)現(xiàn)場環(huán)境,建立合理的數(shù)據(jù)備份和恢復(fù)方案,做好日常的數(shù)據(jù)增量備份和定期全備份,確保備份數(shù)據(jù)的完整性、有效性、正確性。當(dāng)出現(xiàn)比較嚴重的故障,數(shù)據(jù)被破壞時,根據(jù)數(shù)據(jù)恢復(fù)方案,采取數(shù)據(jù)備份恢復(fù)的措施,保證數(shù)據(jù)的正確恢復(fù)。
二、信創(chuàng)架構(gòu)和傳統(tǒng)架構(gòu)運維不同之處
1)信創(chuàng)整個生態(tài)還不夠成熟,軟硬件適配工作尤為重要,尤其是在產(chǎn)品自身運行維護上還是依賴廠商或者服務(wù)商在信創(chuàng)領(lǐng)域的經(jīng)驗,不同的產(chǎn)品組合需要有廠商的互認證或成熟部署案例來最大限度地消除適配存在的隱患;
2)信創(chuàng)項目的軟硬件產(chǎn)品比傳統(tǒng)IT項目中的軟硬件產(chǎn)品在性能上還存在一定差距,需要盡可能根據(jù)實際工作需求配置性能最優(yōu)的產(chǎn)品,提升最終用戶的使用體驗;
3)信創(chuàng)技術(shù)正在迅速發(fā)展之中,產(chǎn)品更新較快,要保證系統(tǒng)穩(wěn)定、有序、持續(xù)地運行和升級,就必須嚴格控制產(chǎn)品版本。建議根據(jù)信創(chuàng)項目特點,建立版本控制體系,對于已適配的產(chǎn)品組合,嚴格控制其組件的版本。
總之,信創(chuàng)項目涉及的產(chǎn)品較多,集成復(fù)雜度高,在項目實施前應(yīng)對項目風(fēng)險點進行充分的評估,在人員、制度、技術(shù)以及資源等多方面不斷改善和優(yōu)化運維體系,保障運維工作的穩(wěn)定有序,提高運維效率。
綜上所述,隨著信創(chuàng)的發(fā)展,迫切需要一個統(tǒng)一的IT運維系統(tǒng)能為各應(yīng)用系統(tǒng)、各種硬件基礎(chǔ)設(shè)施等提供一個綜合的運維管理平臺,實現(xiàn)集中的、實時的、可視化的、智能化的業(yè)務(wù)運行監(jiān)控管理和服務(wù)流程平臺,以便即時了解IT系統(tǒng)整體運行狀況,及時發(fā)現(xiàn)存在的隱患、風(fēng)險以及瓶頸所在,從而做出快速響應(yīng),確保各項業(yè)務(wù)的持續(xù)穩(wěn)定運作。實現(xiàn)日常運維管理工作的標(biāo)準(zhǔn)化、規(guī)范化、流程化和制度化,全面提升整體運維管理水平。為此需要注意以下幾個方面:
加強運維意識:樹立運維團隊的責(zé)任意識,風(fēng)險意識。統(tǒng)一思想,提高運維職業(yè)素養(yǎng),加強責(zé)任心,培養(yǎng)良好運維習(xí)慣,激勵運維團隊的主動性是首要任務(wù)。
預(yù)防為主:通過主動性運維工作減少事件發(fā)生概率,把大多數(shù)工作逐步納入常規(guī)、計劃性日常工作管理范疇,主要內(nèi)容包括但不限于容量評估、性能分析、定期維護、例行重啟、健康檢查、備份策略、高可用評估加固、系統(tǒng)運行基線建立、問題管理、應(yīng)急演練等工作。
及時發(fā)現(xiàn):盡早及時發(fā)現(xiàn)系統(tǒng)異常現(xiàn)象,并及時通知報告到相關(guān)人員。主要工作內(nèi)容是不斷加強監(jiān)控覆蓋面,加強監(jiān)控自動化手段,加強監(jiān)控發(fā)現(xiàn)的有效性、及時性、正確性,持續(xù)改進。優(yōu)化發(fā)現(xiàn)報告流程。
高效處置:提高事件處理能力,具備快速恢復(fù)生產(chǎn)服務(wù)能力。主要工作包括但不局限于建立優(yōu)化事件處理流程、技術(shù)技能交流、知識積累經(jīng)驗共享、完善應(yīng)急預(yù)案,提高決策質(zhì)量效率、問題定位解決方法、事件解決手段,解決有效溝通和技術(shù)支持體系等。
合規(guī)操作:控制風(fēng)險,有效避免、減少、控制操作風(fēng)險、減少和規(guī)避各類人為事件。主要內(nèi)容包括但不局限于日常安全操作要求、相關(guān)制度、規(guī)范;上線、變更、演練、驗證相關(guān)的實施控制要求;運維人員安全風(fēng)險意識的建立、培養(yǎng);日常工作習(xí)慣要求;建立、貫徹操作、審批、實施流程等。
Bryan某國有大型銀行資深架構(gòu)師:
面臨數(shù)字化轉(zhuǎn)型和信創(chuàng)帶來的運維挑戰(zhàn),企業(yè)應(yīng)建立以用戶為中心的理念,全面對標(biāo)行業(yè)最高運維標(biāo)準(zhǔn),聚焦平臺能力沉淀,建設(shè)可感可知、可管可控、可計可析的運維能力,全面提升企業(yè)運維水平。
數(shù)字化轉(zhuǎn)型大勢所趨,各企業(yè)通過深化數(shù)字技術(shù)在生產(chǎn)、運營、管理和營銷等環(huán)節(jié)的應(yīng)用,實現(xiàn)企業(yè)的數(shù)字化、智能化發(fā)展,不斷釋放數(shù)字技術(shù)對經(jīng)濟發(fā)展的加速倍增作用。2021年信創(chuàng)工程進入2.0時代,金融、電力等國家關(guān)鍵信息基礎(chǔ)設(shè)施行業(yè)正全面實施信創(chuàng)工程。企業(yè)業(yè)務(wù)重塑和基礎(chǔ)設(shè)施的信創(chuàng)的同步推進,給IT運維帶來巨大挑戰(zhàn)。本文將結(jié)合多年經(jīng)驗淺析金融行業(yè)的信創(chuàng)運維體系建設(shè)。
一、業(yè)務(wù)方面
各家銀行正在以客戶為中心重塑業(yè)務(wù)。通過定義商業(yè)策略、管理、組織和流程等重新梳理業(yè)務(wù),拆分重組業(yè)務(wù)要素,設(shè)計領(lǐng)域模型并抽象現(xiàn)實業(yè)務(wù)。這會帶來大量業(yè)務(wù)系統(tǒng)建設(shè)升級。
二、技術(shù)方面
云計算、大數(shù)據(jù)、人工智能等新興技術(shù)使用進入深水區(qū),分布式架構(gòu)應(yīng)用日漸廣泛,DevOps、AIOps等新研發(fā)運維模式擴大推廣。業(yè)務(wù)和技術(shù)的改變均帶來極大的運維挑戰(zhàn):
1)分布式架構(gòu)加劇運維復(fù)雜性
分布式微服務(wù)架構(gòu)的推廣使得交易鏈條變長,系統(tǒng)和應(yīng)用各環(huán)節(jié)間的依賴關(guān)系錯綜復(fù)雜,僅單一環(huán)節(jié)故障就可能拖垮多個系統(tǒng)。從主機下移到開放平臺后,裸金屬、虛擬機、容器等物理資源數(shù)量呈現(xiàn)指數(shù)級增長。這使得監(jiān)控節(jié)點增多且復(fù)雜、參數(shù)配置繁多且易出錯。
2)信創(chuàng)設(shè)施穩(wěn)定性有待時間檢驗
從各種異構(gòu)CPU到操作系統(tǒng),再到各類中間件,信創(chuàng)設(shè)施正在從外圍系統(tǒng)逐步推廣到核心業(yè)務(wù)系統(tǒng)。但各類產(chǎn)品之間及其自身的兼容性和穩(wěn)定性的生產(chǎn)運行時間較短,尚未經(jīng)過高并發(fā)、大數(shù)據(jù)量等各種復(fù)雜業(yè)務(wù)場景的驗證,組織級信心還有待提升。
3)系統(tǒng)業(yè)務(wù)連續(xù)性要求更高
應(yīng)用架構(gòu)變化和基礎(chǔ)設(shè)施升級給系統(tǒng)業(yè)務(wù)連續(xù)性帶來挑戰(zhàn),運維工作正處于能力提升和爬坡的關(guān)鍵階段。外部監(jiān)管部門的運維要求不降反升,提出了更高的RTO和RPO的業(yè)務(wù)連續(xù)性要求。
4)新技術(shù)能力體系建設(shè)尚需時間
運維平臺建設(shè)和日常故障處置對人員技能的要求較高。云計算、大數(shù)據(jù)、人工智能等創(chuàng)新技術(shù)涵蓋范圍廣、更迭速度快。建立全面合格的企業(yè)級人員技能儲備還需要較長時間。
三、應(yīng)對方案
面臨數(shù)字化轉(zhuǎn)型和信創(chuàng)帶來的運維挑戰(zhàn),企業(yè)應(yīng)建立以用戶為中心的理念,全面對標(biāo)行業(yè)最高運維標(biāo)準(zhǔn),聚焦平臺能力沉淀,建設(shè)可感可知、可管可控、可計可析的運維能力,全面提升企業(yè)運維水平。
1)優(yōu)化完善企業(yè)運維制度和機制
傳統(tǒng)運維時,操作系統(tǒng)、中間件和網(wǎng)絡(luò)等部門職責(zé)明確,易于定位,但是,云時代的容器等平臺模糊了系統(tǒng)和應(yīng)用之間以及系統(tǒng)內(nèi)部的邊界。在定位問題時,部門間的配合方式和職責(zé)都發(fā)生較大變化,傳統(tǒng)機制難以適應(yīng),需要企業(yè)調(diào)整組織架構(gòu),優(yōu)化各團隊的技術(shù)背景。在研發(fā)部門,建立基礎(chǔ)設(shè)施團隊,發(fā)揮熟悉研發(fā)的特長,加強對研發(fā)團隊的基礎(chǔ)設(shè)施技術(shù)支持;在運維部門,在新技術(shù)運維團隊中擴充具有操作系統(tǒng)、網(wǎng)絡(luò)等多種技術(shù)背景的人員,降低運維團隊之間的溝通成本,甚至從研發(fā)部門引入經(jīng)驗豐富的研發(fā)人員,提升運維平臺的研發(fā)水平,加快應(yīng)用故障的定位速度。
梳理現(xiàn)有規(guī)章制度和流程機制,結(jié)合新技術(shù)特點進行調(diào)整。比如,金融行業(yè)流行的WAS、Weblogic等換成了PaaS平臺的Tomcat等輕量級中間件,這需梳理各部門對YAML文件的配置規(guī)范和職責(zé)分工。研發(fā)部門需配合運維做好應(yīng)用就緒和探活的配置,運維部門配合研發(fā)做好應(yīng)用資源的估算和彈性擴縮容配置。在生產(chǎn)故障時,傳統(tǒng)方式下的中間件團隊確認其正常后,即由項目組自行排查相關(guān)故障,但現(xiàn)在,則需各團隊有序配合全方面的故障點定位,在故障定位前各團隊難以自證無慣性。
2)研發(fā)一體化運維管控平臺
面臨繁多的參數(shù)變更和冗長的交易鏈條等挑戰(zhàn),將各種繁重復(fù)雜的工作沉淀整合到一體化運維管控平臺,聚焦監(jiān)控告警、配置管理、變更應(yīng)急、運維分析等領(lǐng)域的平臺化建設(shè)。
面臨開放平臺幾何級增長的軟硬件資源,重點建設(shè)CMDB平臺,形成統(tǒng)一的完整、全面、準(zhǔn)確的資源視圖。這有助于提升企業(yè)IT資產(chǎn)管理水平,有助于根據(jù)生產(chǎn)運行情況進行架構(gòu)優(yōu)化管控,如外部監(jiān)管的數(shù)據(jù)統(tǒng)一報送、軟件升級和漏洞防控等專項治理工作推進、研發(fā)運維的工作后評價、IT資產(chǎn)及關(guān)聯(lián)關(guān)系管控等。
在監(jiān)控告警方面,通過各類基礎(chǔ)設(shè)施的管控平臺實現(xiàn)全面的“點式”監(jiān)控,通過全鏈路平臺實現(xiàn)交易級的“線式”監(jiān)控,通過IT資產(chǎn)平臺實現(xiàn)應(yīng)用間的“面式”監(jiān)控。新型監(jiān)控平臺有助于事前建立視圖、事中定位問題和事后預(yù)測分析。
在配置管理方面,結(jié)合業(yè)務(wù)系統(tǒng)的投產(chǎn)、變更和下線的生命周期,一方面建立各類投產(chǎn)變更流水線,避免出現(xiàn)參數(shù)配置的遺漏和錯誤,一方面通過歷史版本的縱向?qū)Ρ群拖到y(tǒng)之間的橫向?qū)Ρ龋l(fā)現(xiàn)潛在的配置風(fēng)險,生成優(yōu)化建議。
在變更應(yīng)急方面,在日常變更時,通過參數(shù)化腳本實現(xiàn)投產(chǎn)變更、應(yīng)用驗證和監(jiān)控檢查的常規(guī)操作,降低各類操作的難度,提升變更效率,減少出現(xiàn)風(fēng)險。綜合分析日常故障處置流程,對應(yīng)用切換、服務(wù)啟停、版本回退、故障隔離、限流等常規(guī)操作建立響應(yīng)操作流水線,實現(xiàn)一鍵處置,最大限度降低故障的影響時間和范圍。
在運維分析方面,研發(fā)智能運維分析平臺,利用歷史數(shù)據(jù)建立并優(yōu)化各類AI運維模型,一方面預(yù)測系統(tǒng)容量需求并及時調(diào)整,一方面預(yù)測潛在故障并及時介入處置。
在容災(zāi)建設(shè)方面,建立兩地三中心的常規(guī)化容災(zāi)演練機制,通過各類不定時切換演練發(fā)現(xiàn)運維短板和問題,確保發(fā)生生產(chǎn)故障時真正可切、可用。
3)加強研發(fā)過程管控標(biāo)準(zhǔn)
投產(chǎn)前,按“所測即所投”的方式完成性能壓測,確保關(guān)鍵交易性能等指標(biāo)可滿足預(yù)期生產(chǎn)需求。通過自研混沌測試平臺逐步積累各類系統(tǒng)級和應(yīng)用級的故障場景案例,在控制爆炸半徑前提下進行多種類、多場景的故障場景測試,不斷提升基礎(chǔ)設(shè)施的健壯性、應(yīng)用系統(tǒng)的可靠性和監(jiān)控的全面性。將運維平臺接口規(guī)范沉淀到研發(fā)平臺,在減少研發(fā)工作量的同時提升應(yīng)用的可觀測性、監(jiān)控的標(biāo)準(zhǔn)化和規(guī)范化。
投產(chǎn)后,建立生產(chǎn)事件單臺賬,全面分析問題根本原因,形成對應(yīng)用研發(fā)指導(dǎo)的反饋閉環(huán)。比如,MySQL因美國夏令時的時區(qū)配置錯誤導(dǎo)致業(yè)務(wù)中斷一小時,研發(fā)部門修改數(shù)據(jù)庫配置規(guī)范和研發(fā)指導(dǎo),對存量應(yīng)用系統(tǒng)完成規(guī)范治理,確保不會出現(xiàn)類似錯誤。
4)提升全員技能水平提升
在員工方面,在企業(yè)內(nèi)部通過技術(shù)分享、專題培訓(xùn)等方式對員工進行分階段、分類別的技能提升;強化個人專項技能的同時,不斷擴充其技術(shù)視野。建立研發(fā)左移機制,讓員工全程參與應(yīng)用研發(fā)全過程,熟悉其技術(shù)架構(gòu);鼓勵參加各類具有技術(shù)含量的官方認證考試,以考促練的形式逐步提升團隊技能。
在企業(yè)方面,通過聯(lián)合創(chuàng)新等方式,與合作企業(yè)針對企業(yè)的業(yè)務(wù)場景,不斷迭代打磨產(chǎn)品,讓員工在參與產(chǎn)品研發(fā)的過程中逐步提升對產(chǎn)品的認知水平和理解深度。
四、總結(jié)
由此可見,隨著信創(chuàng)工程不斷走入深水區(qū),企業(yè)需要建立配套的組織和規(guī)章制度,加強一體化運維平臺的建設(shè)和人員技能軟實力的提升,在數(shù)字化轉(zhuǎn)型過程中逐步建立打磨出一套適合企業(yè)自身特點的運維管理體系。
結(jié)束語
由此可見,隨著信創(chuàng)工程不斷走入深水區(qū),企業(yè)需要建立配套的組織和規(guī)章制度,加強一體化運維平臺的建設(shè)和人員技能軟實力的提升,在數(shù)字化轉(zhuǎn)型過程中逐步建立打磨出一套適合企業(yè)自身特點的運維管理體系。