隨著人工智能和大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,越來越多的業(yè)務領域都在嘗試進行業(yè)務能力的升級。眾所周知,金融領域?qū)T系統(tǒng)的服務要求極為苛刻,要求7x24持續(xù)不間斷、接近于“零”宕機的99.999%要求。
金融業(yè)務的持續(xù)創(chuàng)新帶來其支撐軟件的不斷變化和迭代以及對IT系統(tǒng)服務越來越高的要求。因此,金融行業(yè)數(shù)據(jù)中心運維領域也必然需要引入新技術(shù)、新思路、新體系來更智能化地為金融行業(yè)保駕護航。
過去二十多年,金融行業(yè)IT技術(shù)取得了長足發(fā)展,而IT運維管理的痛點和難點也層出不窮,運維一線團隊長期處于緊張和壓力的狀態(tài),經(jīng)歷了無數(shù)個診斷故障與解決問題的不眠之夜。
有人說,每一次運維團隊的經(jīng)歷都不僅是挫折,而是“毀滅性的災難”。無論甲方還是乙方,對運維的要求早已超越了“維穩(wěn)“的范疇。
過去很長一段時間里,IT運維依賴的主要是人腦的智慧,專家的經(jīng)驗和產(chǎn)品技術(shù)的更新迭代,去響應和處理已經(jīng)發(fā)生的故障。
今天,大環(huán)境已經(jīng)發(fā)生巨變,人工智能開始“加持”運維,由此誕生了本書所說的智能運維(AlOps)。通過將金融行業(yè)與IT運維經(jīng)驗和機器學習算法相結(jié)合,能實現(xiàn)對業(yè)務狀況進行“故障預警”。
長久以來,金融業(yè)IT運維管理一直強調(diào)通過嚴格的制度和規(guī)范的流程,把復雜系統(tǒng)納入可預期的管理操作之下,使之進入“穩(wěn)定狀態(tài)”。IT運維主管是做“救火隊長”還是“防火專家”主要取決于內(nèi)部的管理制度建設和落實。
然而,云時代大量新技術(shù)的應用,整個金融后臺系統(tǒng)出現(xiàn)雙速IT,總是有一部分系統(tǒng)保持在“敏捷狀態(tài)”,簡化的流程、快速的迭代、復雜的技術(shù)都對傳統(tǒng)的管理方法提出挑戰(zhàn),管理好高速變化中的系統(tǒng)都需要有更先進的IT管理思路和更高級的科技手段。
利用人工智能技術(shù),可以幫助運維人員在事后的蛛絲馬跡中快速定位問題、在事中的運行指標中發(fā)現(xiàn)故障并實時響應、甚至在事前洞察到可能的風險并提前調(diào)整優(yōu)化,基于人工智能的新一代運維方法稱為AIOps,它能極大降低IT運維的工作強度,同時顯著提升反應速度。
更重要的是,它能使運維人員洞見未來,提前進行判斷,提高系統(tǒng)有效性和資源合理性。在近些年的市場中,AlOps受到越來越多的關(guān)注,正在成為新的主流方向,成為IT運維神器。
01、什么是AIOps?
根據(jù)Gartner的分析報告,IT運營人員(ITOps)的工作在未來幾年內(nèi)將發(fā)生重大變化。這種變化是受傳統(tǒng)IT管理技術(shù)(企業(yè)ITOps團隊認為無法應對數(shù)字業(yè)務轉(zhuǎn)型的方法)的挫折所驅(qū)動的。
Gartner預測,我們將看到當前IT運營程序的重大變化,以及我們?nèi)绾喂芾鞩T生態(tài)系統(tǒng)的重組。而這些變化的關(guān)鍵是Gartner稱之為AIOps的新平臺。簡單來說,AlOps就是希望通過人工智能的方式,進一步提升運維效率,包括運維決策、故障預測和問題分析等。
智能運維AlOps通過系統(tǒng)運行過程中所產(chǎn)生的數(shù)據(jù),運用AI和算法、運籌理論等相關(guān)技術(shù),對運維數(shù)據(jù)進行分析,進而提升運維效率的新一代運維手段和方法。
02、金融業(yè)運維特點
金融業(yè)一直走在IT技術(shù)趨勢發(fā)展的第一梯隊。一方面金融行業(yè)有著過往30年采用企業(yè)級IOE軟件硬件基礎架構(gòu)的長期經(jīng)驗,另一方面金融行業(yè)也在積極踐行開源軟件和互聯(lián)網(wǎng)架構(gòu)的實踐。
在迫切的業(yè)務需求面前,銀行傳統(tǒng)IT運維還面臨著交付效率、運維質(zhì)量等方面的多重壓力。在雙模IT建設中,如何保證業(yè)務系統(tǒng)穩(wěn)定性、故障定位和根因調(diào)查,都極大挑戰(zhàn)IT運維人員的水平和運維的有效性。切換被動式運維到主動式/預測式運維可以極大地提升運維效率。
金融業(yè)IT系統(tǒng)特點:
由大量大型機、小型機、存儲、網(wǎng)絡等設備構(gòu)成基礎架構(gòu)
有大量企業(yè)級軟件Tivoli/Oracle/Websphere/MQ/ESB等
采用企業(yè)級監(jiān)控軟件,監(jiān)控指標多應用于企業(yè)軟件
有復雜的異構(gòu)環(huán)境和應用拓撲的應用系統(tǒng)
業(yè)務需要有嚴苛的交易事務保護處理機制
有各種業(yè)務體系和應用日志數(shù)據(jù)格式標準
強監(jiān)管成為金融科技行業(yè)的主旋律
03、金融業(yè)運維痛點
金融行業(yè)是當前IT建設和運維水平最發(fā)達的行業(yè)之一。伴隨著金融行業(yè)高速發(fā)展,IT建設的規(guī)模也越來越大、IT運維的復雜度也越來越高。傳統(tǒng)的IT運維管理ITOM和運維理論ITIL已經(jīng)越來越不能完全滿足金融行業(yè)IT建設的龐大規(guī)模。
金融行業(yè)日趨嚴格的監(jiān)控要求,對銀行業(yè)務的連續(xù)性管理和網(wǎng)絡安全防護能力提出更高的要求;IT運營規(guī)模增長和架構(gòu)日益復雜,對運維自動化水平提出更高的要求;銀行同業(yè)競爭日趨激烈,為搶占市場、提升客戶體驗,對IT交付能力提出更高要求;快速業(yè)務創(chuàng)新對基礎環(huán)境的彈性伸縮能力提出更高要求;同時大的環(huán)境也要求各銀行加強運營成本控制,對IT部門降本增效的能力有了更高的要求。
對于金融行業(yè)兩地三中心部署,超過數(shù)千個的復雜系統(tǒng)和異構(gòu)軟硬件設備,每天產(chǎn)生TB數(shù)據(jù)級的數(shù)據(jù)量,金融系統(tǒng)宕機將直接影響到各行各業(yè)的業(yè)務,而采用傳統(tǒng)運維專員+ITOM管理平臺的運維手段勢必將越來越不能適應IT發(fā)展的趨勢。
總結(jié)下來,金融行業(yè)普遍面臨如下痛點:
04、AIOps在金融業(yè)的發(fā)展現(xiàn)狀
金融行業(yè)在AIOps建設領域,有非常特殊和領先的地位。
發(fā)展趨勢:
1.不少金融機構(gòu)已經(jīng)在AIOps方向立項;
2.大部分金融機構(gòu)已經(jīng)或正在構(gòu)建運維大數(shù)據(jù)平臺;
3.部分金融機構(gòu)從運維痛點出發(fā)嘗試AIOps;
4.不少金融機構(gòu)希望把AIOps作為響應國家戰(zhàn)略的試驗田。
不足之處:
1.概念魚龍混雜,架構(gòu)定義不清晰;
2.落地方案不明確,沒有貼合自身實際痛點;
3.數(shù)據(jù)治理沒有完成前,匆忙上線;
4.AI期望過高,偏離AI實際能力從而導致項目失??;
5.嘗試用互聯(lián)網(wǎng)建設思路建設AIOps。
05、金融業(yè)AIOps目標
隨著業(yè)務和基礎IT技術(shù)的飛速發(fā)展,規(guī)模、人員、效率的矛盾日漸突出,一方面金融企業(yè)切實存在運維痛點。另一方面各企業(yè)均建立了自己的大數(shù)據(jù)平臺,在摸索通過自動化、智能運維的方式解決現(xiàn)實中的問題。智能運維AIOps已經(jīng)不是企業(yè)的可選項,而成為發(fā)展的必選項。
同時,隨著AI技術(shù)在各個應用領域的落地及實踐,IT運維也將迎來一個智能化運維的新時代。算法的效率提升了AIOps的價值,通過持續(xù)學習,智能運維將把運維人員從紛繁復雜的告警和噪音中解放出來。
基于實際實施經(jīng)驗和對項目的理解,初步分為三個階段目標:
06、金融行業(yè)AIOps的價值
AlOps終極形態(tài):無人值守運維。“AIOps正在廣泛應用于IT大數(shù)據(jù)和業(yè)務大數(shù)據(jù)分析領域,為企業(yè)提供極具價值的業(yè)務洞察能力”。
據(jù)Gartner分析師最新預測,到了2022年,部署AIOps平臺的大型企業(yè)數(shù)量將從如今的不足5%,迅速提升到40%左右,而這些企業(yè)會把AlOps用于業(yè)務運營和IT運維,以取代如今的運維監(jiān)控、管理工具和自動化運維產(chǎn)品。
當前企業(yè)的數(shù)字化程度越來越高,IT系統(tǒng)的復雜度和規(guī)模越來越大。當前在金融領域IT最主要矛盾逐漸轉(zhuǎn)變?yōu)闃I(yè)務對IT運維要求的越來越高和傳統(tǒng)IT運維水平和管理方法越來越不能滿足日常運維服務水平。
因此在金融行業(yè)采用AlOps智能運維勢在必行,這將是下一代運維的核心生產(chǎn)力和能力基礎。創(chuàng)造IT運維新方式,助力IT運維新高度。
預期價值收益如下:
07、金融業(yè)AIOps系統(tǒng)集成建議
在金融業(yè)競爭日益激烈的今天,金融行業(yè)的業(yè)務類型不斷增加和變化,要求IT在原有的業(yè)務系統(tǒng)上不斷的擴展改造,因此新的金融業(yè)AIOps集成方案應運而生,來為金融業(yè)解決此類問題。通過新方案和新的運維模式能夠達到一體化智能運維的目的,從而提升整個數(shù)據(jù)中心運行效率,降低成本。因此我們建立了一個運維金字塔參考模型,指導我們。
AlOps系統(tǒng)集成項目規(guī)劃及實施:
數(shù)據(jù)基礎(監(jiān)控)
這是智能運維的基石,從數(shù)據(jù)層面來看,金融業(yè)運維的數(shù)據(jù)是非常多樣化的,通常會有告警數(shù)據(jù),性能數(shù)據(jù),日志數(shù)據(jù),配置數(shù)據(jù)等,通常企業(yè)在多年的發(fā)展中已經(jīng)建設了監(jiān)控系統(tǒng),而且有些企業(yè)也會部署自動運維系統(tǒng)來實現(xiàn)快速部署應用中間件/數(shù)據(jù)庫,自動化巡檢等功能。
數(shù)據(jù)管理(報告)
數(shù)據(jù)管理是利用計算機硬件和軟件技術(shù)對數(shù)據(jù)進行有效的收集、存儲、處理和應用的過程。其目的在于充分有效地發(fā)揮數(shù)據(jù)的作用,從而實現(xiàn)數(shù)據(jù)有效管理,其中關(guān)鍵是數(shù)據(jù)組織。此階段是數(shù)據(jù)歸檔級別,所有運維數(shù)據(jù)已實現(xiàn)歸檔,并持久存放,但是無法實現(xiàn)全局搜索。
數(shù)據(jù)檢索分析(分析)
此階段通過一個統(tǒng)一平臺實現(xiàn)所有運維數(shù)據(jù)全局搜索,同時使用一些適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié),但是無法實現(xiàn)數(shù)據(jù)多維度關(guān)聯(lián)分析。
數(shù)據(jù)運營(預測)
通過關(guān)聯(lián)所有運維數(shù)據(jù),從而分析,解釋原因,實現(xiàn)事前預測功能,同時也可以關(guān)聯(lián)多項運維指標進行預測。
數(shù)據(jù)認知(預防)
通過人工智能手段,不斷進行機器學習,累積企業(yè)特有的運維經(jīng)驗,形成企業(yè)智能運維大腦。
08、金融業(yè)AIOps實踐典型案例
客戶是一個國內(nèi)超大型全國性銀行金融機構(gòu),覆蓋全部銀行對公對私業(yè)務,是大型金融機構(gòu)典型企業(yè)??蛻舻臄?shù)據(jù)中心已經(jīng)實現(xiàn)了兩地三中心的基礎架構(gòu)和大型金融典型數(shù)據(jù)中心的所有特征。
在建設智能運維的建設思路上,客戶是走在了國內(nèi)銀行企業(yè)的前列。由數(shù)據(jù)中心副總直接掛帥領導下屬業(yè)務支持處,系統(tǒng)運維處,安全網(wǎng)絡處,設備維護處,全條線覆蓋。自上而下,高屋建瓴的進行新一代智能數(shù)據(jù)中心體系化建設。
在2016年啟動智能運維平臺項目的建設工作,借助基于人工智能的智能運維(AIOps)技術(shù),初步建立了數(shù)據(jù)中心的“運維大腦”,以保障業(yè)務的安全、穩(wěn)定運行。
涉及到數(shù)據(jù)中心業(yè)務需求,設計各運維應用場景,通過開發(fā)、建模實現(xiàn)大數(shù)據(jù)在運維輔助告警、日志異常檢測、系統(tǒng)運行趨勢分析以及業(yè)務增益等方面的運用并進行靈活展現(xiàn)。從AB級系統(tǒng)中挑選交易量大、銀聯(lián)可用率影響較高的8套重點系統(tǒng),約800分區(qū)進行試點上線。
基于Hadoop,在充分考慮到各組件使用場景基礎上,充分利用kafka消息總線,通過Spark進行流式處理,有機結(jié)合Hive、Hbase、Redis、Elasticsearch等當前主流組件的特性,應對每日TB級增量數(shù)據(jù),提供秒級響應體驗。
隨著業(yè)務的擴張及日益的多樣化,IT環(huán)境中的各類設備也成倍數(shù)的增加,并且大量應用系統(tǒng)間相互共享資源,包括但不限于硬件,軟件,網(wǎng)絡等,導致IT系統(tǒng)中應用及相應架構(gòu)上事故的診斷需要進行復雜且深入的調(diào)查,既耗費時間,又占用大量資源,甚至造成大量的經(jīng)濟損失。
在數(shù)據(jù)中心業(yè)務和運維價值觀點看,通過智能運維平臺的使用,統(tǒng)一采集、管理業(yè)務相關(guān)的各類運行狀態(tài)數(shù)據(jù)和底層機器日志,結(jié)合算法對異常點的預警,統(tǒng)一展示給運維人員,對故障根因的分析判斷帶來了極大便利,整體縮短了故障排查的時間。
成功案例顯示,AlOps的核心價值是:
?故障排查時減少90%的數(shù)據(jù)收集時間;
?數(shù)據(jù)庫容量預測的準確率可達99.5%,提高資源的利用率;
比常規(guī)日志監(jiān)控多發(fā)現(xiàn)30%隱患異常日志;
?提前10分鐘,主動預警系統(tǒng)的可用性故障;
?將故障根因定位原來人工定位需要的8小時,縮短到30分鐘;
?根據(jù)實際業(yè)務動態(tài)伸縮分配資源,減少30%資源成本。
本文摘錄自IBM《金融行業(yè)智能運維AIOps實施建議白皮書》