隨著企業(yè)業(yè)務(wù)的規(guī)模擴(kuò)大和復(fù)雜化,以及云計(jì)算、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,大量傳統(tǒng)企業(yè)希望用上云來加速其數(shù)字化轉(zhuǎn)型,獲得虛擬化、軟件化、服務(wù)化、平臺(tái)化的紅利。在這個(gè)過程中,因?yàn)檐浖Y產(chǎn)規(guī)模持續(xù)增大而導(dǎo)致的軟件開發(fā)運(yùn)維和IT基礎(chǔ)設(shè)施建設(shè)運(yùn)營(yíng)壓力,也將無法繼續(xù)采用線性增加的方式來解決,且在DevOps思想的影響與引導(dǎo)下,企業(yè)對(duì)于改善傳統(tǒng)IT運(yùn)維職責(zé)權(quán)邊界不清晰、操作過程無序、運(yùn)維效率及業(yè)務(wù)穩(wěn)定性方面也有著迫切的需求。企業(yè)必須加快整個(gè)IT架構(gòu)的轉(zhuǎn)型,在基礎(chǔ)設(shè)施上云后推動(dòng)應(yīng)用往云上遷移,充分利用好購(gòu)買的云基礎(chǔ)設(shè)施。
企業(yè)上云挑戰(zhàn)
通常企業(yè)在基礎(chǔ)設(shè)施上云后,主要面臨如下4個(gè)方面挑戰(zhàn)。
第一,企業(yè)IT架構(gòu)不統(tǒng)一,技術(shù)棧多,統(tǒng)一運(yùn)維比較難實(shí)現(xiàn)。通常來說,企業(yè)經(jīng)過多年的發(fā)展,都存在大量功能高度重合、但是獨(dú)立運(yùn)行的應(yīng)用。這些應(yīng)用有的是自研,有的是ISV開發(fā),甚至很多是定向采購(gòu),這些應(yīng)用架構(gòu)不同,語言不同,甚至運(yùn)行環(huán)境也不同,同時(shí)為了這些應(yīng)用的穩(wěn)定運(yùn)行,催生了大量的運(yùn)維工具和系統(tǒng),所以當(dāng)企業(yè)的基礎(chǔ)設(shè)施上云后,對(duì)這些應(yīng)用統(tǒng)一運(yùn)維成本極高,也是運(yùn)維標(biāo)準(zhǔn)化、自動(dòng)化的障礙。
第二,企業(yè)正處于深化數(shù)字化轉(zhuǎn)型階段,對(duì)云不了解,對(duì)云上運(yùn)維更不了解。企業(yè)數(shù)據(jù)中心面臨轉(zhuǎn)型,但是缺少統(tǒng)一的體系化設(shè)計(jì)和建設(shè),應(yīng)用系統(tǒng)不知道怎么上云、運(yùn)維人員不知道云化后的定位,一切都在摸索中前進(jìn)。我們?cè)诤涂蛻舻慕涣髦芯蜁?huì)經(jīng)常被問,你們?cè)诠驹趺醋鲞\(yùn)維的,幫我們列下你們工作的具體操作,甚至問你們的KPI是怎么定的。
第三,基礎(chǔ)設(shè)施上云后,在提升產(chǎn)研效率的同時(shí)對(duì)運(yùn)維的SLA提出了更高的要求,應(yīng)用系統(tǒng)的日益復(fù)雜、生產(chǎn)迭代的加快,對(duì)于應(yīng)用運(yùn)維系統(tǒng)來說,需要更智能的識(shí)別攔截風(fēng)險(xiǎn),發(fā)生故障時(shí)更快地響應(yīng)與快速恢復(fù),保持業(yè)務(wù)的持續(xù)性運(yùn)行。
第四,未來大型企業(yè)必定會(huì)存在多朵云,不同技術(shù)棧的云如何管理及運(yùn)維,存在困難或者說還沒有比較好的解決方案。
阿里運(yùn)維的變化與發(fā)展
我們看到當(dāng)前企業(yè)所面對(duì)的挑戰(zhàn),阿里集團(tuán)在全面上云的過程中也同樣遇到了。基于以上的背景及挑戰(zhàn),我們認(rèn)為:基礎(chǔ)設(shè)施上云后,企業(yè)的3大剛需分別是業(yè)務(wù)遷云、云上自動(dòng)化運(yùn)維、多朵云的混合云運(yùn)維。我們建設(shè)了面向混合云場(chǎng)景的統(tǒng)一運(yùn)維平臺(tái),幫助企業(yè)以應(yīng)用為視角實(shí)現(xiàn)更易上云、更好用云,實(shí)現(xiàn)構(gòu)建多云架構(gòu)下成熟應(yīng)用的統(tǒng)一建模、架構(gòu)藍(lán)圖可視化交互驅(qū)動(dòng)、集中式&場(chǎng)景化運(yùn)維,以面對(duì)這些挑戰(zhàn)。接下來講一下,我們是如何一步步演進(jìn)、升級(jí)至混合云新一代運(yùn)維平臺(tái)。
阿里巴巴的運(yùn)維體系經(jīng)歷了腳本時(shí)代、工具時(shí)代和DevOps時(shí)代,目前正在實(shí)現(xiàn)自動(dòng)化運(yùn)維并探索智能化運(yùn)維階段。
在2008-2009年,阿里巴巴的運(yùn)維還處于腳本時(shí)代,大量的運(yùn)維工作需要通過腳本來實(shí)現(xiàn),隨著業(yè)務(wù)規(guī)模擴(kuò)大和復(fù)雜度提高,腳本的方式越來越難以維護(hù),因此阿里巴巴開始引入運(yùn)維工具。在運(yùn)維工具時(shí)代,阿里巴巴的運(yùn)維體系經(jīng)歷了從工具團(tuán)隊(duì)和運(yùn)維團(tuán)隊(duì)并行的階段,到了為更好保障工具質(zhì)量統(tǒng)一的工具團(tuán)隊(duì)階段,再到逐漸有DevOps理念和職能偏軟件的工具團(tuán)隊(duì)階段,最后,阿里巴巴應(yīng)用運(yùn)維團(tuán)隊(duì)迎來了一場(chǎng)大變革,以前的應(yīng)用運(yùn)維團(tuán)隊(duì)全被打散,被合并到各業(yè)務(wù)軟件開發(fā)團(tuán)隊(duì)中,全面踐行DevOps理念。
進(jìn)入DevOps階段后,成熟的流程化運(yùn)維工具雖然提升了一部分運(yùn)維效率,但是各個(gè)工具之間實(shí)際是獨(dú)立割裂的,例如:監(jiān)控工具和運(yùn)維工具是割裂的,巡檢工具和快恢工具也是割裂的,這導(dǎo)致日常應(yīng)用持續(xù)運(yùn)維過程中,從監(jiān)控工具發(fā)現(xiàn)、定位并快速恢復(fù)問題的鏈路很長(zhǎng)且效率低下,對(duì)運(yùn)維開發(fā)來說,期望業(yè)務(wù)應(yīng)用上線后可以“No Ops”,監(jiān)控及運(yùn)維系統(tǒng)能自行發(fā)現(xiàn)異常并自動(dòng)解決,把應(yīng)用及業(yè)務(wù)帶回正常狀態(tài),阿里巴巴應(yīng)用運(yùn)維開始了“監(jiān)管控一體化”的體系建設(shè),通過智能化手段提升運(yùn)維效率和運(yùn)維安全,從而保障業(yè)務(wù)的連續(xù)穩(wěn)定性。
大家都知道,阿里巴巴不但擁有眾多形態(tài)各異的業(yè)務(wù),而且體量大,特別是每年天貓雙11大促,需要超大規(guī)模的IAAS資源支撐。2015年之前,阿里巴巴每年都要花費(fèi)巨額費(fèi)用來購(gòu)買服務(wù)器,建設(shè)一代又一代的IDC數(shù)據(jù)中心;2015年至2019年,阿里巴巴走向全面云化的過程,在這個(gè)時(shí)期,阿里巴巴基礎(chǔ)設(shè)施一部分在云下數(shù)據(jù)中心,另一部分在阿里云上的數(shù)據(jù)中心,還需要支持同城多活到異地多活,所以必須要有強(qiáng)大的云上云下一體化超大規(guī)模資源管理的能力;2019年阿里巴巴實(shí)現(xiàn)全面云化之后,又開始面對(duì)一個(gè)新的超大規(guī)模資源管理場(chǎng)景——“混合云”管理。
混合云場(chǎng)景下的運(yùn)維實(shí)踐
上面我們提到了很多次“應(yīng)用運(yùn)維”,先來說一下什么是應(yīng)用運(yùn)維。講這個(gè)之前我們先普及一下什么是“應(yīng)用”,應(yīng)用是指提供一組相同服務(wù)(Service)的資源集,可以對(duì)多個(gè)地域、多種資源進(jìn)行全生命周期角色、權(quán)限的統(tǒng)一管理,并擁有自己的代碼介質(zhì)如WAR、JAR、鏡像?;诖?,應(yīng)用運(yùn)維即是對(duì)一組相同服務(wù)(Service)的資源集的生命周期進(jìn)行運(yùn)維。
我們所講的應(yīng)用運(yùn)維平臺(tái)正是處于SaaS層與PaaS層中間,與APaaS的概念有點(diǎn)相似,主要負(fù)責(zé)面向用戶的業(yè)務(wù)/應(yīng)用的運(yùn)維工作。因此應(yīng)用運(yùn)維向上可以觸達(dá)業(yè)務(wù)包括流量、GMV、營(yíng)收,向下可以觸達(dá)平臺(tái)和系統(tǒng)包括資源與硬件,應(yīng)用天然和人強(qiáng)耦合,因此也可以關(guān)聯(lián)賬號(hào)和權(quán)限等虛擬資源,我們通過應(yīng)用很容易可以構(gòu)建業(yè)務(wù)運(yùn)行的各種藍(lán)圖拓?fù)潢P(guān)系,通過對(duì)應(yīng)用生命周期全封閉管理,我們可以高效、準(zhǔn)確地管理好應(yīng)用依賴的各種資源,應(yīng)用運(yùn)維也提供呈上啟下的作用,從業(yè)務(wù)研發(fā)到應(yīng)用運(yùn)維再到基礎(chǔ)設(shè)施運(yùn)維的分層工作流,即為云+應(yīng)用一體化運(yùn)維方案,基于應(yīng)用三態(tài)模型建設(shè),自上而下提供應(yīng)用等級(jí)、部署架構(gòu)到藍(lán)圖規(guī)劃的一整套解決方案,實(shí)現(xiàn)從用戶對(duì)應(yīng)用全生命周期的管理、研運(yùn)一體精細(xì)化運(yùn)營(yíng),再到一站式運(yùn)維。
至此,混合云應(yīng)用運(yùn)維平臺(tái)誕生,通過阿里集團(tuán)內(nèi)部多年的經(jīng)驗(yàn)沉淀演進(jìn),支撐了阿里集團(tuán)的業(yè)務(wù)容器化、云化的重要架構(gòu)演進(jìn)。平臺(tái)也是以ITIL理念為指導(dǎo),提供云上的統(tǒng)一配置管理,為業(yè)務(wù)運(yùn)維變更、一體化運(yùn)維觀測(cè)提供統(tǒng)一的數(shù)據(jù),內(nèi)置的安全策略以及核心資產(chǎn)保護(hù),為業(yè)務(wù)變更的安全可靠提供穩(wěn)定支撐,通過大數(shù)據(jù)以及算法平臺(tái),分析應(yīng)用的指標(biāo)、變更、日志等數(shù)據(jù),為應(yīng)用刻畫智能基線和畫像,通過與觀測(cè)的統(tǒng)一事件中心聯(lián)動(dòng),與應(yīng)用運(yùn)維自動(dòng)化變更流程結(jié)合,實(shí)現(xiàn)基于指標(biāo)和事件的異??旎?。
平臺(tái)核心能力介紹
上面我們講到企業(yè)上云后的挑戰(zhàn),這些挑戰(zhàn)在阿里走向全面云化的過程中也都一一碰到,應(yīng)用運(yùn)維平臺(tái)的演進(jìn)誕生也分了幾個(gè)主要核心能力的演進(jìn),下面我們講講這些核心能力是如何支撐業(yè)務(wù)上云的。
統(tǒng)一CMDB
首先我們統(tǒng)一了CMDB,CMDB作為基礎(chǔ)服務(wù),為企業(yè)提供團(tuán)隊(duì)協(xié)作、企業(yè)主數(shù)據(jù)、IT資產(chǎn)管理、應(yīng)用監(jiān)控等核心模塊的數(shù)據(jù)交換能力,業(yè)界的解決方案也非常多,但是我們調(diào)研了業(yè)界內(nèi)很多相關(guān)的產(chǎn)品,發(fā)現(xiàn)現(xiàn)有的CMDB都比較偏傳統(tǒng),面向應(yīng)用管理的CMDB比較少。
所以我們構(gòu)建了以應(yīng)用為中心的應(yīng)用模型,滿足混合云運(yùn)維的各種需求,比如異構(gòu)云元數(shù)據(jù)的統(tǒng)一納管,通過自動(dòng)化資源生命周期管理而不是腳本采集來保證數(shù)據(jù)的準(zhǔn)確性。因此混合云CMDB要求擁有靈活的建模以及查詢能力,要求有能力在大流量高并發(fā)的情況下,提供實(shí)時(shí)、準(zhǔn)確的數(shù)據(jù)操作能力,提供靈活可自定義和拓?fù)浣Y(jié)構(gòu)圖形化展示能力,可自定義規(guī)范、約束狀態(tài)變化等能力,并支持深度的拓?fù)洳樵兡芰?,也提供高可用的API服務(wù),支持被集成。我們當(dāng)前混合云的CMDB,經(jīng)過歷年雙11的沉淀與客戶場(chǎng)景的不斷打磨成型,采用以業(yè)務(wù)變更驅(qū)動(dòng)配置數(shù)據(jù)變更的方式而不是主動(dòng)采集更新的方式,更好地保障了數(shù)據(jù)的實(shí)時(shí)性和權(quán)威性,形成了產(chǎn)品能力上的差異化競(jìng)爭(zhēng)。
混合云資源管理
接下來我再介紹下,云上運(yùn)維必不可少的應(yīng)用混合云資源納管。既然我們是面向混合云的管理平臺(tái),勢(shì)必需要無縫對(duì)接公有云、專有云IaaS資源,并且可以接管用戶自建IDC等異構(gòu)云的資源。支持IaaS資源全生命周期管理的同時(shí),支持混合云資源的自動(dòng)化編排,計(jì)量計(jì)費(fèi),成本分析與控制,在降低企業(yè)資源使用成本的同時(shí),滿足業(yè)務(wù)快速交付的需求。
區(qū)別云平臺(tái)資源納管,以應(yīng)用的視角管理應(yīng)用的架構(gòu)和資源,并提供一鍵式的資源交付能力,可以讓不同的角色分工協(xié)作,例如平臺(tái)規(guī)劃人員提前規(guī)劃好運(yùn)行環(huán)境和網(wǎng)絡(luò),應(yīng)用的架構(gòu)角色可以定義應(yīng)用系統(tǒng)的架構(gòu),平臺(tái)自動(dòng)創(chuàng)建應(yīng)用系統(tǒng)以及應(yīng)用服務(wù)的配置數(shù)據(jù),然后應(yīng)用的研發(fā)運(yùn)維人員以業(yè)務(wù)的視角基于應(yīng)用的部署架構(gòu),進(jìn)行資源的規(guī)劃,在資源編排時(shí),業(yè)務(wù)只需關(guān)心應(yīng)用運(yùn)行在哪個(gè)環(huán)境中,對(duì)應(yīng)用的研發(fā)運(yùn)維角色屏蔽了地域、vpc等網(wǎng)絡(luò)相關(guān)的配置信息,讓業(yè)務(wù)人員更多關(guān)注在資源配置上,平臺(tái)自動(dòng)進(jìn)行資源申請(qǐng)交付,并主動(dòng)維護(hù)資源和系統(tǒng)之間的管理關(guān)系,自動(dòng)落入統(tǒng)一的CMDB中,這也就是前面講到的,混合云平臺(tái)的CMDB的數(shù)據(jù)維護(hù)都是通過變更驅(qū)動(dòng)的。
可視化編排
在應(yīng)用運(yùn)維領(lǐng)域,大部分的做法都是基于工作流以及工單管理來實(shí)現(xiàn)對(duì)應(yīng)的運(yùn)維變更操作,而傳統(tǒng)的運(yùn)維工作流在維護(hù)成本及可擴(kuò)展性上都存在一定的不足,缺乏有效的流程生命周期管理手段。
例如應(yīng)用申請(qǐng)?jiān)瀑Y源的場(chǎng)景,大多是一種復(fù)合操作,可能會(huì)涉及多個(gè)云資源間的依賴關(guān)系,比如申請(qǐng)一個(gè)ECS需要掛載SLB,同時(shí)掛載數(shù)據(jù)盤以及OSS才能滿足業(yè)務(wù)需求,如果不是通過可視化編排,平臺(tái)的易用性和復(fù)雜性會(huì)成倍增加。那么用戶(PaaS服務(wù)以及開發(fā)、運(yùn)維、運(yùn)營(yíng)等角色)可以根據(jù)實(shí)際業(yè)務(wù)需要,對(duì)多個(gè)原子組件通過簡(jiǎn)單可視的編排方式進(jìn)行靈活裝配,構(gòu)造出不同的業(yè)務(wù)流程完成一個(gè)完整的運(yùn)維需求,運(yùn)維編排也可以幫助我們更好地規(guī)范、管理和執(zhí)行自動(dòng)化運(yùn)維操作,以模板的方式定義所需要進(jìn)行的操作,然后再通過系統(tǒng)運(yùn)行,從而提高整體運(yùn)維操作的效率、增強(qiáng)運(yùn)維操作的安全性,并避免人工運(yùn)維的錯(cuò)誤。
自動(dòng)化智能化運(yùn)維
當(dāng)平臺(tái)具備了基本能力以后,也就需要在其他領(lǐng)域進(jìn)行突破。我們通過在阿里集團(tuán)以及客戶側(cè)的大量實(shí)踐,沉淀出基于應(yīng)用的智能運(yùn)維框架,輕量化的架構(gòu)可以完成數(shù)據(jù)采集收集,算法快速開發(fā)調(diào)優(yōu),與專業(yè)的算法團(tuán)隊(duì)深入合作,快速構(gòu)建起智能運(yùn)維領(lǐng)域的相關(guān)能力,比如:彈性伸縮、智能告警、智能巡檢、無人值守發(fā)布等場(chǎng)景,對(duì)競(jìng)品形成了技術(shù)上的優(yōu)勢(shì)。
根據(jù)一些調(diào)研的數(shù)據(jù)顯示,企業(yè)中70%以上的故障都是由于變更引起的,在企業(yè)應(yīng)用敏捷迭代的場(chǎng)景下,如何體系化、自動(dòng)化、智能化地保障變更安全是所有企業(yè)核心訴求。很多企業(yè)在進(jìn)行生產(chǎn)變更時(shí)會(huì)要求雙人復(fù)核,一定程度上對(duì)變更前的一些事項(xiàng)進(jìn)行檢查,降低變更風(fēng)險(xiǎn),這就對(duì)人員的技能要求很高,而且經(jīng)驗(yàn)不易復(fù)制,也一定程度上降低了效能。
混合云應(yīng)用維平臺(tái)通過系統(tǒng)工程化的解決方案,根據(jù)阿里的各種業(yè)務(wù)場(chǎng)景,提煉了變更的風(fēng)險(xiǎn)策略,與運(yùn)維平臺(tái)變更流程進(jìn)行了有效結(jié)合,實(shí)現(xiàn)變更前風(fēng)險(xiǎn)監(jiān)測(cè),對(duì)于識(shí)別到的風(fēng)險(xiǎn),會(huì)進(jìn)行變更攔截,進(jìn)行流程加簽審批,保障運(yùn)維流程的安全;變更執(zhí)行中,平臺(tái)會(huì)實(shí)時(shí)對(duì)業(yè)務(wù)運(yùn)行態(tài)指標(biāo)進(jìn)行監(jiān)測(cè),與應(yīng)用畫像進(jìn)行比對(duì),如變更時(shí)應(yīng)用指標(biāo)/業(yè)務(wù)指標(biāo)發(fā)生大幅度抖動(dòng),平臺(tái)會(huì)自動(dòng)進(jìn)行變更攔截,及時(shí)控制影響范圍。
未來的運(yùn)維趨勢(shì)
以上分析了阿里運(yùn)維平臺(tái)上云后的演進(jìn)過程,同時(shí)分享了平臺(tái)的幾個(gè)核心能力,下面我們聊一下未來運(yùn)維發(fā)展趨勢(shì)是如何的。
如果說運(yùn)維1.0時(shí)代,是以黑屏運(yùn)維模式、主機(jī)運(yùn)維為技術(shù)特點(diǎn)提升IT運(yùn)維工作(人員)自身的效率,運(yùn)維2.0時(shí)代是以白屏運(yùn)維模式、容器化運(yùn)維為技術(shù)特點(diǎn)提升IT系統(tǒng)的效率性、降低運(yùn)維成本,那么運(yùn)維3.0必將是數(shù)字化時(shí)代的運(yùn)維模式。這種運(yùn)維模式重要的特性就是以保障業(yè)務(wù)穩(wěn)定、高效為目標(biāo),提供云+應(yīng)用一體化運(yùn)維模式,通過業(yè)務(wù)可靠性的系統(tǒng)工程技術(shù)能力,從各個(gè)維度系統(tǒng)化保障業(yè)務(wù)的穩(wěn)定。
在最新的十四五規(guī)劃中,國(guó)家明確提出將加速推進(jìn)傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型,同時(shí)也明確提出,相關(guān)科技領(lǐng)域,以及電力,金融,交通等這些基礎(chǔ)設(shè)施級(jí)別的民生企業(yè)要保證安全可靠。事實(shí)上在十三五期間,已經(jīng)有越來越多的傳統(tǒng)企業(yè)依賴云試水?dāng)?shù)字化轉(zhuǎn)型,而保障已經(jīng)數(shù)字化轉(zhuǎn)型成功的企業(yè)安全穩(wěn)定運(yùn)行在云上,必將是核心競(jìng)爭(zhēng)力。
在數(shù)字化變革的浪潮中,中國(guó)作為產(chǎn)業(yè)規(guī)模最大和門類最齊全的經(jīng)濟(jì)體,迎來百年未有的崛起機(jī)會(huì),擁抱數(shù)字基礎(chǔ)設(shè)施,探索符合數(shù)字化時(shí)代要求的技術(shù)和管理范式,將幫助我們切實(shí)把握機(jī)會(huì),而把握這一機(jī)會(huì)的組織,將在數(shù)字化變革的浪潮中脫穎而出。
未來我們也會(huì)和企業(yè)共同成長(zhǎng),提供企業(yè)用戶金融級(jí)別高可用和連續(xù)性要求的應(yīng)用所需各類服務(wù),滿足金融等業(yè)務(wù)場(chǎng)景下多活和容災(zāi)的業(yè)務(wù)需求,促進(jìn)企業(yè)業(yè)務(wù)的敏態(tài)和穩(wěn)態(tài)發(fā)展,切切實(shí)實(shí)幫助上云的企業(yè)客戶,建立以云+應(yīng)用為中心的企業(yè)數(shù)字化業(yè)務(wù)運(yùn)營(yíng)管理解決方案。