不管是由于歷史遺留還是出于監(jiān)管要求等原因,不少企業(yè)目前都建設(shè)了好幾朵云,面臨著多云管理的問題,如何高效地整合使用這些不同的云資源,是一個非常值得探討的問題。國內(nèi)很多企業(yè)都有云管產(chǎn)品,但很多都是眉毛胡子一把抓,什么都對接,什么都管,依然是傳統(tǒng)單體系統(tǒng)建設(shè)的思路,龐大而復雜。對于云管管理的邊界和范圍、如何實現(xiàn)多云管理、云管和應(yīng)用管理之間的關(guān)系、云管和容器云平臺之間的關(guān)系、企業(yè)內(nèi)多云管理是否有必要實現(xiàn)計費等等問題,都是需要認真考慮的??紤]清楚了這些問題,也才能建設(shè)真正合適的多云管理平臺,真正助力企業(yè)數(shù)字化轉(zhuǎn)型。
多云管理需求由來
前些年云平臺建設(shè)過程中,很多企業(yè)對云并沒有那么深的理解,抱著試一試的態(tài)度,所以在選型的時候就不是一次到位。另外不同的部門也可能選擇不同廠商的云平臺,經(jīng)過一段時間的建設(shè),企業(yè)內(nèi)部往往會好幾朵云并存。這些云彼此之間廠商不同、架構(gòu)不同、接口不同、界面不同等等,所以難以統(tǒng)一進行管理和維護,不得不考慮封裝一層來實現(xiàn)統(tǒng)一管理,這就是多云管理的需求。
很多人不斷地在鼓吹企業(yè)上云是“大勢所趨”,但他們只是鼓吹上云的好處,從來不提上云的壞處。而大部分客戶并不真正的理解云計算所帶來的優(yōu)勢和不足,跟著別人隨大流,購買了公有云,建設(shè)了私有云等等,使企業(yè)IT架構(gòu)日益復雜化。IT成本并沒有因此減少,而是在不斷攀升。
一種技術(shù)解決不了所有問題,上云并不是唯一選擇。決定上不上云之前一定要理解云計算所能解決的核心問題,一定要有自己的思考和選擇。云計算解決的是分布式網(wǎng)格計算問題,也就是算力問題。也就等同于利用CPU、內(nèi)存、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施資源實現(xiàn)分布式計算、網(wǎng)格計算能力,通過提供標準化的基礎(chǔ)設(shè)施資源計算服務(wù)(IaaS服務(wù)),支撐不同企業(yè)的大數(shù)據(jù)量計算和存儲等需求。在IaaS之上,有廠商構(gòu)建了平臺服務(wù)能力(PaaS),為企業(yè)和個人提供應(yīng)用的開發(fā)、部署、托管、運維等能力,這樣就不用直接去關(guān)心和運維基礎(chǔ)設(shè)施資源,只要有網(wǎng)絡(luò)就可以完成在線的應(yīng)用開發(fā)、托管、運維運營,節(jié)省大量的人力成本等。而在IaaS和PaaS之上也可以部署開發(fā)好的應(yīng)用,比如財務(wù)軟件、客戶管理軟件等,直接向用戶提供軟件服務(wù)(SaaS),實現(xiàn)開箱即用,一鍵注冊使用能力,這樣對小企業(yè)和個人客戶就更便利,完全不用自己搭建IT系統(tǒng)和平臺,直接按需使用,方便快捷。
正因為不同的廠商、不同的平臺、不同技術(shù)、不同的架構(gòu)、不同的服務(wù)、不同的安全能力等等帶來了上云的不同選擇。有報告顯示企業(yè)平均會使用2.2個公有云和2.2個私有云。“多云”其實就是“上云”所帶來的額外成本。這些云彼此之間相互隔離,無法實現(xiàn)統(tǒng)一的資源管控,就需要多云管理平臺來實現(xiàn)統(tǒng)一管理。
既然多云已成現(xiàn)實,那么如何更好地實現(xiàn)多云管理,如何定義多云管理的邊界和功能范圍,是多云管理平臺產(chǎn)品化的關(guān)鍵。
多云管理的邊界和范圍
在2020年Gartner CMP魔力象限中,定義了CMP涉及的八項功能:調(diào)配和編排、服務(wù)請求、庫存和分類、監(jiān)控和分析、成本管理和工作負載優(yōu)化、云遷移備份和災(zāi)難恢復、安全合規(guī)性和身份管理、打包及交付。其中核心的功能是成本管理和安全。從Gartner CMP功能定義來看,其實還是站在CMP廠商的視角來看待問題的,并沒有真正從用戶的視角來理解多云管理的需求,所以筆者認為其對多云管理的功能需求定位并不準確。
云計算解決的核心問題是算力問題,也就是基礎(chǔ)設(shè)施資源IaaS問題。所以云管的核心能力應(yīng)該是管理不同云平臺的基礎(chǔ)設(shè)施資源,提供標準化的基礎(chǔ)設(shè)施資源服務(wù)IaaS。這樣就屏蔽了底層不同云平臺的差異,實現(xiàn)了異構(gòu)云的統(tǒng)一基礎(chǔ)設(shè)施資源服務(wù)。
云管職責定位
筆者多次提到過,云管平臺是一個重要的工具,向下可以管理各種基礎(chǔ)設(shè)施資源,向上支撐容器云或容器化PaaS平臺,為容器化PaaS平臺提供資源,而容器云或容器化PaaS只使用資源不管理和維護資源,使容器云和容器化PaaS平臺專注于支撐業(yè)務(wù)應(yīng)用管理,實現(xiàn)以應(yīng)用管理為核心,這樣容器云、微服務(wù)治理、云管等平臺就可以有機整合在一起,成為一體。使云管承上管下。最終是要支撐業(yè)務(wù)應(yīng)用在不同云平臺資源之間的調(diào)度。以基礎(chǔ)設(shè)施資源的彈性來更好的支撐業(yè)務(wù)應(yīng)用的彈性。
在實現(xiàn)云管平臺時,不是什么都加上去,一定要有所選擇,一定不要搞個大云管,什么都做。筆者認為比較好的定位是讓云管來管理不同的云基礎(chǔ)設(shè)施資源,至于中間件、中間件服務(wù)、應(yīng)用、其他非IaaS云平臺,一定不要放在云管上去做。云管平臺并不是所有的“云”都要管起來。云管平臺兩項基本的能力:
1.納管公有云和私有云IaaS,屏蔽異構(gòu)云平臺底層資源細節(jié)。
2.為企業(yè)提供統(tǒng)一標準化基礎(chǔ)設(shè)施資源服務(wù)IaaS能力。
其他的如監(jiān)控、計費、備份、分析、負載優(yōu)化等功能都是基于這兩項基本能力的擴展。
云管是否管容器?
云管平臺讓很多人混亂的一個問題是是否管理容器和容器云。首先要認識到,提供“容器服務(wù)”和提供“容器云平臺服務(wù)”是不一樣的。這是兩個層次的問題。容器服務(wù)可以簡單看作是IaaS層服務(wù),而容器云平臺服務(wù)則可以看作是PaaS層服務(wù)。理論上,云管平臺可以提供容器服務(wù),但筆者非常不建議直接使用容器,而應(yīng)該通過容器云平臺或者PaaS平臺封裝容器服務(wù)。容器云(或PaaS)平臺應(yīng)該使用云管的資源,其在云管之上,所以云管不應(yīng)該去納管容器云平臺,更不應(yīng)納管容器化PaaS平臺。
容器、容器云、容器化PaaS是不同的概念。筆者之所以要區(qū)分這些概念,就是要明確標準,否則你說你的,我說我的,雞同鴨講,是做不好事情的。很多人喜歡拿概念炒作,一個詞有很多意思,或者一個意思用很多詞來表示,很亂,不知道在說什么。做技術(shù)要像數(shù)學一樣,要嚴謹,概念要清晰明確。云管的職責定位也是要明確,才能做好云管產(chǎn)品,才能更好地支撐企業(yè)業(yè)務(wù)發(fā)展和創(chuàng)新。
基于上面的考慮,云管的邊界最好定義在IaaS層資源管理,納管不同的IaaS云平臺、不同的存儲、網(wǎng)絡(luò)資源,甚至不同的物理機、虛擬機,為企業(yè)提供所需的各種基礎(chǔ)設(shè)施資源服務(wù),實現(xiàn)基礎(chǔ)設(shè)施資源的彈性伸縮。云管的功能范圍是基于多云納管和統(tǒng)一的IaaS服務(wù)兩項基本能力之上的擴展。但云管不會去納管容器云、中間件等。企業(yè)IT架構(gòu)需要實現(xiàn)清晰的功能分層定義,使云管專注于基礎(chǔ)設(shè)施資源的管理和供給。
多云管理設(shè)計實現(xiàn)
明確了云管的職責和功能范圍,在實現(xiàn)云管平臺時,就相對容易很多。很多人認為云管是定制化項目,顯然就是沒有完全理解云管的定位。筆者認為云管是可以做成一個很好的標準化產(chǎn)品,從而實現(xiàn)敏捷部署和擴展。在產(chǎn)品化的時候,需要站在甲方的需求立場上來看待問題。真正滿足甲方需求了,甲方才能滿意,才能愿意花錢來購買產(chǎn)品。很多廠商都很聰明,有自己的小九九,但筆者卻認為其聰明有余而智慧不足,格局不夠,所以國內(nèi)的IT企業(yè)很難做大。企業(yè)IT架構(gòu)的發(fā)展趨勢一定是實現(xiàn)系統(tǒng)的融合,而不是一個個單體,才能真正的實現(xiàn)敏捷部署和擴展,支撐企業(yè)數(shù)字化、智能化轉(zhuǎn)型。因此,未來各種平臺之間一定要能做到無縫整合,這就要求各平臺、工具不能大而全,要有所取舍,明確定位。那些不開放的產(chǎn)品最終會搬起石頭砸自己的腳,被甲方拋棄。定制化未來將會是一條死路,合適的產(chǎn)品定位才是正確選擇。
首先,多云管理是資源納管平臺,實現(xiàn)基礎(chǔ)設(shè)施資源統(tǒng)一管理和調(diào)度。云管對于小企業(yè)可能是沒必要的,面對的客戶應(yīng)該是大中企業(yè),大中企業(yè)才可能會建設(shè)或購買使用多種不同的云平臺,從而實現(xiàn)容災(zāi)、備份等需求。這就要求能夠方便地將應(yīng)用或數(shù)據(jù)從一個云平臺調(diào)度到另一個云平臺,而云管需要具備這樣的能力。比如說,在騰訊云運行的應(yīng)用需要在華為云上也部署,從而實現(xiàn)備份和容災(zāi)等需求,而對客戶來說,在云管平臺上騰訊云和華為云只是兩種不同的資源類型而已,可以自由的調(diào)度應(yīng)用到騰訊云或者華為云上,這就屏蔽了頂層異構(gòu)云細節(jié),可以實現(xiàn)秒級的資源調(diào)度。
其次,云管提供場景化標準資源交付,提升資源交付效率。不同企業(yè)有不同的業(yè)務(wù)場景需求,比如說中間件集群部署場景、數(shù)據(jù)庫集群部署場景、應(yīng)用高可用部署場景、應(yīng)用彈性伸縮場景、跨云部署場景等;不同業(yè)務(wù)應(yīng)用對資源的需求也是不一樣的,比如說GPU機器學習深度學習場景、高CPU計算場景、高內(nèi)存緩存場景、大數(shù)據(jù)存儲場景等等。這如同不同的人高矮胖瘦不一樣,所需的衣服長短大小就不同一樣。通過預先定義提供不同場景的資源服務(wù),有針對性地快速支撐企業(yè)不同的業(yè)務(wù)需求,從而提升資源的匹配性和利用效率,也減少資源準備時間,提升資源交付效率。
第三,基于多云的應(yīng)用部署不能放在多云管理平臺建設(shè)。多云平臺承上管下,定位在IaaS資源管理和資源服務(wù),它理論上還是IaaS層。應(yīng)用的部署和管理放在PaaS平臺上,位于PaaS層,因此跨云的應(yīng)用部署和管理不要放在多云管理平臺來實現(xiàn)。云計算的三種服務(wù)(三層服務(wù))給我們一個很好的啟示,企業(yè)在IT建設(shè)中架構(gòu)要分層,無論云計算的三層服務(wù),或者前、中、后臺架構(gòu),其實都是要進行分層,從而實現(xiàn)復用,避免重復建設(shè),節(jié)省成本,提升效率。
第四,中間件、數(shù)據(jù)庫等可以看作是一種應(yīng)用,因此其可以在PaaS層來管理(筆者建議中間件和數(shù)據(jù)庫等的容器部署場景僅用于企業(yè)測試環(huán)境,不建議用于生產(chǎn)環(huán)境)。云管始終定位于異構(gòu)資源的管理和統(tǒng)一資源服務(wù)的供給。其他的可以交給上層的PaaS來負責。公有云、行業(yè)云上的中間件和數(shù)據(jù)庫等的管理相對要容易些,因為不用考慮基礎(chǔ)設(shè)施資源的管理,至于使用這些應(yīng)用的計費,也可以放在PaaS平臺來管理。
第五,多云成本管理。云管作為一個獨立的產(chǎn)品,需要考慮多云資源使用的計費,從而根據(jù)需要調(diào)度到合適的云平臺,實現(xiàn)成本最優(yōu)化。這也是智能運維的一部分關(guān)鍵能力。不過如果云管跟PaaS有機整合在一起的話,計費和成本管理可以上移放在PaaS平臺,由PaaS平臺根據(jù)計費規(guī)則、成本規(guī)則以及資源可靠性、有效性指標等來進行智能調(diào)度,實現(xiàn)最優(yōu)的資源調(diào)度和成本平衡。
多云場景資源調(diào)度一般原則
為了優(yōu)化成本,多云場景下資源調(diào)度可以遵循以下一般原則:
1.私有云資源優(yōu)先調(diào)度使用。在私有云資源不足時才調(diào)度到行業(yè)云(或公有云)。為了節(jié)約成本,首先要使用私有云資源。企業(yè)私有云資源往往是有限的,在某些情況下需要調(diào)度到行業(yè)云、公有云上,比如某些臨時性的重大促銷活動等,就可以在PaaS層通過云管服務(wù)調(diào)度部分應(yīng)用實例到公有云上。
2.按行業(yè)云(或公有云)的計費成本進行排序,優(yōu)先調(diào)度到資費低的行業(yè)云(或公有云)上。資費管理是云管平臺的一項重要能力。不過通過資費管理可以更好地進行成本管理和優(yōu)化。每家公有云的費用可能是不同的,不同時期資費也可能會發(fā)生變化,如何利用資費規(guī)則來節(jié)約成本是云管平臺很重要的一個方面。
3.根據(jù)業(yè)務(wù)或數(shù)據(jù)安全等級,對公有云安全能力進行評價,作為一個資源調(diào)度參數(shù)度量值進行計算。使用公有云很重要很關(guān)鍵的是要保證數(shù)據(jù)安全,特別對于大企業(yè)來說,數(shù)據(jù)的價值往往遠遠大于使用公有云所節(jié)約的那點費用,因此,數(shù)據(jù)安全能力是評價公有云的一個重要指標。
4.根據(jù)公有云可靠性能力和資源有效性等指標進行評價,作為調(diào)度參數(shù)度量值進行計算。國內(nèi)有公有云廠商曾經(jīng)也出現(xiàn)過重大的故障,導致客戶數(shù)據(jù)丟失等難以挽回的損失。對于某些客戶來說可能是災(zāi)難性的。因此從容災(zāi)和高可用角度,也需要多云部署來規(guī)避風險。根據(jù)公有云所提供的資源的有效性(可利用率、性能等)和可靠性(故障頻率、重大故障影響等)來進行度量,選擇合適的公有云。
多云支撐場景
采用多云的優(yōu)勢在于不依賴于一家云廠商,通過競爭從而獲得更好的服務(wù)。多云可以滿足以下場景需求:
1.應(yīng)用多云部署實現(xiàn)高可用、容災(zāi)備份。多云其實相當于傳統(tǒng)多個數(shù)據(jù)中心,滿足于很多企業(yè)“兩地三中心”的容災(zāi)備份需求。
2.資源彈性伸縮從而支持應(yīng)用的彈性伸縮,實現(xiàn)應(yīng)用自動擴展。私有云很大的問題是受限于算力資源,往往難以做到按需彈性伸縮??梢越柚袠I(yè)云和公有云實現(xiàn)某些場景的資源無限性,按需使用,用完釋放。
3.多云協(xié)助優(yōu)化企業(yè)資源配置,專注于企業(yè)核心業(yè)務(wù)的高效基礎(chǔ)設(shè)施資源建設(shè),避免千頭萬緒的設(shè)計需求,使企業(yè)能優(yōu)化私有云基礎(chǔ)設(shè)施資源配置,更好地支撐關(guān)鍵的業(yè)務(wù)和場景。
4.多云也助力企業(yè)優(yōu)化資源成本。不同場景對基礎(chǔ)設(shè)施資源的需求有不同,通用型資源往往會帶來浪費。使用不同的云平臺根據(jù)費用規(guī)則可以最大化地優(yōu)化資源使用成本,獲得最優(yōu)的資源配置。
多云管理平臺在企業(yè)IT架構(gòu)中是一個承上管下的關(guān)鍵組件,是企業(yè)數(shù)字化、智能化運維運營的基礎(chǔ)支撐平臺。多云管理平臺的設(shè)計定位會直接影響到企業(yè)IT架構(gòu)的設(shè)計。云管+容器云平臺+微服務(wù)治理+DevOps是比較完整的產(chǎn)品體系。如果能基于云管來支撐容器云PaaS以實現(xiàn)以應(yīng)用管理為中心的產(chǎn)品架構(gòu)體系,那么其發(fā)展?jié)摿蔷薮蟮摹?/p>