云運(yùn)維似乎沒你想象的那么簡(jiǎn)單

木馬童年
隨著工業(yè)4.0的興起,云計(jì)算已經(jīng)從實(shí)驗(yàn)階段轉(zhuǎn)化為具體實(shí)施階段。除了部署相應(yīng)的軟件、硬件和虛擬化資源,還有一個(gè)問題擺在我們面前,如何運(yùn)維云?

隨著云計(jì)算時(shí)代的到來,云數(shù)據(jù)中心迅速崛起,成為眾多企業(yè)關(guān)注的新焦點(diǎn)。打江山容易,守江山難。云數(shù)據(jù)中心竣工之后,并不代表著萬事大吉了,如何保持云數(shù)據(jù)中心的持久運(yùn)轉(zhuǎn)才是王道。在云計(jì)算工程領(lǐng)域,最難的部分是運(yùn)維這一環(huán)節(jié),這并非危言聳聽哦!

隨著工業(yè)4.0的興起,云計(jì)算已經(jīng)從實(shí)驗(yàn)階段轉(zhuǎn)化為具體實(shí)施階段。除了部署相應(yīng)的軟件、硬件和虛擬化資源,還有一個(gè)問題擺在我們面前,如何運(yùn)維云?如果沒有清晰的云運(yùn)維規(guī)劃和手段,云數(shù)據(jù)中心將難以高效的運(yùn)轉(zhuǎn)起來,所以云運(yùn)維對(duì)于云建設(shè)者來說是至關(guān)重要的一環(huán)。那么云數(shù)據(jù)中心與傳統(tǒng)的數(shù)據(jù)中心運(yùn)維有什么共同點(diǎn)和差別?做好云運(yùn)維應(yīng)該關(guān)注什么?該如何選擇一個(gè)合適的云運(yùn)維工具?上述問題都是應(yīng)該是云運(yùn)維過程中會(huì)遇到的。下文會(huì)針對(duì)這些問題展開詳細(xì)論述。

一、云運(yùn)維與傳統(tǒng)數(shù)據(jù)中心運(yùn)維比較

“云是數(shù)據(jù)中心的新IT形態(tài)”,云與傳統(tǒng)數(shù)據(jù)中心的建設(shè)目標(biāo)是一致的,都是為企業(yè)提供IT服務(wù)。運(yùn)維人員的職責(zé)都是保障IT服務(wù)的質(zhì)量,圍繞服務(wù)等級(jí)協(xié)議SLA展開各種運(yùn)維活動(dòng)。然而在運(yùn)維技術(shù)、管理模式、財(cái)務(wù)流程、服務(wù)分級(jí)、業(yè)務(wù)要求、運(yùn)維職責(zé)劃分等方面兩者又有所不同。

相對(duì)于傳統(tǒng)的數(shù)據(jù)中心,云數(shù)據(jù)中心的服務(wù)特征更加明顯,云數(shù)據(jù)中心將基礎(chǔ)設(shè)施(IaaS)、平臺(tái)(PaaS)、軟件(SaaS)以服務(wù)的形式提供給最終用戶,它利用虛擬化、SDN等技術(shù)將網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)以及應(yīng)用等資源池化,通過自動(dòng)化技術(shù)按需為用戶分配IT資源。因此在云運(yùn)維中IT請(qǐng)求交付(Request Fulfillment)流程的地位不斷突出,也使得云運(yùn)維顯示出明顯的運(yùn)營性質(zhì)。

云也改變了傳統(tǒng)數(shù)據(jù)中心的財(cái)務(wù)管理模式和采購模式,傳統(tǒng)數(shù)據(jù)中心原來的采購流程變?yōu)榱朔?wù)審批流程。要申請(qǐng)?jiān)茢?shù)據(jù)中心資源,面向云業(yè)務(wù)的計(jì)費(fèi)系統(tǒng)也應(yīng)運(yùn)而生。云計(jì)費(fèi)除了用于真正的收費(fèi)場(chǎng)景外,更多的時(shí)候應(yīng)用于企業(yè)內(nèi)部,通過內(nèi)部核算,也就是經(jīng)濟(jì)杠桿去有效約束IT資源需求,形成在服務(wù)質(zhì)量和IT資源間的平衡,有效提升IT資源利用率。

云數(shù)據(jù)中心對(duì)IT服務(wù)交付速度提出了更高的要求,然而云數(shù)據(jù)中心的基礎(chǔ)結(jié)構(gòu)卻比傳統(tǒng)數(shù)據(jù)中心更加復(fù)雜,手工交付難以滿足云服務(wù)交付的速度要求,更容易發(fā)生故障,自動(dòng)化交付就成為了云服務(wù)交付的必要手段。

在傳統(tǒng)數(shù)據(jù)中心,運(yùn)維人員需要關(guān)注基礎(chǔ)設(shè)施的維護(hù),而在在混合云和公有云應(yīng)用場(chǎng)景中,應(yīng)用管理的地位更加突出。運(yùn)維人員不必關(guān)心部署在公有云上的業(yè)務(wù)所依賴的基礎(chǔ)設(shè)施,而業(yè)務(wù)監(jiān)控的職責(zé)也轉(zhuǎn)移給公有云提供商。公有云提供商不但要保障IT基礎(chǔ)設(shè)施本身,還要更加關(guān)注承載業(yè)務(wù)的運(yùn)行狀態(tài)。

二、云數(shù)據(jù)中心運(yùn)維簡(jiǎn)介

在云數(shù)據(jù)中心維護(hù)過程中,云服務(wù)請(qǐng)求交付系統(tǒng)、計(jì)費(fèi)組件以及自動(dòng)化部署組件已經(jīng)從云運(yùn)維系統(tǒng)中剝離出來,形成相對(duì)獨(dú)立的運(yùn)營平臺(tái)—云平臺(tái)。云平臺(tái)提供了服務(wù)目錄、自助服務(wù)臺(tái)、云服務(wù)自動(dòng)部署、以及一體化的計(jì)費(fèi)和核算功能,因此云平臺(tái)對(duì)云數(shù)據(jù)中心的正常運(yùn)轉(zhuǎn)至關(guān)重要。

而傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控、服務(wù)器監(jiān)控、機(jī)房監(jiān)控、業(yè)務(wù)監(jiān)控、事態(tài)管理、變更管理、問題管理、配置管理對(duì)云數(shù)據(jù)中心而言依然不可或缺。云平臺(tái)是云數(shù)據(jù)中心的對(duì)外服務(wù)和展示窗口,是云租戶對(duì)云數(shù)據(jù)中心的直觀體驗(yàn)。云數(shù)據(jù)中心運(yùn)維是云服務(wù)水平的后臺(tái)保障,二者就像客機(jī)上的空乘和地勤一樣,在云數(shù)據(jù)中心缺一不可。

1、云運(yùn)維過程中需要關(guān)注哪些問題?

在云運(yùn)維過程中主要需要關(guān)注如下幾個(gè)問題:

選擇開放架構(gòu)

云雖然已經(jīng)到達(dá)了可實(shí)際部署階段,但是云平臺(tái)架構(gòu)、計(jì)算虛擬化技術(shù)、網(wǎng)絡(luò)虛擬化技術(shù)、云與大數(shù)據(jù)的配合等技術(shù)依然發(fā)展迅速。為保障云運(yùn)維的持續(xù)發(fā)展,應(yīng)該優(yōu)先選擇正在不斷演進(jìn)的開放平臺(tái)作為基礎(chǔ)架構(gòu)。

CMDB作用愈加明顯

在私有云和混合云應(yīng)用場(chǎng)景中,高度集中的業(yè)務(wù)、高度集中的設(shè)施、廣泛應(yīng)用的虛擬化技術(shù)、眾多的云設(shè)施和軟件供應(yīng)商、多樣的云服務(wù)消費(fèi)者,以上這些因素組合在一起,使云運(yùn)維的復(fù)雜度成指數(shù)級(jí)增長(zhǎng)。云數(shù)據(jù)中心的設(shè)備信息、應(yīng)用信息、策略信息、維保信息、組織信息、負(fù)責(zé)人等各維度的信息交織成復(fù)雜的關(guān)系網(wǎng),實(shí)際運(yùn)維時(shí)如果能從這張關(guān)系網(wǎng)中將所關(guān)注的信息抽絲撥繭,將大幅提升云運(yùn)維的效率。反之如果沒有有效手段管理這些關(guān)系,云運(yùn)維可能會(huì)變得混亂和無序,運(yùn)維效率低下,使云服務(wù)體驗(yàn)大打折扣。設(shè)計(jì)合理的CMDB(配置管理數(shù)據(jù)庫)恰恰是解決這個(gè)問題的最佳途徑。CMDB自動(dòng)同步配置項(xiàng)信息,將割裂的各維度信息關(guān)聯(lián)在一起,幫助云運(yùn)維人員全面、準(zhǔn)確和及時(shí)地了解業(yè)務(wù)相關(guān)的組織、資源、環(huán)境和服務(wù)等不同維度信息,使運(yùn)維人員快速準(zhǔn)確地了解事件影響范圍,作出正確的決策。

使用必要手段全局監(jiān)控業(yè)務(wù)質(zhì)量

在混合云應(yīng)用場(chǎng)景中,部分開放的業(yè)務(wù)會(huì)部署到公有云上,企業(yè)運(yùn)維人員無法有效的監(jiān)控到公有云的基礎(chǔ)設(shè)施,在這種情況下,公有云的服務(wù)等級(jí)SLA就成了一個(gè)黑盒,無從監(jiān)控。所以必須要有有效的手段全局監(jiān)控業(yè)務(wù)質(zhì)量,從而間接評(píng)價(jià)公有云服務(wù)等級(jí)SLA。

明確云架構(gòu)下各機(jī)構(gòu)的責(zé)任主體

由于企業(yè)組織架構(gòu)是按照傳統(tǒng)的網(wǎng)絡(luò)、應(yīng)用、計(jì)算來劃分的,而在混合云場(chǎng)景中,云服務(wù)商與企業(yè)運(yùn)維人員也不屬于同一組織機(jī)構(gòu),所以當(dāng)部署在云上的業(yè)務(wù)出現(xiàn)故障時(shí),容易出現(xiàn)組織間的推卸責(zé)任的問題,從而延長(zhǎng)了問題的定位和解決周期。因此企業(yè)運(yùn)維人員要有手段基于業(yè)務(wù)按照網(wǎng)絡(luò)、計(jì)算、應(yīng)用等不同維度的出具資源健康度報(bào)告,明確問題責(zé)任主體。

云場(chǎng)景下如何有效控制開銷

云應(yīng)用場(chǎng)景中還有另外一個(gè)問題,就是如何使用最小的開銷(公有云資源),最大限度地保障業(yè)務(wù)的質(zhì)量。為了保障業(yè)務(wù)的穩(wěn)定運(yùn)行,企業(yè)運(yùn)維人員通常為每個(gè)業(yè)務(wù)申請(qǐng)一定的資源余量,然而過多的余量會(huì)增加財(cái)務(wù)成本,如何確定這個(gè)量,就成企業(yè)運(yùn)維人員關(guān)注的問題。一份能將業(yè)務(wù)運(yùn)行時(shí)所需要的CPU、內(nèi)存、磁盤等歷史信息進(jìn)行有效分析的可度量的業(yè)務(wù)容量分析報(bào)告,將對(duì)企業(yè)運(yùn)維人員非常有用。如果在資源不足發(fā)生前,有工具能夠提前預(yù)警,給企業(yè)運(yùn)維人員充分時(shí)間調(diào)整資源分配策略,將有效節(jié)省公有云開銷。

使用可控的自動(dòng)化手段提升管理效率

云數(shù)據(jù)中心的資源規(guī)模、業(yè)務(wù)規(guī)模、組織規(guī)模遠(yuǎn)遠(yuǎn)超過傳統(tǒng)數(shù)據(jù)中心。新設(shè)備的快速部署、快速上線、納管監(jiān)控、資源編排、定期巡檢、升級(jí)和配置變更這些原本就頗為復(fù)雜的工作在規(guī)模和速度的雙重壓力下都變得更加艱巨。傳統(tǒng)的手工方式效率低下,出錯(cuò)風(fēng)險(xiǎn)高,自動(dòng)化手段逐步成為云運(yùn)維的首選。隨著虛擬化、PXE、SDN、Overlay、服務(wù)鏈等技術(shù)不斷廣泛應(yīng)用,自動(dòng)部署、自動(dòng)編排、自動(dòng)巡檢、自動(dòng)升級(jí)等自動(dòng)化手段越來越多應(yīng)用于云運(yùn)維。然而自動(dòng)化仍然要在可控、可跟蹤、可審計(jì)、可回退的前提下進(jìn)行,避免單個(gè)錯(cuò)誤的擴(kuò)大化。雖然自動(dòng)化還存在一定風(fēng)險(xiǎn),云運(yùn)維的自動(dòng)化趨勢(shì)已經(jīng)不可逆轉(zhuǎn)。

2、如何選擇有效運(yùn)維工具

運(yùn)維工具產(chǎn)品種類繁多,每種運(yùn)維工具都有自己適合的應(yīng)用場(chǎng)景。云數(shù)據(jù)中心架構(gòu)復(fù)雜,業(yè)務(wù)集中,應(yīng)該如何選擇適合云運(yùn)維工具產(chǎn)品呢,下面將展開詳盡的分析。

大集中的云數(shù)據(jù)中心降低了IT整體維護(hù)成本,也增加了業(yè)務(wù)風(fēng)險(xiǎn)。精密空調(diào)故障、UPS故障、火災(zāi)、漏水任一風(fēng)險(xiǎn)如果不能及時(shí)處置都可能給整個(gè)云數(shù)據(jù)中心造成無法修復(fù)的大面積損壞。這種損害影響程度遠(yuǎn)遠(yuǎn)大于單設(shè)備的故障。所以實(shí)時(shí)的機(jī)房監(jiān)控工具對(duì)于云數(shù)據(jù)中心運(yùn)維依然非常重要。

對(duì)于云運(yùn)維而言,如果仍然按照傳統(tǒng)的網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、虛擬化、應(yīng)用去分別管理,對(duì)云運(yùn)維人員講,不但頭緒繁多、而且效率低下。最好能選擇一套工具,能夠?qū)?yīng)用、網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、虛擬化等IT資源的性能及告警信息綜合分析,通過簡(jiǎn)潔易懂的界面,直觀呈現(xiàn)業(yè)務(wù)健康水平。當(dāng)出現(xiàn)故障時(shí),能夠先從全部業(yè)務(wù)的宏觀視角,確定關(guān)聯(lián)和影響,再通過智能鉆取和故障定位技術(shù),縮小故障定位范圍是在計(jì)算、應(yīng)用還是網(wǎng)絡(luò),從而明確問題職責(zé),幫助IT管理員準(zhǔn)確定位業(yè)務(wù)故障位置。

選擇合適的數(shù)據(jù)中心容量管理對(duì)數(shù)據(jù)中心運(yùn)維也非常重要,容量管理工具要能從業(yè)務(wù)、集群、機(jī)房等多個(gè)角度分析數(shù)據(jù)中心容量趨勢(shì),預(yù)測(cè)容量風(fēng)險(xiǎn),指導(dǎo)資源優(yōu)化,為IT投資提供量化依據(jù)。業(yè)務(wù)容量管理要能根據(jù)業(yè)務(wù)負(fù)載及資源消耗趨勢(shì),預(yù)測(cè)系統(tǒng)資源瓶頸,為管理者提供容量預(yù)警和擴(kuò)容建議。集群容量管理應(yīng)該全面監(jiān)控集群內(nèi)物理和虛擬化資源,智能分析資源超配比例,指導(dǎo)資源配置。

選擇合適的CMDB工具會(huì)給云運(yùn)維帶來事半功倍的效果。CMDB工具讓云運(yùn)維人員全面、準(zhǔn)確和及時(shí)地了解業(yè)務(wù)相關(guān)的環(huán)境、資源、組織、服務(wù)信息,有效幫助云運(yùn)維機(jī)構(gòu)消除信息孤島,提升信息關(guān)聯(lián)性和透明度。

云運(yùn)維監(jiān)控工具除了上述特性方面的考慮外,還需要注意工具的廣泛的資源監(jiān)控能力。只有具備監(jiān)控各種應(yīng)用、多個(gè)廠家的網(wǎng)絡(luò)設(shè)備、不同服務(wù)器款型、不同虛擬化產(chǎn)品等IT資源的能力,才能進(jìn)一步作到融合分析和統(tǒng)一運(yùn)維。如果沒有廣泛的適配能力,云運(yùn)維工具就成了中看不中用的花架子,難以產(chǎn)生真正的價(jià)值。

運(yùn)維工具在選擇時(shí)還要注意一點(diǎn),不能將運(yùn)維工具想象成萬能的,所有問題都依賴工具解決。運(yùn)維工具是配合云運(yùn)維規(guī)劃、企業(yè)組織架構(gòu)和企業(yè)管理制度一起來保障云服務(wù)質(zhì)量的,它僅僅是云運(yùn)維的一個(gè)組成部分。云運(yùn)維仍然需要遵從PDCA(計(jì)劃、執(zhí)行、檢查、行動(dòng))的規(guī)律不斷改進(jìn)和優(yōu)化。隨企業(yè)的業(yè)務(wù)要求變化、管理體質(zhì)調(diào)整和技術(shù)發(fā)展,運(yùn)維工具也需要不斷演進(jìn)、不斷優(yōu)化,所以云運(yùn)維工具的選擇也應(yīng)循序漸進(jìn),不能一口吃個(gè)胖子。

結(jié)束語

云運(yùn)維是個(gè)復(fù)雜的系統(tǒng)工程,選擇好的云運(yùn)維工具無疑會(huì)使云運(yùn)維變得輕松,高效。然而選擇這樣的工具前,首先需要考慮云運(yùn)維的組織應(yīng)該如何更好的為云服務(wù),清晰的組織劃分,明確的責(zé)任定位,完善的流程規(guī)劃,能夠幫助確定云運(yùn)維工具的軟件定位,從而使快速找到合適的運(yùn)維工具事半功倍。云運(yùn)維工具仍然依托于傳統(tǒng)的IT設(shè)施監(jiān)控和應(yīng)用監(jiān)控,沒有這個(gè)基礎(chǔ)云運(yùn)維將變成空中樓閣。在此基礎(chǔ)上,云運(yùn)維工具更加重視系統(tǒng)級(jí)的業(yè)務(wù)監(jiān)控,更加重視業(yè)務(wù)、資源、服務(wù)和人之間的關(guān)聯(lián)性,更加重視智能排障能力,更加重視容量管理,更加重視自動(dòng)化能力。有了合適的運(yùn)維工具軟件,云運(yùn)維自然變得簡(jiǎn)單。

(原標(biāo)題:如何讓云運(yùn)維變得簡(jiǎn)單)

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論