如何讓云運(yùn)維變得簡單

西部數(shù)碼
佚名
隨著工業(yè)4.0的興起,云計算已經(jīng)從實(shí)驗(yàn)階段轉(zhuǎn)化為具體實(shí)施階段。除了部署相應(yīng)的軟件、硬件和虛擬化資源,還有一個問題擺在我們面前,如何運(yùn)維云?如果沒有清晰的云運(yùn)維規(guī)劃和手段,云數(shù)據(jù)中心將難以高效的運(yùn)轉(zhuǎn)起來,...

隨著工業(yè)4.0的興起,云計算已經(jīng)從實(shí)驗(yàn)階段轉(zhuǎn)化為具體實(shí)施階段。除了部署相應(yīng)的軟件、硬件和虛擬化資源,還有一個問題擺在我們面前,如何運(yùn)維云?如果沒有清晰的云運(yùn)維規(guī)劃和手段,云數(shù)據(jù)中心將難以高效的運(yùn)轉(zhuǎn)起來,所以云運(yùn)維對于云建設(shè)者來說是至關(guān)重要的一環(huán)。那么云數(shù)據(jù)中心與傳統(tǒng)的數(shù)據(jù)中心運(yùn)維有什么共同點(diǎn)和差別?做好云運(yùn)維應(yīng)該關(guān)注什么?該如何選擇一個合適的云運(yùn)維工具?上述問題都是應(yīng)該是云運(yùn)維過程中會遇到的。下文會針對這些問題展開詳細(xì)論述。

一、云運(yùn)維與傳統(tǒng)數(shù)據(jù)中心運(yùn)維比較

“云是數(shù)據(jù)中心的新IT形態(tài)”,云與傳統(tǒng)數(shù)據(jù)中心的建設(shè)目標(biāo)是一致的,都是為企業(yè)提供IT服務(wù)。運(yùn)維人員的職責(zé)都是保障IT服務(wù)的質(zhì)量,圍繞服務(wù)等級協(xié)議SLA展開各種運(yùn)維活動。然而在運(yùn)維技術(shù)、管理模式、財務(wù)流程、服務(wù)分級、業(yè)務(wù)要求、運(yùn)維職責(zé)劃分等方面兩者又有所不同。

相對于傳統(tǒng)的數(shù)據(jù)中心,云數(shù)據(jù)中心的服務(wù)特征更加明顯,云數(shù)據(jù)中心將基礎(chǔ)設(shè)施(IaaS)、平臺(PaaS)、軟件(SaaS)以服務(wù)的形式提供給最終用戶,它利用虛擬化、SDN等技術(shù)將網(wǎng)絡(luò)、計算、存儲以及應(yīng)用等資源池化,通過自動化技術(shù)按需為用戶分配IT資源。因此在云運(yùn)維中IT請求交付(Request Fulfillment)流程的地位不斷突出,也使得云運(yùn)維顯示出明顯的運(yùn)營性質(zhì)。

云也改變了傳統(tǒng)數(shù)據(jù)中心的財務(wù)管理模式和采購模式,傳統(tǒng)數(shù)據(jù)中心原來的采購流程變?yōu)榱朔?wù)審批流程。要申請云數(shù)據(jù)中心資源,面向云業(yè)務(wù)的計費(fèi)系統(tǒng)也應(yīng)運(yùn)而生。云計費(fèi)除了用于真正的收費(fèi)場景外,更多的時候應(yīng)用于企業(yè)內(nèi)部,通過內(nèi)部核算,也就是經(jīng)濟(jì)杠桿去有效約束IT資源需求,形成在服務(wù)質(zhì)量和IT資源間的平衡,有效提升IT資源利用率。

云數(shù)據(jù)中心對IT服務(wù)交付速度提出了更高的要求,然而云數(shù)據(jù)中心的基礎(chǔ)結(jié)構(gòu)卻比傳統(tǒng)數(shù)據(jù)中心更加復(fù)雜,手工交付難以滿足云服務(wù)交付的速度要求,更容易發(fā)生故障,自動化交付就成為了云服務(wù)交付的必要手段。

在傳統(tǒng)數(shù)據(jù)中心,運(yùn)維人員需要關(guān)注基礎(chǔ)設(shè)施的維護(hù),而在在混合云和公有云應(yīng)用場景中,應(yīng)用管理的地位更加突出。運(yùn)維人員不必關(guān)心部署在公有云上的業(yè)務(wù)所依賴的基礎(chǔ)設(shè)施,而業(yè)務(wù)監(jiān)控的職責(zé)也轉(zhuǎn)移給公有云提供商。公有云提供商不但要保障IT基礎(chǔ)設(shè)施本身,還要更加關(guān)注承載業(yè)務(wù)的運(yùn)行狀態(tài)。

二、云數(shù)據(jù)中心運(yùn)維簡介

在云數(shù)據(jù)中心維護(hù)過程中,云服務(wù)請求交付系統(tǒng)、計費(fèi)組件以及自動化部署組件已經(jīng)從云運(yùn)維系統(tǒng)中剝離出來,形成相對獨(dú)立的運(yùn)營平臺—云平臺。云平臺提供了服務(wù)目錄、自助服務(wù)臺、云服務(wù)自動部署、以及一體化的計費(fèi)和核算功能,因此云平臺對云數(shù)據(jù)中心的正常運(yùn)轉(zhuǎn)至關(guān)重要。

而傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控、服務(wù)器監(jiān)控、機(jī)房監(jiān)控、業(yè)務(wù)監(jiān)控、事態(tài)管理、變更管理、問題管理、配置管理對云數(shù)據(jù)中心而言依然不可或缺。云平臺是云數(shù)據(jù)中心的對外服務(wù)和展示窗口,是云租戶對云數(shù)據(jù)中心的直觀體驗(yàn)。云數(shù)據(jù)中心運(yùn)維是云服務(wù)水平的后臺保障,二者就像客機(jī)上的空乘和地勤一樣,在云數(shù)據(jù)中心缺一不可。

1、云運(yùn)維過程中需要關(guān)注哪些問題?

在云運(yùn)維過程中主要需要關(guān)注如下幾個問題:

選擇開放架構(gòu)

云雖然已經(jīng)到達(dá)了可實(shí)際部署階段,但是云平臺架構(gòu)、計算虛擬化技術(shù)、網(wǎng)絡(luò)虛擬化技術(shù)、云與大數(shù)據(jù)的配合等技術(shù)依然發(fā)展迅速。為保障云運(yùn)維的持續(xù)發(fā)展,應(yīng)該優(yōu)先選擇正在不斷演進(jìn)的開放平臺作為基礎(chǔ)架構(gòu)。

CMDB作用愈加明顯

在私有云和混合云應(yīng)用場景中,高度集中的業(yè)務(wù)、高度集中的設(shè)施、廣泛應(yīng)用的虛擬化技術(shù)、眾多的云設(shè)施和軟件供應(yīng)商、多樣的云服務(wù)消費(fèi)者,以上這些因素組合在一起,使云運(yùn)維的復(fù)雜度成指數(shù)級增長。云數(shù)據(jù)中心的設(shè)備信息、應(yīng)用信息、策略信息、維保信息、組織信息、負(fù)責(zé)人等各維度的信息交織成復(fù)雜的關(guān)系網(wǎng),實(shí)際運(yùn)維時如果能從這張關(guān)系網(wǎng)中將所關(guān)注的信息抽絲撥繭,將大幅提升云運(yùn)維的效率。反之如果沒有有效手段管理這些關(guān)系,云運(yùn)維可能會變得混亂和無序,運(yùn)維效率低下,使云服務(wù)體驗(yàn)大打折扣。設(shè)計合理的CMDB(配置管理數(shù)據(jù)庫)恰恰是解決這個問題的最佳途徑。CMDB自動同步配置項(xiàng)信息,將割裂的各維度信息關(guān)聯(lián)在一起,幫助云運(yùn)維人員全面、準(zhǔn)確和及時地了解業(yè)務(wù)相關(guān)的組織、資源、環(huán)境和服務(wù)等不同維度信息,使運(yùn)維人員快速準(zhǔn)確地了解事件影響范圍,作出正確的決策。

使用必要手段全局監(jiān)控業(yè)務(wù)質(zhì)量

在混合云應(yīng)用場景中,部分開放的業(yè)務(wù)會部署到公有云上,企業(yè)運(yùn)維人員無法有效的監(jiān)控到公有云的基礎(chǔ)設(shè)施,在這種情況下,公有云的服務(wù)等級SLA就成了一個黑盒,無從監(jiān)控。所以必須要有有效的手段全局監(jiān)控業(yè)務(wù)質(zhì)量,從而間接評價公有云服務(wù)等級SLA。

明確云架構(gòu)下各機(jī)構(gòu)的責(zé)任主體

由于企業(yè)組織架構(gòu)是按照傳統(tǒng)的網(wǎng)絡(luò)、應(yīng)用、計算來劃分的,而在混合云場景中,云服務(wù)商與企業(yè)運(yùn)維人員也不屬于同一組織機(jī)構(gòu),所以當(dāng)部署在云上的業(yè)務(wù)出現(xiàn)故障時,容易出現(xiàn)組織間的推卸責(zé)任的問題,從而延長了問題的定位和解決周期。因此企業(yè)運(yùn)維人員要有手段基于業(yè)務(wù)按照網(wǎng)絡(luò)、計算、應(yīng)用等不同維度的出具資源健康度報告,明確問題責(zé)任主體。

云場景下如何有效控制開銷

云應(yīng)用場景中還有另外一個問題,就是如何使用最小的開銷(公有云資源),最大限度地保障業(yè)務(wù)的質(zhì)量。為了保障業(yè)務(wù)的穩(wěn)定運(yùn)行,企業(yè)運(yùn)維人員通常為每個業(yè)務(wù)申請一定的資源余量,然而過多的余量會增加財務(wù)成本,如何確定這個量,就成企業(yè)運(yùn)維人員關(guān)注的問題。一份能將業(yè)務(wù)運(yùn)行時所需要的CPU、內(nèi)存、磁盤等歷史信息進(jìn)行有效分析的可度量的業(yè)務(wù)容量分析報告,將對企業(yè)運(yùn)維人員非常有用。如果在資源不足發(fā)生前,有工具能夠提前預(yù)警,給企業(yè)運(yùn)維人員充分時間調(diào)整資源分配策略,將有效節(jié)省公有云開銷。

使用可控的自動化手段提升管理效率

云數(shù)據(jù)中心的資源規(guī)模、業(yè)務(wù)規(guī)模、組織規(guī)模遠(yuǎn)遠(yuǎn)超過傳統(tǒng)數(shù)據(jù)中心。新設(shè)備的快速部署、快速上線、納管監(jiān)控、資源編排、定期巡檢、升級和配置變更這些原本就頗為復(fù)雜的工作在規(guī)模和速度的雙重壓力下都變得更加艱巨。傳統(tǒng)的手工方式效率低下,出錯風(fēng)險高,自動化手段逐步成為云運(yùn)維的首選。隨著虛擬化、PXE、SDN、Overlay、服務(wù)鏈等技術(shù)不斷廣泛應(yīng)用,自動部署、自動編排、自動巡檢、自動升級等自動化手段越來越多應(yīng)用于云運(yùn)維。然而自動化仍然要在可控、可跟蹤、可審計、可回退的前提下進(jìn)行,避免單個錯誤的擴(kuò)大化。雖然自動化還存在一定風(fēng)險,云運(yùn)維的自動化趨勢已經(jīng)不可逆轉(zhuǎn)。

2、如何選擇有效運(yùn)維工具

運(yùn)維工具產(chǎn)品種類繁多,每種運(yùn)維工具都有自己適合的應(yīng)用場景。云數(shù)據(jù)中心架構(gòu)復(fù)雜,業(yè)務(wù)集中,應(yīng)該如何選擇適合云運(yùn)維工具產(chǎn)品呢,下面將展開詳盡的分析。

大集中的云數(shù)據(jù)中心降低了IT整體維護(hù)成本,也增加了業(yè)務(wù)風(fēng)險。精密空調(diào)故障、UPS故障、火災(zāi)、漏水任一風(fēng)險如果不能及時處置都可能給整個云數(shù)據(jù)中心造成無法修復(fù)的大面積損壞。這種損害影響程度遠(yuǎn)遠(yuǎn)大于單設(shè)備的故障。所以實(shí)時的機(jī)房監(jiān)控工具對于云數(shù)據(jù)中心運(yùn)維依然非常重要。

對于云運(yùn)維而言,如果仍然按照傳統(tǒng)的網(wǎng)絡(luò)、計算、存儲、虛擬化、應(yīng)用去分別管理,對云運(yùn)維人員講,不但頭緒繁多、而且效率低下。最好能選擇一套工具,能夠?qū)?yīng)用、網(wǎng)絡(luò)、計算、存儲、虛擬化等IT資源的性能及告警信息綜合分析,通過簡潔易懂的界面,直觀呈現(xiàn)業(yè)務(wù)健康水平。當(dāng)出現(xiàn)故障時,能夠先從全部業(yè)務(wù)的宏觀視角,確定關(guān)聯(lián)和影響,再通過智能鉆取和故障定位技術(shù),縮小故障定位范圍是在計算、應(yīng)用還是網(wǎng)絡(luò),從而明確問題職責(zé),幫助IT管理員準(zhǔn)確定位業(yè)務(wù)故障位置。

選擇合適的數(shù)據(jù)中心容量管理對數(shù)據(jù)中心運(yùn)維也非常重要,容量管理工具要能從業(yè)務(wù)、集群、機(jī)房等多個角度分析數(shù)據(jù)中心容量趨勢,預(yù)測容量風(fēng)險,指導(dǎo)資源優(yōu)化,為IT投資提供量化依據(jù)。業(yè)務(wù)容量管理要能根據(jù)業(yè)務(wù)負(fù)載及資源消耗趨勢,預(yù)測系統(tǒng)資源瓶頸,為管理者提供容量預(yù)警和擴(kuò)容建議。集群容量管理應(yīng)該全面監(jiān)控集群內(nèi)物理和虛擬化資源,智能分析資源超配比例,指導(dǎo)資源配置。

選擇合適的CMDB工具會給云運(yùn)維帶來事半功倍的效果。CMDB工具讓云運(yùn)維人員全面、準(zhǔn)確和及時地了解業(yè)務(wù)相關(guān)的環(huán)境、資源、組織、服務(wù)信息,有效幫助云運(yùn)維機(jī)構(gòu)消除信息孤島,提升信息關(guān)聯(lián)性和透明度。

云運(yùn)維監(jiān)控工具除了上述特性方面的考慮外,還需要注意工具的廣泛的資源監(jiān)控能力。只有具備監(jiān)控各種應(yīng)用、多個廠家的網(wǎng)絡(luò)設(shè)備、不同服務(wù)器款型、不同虛擬化產(chǎn)品等IT資源的能力,才能進(jìn)一步作到融合分析和統(tǒng)一運(yùn)維。如果沒有廣泛的適配能力,云運(yùn)維工具就成了中看不中用的花架子,難以產(chǎn)生真正的價值。

運(yùn)維工具在選擇時還要注意一點(diǎn),不能將運(yùn)維工具想象成萬能的,所有問題都依賴工具解決。運(yùn)維工具是配合云運(yùn)維規(guī)劃、企業(yè)組織架構(gòu)和企業(yè)管理制度一起來保障云服務(wù)質(zhì)量的,它僅僅是云運(yùn)維的一個組成部分。云運(yùn)維仍然需要遵從PDCA(計劃、執(zhí)行、檢查、行動)的規(guī)律不斷改進(jìn)和優(yōu)化。隨企業(yè)的業(yè)務(wù)要求變化、管理體質(zhì)調(diào)整和技術(shù)發(fā)展,運(yùn)維工具也需要不斷演進(jìn)、不斷優(yōu)化,所以云運(yùn)維工具的選擇也應(yīng)循序漸進(jìn),不能一口吃個胖子。

結(jié)束語

云運(yùn)維是個復(fù)雜的系統(tǒng)工程,選擇好的云運(yùn)維工具無疑會使云運(yùn)維變得輕松,高效。然而選擇這樣的工具前,首先需要考慮云運(yùn)維的組織應(yīng)該如何更好的為云服務(wù),清晰的組織劃分,明確的責(zé)任定位,完善的流程規(guī)劃,能夠幫助確定云運(yùn)維工具的軟件定位,從而使快速找到合適的運(yùn)維工具事半功倍。云運(yùn)維工具仍然依托于傳統(tǒng)的IT設(shè)施監(jiān)控和應(yīng)用監(jiān)控,沒有這個基礎(chǔ)云運(yùn)維將變成空中樓閣。在此基礎(chǔ)上,云運(yùn)維工具更加重視系統(tǒng)級的業(yè)務(wù)監(jiān)控,更加重視業(yè)務(wù)、資源、服務(wù)和人之間的關(guān)聯(lián)性,更加重視智能排障能力,更加重視容量管理,更加重視自動化能力。有了合適的運(yùn)維工具軟件,云運(yùn)維自然變得簡單。

THEEND