在數(shù)據(jù)中心生命周期中,數(shù)據(jù)中心運(yùn)維管理是數(shù)據(jù)中心生命周期中歷時(shí)最長的一個(gè)階段。數(shù)據(jù)中心運(yùn)維管理就是:為提供符合要求的信息系統(tǒng)服務(wù),而對(duì)與該信息系統(tǒng)服務(wù)有關(guān)的數(shù)據(jù)中心各項(xiàng)管理對(duì)象進(jìn)行系統(tǒng)的計(jì)劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務(wù)有關(guān)各項(xiàng)管理工作的總稱。數(shù)據(jù)中心運(yùn)維管理主要肩負(fù)起以下重要目標(biāo):合規(guī)性、可用性、經(jīng)濟(jì)性、服務(wù)性等四大目標(biāo)。
由于云計(jì)算的要求彈性、靈活快速擴(kuò)展、降低運(yùn)維成本、自動(dòng)化資源監(jiān)控、多租戶環(huán)境等特性除基于ITIL的常規(guī)數(shù)據(jù)中心運(yùn)維管理理念之外,以下運(yùn)維管理方面的內(nèi)容,也需要人們加以重點(diǎn)分析和關(guān)注。
一、厘清云計(jì)算數(shù)據(jù)中心的運(yùn)維對(duì)象
數(shù)據(jù)中心的運(yùn)維管理指的是與數(shù)據(jù)中心信息服務(wù)相關(guān)的管理工作的總稱。云計(jì)算數(shù)據(jù)中心運(yùn)維對(duì)象共可分成5類:
(1)機(jī)房環(huán)境基礎(chǔ)設(shè)施部分。這里主要指為保障數(shù)據(jù)中心所管理設(shè)備正常運(yùn)行所必需的網(wǎng)絡(luò)通信、電力資源、環(huán)境資源等。這部分設(shè)備對(duì)于用戶來說幾乎是透明的,因?yàn)榇蠖鄶?shù)用戶基本并不會(huì)關(guān)注到數(shù)據(jù)中心的風(fēng)火水電。但是,這類設(shè)備如發(fā)生意外,對(duì)依托于該基礎(chǔ)設(shè)施的應(yīng)用來說,卻是致命的。
(2)在提供IT服務(wù)過程中所應(yīng)用的各種設(shè)備,包括存儲(chǔ)、服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備等硬件資源。這類設(shè)備在向用戶提供IT服務(wù)過程中提供了計(jì)算、存儲(chǔ)與通信等功能,是IT服務(wù)最直接的物理載體。
(3)系統(tǒng)與數(shù)據(jù),包括操作系統(tǒng)、數(shù)據(jù)庫、中間件、應(yīng)用程序等軟件資源;還有業(yè)務(wù)數(shù)據(jù)、配置文件、日志等各類數(shù)據(jù)。這類管理對(duì)象雖然不像前兩類管理對(duì)象那樣“看得見,摸得著”,但卻是IT服務(wù)的邏輯載體。
(4)管理工具,包括了基礎(chǔ)設(shè)施監(jiān)控軟件、監(jiān)控軟件、工作流管理平臺(tái)、報(bào)表平臺(tái)、短信平臺(tái)等。這類管理對(duì)象是幫助管理主體更高效地管理數(shù)據(jù)中心內(nèi)各種管理對(duì)象,并在管理活動(dòng)中承擔(dān)起部分管理功能的軟硬件設(shè)施。通過這些工具,可以直觀感受并考證到數(shù)據(jù)中心如何管理好與其直接相關(guān)的資源,從而間接地提升的可用性與可靠性。
(5)人員,包括了數(shù)據(jù)中心的技術(shù)人員、運(yùn)維人員、管理人員以及提供服務(wù)的廠商人員。人員一方面作為管理的主體負(fù)責(zé)管理數(shù)據(jù)中心運(yùn)維對(duì)象,另一方面也作為管理的對(duì)象,支持IT的運(yùn)行。這類對(duì)象與其他運(yùn)維對(duì)象不同,具有很強(qiáng)的主觀能動(dòng)性,其管理的好壞將直接影響到整個(gè)運(yùn)維管理體系,而不僅僅是運(yùn)維對(duì)象本身。
二、定義各運(yùn)維對(duì)象的運(yùn)維內(nèi)容
云計(jì)算數(shù)據(jù)中心資源管理所涵蓋的范圍很廣,包括環(huán)境管理、網(wǎng)絡(luò)管理、設(shè)備管理、軟件管理、存儲(chǔ)介質(zhì)管理、防病毒管理、應(yīng)用管理、日常操作管理、用戶密碼管理和員工管理等。要對(duì)每一個(gè)管理對(duì)象的日常維護(hù)工作內(nèi)容有一個(gè)明確的定義,定義操作內(nèi)容、維護(hù)頻度、對(duì)應(yīng)的責(zé)任人,要做到有章可循,責(zé)任人可追蹤。實(shí)現(xiàn)對(duì)整個(gè)系統(tǒng)的全生命周期的追蹤管理。
三、建立信息化的運(yùn)維管理平臺(tái)系統(tǒng)
云計(jì)算數(shù)據(jù)中心的運(yùn)維管理應(yīng)從數(shù)據(jù)中心的日常監(jiān)控入手,事件管理、變更管理、應(yīng)急預(yù)案管理和日常維護(hù)管理等方面全方位地進(jìn)行數(shù)據(jù)中心的日常監(jiān)控。實(shí)現(xiàn)提前發(fā)現(xiàn)問題、消除隱患,首先要有完整的、全方位實(shí)時(shí)有效的監(jiān)控系統(tǒng),并著重監(jiān)控?cái)?shù)據(jù)的記錄和技術(shù)分析。
數(shù)據(jù)中心的業(yè)務(wù)可以概括為:通過運(yùn)行系統(tǒng)來向客戶提供服務(wù)。沒有信息系統(tǒng)的支撐來運(yùn)行IT系統(tǒng)就如超市里仍然采用手工結(jié)賬一樣不能讓顧客滿意。信息化的數(shù)據(jù)中心運(yùn)維管理平臺(tái)系統(tǒng)包括如下方面:
(1)機(jī)房環(huán)境基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)
(2)IT系統(tǒng)監(jiān)控管理系統(tǒng)
(3)IT服務(wù)管理系統(tǒng)
四、定制化管理
靈活性、個(gè)性化是云服務(wù)的顯著特點(diǎn),用戶對(duì)應(yīng)用系統(tǒng)有著千差萬別的個(gè)性化需求,云服務(wù)提供商在保證共性需求的基礎(chǔ)上,需滿足用戶個(gè)性化定制需求,向用戶提供靈活、個(gè)性化配置的云服務(wù)系統(tǒng)。云服務(wù)提供商要提供按需變化的服務(wù),就要有反應(yīng)敏捷的人、流程、工具來適應(yīng)業(yè)務(wù)變化的需要。云計(jì)算服務(wù)下的運(yùn)維需要更多的靈活性和可伸縮性,可以根據(jù)客戶、合作伙伴的需要,快速調(diào)整資源、服務(wù)和基礎(chǔ)設(shè)施。
五、自動(dòng)化管理
IT服務(wù)根據(jù)負(fù)載變化可以自動(dòng)調(diào)整所需資源,以求在及時(shí)響應(yīng)和節(jié)約成本上取得平衡:同時(shí),計(jì)算能力規(guī)模越來越大,人工管理資源也越來越不實(shí)際。這些新特性對(duì)IT管理自動(dòng)化能力提出了更高要求,企業(yè)往往希望在不失靈活性的前提下可以得到更高程度的自動(dòng)化。
為此,云計(jì)算數(shù)據(jù)中心需要部署自動(dòng)化管理平臺(tái),集中管理虛擬化和云計(jì)算平臺(tái)、提供自定義規(guī)則定制功能的自動(dòng)化解決方案,用戶通過使用事件觸發(fā)、數(shù)據(jù)監(jiān)控觸發(fā)等方式來自動(dòng)化管理,節(jié)約人力同時(shí)提高響應(yīng)速度。
六、客戶關(guān)系管理
云計(jì)算數(shù)據(jù)中心是為多租戶提供IT服務(wù)的,為了保留和吸引客戶,在運(yùn)維過程中客戶關(guān)系管理非常重要。
(1)服務(wù)評(píng)審:與客戶進(jìn)行定期或不定期的針對(duì)服務(wù)提供情況的溝通。每次的溝通均應(yīng)形成溝通記錄,以備數(shù)據(jù)中心對(duì)服務(wù)進(jìn)行評(píng)價(jià)和改進(jìn)。
(2)客戶滿意度調(diào)查:客戶滿意度調(diào)查主要包括客戶滿意度調(diào)查的設(shè)計(jì)、執(zhí)行和客戶滿意度調(diào)查結(jié)果的分析、改進(jìn)4個(gè)階段。數(shù)據(jù)中心可根據(jù)客戶的特點(diǎn)制定不同的客戶滿意度調(diào)查方案。
(3)客戶抱怨管理:客戶抱怨管理規(guī)定數(shù)據(jù)中心接收客戶提出抱怨的途徑,以及抱怨的相應(yīng)方式,并留下與事件管理等流程的接口。應(yīng)針對(duì)客戶抱怨完成分析報(bào)告,總結(jié)客戶抱怨的原因,制定相關(guān)的改進(jìn)措施。為及時(shí)應(yīng)對(duì)客戶的抱怨,應(yīng)該規(guī)定客戶抱怨的升級(jí)機(jī)制,對(duì)于嚴(yán)重的客戶抱怨,按升級(jí)的客戶投訴流程進(jìn)行相應(yīng)處理。
七、安全性管理
由于提供服務(wù)的系統(tǒng)和數(shù)據(jù)被轉(zhuǎn)移到用戶可掌控的范圍之外,云服務(wù)的數(shù)據(jù)安全、隱私保護(hù)已成為用戶對(duì)云服務(wù)最為擔(dān)憂的方面。云服務(wù)引發(fā)的安全問題除了包括傳統(tǒng)網(wǎng)絡(luò)與信息安全問題(如系統(tǒng)防護(hù)、數(shù)據(jù)加密、用戶訪問控制、Dos攻擊等問題)外,還包括由集中服務(wù)模式所引發(fā)的安全問題以及云計(jì)算技術(shù)引入的安全問題,例如防虛機(jī)隔離、多租戶數(shù)據(jù)隔離、殘余數(shù)據(jù)擦除以及多SaaS應(yīng)用統(tǒng)一身份認(rèn)證等問題。
要解決云服務(wù)引發(fā)的安全問題,云服務(wù)提供商需要提升用戶安全認(rèn)知、強(qiáng)化服務(wù)運(yùn)營管理和加強(qiáng)安全技術(shù)保障等。需加強(qiáng)用戶對(duì)不同重要性數(shù)據(jù)遷移的認(rèn)知,并在服務(wù)合同中強(qiáng)化用戶自身的服務(wù)帳號(hào)保密意識(shí),可以提升用戶對(duì)安全的認(rèn)知;在服務(wù)管理方面,嚴(yán)格設(shè)定關(guān)鍵系統(tǒng)的分級(jí)分權(quán)管理權(quán)限并輔之以相應(yīng)規(guī)章制度,同時(shí)加強(qiáng)對(duì)合作供應(yīng)商的資格審查與保密教育;加強(qiáng)安全技術(shù)保障,要充分利用網(wǎng)絡(luò)安全、數(shù)據(jù)加密、身份認(rèn)證等技術(shù),消除用戶對(duì)云服務(wù)使用的安全擔(dān)憂,增強(qiáng)用戶使用云服務(wù)的信心。
八、流程管理
流程是數(shù)據(jù)中心運(yùn)維管理質(zhì)量的保證。作為客戶服務(wù)的物理載體,數(shù)據(jù)中心存在的目的就是保證服務(wù)可以按質(zhì)、按量地提供。為確保最終提供給客戶的服務(wù)是符合服務(wù)合同的要求,數(shù)據(jù)中心需要把現(xiàn)在的管理工作抽象成不同的管理流程,并把流程之間的關(guān)系、流程的角色、流程的觸發(fā)點(diǎn)、流程的輸入與輸出等進(jìn)行詳細(xì)定義。通過這種流程的建立,一方面可以使數(shù)據(jù)中心的人員能夠?qū)ぷ饔幸粋€(gè)統(tǒng)一的認(rèn)識(shí),更重要的是通過這些服務(wù)工作的流程化使得整個(gè)服務(wù)提供過程可被監(jiān)控、管理,形成真正意義上的“IT服務(wù)車間”.
數(shù)據(jù)中心建立的管理流程除應(yīng)滿足數(shù)據(jù)中心自身特點(diǎn)外,還應(yīng)能兼顧客戶、管理者、服務(wù)商與審計(jì)機(jī)構(gòu)的需求。由于每個(gè)數(shù)據(jù)中心的實(shí)際運(yùn)維情況與管理目標(biāo)存在差異,數(shù)據(jù)中心需要建立的流程也會(huì)有所不同。
九、應(yīng)急預(yù)案管理
應(yīng)急預(yù)案是為確保發(fā)生故障事件后,盡快消除緊急事件的不良影響,恢復(fù)業(yè)務(wù)的持續(xù)營運(yùn)而制定的應(yīng)急處理措施。應(yīng)急預(yù)案的注意事項(xiàng):
(1)根據(jù)業(yè)務(wù)影響分析的結(jié)果及故障場(chǎng)景的特點(diǎn)編寫應(yīng)急預(yù)案,確保當(dāng)緊急事件發(fā)生后可維持業(yè)務(wù)運(yùn)作,在重要業(yè)務(wù)流程中斷或發(fā)生故障后在規(guī)定時(shí)間內(nèi)恢復(fù)業(yè)務(wù)運(yùn)作。
(2)應(yīng)急預(yù)案除包括特定場(chǎng)景出現(xiàn)后各部門、第三方的責(zé)任與職責(zé)外,還應(yīng)評(píng)估復(fù)原可接受的總時(shí)間。
(3)應(yīng)急預(yù)案必須經(jīng)過演練,使相關(guān)責(zé)任人熟悉應(yīng)急預(yù)案的內(nèi)容。應(yīng)急預(yù)案應(yīng)是一個(gè)閉環(huán)管理,從預(yù)案的創(chuàng)建、演練、評(píng)估到修訂應(yīng)是一個(gè)全過程的管理,絕不能是為了應(yīng)付某個(gè)演練工作,制定后就束之高閣了,而是應(yīng)該在實(shí)際演練和問題發(fā)生時(shí)不斷地總結(jié)和完善。
十、總結(jié)
數(shù)據(jù)中心作為信息與信息系統(tǒng)的物理載體,目前主要用于與IT相關(guān)的主機(jī)、網(wǎng)絡(luò)、存儲(chǔ)等設(shè)備和資源的存放和管理。只有運(yùn)維管理好一個(gè)數(shù)據(jù)中心,才能發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計(jì)算提供強(qiáng)大的支持能力。通過有效實(shí)施云計(jì)算數(shù)據(jù)中心運(yùn)維管理,降低人員工作量的同時(shí)提高運(yùn)維人員工作效率,保障業(yè)務(wù)人員的工作效率,提高業(yè)務(wù)系統(tǒng)運(yùn)行狀況,進(jìn)而提高企業(yè)整體管理效益,同時(shí)提高客戶滿意度,實(shí)現(xiàn)云計(jì)算數(shù)據(jù)中心的價(jià)值最大化。