現(xiàn)如今, 數(shù)據(jù)中心已成為當(dāng)今全球經(jīng)濟(jì)發(fā)展的新基石。如今只要稍有能力的企業(yè)都在建設(shè)屬于自己的數(shù)據(jù)中心,隨著綠色可持續(xù)發(fā)展政策的頒布,很多企業(yè)更是將打造可持續(xù)的數(shù)據(jù)中心運(yùn)營體系作為企業(yè)發(fā)展的終極目標(biāo)。
保證數(shù)據(jù)中心持續(xù)運(yùn)行,設(shè)計(jì)、建造和運(yùn)維是同等重要的。從運(yùn)維管理角度來看,設(shè)備的運(yùn)維和人員的管理是互補(bǔ)的兩個(gè)方面,構(gòu)成一個(gè)完整的流程。
作為數(shù)據(jù)中心的管理者,最終的目標(biāo)是安全和高效地可持續(xù)運(yùn)營。安全又是首先重要的工作,如果機(jī)房出事,沒有安全,就談不上能夠持續(xù)下去。然后再談高效和綠色可持續(xù)的概念。這是整個(gè)大體系的思路。
那么,最讓運(yùn)維人員睡不著覺的問題有哪些?請見圖1。
從圖1中可知,可用性、高素質(zhì)運(yùn)維人員的匱乏和沒有良好的管理流程占據(jù)令人頭痛問題的前三位。
圖2給出了某數(shù)據(jù)中心在2016~2017年發(fā)生故障的統(tǒng)計(jì)。從圖中可以看出,在2016年,數(shù)據(jù)中心應(yīng)用中斷的故障占比為13%,而在2017年上升為18%。造成故障及事件的原因(有多種原因同時(shí)存在的情況),主要有設(shè)計(jì)和建設(shè)過程中的問題(占49%)、運(yùn)維體系流程不完善(占44%)、人員資質(zhì)不夠(占37%)和人員數(shù)量不夠(占25%),除設(shè)計(jì)和建造過程中的問題以外,其他三個(gè)方面均來自運(yùn)維管理,可見運(yùn)維管理對于數(shù)據(jù)中心的高可靠性和高可用性是十分重要的。
在數(shù)據(jù)中心設(shè)計(jì)和建造過程中,設(shè)計(jì)的驗(yàn)證和建造的過程驗(yàn)證固然是重要的,同時(shí),在投產(chǎn)之前還要把運(yùn)維體系、人才培訓(xùn)等工作做好。
設(shè)計(jì)驗(yàn)證
從形式來講,設(shè)計(jì)驗(yàn)證是聘請有資質(zhì)的設(shè)計(jì)驗(yàn)證單位和專家對數(shù)據(jù)中心的設(shè)計(jì)圖紙進(jìn)行評審,這是建造之前必須要經(jīng)歷的驗(yàn)證過程。
在設(shè)計(jì)驗(yàn)證過程中,最為關(guān)注的是各系統(tǒng)中的單點(diǎn)故障點(diǎn)。圖3給出了一個(gè)單點(diǎn)故障點(diǎn)的實(shí)例。圖中表示,由一臺ATS雙電源切換箱為四臺精密空調(diào)放射性供電,雙電源配電箱的電源來自互為冗余的A/B路電源。此時(shí),雙電源切換箱的ATS就成為了單點(diǎn)故障點(diǎn)。一旦ATS故障或維修,全部空調(diào)將斷電。
為了消除這個(gè)單點(diǎn)故障點(diǎn),設(shè)計(jì)驗(yàn)證應(yīng)給出克服故障的解決方案。圖4便是克服圖3所示的單點(diǎn)故障點(diǎn)的解決方案。
建造驗(yàn)證
建造驗(yàn)證也叫測試驗(yàn)證。在設(shè)計(jì)驗(yàn)證通過后,按設(shè)計(jì)圖紙完成數(shù)據(jù)中心的建造,下一項(xiàng)便是建造驗(yàn)證。在設(shè)計(jì)驗(yàn)證過程中,要驗(yàn)證各系統(tǒng)和各子系統(tǒng)是否存在單點(diǎn)故障點(diǎn),并提出消除單點(diǎn)故障點(diǎn)的解決方案。而在建造驗(yàn)證階段,是要在各個(gè)系統(tǒng)和子系統(tǒng)中模擬任何一個(gè)單點(diǎn)故障,檢驗(yàn)保障系統(tǒng)能否保障數(shù)據(jù)中心的正常運(yùn)行,與此同時(shí),也驗(yàn)證了運(yùn)維體系運(yùn)轉(zhuǎn)是否正常、運(yùn)維管理人員的資質(zhì)和數(shù)量是否達(dá)到要求。
圖5是建造驗(yàn)證的一個(gè)現(xiàn)場場景。建造驗(yàn)證是一項(xiàng)復(fù)雜和技術(shù)含量很高的階段,包括驗(yàn)證數(shù)據(jù)中心各系統(tǒng),如供配電、制冷、監(jiān)控等諸多系統(tǒng)的故障模擬和保障功能。圖6~圖11給出了部分建造驗(yàn)證(測試驗(yàn)證)現(xiàn)場場景。
對于建造驗(yàn)證的重要性,有的用戶不甚理解,甚至不愿意在建造驗(yàn)證方面給予特別地投入。這種認(rèn)識上的誤區(qū)必須克服。
運(yùn)維體系
運(yùn)維包括保養(yǎng)、維修和運(yùn)行三個(gè)方面(見圖12)。
這里必須指出,要充分做好設(shè)計(jì)驗(yàn)證和建造驗(yàn)證兩個(gè)階段的工作,否則,留下的隱患將給后期的運(yùn)維造成很多困難和難以消除的風(fēng)險(xiǎn)。
在構(gòu)建運(yùn)維體系時(shí),參照國內(nèi)外的先進(jìn)做法,首先要清晰經(jīng)營運(yùn)維管理范疇。從圖13所示的數(shù)據(jù)中心運(yùn)維管理體系可以看出,管理的內(nèi)容多多,但安全管理是重中之重,其中人身安全更應(yīng)排在第一位,然后是設(shè)備的安全。只有保證了人身和設(shè)備的安全,才能有運(yùn)維體系各個(gè)流程的正常運(yùn)行。
在運(yùn)維體系建立過程中,其實(shí)有很大比例的、普遍的問題是人員,我們從調(diào)查的角度結(jié)果來看說,很多人覺得運(yùn)維人員很重要,作為運(yùn)維管理人有同樣的感受。運(yùn)維體系建立過程中的差距,其原因與培訓(xùn)的時(shí)間、培訓(xùn)的手段都有關(guān)系。沒有系統(tǒng)的培訓(xùn),或者培訓(xùn)計(jì)劃沒有辦法執(zhí)行到位,是一個(gè)關(guān)鍵的缺陷原因。為什么沒有辦法執(zhí)行到位呢?主要的原因是運(yùn)維人員不夠用,所以就沒有富余的時(shí)間參加培訓(xùn),對于大部分?jǐn)?shù)據(jù)中心來說,錢還不是問題。安排足夠的培訓(xùn)時(shí)間和有針對性的培訓(xùn)計(jì)劃,這是管理層要予以重視的問題。圖14表明了運(yùn)維人員的配置、資質(zhì)和培訓(xùn)的重要性。
風(fēng)險(xiǎn)評估
風(fēng)險(xiǎn)評估,這個(gè)話題近兩年提得比較多,主要來自金融行業(yè),對金融行業(yè)來說,數(shù)據(jù)中心非常重要。金融行業(yè)最近出事比較多,所以銀監(jiān)會對此提出了要求每年至少開展一次安全評估。
數(shù)據(jù)中心無非存在三個(gè)風(fēng)險(xiǎn),一個(gè)是業(yè)務(wù)中斷,數(shù)據(jù)丟失了,前段時(shí)間也有數(shù)據(jù)丟失的案例,客戶數(shù)據(jù)找不到了。還有火災(zāi),火災(zāi)往往是社會影響更大。所以銀監(jiān)會每年要開做兩次安全評估,現(xiàn)在很多銀行基本上一年或兩年都會做安全評估。,第三,國家非常重視信息安全。托管,隨著現(xiàn)在越來越多的客戶要求把數(shù)據(jù)中心進(jìn)行托管,這方面也會要求現(xiàn)場評估。,包括我們自己在運(yùn)行的機(jī)房,怎么評估它,這也是一個(gè)很重要的事情。
在做風(fēng)險(xiǎn)評估時(shí),要做到360度的評估。從基礎(chǔ)架構(gòu)上分析,去看一個(gè)機(jī)房的時(shí)候,首先得看一下架構(gòu),比較容易出事的潛在的點(diǎn)在什么地方?另外在設(shè)施設(shè)備的評估時(shí),要到現(xiàn)場看看周邊有沒有什么危險(xiǎn),包括建筑和設(shè)備的情況。
Uptime2013年給出了一個(gè)挽救的模型(SavesbyCategory),那哪什么叫挽救呢?有一個(gè)事件,沒有演變成一個(gè)故障事故,從事件變成故障事故的期間,要采取措施使其不要變成故障事故,這段期間就是Saves。一個(gè)異常情況定義為一個(gè)異常事件,故障事故就是應(yīng)用中斷。根據(jù)Uptime的統(tǒng)計(jì)數(shù)據(jù),若采用雙路電源供電,可以挽救9%的事件;設(shè)備冗余可以挽救9%的事件;說明50%的事件通過基礎(chǔ)架構(gòu)來挽救,使其不變成故障事故。而另外50%的事件要通過運(yùn)維人員干預(yù)(29%)、預(yù)防性維護(hù)(19%)和預(yù)測性維護(hù)(2%)來挽救,使其不變成故障事故。Uptime2013年給出的挽救的模型見圖15。
另外,還需對機(jī)房環(huán)境和機(jī)房設(shè)施做風(fēng)險(xiǎn)評估。圖16和圖17分別給出了部分機(jī)房環(huán)境風(fēng)險(xiǎn)和部分機(jī)房設(shè)施風(fēng)險(xiǎn)。
結(jié)束語
END
上述的設(shè)計(jì)驗(yàn)證、建造驗(yàn)證、運(yùn)維體系建立和風(fēng)險(xiǎn)評估是中科仙絡(luò)的服務(wù)項(xiàng)目,近年來,服務(wù)過京東、萬達(dá)等知名客戶,也為華為的機(jī)房也做過驗(yàn)證測試,目前主要做Uptime的認(rèn)證,后期還要做lead LEED認(rèn)證。不久前微軟宣布,微軟的數(shù)據(jù)中心都要進(jìn)行l(wèi)ead LEED認(rèn)證。大家知道Uptime是可用性的標(biāo)準(zhǔn),不久的將來,lead LEED認(rèn)證也會得到比較多的認(rèn)同。
(原標(biāo)題:打造可持續(xù)的數(shù)據(jù)中心運(yùn)營體系)