數(shù)據(jù)中心是企事業(yè)單位為集中放置的電子信息設(shè)備提供運(yùn)行環(huán)境的建筑場(chǎng)所。數(shù)據(jù)中心通過網(wǎng)絡(luò)向企事業(yè)或公眾提供信息服務(wù);在邏輯上包括硬件和軟件,硬件是指數(shù)據(jù)中心的支撐系統(tǒng)和計(jì)算機(jī)設(shè)備等;軟件是指數(shù)據(jù)中心所安裝的程序和提供的服務(wù)。
企事業(yè)單位在數(shù)據(jù)中心機(jī)房?jī)?nèi)配置計(jì)算機(jī)設(shè)備、服務(wù)器、存儲(chǔ)等IT設(shè)備及配套的基礎(chǔ)設(shè)施(包含:供配電系統(tǒng)、空調(diào)系統(tǒng)、監(jiān)控系統(tǒng)、消防系統(tǒng)、運(yùn)維管理等系統(tǒng)),并按信息系統(tǒng)的重要性分別采取容錯(cuò)或冗余等保障措施。
為規(guī)范數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)維管理,各企事業(yè)單位應(yīng)參照相關(guān)國(guó)家標(biāo)準(zhǔn)建立運(yùn)維管理體系、制度、流程等措施,保證信息化業(yè)務(wù)安全、穩(wěn)定、正常運(yùn)行。圖1示出了保證數(shù)據(jù)中心正常運(yùn)行的內(nèi)容。
國(guó)標(biāo)GB/T51314-2018《數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行維護(hù)標(biāo)準(zhǔn)》是根據(jù)住房和城鄉(xiāng)建設(shè)部《關(guān)于印發(fā)<2015年工程建設(shè)標(biāo)準(zhǔn)規(guī)范制訂、修訂計(jì)劃>的通知》(建標(biāo)[2014]189號(hào))的要求,由中國(guó)建筑標(biāo)準(zhǔn)設(shè)計(jì)研究院有限公司、工業(yè)和信息化部電子工業(yè)標(biāo)準(zhǔn)化研究院會(huì)同中國(guó)石油天然氣股份有限公司勘探開發(fā)研究院等有關(guān)單位共同編制完成。
這是一本技術(shù)標(biāo)準(zhǔn),主要運(yùn)行維護(hù)對(duì)象是數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備,不包括電子信息系統(tǒng)和相關(guān)設(shè)備。這個(gè)標(biāo)準(zhǔn)適用于已投入運(yùn)行的數(shù)據(jù)中心。
一、數(shù)據(jù)中心運(yùn)行維護(hù)范圍
數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行維護(hù)范圍應(yīng)包括下列系統(tǒng):電氣系統(tǒng)、通風(fēng)空調(diào)系統(tǒng)、消防系統(tǒng)、智能化系統(tǒng)。
電氣系統(tǒng)的運(yùn)行維護(hù)范圍應(yīng)包括:供配電系統(tǒng)、不間斷電源和后備電源系統(tǒng)、照明系統(tǒng)、配電線路布線系統(tǒng)、防雷與接地系統(tǒng)。
通風(fēng)空調(diào)系統(tǒng)的運(yùn)行維護(hù)范圍應(yīng)包括:冷源和水系統(tǒng)、機(jī)房空調(diào)和新風(fēng)系統(tǒng)。
消防系統(tǒng)的運(yùn)行維護(hù)范圍應(yīng)包括:火災(zāi)自動(dòng)報(bào)警系統(tǒng)、消防聯(lián)動(dòng)系統(tǒng)、自動(dòng)滅火系統(tǒng)。
智能化系統(tǒng)的運(yùn)行維護(hù)范圍應(yīng)包括:環(huán)境和設(shè)備監(jiān)控系統(tǒng)、安全防范系統(tǒng)。
數(shù)據(jù)中心正式投入使用前應(yīng)進(jìn)行綜合系統(tǒng)測(cè)試。運(yùn)行維護(hù)團(tuán)隊(duì)宜參與基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備安裝、調(diào)試和驗(yàn)證的過程。
二、數(shù)據(jù)中心運(yùn)行維護(hù)的基本目標(biāo)
通過有效地計(jì)劃、組織、協(xié)調(diào)與控制,確保電子信息設(shè)備運(yùn)行環(huán)境穩(wěn)定可靠。
通過科學(xué)管理,實(shí)現(xiàn)數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行維護(hù)服務(wù)與經(jīng)濟(jì)性的最優(yōu)化。
數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)行維護(hù)宜按不同設(shè)計(jì)或建設(shè)等級(jí)進(jìn)行。
數(shù)據(jù)中心場(chǎng)地周邊的地質(zhì)災(zāi)害、水災(zāi)、火災(zāi)等隱患應(yīng)定期進(jìn)行檢查。
電力、制冷和消防運(yùn)行維護(hù)人員發(fā)現(xiàn)基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備隱患、異常、故障、報(bào)警等問題,應(yīng)按照事件管理程序或既定處理措施處理。基礎(chǔ)設(shè)施系統(tǒng)與設(shè)備故障和維護(hù)期間,應(yīng)有相應(yīng)的保障措施和應(yīng)急預(yù)案。數(shù)據(jù)中心運(yùn)行維護(hù)操作人員應(yīng)具備行業(yè)規(guī)定的職業(yè)資格。
三、數(shù)據(jù)中心運(yùn)行維護(hù)規(guī)定主要內(nèi)容
基礎(chǔ)設(shè)施系統(tǒng)與設(shè)備運(yùn)行應(yīng)包括值班、監(jiān)控、日常巡檢、運(yùn)行操作、報(bào)警和事件處理等內(nèi)容。A級(jí)數(shù)據(jù)中心應(yīng)24小時(shí)值班,B級(jí)和C級(jí)數(shù)據(jù)中心宜按照電子信息設(shè)備負(fù)載的重要性確定值班時(shí)間。
消防系統(tǒng)和安全防范系統(tǒng)應(yīng)24小時(shí)保持正常工作狀態(tài),不得隨意中斷。
運(yùn)行人員應(yīng)按照巡檢計(jì)劃、周期、規(guī)定路線對(duì)基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備及運(yùn)行環(huán)境進(jìn)行巡檢,巡檢記錄應(yīng)及時(shí)、完整、真實(shí)、清晰。
A級(jí)數(shù)據(jù)中心每日現(xiàn)場(chǎng)巡檢次數(shù)不應(yīng)少于2次,B級(jí)和C級(jí)數(shù)據(jù)中心每日現(xiàn)場(chǎng)巡檢次數(shù)不應(yīng)少于1次。
有能耗計(jì)量系統(tǒng)的數(shù)據(jù)中心,應(yīng)保證能耗計(jì)量裝置正常工作,數(shù)據(jù)完整有效。數(shù)據(jù)中心能耗數(shù)據(jù)應(yīng)定期進(jìn)行綜合分析,合理優(yōu)化電氣與通風(fēng)空調(diào)系統(tǒng)的運(yùn)行控制策略,提高整體電能使用效率。設(shè)備有備用或冗余的,應(yīng)輪換使用。
在各企事業(yè)單位應(yīng)用中,主要是大型或超大型數(shù)據(jù)中心須單獨(dú)設(shè)置運(yùn)行崗位,分不同專業(yè)的運(yùn)行技術(shù)人員對(duì)數(shù)據(jù)中心機(jī)房及相關(guān)輔助用房和電氣系統(tǒng)、通風(fēng)空調(diào)系統(tǒng)、消防系統(tǒng)、智能化系統(tǒng)進(jìn)行實(shí)時(shí)監(jiān)控和現(xiàn)場(chǎng)安全值班、日常巡檢、運(yùn)行操作、報(bào)警和事件處理等內(nèi)容。
四、數(shù)據(jù)中心運(yùn)行維護(hù)管理注意事項(xiàng)
維護(hù)工作應(yīng)包括預(yù)防性維護(hù)、預(yù)測(cè)性維護(hù)和維修等內(nèi)容。
基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備應(yīng)進(jìn)行標(biāo)識(shí),標(biāo)識(shí)應(yīng)設(shè)置于顯著位置。
保修期滿的設(shè)備應(yīng)采取措施確保維護(hù)保養(yǎng)服務(wù)的連續(xù)性。
基礎(chǔ)設(shè)施設(shè)備周圍應(yīng)保持整潔,無雜物堆放,確保維護(hù)維修通道通暢。
數(shù)據(jù)中心維護(hù)管理人員應(yīng)定期對(duì)基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備的運(yùn)行狀態(tài)進(jìn)行風(fēng)險(xiǎn)分析與評(píng)估,根據(jù)評(píng)估結(jié)果進(jìn)行預(yù)測(cè)性維護(hù)。
設(shè)有內(nèi)置時(shí)鐘的設(shè)備應(yīng)定期檢查并進(jìn)行校準(zhǔn),與標(biāo)準(zhǔn)時(shí)間同步。
環(huán)境和設(shè)備監(jiān)控系統(tǒng)、安全防范系統(tǒng)宜定期對(duì)數(shù)據(jù)進(jìn)行備份,并對(duì)備份數(shù)據(jù)進(jìn)行驗(yàn)證。
在各企事業(yè)單位應(yīng)用中主要是大型或超大型數(shù)據(jù)中心單獨(dú)設(shè)置維護(hù)崗位,分不同專業(yè)的維護(hù)技術(shù)人員對(duì)數(shù)據(jù)中心機(jī)房及相關(guān)輔助用房和電氣系統(tǒng)、通風(fēng)空調(diào)系統(tǒng)、消防系統(tǒng)和智能化系統(tǒng)進(jìn)行維護(hù)、保養(yǎng)和維修。
五、加強(qiáng)“預(yù)防性維護(hù)”
“預(yù)防性維護(hù)”是指為降低數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備發(fā)生失效或功能退化的概率,按預(yù)定的時(shí)間間隔或按既定的準(zhǔn)則實(shí)施的維護(hù)。
在各企事業(yè)單位應(yīng)用中,預(yù)防性維護(hù)是以預(yù)防故障和功能退化為目的,對(duì)于事先防止數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)設(shè)備故障的維護(hù)性工作。主要包括:電氣系統(tǒng)、通風(fēng)空調(diào)系統(tǒng)、消防等系統(tǒng)的各種運(yùn)行數(shù)據(jù)和狀況進(jìn)行分析研究,提前對(duì)易損部件或出現(xiàn)風(fēng)險(xiǎn)隱患的設(shè)施進(jìn)行維護(hù)、保養(yǎng)和維修。
“預(yù)測(cè)性維護(hù)”是指通過各種技術(shù)手段進(jìn)行數(shù)據(jù)和信號(hào)的采集、分析,同時(shí)結(jié)合設(shè)備運(yùn)行的壽命期統(tǒng)計(jì)規(guī)律或歷史數(shù)據(jù)。預(yù)測(cè)可能后果,提前采取的有針對(duì)性的維護(hù)活動(dòng)。
預(yù)測(cè)性維護(hù)是以運(yùn)行狀態(tài)為依據(jù)的維修與維護(hù)。在設(shè)備或系統(tǒng)運(yùn)行時(shí),對(duì)它的主要部位進(jìn)行定期或連續(xù)的狀態(tài)監(jiān)測(cè)和故障診斷,判定設(shè)備或系統(tǒng)所處的狀態(tài),預(yù)測(cè)其未來發(fā)展趨勢(shì),針對(duì)可能發(fā)生的故障進(jìn)行維護(hù)活動(dòng)。
預(yù)測(cè)性維護(hù)首先要做定期(離線)或連續(xù)(在線)的設(shè)備狀態(tài)監(jiān)測(cè),以確定在設(shè)備發(fā)生故障前的成本效益最優(yōu)的維護(hù)時(shí)機(jī)。
六、數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)行管理模塊流程
數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)維管理包括運(yùn)行管理對(duì)象、運(yùn)行管理支撐工具、運(yùn)行管理模式、運(yùn)行管理流程和運(yùn)行管理持續(xù)改進(jìn)等模塊。
數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)維管理流程,見圖2。
1.運(yùn)行管理流程:服務(wù)臺(tái)的管理以及事件、問題、配置、變更、發(fā)布、知識(shí)、供應(yīng)商、業(yè)務(wù)關(guān)系、服務(wù)級(jí)別管理等多個(gè)核心流程。
2.流程管理制度:事件、問題、配置、變更、發(fā)布、知識(shí)、供應(yīng)商、業(yè)務(wù)關(guān)系、服務(wù)級(jí)別管理等9個(gè)核心流程的管理制度。
3.運(yùn)維管理制度:機(jī)房管理、維護(hù)作業(yè)管理、值班管理、技術(shù)檔案資料管理、設(shè)備管理、運(yùn)行平臺(tái)管理、重要作業(yè)公告管理等。
4.綜合管理制度:安全管理、文檔管理、質(zhì)量管理、客戶管理、外包管理及上墻制度。數(shù)據(jù)中心的服務(wù)流程、制度與流程,見圖3。
其中又對(duì)規(guī)章制度、IT服務(wù)流程、操作與維護(hù)管理手冊(cè)所包含的內(nèi)容作了說明,如圖4所示。
數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)維管理需要詳細(xì)編制操作手冊(cè)、應(yīng)急操作流程(EOP)和應(yīng)急預(yù)案,提升運(yùn)維團(tuán)隊(duì)?wèi)?yīng)對(duì)突發(fā)事件的管理能力。
為了保證數(shù)據(jù)中心安全穩(wěn)定地運(yùn)行首先要完善基礎(chǔ)設(shè)施的運(yùn)維管理,圖6就示出了必要的保障措施示意圖。
七、案例分析
按照GB50174-2017國(guó)家標(biāo)準(zhǔn)規(guī)劃數(shù)據(jù)中心來規(guī)劃?rùn)C(jī)房設(shè)備的安裝與擺放是保證系統(tǒng)安全運(yùn)行的基本準(zhǔn)則,否則有可能出現(xiàn)問題。比如標(biāo)準(zhǔn)中要求供電設(shè)備的UPS和蓄電池組不能安置在同一空間內(nèi),要進(jìn)行物理隔離,目的是一旦其中出現(xiàn)故障也不要會(huì)影響其它。
新疆一單位數(shù)據(jù)中心由于忽略了標(biāo)準(zhǔn)的要求,將電池和UPS放在一起,如圖7所示。其目的是靠近UPS滿足電池放電時(shí)減小電纜壓降的要求。但當(dāng)電池起火燃燒時(shí)的黑煙被正在運(yùn)行的UPS吸收,在UPS所有電路板上覆蓋了一層厚厚的無法洗掉的油煙,導(dǎo)致了UPS報(bào)廢,相當(dāng)一段時(shí)間整個(gè)數(shù)據(jù)中心停止工作,造成了不可彌補(bǔ)的損失。