數(shù)據(jù)中心運(yùn)維管理操作標(biāo)準(zhǔn)及流程

數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)與運(yùn)營(yíng)管理
數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)與運(yùn)營(yíng)管理
機(jī)房運(yùn)維團(tuán)隊(duì)?wèi)?yīng)充分了解自己將要管理的場(chǎng)地基礎(chǔ)設(shè)施。對(duì)于新建機(jī)房,應(yīng)盡早參與機(jī)房基礎(chǔ)設(shè)施的建設(shè)過程,以便將運(yùn)維階段的需求在規(guī)劃、設(shè)計(jì)、建造、安裝和調(diào)試等過程中得到充分的考慮;同時(shí)為后期做好運(yùn)維工作打下基礎(chǔ)。

隨著信息技術(shù)和網(wǎng)絡(luò)的快速發(fā)展,同時(shí)也加速了數(shù)據(jù)中心建設(shè)的發(fā)展。數(shù)據(jù)中心對(duì)于像垂直層級(jí)較多的政府單位來說,是信息處理的中心。隨著企業(yè)IT架構(gòu)的不斷擴(kuò)展,服務(wù)器、存儲(chǔ)設(shè)備數(shù)量越來越多,加之云架構(gòu)的出現(xiàn)和普及,數(shù)據(jù)中心的復(fù)雜程度越來越高,運(yùn)維管理的復(fù)雜程度急劇攀升,一個(gè)更加穩(wěn)定且高效的數(shù)據(jù)中心可以為政企的管理和發(fā)展提供強(qiáng)大的支持,這就使得數(shù)據(jù)中心的運(yùn)維管理顯得尤為重要。

下面我們就來聊聊數(shù)據(jù)中心運(yùn)營(yíng)管理中有哪些運(yùn)維操作標(biāo)準(zhǔn)與流程?

1機(jī)房運(yùn)維管理前期準(zhǔn)備

1.1管理目標(biāo)

機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)與業(yè)主管理層、IT部門、相關(guān)業(yè)務(wù)部門共同討論確定運(yùn)維管理目標(biāo)。制定目標(biāo)時(shí),應(yīng)綜合考慮機(jī)房所支持的應(yīng)用的可用性要求、機(jī)房基礎(chǔ)設(shè)施設(shè)施的等級(jí)、容量等因素。目標(biāo)宜包括可用性目標(biāo)、能效目標(biāo)、可以用服務(wù)等級(jí)協(xié)議(SLA)的形式呈現(xiàn)。不同應(yīng)用的可用性目標(biāo)的機(jī)房,可設(shè)定不同等級(jí)的機(jī)房基礎(chǔ)設(shè)施的運(yùn)維管理目標(biāo)。

1.2參與數(shù)據(jù)中心建設(shè)過程

機(jī)房運(yùn)維團(tuán)隊(duì)?wèi)?yīng)充分了解自己將要管理的場(chǎng)地基礎(chǔ)設(shè)施。對(duì)于新建機(jī)房,應(yīng)盡早參與機(jī)房基礎(chǔ)設(shè)施的建設(shè)過程,以便將運(yùn)維階段的需求在規(guī)劃、設(shè)計(jì)、建造、安裝和調(diào)試等過程中得到充分的考慮;同時(shí)為后期做好運(yùn)維工作打下基礎(chǔ)。

1.2.1應(yīng)參與規(guī)劃設(shè)計(jì)

機(jī)房的規(guī)劃設(shè)計(jì)是一個(gè)謹(jǐn)慎和嚴(yán)謹(jǐn)?shù)倪^程,需要所有參與機(jī)房建設(shè)的相關(guān)方共同完成,才能確保規(guī)劃和設(shè)計(jì)的有效性、實(shí)用性等要求。其中,基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)提出運(yùn)維要求,從運(yùn)維經(jīng)驗(yàn)、實(shí)際運(yùn)維難度、提高運(yùn)維可易性等方面對(duì)規(guī)劃和設(shè)計(jì)過程進(jìn)行配合。

1.2.2應(yīng)參與相關(guān)供應(yīng)商遴選

機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)參與機(jī)房基礎(chǔ)設(shè)施設(shè)備供應(yīng)商選擇的全過程,及時(shí)地了解各種產(chǎn)品及服務(wù)的品牌、型號(hào)、規(guī)格等關(guān)鍵參數(shù),使之更能滿足運(yùn)維的要求。并就在安裝、調(diào)試過程中的注意事項(xiàng)等提出建議,還需要對(duì)后續(xù)的設(shè)備保修等服務(wù)提出要求。

1.2.3應(yīng)參與建造管理

機(jī)房的基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)積極參與機(jī)房基礎(chǔ)設(shè)施的建造工作,并協(xié)助做好建設(shè)項(xiàng)目的項(xiàng)目管理工作,著重關(guān)注工程建造中如材料的使用、工序、建造過程等工作,重點(diǎn)關(guān)注隱蔽工程的安裝工藝和質(zhì)量。機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)充分了解施工過程中的工藝。對(duì)于新建數(shù)據(jù)中心,從施工質(zhì)量和日后運(yùn)維方便性出發(fā),盡早發(fā)現(xiàn)施工過程的問題,及時(shí)糾正,方便日后運(yùn)維和節(jié)省日后整改成本。

1.3測(cè)試驗(yàn)證

機(jī)房基礎(chǔ)設(shè)施投產(chǎn)前的測(cè)試驗(yàn)證是確保機(jī)房基礎(chǔ)設(shè)施滿足設(shè)計(jì)要求和運(yùn)行要求的關(guān)鍵環(huán)節(jié)。

1.3.1時(shí)間和預(yù)算

機(jī)房的業(yè)主應(yīng)設(shè)立測(cè)試驗(yàn)證專項(xiàng)預(yù)算,預(yù)算應(yīng)包括外部測(cè)試驗(yàn)證服務(wù)提供商的相關(guān)費(fèi)用,以及在測(cè)試驗(yàn)證階段產(chǎn)生的電費(fèi)、水費(fèi)、油費(fèi)等相關(guān)費(fèi)用。應(yīng)制定測(cè)試驗(yàn)證的工期規(guī)劃,以更準(zhǔn)確地預(yù)測(cè)機(jī)房基礎(chǔ)設(shè)施交付投產(chǎn)的日期。

1.3.2測(cè)試驗(yàn)證參與方

項(xiàng)目建設(shè)管理部門可作為測(cè)試驗(yàn)證工作的主體責(zé)任單位;運(yùn)維管理部門可作為測(cè)試驗(yàn)證工作的主體審核單位;第三方測(cè)試服務(wù)商可作為測(cè)試驗(yàn)證的實(shí)施單位及整體組織工作的協(xié)調(diào)單位。但運(yùn)維管理部門應(yīng)要求測(cè)試服務(wù)商預(yù)先提供測(cè)試方案,在運(yùn)維管理部門審核后方可進(jìn)行。機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)可參與測(cè)試驗(yàn)證工作,在此過程中熟悉設(shè)施和設(shè)備,可建立相關(guān)運(yùn)維技術(shù)文檔庫(kù),為后期的運(yùn)維工作做好準(zhǔn)備。

機(jī)房關(guān)鍵設(shè)備提供商及工程總包商,應(yīng)積極配合測(cè)試驗(yàn)證工作,應(yīng)在供應(yīng)商合同中對(duì)此項(xiàng)有明確要求。

1.3.3測(cè)試驗(yàn)證內(nèi)容

驗(yàn)證應(yīng)覆蓋所有關(guān)鍵子系統(tǒng)和設(shè)備應(yīng)具備的功能和關(guān)鍵的操作程序,確保滿足設(shè)計(jì)要求,必要時(shí)可做故障情景模擬來檢驗(yàn)。

測(cè)試驗(yàn)證中發(fā)現(xiàn)設(shè)計(jì)或者建設(shè)階段的問題,應(yīng)該在報(bào)告中充分體現(xiàn);可以改造的部分,應(yīng)要求建設(shè)單位進(jìn)行改造;不能改造或暫時(shí)不需改造部分,應(yīng)作為風(fēng)險(xiǎn)點(diǎn)在運(yùn)維過程中予以特別的重視,并制定相關(guān)預(yù)案。

1.3.4設(shè)施健康評(píng)估

當(dāng)接手已在運(yùn)行的機(jī)房基礎(chǔ)設(shè)施的運(yùn)維工作前,運(yùn)維團(tuán)隊(duì)?wèi)?yīng)對(duì)設(shè)施的情況進(jìn)行健康評(píng)估,了解潛在風(fēng)險(xiǎn)點(diǎn),其中能夠改造的部分,應(yīng)該申請(qǐng)予以優(yōu)化改造。不能改造的部分,應(yīng)該作為風(fēng)險(xiǎn)點(diǎn)在運(yùn)維中予以特別的重視,并制定相關(guān)預(yù)案。

1.4技術(shù)文檔

完整并準(zhǔn)確的技術(shù)文檔是后期運(yùn)行、維護(hù)、維修、故障診斷、優(yōu)化改造的基礎(chǔ)。運(yùn)維團(tuán)隊(duì)在開展運(yùn)維工作前,應(yīng)從施工單位得到場(chǎng)地基礎(chǔ)設(shè)施的全套相關(guān)文檔,包括但不限于:機(jī)房的規(guī)劃設(shè)計(jì)資料及竣工圖紙、全套設(shè)備的清單及相關(guān)操作文檔和保修保養(yǎng)資料、機(jī)房自動(dòng)操作系統(tǒng)的邏輯圖及說明文檔、監(jiān)控系統(tǒng)的點(diǎn)表、驗(yàn)收測(cè)試文檔、機(jī)房所在建筑的建筑設(shè)計(jì)資料、竣工圖紙。

整體文檔應(yīng)在限定時(shí)限內(nèi)進(jìn)入運(yùn)維管理知識(shí)庫(kù),并按照質(zhì)量管理的原理和要求設(shè)定文檔的起草、變更、審核、批準(zhǔn)、保存、分發(fā)等職責(zé)權(quán)限。

1.5管理邊界

為了明確管理責(zé)任,機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)將可能影響機(jī)房基礎(chǔ)設(shè)施運(yùn)維目標(biāo)達(dá)成的外界因素整合成管理邊界報(bào)告,提交業(yè)主管理層并組織研討,形成明確的決策,制定完整的協(xié)調(diào)溝通機(jī)制及權(quán)責(zé)界限。這些因素包括但不限于:不歸本部門負(fù)責(zé),但可能對(duì)于本部門有重大影響的供電、供水、供暖、制冷、消防、安防、監(jiān)控、運(yùn)營(yíng)商線路接入等系統(tǒng)。

2安全管理和質(zhì)量管理建議

2.1人員安全

機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)要編制正式的機(jī)房生產(chǎn)環(huán)境(工作場(chǎng)所)的安全方針,設(shè)定嚴(yán)格的安全生產(chǎn)規(guī)范;并根據(jù)安全方針制定有效的、明確的安全計(jì)劃,來教授和培訓(xùn)安全原則、危險(xiǎn)識(shí)別、糾正缺陷和控制風(fēng)險(xiǎn)。并加強(qiáng)對(duì)于該部分規(guī)范的合規(guī)度的培訓(xùn)、考試和審核檢查,以確保機(jī)房運(yùn)維人員的人身安全。

●相關(guān)安全生產(chǎn)規(guī)范主要包括:

●機(jī)房生產(chǎn)環(huán)境安全管理規(guī)范;

●機(jī)房基礎(chǔ)設(shè)施各系統(tǒng)安全管理手冊(cè);

●機(jī)房基礎(chǔ)設(shè)施涉及安全的應(yīng)急預(yù)案;

●機(jī)房基礎(chǔ)設(shè)施管理過程涉及的技術(shù)方案中的安全管理策略。

機(jī)房基礎(chǔ)設(shè)施中與電氣相關(guān)的工作存在著固有危險(xiǎn)。設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)當(dāng)創(chuàng)建一份正式電氣安全計(jì)劃,以最小化所有工作人員受到電氣傷害的風(fēng)險(xiǎn),確?,F(xiàn)場(chǎng)電氣系統(tǒng)達(dá)到相關(guān)法規(guī)標(biāo)準(zhǔn)。電氣安全計(jì)劃中的條款應(yīng)規(guī)定電氣工作人員在有資質(zhì)和具備合理安全工作流程的前提下才能進(jìn)行操作,并應(yīng)利用防護(hù)設(shè)備和其他控制手段,如上鎖掛牌設(shè)備。此計(jì)劃的創(chuàng)建旨在防止員工受到電擊、燒傷、電弧和其他潛在電氣安全隱患,同時(shí)要求其遵守法規(guī)標(biāo)準(zhǔn)。

相關(guān)國(guó)家、行業(yè)規(guī)程包括但不限于:

GB 26860電力安全工作規(guī)程發(fā)電廠和變電站電氣部分;

DL 408電業(yè)安全工作規(guī)程。

2.2物理環(huán)境安全

應(yīng)了解周邊社會(huì)環(huán)境信息,評(píng)估潛在的安全風(fēng)險(xiǎn)并制定預(yù)案。這些信息宜包含但不限于:周邊交通路況、醫(yī)院、供油站、消防站、變電站、供水、供電、供氣、網(wǎng)絡(luò)通信線路等。可建立周邊社會(huì)環(huán)境管理資料庫(kù)。

應(yīng)了解機(jī)房所在地的歷史自然災(zāi)害情況。包含但不限于GB50174及TIA-942中提到的所有評(píng)估機(jī)房選址的外部因素,并制定相應(yīng)的管理預(yù)案。

應(yīng)建立并執(zhí)行嚴(yán)格的機(jī)房設(shè)備、人員、車輛進(jìn)出管理制度。

應(yīng)設(shè)立不同安全區(qū)等級(jí)(參考ISO27001信息安全管理中的物理安全控制)并制定訪客管理制度,用以有效管理訪客。

2.3質(zhì)量管理

在機(jī)房基礎(chǔ)設(shè)施運(yùn)維過程中建立完善的質(zhì)量管理體系,是保障以上機(jī)房基礎(chǔ)設(shè)施運(yùn)維趨于卓越的重要因素和手段。機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)的所有關(guān)鍵工作應(yīng)包括以下的質(zhì)量管理要素:

2.3.1質(zhì)量保證

過程制定;

程序制定;

過程審核和批準(zhǔn);

過程和程序培訓(xùn)。

2.3.2質(zhì)量控制

事件回顧;

質(zhì)量檢查和檢驗(yàn);

定期質(zhì)量審核。

2.3.3質(zhì)量改進(jìn)

故障分析;

經(jīng)驗(yàn)教訓(xùn);

優(yōu)化及創(chuàng)新計(jì)劃。

3人員管理建議

3.1組織及人員

3.1.1組織架構(gòu)

機(jī)房運(yùn)維團(tuán)隊(duì)?wèi)?yīng)有清晰的組織架構(gòu),同時(shí)對(duì)各崗位有明確的崗位職責(zé)說明并在計(jì)算機(jī)化維護(hù)管理系統(tǒng)(CMMS)中實(shí)現(xiàn)權(quán)責(zé)匹配,同步更新。中大型數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)中除現(xiàn)場(chǎng)負(fù)責(zé)人外,可按照工作內(nèi)容分設(shè)以下幾個(gè)主要職能崗位:

運(yùn)維巡檢團(tuán)隊(duì)

主要職責(zé):對(duì)基礎(chǔ)設(shè)備設(shè)施進(jìn)行巡檢,擔(dān)任值班工作,第一時(shí)間發(fā)現(xiàn)故障或問題,并作為管理程序的執(zhí)行者。

技術(shù)管理團(tuán)隊(duì)

主要職責(zé):對(duì)機(jī)房基礎(chǔ)設(shè)施提供運(yùn)維技術(shù)支持,解決技術(shù)問題,承擔(dān)機(jī)房基礎(chǔ)設(shè)施一般性的優(yōu)化改造工程的項(xiàng)目管理工作,宜包括電氣、空調(diào)、弱電等系統(tǒng)的技術(shù)人員。

物理環(huán)境安全管理團(tuán)隊(duì)

主要職責(zé):對(duì)物理環(huán)境安全進(jìn)行管理,進(jìn)行安全巡檢等工作。

3.1.2人員配制

機(jī)房基礎(chǔ)設(shè)施運(yùn)維人員的配備應(yīng)根據(jù)運(yùn)維管理目標(biāo)或SLA來確定。中高等級(jí)的機(jī)房,可按照7X24的運(yùn)行要求配置運(yùn)維人員。上崗人員應(yīng)具備國(guó)家要求的相應(yīng)資格證書。應(yīng)在運(yùn)維管理程序中明確規(guī)定資質(zhì)等級(jí)與操作權(quán)限的一致性。

高等級(jí)以及具有一定規(guī)模的機(jī)房,每個(gè)班組應(yīng)配備具有電力、暖通、弱電專業(yè)能力的運(yùn)維人員,以達(dá)到“即時(shí)應(yīng)急響應(yīng)”的工作狀態(tài)。等級(jí)相對(duì)低的機(jī)房,每個(gè)班需要至少配備一人,達(dá)到“即時(shí)報(bào)警”的工作狀態(tài)。

運(yùn)維團(tuán)隊(duì)的關(guān)鍵崗位應(yīng)有人員備份和儲(chǔ)備。

機(jī)房基礎(chǔ)設(shè)施運(yùn)維管理團(tuán)隊(duì)的關(guān)鍵管理人員或關(guān)鍵崗位人員在正常運(yùn)維工作開展中應(yīng)采用A、B角色配置,日常工作中應(yīng)注意角色的分配和工作的配合。其它崗位人員宜建立良好的循環(huán)機(jī)制,人員可進(jìn)行崗位輪換和交叉培訓(xùn),使所有人員掌握全面的基礎(chǔ)知識(shí)。

3.1.3績(jī)效管理

為了提高機(jī)房運(yùn)維人員的技術(shù)技能、職業(yè)素養(yǎng)和提倡團(tuán)隊(duì)合作精神,專業(yè)地、高效率地運(yùn)行和維護(hù)機(jī)房基礎(chǔ)設(shè)施,有必要建立人員的關(guān)鍵績(jī)效指標(biāo),定期對(duì)所有人員的短期和長(zhǎng)期績(jī)效進(jìn)行評(píng)估,獎(jiǎng)優(yōu)罰劣,推動(dòng)整個(gè)運(yùn)維團(tuán)隊(duì)技術(shù)和素質(zhì)的發(fā)展和改進(jìn)。

3.1.4人員管理制度

為了保障機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)的創(chuàng)新性、穩(wěn)定性、持續(xù)性,應(yīng)通過建立合理的人員管理制度,約束人員的工作態(tài)度、行為規(guī)范,提高人員的工作熱情、工作效率和執(zhí)行力,激發(fā)人員正面影響,使團(tuán)隊(duì)一直保有活力來共同努力達(dá)成服務(wù)等級(jí)協(xié)議的要求,運(yùn)維團(tuán)隊(duì)?wèi)?yīng)該建立運(yùn)維人員的各項(xiàng)管理制度。這些管理制度應(yīng)該主要包含(但不限于):

●《日常活動(dòng)管理制度》;

●《人員安全操作制度》;

●《運(yùn)維人員基本素質(zhì)養(yǎng)成管理制度》;

●《安全運(yùn)行獎(jiǎng)懲制度》;

●《節(jié)能運(yùn)行獎(jiǎng)懲制度》;

●《技術(shù)創(chuàng)新獎(jiǎng)勵(lì)制度》;

●《人員晉升制度》;

●《人才儲(chǔ)備制度》;

3.2培訓(xùn)及認(rèn)證

3.2.1員工培訓(xùn)及資格認(rèn)證計(jì)劃

對(duì)于機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)新員工應(yīng)進(jìn)行完整及嚴(yán)格的培訓(xùn),以確保其盡快具備崗位需要之知識(shí)及能力。培訓(xùn)內(nèi)容應(yīng)包括機(jī)房基礎(chǔ)設(shè)施的所有系統(tǒng)的工作原理、操作流程、應(yīng)急預(yù)案、以及管理制度等。

對(duì)于所有運(yùn)維人員宜設(shè)定以知識(shí)更新、技能提高為目標(biāo)的年度培訓(xùn)及認(rèn)證計(jì)劃。宜要求運(yùn)維人員不斷提升理論知識(shí),以便于在缺乏操作程序的應(yīng)急狀態(tài)下進(jìn)行正確的處置。

可借助行業(yè)第三方專業(yè)培訓(xùn)及職業(yè)技能鑒定平臺(tái),積極開展運(yùn)維人員任職資格的評(píng)定工作。

3.2.2歷史事件分析學(xué)習(xí)

運(yùn)維團(tuán)隊(duì)?wèi)?yīng)將機(jī)房基礎(chǔ)設(shè)施歷史事件的總結(jié)分析作為培訓(xùn)的重要素材,進(jìn)行全員培訓(xùn);對(duì)于新員工應(yīng)在上崗前予以培訓(xùn),以避免相同的事件再次發(fā)生。

3.2.3組織學(xué)習(xí)

運(yùn)維團(tuán)隊(duì)管理者應(yīng)積極參與行業(yè)交流,了解行業(yè)最佳的運(yùn)維管理實(shí)踐,并從行業(yè)故障案例中總結(jié)經(jīng)驗(yàn),做好自身整改。

3.3運(yùn)維外包服務(wù)商

3.3.1基礎(chǔ)設(shè)施運(yùn)維外包服務(wù)商的選擇

機(jī)房基礎(chǔ)設(shè)施屬于關(guān)鍵性設(shè)施,選擇外包運(yùn)維團(tuán)隊(duì)時(shí)應(yīng)考察其機(jī)房基礎(chǔ)設(shè)施的運(yùn)維服務(wù)的資質(zhì)、能力和經(jīng)驗(yàn)。如機(jī)房作為商業(yè)物業(yè)的一部分整體外包運(yùn)維,應(yīng)要求外包運(yùn)維機(jī)構(gòu)針對(duì)機(jī)房基礎(chǔ)設(shè)施設(shè)施部分設(shè)立專門的有機(jī)房基礎(chǔ)設(shè)施運(yùn)維經(jīng)驗(yàn)的團(tuán)隊(duì),并嚴(yán)格按機(jī)房基礎(chǔ)設(shè)施的運(yùn)維規(guī)程規(guī)范執(zhí)行。

3.3.2運(yùn)維外包服務(wù)商的管理

對(duì)于外包服務(wù)商的員工的管理原則應(yīng)該參照運(yùn)維團(tuán)隊(duì)內(nèi)部員工同等要求,相關(guān)人員只有在進(jìn)行培訓(xùn)并得到相關(guān)的認(rèn)證后才能從事相關(guān)的工作。

外包服務(wù)商需要嚴(yán)格遵循數(shù)機(jī)房基礎(chǔ)設(shè)施既定的操作流程和安全守則。

機(jī)房基礎(chǔ)設(shè)施運(yùn)維管理的最終責(zé)任承擔(dān)者是機(jī)房管理者,責(zé)任無法外包。因此,機(jī)房應(yīng)保留運(yùn)維核心管理人員,對(duì)于外包團(tuán)隊(duì)的工作進(jìn)行審核、監(jiān)督和績(jī)效評(píng)估管理。

4設(shè)施管理建議

4.1資產(chǎn)數(shù)據(jù)庫(kù)

數(shù)據(jù)中心應(yīng)建立完整及實(shí)時(shí)更新的資產(chǎn)數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)應(yīng)包括所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備的清單,還應(yīng)記錄設(shè)備設(shè)施的運(yùn)行情況、事件情況、變更情況、維護(hù)保養(yǎng)頻次等信息。

資產(chǎn)數(shù)據(jù)庫(kù)應(yīng)最少包括以下信息:

●資產(chǎn)ID:每個(gè)資產(chǎn)的唯一標(biāo)識(shí)號(hào)

●種類:一級(jí)分類(如電氣、制冷、消防系統(tǒng))

●子類:二級(jí)分類(如UPS、電池、PDU等)

●描述:資產(chǎn)的文字說明

●制造:資產(chǎn)的制造廠家

●型號(hào):制造廠家的產(chǎn)品型號(hào)

●規(guī)格:資產(chǎn)的規(guī)格或者標(biāo)稱值

●位置:位置ID(房間或區(qū)域)

●購(gòu)買人:資產(chǎn)維護(hù)的負(fù)責(zé)人

●序列號(hào):制造廠家的序列號(hào)

●安裝日期:資產(chǎn)的投產(chǎn)日期

●保修期限:保修到期的日期

●更換:預(yù)計(jì)的資產(chǎn)更換日期

●維護(hù)頻次:年檢、季檢、月檢等

4.2預(yù)防性維護(hù)

4.2.1預(yù)防性維護(hù)計(jì)劃

預(yù)防性維護(hù)是為了延長(zhǎng)設(shè)備的使用壽命和減少設(shè)備故障的概率而進(jìn)行的有計(jì)劃的維護(hù)。其目的是通過定期檢查和保養(yǎng),使設(shè)備的某些缺陷或隱患在變得更嚴(yán)重之前被發(fā)現(xiàn)。

運(yùn)維團(tuán)隊(duì)?wèi)?yīng)根據(jù)系統(tǒng)設(shè)備情況與供應(yīng)商進(jìn)行溝通,按照供應(yīng)商的建議提前制定年度、季度、月度預(yù)防性維護(hù)計(jì)劃。各專業(yè)運(yùn)維人員需按照各設(shè)備系統(tǒng)特性、維護(hù)流程及規(guī)范,及時(shí)、完整地落實(shí)維護(hù)工作,并形成客觀實(shí)際的記錄和報(bào)告予以存檔。運(yùn)維團(tuán)隊(duì)還應(yīng)定期對(duì)設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和趨勢(shì)量化分析,對(duì)于異常的趨勢(shì),做出報(bào)警及相關(guān)預(yù)案。

預(yù)防性維護(hù)包括并不限于以下系統(tǒng)設(shè)備或內(nèi)容:

●冷水機(jī)組、精密空調(diào);

●UPS,開關(guān)、和發(fā)電機(jī)組;

●消防系統(tǒng)和監(jiān)控系統(tǒng)檢驗(yàn);

●蓄電池放電測(cè)試;

●配電裝置(高低壓配電裝置)的絕緣性定期試驗(yàn);

二次保護(hù)定值實(shí)驗(yàn);

每年雨季之前進(jìn)行的數(shù)據(jù)中心防雷接地裝置測(cè)試等。

4.2.2工單管理

運(yùn)維團(tuán)隊(duì)?wèi)?yīng)建立預(yù)防性維護(hù)及保養(yǎng)的工單管理系統(tǒng),工單應(yīng)列出工作內(nèi)容、完成相應(yīng)工作需要的工具及備件、工作預(yù)計(jì)完成的時(shí)間、工作負(fù)責(zé)人等信息。

計(jì)算機(jī)化維護(hù)管理系統(tǒng)應(yīng)該對(duì)每份工單從產(chǎn)生到完成進(jìn)行全程的跟蹤。

4.3操作流程

機(jī)房基礎(chǔ)設(shè)施的所有操作,均應(yīng)事先制定詳細(xì)的操作流程,經(jīng)過審核后存檔并在后期運(yùn)行階段嚴(yán)格執(zhí)行。

4.3.1維護(hù)作業(yè)程序MOP

對(duì)機(jī)房關(guān)鍵基礎(chǔ)設(shè)施設(shè)備的每次維護(hù)、維修、安裝操作,都應(yīng)事先制定一份MOP??梢笤O(shè)備供應(yīng)商提供MOP的建議,但對(duì)于MOP最終確認(rèn)審核的責(zé)任在于運(yùn)維團(tuán)隊(duì),批準(zhǔn)責(zé)任在于運(yùn)維管理團(tuán)隊(duì)。

4.3.2標(biāo)準(zhǔn)操作流程SOP

所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備在各種情況下都能執(zhí)行的常用操作都應(yīng)制定標(biāo)準(zhǔn)操作流程SOP。例如手動(dòng)啟動(dòng)發(fā)電機(jī)組的操作流程,或?qū)PS轉(zhuǎn)換到旁路的操作流程等。

4.3.3應(yīng)急操作流程EOP

應(yīng)急操作流程適用于有可能發(fā)生的嚴(yán)重故障情況。以下為部分嚴(yán)重故障的例子:

●一路市電供電時(shí)中斷;

●雙路市電供電時(shí)同時(shí)中斷;

●單個(gè)精密空調(diào)時(shí)故障停機(jī);

●全部精密空調(diào)都故障停機(jī);

●單臺(tái)UPS時(shí)故障停機(jī)。

4.4工具及備件管理

運(yùn)維團(tuán)隊(duì)?wèi)?yīng)根據(jù)資產(chǎn)分類清單及其分類制定最低備件庫(kù)存清單并及時(shí)補(bǔ)充備件。

測(cè)試分析儀器儀表方面可配備進(jìn)行電氣性能參數(shù)測(cè)試、電池測(cè)試、接地電阻測(cè)試、絕緣性能測(cè)試、設(shè)備運(yùn)行溫度測(cè)試、風(fēng)速測(cè)試、環(huán)境溫度測(cè)試、噪音測(cè)試等的儀器儀表。儀器儀表應(yīng)該定期校準(zhǔn)。

應(yīng)制定相關(guān)規(guī)定對(duì)操作工具、儀器儀表實(shí)行人員負(fù)責(zé)制或者交接班負(fù)責(zé)制等管理制度。備件和工具應(yīng)定期進(jìn)行盤點(diǎn)。

4.5供應(yīng)商管理

應(yīng)該按照機(jī)房基礎(chǔ)設(shè)施運(yùn)維的資質(zhì)、以往的經(jīng)驗(yàn)、業(yè)界的口碑等因素,以注重預(yù)防性和預(yù)測(cè)性維護(hù)和提高可用性的相同標(biāo)準(zhǔn)來選擇合格的供應(yīng)商。

所有供應(yīng)商到達(dá)機(jī)房執(zhí)行維護(hù)程序之前,應(yīng)通過機(jī)房相關(guān)規(guī)程的培訓(xùn),獲得機(jī)房運(yùn)維團(tuán)隊(duì)和運(yùn)維管理層的批準(zhǔn)。在執(zhí)行維護(hù)活動(dòng)的過程中要嚴(yán)格遵循操作流程。操作時(shí)需由運(yùn)維團(tuán)隊(duì)的人員陪同并監(jiān)督記錄流程的執(zhí)行情況。

供應(yīng)商的每次機(jī)房維護(hù)活動(dòng)都應(yīng)該提交現(xiàn)場(chǎng)服務(wù)報(bào)告并存檔。

運(yùn)維團(tuán)隊(duì)?wèi)?yīng)該建立供應(yīng)商的績(jī)效評(píng)估方案,并定期對(duì)供應(yīng)商進(jìn)行績(jī)效評(píng)估。應(yīng)設(shè)立供應(yīng)商管理文檔,記錄所有供應(yīng)商的聯(lián)系方式、服務(wù)承諾(SLA)、工作范圍、針對(duì)設(shè)施的培訓(xùn)和認(rèn)證情況等信息。

4.6生命周期管理

應(yīng)基于設(shè)施設(shè)備的合理生命周期,結(jié)合風(fēng)險(xiǎn)評(píng)估,制定設(shè)備維護(hù)、升級(jí)或更換的計(jì)劃及預(yù)算,及時(shí)報(bào)告給運(yùn)維管理部門。

●風(fēng)險(xiǎn)評(píng)估主要評(píng)估內(nèi)容包括:

●資產(chǎn)重要性識(shí)別;

●資產(chǎn)威脅識(shí)別;

●資產(chǎn)脆弱性識(shí)別;

●風(fēng)險(xiǎn)值的計(jì)算;

在評(píng)估更換設(shè)備的方案時(shí),可綜合考慮原有設(shè)備的維護(hù)費(fèi)用以及新設(shè)備在能效方面的改進(jìn),做好綜合投資回報(bào)分析;

對(duì)于冗余設(shè)備宜設(shè)立輪換運(yùn)行機(jī)制,以延長(zhǎng)整體設(shè)備的生命周期。

4.7運(yùn)維管理系統(tǒng)

機(jī)房可建立自動(dòng)化維護(hù)管理系統(tǒng)(MMS),集中實(shí)現(xiàn)資產(chǎn)管理、維護(hù)調(diào)度、信息安全、文檔管理、工單管理的職能并記錄所有的運(yùn)維工作任務(wù)及完成情況。

5運(yùn)行管理建議

5.1運(yùn)行管理制度

●機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)建立并嚴(yán)格執(zhí)行運(yùn)行管理制度,包括:5.1.1巡檢相關(guān)管理制度

●日常巡視巡檢管理制度;

●值班管理制度;

●交接班管理制度;

●通知矩陣。

5.1.2工作流程相關(guān)管理制度

●工單處理流程;

●例會(huì)制度;

●工作總結(jié)報(bào)告制度(日、周、月、季、年總結(jié)報(bào)告);

●交付管理規(guī)范;

●運(yùn)維質(zhì)量管理辦法文檔管理制度;

●工具備件管理制度。

5.1.3安全相關(guān)管理制度

●機(jī)房出入管理制度;

●機(jī)房現(xiàn)場(chǎng)管理制度;

●機(jī)房衛(wèi)生管理制度;

●信息安全相關(guān)管理制度。

5.1.4故障處理管理制度

●設(shè)備操作管理制度;

●設(shè)備故障處理流程;

●應(yīng)急準(zhǔn)備和應(yīng)急響應(yīng)流程;

●維護(hù)作業(yè)計(jì)劃管理制度;

●故障隱患跟蹤反饋管理制度;

●緊急事件匯報(bào)流程。

5.1.5經(jīng)營(yíng)相關(guān)管理制度

●員工行為規(guī)范;

●考勤管理制度;

●人員管理考核制度。

5.2設(shè)施監(jiān)控、巡檢、及交接班管理

應(yīng)配備環(huán)境、動(dòng)力、安防等監(jiān)控系統(tǒng)以便于運(yùn)維人員及時(shí)了解設(shè)施各系統(tǒng)及設(shè)備的運(yùn)行狀態(tài)和及時(shí)發(fā)現(xiàn)異常情況。

應(yīng)規(guī)定相應(yīng)的運(yùn)行人員對(duì)設(shè)施運(yùn)行狀態(tài)的巡視頻次、巡視工作內(nèi)容及規(guī)范。

運(yùn)行人員交接班時(shí)應(yīng)對(duì)當(dāng)班執(zhí)行的操作、變更及觀察到的任何異常數(shù)據(jù)或現(xiàn)象進(jìn)行交接和簽收。

5.3機(jī)房清潔管理

應(yīng)劃定保潔區(qū)域,定期做好機(jī)房保潔工作,保證地板及地板下的無塵狀態(tài)。重要區(qū)域進(jìn)行保潔工作時(shí)應(yīng)有運(yùn)維人員現(xiàn)場(chǎng)監(jiān)督和指導(dǎo)。

5.4標(biāo)簽標(biāo)識(shí)管理

應(yīng)建立針對(duì)數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施設(shè)備和物理環(huán)境完整的、清晰的標(biāo)簽標(biāo)識(shí)管理系統(tǒng)。應(yīng)至少包括:

設(shè)備標(biāo)識(shí):包括設(shè)備名稱、型號(hào)、編號(hào)、資產(chǎn)編號(hào)等;

線纜標(biāo)識(shí):包括起始端信息、終止端信息、設(shè)備名稱等;

警示標(biāo)識(shí):如“設(shè)備已帶電/危險(xiǎn)”、“禁止合閘”、“禁止分閘”等;

物理環(huán)境標(biāo)識(shí):如位置標(biāo)識(shí)、區(qū)域標(biāo)識(shí)等;

系統(tǒng)圖展板標(biāo)識(shí):如電氣、暖通、消防、弱電系統(tǒng)圖展板。這類標(biāo)識(shí)便于運(yùn)維人員清晰、快捷地掌握區(qū)域及整個(gè)數(shù)據(jù)中心系統(tǒng)的配電、制冷、消防、弱電的原理及關(guān)鍵點(diǎn)位。

5.5變更管理

任何對(duì)于設(shè)施運(yùn)行狀態(tài)的變更應(yīng)進(jìn)行預(yù)先的風(fēng)險(xiǎn)分析,并基于風(fēng)險(xiǎn)等級(jí),設(shè)定相應(yīng)級(jí)別的事前審核流程。在變更方案及變更時(shí)間窗口確認(rèn)后,應(yīng)進(jìn)行相應(yīng)范圍的告知。變更結(jié)束后,應(yīng)向相應(yīng)范圍部門通報(bào)變更結(jié)果。

5.6事件管理

應(yīng)制定事件管理流程,明確不同等級(jí)事件下相應(yīng)的處理流程。

5.6.1事件等級(jí)定義

一般事件:任何沒有達(dá)到機(jī)房設(shè)計(jì)和運(yùn)行標(biāo)準(zhǔn)的異常事件;

嚴(yán)重事件:任何沒有達(dá)到機(jī)房設(shè)計(jì)、運(yùn)行標(biāo)準(zhǔn)的事件,且對(duì)提供的服務(wù)造成中斷的事件;

重大事件:任何沒有達(dá)到機(jī)房設(shè)計(jì)、運(yùn)行標(biāo)準(zhǔn)的事件,且對(duì)提供的服務(wù)造成中斷,且影響范圍大的事件。

5.6.2事件升級(jí)

當(dāng)事件暫時(shí)無法排除,需要逐級(jí)報(bào)告,進(jìn)入事件升級(jí)流程。

如遇特殊情況,與直接主管聯(lián)系不上時(shí),可越級(jí)向上一級(jí)主管報(bào)告。

5.7應(yīng)急響應(yīng)

5.7.1設(shè)施應(yīng)急預(yù)案演練

運(yùn)維團(tuán)隊(duì)?wèi)?yīng)針對(duì)應(yīng)急操作流程EOP進(jìn)行定期的演練工作,主要包括:

沙盤演練:參與演練的運(yùn)維人員集合,并分別口述在發(fā)生緊急情況下自身所應(yīng)承擔(dān)的職責(zé)及將會(huì)執(zhí)行的方案及步驟;

跑位演練:參與演練的人員跑位到模擬故障現(xiàn)場(chǎng),模擬處理故障,參與人員應(yīng)清晰地說出故障的處理方案及步驟。

應(yīng)急演練的演練原則是:盡量接近真實(shí)情況,在條件允許的情況下盡量真實(shí)地處理故障。在運(yùn)行中的一些特定場(chǎng)景下也可以進(jìn)行應(yīng)急演練,如發(fā)電機(jī)帶載實(shí)驗(yàn)等。

5.7.2人員安全應(yīng)急流程

機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)針對(duì)影響運(yùn)維人員健康的人身事故制定應(yīng)急流程并定期演練。應(yīng)急流程可包括設(shè)置現(xiàn)場(chǎng)急救包以及聯(lián)系當(dāng)?shù)蒯t(yī)療急救機(jī)構(gòu)的方式等。

5.8容量管理

容量管理可包括但不限于以下方面:

5.8.1空間容量

●IT設(shè)備擺放空間;

●基礎(chǔ)設(shè)備設(shè)施擺放空間;

●綜合布線線路空間,配線架管理。

5.8.2能力容量

●電力供應(yīng)容量;

●空調(diào)供應(yīng)容量;

●綜合布線信息點(diǎn)容量;

●互聯(lián)網(wǎng)接入容量。

設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)與IT部門定期溝通,動(dòng)態(tài)了解IT需求的預(yù)測(cè),并通報(bào)設(shè)施容量的使用情況??芍贫?個(gè)月至36個(gè)月周期的IT需求及設(shè)施可用容量?jī)烧叩膶?duì)比分析表。

當(dāng)機(jī)房基礎(chǔ)設(shè)施不能滿足IT增長(zhǎng)的需求時(shí),應(yīng)提前制定并上報(bào)擴(kuò)容或者新建機(jī)房的計(jì)劃。

5.9能效管理

5.9.1能效監(jiān)測(cè)

機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)了解并記錄機(jī)房在不同工況及不同外界氣候條件下的電力使用效率PUE的變化情況,從中發(fā)現(xiàn)趨勢(shì),以不斷優(yōu)化運(yùn)行方案。

5.9.2了解IT設(shè)備運(yùn)行特征

機(jī)房基礎(chǔ)設(shè)施運(yùn)維人員應(yīng)具備一定的IT設(shè)備相關(guān)知識(shí),了解服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等設(shè)備的運(yùn)行特點(diǎn)和功耗情況。還應(yīng)了解客戶或用戶的業(yè)務(wù)基本情況,了解IT設(shè)備的運(yùn)行峰谷期。

應(yīng)與客戶或用戶相關(guān)部門做好溝通,針對(duì)高密度IT負(fù)載的部署做出預(yù)測(cè),并制定相關(guān)應(yīng)對(duì)方案。

5.9.3管理氣流組織

應(yīng)封堵設(shè)施建筑所有可能的漏風(fēng)口,維持設(shè)施的正壓。

應(yīng)疏導(dǎo)設(shè)施內(nèi)氣流的流向、封堵所有可能的漏風(fēng)口、對(duì)機(jī)柜內(nèi)所有空閑U位安裝盲板、關(guān)閉不必要的出風(fēng)口、保證冷空氣的最佳使用效率。

5.9.4運(yùn)行閾值設(shè)定

應(yīng)基于安全性及運(yùn)行效率的綜合考慮,建立運(yùn)行閾值設(shè)定指南,設(shè)置監(jiān)控報(bào)警閾值、空調(diào)回風(fēng)溫度等。

5.10預(yù)算管理

運(yùn)維團(tuán)隊(duì)?wèi)?yīng)做好運(yùn)維財(cái)務(wù)預(yù)算,上報(bào)主管領(lǐng)導(dǎo)及財(cái)務(wù)部門,并做好預(yù)算必要性的溝通解釋工作。

預(yù)算應(yīng)包括但不限于以下內(nèi)容:

基于SLA的人力預(yù)算;

備件及工具、儀器采購(gòu)費(fèi)用;

應(yīng)急維護(hù)材料費(fèi)用;

●專業(yè)外包維保和應(yīng)急服務(wù)費(fèi)用;

●政策性等強(qiáng)制檢測(cè)服務(wù)費(fèi)用;

●整改或節(jié)能改造預(yù)算;

●突發(fā)問題備用金。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論