摘要: 人類社會(huì)正在快速邁入數(shù)字化時(shí)代,數(shù)據(jù)中心作為新時(shí)代的基礎(chǔ)設(shè)施承擔(dān)著越來越重要的使命。數(shù)據(jù)中心技術(shù)和規(guī)模的快速發(fā)展,使數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維越來越具有挑戰(zhàn)性。這個(gè)行業(yè)里面有設(shè)計(jì)咨詢、工程施工、設(shè)備制造、評估認(rèn)證和維保服務(wù)等諸多廠商,在運(yùn)維上涌現(xiàn)出了“端到端服務(wù)解決方案”、“全生命周期管理”、“全天候保障”、“運(yùn)維自動(dòng)化”、“運(yùn)維智能化”、“預(yù)測性維護(hù)”等讓人眼花繚亂的服務(wù)理念及宣傳語,那么運(yùn)維到底要干什么、具體應(yīng)該怎么干,作為數(shù)據(jù)中心的運(yùn)維決策人員心里要有個(gè)底。
關(guān)鍵字 : 數(shù)據(jù)中心 基礎(chǔ)設(shè)施 基礎(chǔ)運(yùn)維 運(yùn)維模型
2020年,一場突如其來的疫情在全球蔓延,國內(nèi)新基建順勢全面啟動(dòng),數(shù)據(jù)中心產(chǎn)業(yè)也意外的成為了大熱門。作為數(shù)據(jù)中心從業(yè)者,一方面會(huì)感覺很自豪,能夠?qū)⒆陨砉ぷ魅谌氲竭@個(gè)偉大的數(shù)字化時(shí)代中,同時(shí)作為一個(gè)基礎(chǔ)設(shè)施的建設(shè)和運(yùn)維者,也深感責(zé)任重大,有如履薄冰的感覺。本文基于個(gè)人在數(shù)據(jù)中心建設(shè)和運(yùn)維方面的經(jīng)驗(yàn),談?wù)剬τ诨A(chǔ)設(shè)施運(yùn)維的一些理解和思考。本文所講的基礎(chǔ)設(shè)施對應(yīng)的是數(shù)據(jù)機(jī)房風(fēng)火水電這些傳統(tǒng)的動(dòng)力專業(yè)范疇。
01
運(yùn)維工作的認(rèn)識
對于事物的理解都是遵從由表及里由淺入深的,我們在數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維方面也經(jīng)歷了這么一個(gè)階段。六年前我所在的數(shù)據(jù)中心剛投產(chǎn)時(shí),我們的基本想法是設(shè)備運(yùn)行穩(wěn)定,不出故障。那時(shí)候的運(yùn)維工作也相對比較簡單,首先安排外包值守做好巡視監(jiān)控,同時(shí)按維護(hù)計(jì)劃做一些運(yùn)維工作,就這么愉快的做起了運(yùn)維。
隨著機(jī)房內(nèi)重要應(yīng)用系統(tǒng)的不斷部署上線,同時(shí)基礎(chǔ)設(shè)施規(guī)模不斷擴(kuò)大,設(shè)備在網(wǎng)運(yùn)行時(shí)間增長,尤其是開始出現(xiàn)一些可能影響生產(chǎn)的故障,運(yùn)維的壓力就突增了。雖然大部分故障事后看是有驚無險(xiǎn),但毫無疑問需要去分析總結(jié),這時(shí)就發(fā)現(xiàn)運(yùn)維初期的想法太簡單,存在著較大的潛在風(fēng)險(xiǎn)。
我們不禁要去思考如何有效減少故障,如何避免影響生產(chǎn)的故障的發(fā)生。為保持系統(tǒng)平穩(wěn)運(yùn)行,在數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維工作中我們需要做些什么?又該如何去做呢?
02
運(yùn)維工作的開展
我們開始有意識的去學(xué)習(xí)國家相關(guān)標(biāo)準(zhǔn)、行業(yè)相關(guān)規(guī)范、機(jī)房維護(hù)教程及行業(yè)知名公眾號內(nèi)容,也積極跟廠商和同業(yè)交流取經(jīng)。在《數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行維護(hù)標(biāo)準(zhǔn)GB/T51314-2018》中,將運(yùn)維工作分為運(yùn)行和維護(hù)兩大部分。在國標(biāo)基礎(chǔ)上,我們結(jié)合實(shí)際情況和運(yùn)維要求,把運(yùn)維細(xì)分為監(jiān)控值守、巡檢、測試、保養(yǎng)、演練、培訓(xùn)、維修、整改、優(yōu)化和應(yīng)急處置等類型工作。在這些類別中,監(jiān)控值守、巡檢、測試、保養(yǎng)、演練和培訓(xùn)是基本維護(hù)工作,通常是按計(jì)劃組織開展的;而維修、整改、應(yīng)急處置及優(yōu)化通常是在系統(tǒng)運(yùn)行到了某種狀況和程度時(shí)才會(huì)采取措施或組織實(shí)施的。下面先對基本運(yùn)維部分做進(jìn)一步的說明。
1.監(jiān)控值守
監(jiān)控值守對于數(shù)據(jù)中心運(yùn)維而言,是最普遍最基礎(chǔ)的一項(xiàng)工作。通常是有專人輪班,24小時(shí)查看監(jiān)控系統(tǒng)是否有故障報(bào)警,同時(shí)有值班人員每隔幾個(gè)小時(shí)去現(xiàn)場巡視,主要看是否有設(shè)備報(bào)警、部分重點(diǎn)設(shè)備運(yùn)行參數(shù)是否正常、以及環(huán)境方面是否有漏水、異響和異物等異常情況。由于基礎(chǔ)設(shè)施7*24運(yùn)行,值班巡視能夠覆蓋到的是較少的時(shí)間,而且巡視效果還有賴于值班人員的技能水平和責(zé)任意識。所以監(jiān)控值守的核心在于值班,值班的最主要職責(zé)就是及時(shí)發(fā)現(xiàn)報(bào)警并進(jìn)行現(xiàn)場情況確認(rèn),然后按照報(bào)警內(nèi)容及等級完成上報(bào)并配合開展處置。
2.巡檢
巡檢是計(jì)劃內(nèi)的一項(xiàng)基本維護(hù)工作。巡檢一般由現(xiàn)場工程師或廠家工程師來完成,相比值班巡視會(huì)更加專業(yè)深入,能夠?qū)υO(shè)備運(yùn)行狀況、運(yùn)行數(shù)據(jù)、參數(shù)配置及告警記錄等進(jìn)行更全面的檢查分析。專業(yè)巡檢的目的是確認(rèn)設(shè)備系統(tǒng)處于良好的運(yùn)行狀態(tài),否則需要識別出運(yùn)行中存在的風(fēng)險(xiǎn)并發(fā)起相應(yīng)處理工作。
3.測試
測試同樣是一項(xiàng)計(jì)劃內(nèi)工作,設(shè)備或系統(tǒng)在當(dāng)前工況下能正常工作,并不能保證在別的工況仍能正常工作。為了保證各設(shè)備系統(tǒng)在不同情況下都能按照預(yù)期邏輯和效果運(yùn)行,需要定期對電氣、暖通、消防及弱電系統(tǒng)開展各種各樣的測試工作,做到全面覆蓋。運(yùn)維團(tuán)隊(duì)通過測試能及時(shí)發(fā)現(xiàn)系統(tǒng)存在的潛在問題,并發(fā)起相應(yīng)的處理工作。
比如,為防止市電停電對機(jī)房生產(chǎn)造成影響,我們需要做電氣和制冷相關(guān)測試。在電氣專業(yè),首先要測試UPS能夠從市電逆變模式正常轉(zhuǎn)到電池供電模式,還要測試電池放電時(shí)間是否能滿足設(shè)計(jì)或運(yùn)行要求;另外也要測試備用發(fā)電機(jī)組的自啟動(dòng)功能及帶載能力。在制冷專業(yè),要測試水冷系統(tǒng)是否具有持續(xù)供冷能力,可以先關(guān)掉全部冷水機(jī)組由蓄冷罐進(jìn)行放冷,再通過現(xiàn)場和動(dòng)環(huán)監(jiān)控去觀察記錄機(jī)房溫度變化情況。
4.演練
演練是按計(jì)劃針對各專業(yè)重大故障場景開展的應(yīng)急操作測試工作,也是一項(xiàng)運(yùn)維團(tuán)隊(duì)綜合能力驗(yàn)證工作。演練時(shí)會(huì)設(shè)置各種故障場景,要求運(yùn)行人員按照預(yù)定流程和預(yù)案開展應(yīng)急處置,一方面能夠檢驗(yàn)設(shè)備系統(tǒng)性能,同時(shí)也是強(qiáng)化運(yùn)行人員對于應(yīng)急場景的理解和掌握程度。所以,演練的核心目的是讓運(yùn)行維護(hù)人員在遇到某種嚴(yán)重故障時(shí)能夠嚴(yán)格按照預(yù)案從容有序的應(yīng)對。那么,演練工作中應(yīng)急預(yù)案場景設(shè)置的合理完備及對應(yīng)處置方案的可靠有效是重要基礎(chǔ)。
比如,我們經(jīng)常會(huì)做市電油機(jī)切換帶載演練,模擬市電出現(xiàn)故障,讓油機(jī)給機(jī)房供電,過程中間操作人員會(huì)按照預(yù)先擬好的操作票先停一路市電、再停兩路市電,并對應(yīng)作出恢復(fù)供電的應(yīng)急操作。我們也會(huì)定期開展消防演練,模擬火災(zāi)發(fā)生,檢驗(yàn)消防報(bào)警系統(tǒng)、滅火系統(tǒng)和逃生系統(tǒng)是否能夠正常反應(yīng),同時(shí)檢驗(yàn)消防運(yùn)行人員是否合理應(yīng)對,及其他在場人員是否能夠按照逃生要求快速離開。
5.保養(yǎng)
保養(yǎng)是為了使設(shè)備或系統(tǒng)保持良好狀態(tài)按計(jì)劃開展的一類維護(hù)工作。生活中最常見的是汽車保養(yǎng),汽車需按照行駛里程或時(shí)間去專門服務(wù)機(jī)構(gòu)更換機(jī)油、濾芯等耗材。數(shù)據(jù)中心基礎(chǔ)設(shè)施保養(yǎng)涉及設(shè)備設(shè)施非常多,比如發(fā)電機(jī)組、冷水機(jī)組需要專業(yè)廠商定期更換潤滑油和過濾器等耗材,空調(diào)及新風(fēng)設(shè)備需定期更換過濾器,水泵和風(fēng)機(jī)等需要定期加注潤滑油,水系統(tǒng)里的機(jī)組、冷卻塔和過濾器等需要定期清理去除水垢等。
6.培訓(xùn)
這里的培訓(xùn)是涵蓋了運(yùn)維技術(shù)學(xué)習(xí)提升、運(yùn)維管理總結(jié)完善和知識庫積累傳承?;A(chǔ)設(shè)施運(yùn)維專業(yè)性很強(qiáng),需要通過持續(xù)的培養(yǎng)和訓(xùn)練使運(yùn)維團(tuán)隊(duì)各崗位人員掌握應(yīng)有的技能,以支持保障風(fēng)火水電各專業(yè)系統(tǒng)穩(wěn)定運(yùn)行。從培訓(xùn)內(nèi)容來說,基礎(chǔ)設(shè)施一般分為電氣、制冷、弱電和消防四大專業(yè),每個(gè)專業(yè)里又有各種類型的設(shè)備和設(shè)施,所以要從系統(tǒng)架構(gòu)、設(shè)備功能、操作要求、維護(hù)要點(diǎn)和應(yīng)急處置等各方面去整理完整的培訓(xùn)知識體系。從培訓(xùn)對象來說,對于值班員、工程師和高級工程師需要根據(jù)各崗位職責(zé)要求進(jìn)行有針對性的培訓(xùn),比如值班員側(cè)重監(jiān)控查看及巡視等基礎(chǔ)性工作、工程師需要具備較強(qiáng)的操作和維護(hù)能力、高級工程師需要深入理解專業(yè)系統(tǒng)并且從維護(hù)工作中不斷總結(jié)完善運(yùn)維知識和運(yùn)行管理體系。
在明確了基礎(chǔ)設(shè)施各類維護(hù)工作后,需要將每類工作再一步一步分解細(xì)化,直到形成每個(gè)具體事項(xiàng)的具體執(zhí)行方案和維護(hù)標(biāo)準(zhǔn)。下圖1是對各類維護(hù)工作做的第一級分解,再往下需要對每個(gè)事項(xiàng)形成具體的維護(hù)方案和要求,比如做某種設(shè)備巡檢須明確檢查點(diǎn)和檢查要求、做某項(xiàng)測試須明確測試方案和相關(guān)注意事項(xiàng)等。
圖 1 數(shù)據(jù)中心電氣專業(yè)基礎(chǔ)維護(hù)工作分解實(shí)例
03
運(yùn)維工作之間的關(guān)系
前面對各類基礎(chǔ)運(yùn)維工作做了一些說明,那各項(xiàng)運(yùn)維工作之間有什么樣的關(guān)系呢?我們可以進(jìn)一步分析,找到其內(nèi)在聯(lián)系。
1)監(jiān)控值守能夠及時(shí)發(fā)現(xiàn)監(jiān)控報(bào)警和最明顯的故障,這時(shí)會(huì)啟動(dòng)報(bào)警分析及應(yīng)對處理,嚴(yán)重故障會(huì)轉(zhuǎn)向應(yīng)急處置以免影響業(yè)務(wù)連續(xù)性;
2)巡檢、測試和演練能夠發(fā)現(xiàn)設(shè)備老化、參數(shù)偏移、性能下降和功能失效等技術(shù)方面問題,會(huì)推進(jìn)局部維修、系統(tǒng)優(yōu)化或者隱患整改工作;
3)各項(xiàng)保養(yǎng)工作能夠使設(shè)備或系統(tǒng)性能得以提升,恢復(fù)到良好的狀態(tài);
4)在監(jiān)控巡視、巡檢、測試和演練工作中,還能夠發(fā)現(xiàn)人員能力、技術(shù)方案、管理要求和制度流程等方面的問題,需要有針對性去解決完善,并做好總結(jié)宣貫培訓(xùn),做到吃一塹長一智,筑牢運(yùn)維基礎(chǔ);
5)學(xué)習(xí)和培訓(xùn)是全方位的并要長期開展的,在技術(shù)能力、流程和制度各方面都需要培訓(xùn)需要規(guī)范,一支技術(shù)能力強(qiáng)且有制度流程保障的團(tuán)隊(duì)才能持續(xù)做好基礎(chǔ)設(shè)施運(yùn)維工作。
總結(jié)下來,我們可以建立下面圖2所示的數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維工作“金字塔”模型。在金字塔底部是監(jiān)控值守、巡檢、測試、演練和保養(yǎng)這些第三級的基礎(chǔ)性工作,并且都是計(jì)劃內(nèi)的主動(dòng)維護(hù)工作;在金字塔中間是維修、整改和優(yōu)化這類及時(shí)性要求較高的第二級臨時(shí)性處置工作;金字塔頂層是即將或已經(jīng)產(chǎn)生了嚴(yán)重影響需要立即處理的第一級工作;金字塔外全部是培訓(xùn),培訓(xùn)須貫穿于運(yùn)維工作的各個(gè)層級各個(gè)方面,需要持續(xù)的開展并且不斷更新,培訓(xùn)是全部維護(hù)工作有效落地的基礎(chǔ)保障。
海恩法則指出:每一起嚴(yán)重事故的背后,必然有 29 起輕微事故和 300 起未遂先兆以及 1000 起事故隱患。那么對于運(yùn)維來說,只要充分做好第三級各項(xiàng)基礎(chǔ)性工作,把所有問題和隱患都消滅在萌芽階段,這樣就能明顯降低三級工作升級到二級的概率,而且即使有故障其影響范圍和程度也比較可控;當(dāng)二級工作較少并得到及時(shí)有效處理的時(shí)候,發(fā)生一級故障須啟動(dòng)應(yīng)急處置的概率也會(huì)大大降低;因?yàn)槠綍r(shí)運(yùn)維中已經(jīng)做了充分的培訓(xùn)和演練,所以發(fā)生一級故障時(shí)也會(huì)得到快速穩(wěn)妥的處置,這樣運(yùn)維安全就有了實(shí)實(shí)在在的保障。
圖 2 數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維工作“金字塔”模型
04
總結(jié)與展望
對于數(shù)據(jù)中心運(yùn)維來說,人員管理及維護(hù)場景是非常復(fù)雜的,運(yùn)維工作量是巨大的,制度化和規(guī)范化是基本保障,而靈活性會(huì)帶來潛在的風(fēng)險(xiǎn)。對于基礎(chǔ)設(shè)施運(yùn)維來說,首先需要按照公司人員組織架構(gòu)建立一支合適的運(yùn)維團(tuán)隊(duì)。然后,各專業(yè)需要全面梳理系統(tǒng)運(yùn)維需求,并結(jié)合現(xiàn)狀制定詳細(xì)的運(yùn)維計(jì)劃和執(zhí)行標(biāo)準(zhǔn)。在運(yùn)維工作中,嚴(yán)格按照計(jì)劃和標(biāo)準(zhǔn)去操作,并在實(shí)踐中不斷完善作業(yè)計(jì)劃和執(zhí)行要求,這樣團(tuán)隊(duì)運(yùn)維能力和系統(tǒng)運(yùn)維效果會(huì)持續(xù)提升,我們的“金字塔”就會(huì)愈加穩(wěn)固。
展望未來,數(shù)據(jù)中心行業(yè)無疑會(huì)保持快速發(fā)展。在技術(shù)、人才和資本的助推下,數(shù)據(jù)中心基礎(chǔ)設(shè)施這個(gè)傳統(tǒng)行業(yè)也將會(huì)煥發(fā)出新的蓬勃生機(jī)。
1)建設(shè)規(guī)模上,在建和規(guī)劃的大型和超大型數(shù)據(jù)中心越來越多。
2)建設(shè)方案上,因交付時(shí)間短、綜合成本低、標(biāo)準(zhǔn)化程度高、分期建設(shè)方便,大型數(shù)據(jù)中心預(yù)制化和模塊化建設(shè)趨勢越來越明顯。
3)技術(shù)選型方面,在滿足可靠性標(biāo)準(zhǔn)的前提下,傾向于選擇建設(shè)和運(yùn)營成本更低的電氣和制冷技術(shù)方案,選擇更節(jié)能的產(chǎn)品。
4)運(yùn)營成本上,從數(shù)據(jù)中心選址開始就希望最大化的利用自然冷源,同時(shí)不斷降低損耗,追求更低的PUE。
5)運(yùn)維手段上,將積極推進(jìn)自動(dòng)化和智能化。人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)和新型傳感器等新技術(shù)在基礎(chǔ)設(shè)施方面已經(jīng)開始并將會(huì)有越來越多的應(yīng)用。比如,智能巡檢機(jī)器人已經(jīng)開始在數(shù)據(jù)中心替代部分人工巡檢、通過人臉識別和算法技術(shù)提升數(shù)據(jù)中心物理環(huán)境安全管控水平、通過AI技術(shù)實(shí)現(xiàn)制冷系統(tǒng)能效提升、通過全面的監(jiān)控?cái)?shù)據(jù)分析實(shí)現(xiàn)預(yù)防性維護(hù)及通過物聯(lián)網(wǎng)和新型傳感器實(shí)現(xiàn)更加智能的監(jiān)控系統(tǒng)等。
從數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維來看,我們首先要腳踏實(shí)地的做好基礎(chǔ)運(yùn)維工作,將動(dòng)力監(jiān)控、巡檢、測試、保養(yǎng)、演練和培訓(xùn)等基礎(chǔ)工作落實(shí)到位,同時(shí)也要積極關(guān)注新技術(shù)新趨勢,讓基礎(chǔ)設(shè)施及其維護(hù)體系能夠不斷更新成長,這樣才能打造出一個(gè)持續(xù)健康的有生命力的數(shù)據(jù)中心。