隨著2017年中國“量子衛(wèi)星”“量子計(jì)算機(jī)”等重大科研技術(shù)的突破,2018年云計(jì)算進(jìn)入2.0的飛速發(fā)展時(shí)代,智慧城市信息化建設(shè)、應(yīng)用數(shù)據(jù)量的井噴,使數(shù)據(jù)中心基礎(chǔ)設(shè)施的迅速落地建設(shè)、為用戶提供高效節(jié)能的云設(shè)施服務(wù)。數(shù)據(jù)中心運(yùn)維管理工作作為數(shù)據(jù)中心持續(xù)運(yùn)行重點(diǎn)保障任務(wù),其工作范疇涉及多門學(xué)科,需要合理的運(yùn)維體系和具有創(chuàng)新性、愛專研的運(yùn)維團(tuán)隊(duì)來為后續(xù)運(yùn)維工作奠定基礎(chǔ)。
同時(shí),云計(jì)算2.0高密度虛擬化架構(gòu)化,越來越依賴于基礎(chǔ)設(shè)施的支撐,對數(shù)據(jù)中基礎(chǔ)設(shè)施的可靠性、持續(xù)性、大功率、時(shí)效性、模塊化、自動化等提出了更高的挑戰(zhàn)性,數(shù)據(jù)中心需要實(shí)現(xiàn)高效運(yùn)維。那么如何實(shí)現(xiàn)?
大數(shù)據(jù)
首先,我們要明確數(shù)據(jù)中心運(yùn)維管理對象。
數(shù)據(jù)中心運(yùn)維對象包含了機(jī)房基礎(chǔ)設(shè)施、IT設(shè)備、系統(tǒng)和數(shù)據(jù)、運(yùn)維管理工具、運(yùn)維人員等。
其次,我們要設(shè)立有效管理的目標(biāo)。
數(shù)據(jù)中心運(yùn)維管理過程是數(shù)據(jù)中心全生命周期中最后一個(gè)階段,也是歷時(shí)最長的一個(gè)階段,數(shù)據(jù)中心運(yùn)維管理也是依托于已交付的數(shù)據(jù)中心基礎(chǔ)設(shè)施之上。通過有效的管理,最終使數(shù)據(jù)中心得以實(shí)現(xiàn)服務(wù)與經(jīng)濟(jì)上的目標(biāo),實(shí)現(xiàn)運(yùn)維管理的持續(xù)性、時(shí)效性、標(biāo)準(zhǔn)性、安全性和可用性5大目標(biāo)。
然后,我們要明確運(yùn)維團(tuán)隊(duì)的工作職責(zé)與需要掌握的技能。
由于數(shù)據(jù)中心的持續(xù)性特性,需要由7*24小時(shí)運(yùn)維人員進(jìn)行技術(shù)支持運(yùn)維服務(wù),運(yùn)維團(tuán)隊(duì)主要職責(zé)是持續(xù)保障數(shù)據(jù)中心運(yùn)行相關(guān)的基礎(chǔ)設(shè)施系統(tǒng)設(shè)備穩(wěn)定連續(xù)運(yùn)行,并掌握數(shù)據(jù)中心各類設(shè)備的工作原理、操作方法、初步故障排查診斷的技能。
因此,組建一支高綜合水平的運(yùn)維團(tuán)隊(duì)是做好數(shù)據(jù)中心運(yùn)維管理工作的根本,運(yùn)維團(tuán)隊(duì)的建設(shè)就會變成運(yùn)維管理工作中非常重要的一項(xiàng)工作內(nèi)容。
下面我們重點(diǎn)講述運(yùn)維團(tuán)隊(duì)的建設(shè)。
一、運(yùn)維措施
“人”
數(shù)據(jù)中心高精度設(shè)備、復(fù)雜的系統(tǒng)對運(yùn)維人員技術(shù)提出了新的要求,需要人員必須掌握專業(yè)所需的技能,周期性對運(yùn)維人員的日常工作規(guī)范化運(yùn)維操作、應(yīng)急響應(yīng)、故障排查進(jìn)行開展技術(shù)培訓(xùn)和演練,通過演練總結(jié)經(jīng)驗(yàn),完善、運(yùn)維指標(biāo)、運(yùn)維技術(shù)標(biāo)準(zhǔn)、應(yīng)急流程,提高團(tuán)隊(duì)綜合應(yīng)急響應(yīng)能力。
“體系”
根據(jù)ISO9000質(zhì)量管理體系標(biāo)準(zhǔn),建立設(shè)施運(yùn)行、系統(tǒng)巡查、數(shù)據(jù)采集、指標(biāo)測試標(biāo)準(zhǔn)化等標(biāo)準(zhǔn)化記錄表單、完善設(shè)備運(yùn)行管理、使運(yùn)維質(zhì)量管理制度化、體系化,提高運(yùn)維品質(zhì),定期對運(yùn)行管理制度進(jìn)行經(jīng)驗(yàn)總結(jié),修正歸檔、統(tǒng)一發(fā)布的流程標(biāo)準(zhǔn)管理方法。
運(yùn)維體系是運(yùn)維的基石,根據(jù)ISO2000 IT服務(wù)管理體系建立數(shù)據(jù)中心ITSM(IT Service Management)IT服務(wù)管理流程,對各設(shè)備、系統(tǒng)操作流程、應(yīng)急響應(yīng)流程進(jìn)行設(shè)計(jì)、建設(shè),通過對運(yùn)維體系的建設(shè)、提高IT運(yùn)維服務(wù)質(zhì)量,降低設(shè)施事件發(fā)生的頻率和影響,對運(yùn)維成員流程文件輸入、輸出的理論培訓(xùn)、實(shí)操培訓(xùn),使流程不“固化”,流程更清晰、責(zé)任分工更明確,考核量化,文檔規(guī)范化等。
“制度”
依據(jù)運(yùn)維體系和指標(biāo)對運(yùn)維人員的工作行為和取到的工作成績進(jìn)行評估,并運(yùn)用評估結(jié)果為運(yùn)維人員后續(xù)的工作和工作成績進(jìn)行正面的引導(dǎo)。重點(diǎn)對人員的指標(biāo)完成度、創(chuàng)新性進(jìn)行觀察、挖掘引導(dǎo)潛在的運(yùn)維潛力。在運(yùn)維工作方面主要體現(xiàn)在運(yùn)維保障上,確保服務(wù)的可用性、安全性和服務(wù)體系流程的標(biāo)準(zhǔn)化實(shí)施。通過周度、月度報(bào)表內(nèi)維護(hù)量、故障量等數(shù)據(jù)進(jìn)行工作量、工作效率進(jìn)行評估。
“預(yù)警”
數(shù)據(jù)中心監(jiān)控系統(tǒng)是現(xiàn)代信息化數(shù)據(jù)中心運(yùn)行監(jiān)控指揮控制中心平臺,通過數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)展示、數(shù)據(jù)預(yù)警的方式進(jìn)行對現(xiàn)場環(huán)境設(shè)備、網(wǎng)絡(luò)、溫濕度、電量、開關(guān)、設(shè)備運(yùn)行狀態(tài)、壓力、能源信息進(jìn)行集中化實(shí)施展示分析。根據(jù)容量計(jì)算算法對機(jī)柜配電容量、冷卻容量、裝機(jī)量進(jìn)行預(yù)警、評估、擴(kuò)容優(yōu)化。通過平臺數(shù)據(jù)接口二次開發(fā)將預(yù)警數(shù)據(jù)進(jìn)行實(shí)施傳輸?shù)竭\(yùn)維人員工作通訊群等平臺,實(shí)現(xiàn)了運(yùn)行數(shù)據(jù)信息共享化、預(yù)警信息實(shí)時(shí)化。讓溝通簡單化、避免“信息孤島”等低效率現(xiàn)象,降低溝通成本、提高溝通效率的成果。
“測試”
數(shù)據(jù)中心系統(tǒng)測試是運(yùn)維工作中至關(guān)重要的環(huán)節(jié)。系統(tǒng)測試驗(yàn)證是測試數(shù)據(jù)中心系統(tǒng)設(shè)計(jì)、安裝、功能、調(diào)試是否與設(shè)計(jì)意圖相符合的一個(gè)重要過程,是設(shè)施獲得良好功能和可靠性運(yùn)行過程中的重要組成部分,一個(gè)好的測試驗(yàn)證不應(yīng)僅滿足“測試”相關(guān)的設(shè)備功能指標(biāo),更重要的是“驗(yàn)證”系統(tǒng)是否可以滿足運(yùn)行階段的要求。
運(yùn)維人員也應(yīng)利用測試驗(yàn)證的過程熟悉在管理設(shè)備的狀態(tài)和運(yùn)行指標(biāo),驗(yàn)證設(shè)備操作標(biāo)準(zhǔn)流程的可操作性,提高實(shí)際過程中操作和應(yīng)對突發(fā)事件的運(yùn)維經(jīng)驗(yàn)。
“容量管理”
隨著數(shù)據(jù)中心各式各樣的非標(biāo)用戶的進(jìn)入,通過專業(yè)知識及運(yùn)維管理經(jīng)驗(yàn)對客戶提出的非標(biāo)改造需求、對方案進(jìn)行容量分析計(jì)算、布局規(guī)劃、改造實(shí)施、功能測試、驗(yàn)收交付的過程,針對容量管理計(jì)算使用流體動力學(xué)CFD技術(shù)進(jìn)行熱仿真分析、對機(jī)柜進(jìn)行合理布局、氣流組織改善、機(jī)柜裝機(jī)量分析驗(yàn)證。
對機(jī)房客戶改造項(xiàng)目通過使用BIM技術(shù)進(jìn)行布局,BIM是在項(xiàng)目全生命周期內(nèi),使用富含信息的三維模型作業(yè)中心數(shù)據(jù)庫,在項(xiàng)目相關(guān)干系人之間共同進(jìn)行創(chuàng)建、檢查和溝通協(xié)調(diào)項(xiàng)目信息的一個(gè)過程。
BIM過程管理是一次對于傳統(tǒng)的項(xiàng)目工作流線性模式的大轉(zhuǎn)型。BIM的項(xiàng)目生命全周期鼓勵(lì)項(xiàng)目團(tuán)隊(duì)全體成員在全生命周期內(nèi)進(jìn)行合作,BIM還提供了信息丟失時(shí)候、無縫溝通的平臺,使項(xiàng)目團(tuán)隊(duì)能夠在早期進(jìn)行重大決策,提高生產(chǎn)率、提高項(xiàng)目質(zhì)量和進(jìn)行持續(xù)性建設(shè)大道重要方向。
“運(yùn)維管理”
通過不停的學(xué)習(xí)有效的管理思路,運(yùn)維團(tuán)隊(duì)建立即時(shí)通訊溝通平臺,在工作中實(shí)施,“走動式管理”、“PDCA”(即計(jì)劃(plan)、執(zhí)行(do)、檢查(check)、調(diào)整(Action)),定期帶著問題對現(xiàn)場進(jìn)行巡視、發(fā)現(xiàn)問題糾正問題和了解現(xiàn)場存在的問題和不完善的細(xì)節(jié)等問題,定期與員工進(jìn)行交流,鼓勵(lì)大家對工作提出好的建議,在即時(shí)通訊平臺進(jìn)行及時(shí)溝通,最大程度做到專人負(fù)責(zé)責(zé)任制,跟進(jìn)問題的整改檢查和后續(xù)的持續(xù)完善的循環(huán)管理方法,減少“報(bào)喜不報(bào)憂”的不良現(xiàn)象。
二、運(yùn)維計(jì)劃
通過運(yùn)維“三控、三管、一協(xié)調(diào)”措施對運(yùn)維工作的運(yùn)維成本、運(yùn)維品質(zhì)、運(yùn)維效率進(jìn)行目標(biāo)控制,對運(yùn)維安全、代維服務(wù)商、信息進(jìn)行管理,對運(yùn)維各技術(shù)小組運(yùn)維工作的協(xié)作協(xié)調(diào)。加強(qiáng)對團(tuán)隊(duì)各小組人員安全培訓(xùn)、技術(shù)實(shí)施培訓(xùn),技術(shù)文件的規(guī)范化、周期性的演練、團(tuán)隊(duì)建設(shè)。