數據中心DCIM典型案例賞析

數據中心觀察室
數據中心觀察室
實現(xiàn)設備級到系統(tǒng)級運維提升,打破以往煙囪式的建設模式帶來的多系統(tǒng)刷屏式報警,用數據關聯(lián)分析實現(xiàn)故障收斂,由統(tǒng)一事件管理模塊進行集中監(jiān)控,提升監(jiān)控報警效率,將更多時間留給應急處理。

2345截圖20200908083720.png

案例一

案例背景

某供電局以主機房為核心,包含多個同城機房,動力環(huán)境監(jiān)控系統(tǒng)及視頻監(jiān)控系統(tǒng)老舊,監(jiān)控與管理范圍難以覆蓋基于資源的管理活動,并存在各系統(tǒng)相互獨立缺乏關聯(lián)協(xié)同,且無法滿足組織內部三級成熟度的管理要求。

項目需求

對于該供電局而言,期望通過項目化的方式,引入先進的管理系統(tǒng),在兩年的實施周期內,完成數據中心基礎設施從監(jiān)控到管理的融合體系,并有效整合已建設的各子系統(tǒng),使數據有效進行統(tǒng)一整合;同時,期望通過系統(tǒng)平臺的固化手段,有效落實電網內部企業(yè)管理標準與制度,構建數據中心運維管理體系。

項目實施

該項目分為兩期進行建設,第一期建設主要圍繞數據中心內部的監(jiān)控一體化以及基礎資源管理進行,部署實施了包含實時監(jiān)控、資產管理、容量管理、能效管理模塊的DCIM平臺,完成各子機房網點現(xiàn)有系統(tǒng)的接入,形成統(tǒng)一化的管理平臺。第二期建設主要以運維深化為主,由于涉及管理流程與管理體系,項目實施前新增管理咨詢過程,梳理數據中心的管理流程以及角色,并基于此為依據,構建并部署了巡檢管理、維保管理、值班管理、工單管理等運維管理模塊,同時通過平臺的對象化模型,集成了IT監(jiān)控以及機器人運維。

項目成果與收益

該項目通過兩期建設,實現(xiàn)該供電局監(jiān)控、資源到運維的三位一體的整體管理平臺,有效支撐了數據中心基礎設施運維的管理要求,并基于平臺貫徹落實固化了運維流程與運維操作,實現(xiàn)資源管控與運維管理的可度量、可追溯、可評價的效果。

2345截圖20200908083720.png

案例二

案例背景

北京某數據中心園區(qū),因數據中心規(guī)模及設備數量指數級擴張,依靠傳統(tǒng)的監(jiān)控和運維管理方式難以滿足日益增長的需求。概述如下:

1)各系統(tǒng)獨立監(jiān)控,在ECC需監(jiān)視十幾個監(jiān)控屏,且單點故障會引發(fā)故障刷屏、導致值班人員焦頭爛額。

2)能耗管理以物理設備為核心,更多依賴于手抄數據、excel表格進行能耗分析,PUE計算最大顆粒度到月級,不僅耗人耗力而且誤差大。

3)容量管理由人工統(tǒng)計、擴容響應慢、新資源分配效率低。

4)運維人員是一種黑盒式、看指示燈的依賴經驗的運維方式。

用戶需求

用戶亟需建立DCIM幫助實現(xiàn)以下幾項功能:

1)將數據中心配電、暖通等基礎設施工業(yè)設備以統(tǒng)一的數據接口標準實現(xiàn)數據采集和傳輸。

2)通過制定基礎設施設備的核心監(jiān)控指標建設統(tǒng)一的基礎設施運行監(jiān)控系統(tǒng),實現(xiàn)運行異常數據的精準監(jiān)控和精準運維,減少人工巡檢工作量的同時,提升數據中心的運維安全水平。

3)通過數據監(jiān)控暖通、配電的全鏈路設備的運行數據分析,實現(xiàn)數據中心容量清晰可見。

4)實現(xiàn)能耗管理的自動計算和分析,能實時展現(xiàn)數據中心整體PUE,PPUE、CLF、PLF等能耗構成情況。

項目實施

為滿足公司數據中心規(guī)模不斷發(fā)展壯大的需求,梳理人、機、平臺的分工,重塑工作流程,建立DCIM平臺,實現(xiàn)“數據驅動運維”。項目組結合項目實際情況,由專業(yè)團隊和開發(fā)團隊分工協(xié)作,在2019年通過自研實現(xiàn)移動巡檢、運維調度、設備管理、能耗管理等模塊的開發(fā)。

2345截圖20200908083720.png

項目成果

項目成果概括如下:

1)實現(xiàn)設備級到系統(tǒng)級運維提升,打破以往煙囪式的建設模式帶來的多系統(tǒng)刷屏式報警,用數據關聯(lián)分析實現(xiàn)故障收斂,由統(tǒng)一事件管理模塊進行集中監(jiān)控,提升監(jiān)控報警效率,將更多時間留給應急處理。此外,編寫故障報告采用DCIM平臺的數字和圖表,更加客觀的分析故障原因。

2)實現(xiàn)數據中心能耗PUE、電費可見,將月級人工計算PUE到小時級自動計算(效率提升700倍)。能實時顯示數據中心PUE、PPUE、CLF、PLF及PUE各項占比,及時發(fā)現(xiàn)變化幅度比較大的部分,并采取措施,盡可能精細化管理能耗。

3)實現(xiàn)配電及暖通全鏈路容量管理。建立從數據中心高壓進線/柴發(fā)到末端機柜的全鏈路容量計算、預警、數據分析,協(xié)助專業(yè)團隊化解系統(tǒng)性安全風險,保障生產安全的前提下降低運營成本。

4)實現(xiàn)設備運行數據的可視化,建立超過1200張的設備畫像,基本覆蓋了數據中心的全部基礎設施,加深對設備運行狀態(tài)和規(guī)律的掌握。

項目收益

通過建立DCIM系統(tǒng),DCIM建設推進了數據中心基礎設施環(huán)境數字化運維水平,輔助數據中心PUE從2018年的1.58下降到1.36,年節(jié)省用電量1400萬kWh,節(jié)省用電費1000萬元,減少碳排放5600噸標準煤。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論