時至今日,數(shù)據(jù)中心運維仍是企業(yè)關(guān)注的焦點。特別進入夏季以后,天氣變得異常炎熱、干燥,極易引發(fā)數(shù)據(jù)中心宕機、火災(zāi)等事故的發(fā)生,這時數(shù)據(jù)中心運維就變得至關(guān)重要。然而,隨著數(shù)據(jù)中心建設(shè)規(guī)模的不斷擴大,新技術(shù)的層出不窮,數(shù)據(jù)中心的運維難度也“更上一層樓”。
數(shù)據(jù)中心在國內(nèi)突飛猛進只有十多年的時間,卻已從只有UPS、空調(diào)和IT設(shè)備的普通機房時代,進入到囊括互聯(lián)網(wǎng)、大數(shù)據(jù)、AI、云服務(wù)等全方位服務(wù)、動輒擁有數(shù)萬機柜,自然冷、風(fēng)墻、水下數(shù)據(jù)中心、液冷服務(wù)器等新技術(shù)不斷被創(chuàng)造和應(yīng)用的新時代。這樣一來,運維管理面臨更大的挑戰(zhàn)。
首先,規(guī)模超大帶來的人員、組織和效率的變化。以前萬平米以內(nèi)的數(shù)據(jù)中心,人工巡檢一次2-4小時,現(xiàn)在數(shù)十萬平米,需要更多的運維人員分布在不同的責(zé)任區(qū),增加了管理的難度和成本。其次,電壓等級提高,安全風(fēng)險增加。以往運維人員接觸的是低壓(低于1000V),現(xiàn)在供電設(shè)備、發(fā)電機、冷機都是高壓供電,維護安全要求提升。此外,規(guī)模集中,導(dǎo)致風(fēng)險集中,事故影響更大。例如之前亞馬遜的數(shù)據(jù)中心事故,導(dǎo)致了全球大面積的服務(wù)和應(yīng)用中斷,損失慘重,因此運維管理的壓力超前。
為了保障新時代數(shù)據(jù)中心的安全,在實際運維過程中,運營商不僅需要對數(shù)據(jù)中心里面的溫濕度、電能、水流及風(fēng)量等進行全面實時的監(jiān)控,以期發(fā)現(xiàn)潛在問題,通過預(yù)警機制及相應(yīng)的流程做到防患于未然,還要科學(xué)運用這些數(shù)據(jù)來為應(yīng)急措施及節(jié)能措施提供可靠的指導(dǎo)依據(jù)。
其實,采用智能化的管理手段,可以輕松滿足這些需要。以電源管理為例,領(lǐng)先的智能電源管理解決方案供應(yīng)商力登(Raritan)提供了一整套以智能PDU為核心的機柜內(nèi)部微環(huán)境和供配電監(jiān)控管理以及整個數(shù)據(jù)中心平臺管理方案:通過智能PDU進行實時遠(yuǎn)程電源監(jiān)控,能夠?qū)ο嚓P(guān)參數(shù)包括對電流(單位:安培)、電壓、功率(單位:kVA、kW)和能耗達到±1%計費級準(zhǔn)確度,甚至可以單獨對每個電源插座的上述相關(guān)參數(shù)進行監(jiān)控。除了高效、可靠地分配電源之外,新的iPDU(系統(tǒng))還憑借更多計算和存儲功能,可支持新的應(yīng)用并收集和分析IT設(shè)備的用電數(shù)據(jù)、數(shù)據(jù)中心內(nèi)可用電源容量以及機柜環(huán)境健康狀況;并且提供更多的傳感功能與基礎(chǔ)架構(gòu)數(shù)據(jù)收集點(特別是獨特的力登電子門鎖)。此外,還能通過Power IQ電能管理軟件對設(shè)備所處微環(huán)境的溫度、濕度、氣壓等狀況進行監(jiān)控,更重要的是這些計量后的數(shù)據(jù)會被收集整理,從而為管理者提供決策參考。
力登智能PDU
包括LinkedIn、Cisco、Twitter、eBay等在內(nèi)的國外知名數(shù)據(jù)中心高密度機柜配電管理都在采用力登的智能電源管理解決方案。艾瑞咨詢發(fā)布的《2018年中國企業(yè)IT運維管理市場報告》顯示,2016年中國數(shù)據(jù)中心運維服務(wù)市場規(guī)模達到1496.4億元,預(yù)計到2020年,這一規(guī)模將達到2744.7億元,年復(fù)合增長率為16.4%。智能化無疑也是中國數(shù)據(jù)中心運維管理的必然趨勢,它幫助運維人員從被動響應(yīng)變?yōu)橹鲃臃烙?,從而將運維管理從IT成本中心,向IT服務(wù)中心和IT價值中心轉(zhuǎn)變。
(原標(biāo)題:新時代數(shù)據(jù)中心運維管理以“智”取勝)