打江山容易,守江山難,這句話用在數(shù)據(jù)中心運營上同樣適用。近年來,各大數(shù)據(jù)中心因運維造成的業(yè)務(wù)故障問題數(shù)不勝數(shù),因此如何讓數(shù)據(jù)中心持久、高效地運轉(zhuǎn)下去成為了運維人和IT管理者最關(guān)注的問題。
另一方面,降低數(shù)據(jù)中心能耗也是無數(shù)數(shù)據(jù)中心從業(yè)者致力于大道的目標(biāo)。相關(guān)資料顯示,2014年,美國的數(shù)據(jù)中心耗電量達700億千瓦,約占電力消費總量的1.8%,如果不采取措施降低能耗,未來數(shù)據(jù)中心將會消耗大量的社會電力。
可以說,降低運維故障率與數(shù)據(jù)中心能耗都是擺在從業(yè)者面前的兩大硬需求,要想在未來面前建造更得力的數(shù)據(jù)中心,我們應(yīng)該如何滿足這兩大需求呢?
自動化運維遇挑戰(zhàn)智能運維才是未來?
中科仙絡(luò)董事長程小丹在出席2018數(shù)據(jù)中心設(shè)施論壇-上海站表示。他認為,當(dāng)今運維的重視度已經(jīng)非常高;在數(shù)據(jù)中心整個設(shè)計建造過程中應(yīng)該強化機電顧問的作用,才能保證我們在運維的時候,有相關(guān)運維的文檔;云和托管成為一個趨勢,大家越來越多的會用第三方的數(shù)據(jù)中心和云服務(wù),在數(shù)據(jù)中心遷移過程中需要做好自己的功課,才能確保系統(tǒng)能夠穩(wěn)定。程小丹建議,在數(shù)據(jù)中心遷移的時候,第一,要評估目標(biāo)IDC的技術(shù)文檔和資質(zhì)文件;第二,目標(biāo)IDC要有可信的第三方測試報告;第三,目標(biāo)IDC運維體系及運維團隊能力要過硬;第四,一定要制定應(yīng)急預(yù)案,把機房放到第三方,第三方本身肯定有應(yīng)急預(yù)案,但自己還得有另外的應(yīng)急預(yù)案,以備不時之需。
北京中科仙絡(luò)咨詢服務(wù)有限公司董事長
目前,數(shù)據(jù)中心無論是軟件還是硬件上,都不甚完美,但是即便不完美也要保障業(yè)務(wù)的可靠、高速、高效、安全。南開大學(xué)AIOps算法專家張圣林認為,自動化運維雖然可以對大體量的服務(wù)器進行監(jiān)控分析,但是依然面臨三大挑戰(zhàn)。
首先,目前廣域網(wǎng)變得越來越復(fù)雜,一旦出現(xiàn)故障后,很難對故障點進行精確的人工排查;第二,近幾年來,數(shù)據(jù)中心架構(gòu)不斷演進,但每一次改進都會對運維人員進行挑戰(zhàn),因為原有舊經(jīng)驗不再符合需求,他們需要不斷進行新的分析;第三,軟件的架構(gòu)不停發(fā)展和演進,現(xiàn)在DEVOPS的興起,就是因為用人工的方法分析變得越來越困難。
“自動化運維面臨的挑戰(zhàn),正是智能運維纏上的先決條件。”近期,張圣林在出席2018數(shù)據(jù)中心設(shè)施論壇-上海站時表示。他認為,在智能運維時代下,運維團隊只需要判斷智能運維大腦的決策是否準(zhǔn)確即可,這減輕了運維人員的人力消耗。目前,張圣林團隊已經(jīng)百度運維團隊合作出了交換機故障預(yù)測的框架。
從硬件和軟件開始控制數(shù)據(jù)中心能耗
在不同的氣候條件下,數(shù)據(jù)中心對制冷程度的要求各異,所以不同地區(qū)對數(shù)據(jù)中心建設(shè)條件要求不一。英國寬德主席David Dryden表示,有效控制能耗的策略是從硬件和軟件開始,數(shù)據(jù)中心在簡化電力系統(tǒng)架構(gòu)和驅(qū)動效率方面具有可提升的空間。
以新加坡為例,新加坡地處熱帶,運營商不得不把數(shù)據(jù)中心致于惡劣的條件下。David Dryden在2018數(shù)據(jù)中心設(shè)施論壇-上海站上表示,他的團隊最終在數(shù)據(jù)中心的大中兩側(cè)設(shè)置IAC和電源線,或這些放置于建筑物的兩側(cè)來提升數(shù)據(jù)中心的性能表現(xiàn),這比僅僅在屋頂上安裝冷卻塔更有效。
英國Cundall(寬德)主席
為了推動綠色數(shù)據(jù)中心建設(shè),美國綠色建筑委員會MTD大中華區(qū)主管徐辰波也來到2018數(shù)據(jù)中心設(shè)施論壇-上海站現(xiàn)場,徐辰波表示,作為LEED作為全球范圍內(nèi)認可度最高、使用最為廣泛的綠色建筑認證體系,將進一步的細化標(biāo)準(zhǔn)體系,更適應(yīng)現(xiàn)時代發(fā)展。
運維無小事,一個微小的故障極有可能引起數(shù)據(jù)中心業(yè)務(wù)損失,智能運維或許是2018下半年值得關(guān)注的方向。與此同時,我們也要重視數(shù)據(jù)中心各環(huán)節(jié)對數(shù)據(jù)中心能耗降低產(chǎn)生的影響。
在數(shù)據(jù)中心運營過程中,運維這一過程必不可少,且還占據(jù)十分重要的地位。運維無小事情,可能一次的不小心就會導(dǎo)致企業(yè)數(shù)據(jù)丟失,給數(shù)據(jù)中心業(yè)務(wù)帶來不可彌補的損失。
(原標(biāo)題:運維故障頻發(fā),能耗居高不下如何破解數(shù)據(jù)中心硬需求?)