近年來(lái),數(shù)據(jù)中心火災(zāi)事件頻繁發(fā)生,給數(shù)據(jù)中心企業(yè)帶來(lái)了巨大的經(jīng)濟(jì)損失。繼北京亦莊數(shù)據(jù)中心起火之后,青島西海岸的惠普數(shù)據(jù)中心又于國(guó)慶節(jié)前夕發(fā)生火災(zāi),數(shù)據(jù)中心火災(zāi)問(wèn)題日益嚴(yán)峻,因此如何解決這個(gè)問(wèn)題成為了數(shù)據(jù)中心企業(yè)亟待解決的難題。
在大多數(shù)人印象里可能覺(jué)得數(shù)據(jù)中心和火災(zāi)沒(méi)有太大關(guān)系,因?yàn)闄C(jī)房里除了電子設(shè)備,沒(méi)有別的東西,再加上數(shù)據(jù)中心都具備有完善的消防監(jiān)控系統(tǒng),認(rèn)為就算有火災(zāi)隱患也會(huì)很快解決。然而,實(shí)際情況恰恰相反,數(shù)據(jù)中心著火事件并非個(gè)例。
圖示為青島西海岸惠普數(shù)據(jù)中心火災(zāi)現(xiàn)場(chǎng)
2018年4月5號(hào),擁有“信息黃埔”之稱的北京郵電大學(xué)校園核心機(jī)房著火受損,北京眾多高校校內(nèi)網(wǎng)崩潰。
圖示為北京郵電大學(xué)校園核心機(jī)房火災(zāi)現(xiàn)場(chǎng)
2015年10月13號(hào),Windows Azure上海數(shù)據(jù)中心發(fā)生故障,機(jī)房著火斷電,導(dǎo)致Azure基礎(chǔ)設(shè)施離線無(wú)法提供正常服務(wù),受到影響的用戶包括金融、互聯(lián)網(wǎng)、房地產(chǎn)。
同年1月10日亞馬遜公司正在美國(guó)弗吉尼亞州建設(shè)的一座數(shù)據(jù)中心著火。
2014年7月20日重慶農(nóng)商行數(shù)據(jù)中心發(fā)生重大火災(zāi),整個(gè)機(jī)房全部燒毀,直接損失達(dá)到一個(gè)億以上。
針對(duì)數(shù)據(jù)中心發(fā)生的火災(zāi),業(yè)內(nèi)專(zhuān)家表示險(xiǎn)情多發(fā)的根源還是在運(yùn)維管理上,正所謂“三分技術(shù),七分管理”,數(shù)據(jù)中心的故障大多源自人禍。
圖示為百度云計(jì)算(陽(yáng)泉)數(shù)據(jù)中心機(jī)房通道
IDC超7成故障是人為因素造成的
隨著互聯(lián)網(wǎng)技術(shù)在全球的普及,數(shù)據(jù)中心的規(guī)模越來(lái)越大,人作為數(shù)據(jù)中心運(yùn)維管理上的重要一環(huán),參與了大多數(shù)的工作。例如日常巡檢、定期檢修等,但人為參與程度越高,出錯(cuò)概率也就越大。有分析稱,在數(shù)據(jù)中心產(chǎn)生故障的原因中,人禍占據(jù)了七成以上。
例如年初,亞馬遜云計(jì)算的存儲(chǔ)服務(wù)爆發(fā)了重大故障,大量網(wǎng)站和APP客戶受到影響。然而事后亞馬遜方面給出的原因竟然是工作人員的低級(jí)失誤,造成了此次重大故障的發(fā)生。無(wú)獨(dú)有偶,3月16日,微軟證實(shí)其云計(jì)算發(fā)生了全球性故障,在所有28個(gè)數(shù)據(jù)中心中,有26個(gè)出現(xiàn)故障,微軟公共云服務(wù)中的數(shù)據(jù)存儲(chǔ)故障同時(shí)引發(fā)了其他相關(guān)的服務(wù)故障,而原因又是人為因素造成。
圖示為借助電子設(shè)備巡檢數(shù)據(jù)中心
AI替代人工 降低的不只是安全隱患
其實(shí),早在數(shù)據(jù)中心在全球大規(guī)模建設(shè)之初,如何控制“人禍”就成為數(shù)據(jù)中心降低安全隱患的重要方向,但是隨著單體數(shù)據(jù)中心規(guī)模的不斷加大,人力的需求不降反增,而且大量的工作人員,不僅帶來(lái)人為因素上的安全隱患,還會(huì)讓工作流程更加復(fù)雜,工作效率更加低下。尤其是在當(dāng)下數(shù)據(jù)中心不斷擴(kuò)容、新增、改造的條件下,也讓很多原來(lái)設(shè)計(jì)的安全規(guī)范無(wú)法滿足實(shí)際情況需要。
所以,隨著AI技術(shù)的發(fā)展,數(shù)據(jù)中心無(wú)論是管理、監(jiān)控還是維護(hù),采用AI替代人工的需求越來(lái)越高。畢竟,AI不需要睡覺(jué),可以全天運(yùn)行,更不會(huì)產(chǎn)生放假、生病的問(wèn)題。那么現(xiàn)在的AI能否真正的替代那些需要人為判斷的任務(wù)并進(jìn)行處理呢?
首先可以肯定的是,在數(shù)據(jù)中心中應(yīng)用AI有著先天的優(yōu)勢(shì),國(guó)內(nèi)很多新興或者升級(jí)后的數(shù)據(jù)中心已經(jīng)開(kāi)始初步應(yīng)用AI,例如自動(dòng)執(zhí)行IT管理人員設(shè)定的任務(wù),將大量原始數(shù)據(jù)轉(zhuǎn)化為人為可識(shí)別的信息。而更深度的AI案例也早已出現(xiàn),例如百度的云計(jì)算(陽(yáng)泉)中心。
在高度智能化的百度云計(jì)算(陽(yáng)泉)中心,目前已全面實(shí)現(xiàn)無(wú)紙化操作,通過(guò)Pad 、電腦進(jìn)行巡檢。當(dāng)然,這也僅僅是AI非常初級(jí)的應(yīng)用,現(xiàn)在的百度云計(jì)算(陽(yáng)泉)中心通過(guò)建立IDC深度學(xué)習(xí)模式,已經(jīng)讓數(shù)據(jù)中心擁有難以置信的效果,比如冷卻用電方面,百度云計(jì)算(陽(yáng)泉)中心可以通過(guò)分析、學(xué)習(xí)上百個(gè)變量的實(shí)際數(shù)據(jù),進(jìn)行冷卻方式的智能切換。最直接的表現(xiàn)就是,當(dāng)外部環(huán)境不管是溫度、濕度還是負(fù)荷產(chǎn)生了變化,AI系統(tǒng)都會(huì)智能切換制冷模式,大大提高了數(shù)據(jù)中心冷卻設(shè)備的使用效率,并最終大大降低了人力的使用,讓PUE這樣的關(guān)鍵指標(biāo)始終維持在1.10這一全國(guó)最高水準(zhǔn)的水平線上。
那么,現(xiàn)在在AI加持下的百度云計(jì)算(陽(yáng)泉)中心人力使用是什么情況呢?來(lái)看一組數(shù)據(jù)就會(huì)非常清晰。百度云計(jì)算(陽(yáng)泉)中心面積約12萬(wàn)平方米,而工作人員僅有60左右,相當(dāng)于1人可管理2000平方米。想象一下,籃球場(chǎng)大約400平方米,百度云計(jì)算(陽(yáng)泉)中心的每一個(gè)工作人員需要同時(shí)管理5個(gè)籃球場(chǎng)大小的機(jī)房!這在當(dāng)下主流IDC中僅僅依靠人力是不可能實(shí)現(xiàn)的,而在AI的幫助下,百度做到了,并且是 24小時(shí)不間斷的智能防護(hù)。
無(wú)限憧憬的未來(lái)
實(shí)際上,現(xiàn)代數(shù)據(jù)中心越來(lái)越龐大和復(fù)雜的信息數(shù)量及種類(lèi),單憑人力已經(jīng)不足以應(yīng)對(duì)。
相比人工運(yùn)維中的不足,AI主導(dǎo)的運(yùn)維管理不僅可以簡(jiǎn)化流程、提高效率以及綜合管理能力,也能大大降低人為產(chǎn)生的故障率。
所以,數(shù)據(jù)中心采用AI替代人工,降低人在運(yùn)維管理中重要性的種種舉措,正是未來(lái)IDC迎接挑戰(zhàn),降低安全隱患的發(fā)展趨勢(shì)。在AI時(shí)代下,無(wú)人值守的更安全、更高效的數(shù)據(jù)中心未來(lái)可期。
(原標(biāo)題:AI加持下 更安全的數(shù)據(jù)中心已經(jīng)出現(xiàn))