隨著人工智能時代的到來,數(shù)據(jù)中心也變得越來越智能化,如今人工智能已經(jīng)取代了云計算和大數(shù)據(jù)的位置,成為數(shù)據(jù)中心的市場熱點。人工智能在數(shù)據(jù)中心中的應用幾乎改變了每個數(shù)據(jù)中心的應用程序,重塑了軟件開發(fā)生命周期(SDLC)。
毫無疑問,人工智能(AI)正在滲透技術的各個方面,從發(fā)現(xiàn)早期癌癥到理解所有形式的人類語言,以及用你的貓在實時高分辨率視頻中交換你的臉。消費者應用程序的踩踏加劇了主流需求,社會接受度和人工智能日益普及的推動和資助,現(xiàn)在,思維系統(tǒng)正在向企業(yè)IT領域發(fā)展。
企業(yè)IT已經(jīng)成為許多任務的主流,包括網(wǎng)絡安全,IT運營,監(jiān)控,數(shù)據(jù)分析,業(yè)務流程自動化和基礎架構配置,以應對緩慢增長的熟練勞動力池與快速增長的IT之間日益擴大的差距工作負載。
然而,對于數(shù)據(jù)中心而言,它們僅代表兩個聚集季風的第一個雨滴:用于數(shù)據(jù)中心的AI和用于AI讀取的數(shù)據(jù)中心兩次。
如今,智能產(chǎn)品已經(jīng)通過篩選令人眼花繚亂的操作遙測數(shù)據(jù),發(fā)現(xiàn)異常,關聯(lián)事件和確定根本原因來增強IT運營和分析。我們還看到智能技術被添加到基礎設施配置和流程自動化中,每周都有新產(chǎn)品上街,并將AI帶入新的領域。隨著AI在IT運營中的成熟,它從被動的記者轉變,解釋發(fā)生了什么,提出建議或將異常識別為預測故障的更積極的參與者,自主調(diào)整流程的步驟,以及自動部署或銷毀容量。
但最大的影響可能是數(shù)據(jù)中心將AI與數(shù)據(jù)中心信息管理(DCIM)系統(tǒng)連接起來,以提供智能數(shù)據(jù)中心運營。2014年,Google使用DeepMind觀察并建議對其數(shù)據(jù)中心的風扇,通風和冷卻設備進行控制調(diào)整,從而將公用事業(yè)成本降低40%。1今年,谷歌全力以赴,將所有冷卻系統(tǒng)操作的完全控制權交給了一個自學成才的算法,該算法不僅可以推薦更改,還可以直接自動調(diào)整控件,觀察結果,學習并變得更聰明。2量化結果為時尚早,但早期跡象看起來很有希望。
但我們剛開始。在途中,智能產(chǎn)品將在行和機架上虛擬地重新定位發(fā)熱計算負載,以實現(xiàn)最佳溫度控制。其他DCIM供應商正在研究AI算法,以根據(jù)不斷變化的硬件容差,功耗/成本趨勢和瞬態(tài)工作負載來改變數(shù)據(jù)中心目標溫度。除了冷卻之外,人工智能驅動的配電和管理節(jié)省數(shù)據(jù)中心成本的潛力同樣引人注目,僅占美國3電力消耗的1.8%??缢袛?shù)據(jù)中心在全球范圍內(nèi)擴展,影響可能很大。
展望未來,新興的智能DCIM系統(tǒng)將數(shù)據(jù)中心物聯(lián)網(wǎng)傳感器數(shù)據(jù)(如熱量,氣流,振動,超聲波,功耗,水和煙霧檢測)整合到基于AI的平臺中,不僅可以檢測異常的數(shù)據(jù)中心行為,還可以確定問題的根源和原因。4很快,這些智能DCIM系統(tǒng)不僅會說出某些事情失敗的時間,地點和原因,而且還會在出現(xiàn)問題之前預測性地提醒操作員5,在某些情況下,還會自動進行攔截。
由于人工智能幾乎改變了每個數(shù)據(jù)中心應用程序,它也在重塑軟件開發(fā)生命周期(SDLC)。傳統(tǒng)應用程序通過程序化更改演變?yōu)槠涞讓哟a庫,然后使用嚴格測試進行驗證,并以受控,可管理和可重復(和單向)方式部署到生產(chǎn)中。但是,基于AI的應用程序不依賴于代碼更改或單向部署。相反,許多人在開發(fā)環(huán)境中發(fā)展更智能和更智能的模型并將其部署到生產(chǎn)中,而其他人則在生產(chǎn)中進行自我訓練,在那里他們從現(xiàn)實世界數(shù)據(jù)中學習并將這些知識傳播回開發(fā)環(huán)境。這種雙向細微差別對數(shù)據(jù)中心網(wǎng)絡拓撲結構具有根本性影響。
無論是嵌入在更傳統(tǒng)的第三方應用程序中還是內(nèi)部開發(fā)的人工智能算法,在對盡可能真實且相關的大量數(shù)據(jù)進行培訓時效果最佳。因此,在許多情況下,實時生產(chǎn)數(shù)據(jù)最適合培訓,但在其他應用中,非生產(chǎn)環(huán)境中的外部數(shù)據(jù)系統(tǒng),以及由此產(chǎn)生的智能模型被部署到生產(chǎn)中。在這兩種情況下,人工智能應用程序不僅僅是從非生產(chǎn)到生產(chǎn),而是在兩者之間進行排球,要求環(huán)境之間的網(wǎng)絡分割變得更具滲透性,而不是可防御的護城河。
人工智能培訓需要大量的計算和大量的數(shù)據(jù)-每個人的數(shù)據(jù)越多越好。為了滿足這種對計算能力的巨大需求,人工智能培訓越來越多地發(fā)生在以CPU為中心的非CPU服務器上,這些服務器基于GPU,F(xiàn)PGA,定制ASIC或專用深度學習單元,可提供數(shù)量級的性能提升。不幸的是,這些系統(tǒng)是耗電量大,吞吐量高達30-50千瓦/機架,而且一些估計預測下一代系統(tǒng)將達到驚人的100千瓦/機架。40多個數(shù)據(jù)中心的運營商Flexential的首席云官Jason Carolan表示,“今天的大多數(shù)數(shù)據(jù)中心都沒有大規(guī)模的支持,沒有對液體冷卻等冷卻控制解決方案進行大量的再造”。6
除了動力之外,這些超級計算機的運行速度與它們接收的訓練數(shù)據(jù)一樣快。結果是對大型,廉價和閃電般快速的近線存儲的需求不斷增長,觸發(fā)了更快的控制器,協(xié)議(例如,NVMe和NVMe-oF)和媒體(例如,3D XPoint和3D NAND)的新存儲支持。
在許多情況下,基于AI的應用程序需要非生產(chǎn)培訓環(huán)境,其計算和存儲容量比生產(chǎn)更高。這種情況扭轉了歷史悠久的傳統(tǒng),即從退役生產(chǎn)手工制造非生產(chǎn)環(huán)境。相反,我們將看到這些閃亮的新計算和存儲平臺部署到開發(fā)和培訓環(huán)境中,以及最先進的網(wǎng)絡,SAN和相關的監(jiān)控和管理工具。這些演進需要對整個數(shù)據(jù)中心的服務器和存儲拓撲進行徹底的轉換。
即將到來的基于人工智能的產(chǎn)品季風將觸發(fā)運營,自動化,監(jiān)控,合規(guī),安全,開發(fā)和云集成的下游分水嶺,但這些都將成為數(shù)據(jù)中心過多的基礎變革。有遠見的數(shù)據(jù)中心運營商能夠支持基于AI的應用程序并使用人工智能進行操作,他們將迎來風暴。
(原標題:人工智能即將來到我們的數(shù)據(jù)中心)