眾所周知,數(shù)據(jù)中心是由計(jì)算機(jī)系統(tǒng)和其它與之配套的設(shè)備組成的,因此數(shù)據(jù)中心在運(yùn)轉(zhuǎn)時設(shè)備將會散發(fā)出大量熱氣,給數(shù)據(jù)中心降溫就成了數(shù)據(jù)中心運(yùn)營商亟待解決的問題。據(jù)悉,為給數(shù)據(jù)中心更好的降溫,谷歌研發(fā)了一個人工智能驅(qū)動的推薦系統(tǒng),用以提高谷歌數(shù)據(jù)中心的能源效率。
現(xiàn)在,他們將這個系統(tǒng)提升到一個新的水平:在數(shù)據(jù)中心運(yùn)營專家的監(jiān)督之下直接讓AI系統(tǒng)控制數(shù)據(jù)中心的冷卻系統(tǒng)。這種首創(chuàng)的基于云的控制系統(tǒng)現(xiàn)在可以安全地為多個谷歌數(shù)據(jù)中心提供節(jié)能服務(wù)。
現(xiàn)實(shí)世界的很多*緊迫的問題變得越來越復(fù)雜,為它們尋求解決方案可能會讓人不堪重負(fù)。在DeepMind和谷歌,谷歌認(rèn)為,如果其能夠?qū)I作為發(fā)現(xiàn)新知識的工具,那么就可以更容易得找到解決方案。
2016年,谷歌聯(lián)合開發(fā)了一個人工智能驅(qū)動的推薦系統(tǒng),用以提高谷歌數(shù)據(jù)中心的能源效率。谷歌的想法很簡單:即使是微小的改進(jìn)也可以顯著地節(jié)約能源,減少二氧化碳排放,從而有助于應(yīng)對氣候變化。
現(xiàn)在谷歌將這個系統(tǒng)提升到一個新的水平:谷歌不是通過人為的方式實(shí)現(xiàn)推薦系統(tǒng),而是在數(shù)據(jù)中心運(yùn)營專家的監(jiān)督之下讓谷歌的AI系統(tǒng)直接控制數(shù)據(jù)中心的冷卻系統(tǒng)。這種首創(chuàng)的基于云的控制系統(tǒng)現(xiàn)在可以安全地為多個谷歌數(shù)據(jù)中心提供節(jié)能服務(wù)。
它是怎么運(yùn)作的
每隔五分鐘,谷歌的AI系統(tǒng)就會從數(shù)千個傳感器收集數(shù)據(jù)中心冷卻系統(tǒng)的快照,并將其輸入到谷歌的深度神經(jīng)網(wǎng)絡(luò)中,用以預(yù)測不同的潛在操作的組合將如何影響未來的能源消耗。然后,AI系統(tǒng)將識別出哪些操作將會*小化能量消耗,同時又能滿足安全約束。這些操作被發(fā)送回數(shù)據(jù)中心,數(shù)據(jù)中心的本地控制系統(tǒng)負(fù)責(zé)驗(yàn)證和執(zhí)行它們。
這個想法源于使用AI推薦系統(tǒng)的數(shù)據(jù)中心專家的反饋。他們告訴谷歌,雖然推薦系統(tǒng)已經(jīng)為他們提供了一些新的*實(shí)踐--例如將冷卻負(fù)載分散到更多而不是更少的設(shè)備上--但實(shí)現(xiàn)推薦仍然需要很多的運(yùn)營工作量和監(jiān)督。當(dāng)然,他們想知道谷歌是否可能實(shí)現(xiàn)在沒有人工干預(yù)的情況下實(shí)現(xiàn)類似的節(jié)能。
谷歌很高興地說,答案是肯定的!
谷歌的數(shù)據(jù)中心包含數(shù)千臺服務(wù)器,用于支持谷歌搜索、Gmail和YouTube等熱門服務(wù)。確保它們可靠高效地運(yùn)行是谷歌的關(guān)鍵任務(wù)。谷歌從頭開始設(shè)計(jì)谷歌的AI代理和底層控制基礎(chǔ)設(shè)施,并時刻考慮到安全性和可靠性問題,還使用了八種不同的機(jī)制來確保系統(tǒng)始終按預(yù)期運(yùn)行。
谷歌已經(jīng)實(shí)現(xiàn)的一個簡單方法是預(yù)估不確定性。對于每一個潛在的操作--可能有數(shù)十億個--谷歌的AI代理會計(jì)算出它們的信心指數(shù)。低信心指數(shù)的操作將不予考慮。
另一種方法是進(jìn)行雙層驗(yàn)證。谷歌將根據(jù)由數(shù)據(jù)中心運(yùn)維人員定義的內(nèi)部安全約束列表對AI計(jì)算得出的*操作進(jìn)行審查。在指令從云端發(fā)送到物理數(shù)據(jù)中心后,本地控制系統(tǒng)就根據(jù)自己的約束集對指令進(jìn)行驗(yàn)證。這種冗余檢查可以確保系統(tǒng)保持在局部約束范圍內(nèi),并且運(yùn)維人員可以完全控制操作邊界。
*重要的是,谷歌的數(shù)據(jù)中心運(yùn)維人員始終控制著局面,可以隨時選擇退出AI控制模式。在這些情況下,控制系統(tǒng)將無縫地從AI控制轉(zhuǎn)移到現(xiàn)場規(guī)則。
逐漸增長的節(jié)能
谷歌的原始推薦系統(tǒng)有運(yùn)維人員進(jìn)行審查和實(shí)現(xiàn)操作,而谷歌新的AI控制系統(tǒng)卻直接自己實(shí)現(xiàn)了操作??紤]到安全性和可靠性問題,谷歌有目的地將系統(tǒng)的優(yōu)化邊界限制在較窄的操作體系中,這意味著在節(jié)能方面存在風(fēng)險和回報之間的折衷。
盡管只有幾個月的時間,這個系統(tǒng)已經(jīng)實(shí)現(xiàn)了平均約30%的持續(xù)節(jié)能,并有了進(jìn)一步的預(yù)期改進(jìn)。這是因?yàn)殡S著時間的推移,系統(tǒng)會因?yàn)閿?shù)據(jù)越來越多而變得更好,如下圖所示。隨著技術(shù)的成熟,谷歌的優(yōu)化邊界也將得到擴(kuò)展,從而實(shí)現(xiàn)更高效的節(jié)能。
谷歌的AI控制系統(tǒng)正在尋找更多新穎的管理冷卻的方式,這些方法甚至讓數(shù)據(jù)中心運(yùn)維人員感到驚訝。谷歌數(shù)據(jù)中心運(yùn)維人員Dan Fuenffinger說:“看到AI學(xué)會利用冬季條件并生成比普通水更冷的水,著實(shí)令人感到驚訝,這樣可以降低冷卻所需的能量。隨著時間的推移,人工規(guī)則不會變得更好,但AI卻可以“。
谷歌很高興谷歌的AI控制系統(tǒng)能夠安全可靠地運(yùn)行,同時始終如一地實(shí)現(xiàn)節(jié)能。但是,數(shù)據(jù)中心只是個開始。從長遠(yuǎn)來看,谷歌認(rèn)為有可能將這項(xiàng)技術(shù)應(yīng)用到其他工業(yè)環(huán)境,并在更大規(guī)模的范圍內(nèi)應(yīng)對氣候變化。
(原標(biāo)題:谷歌首創(chuàng)基于云的AI自治系統(tǒng),為數(shù)據(jù)中心自動降溫)