機器學習是專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。不知從什么時候開始,數據中心與機器學習深深地扯上了關系,并且有愈演愈烈之勢。
機器學習的迅猛發(fā)展為數據中心運營商帶來了更好的散熱,功耗和性能。
隨著企業(yè)開始采用經過大型數據中心運營商和托管服務提供商試用和測試過的機器學習技術,人工智能將在數據中心運營中扮演更重要的角色。
今天的混合計算環(huán)境通??缭搅藘炔繑祿行摹⒃坪团渲谜军c以及邊緣計算。企業(yè)發(fā)現(xiàn)傳統(tǒng)的數據中心管理方法并不是最優(yōu)的。通過使用人工智能,機器學習,可以簡化復雜計算設施的管理。
目前,數據中心的AI主要圍繞機器學習來監(jiān)控和自動化設施組件的管理,如電力和配電元件,冷卻基礎設施,機架系統(tǒng)和物理安全。
在數據中心設施內部,越來越多的傳感器正在從設備(包括備用電源,配電設備,開關設備和冷卻器)收集數據。有關這些設備及其環(huán)境的數據將通過機器學習算法進行分析,例如,該算法可以詳細了解性能和容量,并確定適當的響應,更改設置或發(fā)送警報。隨著條件的變化,機器學習系統(tǒng)能從變化中不斷學習 - 它本質上是通過訓練進行自我調整,而不是依靠特定的編程指令來執(zhí)行其任務。
目標是使數據中心運營商能夠提高設施的可靠性和效率,并更自主地運行它們。但是,獲取數據并不是一項簡單的任務。
基本要求是獲得來自主要組件的實時數據,施耐德電氣數據中心全球解決方案高級總監(jiān)Steve Carlini說。包括冷水機組,冷卻塔,空氣處理機,風機等等設備。在IT設備方面,你需要收集諸如服務器利用率,溫度和功耗等指標。
“計量一個數據中心不是一件容易的事。”Carlini說, “如果你想嘗試做人工智能,你需要從數據中心獲取數據,并且確保在數據中心有很多連接點用于供電和散熱。”
IT專業(yè)人員習慣于設備監(jiān)控和實時警報,但在房屋設施方面則沒有這個傳統(tǒng)。“人們希望即時得到IT設備的通知。但在你的電力系統(tǒng)上,這不是直接能夠得到的數據,“Carlini說。 “這是一個不同的世界。”
只有在過去的十年左右,第一批數據中心才完全裝備了儀器,并使用儀表來監(jiān)控電力和制冷。只要存在計量的地方,標準化的實現(xiàn)往往都是困難的:數據中心運營商依賴于使用多種通信協(xié)議來構建管理系統(tǒng)——從Modbus和BACnet到LONworks和Niagara——它們必須滿足于那些無法共享數據或不能通過遠程控制操作的設備。“TCP/IP,以太網連接——這些連接以前在動力系統(tǒng)端和冷卻端是聞所未聞的,”Carlini說。
好消息是,數據中心的監(jiān)控正在向高級分析和機器學習所需的深度發(fā)展。服務提供商和托管服務提供商一直非常擅長在機架級別進行監(jiān)控,特別是監(jiān)控能源使用情況。企業(yè)正在開始部署它,這取決于數據中心的規(guī)模,“Carlini說。
機器學習使數據中心時刻保持涼爽
由于電力系統(tǒng)故障導致的達美航空數據中心停運事件,使其在2016年的三天時間內停飛約2000次航班,造成損失1.5億美元。這正是基于機器學習的自動化技術可以避免的場景。 由于數據中心計量技術的進步以及云中數據池的出現(xiàn),智能系統(tǒng)有可能以手動流程無法發(fā)現(xiàn)的方式發(fā)現(xiàn)數據中心運行中的漏洞并提高效率。
機器學習驅動智能的一個簡單示例是基于條件的維護策略,它應用于數據中心中的消耗品,例如,冷卻過濾器。Carlini說,通過監(jiān)測通過多個過濾器的空氣流量,智能系統(tǒng)可以檢測出一些過濾器是否比其他過濾器堵塞更多,然后將空氣導向堵塞較少的單元,直到需要更換所有過濾器為止。
另一個例子是監(jiān)控UPS系統(tǒng)中電池的溫度和放電。智能系統(tǒng)可識別在較熱環(huán)境中運行且可能比其他系統(tǒng)更頻繁運行的UPS系統(tǒng),然后將其指定為備用UPS而不是主系統(tǒng)。 “它可以為你做一些思考。這原本是需要手動完成的,但現(xiàn)在機器也可以做到。這些是基本的案例,”Carlini說。
更高層次的功能是動態(tài)冷卻優(yōu)化,這是當今數據中心中最常見的機器學習的例子之一,特別是在較大的數據中心操作人員和托管服務提供商之間。
通過動態(tài)冷卻優(yōu)化,數據中心管理人員可以根據環(huán)境條件監(jiān)控和控制設施的冷卻基礎設施。當設備移動或計算流量激增時,建筑物內的熱負荷也會發(fā)生變化。動態(tài)調整冷卻輸出以轉移熱負荷可幫助消除不必要的制冷量并降低運營成本。
451 Research數據中心技術和生態(tài)高效IT頻道的研究主管Rhonda Ascierto說,托管服務提供商是動態(tài)冷卻優(yōu)化的主要采用者。“機器學習對數據中心來說并不陌生,”Ascierto說。 “在很長一段時間內人們都試圖根據容量和需求來改善散熱,機器學習可以讓你實時做到這一點。”
Vigilent是動態(tài)冷卻優(yōu)化領域的領導者。其技術可以優(yōu)化數據中心設施的氣流,自動發(fā)現(xiàn)并消除熱點。
Vigilent的創(chuàng)始人,總裁兼首席技術官Cliff Federspiel說,數據中心運營商之前傾向于運行比他們所需要的更多的冷卻設備。 “它通常會產生半可接受的溫度分布,且成本非常高。”
如果有熱點,傳統(tǒng)的措施是增加更多的冷卻能力。實際上,較高的空氣速度會產生壓力差,干擾穿過設備的空氣流動或妨礙熱空氣返回到冷卻設備??赡苓@不是直覺,有時候降低風扇速度可能更有效。
Vigilent的基于機器學習的技術可以了解哪些氣流設置可以優(yōu)化每個客戶的散熱環(huán)境。該公司表示,提供適當的冷卻量在需要的地方,通常能使冷卻能耗降低40%。
除了自動化冷卻系統(tǒng)之外,Vigilent的軟件還允許客戶使用分析工具來對其設施進行運營決策。
Federspiel說:“我們的客戶越來越有興趣利用這些數據來幫助管理他們的資本支出、能力規(guī)劃和可靠性計劃。這為數據中心內的大量新型的數據相關的決策創(chuàng)造了機會。”
AI使現(xiàn)有流程更完善
展望未來,數據中心運營商正在努力將動態(tài)制冷優(yōu)化的成功擴展到其他領域。一般來說,適合機器學習的領域是那些需要大量重復性的工作的地方。
Ascierto表示:“新的基于機器學習的數據中心方法很可能會應用于現(xiàn)有的業(yè)務流程,因為當您徹底了解業(yè)務問題和規(guī)則時,機器學習會表現(xiàn)的更好。”
企業(yè)已經有一些在使用中的監(jiān)控工具。有一種長期存在的數據中心基礎設施管理(DCIM)軟件,可以為數據中心資產、相互依賴性、性能和容量提供可見性。DCIM軟件具有遠程設備監(jiān)控,電力和環(huán)境監(jiān)控,IT資產管理,數據管理和報告等功能。企業(yè)使用DCIM軟件來簡化容量規(guī)劃和資源分配,并確保盡可能高效地使用電力,設備和占地面積。
“如果你有一個基本的監(jiān)控和資產管理,你的預測能力將會大大提高,”Ascierto說。 “人們已經在使用他們自己的數據。”
接下來的目標是:將外部數據添加到DCIM組合中。這就是機器學習發(fā)揮關鍵作用的地方。
數據中心管理即服務或DMaaS是基于DCIM軟件的服務。但它不僅僅是一個SaaS版本的DCIM軟件。 DMaaS將進一步收集數據,匯總來自數十個數據中心的設備和設備數據。然后將這些數據匿名化,匯總并使用機器學習進行大規(guī)模分析。
兩家DMaaS市場的早期參與者是Schneider Electric和Eaton。這兩家廠商都從他們在數據中心領域多年的經驗中挖掘出了大量數據,其中包括設計和構建數據中心,樓宇管理,配電以及電力和制冷服務。
“Schneider Electric和Eaton正在做的事情將產生重大的變化,那就是擁有眾多客戶數據的數據湖。這對于數據中心部門來說非常有趣,”Ascierto說。
通過從廣泛的操作環(huán)境中獲取這類數據,使企業(yè)能夠將自己的數據中心性能與全球基準進行比較。例如,Schneider的DMaaS產品名為EcoStruxure IT,它與來自500多個客戶和220萬個傳感器的基準數據的數據湖相關聯(lián)。
“您不僅可以使用自己的數據理解和解決問題。而且,您還可以使用數千個其他設施的數據,其中包括許多與您的設施非常相似的數據。這是最大的區(qū)別,”Ascierto說。
例如,預測性和預防性維護可以從更深層次的智能中受益。 Ascierto說:“以其他機器為基礎,在使用水平相似、使用時間相近、部件相似的環(huán)境中工作,人工智能可以提前預測出可能會出現(xiàn)的故障。”
情景規(guī)劃是另一個可以從機器學習中獲益的過程。例如,公司今天進行情景規(guī)劃,估算設備移動對功耗的影響。 “這幾乎無法進行機器學習,”Ascierto說。“但通過將機器學習數據、歷史數據應用到特定的配置和不同的設計中——使得確定特定配置或設計的結果的能力大大提升。”
風險分析和風險對沖計劃也將受益于更深入的分析。 Ascierto說:“數據中心非常復雜,今天的規(guī)模如此之大,以至于人類真的很難從中找到規(guī)律,但對于機器來說這是輕而易舉的。”
未來,機器學習在數據中心的廣泛應用將為企業(yè)在決定運行某些工作負載的位置時提供更多建議。 “這對組織來說非常有價值,特別是如果他們正在圍繞最佳執(zhí)行場所做出決定時,”Ascierto說。 “這個應用程序應該在這個數據中心運行嗎?或者我們應該使用額外的數據中心嗎?”
展望未來,智能系統(tǒng)可以承擔更復雜的任務,使數據中心能夠根據運行效率最高或最可靠的設置來動態(tài)調整工作負載。 Carlini說:“復雜的人工智能在未來仍有一段路要走。”
與此同時,對于剛入門的公司,他強調了讓設備和IT團隊進行更多合作的重要性。
Carlini說:“考慮到數據中心的所有部件 - 電源系統(tǒng),冷卻系統(tǒng)和IT管理室都是非常重要的。必須努力保證不同領域的技術之間的互操作性。同時,企業(yè)需要在人員配置方面也這樣做。
“雖然這在技術層面上很容易做到,但在組織上,提升的空間依然非常巨大,”他說。
(原標題:AI提升數據中心的可用性和效率)