一些企業(yè)正在推動(dòng)人工智能的使用,以優(yōu)化數(shù)據(jù)中心的電源和冷卻系統(tǒng),實(shí)現(xiàn)預(yù)測(cè)性維護(hù)的自動(dòng)化,并改善工作負(fù)荷分配。
如今,大多數(shù)圍繞人工智能(AI)的討論都集中在自動(dòng)駕駛汽車、聊天機(jī)器人、數(shù)字孿生技術(shù)、機(jī)器人技術(shù),以及使用基于人工智能的智能系統(tǒng)從大型數(shù)據(jù)集中提取商業(yè)洞察力。但是人工智能和機(jī)器學(xué)習(xí)將會(huì)在企業(yè)數(shù)據(jù)中心的服務(wù)器中扮演重要角色。
人工智能在提高數(shù)據(jù)中心效率以及擴(kuò)展業(yè)務(wù)方面的潛力可分為四個(gè)主要類別:
電源管理:基于人工智能的電源管理可幫助優(yōu)化加熱和冷卻系統(tǒng),從而降低電費(fèi),減少工作人員并提高效率。該領(lǐng)域的代表性供應(yīng)商包括施耐德電氣、西門子、Vertiv和伊頓公司。
設(shè)備管理:人工智能系統(tǒng)可以監(jiān)視服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀況,檢查以確保人工智能系統(tǒng)配置正確,并預(yù)測(cè)設(shè)備何時(shí)將發(fā)生故障。調(diào)研機(jī)構(gòu)Gartner公司表示,AIOps IT基礎(chǔ)設(shè)施管理(ITIM)類別的供應(yīng)商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
工作負(fù)載管理:人工智能系統(tǒng)可以自動(dòng)將工作負(fù)載實(shí)時(shí)移動(dòng)到更高效的基礎(chǔ)設(shè)施上,包括在數(shù)據(jù)中心以及在混合云環(huán)境中,在內(nèi)部部署、云計(jì)算和邊緣計(jì)算環(huán)境之間。越來(lái)越多的中小型企業(yè)提供基于人工智能的工作負(fù)載優(yōu)化服務(wù),其中包括Redwood、Tidal Automation和Ignio。像思科、IBM和VMware這樣的主要廠商也提供這樣的產(chǎn)品。
安全性:人工智能工具可以了解正常網(wǎng)絡(luò)流量的情況,發(fā)現(xiàn)異常情況,區(qū)分需要安全從業(yè)者注意的警報(bào)的優(yōu)先級(jí),幫助進(jìn)行事故后分析,并為有關(guān)企業(yè)安全漏洞的防御措施提供建議。提供這一功能的供應(yīng)商包括VectraAI、Darktrace、ExtraHop和Cisco。
綜上所述,人工智能可以幫助企業(yè)創(chuàng)建高度自動(dòng)化、安全、自我修復(fù)的數(shù)據(jù)中心,這些數(shù)據(jù)中心幾乎不需要人工干預(yù),并且能夠以更高的效率和彈性運(yùn)行。
戴爾技術(shù)公司全球首席技術(shù)官辦公室的杰出工程師Said Tabet解釋說(shuō):“人工智能自動(dòng)化技術(shù)可以擴(kuò)展到超出人類能力的水平來(lái)解釋數(shù)據(jù),收集優(yōu)化能源使用、分配工作負(fù)載和最大化效率所需的必要見(jiàn)解,以實(shí)現(xiàn)更高的數(shù)據(jù)中心資產(chǎn)利用率。”
就像自動(dòng)駕駛汽車的承諾一樣,自驅(qū)動(dòng)數(shù)據(jù)中心至今還沒(méi)有出現(xiàn)。在數(shù)據(jù)中心應(yīng)用的人工智能的突破有很多技術(shù)、運(yùn)營(yíng)和人員方面的障礙。如今,雖然采用的人工智能技術(shù)剛剛起步,但潛在的好處將使一些企業(yè)不斷尋找機(jī)會(huì)采取行動(dòng)。
電源管理充分利用服務(wù)器工作負(fù)載管理
據(jù)估計(jì),數(shù)據(jù)中心消耗了全球3%的電力,并造成了約2%的溫室氣體排放。因此,無(wú)論是為了節(jié)省成本,還是為了節(jié)能環(huán)保,很多企業(yè)都在認(rèn)真研究數(shù)據(jù)中心的電源管理。
調(diào)研機(jī)構(gòu)451 Research公司高級(jí)分析師Daniel Bizo表示,基于人工智能的系統(tǒng)可以幫助數(shù)據(jù)中心運(yùn)營(yíng)人員了解當(dāng)前或潛在的冷卻問(wèn)題,例如由于高功率密度機(jī)柜阻礙了氣流而導(dǎo)致的冷空氣輸送不足、精密空調(diào)單元性能不佳,或冷熱通道之間的冷空氣輸送不足。
Bizo說(shuō),人工智能系統(tǒng)可以通過(guò)將精密空調(diào)系統(tǒng)數(shù)據(jù)與環(huán)境感知讀數(shù)相關(guān)聯(lián)來(lái)學(xué)習(xí)設(shè)施。
IT咨詢和顧問(wèn)機(jī)構(gòu)StorageIO公司的創(chuàng)始人Greg Schulz補(bǔ)充說(shuō),“電源管理是一個(gè)很容易實(shí)現(xiàn)的成果。這意味著使電源設(shè)備更智能地工作。”
企業(yè)還要有一個(gè)容量規(guī)劃的角度。除了尋找熱點(diǎn)和冷點(diǎn)之外,人工智能系統(tǒng)還可以確保數(shù)據(jù)中心為適當(dāng)數(shù)量的物理服務(wù)器供電,并且在電力需求臨時(shí)激增的情況下,還有能力啟動(dòng)和關(guān)閉新的物理服務(wù)器。
Schulz補(bǔ)充說(shuō),電源管理工具正在開(kāi)發(fā)與管理設(shè)備和工作負(fù)載的系統(tǒng)的連接。例如,如果傳感器檢測(cè)到服務(wù)器運(yùn)行溫度過(guò)高,則人工智能系統(tǒng)可能會(huì)快速自動(dòng)將工作負(fù)載轉(zhuǎn)移到未充分利用的服務(wù)器上,以避免可能影響關(guān)鍵任務(wù)應(yīng)用程序的潛在中斷。然后,人工智能系統(tǒng)可以調(diào)查服務(wù)器過(guò)熱的原因,可能是風(fēng)扇故障(HVAC問(wèn)題)、物理組件即將崩潰(設(shè)備問(wèn)題),或者服務(wù)器剛剛過(guò)載(工作負(fù)載問(wèn)題)。
人工智能驅(qū)動(dòng)的健康監(jiān)控、配置管理監(jiān)督
數(shù)據(jù)中心有很多需要定期維護(hù)的物理設(shè)備。人工智能系統(tǒng)可以幫助數(shù)據(jù)中心的定期維護(hù),并收集和分析遙測(cè)數(shù)據(jù),從而確定需要立即關(guān)注的特定區(qū)域。Schulz說(shuō),“人工智能工具可以探查所有這些數(shù)據(jù)和異常點(diǎn)。監(jiān)視數(shù)據(jù)中心運(yùn)行狀況始于檢查設(shè)備配置是否正確以及是否達(dá)到預(yù)期效果。由于大型數(shù)據(jù)中心可以有上千個(gè)IT機(jī)柜和數(shù)萬(wàn)個(gè)組件,這些工作是勞動(dòng)密集型的,因此并不總是能夠及時(shí)徹底地執(zhí)行。”
他指出,基于大量傳感數(shù)據(jù)日志的預(yù)測(cè)性設(shè)備故障建模可以發(fā)現(xiàn)即將出現(xiàn)的組件或設(shè)備故障,并評(píng)估其是否需要立即維護(hù),以避免任何可能導(dǎo)致服務(wù)中斷的容量損失。
瞻博網(wǎng)絡(luò)公司企業(yè)和云計(jì)算營(yíng)銷副總裁Michael Bushong認(rèn)為,企業(yè)數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)忽略一些與人工智能相關(guān)的過(guò)度宣傳和炒作。
Bushong說(shuō),“也許有一天,人工智能系統(tǒng)可能會(huì)告訴工作人員哪里出現(xiàn)問(wèn)題并加以解決。”
依賴關(guān)系映射在人工智能可能有用的領(lǐng)域中也很重要。如果數(shù)據(jù)中心管理人員正在對(duì)防火墻或其他設(shè)備進(jìn)行策略更改,那么意外的后果是什么?Bushong說(shuō):“如果我提議進(jìn)行更改,可能存在的變化非常有用。”
保持設(shè)備平穩(wěn)安全運(yùn)行的另一個(gè)重要方面是控制所謂的配置漂移,這是一個(gè)數(shù)據(jù)中心術(shù)語(yǔ),指的是臨時(shí)配置的變化隨著時(shí)間推移會(huì)導(dǎo)致產(chǎn)生問(wèn)題。Bushong說(shuō),人工智能可以作為額外的安全檢查,識(shí)別即將發(fā)生的基于配置的數(shù)據(jù)中心問(wèn)題。
人工智能與安全
Bizo認(rèn)為,人工智能和機(jī)器學(xué)習(xí)可以通過(guò)對(duì)事件進(jìn)行快速分類和聚類來(lái)簡(jiǎn)化事件處理(事件響應(yīng)),從而識(shí)別出重要事件并將其分離開(kāi)來(lái)。更快的根本原因分析有助于運(yùn)營(yíng)人員做出明智的決定并采取行動(dòng)。
Schulz補(bǔ)充說(shuō),人工智能在實(shí)時(shí)入侵檢測(cè)中特別有用?;谌斯ぶ悄艿南到y(tǒng)可以檢測(cè)、阻止和隔離威脅,然后可以進(jìn)行法醫(yī)調(diào)查,以確定到底發(fā)生了什么問(wèn)題。
在安全操作中心(SOC)工作的安全專業(yè)人員經(jīng)常會(huì)收到過(guò)多的警報(bào),但基于人工智能的系統(tǒng)可以掃描大量的遙測(cè)數(shù)據(jù)和日志信息,從而清除日常任務(wù),從而使安全專家能夠騰出時(shí)間來(lái)處理更深層次的調(diào)查。
基于人工智能的工作負(fù)載優(yōu)化
在應(yīng)用程序?qū)?,無(wú)論是在內(nèi)部部署還是在云平臺(tái)中,人工智能都有可能自動(dòng)將工作負(fù)載移動(dòng)到適當(dāng)?shù)闹扅c(diǎn)。Bizo說(shuō):“人工智能和機(jī)器學(xué)習(xí)將來(lái)應(yīng)該根據(jù)有關(guān)性能、成本、治理、安全性、風(fēng)險(xiǎn)和可持續(xù)性的眾多規(guī)范,對(duì)將工作負(fù)載放置在何處做出實(shí)時(shí)決策。”
例如,可以將工作負(fù)載自動(dòng)轉(zhuǎn)移到節(jié)能的服務(wù)器上,同時(shí)確保服務(wù)器以最高效率(利用率為70%~80%)運(yùn)行。人工智能系統(tǒng)可以將性能數(shù)據(jù)整合到其中,因此對(duì)時(shí)間敏感的應(yīng)用程序可以在高效的服務(wù)器上運(yùn)行,同時(shí)確保不需要快速執(zhí)行的應(yīng)用程序不會(huì)消耗過(guò)多的能量。
基于人工智能的工作負(fù)載優(yōu)化引起了麻省理工學(xué)院研究人員的注意,他們?nèi)ツ晷奸_(kāi)發(fā)了一個(gè)人工智能系統(tǒng),可以自動(dòng)學(xué)習(xí)如何在數(shù)千臺(tái)服務(wù)器上調(diào)度數(shù)據(jù)處理操作。
但是,正如Bushong指出的那樣,現(xiàn)實(shí)情況是,當(dāng)今的工作負(fù)載優(yōu)化是像Amazon、谷歌和Azure這樣的超大規(guī)模企業(yè)的重中之重,而不是企業(yè)數(shù)據(jù)中心。這有很多原因。
實(shí)施人工智能的挑戰(zhàn)
優(yōu)化和自動(dòng)化數(shù)據(jù)中心是正在進(jìn)行的數(shù)字化轉(zhuǎn)型計(jì)劃不可或缺的一部分。戴爾公司的Tabet補(bǔ)充說(shuō):“由于發(fā)生疫情,許多組織正在尋求進(jìn)一步的自動(dòng)化,推動(dòng)人工智能驅(qū)動(dòng)并能夠自我修復(fù)的‘數(shù)字?jǐn)?shù)據(jù)中心’的構(gòu)想。”
谷歌公司在2018年宣布,已將其幾個(gè)超大規(guī)模數(shù)據(jù)中心的冷卻系統(tǒng)控制權(quán)轉(zhuǎn)為人工智能程序,該公司報(bào)告稱,人工智能算法提供的建議使能源使用量減少了40%。
但是對(duì)于很多企業(yè)來(lái)說(shuō),在數(shù)據(jù)中心中采用人工智能技術(shù)非常有抱負(fù)。Bizo說(shuō),“一些人工智能和機(jī)器學(xué)習(xí)功能可用于事件處理、基礎(chǔ)設(shè)施運(yùn)行狀況和冷卻優(yōu)化。但是,要想實(shí)現(xiàn)人工智能和機(jī)器學(xué)習(xí)模型超越當(dāng)今標(biāo)準(zhǔn)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)所能實(shí)現(xiàn)的更多突破,這需要多年的時(shí)間。”
Tabet說(shuō),“一些障礙是需要雇用或培訓(xùn)合適的工作人員來(lái)管理系統(tǒng)。另一個(gè)需要注意的問(wèn)題是數(shù)據(jù)標(biāo)準(zhǔn)和相關(guān)架構(gòu)的需要。AIOps平臺(tái)的成熟度、IT技能和運(yùn)營(yíng)成熟度是主要障礙。高級(jí)部署面臨的其他新挑戰(zhàn)包括數(shù)據(jù)質(zhì)量以及IT基礎(chǔ)設(shè)施和運(yùn)營(yíng)團(tuán)隊(duì)中缺乏數(shù)據(jù)科學(xué)技能”。
Bushong補(bǔ)充說(shuō),最大的障礙始終是工作人員。他指出,聘用數(shù)據(jù)科學(xué)家對(duì)許多企業(yè)來(lái)說(shuō)都是一個(gè)挑戰(zhàn),而培訓(xùn)現(xiàn)有員工也是一個(gè)難題。長(zhǎng)期以來(lái),很多員工一直在抵制讓他們無(wú)法掌控的技術(shù)。他指出,軟件定義網(wǎng)絡(luò)(SDN)技術(shù)已經(jīng)存在10年的時(shí)間,但是超過(guò)75%的IT運(yùn)營(yíng)仍然是命令行界面(CLI)驅(qū)動(dòng)的。
Bushong說(shuō):““很多人相信,各種基礎(chǔ)設(shè)施的運(yùn)營(yíng)商都準(zhǔn)備將控制權(quán)交給人工智能。”
而這就是Bushong建議企業(yè)應(yīng)該向著人工智能方向邁進(jìn)的原因。