云平臺(tái)、托管服務(wù)提供商和進(jìn)行數(shù)字化轉(zhuǎn)型的企業(yè)得益于一種新興的IT趨勢(shì):使用支持人工智能的IT運(yùn)維技術(shù)來(lái)自動(dòng)監(jiān)控和管理IT業(yè)務(wù)。
這種新出現(xiàn)的技術(shù)趨勢(shì)被稱為AIOps,它幫助企業(yè)提前解決潛在的停機(jī)和性能問(wèn)題,避免對(duì)運(yùn)維、客戶和收益產(chǎn)生負(fù)面影響。而更先進(jìn)的項(xiàng)目開(kāi)始使用人工智能系統(tǒng),不僅是為了發(fā)現(xiàn)問(wèn)題,或在問(wèn)題發(fā)生之前預(yù)測(cè)問(wèn)題,更是為了通過(guò)智能、自動(dòng)化的緩解措施及時(shí)對(duì)事件做出反應(yīng)。
那么,AIOps到底是什么,企業(yè)現(xiàn)在是怎樣使用它的呢?本文中,我們將深入了解人工智能IT運(yùn)維的技術(shù)、策略和挑戰(zhàn)。
什么是AIOps?
AIOps是一種新興的IT技術(shù)趨勢(shì),它將人工智能應(yīng)用到IT運(yùn)維中,幫助企業(yè)智能地管理基礎(chǔ)設(shè)施、網(wǎng)絡(luò)和應(yīng)用程序,以提高性能、彈性、容量、正常運(yùn)行時(shí)間,以及在某些情況下的安全性。通過(guò)將傳統(tǒng)的、基于閾值的報(bào)警和手動(dòng)過(guò)程轉(zhuǎn)移到人工智能和機(jī)器學(xué)習(xí)系統(tǒng)中,企業(yè)利用AIOps能夠更好地監(jiān)控IT資產(chǎn),對(duì)負(fù)面事件和影響進(jìn)行事前預(yù)測(cè)。
Carhartt公司首席信息官John Hill在這家工裝制造商的三個(gè)主要業(yè)務(wù)領(lǐng)域中使用了AIOps:服務(wù)管理、性能管理和IT自動(dòng)化。多虧了智能監(jiān)控,Carhartt現(xiàn)在能夠在問(wèn)題影響用戶和客戶之前發(fā)現(xiàn)問(wèn)題。
他說(shuō):“這是一個(gè)監(jiān)控環(huán)境、掌握動(dòng)態(tài)并根據(jù)事件指標(biāo)來(lái)采取行動(dòng)的全過(guò)程。以前,你可能會(huì)通過(guò)停機(jī)或者某些地方不工作的跡象來(lái)知道什么時(shí)候需要進(jìn)行修理——而在你發(fā)現(xiàn)這些跡象之前,所發(fā)生的事件早已損害了客戶體驗(yàn)。”
AIOps應(yīng)用情形
AIOps可能已經(jīng)應(yīng)用在了企業(yè)的IT業(yè)務(wù)中了,你自己甚至都不知道。先進(jìn)的CRM和ERP系統(tǒng)通常內(nèi)置了智能管理功能。大部分主要的云平臺(tái)也利用了支持機(jī)器學(xué)習(xí)的監(jiān)控和管理工具。
但是,在單點(diǎn)解決方案中依賴內(nèi)置功能有其缺點(diǎn)。在一項(xiàng)AIOps交流調(diào)查中,65%的IT企業(yè)表示,他們?nèi)匀灰蕾囉谀撤N監(jiān)控方法(未必具備智能功能),這些方法要么是孤立的、基于規(guī)則的,要么不能滿足整個(gè)IT環(huán)境的需求。此外,根據(jù)最近的一項(xiàng)BigPanda調(diào)查,42%的IT企業(yè)在其IT環(huán)境中使用了10多種不同的監(jiān)控工具。
Carhartt開(kāi)始時(shí)就是這樣使用AIOps的。Hill說(shuō):“以前,對(duì)于不同的環(huán)境,我們必須分別進(jìn)行監(jiān)控。”為了解決這種復(fù)雜性,Hill選擇將監(jiān)控功能結(jié)合到兩個(gè)平臺(tái)上,首先在AppDynamics上監(jiān)控應(yīng)用程序性能,然后添加Turbonomic來(lái)監(jiān)視Carhartt的基礎(chǔ)設(shè)施。
“黑色星期五”和“網(wǎng)絡(luò)星期一”購(gòu)物高峰期間,該公司網(wǎng)站的性能問(wèn)題迫使公司不得不做出改變。Hill說(shuō),當(dāng)公司看到問(wèn)題時(shí),客戶早就感覺(jué)到服務(wù)質(zhì)量下降了。
自Carhartt在2017年秋季部署AppDynamics以來(lái),黑色星期五和網(wǎng)絡(luò)星期一的高峰期間沒(méi)有出現(xiàn)停機(jī)問(wèn)題。
他說(shuō):“我們的增長(zhǎng)創(chuàng)下了記錄。我們的增長(zhǎng)速度是整個(gè)行業(yè)的兩倍,沒(méi)有出現(xiàn)我們以前經(jīng)歷過(guò)的任何停機(jī)和性能下降問(wèn)題。”
Carhartt在2019年初增加了Turbomency,用于本地和云環(huán)境的資源管理。他說(shuō),“有了新系統(tǒng)后,利用率從70%提高到了92%。這能為我們節(jié)省25%的基礎(chǔ)設(shè)施成本。”
其會(huì)自動(dòng)處理增加的利用率需求,無(wú)需人工干預(yù),但減少容量仍然需要人工批準(zhǔn)。
Hill說(shuō):“新系統(tǒng)能夠發(fā)現(xiàn)我們面臨的容量問(wèn)題,并將更改請(qǐng)求發(fā)送給ServiceNow。當(dāng)我們的容量過(guò)大時(shí),它會(huì)在ServiceNow中創(chuàng)建一個(gè)條目,有人會(huì)第一時(shí)間注意到它。這種查看非??焖?mdash;—點(diǎn)一下就可以了。目前,我不需要將其進(jìn)行自動(dòng)化。”
公司的下一步是自動(dòng)化業(yè)務(wù)任務(wù),例如使用文本識(shí)別和自然語(yǔ)言處理功能來(lái)處理客戶訂單。
AIOps應(yīng)用
據(jù)Gartner的數(shù)據(jù),到2023年,40%的企業(yè)將使用AIOps來(lái)監(jiān)控應(yīng)用程序和基礎(chǔ)設(shè)施。但市場(chǎng)普遍認(rèn)為,AIOps的應(yīng)用仍處于早期階段。據(jù)Loom系統(tǒng)公司在2019年贊助的一項(xiàng)調(diào)查,到目前為止,只有5%的企業(yè)實(shí)施了AIOps。波士頓咨詢集團(tuán)(Boston Consulting Group)總經(jīng)理兼合伙人Akash Bhatia指出,影響應(yīng)用的原因之一是,市場(chǎng)上的供應(yīng)商太多了。“的確太多了。”
據(jù)Loom系統(tǒng)公司的報(bào)告,有59%的企業(yè)還處于試驗(yàn)研究階段,客戶仍然很難確定他們到底能提供什么。Bhatia說(shuō),另外,很多供應(yīng)商只擅長(zhǎng)于部分AIOps,例如,應(yīng)用程序性能監(jiān)視、基礎(chǔ)設(shè)施管理以及網(wǎng)絡(luò)性能監(jiān)視和診斷等。他補(bǔ)充說(shuō),隨著技術(shù)的成熟,市場(chǎng)出現(xiàn)了整合跡象。
IDC預(yù)測(cè),其稱之為IT運(yùn)維分析的AIOps市場(chǎng)將從2018年的29億美元增長(zhǎng)到2023年的45億美元,其中大部分增長(zhǎng)來(lái)自“AIOps即服務(wù)”。IDC的AIOps分析師兼項(xiàng)目副總裁Stephen Elliot認(rèn)為,雖然AIOps通常與企業(yè)軟件平臺(tái)或者云服務(wù)捆綁在一起,但大企業(yè)已經(jīng)開(kāi)始將AIOps作為獨(dú)立的預(yù)算項(xiàng)目進(jìn)行投資。
他說(shuō):“他們認(rèn)識(shí)到自己身處多云的環(huán)境中。而且他們正在進(jìn)行敏捷轉(zhuǎn)型,他們有DevOps部門(mén),他們意識(shí)到自己必須加快步伐,以后會(huì)越來(lái)越復(fù)雜。”
AIOps價(jià)值定位
利用AIOps的企業(yè)認(rèn)識(shí)到了從執(zhí)行分析和預(yù)測(cè)的系統(tǒng)轉(zhuǎn)向自行決策系統(tǒng)的重要性。他們要實(shí)施進(jìn)入自動(dòng)化。
Elliot說(shuō):“他們需要能夠收集大量信息、應(yīng)用分析、減少噪聲、加快問(wèn)題發(fā)現(xiàn)和解決速度的工具。”
自動(dòng)化還要求進(jìn)一步增強(qiáng)AIOps集成。應(yīng)用程序性能問(wèn)題可能是由軟件問(wèn)題、網(wǎng)絡(luò)問(wèn)題或者硬件問(wèn)題引起的。在多云環(huán)境中,根本原因有可能在某個(gè)云中,也可能在另一個(gè)云中,或者是多種因素組合的結(jié)果。如果企業(yè)的AIOps基礎(chǔ)設(shè)施是分散的,那么會(huì)很難找到問(wèn)題的根本原因并解決問(wèn)題。
AIOps供應(yīng)商ScienceLogic的首席執(zhí)行官David Link表示:“然后就回到了手工操作,每個(gè)部門(mén)都有自己的工具。如果每一應(yīng)用項(xiàng)目都有自己獨(dú)立的工具,這種方式是不能擴(kuò)展到整個(gè)企業(yè)中的。”
與此同時(shí),像Carhartt這樣已經(jīng)部署了AIOps的企業(yè)會(huì)發(fā)現(xiàn)他們的投資得到了回報(bào)。據(jù)企業(yè)管理協(xié)會(huì)的一項(xiàng)調(diào)查,81%使用AIOps的企業(yè)報(bào)告實(shí)現(xiàn)了投資回報(bào)。事實(shí)上,42%的受訪者認(rèn)為AIOps的價(jià)值“顯著”超過(guò)了成本。
據(jù)EMA,AIOps最常見(jiàn)的六種應(yīng)用情形是跨域應(yīng)用程序基礎(chǔ)架構(gòu)和性能、容量管理和基礎(chǔ)架構(gòu)優(yōu)化、DevOps和敏捷、客戶/最終用戶體驗(yàn)管理和業(yè)務(wù)調(diào)整、成本管理和變更管理。
能夠創(chuàng)收的AIOps
Cincinatti Bell的CBTS子公司為企業(yè)客戶提供通信服務(wù)。該公司首席創(chuàng)新官Joe Putnick介紹說(shuō),CBTS過(guò)去代表著“Cincinnati Bell技術(shù)解決方案”,但隨著企業(yè)拓展到其他地區(qū),現(xiàn)在代表了“咨詢建設(shè)轉(zhuǎn)型支持”。
他說(shuō),轉(zhuǎn)到AIOps對(duì)幫助縮短反應(yīng)時(shí)間非常重要,現(xiàn)在已經(jīng)成為新的商機(jī)來(lái)源。Putnick說(shuō),例如,在企業(yè)轉(zhuǎn)向AIOps之前,需要數(shù)小時(shí)、數(shù)天的時(shí)間才能將客戶設(shè)備納入到CBTS監(jiān)控、管理和計(jì)費(fèi)系統(tǒng)中,甚至無(wú)法納入其中。
Putnick說(shuō):“現(xiàn)在,我已經(jīng)把配置時(shí)間從5小時(shí)縮短到了2分鐘。所謂配置,我指的是整個(gè)IT服務(wù)管理和事件管理系統(tǒng)的全面配置。我知道這些統(tǒng)計(jì)數(shù)字很有說(shuō)服力。”
該公司還使用AIOps來(lái)分析使用模式和自動(dòng)響應(yīng)。他說(shuō):“我們正在應(yīng)用AIOps來(lái)預(yù)測(cè)哪里有容量需求,這樣,我們能夠保持最長(zhǎng)的正常運(yùn)行時(shí)間,盡可能讓客戶滿意。”
Putnick說(shuō),AIOps幫助CBTS從每月安裝不到40個(gè)站點(diǎn)增長(zhǎng)到每月平均安裝500多個(gè)站點(diǎn),而人數(shù)幾乎相同。
CBTS同時(shí)使用了AWS內(nèi)置的系列工具、ServiceNow自帶的自定義編碼應(yīng)用程序、定制機(jī)器學(xué)習(xí)和自適應(yīng)算法以及ScienceLogic的AIOps工具。下一步:為客戶提供增值服務(wù)。例如,CBTS為客戶提供了客戶服務(wù)聊天機(jī)器人,可以利用其AIOps系統(tǒng)產(chǎn)生的數(shù)據(jù)、分析和預(yù)測(cè)結(jié)果,使其變得更加智能,響應(yīng)能力更強(qiáng)。
AIOps和托管服務(wù)提供商
如果想要了解AIOps的全部潛力,沒(méi)有比托管服務(wù)提供商(Managed Services Provider,MSP)行業(yè)更能說(shuō)明問(wèn)題了。
數(shù)字服務(wù)咨詢公司Nerdery的數(shù)據(jù)科學(xué)主管Justin Richie說(shuō):“這可能是目前市場(chǎng)上最大的一塊。他們肯定在盡可能地投資于算法支持。他們知道,除了硬件,最大的支出是人力資本。”
對(duì)于MSP來(lái)說(shuō),AIOps意味著效率更高、成本更低、解決時(shí)間更短——所有這些都是該領(lǐng)域重要的競(jìng)爭(zhēng)優(yōu)勢(shì)。
總部位于圣何塞的MSP NetEnrich公司的戰(zhàn)略與運(yùn)維高級(jí)副總裁Raghu Kamath說(shuō):“這是我們AIOps價(jià)值定位的一半。過(guò)去12個(gè)月中,我們先是在少數(shù)客戶中實(shí)施,然后逐步擴(kuò)展到我們的客戶群里?,F(xiàn)在,50%以上的客戶都在AIOps平臺(tái)上。”
NetEnrich最明顯和最直接的一個(gè)好處是減少了誤報(bào)。錯(cuò)誤警報(bào)會(huì)給員工帶來(lái)不必要的工作,而且減慢了客戶的響應(yīng)時(shí)間。
Kamath說(shuō):“我們發(fā)現(xiàn)和采取行動(dòng)的響應(yīng)時(shí)間加快了——實(shí)施AIOps后,我們的平均修復(fù)時(shí)間至少縮短了30%。而且隨著AIOps變得更加成熟,并且引入了更多的推理模型,其應(yīng)用會(huì)越來(lái)越廣。”
NetEnrich公司在很多不同的客戶環(huán)境中使用AIOps,因此,Kamath對(duì)這項(xiàng)技術(shù)有著獨(dú)到的見(jiàn)解。首先,他發(fā)現(xiàn)環(huán)境越同質(zhì),AIOps部署起來(lái)就越容易。
他介紹說(shuō):“當(dāng)你開(kāi)始整合所有這些不同的環(huán)境時(shí),情況會(huì)復(fù)雜得多。”
此外,使用公有云基礎(chǔ)設(shè)施的客戶也有優(yōu)勢(shì),因?yàn)槠洵h(huán)境的一致性更好。不過(guò),讓云供應(yīng)商開(kāi)放他們的系統(tǒng)有時(shí)候也會(huì)遇到一些障礙。
他說(shuō):“但是,公有云供應(yīng)商正在改變他們的定位。如果看看兩年前到現(xiàn)在能夠訪問(wèn)的數(shù)據(jù)量,這已經(jīng)好多了。”
Kamath說(shuō),在傳統(tǒng)應(yīng)用程序和硬件上應(yīng)用AIOps是一件棘手的事情。如果沒(méi)有足夠的日志,就很難推斷出任何東西。這就是為什么我們鼓勵(lì)客戶加速他們的數(shù)字化轉(zhuǎn)型,并使其應(yīng)用程序現(xiàn)代化的原因。”
作者:Maria Korolov過(guò)去20年一直涉足新興技術(shù)和新興市場(chǎng)。
編譯:Charles
原文網(wǎng)址:https://www.cio.com/article/3529772/what-is-aiops-injecting-intelligence-into-it-operations.html