試圖更好地監(jiān)控IT資產(chǎn)的組織正在轉(zhuǎn)向人工智能,以便在性能問題出現(xiàn)之前解決掉,并在感受到負(fù)面影響之前自動(dòng)將其修復(fù)。
云平臺、托管服務(wù)提供商和進(jìn)行數(shù)字化轉(zhuǎn)型的組織正開始從一種新興的IT趨勢中獲益:使用人工智能驅(qū)動(dòng)的IT運(yùn)營技術(shù)來自動(dòng)監(jiān)控和管理其IT產(chǎn)品組合。
這種新出現(xiàn)的實(shí)踐稱為AIOps,它能夠幫助企業(yè)在潛在的停機(jī)和性能問題對運(yùn)營、客戶和利潤產(chǎn)生負(fù)面影響之前加以防范。但更先進(jìn)的部署已經(jīng)開始使用人工智能系統(tǒng)了,不僅能識別問題,或在問題發(fā)生之前預(yù)測問題,還能夠以智能、自動(dòng)化的緩解措施對事件做出反應(yīng)。
但是AIOps到底是什么,現(xiàn)在的組織又是如何使用它的呢?在這里,我們將深入了解人工智能輔助IT運(yùn)營的技術(shù)、策略和挑戰(zhàn)。
什么是AIOps?
AIOps是一種新興的IT實(shí)踐,它能夠?qū)⑷斯ぶ悄軕?yīng)用于IT運(yùn)營,幫助組織智能地管理基礎(chǔ)設(shè)施、網(wǎng)絡(luò)和應(yīng)用程序,以獲得相應(yīng)的性能、彈性、容量、正常運(yùn)行時(shí)間,在某些情況下,還包括安全性。通過將傳統(tǒng)的、基于閾值的警報(bào)和手動(dòng)流程轉(zhuǎn)型為利用人工智能和機(jī)器學(xué)習(xí)的系統(tǒng),AIOps使組織能夠更好地監(jiān)控IT資產(chǎn),并在負(fù)面事件和影響發(fā)生之前進(jìn)行預(yù)測。
Carhartt的CIO John Hill在三個(gè)主要的領(lǐng)域利用了這家工作服裝零售商的AIOps:包括服務(wù)管理、績效管理和IT自動(dòng)化。多虧了智能監(jiān)控,Carthartt現(xiàn)在可以在問題影響用戶或客戶之前發(fā)現(xiàn)問題了。
“這是一個(gè)自動(dòng)進(jìn)行監(jiān)測的環(huán)境,幫助你了解發(fā)生了什么,然后可以根據(jù)這些指標(biāo)采取行動(dòng),”他說。“以前,你會依賴于停機(jī)或某些東西不工作的指示”來了解何時(shí)需要進(jìn)行修復(fù)--但是在你知道這些事件之前,它們可能已經(jīng)降低了客戶體驗(yàn)。
AIOps的用例
AIOps可能已經(jīng)在你的IT投資組合中工作了,而你甚至都不知道它。先進(jìn)的CRM或ERP系統(tǒng)通常就已經(jīng)內(nèi)置了智能管理。大多數(shù)主要的云平臺也使用了機(jī)器學(xué)習(xí)--即監(jiān)視和管理工具。
但是依賴于單點(diǎn)解決方案中的內(nèi)置功能依然有其缺點(diǎn)。在一項(xiàng)AIOps的交流調(diào)查中,65%的IT組織表示,他們?nèi)匀灰蕾囉诒O(jiān)控的方法(無論是否智能),這些方法要么是孤立的、基于規(guī)則的,要么就是無法滿足整個(gè)IT環(huán)境的需求。此外,根據(jù)最近BigPanda的調(diào)查,42%的IT組織對其IT環(huán)境使用了超過10種不同的監(jiān)視工具。
Carhartt就是這樣開始AIOps的。“在以前,對于不同的環(huán)境,我們必須獨(dú)立地監(jiān)控它們,”Hill說。為了管理這種復(fù)雜性,Hill選擇將監(jiān)控結(jié)合到了兩個(gè)平臺上,首先是在AppDynamics上進(jìn)行應(yīng)用程序性能監(jiān)控,然后又添加了Turbonomic來監(jiān)視Carhartt的基礎(chǔ)設(shè)施。
在“黑色星期五”和“網(wǎng)購星期一”期間,該公司網(wǎng)站的性能問題迫使公司不得不做出改變。但當(dāng)公司發(fā)現(xiàn)問題時(shí),客戶已經(jīng)感覺到服務(wù)質(zhì)量有所下降了,Hill說。
自從Carhartt在2017年秋天部署了AppDynamics以來,在黑色星期五和網(wǎng)絡(luò)星期一的峰值期間就再也沒有出現(xiàn)過宕機(jī)。
“我們實(shí)現(xiàn)了創(chuàng)紀(jì)錄的增長,”他表示。“我們的增長速度是整個(gè)行業(yè)的兩倍,再也沒有出現(xiàn)我們之前經(jīng)歷過的任何中斷或性能下降。”
Carhartt在2019年初增加了Turbomency,用于本地和云環(huán)境的資源管理。有了新系統(tǒng),利用率從70%提高到了92%,他說。“這可能為我們節(jié)省了25%的基礎(chǔ)設(shè)施成本。”
增加的利用率需求是自動(dòng)處理的,不需要人工干預(yù),而容量的減少仍然需要人工批準(zhǔn)。
“當(dāng)它發(fā)現(xiàn)我們面臨著產(chǎn)能挑戰(zhàn),就會向ServiceNow提出更改請求,”Hill說。“而當(dāng)我們的容量太大時(shí),它也會在ServiceNow中創(chuàng)建一個(gè)票證,有人會先查看它。這只是一個(gè)快速的回顧——只需點(diǎn)擊一下。這在目前還不需要自動(dòng)化。”
公司的下一步是自動(dòng)化業(yè)務(wù)任務(wù),例如使用文本識別和自然語言處理來處理客戶訂單。
AIOps的采用
根據(jù)Gartner的數(shù)據(jù),到2023年,40%的公司將使用AIOps對應(yīng)用程序和基礎(chǔ)設(shè)施進(jìn)行監(jiān)控。但無論如何,AIOps的采用仍處于初級階段。波士頓咨詢集團(tuán)的董事總經(jīng)理兼合伙人Akash Bhatia表示,根據(jù)Loom Systems在2019年發(fā)起的一項(xiàng)調(diào)查,到目前為止,只有5%的公司實(shí)施了AIOps。其中有一件事?lián)p害了AIOps的采用,那就是市場上有太多的供應(yīng)商。“實(shí)在是太多了。”
根據(jù)Loom Systems的報(bào)告,有59%的公司還處于探索階段,客戶仍然很難確定他們到底提供了什么。此外,Bhatia也說,許多供應(yīng)商只是提供了AIOps的一個(gè)部分,如應(yīng)用程序性能監(jiān)視、基礎(chǔ)設(shè)施管理或網(wǎng)絡(luò)性能監(jiān)視和診斷。但他補(bǔ)充說,隨著技術(shù)的成熟,市場已經(jīng)出現(xiàn)了整合跡象。
國際數(shù)據(jù)公司(IDC)預(yù)測,被稱為運(yùn)營分析的AIOps市場將從2018年的29億美元增長到2023年的45億美元,其中大部分增長來自于作為服務(wù)的AIOps。IDC分析師、AIOps項(xiàng)目副總裁Stephen Elliot表示,盡管AIOps常常與企業(yè)軟件平臺或云服務(wù)捆綁在一起,但大型企業(yè)正開始將AIOps作為一個(gè)獨(dú)立的預(yù)算項(xiàng)目來進(jìn)行投資。
“他們意識到自己身處于一個(gè)多云的世界,”他說。“他們正在進(jìn)行敏捷轉(zhuǎn)型,他們有DevOps團(tuán)隊(duì),他們意識到了他們必須加快步伐,復(fù)雜性正在增加。”
AIOps的價(jià)值主張
利用AIOps的公司已經(jīng)開始認(rèn)識到,從執(zhí)行分析和預(yù)測的系統(tǒng)轉(zhuǎn)向自行決策的系統(tǒng)的重要性。是時(shí)候開始自動(dòng)化了。
“他們需要能夠收集大量信息、應(yīng)用分析、降低噪音、更快地進(jìn)行識別和解決問題的工具,”Elliot說。
自動(dòng)化還需要更好的AIOps集成。應(yīng)用程序的性能問題可能是由軟件問題、網(wǎng)絡(luò)問題或硬件問題造成的。在一個(gè)多云環(huán)境中,根本原因可能是在一個(gè)云中,也可能是在另一個(gè)云中,或者是多種因素組合的結(jié)果。如果你的AIOps基礎(chǔ)結(jié)構(gòu)是碎片化的,那么查找和修復(fù)問題的根源也可能是一個(gè)挑戰(zhàn)。
“然后你就又回到了白刃戰(zhàn),每個(gè)團(tuán)隊(duì)都將有自己的工具,”AIOps供應(yīng)商ScienceLogic的首席執(zhí)行官David Link表示。“如果你對每一個(gè)應(yīng)用項(xiàng)目都有一個(gè)獨(dú)特的工具,你就不能以那種方式擴(kuò)展企業(yè)。”
與此同時(shí),像Carhartt這樣已經(jīng)部署了AIOps的公司也發(fā)現(xiàn)他們的投資正在獲得回報(bào)。根據(jù)企業(yè)管理協(xié)會的一項(xiàng)調(diào)查,81%使用AIOps的企業(yè)報(bào)告了積極的投資回報(bào)。事實(shí)上,42%的人說AIOps的價(jià)值“大大”超過了成本。
根據(jù)EMA的說法, AIOps最常見的六個(gè)用例是跨域應(yīng)用基礎(chǔ)設(shè)施和性能、容量管理和基礎(chǔ)設(shè)施優(yōu)化、DevOps和敏捷、客戶和終端用戶體驗(yàn)管理和業(yè)務(wù)一致性、成本管理和變更管理。
作為收入來源的AIOps
Cincinatti Bell的CBTS子公司正在為企業(yè)客戶提供通信服務(wù)。CBTS過去代表著“Cincinnati Bell技術(shù)解決方案”,但隨著公司擴(kuò)展到其他地區(qū),它現(xiàn)在已經(jīng)代表了“咨詢構(gòu)建轉(zhuǎn)型支持”,公司的首席創(chuàng)新官Joe Putnick說。
他表示,加入AIOps對于幫助改善反應(yīng)時(shí)間是至關(guān)重要的,現(xiàn)在它已經(jīng)成為了新的商機(jī)來源。例如,Putnick說,在公司轉(zhuǎn)向AIOps之前,將客戶設(shè)備安裝到CBTS監(jiān)控、管理和計(jì)費(fèi)系統(tǒng)可能需要花費(fèi)數(shù)小時(shí)、數(shù)天甚至是“無窮無盡”的時(shí)間。
“現(xiàn)在我把供應(yīng)時(shí)間從5小時(shí)減少到了2分鐘,”Putnick說。“當(dāng)我說配置時(shí),我指的是整個(gè)IT服務(wù)管理和事件管理系統(tǒng)的全面配置。我知道這些數(shù)據(jù)會很有說服力。”
該公司還使用了AIOps來分析使用模式和自動(dòng)化響應(yīng)。“我們正在應(yīng)用AIOps來預(yù)測哪里需要產(chǎn)能,以便我們能夠保持最大的正常運(yùn)行時(shí)間和最大的客戶滿意度,”他表示。
Putnick說,AIOps幫助CBTS從每月不到40個(gè)站點(diǎn)發(fā)展到了每月超過500個(gè)站點(diǎn),而每個(gè)站點(diǎn)的用戶數(shù)量幾乎相同。
CBTS使用了AWS內(nèi)置的工具、ServiceNow內(nèi)部的自定義編碼應(yīng)用程序、自定義機(jī)器學(xué)習(xí)和自適應(yīng)算法以及ScienceLogic的AIOps工具的組合。而下一步:則是為客戶提供增值服務(wù)。例如,CBTS為其客戶提供的客戶服務(wù)聊天機(jī)器人可以通過其AIOps系統(tǒng)提供的數(shù)據(jù)、分析和預(yù)測,使其變得更智能、響應(yīng)更快。
AIOps和托管服務(wù)提供商
但要看到AIOps的全部潛力,你不應(yīng)該只關(guān)注于托管服務(wù)提供商 (MSP) 行業(yè)。
“這可能是目前市場上最大的一塊,”數(shù)字服務(wù)咨詢公司Nerdery的數(shù)據(jù)科學(xué)主管Justin Richie表示。“他們肯定是在盡可能地投資算法支持。他們知道,在硬件之外,他們最大的開支是人力資本。”
對于MSP們來說,AIOps意味著更高的效率、更低的成本和更快的解決時(shí)間——這些都是該領(lǐng)域的重要競爭優(yōu)勢。
“這只是我們?yōu)锳IOps提出的價(jià)值主張的一半,”總部位于圣何塞的MSP NetEnrich負(fù)責(zé)戰(zhàn)略與運(yùn)營的高級副總裁Raghu Kamath表示。“我們開始在一些客戶中實(shí)施它,然后在過去的12個(gè)月里逐漸擴(kuò)展到了我們的整個(gè)客戶群。現(xiàn)在,我們有超過50%的客戶都在使用AIOps平臺。”
對于NetEnrich來說,最明顯和最直接的好處之一是減少了噪音。假警報(bào)給員工帶來了不必要的工作,也降低了客戶的響應(yīng)時(shí)間。
“最終,我們檢測和采取行動(dòng)的響應(yīng)時(shí)間增加了——在實(shí)施AIOps之后,我們的平均修復(fù)時(shí)間至少縮短了30%,”Kamath說。“隨著AIOps變得更加成熟,并引入了更多的推理模型,它還將繼續(xù)增長。”
因?yàn)镹etEnrich在許多不同的客戶環(huán)境中都使用了AIOps,所以Kamath對這項(xiàng)技術(shù)有自己獨(dú)特的看法。首先,他發(fā)現(xiàn)環(huán)境越同質(zhì)化,就越容易部署AIOps。
“當(dāng)你開始整合所有這些不同的環(huán)境時(shí),情況就會變得復(fù)雜得多,”他表示。
另外,使用公共云基礎(chǔ)設(shè)施的客戶也會有一些優(yōu)勢,因?yàn)榄h(huán)境更加一致。不過,要讓云供應(yīng)商開放他們的系統(tǒng),偶爾也會遇到一些障礙。
“但是,公共云供應(yīng)商正在改變他們的立場,”他說。“如果你看看兩年前到現(xiàn)在的數(shù)據(jù),就會發(fā)現(xiàn)情況已經(jīng)好多了。”
為遺留應(yīng)用程序和硬件來使用AIOps是一件棘手的事情,Kamath說。“如果沒有足夠的日志,就很難推斷出任何東西。這就是為什么我們要鼓勵(lì)我們的客戶加速他們的數(shù)字化轉(zhuǎn)型和使他們的應(yīng)用程序現(xiàn)代化的原因了。”