現(xiàn)在的企業(yè)發(fā)現(xiàn),人工智能是更好的IT監(jiān)控技術(shù),因?yàn)槿斯ぶ悄芸梢栽谄髽I(yè)受到負(fù)面影響前,就提前發(fā)現(xiàn)并自動修復(fù)問題。那么這樣的人工智能技術(shù)是什么?又是如何為企業(yè)省時省力的呢?讓我們一起來看看。
使用人工智能驅(qū)動的IT運(yùn)營技術(shù)可以自動監(jiān)控和管理IT產(chǎn)品。云平臺、托管服務(wù)提供商和進(jìn)行數(shù)字化轉(zhuǎn)型的企業(yè)已經(jīng)開始從這種新興的IT趨勢中獲益。
這種新興的技術(shù)被稱為AIOps,它可以提前阻止?jié)撛诘腻礄C(jī)和性能問題對運(yùn)營、客戶和企業(yè)最終利潤產(chǎn)生的負(fù)面影響。不過,企業(yè)開始部署更高級的人工智能系統(tǒng),是因?yàn)樗粌H可以識別問題,或在問題發(fā)生之前預(yù)測問題,還可以對事件做出智能、自動化的緩解舉措。
那么AIOps究竟是什么?企業(yè)又是如何使用它的?在本文中,我們將更深入地介紹AI輔助IT運(yùn)營的技術(shù)、戰(zhàn)略和挑戰(zhàn)。
什么是AIOps?
AIOps是一種新興的IT技術(shù),它將人工智能應(yīng)用于IT運(yùn)維,幫助企業(yè)實(shí)現(xiàn)智能管理基礎(chǔ)設(shè)施、網(wǎng)絡(luò)和應(yīng)用程序,以提高性能、適應(yīng)性、容量、運(yùn)行時間,甚至安全性。通過將傳統(tǒng)的閾值警示和手動流程轉(zhuǎn)移到利用人工智能和機(jī)器學(xué)習(xí)的系統(tǒng),AIOps使企業(yè)能夠更好地監(jiān)控IT資產(chǎn)并預(yù)測可能發(fā)生的負(fù)面事件和不良影響。
職業(yè)服裝零售商Carhartt的CIO John Hill在三個主要領(lǐng)域:服務(wù)管理、績效管理和IT自動化中利用AIOps?,F(xiàn)在,由于智能監(jiān)控,Carthartt可以在問題影響到用戶或客戶之前就發(fā)現(xiàn)問題。
“AIOps會監(jiān)控環(huán)境和了解正在發(fā)生的事情的整個過程,并根據(jù)這些指示信號采取行動,”Hill說,“以前,人們會根據(jù)停電或已經(jīng)產(chǎn)生的異常工作跡象得知有哪些地方需要修復(fù),但是在發(fā)現(xiàn)之前,客戶體驗(yàn)就已經(jīng)被損害了。”
AIOps工具
大部分AIOps平臺是建立在歷史悠久的監(jiān)控系統(tǒng)上,還有一些是來自于人工智能實(shí)驗(yàn)室,然后向外發(fā)展而成。好的AIOps工具會生成關(guān)于機(jī)器負(fù)載的前瞻性猜測,然后觀察是否有產(chǎn)生偏離的情況。當(dāng)異常出現(xiàn),就會發(fā)出警報,生成電子郵件、Slack帖子,如果偏差足夠大,則會生成尋呼機(jī)消息。復(fù)雜的AIOps工具還提供“根本原因分析”,它創(chuàng)建流程圖來跟蹤問題,看問題是如何在同一個現(xiàn)代企業(yè)應(yīng)用程序中通過不同機(jī)器傳播的。每個考慮采用AIOps的人都希望評估每個AIOps產(chǎn)品與特定數(shù)據(jù)庫和服務(wù)的集成程度。以下這些AIOps工具是當(dāng)今最好用的工具中的幾個:
●AppDynamics
●BigPanda
●Datadog
●Dynatrace
●GitHub Copilot
●IBM Watson Cloud Pak for AIOps
●LogicMonitor
●Moogsoft
●New Relic One
●Splunk
AIOps應(yīng)用案例
AIOps可能已經(jīng)在你的IT產(chǎn)品中發(fā)揮作用了,而你甚至都不知道。高級的CRM或ERP系統(tǒng)通常會內(nèi)置智能管理系統(tǒng)。大多數(shù)云平臺也會使用機(jī)器學(xué)習(xí)驅(qū)動的監(jiān)控和管理工具。
但是依賴單點(diǎn)解決方案中的內(nèi)置功能也存在缺點(diǎn)。在AIOps Exchange的調(diào)查中,65%的IT組織表示,他們?nèi)匀灰蕾嚤O(jiān)控方法(無論是否智能),這些方法要么是孤立的、墨守成規(guī)的,要么無法滿足整個IT環(huán)境的需求。此外,根據(jù)BigPanda最新的一項(xiàng)調(diào)查顯示,42%的IT組織在他們的IT環(huán)境中使用了超過10種不同的監(jiān)控工具。
Carhartt一開始就是使用了這種方式。“以前,面對不同的環(huán)境,我們必須對它們進(jìn)行獨(dú)立監(jiān)控,”Hill說。為了管理這種復(fù)雜性,Hill選擇將監(jiān)控結(jié)合到兩個平臺上,首先使用AppDynamics進(jìn)行應(yīng)用程序性能監(jiān)控,然后利用Turbonomic來監(jiān)視Carhartt的基礎(chǔ)設(shè)施。
黑色星期五和網(wǎng)購星期一的購物高峰,通常會使公司網(wǎng)站出現(xiàn)需要即時修改的性能問題。Hill說,當(dāng)公司發(fā)現(xiàn)問題時,客戶已經(jīng)感覺到服務(wù)質(zhì)量下降了。
自從Carhartt在2017年秋季部署AppDynamics到現(xiàn)在,黑色星期五和網(wǎng)購星期的峰值期間已經(jīng)實(shí)現(xiàn)了零宕機(jī)。
“我們?nèi)〉昧藙?chuàng)紀(jì)錄的增長,”Hill說,“我們的增長速度是整個行業(yè)的兩倍,而且再也沒有出現(xiàn)過任何之前所經(jīng)歷過的宕機(jī)或性能下降。”
Carhartt在2019年初添加了Turbonomic,用于本地和云環(huán)境的資源管理。Hill表示,新系統(tǒng)使利用率從70%增加到92%。“它大概為我們節(jié)省了25%的基礎(chǔ)設(shè)施成本。”
增加利用率需求是自動處理的,無需人工干預(yù),而是否為此減少容量仍需要人工批準(zhǔn)。
“它一旦監(jiān)測到我們遇到了容量挑戰(zhàn),就會向ServiceNow提出變更請求,”Hill說,“當(dāng)我們有太多容量時,它會在ServiceNow中創(chuàng)建一張通知單,然后有人會先快速地審查一下,只需單擊一下,所以目前我們還不需要讓它實(shí)現(xiàn)自動化。”
該公司的下一步是把業(yè)務(wù)任務(wù)自動化,例如使用文本識別和自然語言識別來處理客戶訂單。