大數(shù)據(jù)運(yùn)營階段必須部署大數(shù)據(jù)核心平臺(tái),支持IT、網(wǎng)絡(luò)、私有云等數(shù)據(jù)的訪問,建立IT基礎(chǔ)設(shè)施監(jiān)控和大屏、和私有云平臺(tái)可視化大屏,部署統(tǒng)一告警平臺(tái),進(jìn)行大屏幕、私有云等大屏幕進(jìn)行大數(shù)據(jù)管理。
運(yùn)營維護(hù)階段需要采集客戶端以及后端性能數(shù)據(jù),采用拓?fù)鋵?shí)時(shí)大屏幕,對(duì)用戶體驗(yàn)進(jìn)行實(shí)時(shí)監(jiān)控,大屏幕、瀏覽器用戶體驗(yàn)和大屏幕,深入分析應(yīng)用程序的端到端性能,并建立企業(yè)業(yè)務(wù)管理座艙,以進(jìn)行業(yè)務(wù)應(yīng)用與IT系統(tǒng)的關(guān)聯(lián)分析。
智能化操作階段要求部署機(jī)器學(xué)習(xí)平臺(tái)和深度學(xué)習(xí)平臺(tái),以更好地預(yù)測(cè)IT資源,預(yù)測(cè)用戶體驗(yàn)和預(yù)測(cè)用戶保留能力,以及應(yīng)用健康對(duì)商業(yè)影響的預(yù)測(cè)等等。
一個(gè)完整的云智能體系結(jié)構(gòu)主要分為三部分:
大數(shù)據(jù)采集部分:建立一套針對(duì)硬件設(shè)施、網(wǎng)絡(luò)、主機(jī)系統(tǒng)、關(guān)鍵業(yè)務(wù)監(jiān)測(cè)、分析、日志采集等大數(shù)據(jù)采集平臺(tái),使得它能快速地采集和顯示監(jiān)測(cè)對(duì)象的基本信息及其運(yùn)行狀態(tài),對(duì)各種硬件、網(wǎng)絡(luò)、主機(jī)系統(tǒng)和關(guān)鍵業(yè)務(wù)的健康度能全面、準(zhǔn)確地評(píng)估。
數(shù)據(jù)挖掘部分:構(gòu)建大型數(shù)據(jù)提取標(biāo)準(zhǔn)、管理和建模平臺(tái),通過與之配套的各種大數(shù)據(jù)處理工具,選擇相應(yīng)角色所需的信息;操作策略及操作行為,可自由組合各種界面、大數(shù)據(jù)、功能模塊及處理流程,形成針對(duì)此種應(yīng)用場(chǎng)景的定制化工作平臺(tái);處理并處理大數(shù)據(jù)的數(shù)據(jù)。與此同時(shí),大數(shù)據(jù)不斷沉淀,形成大數(shù)據(jù)運(yùn)營管理倉庫,提供豐富的大數(shù)據(jù)管理工具、插件,為大數(shù)據(jù)的進(jìn)一步應(yīng)用提供支持。
大數(shù)據(jù)應(yīng)用部分:從海量的數(shù)據(jù)沉淀中,通過成熟的大數(shù)據(jù)分析模型和智能算法,為相關(guān)人員提供重要決策大數(shù)據(jù)依據(jù),在《決策》《管理》《實(shí)施》三個(gè)角度對(duì)“網(wǎng)絡(luò)”、“數(shù)據(jù)中心”、“應(yīng)用”、“安全”、“運(yùn)營”五個(gè)維度進(jìn)行大數(shù)據(jù)建模,最終實(shí)現(xiàn)多維大數(shù)據(jù)的組合分析,輔助大數(shù)據(jù)決策,為大數(shù)據(jù)的運(yùn)營管理提供支持。
隨著IT行業(yè)的發(fā)展,服務(wù)器規(guī)模不斷擴(kuò)大,業(yè)務(wù)場(chǎng)景日趨多樣化,這是一個(gè)值得關(guān)注的問題。此外,在從不連續(xù)的大量數(shù)據(jù)中找出產(chǎn)生故障的根源時(shí),使用了更多的工具,例如,基礎(chǔ)結(jié)構(gòu)和服務(wù)采用了開放源碼的監(jiān)控,網(wǎng)絡(luò)監(jiān)視用到了軟件,應(yīng)用性能管理,部分業(yè)務(wù)和性能使用日志手段進(jìn)行監(jiān)控等等。這兩種工具在某種程度上都可以幫助運(yùn)行人員進(jìn)行分析,但由于這些軟件之間是分離分離的,如何將業(yè)務(wù)變更與IT系統(tǒng)相關(guān)聯(lián)是未來研究的方向。
報(bào)警是運(yùn)維人員與系統(tǒng)進(jìn)行溝通的一種方式,運(yùn)營人員每天有50%的工作內(nèi)容,只有50%在計(jì)劃中。隨著更多的企業(yè)上云,運(yùn)營工作的范圍正在迅速擴(kuò)展。失效原因日益復(fù)雜,單靠現(xiàn)有經(jīng)驗(yàn)已經(jīng)無法處理早已不可行,部分故障是已知問題,但由于牽涉面廣暫時(shí)不便解決,需要周期性重復(fù)處理。
動(dòng)力告警基線
常規(guī)固定報(bào)警基線存在諸多缺陷,如重復(fù)觸發(fā),則會(huì)產(chǎn)生大量報(bào)警,且重復(fù)觸發(fā)的報(bào)警能掩蓋實(shí)際情況?;跉v史數(shù)據(jù)統(tǒng)計(jì)值生成動(dòng)態(tài)報(bào)警基線,除了自動(dòng)生成外,還可以人工創(chuàng)建、修改。
對(duì)AI應(yīng)用到整個(gè)運(yùn)維會(huì)有一定的價(jià)值,一是更主動(dòng)地對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行采集,實(shí)時(shí)感知用戶的實(shí)際性能體驗(yàn),借助機(jī)器學(xué)習(xí)技術(shù)進(jìn)行故障預(yù)測(cè),采用更豐富多樣的告警通知方式。在關(guān)聯(lián)的觀點(diǎn)下,能有效地找出問題的根源,根據(jù)時(shí)間順序或邏輯,找出多個(gè)現(xiàn)象相互影響的關(guān)系,將報(bào)警聯(lián)系起來,降低了人為篩選無用或重復(fù)信息的代價(jià)。切入商業(yè)視角,更直接地支持業(yè)務(wù)提升,通過大數(shù)據(jù)技術(shù),打破多個(gè)業(yè)務(wù)間的數(shù)據(jù)孤島,更好地體現(xiàn)IT在企業(yè)中的價(jià)值。各種API呈現(xiàn)方式靈活多變,不僅有大屏幕、報(bào)表、報(bào)表等大數(shù)據(jù)技術(shù),以及大數(shù)據(jù)技術(shù),使實(shí)時(shí)數(shù)據(jù)呈現(xiàn)成為可能,而且在同一區(qū)域視野下,可以顯示更多維度的信息。
云吶統(tǒng)一運(yùn)維管理平臺(tái),通過對(duì)網(wǎng)絡(luò)設(shè)備管理、服務(wù)器管理、存儲(chǔ)設(shè)備管理、業(yè)務(wù)應(yīng)用管理、無線管理、日志分析、辦公設(shè)備/聯(lián)網(wǎng)設(shè)備、動(dòng)環(huán)系統(tǒng)等本地和異地網(wǎng)絡(luò)的實(shí)時(shí)監(jiān)控、自動(dòng)巡檢,精準(zhǔn)采集、分析故障信息,判斷重要數(shù)據(jù)性能指標(biāo),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)中心的集中統(tǒng)一管理。如果對(duì)云吶統(tǒng)一運(yùn)維管理平臺(tái)有什么疑問,你可以聯(lián)系在線客服,或直接注冊(cè)免費(fèi)試用云吶系統(tǒng)。
AIOps更有價(jià)值
當(dāng)IT基礎(chǔ)設(shè)施運(yùn)行時(shí),優(yōu)化用戶體驗(yàn)和業(yè)務(wù)操作,實(shí)現(xiàn)三個(gè)方面能力的提高,那么有沒有必要做更多的事?對(duì)于這一問題,我們可以從以下幾個(gè)方面做進(jìn)一步的思考:
交叉系統(tǒng):能統(tǒng)一地對(duì)多個(gè)系統(tǒng)數(shù)據(jù)進(jìn)行匯總,并整理出相應(yīng)的模型,把原來孤立的數(shù)據(jù)孤島聯(lián)系起來。
高效:看不見故障現(xiàn)象,不會(huì)割裂,能迅速地在多個(gè)現(xiàn)象中,理清因果關(guān)系,并迅速地挖掘出根因。
高度精確:最大限度地避免了人為判斷中引入的干擾,使分析結(jié)果的可行性得到極大提高。而且隨著故障處理次數(shù)的增加,能給出相應(yīng)的處理意見。
針對(duì)企業(yè):從最后和最重要的業(yè)務(wù)角度出發(fā),自影響業(yè)務(wù)的結(jié)果,不斷擴(kuò)展需要考慮的影響因素?;谠撃P?,可以真正發(fā)現(xiàn)運(yùn)營和運(yùn)營數(shù)據(jù)之間的相關(guān)性。