探索AI在存儲(chǔ)智能管理的應(yīng)用

現(xiàn)代數(shù)據(jù)中心正在迅速發(fā)展??山M合(composable)的基礎(chǔ)設(shè)施、超融合、云解決方案以及大數(shù)據(jù)和AI的興起都對(duì)IT架構(gòu)師和運(yùn)維團(tuán)隊(duì)帶來(lái)了挑戰(zhàn)。技術(shù)方面新型存儲(chǔ)器件(NVME SSD、非易失內(nèi)存SCM、Optane、AEP等)、軟件技術(shù)(分布式、數(shù)據(jù)組織、SPDK、RDMA等)、解決方案(云分層、云緩存、云備份、容器和虛擬化等)的發(fā)展使得存儲(chǔ)系統(tǒng)也越來(lái)越復(fù)雜。

現(xiàn)代數(shù)據(jù)中心正在迅速發(fā)展??山M合(composable)的基礎(chǔ)設(shè)施、超融合、云解決方案以及大數(shù)據(jù)和AI的興起都對(duì)IT架構(gòu)師和運(yùn)維團(tuán)隊(duì)帶來(lái)了挑戰(zhàn)。技術(shù)方面新型存儲(chǔ)器件(NVME SSD、非易失內(nèi)存SCM、Optane、AEP等)、軟件技術(shù)(分布式、數(shù)據(jù)組織、SPDK、RDMA等)、解決方案(云分層、云緩存、云備份、容器和虛擬化等)的發(fā)展使得存儲(chǔ)系統(tǒng)也越來(lái)越復(fù)雜。用戶需要一套穩(wěn)定、高性能而簡(jiǎn)單易用的存儲(chǔ)系統(tǒng)。

站在客戶的角度看,存儲(chǔ)的生命周期包括準(zhǔn)備、實(shí)施、維護(hù)三個(gè)階段。這是一個(gè)非常復(fù)雜的過(guò)程:準(zhǔn)備階段的難點(diǎn)在實(shí)施方案設(shè)計(jì)。實(shí)施過(guò)程本身就比較復(fù)雜,如果用戶需要現(xiàn)場(chǎng)做性能調(diào)優(yōu),時(shí)間可能會(huì)長(zhǎng)幾周。維護(hù)階段的問(wèn)題定位和解決也是一件具有挑戰(zhàn)性的工作。傳統(tǒng)的監(jiān)控和管理方法是利用監(jiān)控和分析工具來(lái)定位和解決生產(chǎn)問(wèn)題。但是,由于客戶生產(chǎn)環(huán)境復(fù)雜,設(shè)備種類和數(shù)量又很多,IT管理人員很難獨(dú)自完成問(wèn)題的處理,往往需要向各個(gè)廠商的專業(yè)人士求助。此外,對(duì)于廠商來(lái)說(shuō)客服和LMT也是一項(xiàng)成本較高的活動(dòng),占用了大量的人力物力。

圖1,存儲(chǔ)現(xiàn)場(chǎng)服務(wù)過(guò)程

AI技術(shù)可以解決存儲(chǔ)系統(tǒng)運(yùn)行和管理的復(fù)雜性問(wèn)題。AI系統(tǒng)會(huì)不斷地從存儲(chǔ)及其運(yùn)行環(huán)境中采集存儲(chǔ)的各種狀態(tài)信息和性能數(shù)據(jù),用機(jī)器學(xué)習(xí)算法分析、學(xué)習(xí)用戶的存儲(chǔ)使用情況,進(jìn)而自動(dòng)化的調(diào)整并優(yōu)化存儲(chǔ)系統(tǒng),使存儲(chǔ)服務(wù)能更好地適應(yīng)用戶的需求。比如:智能化的把數(shù)據(jù)保存在合適的區(qū)域、自動(dòng)的完成數(shù)據(jù)均衡、預(yù)測(cè)未來(lái)的需求、預(yù)防潛在的問(wèn)題、自動(dòng)參數(shù)調(diào)優(yōu)等。有AI加持的智能存儲(chǔ)可以增強(qiáng)系統(tǒng)的可靠性、降低存儲(chǔ)的復(fù)雜性和維護(hù)成本。

權(quán)威IT調(diào)研與咨詢服務(wù)公司Gartner也在持續(xù)關(guān)注存儲(chǔ)智能化的發(fā)展,并給出了AIOps(Artificial Intelligence IT Operations)的定義: AIOps利用大數(shù)據(jù)和AI技術(shù)增強(qiáng)IT管理和運(yùn)維的能力,包括:可用性和性能監(jiān)測(cè)、事件關(guān)聯(lián)和分析、IT服務(wù)管理和自動(dòng)化。

客戶需要存儲(chǔ)的智能管理

全球的客戶也期待著智能化的存儲(chǔ)產(chǎn)品。IDC在2018年6月完成了一項(xiàng)全球存儲(chǔ)客戶的智能化特性調(diào)查,客戶對(duì)使用AI / ML算法推動(dòng)存儲(chǔ)系統(tǒng)的改進(jìn)抱以積極的態(tài)度:

圖2,IDC調(diào)研:客戶對(duì)AI存儲(chǔ)的需求

同時(shí),IDC還調(diào)研了已經(jīng)使用了存儲(chǔ)AIOps的客戶,詢問(wèn)他們從中得到了哪些好處。圖3展示了客戶目前最關(guān)心的五項(xiàng)智能服務(wù)。其中,排第一的AIOps用途是改善系統(tǒng)的整體可用性。其次是加快問(wèn)題解決速度及提高性能容量規(guī)劃。預(yù)測(cè)性地識(shí)別任何即將發(fā)生的故障,監(jiān)視與存儲(chǔ)相關(guān)的其他IT基礎(chǔ)架構(gòu)也被客戶重點(diǎn)關(guān)注。

圖3,IDC調(diào)研:用戶最希望使用的AIOps特性

存儲(chǔ)AIOps的關(guān)鍵技術(shù)

圖4,存儲(chǔ)的AIOps框架

一個(gè)完整的存儲(chǔ)AIOps框架包括5個(gè)過(guò)程:

1) 監(jiān)控:系統(tǒng)首先通過(guò)日志、SNMP、RestAPI等技術(shù)手段抓取并保存存儲(chǔ)系統(tǒng)中的運(yùn)行狀態(tài)、性能和故障報(bào)錯(cuò)數(shù)據(jù),這為AI自優(yōu)化系統(tǒng)創(chuàng)造了數(shù)據(jù)基礎(chǔ)。

2) 學(xué)習(xí):在長(zhǎng)時(shí)間、海量的監(jiān)控?cái)?shù)據(jù)基礎(chǔ)上,AI會(huì)不斷分析用戶的IO模型和系統(tǒng)狀態(tài)信息,學(xué)習(xí)最佳的應(yīng)用實(shí)踐,并自動(dòng)分析問(wèn)題根因和發(fā)現(xiàn)異常行為。

3) 預(yù)測(cè):對(duì)于新發(fā)現(xiàn)的問(wèn)題,AI算法都可以自動(dòng)學(xué)習(xí)并提取可重復(fù)的模式,并將新的算法模型應(yīng)用到其他尚未發(fā)現(xiàn)該問(wèn)題的設(shè)備上,從而準(zhǔn)確預(yù)測(cè)風(fēng)險(xiǎn)和故障。

4) 推薦:除了智能化預(yù)測(cè)新問(wèn)題外,AI還會(huì)學(xué)習(xí)出解決和優(yōu)化問(wèn)題的具體建議。如修改內(nèi)外部配置參數(shù)、更換部件、系統(tǒng)軟件升級(jí)等。

5) 實(shí)施:AI系統(tǒng)可以自動(dòng)運(yùn)行優(yōu)化措施并解決問(wèn)題。如果處于安全考慮,也可以停止自動(dòng)優(yōu)化系統(tǒng),人工操作來(lái)解決現(xiàn)場(chǎng)問(wèn)題。

總結(jié)起來(lái),AIOps為存儲(chǔ)提供了根因分析、預(yù)測(cè)、自動(dòng)調(diào)優(yōu)三大功能。Gartner則給出了更為完成的存儲(chǔ)AIOps功能。

圖5,AIOps的主要功能

學(xué)術(shù)界也非常關(guān)注存儲(chǔ)的AIOps。國(guó)外的存儲(chǔ)和系統(tǒng)領(lǐng)域的頂級(jí)會(huì)議FAST、ATC、SRE、KDD有很多相關(guān)文章,清華大學(xué)、中科院、華中科技大學(xué)等國(guó)內(nèi)科研機(jī)構(gòu)也在故障預(yù)測(cè)、根因分析、異常檢測(cè)、自動(dòng)調(diào)優(yōu)等方面有優(yōu)秀的科研成果。

清華大學(xué)在《計(jì)算機(jī)學(xué)會(huì)通訊》上發(fā)表了 “基于機(jī)器學(xué)習(xí)的運(yùn)維”,系統(tǒng)地闡述了智能運(yùn)維的關(guān)鍵技術(shù)。文中把AIOps分成歷史事件、當(dāng)前事件、未來(lái)事件三類應(yīng)用場(chǎng)景。

歷史事件場(chǎng)景中瓶頸分析指的是制約存儲(chǔ)或系統(tǒng)服務(wù)的硬件或軟件瓶頸。熱點(diǎn)分析指的是自動(dòng)挖掘出大于正常閾值性能指標(biāo)。KPI聚類是對(duì)類似的指標(biāo)曲線進(jìn)行聚類。KPI曲線關(guān)聯(lián)挖掘是針對(duì)兩條曲線的關(guān)聯(lián)關(guān)系進(jìn)行挖掘。全鏈路模塊調(diào)用分析能分析出模塊間的調(diào)用關(guān)系。異常事件關(guān)聯(lián)挖掘是指對(duì)異常事件之間的關(guān)系進(jìn)行關(guān)聯(lián)分析。故障傳播關(guān)系圖融合了以上四種技術(shù),推斷出異常事件之間的故障傳播關(guān)系。

當(dāng)前事件場(chǎng)景主要是根據(jù)當(dāng)前的日志和告警,快速檢測(cè)、定位異常,并完成故障的根因分析,最終實(shí)現(xiàn)快速止損,控制故障的影響范圍。

未來(lái)事件場(chǎng)景的技術(shù)原理都是通過(guò)AI技術(shù)自動(dòng)挖掘故障發(fā)生前的日志、性能參數(shù)指標(biāo),找到故障前的可重復(fù)的模式,從而在今后出現(xiàn)類似的日志模式時(shí),提前預(yù)測(cè)故障、性能容量變化趨勢(shì)以及系統(tǒng)可能的熱點(diǎn)瓶頸。根據(jù)IDC的客戶調(diào)查來(lái)看,針對(duì)未來(lái)事件的預(yù)測(cè)場(chǎng)景是存儲(chǔ)用戶關(guān)注的重點(diǎn)。

圖6 AIOps的關(guān)鍵場(chǎng)景和技術(shù)

存儲(chǔ)AIOps的產(chǎn)業(yè)落地

存儲(chǔ)產(chǎn)業(yè)界中,HPE在2010年就推出了智能化的存儲(chǔ)軟件Infosight,提供了預(yù)測(cè)性分析、端到端的故障定位、性能洞察等一系列的智能化功能。幫助用戶分析復(fù)雜應(yīng)用環(huán)境下從虛擬機(jī)到后端存儲(chǔ)端到端的性能瓶頸,確定影響性能瓶頸的主要因素,并最終給出可行的優(yōu)化或解決問(wèn)題的建議。浪潮的智能化存儲(chǔ)管理軟件Inview也實(shí)現(xiàn)了磁盤故障預(yù)測(cè)、性能容量預(yù)測(cè)的智能化功能,幫助客戶預(yù)防硬件故障帶來(lái)的損失,并給出具體的擴(kuò)容建議,為客戶提供更好的存儲(chǔ)服務(wù)。其他存儲(chǔ)領(lǐng)域的主流廠商N(yùn)etapp、IBM、EMC也在2017年以后推出了自己的智能化產(chǎn)品ActiveIQ、StorageInsights和CloudIQ。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論