在 InfoQ 此前的多期文章中已提到過 NAS 技術(shù),今天我們要討論的是,當(dāng) NAS 應(yīng)用越來越普及時(shí),該如何借助 AI 使其變得更智能化,更切合于辦公需求或家用需求。試想,如果小 A 可以通過語音指令控制 NAS;通過 NAS 一鍵實(shí)現(xiàn)對(duì)照片色調(diào)的精準(zhǔn)調(diào)整或自動(dòng)辨識(shí)重復(fù)照片;甚至在開發(fā)場(chǎng)景下,還能通過 NAS 預(yù)測(cè)每一顆硬盤的損壞趨勢(shì)報(bào)告……會(huì)釋放出使用者更加多的勞動(dòng)力,使其集中在更高效的事務(wù)中。今天,這項(xiàng)技術(shù)正在發(fā)生。
隨著大數(shù)據(jù)時(shí)代的到來,人們每天會(huì)產(chǎn)生大量的圖片、視頻、音頻、文字等信息,如何讓這些海量的信息給人們的生活帶來便利,如何讓存儲(chǔ)的數(shù)據(jù)更安全,讓數(shù)據(jù)更智能,是每個(gè)企業(yè)需要考慮的重要內(nèi)容。如何用 AI 賦能存儲(chǔ),也是許多企業(yè)探索的熱門方向。這篇文章,InfoQ 就將帶大家深入挖掘 AI 技術(shù)如何為海量的企業(yè)數(shù)據(jù)賦能。
數(shù)據(jù)從產(chǎn)生到存儲(chǔ)到加工,再到利用 AI 技術(shù)提供智能服務(wù)的過程,是一個(gè)數(shù)據(jù)生態(tài)的閉環(huán)。企業(yè)用戶通常會(huì)將數(shù)據(jù)存儲(chǔ)在云端,而隨著數(shù)據(jù)的積累,保證用戶數(shù)據(jù)的安全性是企業(yè)重點(diǎn)思考的方向。磁盤故障導(dǎo)致數(shù)據(jù)丟失、損壞,對(duì)企業(yè)和用戶的利益都受不同程度的影響。下面介紹通過幾個(gè)場(chǎng)景案例來介紹 AI 技術(shù)如何為企業(yè)數(shù)據(jù)賦能。首先,介紹智能磁盤故障預(yù)警;其次,介紹公共安全方向,智能視頻監(jiān)控和影像深度分析;最后,介紹 AI 技術(shù)在生活和辦公方面的應(yīng)用。
智能磁盤故障預(yù)警
早在上個(gè)世紀(jì)九十年代,人們就意識(shí)到數(shù)據(jù)的寶貴性勝于硬盤自身價(jià)值,渴望有種技術(shù)能對(duì)硬盤故障進(jìn)行預(yù)測(cè)并實(shí)現(xiàn)相對(duì)安全的數(shù)據(jù)保護(hù),因此 S.M.A.R.T 技術(shù)應(yīng)運(yùn)而生。其原理是通過偵測(cè)硬盤各屬性,如數(shù)據(jù)吞吐性能、馬達(dá)起動(dòng)時(shí)間、尋道錯(cuò)誤率等屬性值和標(biāo)準(zhǔn)值進(jìn)行比較分析,推斷硬盤的故障情況并給出提示信息,幫助用戶避免數(shù)據(jù)損失。但使用該項(xiàng)技術(shù)的劣勢(shì)在于用戶只有可能在硬盤狀況較差時(shí)才能感知異樣,所存數(shù)據(jù)依然有丟失風(fēng)險(xiǎn)。因此硬盤損壞預(yù)測(cè)技術(shù)就是為了達(dá)到提前預(yù)警的效果,在發(fā)生問題前提早備份或更換硬盤,達(dá)到 0 數(shù)據(jù)丟失。
而對(duì)于運(yùn)維工程師來說,處理磁盤故障是日常工作中常見的任務(wù)。一旦磁盤發(fā)生故障會(huì)對(duì)業(yè)務(wù)造成很大程度的影響,甚至造成數(shù)據(jù)丟失等更為嚴(yán)重的后果,從而為企業(yè)帶來較大的經(jīng)濟(jì)損失。為防患于未然,利用 AI 技術(shù)學(xué)習(xí)歷史磁盤故障的數(shù)據(jù)信息,能夠有效預(yù)測(cè)出即將產(chǎn)生故障的磁盤,在問題發(fā)生前期提早做出告警并及時(shí)解決問題,或?qū)?shù)據(jù)進(jìn)行遷移拯救重要的數(shù)據(jù)資料,以減少數(shù)據(jù)丟失給企業(yè)帶來的損失。
目前,大多數(shù)企業(yè)的數(shù)據(jù)都是在云上存儲(chǔ)。但面對(duì)云存儲(chǔ)新技術(shù),政策動(dòng)向?yàn)槭袌?chǎng)的前景蒙上一層薄霧。面對(duì)近來“云上數(shù)據(jù)”事故頻發(fā),管制愈來愈趨緊的網(wǎng)盤產(chǎn)品,從企業(yè)到個(gè)體,都在為自己的數(shù)據(jù)去處捏上一把汗。尤其是對(duì)于很多中小企業(yè)而言,更需要性價(jià)比高且安全高效的工具解決其數(shù)據(jù)存儲(chǔ)問題。其中有買硬盤的、有升級(jí)網(wǎng)盤的、也有買 NAS(Network Attached Storage,網(wǎng)絡(luò)附屬存儲(chǔ))的,不過相比于硬盤和網(wǎng)盤,NAS 的大眾傳播度可能沒那么高。說白了,NAS 就是存儲(chǔ)服務(wù)器,其最重要功能就是儲(chǔ)存,形成家庭或者辦公室的數(shù)據(jù)中心。
近期,國(guó)內(nèi) NAS 實(shí)踐者——群暉基于自身多年的數(shù)據(jù)存儲(chǔ)和 AI 技術(shù)經(jīng)驗(yàn),研發(fā)了自動(dòng)(智能)監(jiān)控磁盤故障系統(tǒng),該項(xiàng)功能也即將推出上市并開放。自動(dòng)(智能)監(jiān)控磁盤故障系統(tǒng)可以提前預(yù)警磁盤是否可能存在重大故障。它們用超過 300 萬顆磁盤的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,訓(xùn)練出一套可靠的損壞預(yù)測(cè)模型。模型中考量了兩百多個(gè)因素,主要為 S.M.A.R.T. 相關(guān)的數(shù)值、核心錯(cuò)誤、以及硬盤的 metadata,如溫度、硬盤空間使用率等,因而能非常精準(zhǔn)地預(yù)測(cè)磁盤發(fā)生故障的時(shí)間以及損壞的重要程度。
在系統(tǒng)的使用界面中,會(huì)顯示每顆硬盤分別的損壞預(yù)測(cè)記錄圖,借由讀取到的硬盤資料每天產(chǎn)生出一個(gè)損壞可能值,用戶能將損壞可能值和圖中的臨界線一并查看,從而推斷是否需要更換硬盤。如果損壞情況超過規(guī)定臨界線,則代表此硬盤在近期內(nèi)有大概率可能損壞。經(jīng)過群暉內(nèi)部技術(shù)專家的實(shí)際測(cè)試和驗(yàn)證,一旦預(yù)測(cè)值超過警戒線,硬盤在近期內(nèi)會(huì)損壞的概率達(dá)到了近 90%,這也意味著,由該系統(tǒng)損壞模型分析出來的準(zhǔn)確率能高達(dá) 90%。
為了讓運(yùn)維工程師更方便地管理磁盤,該系統(tǒng)內(nèi)部也集成了可視化的界面,讓工程師可以實(shí)時(shí)觀察到磁盤的預(yù)測(cè)情況。處于高風(fēng)險(xiǎn)狀態(tài)的磁盤,會(huì)給出紅色預(yù)警的警戒線。實(shí)際監(jiān)控中的截圖請(qǐng)見下圖,經(jīng)過多輪優(yōu)化,群暉磁盤故障預(yù)警系統(tǒng)目前預(yù)測(cè)判斷出高風(fēng)險(xiǎn)磁盤的準(zhǔn)確率達(dá)到 90%。
圖解:將判斷結(jié)果轉(zhuǎn)換成圖表,讓用戶能在界面上清晰地看到每一顆硬盤的預(yù)測(cè)狀況。圖標(biāo)走勢(shì)超過警戒線變紅,代表這顆硬盤處于高風(fēng)險(xiǎn)狀態(tài)
隨著企業(yè)業(yè)務(wù)的發(fā)展和數(shù)據(jù)的積累,構(gòu)建更智能服務(wù)需要存儲(chǔ)大量的數(shù)據(jù)。基于機(jī)器學(xué)習(xí)的智能監(jiān)控,是每個(gè)企業(yè)都在積極探索和發(fā)力的方向。對(duì)于大企業(yè)而言相關(guān)的人才和資金都有較大支持,但對(duì)于中小企業(yè)而言,為了節(jié)約成本,可借助第三方積累的專業(yè)經(jīng)驗(yàn)獲得更好的監(jiān)控。
智能監(jiān)控 & 深度影像分析
除硬盤故障預(yù)判這一應(yīng)用場(chǎng)景外,群暉還發(fā)布了智能監(jiān)控(Surveillance Station,Deep Video Analytics (DVA))方案,其主要采用圖像處理、模式識(shí)別和計(jì)算機(jī)視覺技術(shù)等,通過在監(jiān)控系統(tǒng)中增加智能視頻分析模塊,并借助強(qiáng)大的云計(jì)算能力,實(shí)現(xiàn)對(duì)不同物體的自動(dòng)識(shí)別。另外,通過分析抽取視頻源中的關(guān)鍵及有用信息,能幫助用戶快速準(zhǔn)確地定位事故現(xiàn)場(chǎng),判斷監(jiān)控畫面中的異常情況、觸發(fā)警報(bào)。智能影像分析的系統(tǒng)(DVA)結(jié)合群暉自身研發(fā)的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),能夠非常快速且精準(zhǔn)地識(shí)別物體。
智能監(jiān)控系統(tǒng)當(dāng)前在安防領(lǐng)域應(yīng)用非常廣泛。國(guó)內(nèi)多家企業(yè)都使用了比較成熟的解決方案。然而,群暉在探索監(jiān)控識(shí)別的精準(zhǔn)度層面做了更多的新嘗試,借助多年積累的 NAS 經(jīng)驗(yàn),將自動(dòng)識(shí)別的 AI 運(yùn)算在 NAS 本地做計(jì)算,這樣可以加大對(duì)視頻影像的深度分析、挖掘。在非常復(fù)雜的干擾環(huán)境下,也可以很精準(zhǔn)的識(shí)別物體。
例如,在街道上,想監(jiān)控電瓶車、摩托車開到人行道上的危險(xiǎn)情況,用一般的動(dòng)作偵測(cè),人或電瓶車只要經(jīng)過都會(huì)列為「有東西經(jīng)過」;但 DVA 就智能很多,它懂得分辨行人走過是正常行為,只會(huì)在電瓶車開上人行道上的時(shí)候才通報(bào)。
另外, DVA 還可以統(tǒng)計(jì)人流,統(tǒng)計(jì)有多少人次進(jìn)出監(jiān)控的門或區(qū)域,并可以自動(dòng)生成人流報(bào)告;還可以設(shè)定禁止逗留的區(qū)域、偵測(cè)有哪些外來物件在環(huán)境里,或是有哪些東西丟失,非常適合超市、零售業(yè)和商場(chǎng)使用。這樣大大提升了其應(yīng)用場(chǎng)景的多樣性,如在夜間的安防工作中實(shí)現(xiàn)對(duì)人流中可疑物體的跟蹤統(tǒng)計(jì)。
AI 智能相冊(cè)
智能手機(jī)的普及能讓我們更方便地記錄日常難忘的瞬間。但是,如果人工來處理圖片的檢索和分類會(huì)極其繁瑣且耗時(shí)?,F(xiàn)在,借助 AI 強(qiáng)大的能力,可幫助我們對(duì)圖片做智能分類,國(guó)內(nèi)外著名的互聯(lián)網(wǎng)企業(yè),如 Google、百度、騰訊、阿里等都提供云端的智能圖片分類服務(wù)。但是,如果用戶將自己的個(gè)人照片上傳到公有云,讓云端進(jìn)行圖片識(shí)別、分類,用戶的照片可能被平臺(tái)運(yùn)用在深度學(xué)習(xí)優(yōu)化或第三方其他用途。用戶的隱私安全受到犧牲,也是大多數(shù)用戶比較介意的。
為保護(hù)用戶隱私,群暉借助自己的 NAS 存儲(chǔ)的優(yōu)勢(shì),自主研發(fā)了基于 NAS 上的智能相冊(cè)功能,并嵌入到了 Moments 套件中。用戶在自建私有網(wǎng)盤及下載 Moments 套件后,就可享受智能圖像識(shí)別、圖像分類等服務(wù)。
一方面,群暉智能相冊(cè),能夠自動(dòng)根據(jù)具體的拍攝場(chǎng)景和人物,實(shí)現(xiàn)自動(dòng)分類,讓用戶從繁瑣的圖片分類任務(wù)中解放出來。另一方面,群暉研發(fā)團(tuán)隊(duì)最近又有新的探索——將智能的觸角延伸到圖像處理,一是推出了“智能校正”的功能,用戶可以智能校正圖片,一鍵修正拍攝照片的角度和自動(dòng)調(diào)色。二是推出圖片“去重”功能,主要用于對(duì)比照片和照片之間的特征,從而判斷照片是否相同。為了能夠加速整體運(yùn)算速度,使使用者在 NAS 上存放的數(shù)以萬計(jì)的照片,該功能內(nèi)置的技術(shù)是先將圖片做初步壓縮,用離散余弦變換 (discrete cosine transform, DCT) 的方式,計(jì)算出屬于該照片的一連串?dāng)?shù)字化特征。再基于每張照片分別計(jì)算出特征并進(jìn)行快速比對(duì)、計(jì)算結(jié)果。只要結(jié)果的數(shù)值在內(nèi)部調(diào)校得出的范圍之內(nèi),就判斷為相似的照片并歸類在同一群組內(nèi),用戶可自行決定是要保留或刪除。
此外,在日常辦公與郵件讀取場(chǎng)景中,群暉也有一定的實(shí)踐。借助其 NAS 經(jīng)驗(yàn)和 AI 技術(shù),群暉依托智能郵箱 MailPlus 應(yīng)用落地實(shí)現(xiàn)了自動(dòng)標(biāo)注、自動(dòng)分類郵件的功能。利用機(jī)器學(xué)習(xí)技術(shù),學(xué)習(xí)用戶歷史的操作習(xí)慣和日常往來的重要人物,自動(dòng)幫助用戶標(biāo)注重要郵件和自動(dòng)回復(fù)重要的郵件。
AI+NAS,釋放更大潛力
AI 技術(shù)在被應(yīng)用的某些階段或流程中,工作負(fù)載會(huì)表現(xiàn)出很大的差別,這對(duì)存儲(chǔ)系統(tǒng)也提出了很高的要求。在深度學(xué)習(xí)的場(chǎng)景中,需要一個(gè)共享的存儲(chǔ)空間來收集和存儲(chǔ)數(shù)據(jù)。這不僅要支撐順序讀寫的大塊工作負(fù)載,也要支撐隨機(jī)讀寫的小塊 IO 的工作負(fù)載。因此,AI+NAS 技術(shù)在未來的多項(xiàng)應(yīng)用場(chǎng)景中或?qū)⒌玫礁M(jìn)一步的突破進(jìn)展。
例如,如何實(shí)現(xiàn)無人機(jī)能夠自行躲避障礙物,甚至對(duì)工廠的管道自動(dòng)識(shí)別裂縫并進(jìn)行標(biāo)記,以防止可意外情況的發(fā)生可能,是無人機(jī) AI 技術(shù)應(yīng)用場(chǎng)景中一項(xiàng)較為棘手的問題。面對(duì)數(shù)據(jù)模型、算法訓(xùn)練等多項(xiàng)工作,前端會(huì)有多臺(tái)工作站進(jìn)行學(xué)習(xí),素材庫的數(shù)據(jù)量會(huì)非常大,所以需要對(duì)大量文件的頻繁存取,就可以使用群暉 NAS 保存數(shù)據(jù)。
隨著問題規(guī)模的不斷增大,數(shù)據(jù)量的不斷增加,以及訓(xùn)練用的神經(jīng)網(wǎng)絡(luò)深度的深度的不斷增加,AI(深度學(xué)習(xí))技術(shù)未來將對(duì)存儲(chǔ)和計(jì)算能力的需求越來越大。NAS 作為高可靠、高可用的存儲(chǔ)設(shè)備,可以結(jié)合 AI 技術(shù)釋放更大的潛力。
NAS 的未來一定不僅僅是“簡(jiǎn)單存儲(chǔ)”
在 InfoQ 的觀察中,NAS 的未來一定不僅僅是“簡(jiǎn)單存儲(chǔ)”,而是基于 NAS 實(shí)現(xiàn)更多的創(chuàng)新,例如群暉的這些舉措,本質(zhì)上是在鼓勵(lì)用戶基于 NAS 托管和開發(fā) IoT、AI 和機(jī)器學(xué)習(xí)解決方案,圍繞存儲(chǔ)向個(gè)人、家庭和企業(yè)用戶提供亟需的解決方案能力。
同時(shí)從某種程度上說,NAS 盒子是 AI 應(yīng)用程序的理想選擇,因?yàn)橛?xùn)練模型時(shí)使用的相關(guān)數(shù)據(jù)一定需要強(qiáng)大的存儲(chǔ)空間。但將 AI 技術(shù)應(yīng)用于 NAS 的過程中,也依然需要保持 NAS 本身相關(guān)的易用性。因此,在 NAS 設(shè)備上加入包括對(duì) AI 或 IoT 應(yīng)用的支持,例如群暉利用 AI 技術(shù)在企業(yè)細(xì)分市場(chǎng)提供存儲(chǔ)管理多重可能,也是在構(gòu)建另一層技術(shù)壁壘。