各種各樣的企業(yè)在加快AI和機(jī)器學(xué)習(xí)項(xiàng)目,但要真正發(fā)揮潛力,需要克服重大的技術(shù)障礙。雖然計(jì)算基礎(chǔ)架構(gòu)常常是關(guān)注的重點(diǎn),但存儲(chǔ)同樣重要。這三個(gè)主要的原因表明了為什么對象存儲(chǔ)(而不是文件存儲(chǔ)或塊存儲(chǔ))特別適合AI和機(jī)器學(xué)習(xí)工作負(fù)載:
1. 可擴(kuò)展性——有龐大且多樣的數(shù)據(jù)源可供學(xué)習(xí)時(shí),AI和機(jī)器學(xué)習(xí)最有效。數(shù)據(jù)科學(xué)家利用這些豐富的數(shù)據(jù)來訓(xùn)練領(lǐng)域模型。在“大數(shù)據(jù)的五個(gè)V”(容量、種類、速度、準(zhǔn)確性和價(jià)值)中,前兩個(gè)(容量和種類)最重要。簡而言之,AI和機(jī)器學(xué)習(xí)依賴大量多樣化的數(shù)據(jù)(圖像、文本、結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)),構(gòu)建有用的模型、提供準(zhǔn)確的結(jié)果并最終提供業(yè)務(wù)價(jià)值。
對象存儲(chǔ)是最具擴(kuò)展性的存儲(chǔ)架構(gòu),特別適合支持AI和機(jī)器學(xué)習(xí)所需的大量數(shù)據(jù)。對象存儲(chǔ)旨在通過橫向擴(kuò)展方法支持無限增長,使企業(yè)組織能夠通過隨時(shí)隨地添加節(jié)點(diǎn)來擴(kuò)大部署范圍。由于對象存儲(chǔ)使用單個(gè)全局命名空間,也可以同時(shí)跨多個(gè)地方進(jìn)行這種擴(kuò)展。另一方面,文件和塊系統(tǒng)通常采用縱向擴(kuò)展方法。這意味著這種平臺(tái)通過為單個(gè)節(jié)點(diǎn)添加更多計(jì)算資源實(shí)現(xiàn)縱向擴(kuò)展,這種方法最終受到限制。它們無法通過部署額外節(jié)點(diǎn)來增加計(jì)算資源以高效地橫向擴(kuò)展。
2. API——健壯靈活的數(shù)據(jù)API對于AI和機(jī)器學(xué)習(xí)很重要,如前所述,AI和機(jī)器學(xué)習(xí)使用多種類型的數(shù)據(jù)。存儲(chǔ)平臺(tái)需要支持API以容納各種數(shù)據(jù)。此外,AI和機(jī)器學(xué)習(xí)方面的創(chuàng)新日益在公共云上完成,但是仍有相當(dāng)一部分的AI和機(jī)器學(xué)習(xí)在本地或私有云中進(jìn)行,這取決于使用場合的具體情況(比如說,科學(xué)研究和醫(yī)療保健等領(lǐng)域的容量密集型工作負(fù)載往往最適合私有云)。這意味著企業(yè)需要在公共云和本地/私有云中都支持工作負(fù)載的存儲(chǔ)API。
文件和塊存儲(chǔ)平臺(tái)在它們支持的API方面受到限制,部分原因是它們是較舊的架構(gòu)。相比之下,對象存儲(chǔ)使用云端更高級的API,這種API旨在以應(yīng)用程序?yàn)橹行模⒅С直任募蛪K存儲(chǔ)更廣泛的API,包括版本控制、生命周期管理、加密、對象鎖定和元數(shù)據(jù)。此外,支持AI和機(jī)器學(xué)習(xí)使用場景的新對象存儲(chǔ)API(比如支持流數(shù)據(jù)和海量數(shù)據(jù)集的查詢)也有可能。
由于對象存儲(chǔ)API圍繞Amazon S3實(shí)現(xiàn)了標(biāo)準(zhǔn)化,更容易整合本地和公共云中的軟件。企業(yè)可以輕松地將部署的AI和機(jī)器學(xué)習(xí)從本地/私有云環(huán)境擴(kuò)展到公共云,或者將云原生的AI和機(jī)器學(xué)習(xí)工作負(fù)載遷移到本地環(huán)境,功能不會(huì)減損。這種雙模式方法使企業(yè)能夠以合作、可互換的方式利用本地/私有云和公共云上的資源。
由于S3 API已成為對象存儲(chǔ)事實(shí)上的標(biāo)準(zhǔn),許多軟件工具和庫都可以充分利用該API。這允許共享代碼、軟件和工具,促進(jìn)AI/機(jī)器學(xué)習(xí)社區(qū)更快速的開發(fā)。例子包括流行的機(jī)器學(xué)習(xí)平臺(tái),比如擁有內(nèi)置S3 API的TensorFlow和Apache Spark。
3.元數(shù)據(jù)——與API一樣,使用AI和機(jī)器學(xué)習(xí)的企業(yè)利用無限制、可自定義的元數(shù)據(jù)顯得至關(guān)重要。元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù)——從最基本的層面上講,某個(gè)數(shù)據(jù)何時(shí)在何地創(chuàng)建、創(chuàng)建者是誰。但是元數(shù)據(jù)可以描述更多信息:用戶可以創(chuàng)建任意的元數(shù)據(jù)標(biāo)簽來描述他們需要的任何屬性。
數(shù)據(jù)科學(xué)家需要豐富的元數(shù)據(jù)來查找特定數(shù)據(jù)以構(gòu)建和使用AI和機(jī)器學(xué)習(xí)模型。隨著更多信息添加到數(shù)據(jù)中,元數(shù)據(jù)注釋便于逐步積累知識(shí)。
文件和塊存儲(chǔ)僅支持有限的元數(shù)據(jù),比如上述基本屬性。這在很大程度上歸結(jié)為可擴(kuò)展性,因?yàn)槲募蛪K系統(tǒng)無力支持快速無縫的增長,如果存儲(chǔ)系統(tǒng)為依賴龐大數(shù)據(jù)集的AI和機(jī)器學(xué)習(xí)應(yīng)用程序支持豐富的元數(shù)據(jù),自然會(huì)出現(xiàn)這種情況。然而,對象存儲(chǔ)支持無限制的、完全可自定義的元數(shù)據(jù),從而更容易找到用于AI和機(jī)器學(xué)習(xí)算法的數(shù)據(jù),并從中獲得更準(zhǔn)確的信息。
以一家醫(yī)院針對X射線圖像使用圖像識(shí)別應(yīng)用程序?yàn)槔河辛嗽獢?shù)據(jù),可以使用TensorFlow模型來分析添加到對象存儲(chǔ)系統(tǒng)的每個(gè)圖像,然后為每個(gè)圖像分配細(xì)化的元數(shù)據(jù)標(biāo)簽(比如,傷病類型、基于骨骼大小或生長情況來判斷患者的年齡或性別)。然后可以針對該元數(shù)據(jù)訓(xùn)練TensorFlow模型,并加以分析,對患者獲得新的寶貴信息(比如說,二三十歲的女性比五年前更容易患骨骼疾病)。
幾乎每家《財(cái)富》 500強(qiáng)公司都在大張旗鼓地搞AI和機(jī)器學(xué)習(xí),可以想象這些技術(shù)在可預(yù)見的將來將是最重要的企業(yè)IT項(xiàng)目。然而,AI/機(jī)器學(xué)習(xí)項(xiàng)目要獲得回報(bào),企業(yè)就要使用合適的存儲(chǔ)基礎(chǔ)架構(gòu)。由于可擴(kuò)展性、支持各種API(尤其是S3)和豐富的元數(shù)據(jù),對象存儲(chǔ)可謂是AI和機(jī)器學(xué)習(xí)的最佳支柱。