如今,各種類型的企業(yè)都致力于采用人工智能和機(jī)器學(xué)習(xí)項(xiàng)目,但要發(fā)揮其真正的潛力,則需要克服重大的技術(shù)障礙。雖然計(jì)算基礎(chǔ)設(shè)施通常是重點(diǎn),但存儲(chǔ)設(shè)施也同樣重要。以下是對(duì)象存儲(chǔ)(而不是文件或塊存儲(chǔ))適用在加強(qiáng)人工智能和機(jī)器學(xué)習(xí)工作負(fù)載的三個(gè)主要原因:
1.可擴(kuò)展性
當(dāng)有大量不同的數(shù)據(jù)源可供學(xué)習(xí)時(shí),采用人工智能和機(jī)器學(xué)習(xí)技術(shù)最有效。數(shù)據(jù)科學(xué)家利用這些豐富的數(shù)據(jù)來(lái)訓(xùn)練領(lǐng)域模型。在“大數(shù)據(jù)的五個(gè)V”(數(shù)量、類型、速度、準(zhǔn)確性和價(jià)值)中,前兩個(gè)(數(shù)量和類型)最為重要。簡(jiǎn)而言之,人工智能和機(jī)器學(xué)習(xí)依賴于大量不同的數(shù)據(jù)(圖像、文本、結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù))來(lái)構(gòu)建有用的模型,提供準(zhǔn)確的結(jié)果,并最終提供業(yè)務(wù)價(jià)值。
對(duì)象存儲(chǔ)是最具擴(kuò)展性的存儲(chǔ)架構(gòu),特別適合支持人工智能和機(jī)器學(xué)習(xí)所需的大量數(shù)據(jù)。對(duì)象存儲(chǔ)旨在通過(guò)水平擴(kuò)展方法實(shí)現(xiàn)無(wú)限增長(zhǎng),從而使企業(yè)可以通過(guò)在需要的位置和時(shí)間添加節(jié)點(diǎn)來(lái)增加部署。由于對(duì)象存儲(chǔ)使用單個(gè)全局名稱空間,因此也可以一次在多個(gè)地理位置上進(jìn)行這種擴(kuò)展。另一方面,文件和塊系統(tǒng)通常采用擴(kuò)展方法。這意味著這些平臺(tái)通過(guò)向單個(gè)節(jié)點(diǎn)添加更多計(jì)算資源來(lái)實(shí)現(xiàn)垂直擴(kuò)展,這最終會(huì)受到限制。他們無(wú)法通過(guò)部署其他節(jié)點(diǎn)來(lái)增加計(jì)算資源,從而無(wú)法有效地水平擴(kuò)展。
2. API
健壯靈活的數(shù)據(jù)API對(duì)于人工智能和機(jī)器學(xué)習(xí)非常重要,如上所述,它們使用了多種數(shù)據(jù)類型。存儲(chǔ)平臺(tái)需要支持API來(lái)容納各種數(shù)據(jù)。此外,人工智能和機(jī)器學(xué)習(xí)的創(chuàng)新越來(lái)越多地在公共云上進(jìn)行,但是仍然有相當(dāng)一部分人工智能和機(jī)器學(xué)習(xí)在內(nèi)部部署數(shù)據(jù)中心或私有云中發(fā)生,這取決于用例的具體情況(例如,科學(xué)研究和醫(yī)療保健等領(lǐng)域通常最適合私有云)。這意味著組織需要一個(gè)存儲(chǔ)API,以支持公共云和本地/私有云中的工作負(fù)載。
文件和塊存儲(chǔ)平臺(tái)所支持的API受限制,部分原因是它們是較舊的架構(gòu)。相比之下,對(duì)象存儲(chǔ)使用云平臺(tái)中固有的高級(jí)API,該API設(shè)計(jì)為以應(yīng)用程序?yàn)橹行模c文件和塊存儲(chǔ)相比,它支持范圍更廣的API,其中包括版本控制、生命周期管理、加密、對(duì)象鎖定和元數(shù)據(jù)。此外,支持人工智能和機(jī)器學(xué)習(xí)用例的新對(duì)象存儲(chǔ)API(例如對(duì)流數(shù)據(jù)的支持和對(duì)海量數(shù)據(jù)集的查詢的支持)也是可能的。
通過(guò)圍繞Amazon S3的對(duì)象存儲(chǔ)API的標(biāo)準(zhǔn)化,可以更輕松地在內(nèi)部部署和公共云中集成軟件。企業(yè)可以輕松地將人工智能和機(jī)器學(xué)習(xí)部署從內(nèi)部部署/私有云環(huán)境擴(kuò)展到公共云,或者將云原生的人工智能和機(jī)器學(xué)習(xí)工作負(fù)載遷移到內(nèi)部部署環(huán)境,而不會(huì)損失功能。這種雙模式方法使組織可以合作且可互換地利用內(nèi)部部署/私有云和公共云資源。
由于S3 API已成為對(duì)象存儲(chǔ)的事實(shí)上的標(biāo)準(zhǔn),因此許多軟件工具和庫(kù)都可以利用該API。這允許共享代碼、軟件和工具,以促進(jìn)人工智能和機(jī)器學(xué)習(xí)社區(qū)中更快的開(kāi)發(fā)。示例包括流行的機(jī)器學(xué)習(xí)平臺(tái),例如具有內(nèi)置S3 API的TensorFlow和Apache Spark。
3.元數(shù)據(jù)
與API一樣,使用人工智能和機(jī)器學(xué)習(xí)的組織必須利用無(wú)限的可自定義的元數(shù)據(jù),這一點(diǎn)至關(guān)重要。元數(shù)據(jù)只是關(guān)于數(shù)據(jù)的數(shù)據(jù),在最基本的層面上,是在何時(shí)何地創(chuàng)建的數(shù)據(jù),以及是誰(shuí)創(chuàng)建的數(shù)據(jù)。但是元數(shù)據(jù)可以描述更多內(nèi)容:用戶可以創(chuàng)建任意的元數(shù)據(jù)標(biāo)記來(lái)描述他們想要的任何屬性。
數(shù)據(jù)科學(xué)家需要豐富的元數(shù)據(jù)來(lái)查找特定數(shù)據(jù)以構(gòu)建和使用其人工智能和機(jī)器學(xué)習(xí)模型。隨著更多信息添加到數(shù)據(jù)中,元數(shù)據(jù)注釋可逐步積累知識(shí)。
文件和塊存儲(chǔ)僅支持有限的元數(shù)據(jù),例如上述基本屬性。這在很大程度上可以歸結(jié)為可擴(kuò)展性,因?yàn)槲募蛪K系統(tǒng)未配備快速無(wú)縫的增長(zhǎng)功能,如果存儲(chǔ)系統(tǒng)支持依賴大量數(shù)據(jù)集的人工智能和機(jī)器學(xué)習(xí)應(yīng)用程序的豐富元數(shù)據(jù),則自然會(huì)發(fā)生這種情況。但是,對(duì)象存儲(chǔ)支持無(wú)限的、完全可自定義的元數(shù)據(jù),從而使查找用于人工智能和機(jī)器學(xué)習(xí)算法的數(shù)據(jù)更加容易,并從中獲得更好的見(jiàn)解。
以一家醫(yī)院在X光圖像上使用圖像識(shí)別應(yīng)用程序?yàn)槔菏褂迷獢?shù)據(jù),可以使用TensorFlow模型分析添加到對(duì)象存儲(chǔ)系統(tǒng)中的每個(gè)圖像,然后為每個(gè)圖像分配更加精細(xì)的元數(shù)據(jù)標(biāo)簽(例如,損傷類型、基于骨骼大小或生長(zhǎng)的患者年齡或性別等)。TensorFlow模型可以在元數(shù)據(jù)上進(jìn)行訓(xùn)練,并對(duì)其進(jìn)行分析,得出新的患者見(jiàn)解(例如與五年前相比,如今20歲到30歲的婦女患上的骨科疾病更多)。
幾乎每一家財(cái)富500強(qiáng)公司都在考慮采用人工智能和機(jī)器學(xué)習(xí),可以想象這些技術(shù)將在可預(yù)見(jiàn)的將來(lái)成為最重要的企業(yè)IT計(jì)劃。然而,要使人工智能和機(jī)器學(xué)習(xí)計(jì)劃獲得回報(bào),企業(yè)必須利用正確的存儲(chǔ)基礎(chǔ)設(shè)施。對(duì)象存儲(chǔ)由于其可擴(kuò)展性、對(duì)各種API(特別是S3)的支持以及豐富的元數(shù)據(jù),是人工智能和機(jī)器學(xué)習(xí)的最佳支柱。