大模型存儲(chǔ)需求及技術(shù)策略

隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展,大模型已廣泛應(yīng)用于各個(gè)領(lǐng)域,大模型擁有更強(qiáng)的數(shù)據(jù)處理能力和更高的預(yù)測(cè)精度,為企業(yè)提供了更為精準(zhǔn)的業(yè)務(wù)分析和預(yù)測(cè)服務(wù)。

本文來(lái)自微信公眾號(hào)“twt企業(yè)IT社區(qū)”,作者/劉艷春。

隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展,大模型已廣泛應(yīng)用于各個(gè)領(lǐng)域,大模型擁有更強(qiáng)的數(shù)據(jù)處理能力和更高的預(yù)測(cè)精度,為企業(yè)提供了更為精準(zhǔn)的業(yè)務(wù)分析和預(yù)測(cè)服務(wù)。然而,在數(shù)據(jù)獲取,數(shù)據(jù)處理、模型訓(xùn)練、模型微調(diào)、推理應(yīng)用等業(yè)務(wù)流程中,特別是在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音處理以及跨模態(tài)檢索生成等關(guān)鍵環(huán)節(jié)中,每個(gè)階段都涉及數(shù)據(jù)的存儲(chǔ)與訪問(wèn),對(duì)存儲(chǔ)系統(tǒng)有很大的挑戰(zhàn)。一方面,大模型的訓(xùn)練和推理過(guò)程需要大規(guī)模數(shù)據(jù)的支持,這些數(shù)據(jù)需要高效的存儲(chǔ)和訪問(wèn);另一方面,大模型的部署和維護(hù)需要穩(wěn)定、高效的存儲(chǔ)系統(tǒng),以確保模型的持續(xù)運(yùn)行和數(shù)據(jù)的可靠性,同時(shí)還需要注重?cái)?shù)據(jù)的安全性和隱私保護(hù)。為了應(yīng)對(duì)這些挑戰(zhàn),企業(yè)需要采用高效的數(shù)據(jù)處理技術(shù)和算法,同時(shí)需要構(gòu)建高性能、可擴(kuò)展的存儲(chǔ)系統(tǒng),以滿足數(shù)據(jù)處理的實(shí)時(shí)性和可靠性需求。

一、AI大模型存儲(chǔ)需求

AI大模型的存儲(chǔ)需求,隨著業(yè)務(wù)場(chǎng)景復(fù)雜性和數(shù)據(jù)量的增長(zhǎng),在不斷演變和升級(jí)。模型的數(shù)據(jù)處理模式已經(jīng)從單一類型轉(zhuǎn)向包含文本、圖片、音頻、視頻等在內(nèi)的多模態(tài)數(shù)據(jù),這種轉(zhuǎn)變導(dǎo)致原始數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),往往達(dá)到PB級(jí)別。這就要求存儲(chǔ)系統(tǒng)必須具備足夠大的容量,以容納這些海量的多模態(tài)數(shù)據(jù)。同時(shí),AI大模型的規(guī)模也在持續(xù)擴(kuò)大,參數(shù)數(shù)量從數(shù)百萬(wàn)躍升至千億甚至萬(wàn)億級(jí)別,這種龐大的模型規(guī)模不僅對(duì)計(jì)算資源提出了更高的要求,也對(duì)存儲(chǔ)系統(tǒng)的性能和穩(wěn)定性構(gòu)成了嚴(yán)峻的挑戰(zhàn)。由于模型訓(xùn)練涉及大量的數(shù)據(jù)讀寫操作,包括向量庫(kù)、日志、超大CheckPoint文件等,這就要求存儲(chǔ)系統(tǒng)必須具備出色的I/O性能、高帶寬和低延遲,減少寶貴GPU算力資源的等待。有數(shù)據(jù)顯示,千卡多模態(tài)大模型單個(gè)CheckPoint文件能夠達(dá)到TB級(jí),在訓(xùn)練過(guò)程中大模型每隔2小時(shí)左右就會(huì)暫停保存CheckPoint,這時(shí)GPU資源都是被浪費(fèi)的。因此需要存儲(chǔ)的高性能能力,來(lái)減少GPU等待。除了容量和性能方面的需求外,AI大模型還對(duì)存儲(chǔ)系統(tǒng)的穩(wěn)定性有著極高的要求。在訓(xùn)練過(guò)程中,任何數(shù)據(jù)丟失或存儲(chǔ)故障都可能導(dǎo)致模型訓(xùn)練的失敗,甚至造成無(wú)法挽回的損失。因此,存儲(chǔ)系統(tǒng)的穩(wěn)定性對(duì)于AI大模型的訓(xùn)練和推理至關(guān)重要。

在應(yīng)對(duì)海量小文件方面,存儲(chǔ)系統(tǒng)需要展現(xiàn)出高并發(fā)、低延遲的特性。由于小文件數(shù)量巨大,存儲(chǔ)系統(tǒng)需要能夠快速響應(yīng)并發(fā)讀寫請(qǐng)求,避免因延遲過(guò)高而影響模型訓(xùn)練和推理的效率。同時(shí),隨著業(yè)務(wù)規(guī)模的不斷擴(kuò)大和數(shù)據(jù)量的持續(xù)增加,存儲(chǔ)系統(tǒng)還需要具備優(yōu)秀的擴(kuò)展性,以靈活應(yīng)對(duì)未來(lái)的增長(zhǎng)需求。

對(duì)于異構(gòu)多模態(tài)數(shù)據(jù)的存儲(chǔ)需求,存儲(chǔ)系統(tǒng)需要能夠高效管理并加載相互關(guān)聯(lián)、嵌套的數(shù)據(jù)。要求存儲(chǔ)系統(tǒng)不僅具備高性能和可擴(kuò)展性,還需要具備高度的可維護(hù)性和可靠性。同時(shí),隨著大模型對(duì)分布式并行訓(xùn)練的需求日益增長(zhǎng),存儲(chǔ)系統(tǒng)還需要支持高并發(fā)、低延遲的數(shù)據(jù)加載和模型訓(xùn)練,存儲(chǔ)系統(tǒng)需要具備出色的數(shù)據(jù)吞吐能力和低延遲性能,以滿足大規(guī)模并行訓(xùn)練的需求。

隨著數(shù)據(jù)使用頻率和價(jià)值的變化,存儲(chǔ)系統(tǒng)還需具備數(shù)據(jù)生命周期管理能力,智能地進(jìn)行數(shù)據(jù)歸檔、刪除和遷移,從而優(yōu)化存儲(chǔ)資源使用,提高數(shù)據(jù)訪問(wèn)效率,降低存儲(chǔ)成本并提升數(shù)據(jù)價(jià)值。同時(shí),隨著云計(jì)算和邊緣計(jì)算技術(shù)的不斷進(jìn)步,跨平臺(tái)的數(shù)據(jù)訪問(wèn)和共享已成為大模型存儲(chǔ)系統(tǒng)的關(guān)鍵特性,要求存儲(chǔ)系統(tǒng)必須提供高度一致的數(shù)據(jù)服務(wù),并確保高可用性和容錯(cuò)能力,要求存儲(chǔ)系統(tǒng)支持多種協(xié)議和接口,實(shí)現(xiàn)數(shù)據(jù)的靈活流動(dòng)和高效協(xié)作。

AI大模型訓(xùn)練中心也面臨著巨大的能耗壓力,例如ChatGPT每天可能要消耗超過(guò)50萬(wàn)千瓦時(shí)的電力,以響應(yīng)用戶的約2億個(gè)請(qǐng)求。GPT3每訓(xùn)練一次,就要消耗128.7萬(wàn)度電,消耗的電力是我們?nèi)賯€(gè)家庭一年的電量。馬斯克曾說(shuō)AI發(fā)展正在從缺硅走向缺電,因此存儲(chǔ)作為AI數(shù)據(jù)中心關(guān)鍵基礎(chǔ)設(shè)施,既要考慮高性能、高可用性和大容量,還需要考慮AI數(shù)據(jù)中心綠色節(jié)能的訴求。

640 (1).png

圖1大模型存儲(chǔ)挑戰(zhàn)與需求

綜上所述,AI大模型對(duì)存儲(chǔ)的需求是多方面的,包括大容量、高性能、高穩(wěn)定性、高效性、綠色節(jié)能以及跨平臺(tái)的數(shù)據(jù)訪問(wèn)和共享能力等。隨著AI技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,這些需求還將持續(xù)演化和升級(jí)。因此,需要不斷創(chuàng)新和優(yōu)化存儲(chǔ)技術(shù),以滿足AI大模型日益增長(zhǎng)的存儲(chǔ)需求,并推動(dòng)AI技術(shù)的廣泛應(yīng)用和發(fā)展。

二、大模型存儲(chǔ)技術(shù)策略

未來(lái)大模型存儲(chǔ)的方向?qū)⒏鶕?jù)不同應(yīng)用場(chǎng)景和實(shí)際需求來(lái)靈活選擇適宜的存儲(chǔ)方式,如分布式存儲(chǔ)、對(duì)象存儲(chǔ)、數(shù)據(jù)湖以及集中存儲(chǔ)等,以實(shí)現(xiàn)數(shù)據(jù)的高效管理、快速訪問(wèn)和靈活擴(kuò)展。建議存儲(chǔ)技術(shù)策略如下:

1.分塊存儲(chǔ):針對(duì)海量小文件,建議將小文件分成固定大小的數(shù)據(jù)塊,分別存儲(chǔ)在不同的存儲(chǔ)節(jié)點(diǎn)上。這種方式可以有效地提高并發(fā)讀寫性能,降低單個(gè)節(jié)點(diǎn)的負(fù)載。同時(shí),通過(guò)合理地分配數(shù)據(jù)塊,可以避免節(jié)點(diǎn)間的數(shù)據(jù)熱點(diǎn),提高存儲(chǔ)效率。

2.緩存加速:緩存加速技術(shù)利用高速緩存設(shè)備,將頻繁訪問(wèn)的數(shù)據(jù)暫存于本地或高速存儲(chǔ)中,顯著提升了數(shù)據(jù)的讀寫速度和處理效率。合理調(diào)整緩存容量和策略,不僅有效避免了緩存失效及擊穿等潛在問(wèn)題,還實(shí)現(xiàn)了多層次的緩存優(yōu)化,按需將熱數(shù)據(jù)緩存到GPU內(nèi)存和本地盤中,利用數(shù)據(jù)本地性提供高性能訪問(wèn)。訓(xùn)練先將Checkpoint寫到性能相對(duì)容易保證的本地存儲(chǔ),再向遠(yuǎn)端對(duì)象存儲(chǔ)服務(wù)器/數(shù)據(jù)湖上傳。

3.數(shù)據(jù)壓縮:采用數(shù)據(jù)壓縮技術(shù),對(duì)小文件數(shù)據(jù)進(jìn)行壓縮存儲(chǔ)。可有效地減少存儲(chǔ)的空間占用,提高存儲(chǔ)效率。同時(shí),通過(guò)合理地選擇壓縮算法和壓縮參數(shù),可以平衡壓縮和解壓縮的時(shí)間消耗,避免對(duì)存儲(chǔ)性能產(chǎn)生過(guò)大影響。

4.去重技術(shù):利用去重技術(shù),去除重復(fù)文件數(shù)據(jù),只存儲(chǔ)一份數(shù)據(jù)副本。這種方式可以有效減少存儲(chǔ)空間的占用,提高存儲(chǔ)效率。同時(shí),通過(guò)合理地選擇去重算法和去重參數(shù),可以避免對(duì)存儲(chǔ)性能產(chǎn)生過(guò)大影響。

5.連續(xù)穩(wěn)定:為了確保訓(xùn)練的連續(xù)性和穩(wěn)定性,存儲(chǔ)系統(tǒng)需要提供強(qiáng)大的訓(xùn)練斷點(diǎn)保存與恢復(fù)功能。模型訓(xùn)練的Checkpoint機(jī)制是確保訓(xùn)練過(guò)程可靠性的關(guān)鍵。通過(guò)優(yōu)化Checkpoint過(guò)程并減少其耗時(shí),降低訓(xùn)練中斷的時(shí)間,提高訓(xùn)練效率and/or利用率,減少GPU空閑,優(yōu)化數(shù)據(jù)清洗過(guò)程,數(shù)據(jù)搬運(yùn)和處理與計(jì)算重疊;2.優(yōu)化讀取過(guò)程,讓每Epoch讀取數(shù)據(jù)耗時(shí)小于計(jì)算耗時(shí)。同時(shí)存儲(chǔ)系統(tǒng)需要具備高帶寬的特性,從而確保數(shù)據(jù)能夠迅速、穩(wěn)定存儲(chǔ)。

6.異構(gòu)多模態(tài)存儲(chǔ):采用分布式存儲(chǔ)系統(tǒng),如Hadoop、Spark等,將異構(gòu)多模態(tài)數(shù)據(jù)分布存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,實(shí)現(xiàn)數(shù)據(jù)的并行讀寫和高效處理。采用并行計(jì)算框架,如TensorFlow、PyTorch等,結(jié)合分布式存儲(chǔ)系統(tǒng),實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的快速訓(xùn)練和加載。建立異構(gòu)多模態(tài)文件數(shù)據(jù)間的關(guān)聯(lián)和嵌套關(guān)系,例如圖-文對(duì)應(yīng)、文-視頻對(duì)應(yīng)等,以實(shí)現(xiàn)數(shù)據(jù)的多模態(tài)融合。

三、大模型存儲(chǔ)未來(lái)方向

分布式存儲(chǔ)可以通過(guò)將數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)來(lái)實(shí)現(xiàn)可擴(kuò)展性和容錯(cuò)性,非常適合大規(guī)模數(shù)據(jù)存儲(chǔ)和處理。而對(duì)象存儲(chǔ)則提供了更加靈活的數(shù)據(jù)存儲(chǔ)和管理方式,適用于各種類型的數(shù)據(jù),包括圖片、視頻、文本等。

此外,數(shù)據(jù)湖作為一種新的數(shù)據(jù)存儲(chǔ)和處理架構(gòu),將公開(kāi)數(shù)據(jù)集、訓(xùn)練數(shù)據(jù)、模型結(jié)果統(tǒng)一存儲(chǔ)到數(shù)據(jù)湖,實(shí)現(xiàn)不同形態(tài)的數(shù)據(jù)統(tǒng)一存儲(chǔ)和高效流轉(zhuǎn),避免數(shù)據(jù)在AI大模型不同的階段頻繁拷貝,降低效率。為落地多模態(tài)、萬(wàn)億參數(shù)大模型,企業(yè)數(shù)據(jù)湖將需要具備如下能力:1)支持EB級(jí)的橫向擴(kuò)展能力來(lái)應(yīng)對(duì)多模態(tài)海量數(shù)據(jù)的爆發(fā);2)支持10TB級(jí)的帶寬,億級(jí)的IOPS,數(shù)據(jù)加載、斷點(diǎn)/故障恢復(fù)CheckPoint加載時(shí)長(zhǎng)從小時(shí)級(jí)->秒級(jí);3)提供全局統(tǒng)一命名空間、數(shù)據(jù)同步一致訪問(wèn)、數(shù)據(jù)強(qiáng)一致的存儲(chǔ)集群,降低AI調(diào)度平臺(tái)復(fù)雜度。對(duì)于追求極致性能和能效比的應(yīng)用場(chǎng)景,存算一體化和近存加速技術(shù)或?qū)⒚摲f而出。而對(duì)于需要靈活性和可擴(kuò)展性的應(yīng)用,存算分離策略可能更為合適。展望未來(lái),大模型存儲(chǔ)將呈現(xiàn)綜合性發(fā)展趨勢(shì),不僅關(guān)注性能與效率,還強(qiáng)調(diào)可靠性、安全性、多模態(tài)支持、智能化管理以及綠色環(huán)保等多個(gè)維度。隨著技術(shù)的持續(xù)革新和應(yīng)用需求的不斷演變,大模型存儲(chǔ)系統(tǒng)必將迎接新挑戰(zhàn),并持續(xù)創(chuàng)造新的價(jià)值。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論