本文來(lái)自微信公眾號(hào)“科技云報(bào)到”。
隨著大模型從理論探索走向?qū)嶋H應(yīng)用,大模型的落地正在考驗(yàn)千千萬(wàn)萬(wàn)的企業(yè)。首要且核心的關(guān)注點(diǎn),無(wú)疑是從數(shù)據(jù)做起。
數(shù)據(jù),作為大模型的“燃料”,其質(zhì)量、多樣性與規(guī)模直接決定了大模型性能的天花板。因此,建立一套高效、可靠的數(shù)據(jù)處理流程,確保數(shù)據(jù)的質(zhì)量與合規(guī)性,成為了大模型落地的基石。
然而,構(gòu)建大模型的數(shù)據(jù)能力并不容易。如何找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù)?如何清洗加工原始數(shù)據(jù)?如何有效地進(jìn)行數(shù)據(jù)治理?如何將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值?
種種問題橫亙?cè)谄髽I(yè)和大模型之間,成為生成式AI時(shí)代的數(shù)據(jù)挑戰(zhàn)。
大模型時(shí)代的數(shù)據(jù)挑戰(zhàn)
如今基礎(chǔ)大模型遍地開花,開源大模型更是隨處可見,每個(gè)企業(yè)都能訪問相同的基礎(chǔ)大模型,但能夠利用自己的數(shù)據(jù)構(gòu)建生成式AI應(yīng)用的企業(yè)卻并不多見。
很重要的一個(gè)原因在于,從數(shù)據(jù)利用到大模型應(yīng)用,中間還需要大量的準(zhǔn)備工作。
一是,企業(yè)基于自身數(shù)據(jù)去定制基礎(chǔ)模型,不同的應(yīng)用場(chǎng)景需要不同的數(shù)據(jù)處理方式。
比如,在檢索增強(qiáng)生成(RAG)場(chǎng)景中,企業(yè)將自身的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等與生成式AI模型相結(jié)合,在生成過程中需要實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù),從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。
RAG需要GB級(jí)企業(yè)數(shù)據(jù),數(shù)據(jù)來(lái)源是企業(yè)內(nèi)部文檔庫(kù)、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、知識(shí)圖譜。技術(shù)要求上,RAG需要向量檢索來(lái)迅速查找讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。
在微調(diào)場(chǎng)景中,企業(yè)使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,以提高其在特定任務(wù)上的性能。
微調(diào)需要GB級(jí)人工標(biāo)的高質(zhì)量數(shù)據(jù),數(shù)據(jù)來(lái)源為私域知識(shí),技術(shù)上要求選取和檢驗(yàn)符合業(yè)務(wù)需求的高質(zhì)量數(shù)據(jù)集。
在持續(xù)預(yù)訓(xùn)練場(chǎng)景中,企業(yè)利用自身專有數(shù)據(jù)(如內(nèi)部文檔、客戶記錄等)對(duì)模型進(jìn)行持續(xù)預(yù)訓(xùn)練。這種持續(xù)預(yù)訓(xùn)練門檻較高、成本較大,但可以得到一個(gè)企業(yè)自身定制的行業(yè)大模型。
持續(xù)預(yù)訓(xùn)練需要TB級(jí)未標(biāo)的原始數(shù)據(jù),數(shù)據(jù)來(lái)源為公開的數(shù)據(jù)集或企業(yè)各部門的數(shù)據(jù),技術(shù)上要求大規(guī)模、分布式清洗加工原始數(shù)據(jù)集的能力。
二是,企業(yè)需要具備強(qiáng)大的處理新數(shù)據(jù)的能力,才能有效構(gòu)建生成式AI應(yīng)用。
對(duì)生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。相對(duì)于此前數(shù)據(jù)庫(kù)調(diào)用通常毫秒級(jí)甚至微秒級(jí)的響應(yīng)時(shí)間,基礎(chǔ)模型每次調(diào)用時(shí)長(zhǎng)往往達(dá)到秒級(jí)。此外,每次調(diào)用基礎(chǔ)模型也會(huì)增加成本。
因此,加快數(shù)據(jù)處理速度,才能有效地在調(diào)用大模型時(shí)降本增效。
打造生成式AI時(shí)代的數(shù)據(jù)基座
面對(duì)大模型構(gòu)建中的數(shù)據(jù)存儲(chǔ)、清洗、加工、查詢、調(diào)用等各種挑戰(zhàn),企業(yè)是否有高效的數(shù)據(jù)解決方案來(lái)應(yīng)對(duì)?
首先,針對(duì)大模型的微調(diào)、預(yù)訓(xùn)練,企業(yè)需要找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù),清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集,以及對(duì)整個(gè)組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。
因此,在數(shù)據(jù)存儲(chǔ)方面,擴(kuò)展性和響應(yīng)速度是關(guān)鍵。
一方面,需要能夠承載海量數(shù)據(jù);另一方面,存儲(chǔ)性能必須跟上計(jì)算資源——避免因?yàn)閿?shù)據(jù)傳輸瓶頸造成高昂計(jì)算資源的浪費(fèi),或是吞吐量瓶頸導(dǎo)致更長(zhǎng)的訓(xùn)練時(shí)間。
比如,亞馬遜云科技上超過20萬(wàn)個(gè)數(shù)據(jù)湖都使用Amazon S3,它支持廣泛的數(shù)據(jù)協(xié)議,能夠輕松應(yīng)對(duì)各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本,其安全和功能都滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對(duì)數(shù)據(jù)存儲(chǔ)上的要求。
專門構(gòu)建的文件存儲(chǔ)服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。
在數(shù)據(jù)清洗方面,企業(yè)需要靈活的工具來(lái)完成數(shù)據(jù)清理、去重、乃至分詞的操作,能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。
比如,Amazon EMR serverless采用無(wú)服務(wù)器架構(gòu),能夠幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載,自動(dòng)擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。
而Amazon Glue則是一個(gè)簡(jiǎn)單可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。
在數(shù)據(jù)治理方面,企業(yè)難以在多個(gè)賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。因此,一個(gè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù)的統(tǒng)一數(shù)據(jù)管理平臺(tái),成為企業(yè)的必選項(xiàng)。
其次,針對(duì)大模型RAG場(chǎng)景,企業(yè)需要向量檢索來(lái)迅速查找,讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。
這其中的技術(shù)關(guān)鍵是向量嵌入(vector embeddings),它通過將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算。
理想的情況是將向量搜索和數(shù)據(jù)存儲(chǔ)結(jié)合在一起,這樣企業(yè)就能將向量檢索和現(xiàn)有數(shù)據(jù)關(guān)聯(lián)起來(lái),并得到更快的體驗(yàn)。
比如,亞馬遜云科技就專門構(gòu)建了圖數(shù)據(jù)庫(kù)Amazon Neptune,并為其推出了分析數(shù)據(jù)庫(kù)引擎,能夠提升80倍的圖數(shù)據(jù)分析速度,使用內(nèi)置算法可在幾秒鐘分析數(shù)百億個(gè)連接。通過將圖和向量數(shù)據(jù)一直存儲(chǔ)能夠?qū)崿F(xiàn)更快的向量搜索。
最后,有效處理生成式AI應(yīng)用的新數(shù)據(jù),企業(yè)能夠降低模型頻繁調(diào)用成本并提升性能。
很多企業(yè)在推出生成式AI應(yīng)用后會(huì)發(fā)現(xiàn),基礎(chǔ)大模型的頻繁調(diào)用會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。但如果將之前問答生成的新數(shù)據(jù)存入緩存,不調(diào)用模型,而直接通過緩存給出回答,就能夠減少模型調(diào)用,還可以節(jié)約成本。
Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù)就是這樣一種工具,能夠存儲(chǔ)數(shù)百萬(wàn)個(gè)向量,只需要幾毫秒的響應(yīng)時(shí)間,就能夠以99%的召回率實(shí)現(xiàn)每秒百萬(wàn)次的查詢性能。
結(jié)語(yǔ)
在大模型快速爆發(fā)的當(dāng)下,企業(yè)缺的并不是大模型本身,而是以自身需求為中心去構(gòu)建大模型應(yīng)用,而這個(gè)構(gòu)建的過程并不容易。
正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所說(shuō):“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。”
亞馬遜云科技提供的正是企業(yè)構(gòu)建生成式AI應(yīng)用程序所需的一系列數(shù)據(jù)功能,能夠在實(shí)現(xiàn)簡(jiǎn)化開發(fā)的同時(shí)確保隱私性和安全性。
事實(shí)上,亞馬遜云科技不僅能提供數(shù)據(jù)工具,在云基礎(chǔ)設(shè)施服務(wù)、模型層服務(wù)、應(yīng)用層服務(wù)都提供了大量的服務(wù)于生成式AI的工具。
通過這一系列從底層到應(yīng)用層的創(chuàng)新,亞馬遜云科技的目標(biāo)是讓企業(yè)內(nèi)的任何開發(fā)人員都能夠自由構(gòu)建生成式AI應(yīng)用,而無(wú)需關(guān)注復(fù)雜的機(jī)器學(xué)習(xí)或底層基礎(chǔ)設(shè)施。
當(dāng)服務(wù)商解決好大模型落地的“最后幾公里”,那么大模型走進(jìn)千行百業(yè)將不再是一句口號(hào)。