本文來自微信公眾號“腦極體”,作者/風(fēng)辭遠(yuǎn)。
整個2023年,全球科技界都在為大模型沸騰。云計算產(chǎn)業(yè)作為AI大模型與產(chǎn)業(yè)場景間的最短路徑,自然也在大模型浪潮中備受關(guān)注。目前階段,云廠商已經(jīng)紛紛入局大模型,從多個角度探索大模型帶給云計算產(chǎn)業(yè)的可能性。
但我們往往會忽略這樣一個關(guān)鍵節(jié)點(diǎn):“百模千態(tài)”的大模型,第一項挑戰(zhàn)是AI算力。而做好大模型服務(wù),首當(dāng)其沖也要做好算力服務(wù)。
在AI算力這個最為基礎(chǔ)的能力中,隱藏著AI云服務(wù)如何能走向更遠(yuǎn)的真正答案。
9月21日,在華為全聯(lián)接大會2023期間,華為常務(wù)董事、華為云CEO張平安圍繞“共建智能世界云底座,讓AI重塑千行萬業(yè)”發(fā)表主題演講,發(fā)布盤古大模型在礦山、政務(wù)、汽車、氣象、醫(yī)學(xué)、數(shù)字人、研發(fā)等領(lǐng)域的創(chuàng)新服務(wù),并宣布華為云昇騰AI云服務(wù)正式上線,加快讓千行萬業(yè)實現(xiàn)大模型普惠。圍繞盤古大模型落地,本次華為云分享的主題是“解難題,做難事”。讓AI算力能用、夠用、好用、有大用,就是華為云解開的第一道難題。
算力入山河,AI始落地。
為了做好這件重要的“難事”,昇騰AI云服務(wù)出發(fā)了。
大山大河,
需要AI大算力
信息革命以來,人類逐步發(fā)現(xiàn)科技創(chuàng)新的幅度與算力消耗成正比,這一點(diǎn)在大模型身上又一次得到了印證。
大模型的出現(xiàn)和成熟,給千行萬業(yè)智能化帶來了全新的機(jī)遇??梢哉f,每個行業(yè)的每個場景都值得融入大模型,甚至其中大部分可以被大模型所重塑。而無論是大模型本身模型規(guī)模大、數(shù)據(jù)參數(shù)多的特點(diǎn),還是各個行業(yè)涌現(xiàn)的大模型需求,都指向同一個結(jié)果:社會生產(chǎn)體系所消耗的AI算力,將得到指數(shù)級提升。
大模型需要大算力,已經(jīng)成為了行業(yè)共識。但如果我們具體打開這個問題,會發(fā)現(xiàn)圍繞AI算力產(chǎn)生的產(chǎn)業(yè)挑戰(zhàn)非常多樣。我們可以將其概括為供需矛盾、能效挑戰(zhàn)、運(yùn)維需求、安全顧慮四種。
先來看AI算力最為核心的挑戰(zhàn),即供需之間客觀上的不平衡。
截至2023年7月,中國累計已經(jīng)有130個大模型問世。“百模大戰(zhàn)”帶來了AI算力的巨量增長。根據(jù)相關(guān)數(shù)據(jù)報告,過去10年全球AI算力需求增長了30萬倍,而未來10年我們還面臨著需求500倍的增長。根據(jù)《2022-2023中國人工智能計算力發(fā)展評估報告》顯示,在2022年中國進(jìn)行的AI計算總量已經(jīng)超過了通用計算。在可見的未來,AI算力將會變成社會各界需求量最大、供需缺口最大、資源最為緊張的計算形態(tài)。
其次是大模型與大算力,帶來了尖銳的能效問題。
由于大模型訓(xùn)練需要集群式AI計算,因此其訓(xùn)練任務(wù)大量依靠數(shù)據(jù)中心,而AI服務(wù)器的功率密度遠(yuǎn)超普通服務(wù)器,單機(jī)柜的功耗是過去的6到8倍。在雙碳大背景下,數(shù)據(jù)中心的能效比必須持續(xù)下降,因此大模型帶來的計算能效問題已刻不容緩。如何在AI算力提升與能效比下降之間達(dá)成平衡,成為了產(chǎn)業(yè)界必須面對的問題。
除此之外,我們還要看到AI算力在應(yīng)用過程中發(fā)生了一系列運(yùn)維難題。由于大模型的訓(xùn)練、部署目標(biāo)各不相同,各自的訓(xùn)練與部署環(huán)境也差異巨大,期間也自然會產(chǎn)生網(wǎng)絡(luò)時延、模型可靠性、運(yùn)維管理門檻等運(yùn)維問題。舉個例子,一些大模型需要極大量級的算力集群來支撐,而大量服務(wù)器與計算單元之間的協(xié)同往往會出現(xiàn)問題,一旦計算單元出現(xiàn)問題,研發(fā)人員就需要重啟訓(xùn)練。大模型訓(xùn)練中巨大的時間、人才、算力成本消耗,就發(fā)生在頻繁的故障與重啟訓(xùn)練任務(wù)當(dāng)中。因此,大模型不僅需要AI算力充足,還需要算力服務(wù)精細(xì),幫助用戶降低整體運(yùn)維難題。
最后,我們還要看到大模型帶來新的安全顧慮。
由于大模型的部署場景大多事關(guān)國計民生,因此其安全隱患必須全部掃清。在數(shù)據(jù)訪問、存儲加密、傳輸安全等領(lǐng)域,大模型目前還存在著諸多的安全隱患。
整體而言,大模型并不是高度一致化的產(chǎn)品。其本身技術(shù)分類復(fù)雜、工程化路徑多變,并且各個用戶還需要根據(jù)自身需求進(jìn)行大模型的精調(diào)與訂制化工作。這些問題讓大模型對AI算力服務(wù)有了多方面、多角度的差異化需求。
滿足大模型的AI算力需求,已經(jīng)成為了大模型時代的頭一道考題。
把昇騰AI云服務(wù)
做實,做精,做成競爭力
對于華為云來說,要把算力這道題答好,需要兼顧兩方面的建設(shè):一個是如何讓AI算力充足可用,另一個是如何跨越算力服務(wù)在運(yùn)維、安全、能效等方面的挑戰(zhàn)。AI算力既要做實,還要做精。
今年7月,華為云發(fā)布了最新的昇騰AI云服務(wù),可以為千行萬業(yè)的用戶提供澎湃AI算力。在其背后,是華為云堅實的算力基礎(chǔ)設(shè)施建設(shè)。
截至目前,華為云在貴安、烏蘭察布、蕪湖建設(shè)了3大AI算力中心?;诖?,昇騰AI云服務(wù)在全國范圍內(nèi)實現(xiàn)了20ms的時延圈。用戶可以實現(xiàn)就近接入,一根光纖即可聯(lián)接澎湃的AI算力,服務(wù)即開即用。為確保大模型訓(xùn)練數(shù)據(jù)的全生命周期安全,昇騰AI云服務(wù)還采用了數(shù)據(jù)傳輸與存儲加密、數(shù)據(jù)安全清除、數(shù)據(jù)訪問控制、數(shù)據(jù)水印防泄露等多重技術(shù)。值得注意的是,無論對于企業(yè)還是社會整體,云服務(wù)都是能效比最優(yōu)的雙碳時代AI算力獲取方式。
為了實現(xiàn)AI算力的極致性能,華為云還在基礎(chǔ)設(shè)施之上進(jìn)行了針對AI云服務(wù)的技術(shù)優(yōu)化。比如ModelArts提供了數(shù)據(jù)、訓(xùn)練、推理三層加速,通過DataTurbo數(shù)據(jù)加速技術(shù)能夠利用計算節(jié)點(diǎn)存儲資源構(gòu)建分布式緩存,將數(shù)據(jù)讀取時延降低至亞毫秒級。TrainTurbo訓(xùn)練加速技術(shù)可以實現(xiàn)在訓(xùn)練數(shù)據(jù)超過100T時數(shù)據(jù)讀取時間縮短50%,并使能整體訓(xùn)練效率提升20%以上。在模型的推理環(huán)節(jié),InferTurbo推理加速技術(shù)通過圖編譯技術(shù)加速模型推理,通過全鏈路垂直協(xié)同優(yōu)化,將大模型的推理性能提升30%。
在這樣強(qiáng)大基建與核心技術(shù)加持下,用戶可以獲得極致的AI計算性能,而為了讓算力不僅“夠用”,還要“好用”,華為云進(jìn)行了一系列把AI算力“做精”的探索。
比如說,AI開發(fā)有賴于工具與平臺的全面。昇騰AI云服務(wù)背后,有著異構(gòu)計算架構(gòu)CANN、全場景AI框架昇思MindSpore、AI開發(fā)生產(chǎn)線ModelArts等一系列華為持續(xù)打造的AI底層開發(fā)工具與技術(shù)平臺,從而為大模型提供分布式并行加速,算子和編譯優(yōu)化、集群級通信優(yōu)化等關(guān)鍵能力,奠定AI算力服務(wù)的根技術(shù)加持。
如上文所說,在大模型訓(xùn)練、部署過程中還面臨著一系列運(yùn)維、能效等問題。在算力服務(wù)的優(yōu)化方面,昇騰AI云服務(wù)可以提供更長穩(wěn)的AI算力服務(wù),千卡訓(xùn)練30天長穩(wěn)率達(dá)到90%,還可以實現(xiàn)分鐘級信息獲取、2小時定界、24小時提供解決方案,斷點(diǎn)恢復(fù)時長不超過10分鐘,任務(wù)恢復(fù)時長小于半小時。
在模型遷移方面,華為云為用戶提供了遷移工具鏈,并集成全棧的開發(fā)工具,能夠?qū)崿F(xiàn)典型模型遷移效率低至2周,主流場景自助遷移。此外,昇騰AI云服務(wù)還適配了業(yè)界主流的開源大模型,如LLAMA、Stable Diffusion等,從而真正讓昇騰AI云服務(wù)滿足“百模千態(tài)”的大模型需求。
對于運(yùn)動員來說,基本功就是競爭力。在云+大模型的賽道上,華為云通過基建、技術(shù)、服務(wù)的集成,也把AI算力練成了競爭力。
澎湃易用的AI算力,是大模型產(chǎn)業(yè)化落地的基石,也是一切故事的開端。
算力,技術(shù),場景:
構(gòu)筑大模型正循環(huán)
在大模型這個突然到來的巨大智能化機(jī)遇面前,千行萬業(yè)的用戶有著差異化巨大的需求。有人缺少算力,有人需要模型,有人尋覓場景,也有人需要特定技術(shù)工具的幫助。任何一個條件的缺失,都會讓大模型的飛輪無法旋轉(zhuǎn)。
換個角度看,算力資源、技術(shù)工具、模型的場景化應(yīng)用都能變成支點(diǎn)。這些要素可以通過全棧配合、彼此推動的方式,幫助企業(yè)用戶和開發(fā)者走上大模型之路。
華為云提供的昇騰AI云服務(wù),不僅AI算力能用、夠用,好用,還能通過與華為云一系列布局進(jìn)行聯(lián)動,讓大模型從此“有大用”,從而共同實現(xiàn)盤古大模型解難題,做難事。
比如說,我們能夠看到眾多技術(shù)創(chuàng)新與昇騰AI云服務(wù)相輔相成,共同解決著AI算力需求大、供給難的挑戰(zhàn)。華為云最新發(fā)布的分布式QingTian架構(gòu)就有著這樣的效果。
以AIGC為代表的大模型應(yīng)用,算力需求特點(diǎn)是高度依賴分布式計算能力,這也對算力架構(gòu)產(chǎn)生了新的挑戰(zhàn)。分布式QingTian架構(gòu)作為新一代對等架構(gòu),能夠?qū)鹘y(tǒng)的數(shù)據(jù)中心算力集群,演變?yōu)榛诟咚倏偩€的對等池化系統(tǒng)集群,從而打破單一部件的性能限制,實現(xiàn)軟硬協(xié)同、管控面全卸載、資源與性能零損耗,最終為用戶帶來性能、可靠性、安全可信等方面的極致體驗。
除此之外,華為云還圍繞不斷發(fā)展的AI需求,在AI云存儲、GaussDB向量數(shù)據(jù)庫、數(shù)智融合、Serverless+大模型工程套件等一系列領(lǐng)域進(jìn)行了技術(shù)創(chuàng)新,從系統(tǒng)架構(gòu)層、數(shù)據(jù)處理層、模型訓(xùn)練層、應(yīng)用開發(fā)層實現(xiàn)系統(tǒng)性創(chuàng)新,從而掃清了用戶使用AI云服務(wù)過程中的障礙,讓AI算力真正對齊到千行萬業(yè)的場景化需求。
在基礎(chǔ)AI算力與系列技術(shù)創(chuàng)新之上,就是華為云提供的盤古系列大模型。在華為全聯(lián)接大會2023上,我們也可以看到盤古大模型在行業(yè)中有了更為深入的場景化落地。
在汽車行業(yè),盤古汽車大模型能夠覆蓋車企的設(shè)計、生產(chǎn)、營銷、研發(fā)等環(huán)節(jié),并在自動駕駛訓(xùn)練、專用場景落地等領(lǐng)域發(fā)揮獨(dú)特價值。在自動駕駛領(lǐng)域,盤古汽車大模型可基于實際場景采集的照片和視頻,構(gòu)建該場景的數(shù)字孿生空間,加入可移動的物體、可編輯的天氣、光照等,生成供自動駕駛學(xué)習(xí)的場景樣本。在港口、礦區(qū)等作業(yè)場景,盤古汽車大模型的多場景、多車型控制算法,可讓60噸的重卡橫向誤差小于0.2米、精準(zhǔn)??空`差小于0.1米。目前在新疆疆納礦業(yè)和內(nèi)蒙古伊敏露天煤礦,已有23輛無人重卡在礦山中24小時不間斷作業(yè)。
在直播+數(shù)字人領(lǐng)域,盤古數(shù)字人大模型基于十萬級高質(zhì)量直播話術(shù)進(jìn)行預(yù)訓(xùn)練,能夠自動生成專業(yè)話術(shù),從而準(zhǔn)確、流利地介紹產(chǎn)品,并且還能自動捕捉彈幕和觀眾實時互動。在貴州丹寨,盤古數(shù)字人大模型已經(jīng)讓非遺產(chǎn)業(yè)蠟染走向全球。
總結(jié)一下不難發(fā)現(xiàn),華為云已經(jīng)形成AI算力作為底座,技術(shù)創(chuàng)新作為驅(qū)動,盤古大模型融入行業(yè)場景為導(dǎo)向的“大模型正循環(huán)”。澎湃AI算力可以帶動大模型的使用;技術(shù)創(chuàng)新將不斷降低大模型的門檻;行業(yè)場景將帶動大模型規(guī)模化落地。算力推動場景和技術(shù)發(fā)展;技術(shù)進(jìn)步實現(xiàn)算力得到充分釋放,場景價值被深入挖掘;場景的進(jìn)步將帶動算力建設(shè),引領(lǐng)技術(shù)進(jìn)步。三者滾動向前,吸引千行萬業(yè)在云上尋找大模型的答案。
以算力為基礎(chǔ),以算力為鑰匙,讓AI融入山河大地——這便是華為云的AI長歌。