本文來自微信公眾號“信創(chuàng)產(chǎn)業(yè)”,作者/林棲。
ChatGPT之后,大模型已成席卷從人工智能到泛科創(chuàng)行業(yè)的公認爆點,國內(nèi)的互聯(lián)網(wǎng)科技廠商也在2020年至今的三年期間,相繼推出自有大模型。
然而在欣欣向榮的AI浪潮背后,用于支撐大模型的超算基礎(chǔ)設(shè)施,卻依然面臨著嚴峻的“卡脖子”難題,超算國產(chǎn)化已經(jīng)迫在眉睫。
「信創(chuàng)產(chǎn)業(yè)」認為,持續(xù)追趕GPU硬件性能的同時,也不能忽視軟件生態(tài)的發(fā)力。在國產(chǎn)化大趨勢面前,國產(chǎn)芯片達到及格基線之后,軟件的優(yōu)勢將成為彌補性能體驗鴻溝的利器。
來源:沙利文
做好國產(chǎn)大模型生態(tài)系統(tǒng),需要越過哪些軟件門檻?以下是10大主要方向:
●編程框架
編程框架的主要角色是幫助用戶降低編寫AI大模型的難度和復(fù)雜度,利用基本算子快速構(gòu)建大模型。目前國外的主流框架包括PyTorch、TensorFlow等,國內(nèi)有百度飛槳、OneFlow等,但成熟度和易用性尚且有較大的距離。
●并行加速
主要功能是為多機多卡環(huán)境提供AI模型并行訓(xùn)練的能力,目前國外有微軟的DeepSpeed、英偉達的Megatron-LM。
●通信庫
主要用于提供通信能力,其性能的兩大考量指標一是需要支持AI模型訓(xùn)練所需要的多種通信模式,二是必須能根據(jù)底層網(wǎng)絡(luò)的特點,最大化利用網(wǎng)絡(luò)通信帶寬。目前國外主流軟件包括:英偉達NCCL庫、MPI庫。
●算子庫
芯片算子庫是位于芯片底層之上的算子開發(fā)工具包,提供AI模型所需基本操作的高性能實現(xiàn)。目前國外有英偉達cuDNN、cuBLAS,國內(nèi)的華為、訊飛、北京智源人工智能研究院等也都在構(gòu)建算子庫,但剛處于起步階段。
●AI編譯器
對算子庫不能提供的操作,可以通過AI編譯器自動生成高效目標代碼。目前主流產(chǎn)品有英偉達NVCC、XLA、TVM等。
●編程語言
用于支持在異構(gòu)處理器上編寫并行程序,需要能夠編寫AI模型的基本算子。最著名的就是英偉達的CUDA,英特爾的oneAPI。
●調(diào)度器
用于提供在大規(guī)模系統(tǒng)上高效調(diào)度人工智能任務(wù)的能力,需要設(shè)計高效調(diào)度算法,提高集群資源的利用率。目前國外以K8S(Kubernetes)為主,國內(nèi)則有華為ModelArts等。
●內(nèi)存分配系統(tǒng)
主要針對人工智能應(yīng)用的特點,提供高效的內(nèi)存分配策略,做好這一方向,將有助于彌合我國AI模型從理論到實踐的差距,解決實際運行效率難以達到理論峰值的痛點。
●容錯系統(tǒng)
在硬件發(fā)生故障后,能夠保障模型訓(xùn)練的快速恢復(fù)。這一細分方向,對影響國產(chǎn)AI模型在支持復(fù)雜應(yīng)用全流程計算方面的能力改善,至關(guān)重要。
●存儲系統(tǒng)
在訓(xùn)練過程中,支持高調(diào)的數(shù)據(jù)讀寫功能,將有效消除計算任務(wù)的延遲問題,提升模型訓(xùn)練和進化效率。