本文來自鈦媒體(www.tmtpost.com),作者 | 張申宇。
Hyperion Research預(yù)計,云端HPC市場的增長速度將是本地服務(wù)器市場的兩倍多,到2027年,云端HPC市場規(guī)模預(yù)計將超過140億美元。
原先HPC(High performance computing,高性能計算)“高高在上”,幾乎只應(yīng)用在高精尖科研領(lǐng)域,但隨著以AI代表的新一代數(shù)字技術(shù)的應(yīng)用,HPC也在更多行業(yè)有了“大展拳腳”的機會,在企業(yè)側(cè)的應(yīng)用場景也越來越多。
從HPC到Cloud HPC
在阿里云智能集團副總裁,彈性計算產(chǎn)品線負責(zé)人、存儲產(chǎn)品線負責(zé)人吳結(jié)生看來,如今已經(jīng)有很多行業(yè)應(yīng)用了高性能計算,且高性能計算的負載正呈現(xiàn)出多樣化發(fā)展的趨勢,“當(dāng)下,很多基礎(chǔ)模型的預(yù)訓(xùn)練、自動駕駛、生命科學(xué),以及工業(yè)制造、半導(dǎo)體芯片等行業(yè)和領(lǐng)域都應(yīng)用了高性能計算。”吳結(jié)生指出。
阿里云智能集團副總裁,彈性計算產(chǎn)品線負責(zé)人、存儲產(chǎn)品線負責(zé)人吳結(jié)生
傳統(tǒng)模式下,HPC因其獨有的定位、復(fù)雜的架構(gòu),以及極高的運維難度,造成了成本高昂,且適配業(yè)務(wù)發(fā)展特性較差,這也讓很多企業(yè)“望而卻步”。
而當(dāng)企業(yè)對于高性能計算的需求不斷增加時,如何讓更多企業(yè)“用得起”和“用得好”高性能計算成為行業(yè)面臨的難題。
這時候,云計算就承擔(dān)起了讓HPC被更多企業(yè),更便捷應(yīng)用的重任。談及Cloud HPC的優(yōu)勢時,吳結(jié)生告訴鈦媒體APP,以云計算的模式應(yīng)用高性能計算,具備了四個顯著的優(yōu)勢:首先,是彈性的能力,通過云的方式,具有高度的彈性,可以彈性地分配、調(diào)用大規(guī)模資源,讓企業(yè)獲得的算力更高;其次,Cloud HPC具備異構(gòu)計算的兼容性能力,以云的方式,可以對異構(gòu)芯片之間的算力進行整合,兼容性更強;第三,Cloud HPC讓用戶具備了快速部署的能力;第四,與本地化的HPC相比,Cloud HPC具備了平臺化的數(shù)據(jù)處理生態(tài)。
就數(shù)據(jù)處理能力,吳結(jié)生向鈦媒體APP舉例詳細介紹到,以汽車研發(fā)為例,汽車研發(fā)的過程中需要用到仿真計算,仿真計算在預(yù)處理的過程中會產(chǎn)生數(shù)據(jù),計算的過程中也會產(chǎn)生大量數(shù)據(jù),如何將處于不同位置的數(shù)據(jù)“挪動”,整合到一起,就成為了傳統(tǒng)HPC時代的難題。
Cloud HPC的出現(xiàn)很好的解決了這個問題,吳結(jié)生告訴鈦媒體APP,通過彈性高性能計算集群,加上并行文件存儲系統(tǒng),可以免除數(shù)據(jù)的挪動,提升整個系統(tǒng)的能力,從而提升效率,縮短產(chǎn)品研發(fā)進程。因此可以看出,云上的高性能計算,具備借助整個云平臺,將包括計算、存儲、網(wǎng)絡(luò)和一些安全方面的能力疊加起來的優(yōu)勢。
“按需制宜”
從目前應(yīng)用趨勢上來看,用戶對于算力的需求的多樣化的。這種情況下,顯然單一的計算架構(gòu)已經(jīng)不能滿足所有用戶的需求。
“算力目前遇見的核心問題就是:計算架構(gòu)的單一性與算力需求多樣性之間的矛盾。”中國工程院院士鄔江興曾在2024年全國高性能計算學(xué)術(shù)年會上公開表示,“算力需求是多樣性的,面對不同的場景、不同的計算環(huán)境、不同的任務(wù)類型、不同的性能需求,需要不同的算力架構(gòu)??墒怯嬎慵軜?gòu)是單一的,目前的情況走下去,會有兩種發(fā)展結(jié)果:一個是‘削足適履’,一個是各自為政,都不是好的發(fā)展結(jié)果。”
這樣的算力困境同樣發(fā)生在高性能計算領(lǐng)域,吳結(jié)生告訴鈦媒體APP,多元化的負載需求,也對高性能計算提出了新的挑戰(zhàn)。面對這些挑戰(zhàn),吳結(jié)生認為,企業(yè)需要通過多樣化的產(chǎn)品、系統(tǒng)架構(gòu)和技術(shù)方案,來滿足不同負載對計算能力、存儲性能、網(wǎng)絡(luò)帶寬等方面的差異化需求。
從需求側(cè)出發(fā),根據(jù)不同的業(yè)務(wù)場景,以及場景下算力的耦合度和數(shù)據(jù)的密集度可以大致劃分為松耦合、緊耦合,吳結(jié)生告訴鈦媒體APP,算力越耦合,就越需要高性能的網(wǎng)絡(luò)連接能力,針對不同的業(yè)務(wù)場景,用戶應(yīng)該選擇相對應(yīng)的產(chǎn)品架構(gòu),這樣才能在確保計算效率的同時,降低使用算力的成本。
在松耦合場景下,用戶對于延遲的要求不是很高,對算力的類型也沒有要求(比如對CPU代系沒有強要求)。但是,該場景下,用戶對性價比的要求更高,他們需要以更低的成本,更高的彈性,實現(xiàn)算力的全局調(diào)度,“阿里云借助自身積累的云資源規(guī)模,加之創(chuàng)新性的CIPU(云基礎(chǔ)設(shè)施處理器)架構(gòu),提供E-HPC Instant來服務(wù)‘松耦合’的高性能計算負載,”吳結(jié)生指出,“通過E-HPC Instant對云上所有可用區(qū)的資源進行不同代系的算力抽象,并實現(xiàn)全局的資源分配和任務(wù)調(diào)度,滿足用戶對于彈性的需求。”
吳結(jié)生以制藥行業(yè)為例分享了具體松耦合場景中的架構(gòu)經(jīng)驗,他表示,在該場景下,客戶有高吞吐量的彈性計算需求—隨時需要大規(guī)模的CPU、GPU計算資源,計算峰值大、任務(wù)并發(fā)度高。阿里云的產(chǎn)品為客戶提供了彈性按需的海量資源:智能調(diào)度底層大規(guī)?;A(chǔ)設(shè)施,任意時刻提供10萬核以上的資源保障,優(yōu)化大并發(fā)下計算和存儲性能,顯著提高藥物研發(fā)效率,只需原來1/3的成本。
在緊耦合場景下,大多業(yè)務(wù)場景都存在計算任務(wù)多、規(guī)模大、計算時間緊張等特點,這種場景更為適合Cloud HPC,利用云資源的規(guī)模大、并行計算能力強等特點,滿足企業(yè)對于高性能計算的需求。
針對此,阿里云推出了高性能計算平臺—E-HPC平臺,可以同時提交AI作業(yè)和傳統(tǒng)HPC的作業(yè),在資源管理層,同時管理了HPC的Slurm集群和AI的ACK(K8s)集群,作業(yè)管理層根據(jù)作業(yè)類型將AI作業(yè)和HPC作業(yè)分別投遞到相應(yīng)的集群上運行。
以汽車行業(yè)為例,目前的研發(fā)周期需要效率非常高,本地HPC集群硬件資源老化,嚴(yán)重影響業(yè)務(wù)進度,并且業(yè)務(wù)流程割裂:線下前后處理與線上求解計算的流程割裂,數(shù)據(jù)挪動頻繁。“如果建一個1000臺機器這樣的一個超算集群,傳統(tǒng)方式肯定是幾個月。那么今天在云上10萬核的需求我們可以在不超過一天之內(nèi)建好。并且客戶可以利用云的資源規(guī)模去做彈性的資源分配。在云上可以獲取豐富的以及最新代際的算力形態(tài),滿足各種不同工作任務(wù)的這種負載的需求。”
在吳結(jié)生看來,E-HPC高性能計算服務(wù)落地過程中最大的挑戰(zhàn)是——任務(wù)的計算實例之間需要緊耦合的通信。面對這個痛點,阿里云首先以CIPU作為所有底層物理資源的連接器,將底層物理資源統(tǒng)一納管,提高計算效率,進而加速IO效率,通過eRMDA網(wǎng)絡(luò)大幅提升緊耦合的HPC工作負載性能,最終實現(xiàn)以更低成本,更快速度的交付能力。
除此之外,吳結(jié)生告訴鈦媒體APP,E-HPC還通過多層次的網(wǎng)絡(luò)拓補感知與彈性擴容的能力,快速彈出網(wǎng)絡(luò)拓撲上靠近的ECS計算集群,適應(yīng)緊耦合HPC作業(yè)極致性能要求。
AI時代,云上HPC如何更好用?
ChatGPT的橫空出世讓AI又一次成為了科技圈關(guān)注的焦點。這一輪的AI的火爆在吳結(jié)生看來,也將徹底改變所有行業(yè),“當(dāng)下幾乎所有的行業(yè)龍頭公司都已經(jīng)是數(shù)據(jù)公司了,未來都將會是數(shù)據(jù)+AI的公司。”吳結(jié)生告訴鈦媒體APP。
“大模型的訓(xùn)練場景是比較傳統(tǒng)的高性能計算在云上的一種重新復(fù)興,我們稱之為極致緊耦合的場景。”吳結(jié)生將大模型廠商的算力需求總結(jié)為:這些企業(yè)需要穩(wěn)定大規(guī)模高性能的訓(xùn)練算力,并需要彈性拓展的推理算力,還需要數(shù)據(jù)處理的速度和彈性能力,以提高資源利用率并降低成本。
當(dāng)前大模型的預(yù)訓(xùn)練需要集群化,構(gòu)建萬卡甚至更大的集群,且整個集群需要是一個龐大的“整體”,若其中一臺機器出問題,都會造成訓(xùn)練中斷。“大模型的訓(xùn)練就像是一排人兩個、兩個的將腿綁在一起,共同前進,這種并行的方式,一旦有一個人反應(yīng)慢了或者倒了以后,可能整個隊伍的前進速度就被拖累了。”吳結(jié)生以一個生動的比喻比擬了大模型的訓(xùn)練過程。“讓每張GPU卡,每臺機器都以相同的‘步伐’前進,才能提升整體的模型訓(xùn)練效率。”吳結(jié)生如是說。
為了實現(xiàn)上述所描述的“相同步伐”,阿里云靈駿集群采用HPN 7.0的網(wǎng)絡(luò)架構(gòu),通過一系列的創(chuàng)新來支持更大的規(guī)模、更優(yōu)的效率和更高的穩(wěn)定性:一方面,阿里云為每臺機器3.2T的RDMA的計算連接,讓每臺服務(wù)器之間的通訊更順暢;另一方面,后端GPU互聯(lián)網(wǎng)絡(luò)和前端網(wǎng)絡(luò)分離,減少存儲的訪問對算力通信的干擾,進而提升了整體GPU集群的計算效率。
這樣的“相同步伐”也對存儲能力提出更高的要求。在大規(guī)模的模型訓(xùn)練過程中,經(jīng)常會遇到各種原因而被迫中斷。“我們的頭部大模型客戶提出了連續(xù)的、分鐘級的Checkpoint的讀寫要求,這對存儲的吞吐要求是非常高的,這是為什么在阿里云靈駿智算服務(wù)里面,提供了高性能的并行文件系統(tǒng)CPFS,滿足訓(xùn)練和推理的超高性能和成本優(yōu)化要求。通過CPFS,網(wǎng)絡(luò)的雙上聯(lián)、系統(tǒng)監(jiān)控、自定位和自愈等優(yōu)化,降低中斷次數(shù)和時間,使得我們訓(xùn)練時長的有效率高達99%,”吳結(jié)生指出。
無論是松耦合、緊耦合,還是極致緊耦合,面對多元化算力需求,CIPU是阿里云基礎(chǔ)設(shè)施的基石,是差異化競爭力的主要來源之一。通過CIPU架構(gòu),可以實現(xiàn)0虛擬化開銷,讓企業(yè)能更充分的利用CPU、GPU資源,從而減少開銷。除此之外,CIPU架構(gòu)還通過硬件加速的方式,進一步提升IO和存儲性能,“目前,阿里云已經(jīng)推出了2.0版本的CIPU架構(gòu),整機穩(wěn)定性提升20%,帶寬性能可達400Gbps,VPC可達6000萬pps,彈性RDMA可達5000萬message/s,存儲性能可達360萬IOPS,50GB/s,這些性能都達到了業(yè)內(nèi)領(lǐng)先水平。”吳結(jié)生指出。
當(dāng)下,每一家公司都是一個數(shù)據(jù)公司,很快每一家公司都會是一家數(shù)據(jù)+AI的公司,云計算一直在踐行Scaling Law,高性能計算也將煥發(fā)新的動能,云計算提供的規(guī)模化、高性能、可擴展的算力與存力,會幫助企業(yè)在進行業(yè)務(wù)規(guī)模的擴展的同時,應(yīng)對好數(shù)據(jù)規(guī)模的擴展,充分使用好AI模型以及基于模型的各類應(yīng)用。我們也期待看到,云計算廠商可以不斷創(chuàng)新,提供多元化的產(chǎn)品組合,幫助企業(yè)在不同負載場景中落地應(yīng)用,實現(xiàn)智能化創(chuàng)新。