国产精品一区二区三区在线观看 ,亚洲国产精品国自产拍av色欲,伊人色综合久久精品网

阿里云智能集團副總裁吳結(jié)生：AI時代，云上高性能計算的創(chuàng)新發(fā)展

4小時前

鈦媒體

張申宇

云可以賦予 HPC 更高的“彈性”和更多的算力選擇，用戶還可以利用云的優(yōu)勢，具備端到端的數(shù)據(jù)處理能力。與此同時，通過云的方式，還能大幅降低運維的復(fù)雜度，以及計價模式更加靈活。

本文來自鈦媒體（www.tmtpost.com），作者 | 張申宇。

Hyperion Research預(yù)計，云端HPC市場的增長速度將是本地服務(wù)器市場的兩倍多，到2027年，云端HPC市場規(guī)模預(yù)計將超過140億美元。

原先HPC（High performance computing，高性能計算）“高高在上”，幾乎只應(yīng)用在高精尖科研領(lǐng)域，但隨著以AI代表的新一代數(shù)字技術(shù)的應(yīng)用，HPC也在更多行業(yè)有了“大展拳腳”的機會，在企業(yè)側(cè)的應(yīng)用場景也越來越多。

從HPC到Cloud HPC

在阿里云智能集團副總裁，彈性計算產(chǎn)品線負責(zé)人、存儲產(chǎn)品線負責(zé)人吳結(jié)生看來，如今已經(jīng)有很多行業(yè)應(yīng)用了高性能計算，且高性能計算的負載正呈現(xiàn)出多樣化發(fā)展的趨勢，“當(dāng)下，很多基礎(chǔ)模型的預(yù)訓(xùn)練、自動駕駛、生命科學(xué)，以及工業(yè)制造、半導(dǎo)體芯片等行業(yè)和領(lǐng)域都應(yīng)用了高性能計算。”吳結(jié)生指出。

阿里云智能集團副總裁，彈性計算產(chǎn)品線負責(zé)人、存儲產(chǎn)品線負責(zé)人吳結(jié)生

傳統(tǒng)模式下，HPC因其獨有的定位、復(fù)雜的架構(gòu)，以及極高的運維難度，造成了成本高昂，且適配業(yè)務(wù)發(fā)展特性較差，這也讓很多企業(yè)“望而卻步”。

而當(dāng)企業(yè)對于高性能計算的需求不斷增加時，如何讓更多企業(yè)“用得起”和“用得好”高性能計算成為行業(yè)面臨的難題。

這時候，云計算就承擔(dān)起了讓HPC被更多企業(yè)，更便捷應(yīng)用的重任。談及Cloud HPC的優(yōu)勢時，吳結(jié)生告訴鈦媒體APP，以云計算的模式應(yīng)用高性能計算，具備了四個顯著的優(yōu)勢：首先，是彈性的能力，通過云的方式，具有高度的彈性，可以彈性地分配、調(diào)用大規(guī)模資源，讓企業(yè)獲得的算力更高；其次，Cloud HPC具備異構(gòu)計算的兼容性能力，以云的方式，可以對異構(gòu)芯片之間的算力進行整合，兼容性更強；第三，Cloud HPC讓用戶具備了快速部署的能力；第四，與本地化的HPC相比，Cloud HPC具備了平臺化的數(shù)據(jù)處理生態(tài)。

就數(shù)據(jù)處理能力，吳結(jié)生向鈦媒體APP舉例詳細介紹到，以汽車研發(fā)為例，汽車研發(fā)的過程中需要用到仿真計算，仿真計算在預(yù)處理的過程中會產(chǎn)生數(shù)據(jù)，計算的過程中也會產(chǎn)生大量數(shù)據(jù)，如何將處于不同位置的數(shù)據(jù)“挪動”，整合到一起，就成為了傳統(tǒng)HPC時代的難題。

Cloud HPC的出現(xiàn)很好的解決了這個問題，吳結(jié)生告訴鈦媒體APP，通過彈性高性能計算集群，加上并行文件存儲系統(tǒng)，可以免除數(shù)據(jù)的挪動，提升整個系統(tǒng)的能力，從而提升效率，縮短產(chǎn)品研發(fā)進程。因此可以看出，云上的高性能計算，具備借助整個云平臺，將包括計算、存儲、網(wǎng)絡(luò)和一些安全方面的能力疊加起來的優(yōu)勢。

“按需制宜”

從目前應(yīng)用趨勢上來看，用戶對于算力的需求的多樣化的。這種情況下，顯然單一的計算架構(gòu)已經(jīng)不能滿足所有用戶的需求。

“算力目前遇見的核心問題就是：計算架構(gòu)的單一性與算力需求多樣性之間的矛盾。”中國工程院院士鄔江興曾在2024年全國高性能計算學(xué)術(shù)年會上公開表示，“算力需求是多樣性的，面對不同的場景、不同的計算環(huán)境、不同的任務(wù)類型、不同的性能需求，需要不同的算力架構(gòu)?？墒怯嬎慵軜?gòu)是單一的，目前的情況走下去，會有兩種發(fā)展結(jié)果：一個是‘削足適履’，一個是各自為政，都不是好的發(fā)展結(jié)果。”

這樣的算力困境同樣發(fā)生在高性能計算領(lǐng)域，吳結(jié)生告訴鈦媒體APP，多元化的負載需求，也對高性能計算提出了新的挑戰(zhàn)。面對這些挑戰(zhàn)，吳結(jié)生認為，企業(yè)需要通過多樣化的產(chǎn)品、系統(tǒng)架構(gòu)和技術(shù)方案，來滿足不同負載對計算能力、存儲性能、網(wǎng)絡(luò)帶寬等方面的差異化需求。

從需求側(cè)出發(fā)，根據(jù)不同的業(yè)務(wù)場景，以及場景下算力的耦合度和數(shù)據(jù)的密集度可以大致劃分為松耦合、緊耦合，吳結(jié)生告訴鈦媒體APP，算力越耦合，就越需要高性能的網(wǎng)絡(luò)連接能力，針對不同的業(yè)務(wù)場景，用戶應(yīng)該選擇相對應(yīng)的產(chǎn)品架構(gòu)，這樣才能在確保計算效率的同時，降低使用算力的成本。

在松耦合場景下，用戶對于延遲的要求不是很高，對算力的類型也沒有要求（比如對CPU代系沒有強要求）。但是，該場景下，用戶對性價比的要求更高，他們需要以更低的成本，更高的彈性，實現(xiàn)算力的全局調(diào)度，“阿里云借助自身積累的云資源規(guī)模，加之創(chuàng)新性的CIPU（云基礎(chǔ)設(shè)施處理器）架構(gòu)，提供E-HPC Instant來服務(wù)‘松耦合’的高性能計算負載，”吳結(jié)生指出，“通過E-HPC Instant對云上所有可用區(qū)的資源進行不同代系的算力抽象，并實現(xiàn)全局的資源分配和任務(wù)調(diào)度，滿足用戶對于彈性的需求。”

吳結(jié)生以制藥行業(yè)為例分享了具體松耦合場景中的架構(gòu)經(jīng)驗，他表示，在該場景下，客戶有高吞吐量的彈性計算需求—隨時需要大規(guī)模的CPU、GPU計算資源，計算峰值大、任務(wù)并發(fā)度高。阿里云的產(chǎn)品為客戶提供了彈性按需的海量資源：智能調(diào)度底層大規(guī)?；A(chǔ)設(shè)施，任意時刻提供10萬核以上的資源保障，優(yōu)化大并發(fā)下計算和存儲性能，顯著提高藥物研發(fā)效率，只需原來1/3的成本。

在緊耦合場景下，大多業(yè)務(wù)場景都存在計算任務(wù)多、規(guī)模大、計算時間緊張等特點，這種場景更為適合Cloud HPC，利用云資源的規(guī)模大、并行計算能力強等特點，滿足企業(yè)對于高性能計算的需求。

針對此，阿里云推出了高性能計算平臺—E-HPC平臺，可以同時提交AI作業(yè)和傳統(tǒng)HPC的作業(yè)，在資源管理層，同時管理了HPC的Slurm集群和AI的ACK(K8s)集群，作業(yè)管理層根據(jù)作業(yè)類型將AI作業(yè)和HPC作業(yè)分別投遞到相應(yīng)的集群上運行。

以汽車行業(yè)為例，目前的研發(fā)周期需要效率非常高，本地HPC集群硬件資源老化，嚴(yán)重影響業(yè)務(wù)進度，并且業(yè)務(wù)流程割裂：線下前后處理與線上求解計算的流程割裂，數(shù)據(jù)挪動頻繁。“如果建一個1000臺機器這樣的一個超算集群，傳統(tǒng)方式肯定是幾個月。那么今天在云上10萬核的需求我們可以在不超過一天之內(nèi)建好。并且客戶可以利用云的資源規(guī)模去做彈性的資源分配。在云上可以獲取豐富的以及最新代際的算力形態(tài)，滿足各種不同工作任務(wù)的這種負載的需求。”

在吳結(jié)生看來，E-HPC高性能計算服務(wù)落地過程中最大的挑戰(zhàn)是——任務(wù)的計算實例之間需要緊耦合的通信。面對這個痛點，阿里云首先以CIPU作為所有底層物理資源的連接器，將底層物理資源統(tǒng)一納管，提高計算效率，進而加速IO效率，通過eRMDA網(wǎng)絡(luò)大幅提升緊耦合的HPC工作負載性能，最終實現(xiàn)以更低成本，更快速度的交付能力。

除此之外，吳結(jié)生告訴鈦媒體APP，E-HPC還通過多層次的網(wǎng)絡(luò)拓補感知與彈性擴容的能力，快速彈出網(wǎng)絡(luò)拓撲上靠近的ECS計算集群，適應(yīng)緊耦合HPC作業(yè)極致性能要求。

AI時代，云上HPC如何更好用？

ChatGPT的橫空出世讓AI又一次成為了科技圈關(guān)注的焦點。這一輪的AI的火爆在吳結(jié)生看來，也將徹底改變所有行業(yè)，“當(dāng)下幾乎所有的行業(yè)龍頭公司都已經(jīng)是數(shù)據(jù)公司了，未來都將會是數(shù)據(jù)+AI的公司。”吳結(jié)生告訴鈦媒體APP。

“大模型的訓(xùn)練場景是比較傳統(tǒng)的高性能計算在云上的一種重新復(fù)興，我們稱之為極致緊耦合的場景。”吳結(jié)生將大模型廠商的算力需求總結(jié)為：這些企業(yè)需要穩(wěn)定大規(guī)模高性能的訓(xùn)練算力，并需要彈性拓展的推理算力，還需要數(shù)據(jù)處理的速度和彈性能力，以提高資源利用率并降低成本。

當(dāng)前大模型的預(yù)訓(xùn)練需要集群化，構(gòu)建萬卡甚至更大的集群，且整個集群需要是一個龐大的“整體”，若其中一臺機器出問題，都會造成訓(xùn)練中斷。“大模型的訓(xùn)練就像是一排人兩個、兩個的將腿綁在一起，共同前進，這種并行的方式，一旦有一個人反應(yīng)慢了或者倒了以后，可能整個隊伍的前進速度就被拖累了。”吳結(jié)生以一個生動的比喻比擬了大模型的訓(xùn)練過程。“讓每張GPU卡，每臺機器都以相同的‘步伐’前進，才能提升整體的模型訓(xùn)練效率。”吳結(jié)生如是說。

為了實現(xiàn)上述所描述的“相同步伐”，阿里云靈駿集群采用HPN 7.0的網(wǎng)絡(luò)架構(gòu)，通過一系列的創(chuàng)新來支持更大的規(guī)模、更優(yōu)的效率和更高的穩(wěn)定性：一方面，阿里云為每臺機器3.2T的RDMA的計算連接，讓每臺服務(wù)器之間的通訊更順暢；另一方面，后端GPU互聯(lián)網(wǎng)絡(luò)和前端網(wǎng)絡(luò)分離，減少存儲的訪問對算力通信的干擾，進而提升了整體GPU集群的計算效率。

這樣的“相同步伐”也對存儲能力提出更高的要求。在大規(guī)模的模型訓(xùn)練過程中，經(jīng)常會遇到各種原因而被迫中斷。“我們的頭部大模型客戶提出了連續(xù)的、分鐘級的Checkpoint的讀寫要求，這對存儲的吞吐要求是非常高的，這是為什么在阿里云靈駿智算服務(wù)里面，提供了高性能的并行文件系統(tǒng)CPFS，滿足訓(xùn)練和推理的超高性能和成本優(yōu)化要求。通過CPFS，網(wǎng)絡(luò)的雙上聯(lián)、系統(tǒng)監(jiān)控、自定位和自愈等優(yōu)化，降低中斷次數(shù)和時間，使得我們訓(xùn)練時長的有效率高達99%，”吳結(jié)生指出。

無論是松耦合、緊耦合，還是極致緊耦合，面對多元化算力需求，CIPU是阿里云基礎(chǔ)設(shè)施的基石，是差異化競爭力的主要來源之一。通過CIPU架構(gòu)，可以實現(xiàn)0虛擬化開銷，讓企業(yè)能更充分的利用CPU、GPU資源，從而減少開銷。除此之外，CIPU架構(gòu)還通過硬件加速的方式，進一步提升IO和存儲性能，“目前，阿里云已經(jīng)推出了2.0版本的CIPU架構(gòu)，整機穩(wěn)定性提升20%，帶寬性能可達400Gbps，VPC可達6000萬pps，彈性RDMA可達5000萬message/s，存儲性能可達360萬IOPS，50GB/s，這些性能都達到了業(yè)內(nèi)領(lǐng)先水平。”吳結(jié)生指出。

當(dāng)下，每一家公司都是一個數(shù)據(jù)公司，很快每一家公司都會是一家數(shù)據(jù)+AI的公司，云計算一直在踐行Scaling Law，高性能計算也將煥發(fā)新的動能，云計算提供的規(guī)模化、高性能、可擴展的算力與存力，會幫助企業(yè)在進行業(yè)務(wù)規(guī)模的擴展的同時，應(yīng)對好數(shù)據(jù)規(guī)模的擴展，充分使用好AI模型以及基于模型的各類應(yīng)用。我們也期待看到，云計算廠商可以不斷創(chuàng)新，提供多元化的產(chǎn)品組合，幫助企業(yè)在不同負載場景中落地應(yīng)用，實現(xiàn)智能化創(chuàng)新。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

阿里云智能集團副總裁吳結(jié)生：AI時代，云上高性能計算的創(chuàng)新發(fā)展

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

阿里云智能集團副總裁吳結(jié)生：AI時代，云上高性能計算的創(chuàng)新發(fā)展

最新評論（評論僅代表用戶觀點）

英特爾戴金權(quán)：軟硬結(jié)合英特爾的人工智能方法論

元美科技張鶴：元宇宙，企業(yè)營銷新風(fēng)口

浪潮集團執(zhí)行總裁袁誼生：顯示產(chǎn)業(yè)將呈現(xiàn)五大發(fā)展趨勢

劉韻潔院士：我國在行業(yè)大模型方面有望領(lǐng)跑

本月熱門

AI 原生時代，字節(jié)想要復(fù)刻第三次增長奇跡

QuestMobile2024 中國移動互聯(lián)網(wǎng)秋季大報告：一線、新一線、二線城市月活用戶重回凈增，數(shù)字增長“內(nèi)生動力”已然改變!

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項網(wǎng)絡(luò)安全最佳實踐措施

從5G到6G：開啟無線通信的未來

手機soc廠商自研架構(gòu)成趨勢

2024年上半年中國云終端市場跟蹤報告：出貨量達到166.3萬臺，同比增長22.4%

精選文章

“大連華信計算機技術(shù)股份有限公司”更名為“信華信技術(shù)股份有限公司”媒體發(fā)布會舉行

中科逆熵榮膺“2024數(shù)字化轉(zhuǎn)型十大杰出企業(yè)”

華為全聯(lián)接大會2023丨圖云空間榮獲華為“創(chuàng)新合作伙伴獎”

天耀宏圖“人工智能+”賦能不動產(chǎn)登記數(shù)智升級

第五屆（2022）數(shù)字金融創(chuàng)新大賽榜單發(fā)布!見證行業(yè)創(chuàng)新先鋒范式

新基建風(fēng)口，給物聯(lián)網(wǎng)的機會能有多少？

熱點資訊

第六屆中國仿真技術(shù)應(yīng)用大會暨天津（寧河）低空產(chǎn)業(yè)發(fā)展峰會成功舉辦

QuestMobile2024 中國移動互聯(lián)網(wǎng)秋季大報告：一線、新一線、二線城市月活用戶重回凈增，數(shù)字增長“內(nèi)生動力”已然改變!

繼“512軸”的新突破：華龍訊達在2024中國自動化大會上分享具身智能生產(chǎn)線實踐

DevSecOps建設(shè)標(biāo)桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導(dǎo)體數(shù)智峰會正式啟動，邀您共創(chuàng)電子半導(dǎo)體行業(yè)美好未來!

新工具繞過 Google Chrome 的新 cookie 加密系統(tǒng)

阿里云智能集團副總裁吳結(jié)生：AI時代，云上高性能計算的創(chuàng)新發(fā)展

最新評論（評論僅代表用戶觀點）

欄目推薦

英特爾戴金權(quán)：軟硬結(jié)合 英特爾的人工智能方法論

元美科技張鶴：元宇宙，企業(yè)營銷新風(fēng)口

浪潮集團執(zhí)行總裁袁誼生：顯示產(chǎn)業(yè)將呈現(xiàn)五大發(fā)展趨勢

劉韻潔院士：我國在行業(yè)大模型方面有望領(lǐng)跑

本月熱門

精選文章

熱點資訊

新工具繞過 Google Chrome 的新 cookie 加密系統(tǒng)

英特爾戴金權(quán)：軟硬結(jié)合英特爾的人工智能方法論

元美科技張鶴：元宇宙，企業(yè)營銷新風(fēng)口