亚洲精品国产精品乱码www,国产成人免费影院观看

512顆GPU、10萬億參數(shù)!阿里達(dá)摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型

2021-11-09 11:13

快科技

11月8日，阿里巴巴達(dá)摩院公布了多模態(tài)大模型“M6”的最新進(jìn)展，其參數(shù)已從萬億躍遷至10萬億，成為全球最大的AI預(yù)訓(xùn)練模型。

作為通用性AI大模型，M6擁有多模態(tài)、多任務(wù)能力，尤其擅長設(shè)計(jì)、寫作、問答，在電商、制造業(yè)、文學(xué)藝術(shù)、科學(xué)研究等領(lǐng)域有廣泛應(yīng)用前景。

與傳統(tǒng)AI相比，大模型擁有成百上千倍“神經(jīng)元”數(shù)量，認(rèn)知和創(chuàng)造能力也更勝一籌，被普遍認(rèn)為是未來的“基礎(chǔ)模型”。

但是，大模型的算力成本相當(dāng)高昂，比如訓(xùn)練1750億參數(shù)語言大模型GPT-3所需能耗，能讓一輛汽車在地月之間往返一趟。

今年5月，通過專家并行策略及優(yōu)化技術(shù)，達(dá)摩院M6團(tuán)隊(duì)將萬億模型能耗降低超過80%，效率提升近11倍。

10月，M6再次突破業(yè)界極限，使用512顆GPU，在10天內(nèi)就訓(xùn)練出了具有可用水平的10萬億模型，相比去年發(fā)布的大模型GPT-3，M6實(shí)現(xiàn)了同等參數(shù)規(guī)模，能耗卻只有1%。

另一方面，AI大模型擴(kuò)展到千億及以上參數(shù)的超大規(guī)模時，很難放在一臺機(jī)器上，為此達(dá)摩院在阿里云PAI自研Whale框架上搭建了MoE模型，并通過更細(xì)粒度的CPU offload技術(shù)，最終實(shí)現(xiàn)將10萬億參數(shù)放進(jìn)512張GPU：

自研Whale框架：

自研Whale分布式深度學(xué)習(xí)訓(xùn)練框架，針對數(shù)據(jù)并行、模型并行、流水并行、混合并行等多種并行模型進(jìn)行了統(tǒng)一架構(gòu)設(shè)計(jì)，讓用戶在僅僅添加幾行API調(diào)用的情況下就可以實(shí)現(xiàn)豐富的分布式并行策略。

MoE專家并行策略：

在Whale架構(gòu)中實(shí)現(xiàn)Mixture-of-Experts(MoE)專家并行策略，在擴(kuò)展模型容量、提升模型效果的基礎(chǔ)上，不顯著增加運(yùn)算FLOPs(每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù))，從而實(shí)現(xiàn)高效訓(xùn)練大規(guī)模模型的目的。

CPU offload創(chuàng)新技術(shù)：

在自研的分布式框架Whale中通過更細(xì)粒度的CPU offload，解決了有限資源放下極限規(guī)模的難題，并通過靈活地選擇offload的模型層，進(jìn)一步地提高GPU利用率。

此外，針對訓(xùn)練效率問題，M6團(tuán)隊(duì)設(shè)計(jì)了Pseudo-to-Real(共享解除)機(jī)制，即利用訓(xùn)練好的共享參數(shù)模型初始化大模型，讓收斂效率進(jìn)一步提升7倍，解決大模型訓(xùn)練速度慢的問題。

對比不使用該機(jī)制，預(yù)訓(xùn)練達(dá)到同樣loss用時僅需6%；和此前萬億模型相比，訓(xùn)練樣本量僅需40%。

作為國內(nèi)首個商業(yè)化落地的多模態(tài)大模型，M6已在超40個場景中應(yīng)用，日調(diào)用量上億。

今年，大模型首次支持雙11，應(yīng)用包括但不限于：

-M6在犀牛智造為品牌設(shè)計(jì)的服飾已在淘寶上線；

-憑借流暢的寫作能力，M6正為天貓?zhí)摂M主播創(chuàng)作劇本；

-依靠多模態(tài)理解能力，M6正在增進(jìn)淘寶、支付寶等平臺的搜索及內(nèi)容認(rèn)知精度。

未來，M6將積極探索與科學(xué)應(yīng)用的結(jié)合，通過AI for science讓大模型的潛力充分發(fā)揮，并加強(qiáng)M6與國產(chǎn)芯片的軟硬一體化研究。

目前，達(dá)摩院聯(lián)合阿里云已推出M6服務(wù)化平臺，為大模型訓(xùn)練及應(yīng)用提供完備工具，首次讓大模型實(shí)現(xiàn)“開箱即用”，算法人員及普通用戶均可方便地使用平臺。

文章鏈接：智能制造網(wǎng)https://www.gkzhan.com/news/detail/138095.html

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

數(shù)字化轉(zhuǎn)型難？怎么轉(zhuǎn)？聽聽廠商、CIO、CEO 怎么說

512顆GPU、10萬億參數(shù)!阿里達(dá)摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

512顆GPU、10萬億參數(shù)!阿里達(dá)摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型

最新評論（評論僅代表用戶觀點(diǎn)）

2024年中國光纖光纜行業(yè)市場前景預(yù)測研究報(bào)告

人工智能與大數(shù)據(jù)交匯：為商業(yè)智能解鎖新機(jī)遇

2023年人工智能發(fā)展預(yù)測企業(yè)如何成功采用AI？

層出不窮的AI問題，該如何監(jiān)管？

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

李穎：突破平臺核心技術(shù)瓶頸，打造具有行業(yè)賦能實(shí)效的工業(yè)互聯(lián)網(wǎng)平臺體系

企業(yè)數(shù)智融合之道：超聚變引領(lǐng)AI原生應(yīng)用新篇章

2019省級政務(wù)安全研討會在河北召開

助力企業(yè)數(shù)字化轉(zhuǎn)型長虹佳華再添新榮耀

2024中國信息技術(shù)應(yīng)用創(chuàng)新榜重磅發(fā)布

互聯(lián)網(wǎng)巨頭拆墻繼續(xù)!京東重磅接入支付寶，時隔13年再合作!

熱點(diǎn)資訊

榮耀應(yīng)用市場攜手?jǐn)?shù)智融合應(yīng)用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍(lán)罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

數(shù)字化轉(zhuǎn)型難？怎么轉(zhuǎn)？聽聽廠商、CIO、CEO 怎么說

華為全面捐贈歐拉共建數(shù)字基礎(chǔ)設(shè)施開源操作系統(tǒng)

512顆GPU、10萬億參數(shù)!阿里達(dá)摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型

最新評論（評論僅代表用戶觀點(diǎn)）

欄目推薦

2024年中國光纖光纜行業(yè)市場前景預(yù)測研究報(bào)告

人工智能與大數(shù)據(jù)交匯：為商業(yè)智能解鎖新機(jī)遇

2023年人工智能發(fā)展預(yù)測 企業(yè)如何成功采用AI？

層出不窮的AI問題，該如何監(jiān)管？

本月熱門

精選文章

熱點(diǎn)資訊

數(shù)字化轉(zhuǎn)型難？怎么轉(zhuǎn)？聽聽廠商、CIO、CEO 怎么說

華為全面捐贈歐拉 共建數(shù)字基礎(chǔ)設(shè)施開源操作系統(tǒng)

512顆GPU、10萬億參數(shù)!阿里達(dá)摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型

2023年人工智能發(fā)展預(yù)測企業(yè)如何成功采用AI？

層出不窮的AI問題，該如何監(jiān)管？

數(shù)字化轉(zhuǎn)型難？怎么轉(zhuǎn)？聽聽廠商、CIO、CEO 怎么說

華為全面捐贈歐拉共建數(shù)字基礎(chǔ)設(shè)施開源操作系統(tǒng)