浪潮王恩東:從計算到智算 計算產(chǎn)業(yè)迎來新格局

企業(yè)網(wǎng)D1Net
智慧計算已經(jīng)對第三產(chǎn)業(yè)形成了深刻的改變,在突如其來的新冠疫情面前更是發(fā)揮了巨大的作用,各種功能的醫(yī)療機器人等人工智能設(shè)備服務(wù)在各地的防疫前線,無接觸送貨、無人機送餐成為智慧物流的亮點。

浪潮集團執(zhí)行總裁、首席科學(xué)家王恩東院士15日在浪潮數(shù)據(jù)中心合作伙伴大會上表示,智慧時代,計算需求呈指數(shù)級增長,計算技術(shù)、產(chǎn)品與產(chǎn)業(yè)面臨著多元化、巨量化和生態(tài)化的新挑戰(zhàn)。計算產(chǎn)業(yè)迎來由計算到智算、多元算力融合、算力供給基建化的新格局。

當天,“浪潮數(shù)據(jù)中心合作伙伴大會(IPF)2021”在蘇州舉行,王恩東在出席大會時作如上表述。

360截圖16450626515344.png

智慧計算無處不在,重塑著世界的方方面面,為第一、二、三產(chǎn)業(yè)發(fā)揮重要價值——無人農(nóng)場、智能農(nóng)機、智慧農(nóng)業(yè)正在改變延續(xù)了上千年的農(nóng)業(yè)生產(chǎn)方式;智能工廠讓生產(chǎn)效率顯著提升;醫(yī)療機器人在抗擊新冠疫情中大顯身手,無接觸送貨、無人機送餐也已成為智慧物流的亮點。智慧計算已經(jīng)滲透進各個行業(yè),讓智慧時代充滿希望。

十四五,數(shù)字經(jīng)濟推動智慧算力加速普及和升級,智慧時代,計算能力需求將出現(xiàn)巨大的飛躍。王恩東說:“面對指數(shù)級增長的計算需求,計算技術(shù)、產(chǎn)品與產(chǎn)業(yè)也面臨著三大挑戰(zhàn)。計算場景愈加復(fù)雜、計算架構(gòu)更加多元;巨量模型、巨量數(shù)據(jù)、巨量算力及巨量應(yīng)用挑戰(zhàn)著現(xiàn)有計算機體系結(jié)構(gòu),以及如何開放包容地最大化生態(tài)效能。”

王恩東表示:“以創(chuàng)新應(yīng)答挑戰(zhàn),浪潮通過創(chuàng)新智算體系結(jié)構(gòu)、構(gòu)建智算產(chǎn)品體系、推動智算中心落地、建設(shè)元腦產(chǎn)業(yè)鏈生態(tài)引領(lǐng)智算發(fā)展。智慧計算,未來可期。”

360截圖16450626515344.png

以下是演講全文:

各位領(lǐng)導(dǎo)、合作伙伴大家上午好,歡迎大家來到太湖之濱,蒞臨“智算·向新”浪潮數(shù)據(jù)中心合作伙伴大會,正是由于在座各位的大力支持,浪潮在過去的一年又取得了高速的發(fā)展,繼續(xù)保持服務(wù)器全球第三,中國第一,并且成為全球人工智能計算的領(lǐng)導(dǎo)者。在此,感謝大家一年來對浪潮的支持和幫助,謝謝大家!

過去的一年,是極不平凡的一年。全球新冠病毒肆虐,徹底改變了人類的生活方式。“綠水青山妄自多,全球無奈病毒何”,全球經(jīng)濟出現(xiàn)大幅下滑。中國率先控制住了疫情,率先實現(xiàn)了經(jīng)濟恢復(fù)和增長,完勝脫貧攻堅戰(zhàn),制定了激動人心的十四五規(guī)劃,宣告中國進入新的發(fā)展階段,將構(gòu)建以國內(nèi)大循環(huán)為主體、國內(nèi)國際雙循環(huán)相互促進的新發(fā)展格局。

在過去的一年,大家聽到最多的一個詞就是創(chuàng)新,創(chuàng)新在新發(fā)展理念中的核心地位深入人心,創(chuàng)新驅(qū)動發(fā)展也是十四五規(guī)劃的關(guān)鍵詞??倳浿v,創(chuàng)新就是生產(chǎn)力,企業(yè)賴之以強,國家賴之以盛。創(chuàng)新也是浪潮的核心價值觀之一,創(chuàng)新、誠信、共贏更是浪潮堅持發(fā)展合作伙伴、建設(shè)生態(tài)體系的初心。

那么,立足新的發(fā)展階段、我們應(yīng)該如何貫徹新發(fā)展理念、構(gòu)建新的計算產(chǎn)業(yè)發(fā)展格局?帶著這樣的問題,今天我要報告的題目是《創(chuàng)新驅(qū)動共建計算新格局》,和大家分享一下,面對經(jīng)濟主戰(zhàn)場數(shù)字化轉(zhuǎn)型的重大機遇,浪潮對于計算向智算發(fā)展、多元融合新格局的洞察與思考,以及通過技術(shù)架構(gòu)和產(chǎn)品體系創(chuàng)新、算力供給模式創(chuàng)新和生態(tài)平臺建設(shè)進行布局的規(guī)劃。

既然是思考,我們不妨把時間維度放大一點。在百萬年以前,人類的祖先走出森林,走向草原,逐漸形成了人類智能,經(jīng)歷了漁獵采集時代、農(nóng)業(yè)時代、工業(yè)時代和信息時代,創(chuàng)造了光輝燦爛的文明和科技。隨著以人工智能為代表的新一代信息技術(shù)的進步,人類社會正加速度進入智慧時代,這是對終點的沖刺,還是新的百萬年的開始?我想這可能是一個值得思考的問題。為什么這么說?

我們來看一些關(guān)于人類大腦和未來的人工智能的大腦,或者說硅基大腦和碳基大腦發(fā)展的情況。

類腦計算是全球的研究熱點,清華的施路平教授在去年曾經(jīng)說:“碳基上能夠?qū)崿F(xiàn)的,硅基上一定能夠?qū)崿F(xiàn)”。而實際情況也顯示,碳基生物大腦同硅基系統(tǒng)結(jié)合已不再僅僅停留在科幻小說、科幻電影中,而是逐步在形成科學(xué)與技術(shù)的突破。

比如就在最近,埃隆·馬斯克公布了一項腦機接口的最新實驗,科學(xué)家們在獼猴的大腦皮層中植入兩塊芯片來捕捉大腦活動的信號,實現(xiàn)了將大腦信號翻譯成游戲里的動作。如此一來,猴子動動腦子便可以打乒乓球電子游戲了,腦機接口技術(shù)延伸了生物大腦。

在中國,2020年人工智能學(xué)會評選出的自然科學(xué)類5個一等獎中,有2個都是關(guān)于類腦計算和腦機接口的,最近一個時期,腦機接口技術(shù)獲得了顯著的進展。

我們已經(jīng)看到了人工智能技術(shù)的大爆發(fā),但是,站在人類歷史這個更大的時空維度上,我想這一切才剛剛開始。

現(xiàn)在,我們創(chuàng)造了無數(shù)的智慧大腦,城市大腦、交通大腦、企業(yè)大腦等等,這些正在改變世界的方方面面。

在第一產(chǎn)業(yè),無人農(nóng)場、智能農(nóng)機、智慧農(nóng)業(yè)正在改變延續(xù)了上千年的農(nóng)業(yè)生產(chǎn)方式。在黑龍江,浪潮與北大荒集團合作建設(shè)智慧農(nóng)業(yè),開拓了全球最大面積的無人農(nóng)場,智能農(nóng)機覆蓋了農(nóng)業(yè)生產(chǎn)的耕、種、管、收全流程。

2020年中國農(nóng)業(yè)無人機的銷量超過了1.5萬架,一架無人機一天農(nóng)藥噴灑面積達到300畝,是人工的20倍。無人機裝載了病蟲害識別系統(tǒng),及時發(fā)現(xiàn)受到病蟲害侵襲的葉子,實現(xiàn)農(nóng)藥的噴殺精準,減少了農(nóng)藥的使用量。另外,通過精準噴灑催熟劑,實現(xiàn)作物生長成熟周期同步、規(guī)?;渴崭?,成本大大降低、利潤率大幅提升。

在第二產(chǎn)業(yè),2020年我國制造業(yè)增加值達到26萬億,繼續(xù)保持世界第一制造大國地位。智能制造是數(shù)字經(jīng)濟的皇冠,正在成為各國搶占數(shù)字經(jīng)濟制高點的主戰(zhàn)場。作為雙循環(huán)基礎(chǔ)發(fā)力點,智能制造將成為提升我國整體制造業(yè)水平不可忽略的增長引擎。

中國智能制造裝備產(chǎn)值規(guī)模在2020年已經(jīng)超過了兩萬億。就在蘇州,浪潮建設(shè)了一座PCBA智慧工廠,整個生產(chǎn)制造過程彈性、透明、可追溯,智能技術(shù)貫穿了設(shè)計、生產(chǎn)、配送和檢測的全流程,生產(chǎn)效率提升了60%以上。

智慧計算已經(jīng)對第三產(chǎn)業(yè)形成了深刻的改變,在突如其來的新冠疫情面前更是發(fā)揮了巨大的作用,各種功能的醫(yī)療機器人等人工智能設(shè)備服務(wù)在各地的防疫前線,無接觸送貨、無人機送餐成為智慧物流的亮點。

浪潮和工商銀行合作,形成了智慧金融解決方案,幫助更多人實現(xiàn)了創(chuàng)業(yè)的夢想;在上海奉賢區(qū)智行生態(tài)谷,基于浪潮智算平臺建設(shè)了一條無人駕駛實驗公路;在北京天壇醫(yī)院,浪潮建設(shè)的智慧醫(yī)療平臺,幫助醫(yī)生實現(xiàn)了更快速、更準確的病情分析。

同時,智慧計算也已經(jīng)成為守護大自然的好幫手。在云南,浪潮協(xié)助西雙版納國家自然保護區(qū)建設(shè)了亞洲象活動軌跡采集系統(tǒng),在雨林內(nèi)實時收集亞洲象的行為數(shù)據(jù)和活動軌跡,基于人工智能技術(shù)實現(xiàn)毫秒級精準辨識,準確度高達99%,即使在光線不足的夜晚,也可以根據(jù)一條尾巴或一個背影識別出亞洲象。

通過對野生大象的長期追蹤和觀測,為洞察大象物種習(xí)性、種群遷移軌跡提供幫助,進而對合理的開展亞洲象國家公園區(qū)域規(guī)劃、棲息地改造、食源地優(yōu)化等保護舉措提供科學(xué)依據(jù)。

通過上面的例子可以看出,智慧計算時代的序幕已經(jīng)拉開,人工智能已經(jīng)開始滲透到經(jīng)濟社會的方方面面,在深刻地影響著我們的工作和生活,在這個過程中,浪潮一直發(fā)揮著重要的作用。

智慧時代是充滿希望的,我們看到全球主要經(jīng)濟體都在積極投入到人工智能的技術(shù)研究和產(chǎn)業(yè)發(fā)展中,中國、美國、歐盟都發(fā)布了多個重要的支持政策,投入了巨量的研發(fā)基金。根據(jù)IDC的數(shù)據(jù),2020年全球?qū)θ斯ぶ悄艿耐顿Y總額超過了500億美元,到2024年,投資額將達到1100億美元。投入是巨大的,而回報也將是豐厚的。據(jù)普華永道預(yù)測,至2030年,人工智能技術(shù)將為全球GDP帶來14%的提升,相當于16萬億美元。

進入智慧時代,相比以往的傳統(tǒng)信息化應(yīng)用,對計算能力的需求將是一個巨大的飛躍。傳統(tǒng)的信息化應(yīng)用主要以基于數(shù)據(jù)庫事務(wù)的業(yè)務(wù)為主,像OA、ERP、郵件等,計算量隨著業(yè)務(wù)量的增長基本是線性增長的,但是智慧計算對計算能力的要求則是指數(shù)級增長的。2020年以GPU為代表的AI加速芯片所交付的計算力總和已經(jīng)超過了通用CPU,預(yù)計到2025年,加速芯片所提供的計算力可能超過80%。所以,從計算到智算,智慧計算將是智慧時代的核心動力。

智慧時代,生產(chǎn)力的三要素也發(fā)生了相應(yīng)的改變。勞動者從人轉(zhuǎn)向了人加上AI,勞動效率顯著提升;勞動工具從傳統(tǒng)的機械設(shè)備變成了智能裝備,就像我們前面講到的智能農(nóng)機;而勞動對象從礦石、農(nóng)作物等轉(zhuǎn)變?yōu)榇髷?shù)據(jù),數(shù)據(jù)作為重要的生產(chǎn)要素,蘊含了巨大的價值。

面對指數(shù)級增長的計算需求,計算技術(shù)、產(chǎn)品與產(chǎn)業(yè)也面臨著新的挑戰(zhàn)。具體來說,體現(xiàn)在以下三個方面,一個是多元化的挑戰(zhàn),也就是計算場景的復(fù)雜、計算架構(gòu)的多元;一個是巨量化的挑戰(zhàn),也就是由巨量模型、巨量數(shù)據(jù)、巨量算力及巨量應(yīng)用引發(fā)的對現(xiàn)有計算機體系結(jié)構(gòu)的挑戰(zhàn);最后一個則是生態(tài)化的挑戰(zhàn),簡單來說現(xiàn)在的智算處于群雄并起階段,自成體系、生態(tài)離散,同時產(chǎn)業(yè)鏈上下游脫節(jié)。

第一個挑戰(zhàn)是多元化。計算最關(guān)鍵的任務(wù)就是支撐業(yè)務(wù),那么不同的業(yè)務(wù)類型,勢必要求有不同的計算系統(tǒng)來完成。例如針對傳統(tǒng)的地震波模擬等科學(xué)計算,數(shù)值精度要求高;而AI訓(xùn)練,則可以使用數(shù)值范圍大、精度低的16位浮點類型;對于AI推理,由于推理要求的速度快、耗能少,則可以在更低的數(shù)值精度下處理,如4位、甚至2位、1位整數(shù)類型。

也就是說,AI的應(yīng)用引入了新的計算類型,從推理到訓(xùn)練,跨度更大,同時,數(shù)據(jù)量也從GB級到TB級、PB級不斷提升,類型從結(jié)構(gòu)化到半結(jié)構(gòu)化、非結(jié)構(gòu)化更加復(fù)雜多樣。

不同數(shù)值精度的計算類型對于計算芯片指令集、架構(gòu)的要求是不一樣的,這樣就導(dǎo)致之前我們一直使用的通用CPU已經(jīng)無法滿足這種多元化計算場景要求了,這也是計算芯片的種類越來越多的很重要的原因。

芯片種類多另外一個原因就是芯片代工模式的普及,現(xiàn)在芯片設(shè)計、制造的關(guān)鍵環(huán)節(jié)都有開源開放的軟件、工具或代工企業(yè)可以利用。但是芯片從造出來到大規(guī)模用起來,往往還隔著一個巨大的生態(tài)鴻溝。芯片應(yīng)用一般都面臨著開發(fā)者學(xué)習(xí)成本高、用戶應(yīng)用遷移困難、芯片制造公司難以上規(guī)模的困難和挑戰(zhàn)。

在有些芯片造出來后,面向開發(fā)者的幫助文檔、調(diào)試工具或者交流問答社區(qū)建設(shè)不足,導(dǎo)致開發(fā)者學(xué)習(xí)時間長,難度大,如果學(xué)習(xí)多個芯片,難度更大,開發(fā)者的學(xué)習(xí)積極性下降。而對于芯片的最終使用者來說,由于芯片指令集或芯片架構(gòu)的差異,導(dǎo)致編程庫、編程模型、算法框架無法有效的橫向拉通,致使大量的應(yīng)用遷移困難,可能只是1%的小小的依賴,就會導(dǎo)致適配工作前功盡棄。

而芯片供應(yīng)商如果想解決開發(fā)者的問題、想解決使用者的問題,則往往需要投入比芯片研發(fā)成本高數(shù)十倍的推廣費用。例如,我們往往認為Intel是一個硬件公司,其實在Intel內(nèi)部有超過1萬人在圍繞芯片的配套支撐、應(yīng)用適配、優(yōu)化調(diào)優(yōu)做工作。英偉達公司的CUDA軟件環(huán)境更是通過長期的大規(guī)模投入,才打造了其GPU在HPC和AI方面的領(lǐng)先地位。

第二個挑戰(zhàn)是巨量化。巨量化首先表現(xiàn)在模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大。

以自然語言處理為例,基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型興起后,模型精度隨著模型尺寸和訓(xùn)練數(shù)據(jù)的增加而顯著提升。2020年GPT-3模型的參數(shù)量首次突破千億大關(guān),達到了1750億。按照當前的發(fā)展趨勢,到2023年模型的參數(shù)量會突破百萬億,也就是基本達到人腦神經(jīng)突觸數(shù)量,人腦的神經(jīng)突觸數(shù)量約125萬億。

巨量模型需要巨量內(nèi)存。當前一顆GPU的板載高速內(nèi)存容量大概是40GB,對于包含百萬億參數(shù)的巨量模型,僅是將這些參數(shù)平均分配到每個GPU內(nèi)存中,就需要1萬塊GPU才能裝得下??紤]到訓(xùn)練中需要額外的存儲,實際上至少需要2萬塊GPU才能啟動訓(xùn)練?,F(xiàn)有AI芯片的架構(gòu)已經(jīng)不足以支撐巨量模型的參數(shù)存儲需求。

同時,巨量模型依賴海量數(shù)據(jù)的喂養(yǎng),目前的AI算法本質(zhì)上還是一種依賴量變的質(zhì)變,很難從一種質(zhì)變跳躍到另一種質(zhì)變,例如最新的巨量模型需要萬億級的詞量數(shù)據(jù)。海量數(shù)據(jù)需要海量存儲。在超大規(guī)模集群中同時滿足幾萬塊AI芯片的高性能讀取,對存儲系統(tǒng)是個極大的挑戰(zhàn)。

巨量化的第二個表現(xiàn)是計算力需求指數(shù)增長

深度學(xué)習(xí)自2011年興起至今,對算力的需求始終呈指數(shù)增長。每隔3.4個月,算力需求翻一倍。左圖中縱軸Petaflops*day代表以1P每秒的算力計算一天所用浮點計算量,共計8.6千億億次浮點運算,就像用千瓦時度量用電量,天文學(xué)以光年為單位度量距離,在此我們將Petaflops-day簡稱為PD,來度量算力。訓(xùn)練巨量模型需要巨大算力:2020年GPT-3的算力達到了3640PD,到2023年巨量模型的算力需求將達到百萬PD。

現(xiàn)在世界上最快的超算是日本的富岳,在這上面完成百萬PD的計算所需要的時間需要兩年。不同領(lǐng)域需要不同類型的巨量模型:GPT-3以處理英文理解任務(wù)為主,為了滿足不同語言,不同場景的精度要求,也要訓(xùn)練不同的巨量模型,這進一步加劇了對算力的需求。如此龐大的算力需求給計算技術(shù)和產(chǎn)品帶來了巨大挑戰(zhàn)。解決這樣的挑戰(zhàn)需要從體系結(jié)構(gòu)、系統(tǒng)軟件等各個領(lǐng)域開展創(chuàng)新。

巨量化的第三個表現(xiàn)是模型應(yīng)用規(guī)模大。AI應(yīng)用已逐漸滲透到各個行業(yè)。以互聯(lián)網(wǎng)頭部企業(yè)為例,他們基于自身已有的AI技術(shù)搭建了AI開放平臺,其上承載著各類AI基礎(chǔ)能力如語音識別、圖像識別、自然語言處理等技術(shù),以及基于這些基礎(chǔ)能力打造的AI應(yīng)用服務(wù)。這些AI開放平臺已經(jīng)吸引了超百萬的AI開發(fā)者,開發(fā)了各類AI應(yīng)用及服務(wù),繁榮了AI應(yīng)用生態(tài),并進一步加速了AI向各個產(chǎn)業(yè)的落地。

目前,這些AI開放平臺每天承載著數(shù)萬億次的調(diào)用量,數(shù)百萬小時的語音識別,超過百億張圖像識別,超過萬億句自然語言理解,如此巨量的調(diào)用對算力中心的應(yīng)用支撐能力產(chǎn)生了極大的挑戰(zhàn)。

第三,生態(tài)化。AI技術(shù)鏈條和產(chǎn)業(yè)鏈條現(xiàn)在還是脫節(jié)的。我想很多人會有這樣的疑問,人工智能那么好,但是這東西怎么跟我的業(yè)務(wù),跟我的客戶應(yīng)用場景結(jié)合起來呢,我想用AI技術(shù)做智能化轉(zhuǎn)型和升級,但是發(fā)現(xiàn)我這里沒人懂算法,懂模型,也缺少好用的AI開發(fā)平臺。同時,那么多算法,模型,如何找到不同算法在應(yīng)用中的最優(yōu)組合?

懂這些的人,往往都集中在科研機構(gòu)或者頭部公司。這些地方集中了最優(yōu)秀的AI人才,但缺少對傳統(tǒng)行業(yè)的需求場景、業(yè)務(wù)規(guī)律的深入理解,也拿不到最關(guān)鍵的業(yè)務(wù)數(shù)據(jù)去對模型進行訓(xùn)練,導(dǎo)致技術(shù)無用武之地。埃森哲等咨詢機構(gòu)的調(diào)查報告也表明,70%以上的有技術(shù)的研究機構(gòu)、科技公司缺需求場景、缺領(lǐng)域知識和數(shù)據(jù),70%以上的行業(yè)用戶缺技術(shù)人才、缺AI平臺和實踐能力。

智算技術(shù)與產(chǎn)業(yè)的生態(tài)離散化,這與我們講的多元化的挑戰(zhàn)是相呼應(yīng)的,芯片架構(gòu)五花八門,指令集不同,無法兼容,而面向芯片的編程庫又跟芯片綁定,靈活性差。小公司只做了其中一個環(huán)節(jié),這造成生態(tài)的縱向不通;大公司希望構(gòu)建封閉的系統(tǒng),這造成了生態(tài)的橫向不通。所有這些都嚴重制約了AI技術(shù)的應(yīng)用和發(fā)展。

通過上面的分析,大家可以看到,一方面智算需求蓬勃發(fā)展,是巨大的機遇;一方面,多元化、巨量化、生態(tài)化的挑戰(zhàn)和困難急需解決。面向新機遇、迎接新挑戰(zhàn),計算技術(shù)與產(chǎn)業(yè)將需要構(gòu)建一個新的發(fā)展格局,簡單概括起來可以描述為:計算逐步向智算轉(zhuǎn)型、多元算力融合和算力供給方式基建化。

面對計算新格局,作為全球領(lǐng)先的人工智能計算企業(yè),浪潮啟動了新的五年規(guī)劃,確定了新的發(fā)展目標和策略。

我們將從技術(shù)、產(chǎn)品、方案和生態(tài)四個方面不斷創(chuàng)新,引領(lǐng)智算發(fā)展,具體包括:創(chuàng)新智算體系結(jié)構(gòu)、構(gòu)建智算產(chǎn)品體系、推動智算中心落地、建設(shè)元腦產(chǎn)業(yè)鏈生態(tài)。

首先來講,是創(chuàng)新智算體系結(jié)構(gòu)。在體系結(jié)構(gòu)方面,我們在2014年提出了融合架構(gòu)以及三步走技術(shù)路線,指明了數(shù)據(jù)中心體系結(jié)構(gòu)的發(fā)展方向。目前已經(jīng)從1.0走到2.0,以IO方式實現(xiàn)了存儲資源和FPGA、GPU、xPU加速設(shè)備池化,正逐步進入3.0階段,提供更高效、靈活、智能的體系架構(gòu)。基于融合架構(gòu),浪潮將從硬件重構(gòu)、軟件定義方面引領(lǐng)智算技術(shù)體系,支撐AI創(chuàng)新應(yīng)用。

在融合架構(gòu)2.0階段已經(jīng)實現(xiàn)了CPU同各種加速單元的協(xié)同,提升智能計算的性能,但普遍采用PCIe互聯(lián)的方式,存在地址空間隔離、不支持緩存一致等問題,仍然克服不了馮諾依曼架構(gòu)固有的功耗墻、內(nèi)存墻,性能、可擴展性受限。

在3.0階段,可以通過片內(nèi)大容量緩存、片外高帶寬內(nèi)存等存算一體方式實現(xiàn)計算數(shù)據(jù)結(jié)合,突破存儲墻;通過高速互連交換網(wǎng)絡(luò),支持更廣泛的多元異構(gòu)計算、支持新型存儲資源池化,提高性能、降低能耗,實現(xiàn)更大規(guī)模資源可擴展,并進一步通過在互聯(lián)處理單元中卸載控制平面,實現(xiàn)控制計算分離,進而達到更為靈活的資源可重構(gòu)。

在系統(tǒng)軟件創(chuàng)新方面,在可重構(gòu)的硬件資源池基礎(chǔ)上,通過軟件定義的方式實現(xiàn)控制層與基礎(chǔ)設(shè)施分離、統(tǒng)一資源組織模型、標準化可編程接口,形成軟件定義計算、軟件定義存儲、軟件定義網(wǎng)絡(luò);并通過微服務(wù)化實現(xiàn)集中管理平臺的高可用和可擴展。

在這個基礎(chǔ)上,進一步與AI技術(shù)結(jié)合,從業(yè)務(wù)上,實現(xiàn)基于特征感知的自適應(yīng)應(yīng)用編排和彈性資源調(diào)度,例如,面向視頻分析、語音識別、自然語言處理、語義理解等AI典型場景,可以按需定義訓(xùn)練和推理系統(tǒng)。從管理上,實現(xiàn)智能化的運營運維,也就是智算中心的無人巡檢、異常行為分析、容量預(yù)測、故障自愈等等。下面舉個例子。

這是一個我們已經(jīng)研發(fā)完成,并且在大客戶當中有了成功實踐的案例,通過創(chuàng)新體系結(jié)構(gòu),實現(xiàn)了智算中心的彈性高效擴展。在這個案例中,通過浪潮的智能網(wǎng)卡,在控制面實現(xiàn)對虛機、裸機、容器生命周期的統(tǒng)一管理,在數(shù)據(jù)面以硬件輔助的方式為虛擬化實例提供接近硬件性能的計算、存儲、網(wǎng)絡(luò)功能。通過IO虛擬化卸載,CPU的有效資源利用率可以提升80%、網(wǎng)絡(luò)存儲延遲達到本地延遲水平,高負載壓力下電商秒殺性能提升30%、計算性價比提升20%。

這是我們正在研究的一個項目,目標是加速巨量模型的高性能計算能力。當前NPU與CPU之間通過PCIe互聯(lián)的方式,嚴重制約了NPU訪問系統(tǒng)內(nèi)存的帶寬。NPU不得不增大片上內(nèi)存以應(yīng)對模型越來越大的挑戰(zhàn),但是巨量模型的出現(xiàn)使得單純增大片上內(nèi)存這條路難以為繼。

所以我們提出了一個新的體系結(jié)構(gòu)參考設(shè)計,其核心在于通過高速互聯(lián)連接NPU與CPU,為NPU提供高速訪問系統(tǒng)內(nèi)存的能力,通過數(shù)據(jù)自動壓縮和解壓縮單元,進一步加速NPU訪問內(nèi)存的效率。通過板載的大容量高速內(nèi)存池,達到完全容納GPT-3模型,避免模型分割導(dǎo)致的芯片利用率低,通信頻繁等問題。

產(chǎn)品方面,浪潮在融合架構(gòu)技術(shù)路線的指引下,將持續(xù)鞏固算力系統(tǒng)、云數(shù)智軟件平臺層面的優(yōu)勢,提供硬件重構(gòu)的智算整機系統(tǒng),包括智算基礎(chǔ)系統(tǒng)、智算加速系統(tǒng)、也會面向海量數(shù)據(jù)和高速互聯(lián)提供智算存儲和數(shù)據(jù)中心交換機產(chǎn)品。此外,將技術(shù)棧持續(xù)往底層延伸,面向不同的場景,開發(fā)定制化的AI加速、網(wǎng)絡(luò)和存儲加速產(chǎn)品等。最終形成覆蓋芯片/板卡、系統(tǒng)、平臺和算法的領(lǐng)先產(chǎn)品體系。

在加速芯片/板卡方面,芯片多元化既是挑戰(zhàn),也是應(yīng)對當前算力需求復(fù)雜多樣的手段。如FPGA,在特定場景下,相對CPU都有10-15倍的性能提升,而GPU等各種AI芯片,面向訓(xùn)練、推理和高性能計算等矩陣運算,則有無可比擬的優(yōu)勢。傳統(tǒng)業(yè)務(wù)應(yīng)用,如網(wǎng)站、數(shù)據(jù)庫等,還需要各種通用CPU來處理。浪潮除了能夠以創(chuàng)新設(shè)計對這些算力單元進行高效融合外,也在一些專用領(lǐng)域開發(fā)了自己的加速器,如智能網(wǎng)卡、視頻加速器等,這些接下來將由彭震在下午為大家介紹這些創(chuàng)新的產(chǎn)品。

面向計算新格局,浪潮將持續(xù)創(chuàng)新,打造全球領(lǐng)先的智算硬件平臺。

在智算基礎(chǔ)系統(tǒng)方面,浪潮具備業(yè)界最豐富的產(chǎn)品布局,擁有全球計算架構(gòu)最全、配置最多、規(guī)格最高的服務(wù)器,僅僅去年,浪潮服務(wù)器刷新12項SPEC CPU測試世界紀錄,打破5項Java性能世界記錄;未來的智算基礎(chǔ)系統(tǒng)將向開放化、融合化、多元化方向發(fā)展,深度參與開放計算生態(tài),繼續(xù)推動開放計算發(fā)展;面向智能化、容器化需求建立多元化計算平臺。

在智算加速系統(tǒng)方面,浪潮為智算中心建設(shè)提供了最領(lǐng)先的算力機組,浪潮NF5488A5是目前全球最高性能的AI服務(wù)器,在MLPerf全球AI基準測試中,單機訓(xùn)練性能測試以絕對優(yōu)勢奪得全球第一,推理性能測試則打破了18項記錄,成為打破記錄最多的AI服務(wù)器。下一步我們將持續(xù)創(chuàng)新以加速器為中心的體系架構(gòu),開發(fā)高性能、高效能AI系列服務(wù)器。同時研發(fā)高效率制冷技術(shù),實現(xiàn)高性能和低PUE,打造綠色節(jié)能的系統(tǒng)。

面向海量訓(xùn)練大數(shù)據(jù),浪潮具有全球性能最好的存儲系統(tǒng),已3次打破SPC-1全球性能測試記錄。未來將面向基礎(chǔ)設(shè)施云化、大數(shù)據(jù)、AI等應(yīng)用場景打造超高密度和超大規(guī)模的智算存儲系統(tǒng),并針對不同的應(yīng)用需求,構(gòu)建容災(zāi)、備份、歸檔等數(shù)據(jù)全生命周期解決方案。

在網(wǎng)絡(luò)互聯(lián)上,浪潮發(fā)布了國內(nèi)首個商用SONiC網(wǎng)絡(luò)操作系統(tǒng),搭載浪潮自主研發(fā)的核心交換機和TOR交換機,實現(xiàn)了數(shù)據(jù)中心的智能高速互連。未來,浪潮網(wǎng)絡(luò)將全面實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)平面、控制平面可編程,為數(shù)據(jù)中心帶來更加智能化、基于意圖的全自驅(qū)網(wǎng)絡(luò)解決方案。

在系統(tǒng)軟件層面,基于我們在操作系統(tǒng)、云平臺、大數(shù)據(jù)和AI平臺長期的研發(fā)積累,我們在業(yè)屆率先提出了智算操作系統(tǒng)。

通過軟件定義方式,在南向,智算操作系統(tǒng)實現(xiàn)多元異構(gòu)計算、新型存儲和網(wǎng)絡(luò)資源的統(tǒng)一管理;在管理平臺層,實現(xiàn)應(yīng)用感知智能調(diào)度和面向智算中心的統(tǒng)一運營和智能運維。

在北向,支撐各種各樣的智能化創(chuàng)新應(yīng)用,保障從海量數(shù)據(jù)處理、大規(guī)模分布式訓(xùn)練、自動模型生成到實時推理應(yīng)用的快速部署上線和穩(wěn)定高效運行。

智算操作系統(tǒng)將是智算中心的神經(jīng)系統(tǒng),讓算力生產(chǎn)、聚合、調(diào)度、釋放渾然一體。

我們在去年的合作伙伴大會上提出了智算中心的概念。智算中心是智慧時代最主要的計算力生產(chǎn)中心和供應(yīng)中心,它以融合架構(gòu)計算系統(tǒng)為平臺,以數(shù)據(jù)為資源,能夠以強大算力驅(qū)動AI模型來對數(shù)據(jù)進行深度加工,產(chǎn)生各種智慧計算服務(wù),并通過網(wǎng)絡(luò)以云服務(wù)形式向組織及個人進行供應(yīng)。智算中心正在成為推動經(jīng)濟社會運行的重要基礎(chǔ)設(shè)施,也是我國新基建的重要內(nèi)容。

那么,智算中心應(yīng)該如何建設(shè)呢?在去年,浪潮聯(lián)合國家信息中心發(fā)布了《智能計算中心規(guī)劃建設(shè)指南》,并在《指南》中提出了智算中心的參考架構(gòu)。

下面講一個例子。

江蘇一直是科技創(chuàng)新的大省,是數(shù)字經(jīng)濟發(fā)展的排頭兵。在今年初,按照《智能計算中心規(guī)劃建設(shè)指南》,南京市投資建設(shè)了智算中心,由寒武紀和浪潮聯(lián)合承建,已經(jīng)投入運營使用。該智算中心對外可提供的算力可達到每秒百億億次,采用了最先進的AI處理芯片和AI計算平臺,都代表著當前我國智算中心建設(shè)的最高水平。該中心將為區(qū)域的公共算力服務(wù),創(chuàng)新應(yīng)用孵化,產(chǎn)業(yè)集聚發(fā)展,科研創(chuàng)新和人才培養(yǎng)提供助力和支撐。

AI產(chǎn)業(yè)化是一個千億級市場、產(chǎn)業(yè)AI化是一個萬億級的市場,無論AI產(chǎn)業(yè)化還是產(chǎn)業(yè)AI化,產(chǎn)業(yè)鏈的拉通和生態(tài)的建設(shè)都是必須的。在AI產(chǎn)業(yè)化過程中,浪潮是新興AI企業(yè)的主要合作伙伴和算力提供商,這些創(chuàng)業(yè)企業(yè)擁有領(lǐng)先的芯片、或積累了大量優(yōu)質(zhì)的算法框架、模型和數(shù)據(jù),這些優(yōu)質(zhì)的AI技術(shù)正是產(chǎn)業(yè)AI化過程中行業(yè)用戶所需要的,也是為這些用戶服務(wù)的傳統(tǒng)軟件開發(fā)商所欠缺的。

為了幫助行業(yè)用戶更好的進行智慧轉(zhuǎn)型,連接傳統(tǒng)ISV和新興AI企業(yè),浪潮提出了元腦生態(tài)計劃。今后,我們會將元腦生態(tài)升級,與合作伙伴共建、共贏、共享元腦生態(tài)平臺,幫助左手伙伴成長,助力右手伙伴轉(zhuǎn)型升級,聚合左右手伙伴的力量,加速行業(yè)、產(chǎn)業(yè)智能化的進程,實現(xiàn)浪潮與伙伴、客戶的共同發(fā)展。

生態(tài)系統(tǒng)首先應(yīng)該是開放的,浪潮多年來一直踐行開放計算的理念,引領(lǐng)開放計算的標準,是全球唯一的三大開放計算組織的發(fā)起成員或白金會員,牽頭了服務(wù)器全部國標,是開放基礎(chǔ)設(shè)施基金會的創(chuàng)始成員,社區(qū)貢獻中國第一,同時還是國際SPEC組織機器學(xué)習(xí)委員會的主席。

同時,我們與伙伴開放合作,不斷進行技術(shù)創(chuàng)新,我們聯(lián)合Intel公司開展第八代服務(wù)器CPU平臺參考設(shè)計,聯(lián)合三星貢獻業(yè)界首個NVMe池化方案,與英偉達聯(lián)合開發(fā)首個支持NVlink低延遲單層鏈路通訊架構(gòu);在算法和應(yīng)用創(chuàng)新方面,聯(lián)合第四范式公司,突破金融票據(jù)識別技術(shù);聯(lián)合馬達智數(shù),打造數(shù)據(jù)預(yù)處理、數(shù)據(jù)三維一體展示軟件;聯(lián)合聲揚科技,研發(fā)面向金融行業(yè)的聲紋識別算法。

過去一年,元腦生態(tài)建設(shè)成績斐然,發(fā)展了15000多個合作伙伴,包括2200多個行業(yè)ISV,超過90%的方案百強企業(yè)。在AI百強企業(yè)中85%都與浪潮有著深度的合作,這里面不僅包含BAT等互聯(lián)網(wǎng)廠商,也包括第四范式、寬邦、暗物質(zhì)、寒武紀等AI獨角獸企業(yè)。

下面講個例子。在智慧交通領(lǐng)域,浪潮積極推動智慧交通方案的落地,為交通行業(yè)的頭部供應(yīng)商提供了超80%的人工智能服務(wù)器,部署了六十余類交通算法與應(yīng)用,涵蓋了闖紅燈、超速、違停、占用公交車道、不走機動車道等十幾種典型場景。

浪潮與臻識科技和優(yōu)碼創(chuàng)達一起,推動了江西省智慧交通建設(shè),為客戶提供的非現(xiàn)場視頻審核一體機在南昌,上饒,新余等16地市落地,幫助客戶提升審片效率40多倍。

各位合作伙伴,計算向智算轉(zhuǎn)型、多元算力融合、智算中心基建化為我們帶來了巨大的發(fā)展機遇。過去的五年,在各位合作伙伴的支持和幫助下,浪潮已經(jīng)成為全球智慧計算的領(lǐng)導(dǎo)者,服務(wù)器全球前三,AI服務(wù)器全球第一、小型機中國第一、存儲出貨量增速全球第一。

新的五年計劃已經(jīng)開啟,在這個新的征程中,浪潮將通過在技術(shù)、產(chǎn)品、方案方面的持續(xù)創(chuàng)新,推動智算新格局的建設(shè)和發(fā)展,并圍繞元腦生態(tài)與各位伙伴精誠合作,攜手共進,于變局中開新局,加速成為世界第一。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論