本文作者:Raja M.Koduri
英特爾公司高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理
架構(gòu)是硬件和軟件的“煉金術(shù)”。它融合特定計(jì)算引擎所需的先進(jìn)晶體管,通過領(lǐng)先的封裝技術(shù)將它們連接,集成高帶寬和低功耗緩存,在封裝中為混合計(jì)算集群配備高容量、高帶寬內(nèi)存和低時(shí)延、可擴(kuò)展互連,并確保所有軟件無縫地加速。披露面向新產(chǎn)品的架構(gòu)創(chuàng)新,是英特爾架構(gòu)師在每年架構(gòu)日上的期許,今年舉辦的第三屆英特爾架構(gòu)日令人十分興奮。
日前,我們公布了英特爾架構(gòu)在近年來重大的改變和創(chuàng)新。這包括:第一次深入介紹了英特爾首個(gè)性能混合架構(gòu)Alder Lake,其搭載兩款新一代x86內(nèi)核以及智能英特爾硬件線程調(diào)度器;英特爾全新引領(lǐng)行業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)中心架構(gòu)Sapphire Rapids,其搭載全新的性能核以及多種加速器引擎;英特爾全新的獨(dú)立游戲圖形處理器(GPU)架構(gòu);英特爾全新的基礎(chǔ)設(shè)施處理器(IPU)以及超凡的數(shù)據(jù)中心GPU架構(gòu)Ponte Vecchio,其具備英特爾迄今為止最高的計(jì)算密度。
架構(gòu)突破為英特爾的下一波領(lǐng)先產(chǎn)品奠定基礎(chǔ),率先推出的是Alder Lake。隨著從臺(tái)式機(jī)到數(shù)據(jù)中心的工作負(fù)載愈發(fā)龐大、愈發(fā)復(fù)雜、愈發(fā)多樣,我們?cè)诩軜?gòu)日上展示的突破展現(xiàn)了架構(gòu)將如何滿足對(duì)更高計(jì)算性能的需求。
架構(gòu)師們奮力而行,結(jié)合英特爾獨(dú)特、豐富的標(biāo)量、矢量、矩陣和空間計(jì)算引擎,打造混合計(jì)算架構(gòu),為客戶的高需求工作負(fù)載提供非線性處理能力。
我為大家概述如下:
能效核
一個(gè)高度可擴(kuò)展的x86微架構(gòu),它能滿足客戶從低功耗移動(dòng)應(yīng)用到多核微服務(wù)的全方位計(jì)算需求。對(duì)比英特爾迄今為止最多產(chǎn)的CPU微架構(gòu)——Skylake,能效核可在相同功耗下提升40%的單線程性能,或者在提供同樣性能時(shí),功耗僅為Skylake的40%不到。就吞吐量性能而言,與運(yùn)行四個(gè)線程的兩個(gè)Skylake內(nèi)核相比,四個(gè)能效核在性能提升80%的同時(shí)功耗更低,或者在提供相同吞吐量性能時(shí),功耗降低80%。
性能核
它不僅是英特爾迄今為止性能最高的CPU內(nèi)核,而且在CPU架構(gòu)性能方面實(shí)現(xiàn)階梯式提升,推動(dòng)未來十年的計(jì)算發(fā)展。它是一個(gè)更寬、更深、更智能的架構(gòu),展現(xiàn)出更高的并行性,提高執(zhí)行并行性,降低時(shí)延,提升通用性能。它還幫助支持大數(shù)據(jù)集和大型代碼體積的應(yīng)用程序。與第11代酷睿架構(gòu)(Cypress Cove內(nèi)核)相比,相同頻率下,性能核在一系列工作負(fù)載上平均提升了約19%。
針對(duì)數(shù)據(jù)中心處理器和機(jī)器學(xué)習(xí)的發(fā)展趨勢(shì),性能核提供了專用硬件,包括新的英特爾高級(jí)矩陣擴(kuò)展(AMX)來執(zhí)行矩陣乘法運(yùn)算,以獲得數(shù)量級(jí)的性能——AI加速提升約8倍。這是為軟件易用性而設(shè)計(jì),利用了x86編程模型。
英特爾硬件線程調(diào)度器
這是英特爾開發(fā)的獨(dú)特調(diào)度方法,旨在確保將能效核和性能核無縫銜接在一起,從開始就動(dòng)態(tài)、智能地分配工作負(fù)載,從而優(yōu)化系統(tǒng)以在真實(shí)場(chǎng)景中實(shí)現(xiàn)更高的性能和效率。智能直接置于內(nèi)核,英特爾硬件線程調(diào)度器與操作系統(tǒng)無縫配合,在合適的時(shí)間把合適的線程分配給合適的內(nèi)核。
Alder Lake
它重構(gòu)了多核架構(gòu),是英特爾首個(gè)搭載全新英特爾硬件線程調(diào)度器的性能混合架構(gòu)。它是英特爾最智能的客戶端SoC架構(gòu),結(jié)合了能效核和性能核,適用于從移動(dòng)端到臺(tái)式機(jī)的產(chǎn)品,并通過多種業(yè)界領(lǐng)先的I/O和內(nèi)存而引領(lǐng)行業(yè)變革。基于Alder Lake的產(chǎn)品將在今年開始出貨。
Xe HPG和Alchemist SoC
一款全新的獨(dú)立顯卡微架構(gòu),專為游戲和創(chuàng)作工作負(fù)載提供發(fā)燒友級(jí)別的性能。XeHPG微架構(gòu)采用新的Xe內(nèi)核,聚焦計(jì)算、可編程、可擴(kuò)展,并全面支持DirectX 12 Ultimate。Xe內(nèi)核中的全新矩陣引擎(Xe Matrix eXtensions,XMX)能夠加速AI工作負(fù)載,比如XeSS,是一項(xiàng)全新升頻技術(shù)(upscaling technology),可以實(shí)現(xiàn)高性能、高保真游戲體驗(yàn)?;赬e HPG的Alchemist SoC(之前代號(hào)為DG2)將于2022年第一季度上市,并采用新的品牌名英特爾®銳炫™。
Sapphire Rapids
它結(jié)合了英特爾的性能核與全新加速器引擎,樹立了下一代數(shù)據(jù)中心處理器的標(biāo)準(zhǔn)。Sapphire Rapids的核心是一個(gè)模塊化的分區(qū)SoC架構(gòu),得益于英特爾的EMIB多晶片互連封裝技術(shù)和先進(jìn)網(wǎng)格架構(gòu),它具有顯著的可擴(kuò)展性,同時(shí)仍保持單晶片CPU接口的優(yōu)勢(shì)。
基礎(chǔ)設(shè)施處理器(IPU)
Mount Evans是英特爾首款專用ASIC IPU,以及全新的基于FPGA的IPU參考平臺(tái)——Oak Springs Canyon。通過基于英特爾IPU的架構(gòu),云服務(wù)提供商(CSPs)可以通過把基礎(chǔ)設(shè)施任務(wù)從CPU轉(zhuǎn)移到IPU,從而讓數(shù)據(jù)中心收益更大化。把基礎(chǔ)設(shè)施任務(wù)轉(zhuǎn)移到IPU,能夠讓云服務(wù)提供商(CSPs)可以把所有的服務(wù)器CPU租給客戶。
Xe HPC,Ponte Vecchio
Ponte Vecchio是英特爾迄今為止最復(fù)雜的SoC,也是我們踐行IDM 2.0戰(zhàn)略的絕佳示例,它采用多種先進(jìn)的半導(dǎo)體制程工藝、英特爾變革性的EMIB技術(shù)以及Foveros 3D封裝技術(shù)。這是我們實(shí)現(xiàn)堪比登月難度創(chuàng)新后的一款產(chǎn)品,它包含1000億個(gè)晶體管,提供業(yè)界領(lǐng)先的浮點(diǎn)運(yùn)算和計(jì)算密度,以加速人工智能、高性能計(jì)算和高級(jí)分析工作負(fù)載。在架構(gòu)日上,英特爾展示了早期的Ponte Vecchio芯片就已經(jīng)顯示出領(lǐng)先的性能,在一個(gè)流行的AI基準(zhǔn)測(cè)試上創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)紀(jì)錄。我們的A0芯片已經(jīng)實(shí)現(xiàn)了超過每秒45萬億次浮點(diǎn)運(yùn)算的FP32吞吐量,超過5 TBps的持續(xù)內(nèi)存結(jié)構(gòu)帶寬以及超過2 TBps的連接帶寬。如Xe架構(gòu)一樣,Ponte Vecchio將由oneAPI支持,后者是英特爾一個(gè)開放、基于標(biāo)準(zhǔn)、跨架構(gòu)、跨供應(yīng)商的統(tǒng)一軟件堆棧。
回望過去一年,科技處于所有人如何溝通、工作、娛樂和應(yīng)對(duì)新冠肺炎疫情的核心。事實(shí)證明,強(qiáng)大的計(jì)算能力至關(guān)重要。展望未來,我們面臨龐大的算力需求,預(yù)計(jì)到2025年將是1000x(千倍級(jí))的提升,而四年內(nèi)增加1,000倍相當(dāng)于摩爾定律的5次方。
英特爾CEO帕特·基辛格也是一位架構(gòu)師,他說:“我們面臨艱巨的計(jì)算挑戰(zhàn),一定要通過變革性的架構(gòu)和平臺(tái)來解決……正是英特爾才華橫溢的架構(gòu)師和工程師們,讓這些技術(shù)‘魔法’得以成真。”
世界正依賴架構(gòu)師和工程師來解決艱巨無比的計(jì)算問題,以造福人類。這就是為什么我們的戰(zhàn)略和執(zhí)行不斷加速以滿足所需。我們疾步前行。