英特爾AI芯片業(yè)務(wù)的現(xiàn)在與未來發(fā)展

Kyle Wiggers
英特爾的野心卻并未止步于此。在近日的采訪中,英特爾副總裁兼架構(gòu)總經(jīng)理Gadi Singer以及與英特爾人工智能產(chǎn)品部門高級主管Casimir Wierzynski透露了英特爾在基于光并以AI加速的光子電路和光學(xué)芯片方面的積極探索。
 
  AI芯片業(yè)務(wù)才是英特爾的未來。去年,英特爾的AI芯片部門創(chuàng)收高達(dá)10億美元,英特爾預(yù)計這一市場還會以每年30%的速度增長,有望從2017年的25億美元增長到2022年的100億美元。如此看來,英特爾目前以數(shù)據(jù)為中心的收入占到了其所有部門所有業(yè)務(wù)的一半,比5年前上漲了大約1/3。
 
  但盡管如此,英偉達(dá)(Nvidia)、高通、邁威爾(Marvell)和AMD等公司帶來的競爭也日益加??;Hailo科技公司、Graphcore、Wave Computing、Esperanto和Quadric等創(chuàng)業(yè)公司也加入了這場角逐;甚至連亞馬遜也有可能威脅到英特爾的收益,因此,英特爾并沒沒有滿足于自己的成就。2015年,英特爾先是收購了現(xiàn)場可編程門陣列(Field Programmable Gate Array,簡稱FPGA)的制造商Altera,一年后又收購了Nervana,填補(bǔ)了其硬件平臺產(chǎn)品的空缺,為全新一代AI加速器芯片組奠定了基礎(chǔ)。去年8月,英特爾又拿下了Vertex.ai——這是一家開發(fā)平臺無關(guān)的AI模型套件的創(chuàng)業(yè)公司。
 
  然而,英特爾的野心卻并未止步于此。在近日的采訪中,英特爾副總裁兼架構(gòu)總經(jīng)理Gadi Singer以及與英特爾人工智能產(chǎn)品部門高級主管Casimir Wierzynski透露了英特爾在基于光并以AI加速的光子電路和光學(xué)芯片方面的積極探索。
 
  Singer表示:“人工智能硬件是一個價值數(shù)十億美元的商機(jī)。我們會投資幾個產(chǎn)品線,因為該領(lǐng)域的需求非常廣泛。其中一些產(chǎn)品(比如加速器等)將側(cè)重于節(jié)能,這是這些產(chǎn)品獨(dú)有的特點(diǎn)。因此,投資這個領(lǐng)域可以讓我們的投資組合相輔相成。”
 
  軟件
 
  Singer指出,如果硬件上相應(yīng)軟件的開發(fā)難度太大,那么硬件將毫無價值。因此,英特爾會絕對不會忽視AI領(lǐng)域的軟件生態(tài)系統(tǒng)。
 
  去年4月,英特爾宣布開源nGraph——這是一種神經(jīng)網(wǎng)絡(luò)模型編譯器,它能夠在多處理器架構(gòu)上對匯編代碼進(jìn)行優(yōu)化。大約在同一時期內(nèi),英特爾還推出了One API,這套工具可以將計算引擎映射到一系列的處理器、圖形芯片、FPGA以及其他加速器。5月份,英特爾新成立的人工智能實(shí)驗室免費(fèi)開放了一個用于自然語言處理的跨平臺庫NLP Architect,該庫可以為聊天助手提供名稱實(shí)體識別,意圖提取和語義分析等功能,同時提供相應(yīng)的評測。
 
  Singer指出,英特爾已開源的工具包遠(yuǎn)不止這些。如今,英特爾還提供了神經(jīng)網(wǎng)絡(luò)壓縮庫Distiller,這個庫可以從AI模型中去除與目標(biāo)任務(wù)無關(guān)的部分,從而達(dá)到縮小模型的目的。還有一個增強(qiáng)學(xué)習(xí)框架Coach,可以讓用戶將AI代理嵌入到機(jī)器人和自動駕駛車輛的訓(xùn)練環(huán)境中。
 
  2018年春季,英特爾推出了OpenVINO(Open Visual Inference&Neural Network Optimization,開放視覺推斷及神經(jīng)網(wǎng)絡(luò)優(yōu)化),這是一個用于AI邊緣計算開發(fā)的工具套件,集成了用于目標(biāo)檢測、面部識別以及目標(biāo)跟蹤等一系列預(yù)先訓(xùn)練好的AI模型。這套工具適用于傳統(tǒng)的CPU,(在使用訓(xùn)練好的AI模型進(jìn)行預(yù)測時)也可以用于FPGA等專門用于推斷的芯片,目前這套工具已經(jīng)被美國通用電氣醫(yī)療集團(tuán)等公司用于醫(yī)療成像,還被Dahua等公司用于智能城市服務(wù)。
 
  Singer表示,OpenVINO旨在打造英特爾的計算機(jī)視覺軟件開發(fā)套件(SDK),這套工具集視頻處理、計算機(jī)視覺、機(jī)器學(xué)習(xí)以及流水線優(yōu)化于一身,其使用了Movidius Neural Compute SDK(該SDK中包含一套軟件,用于編譯、配置并檢查機(jī)器學(xué)習(xí)模型)。兩者與英特爾的Movidius神經(jīng)計算API屬于同一個系列,目的是為了簡化C、C++和Python等編程語言的應(yīng)用開發(fā)。
 
  其中許多套件都運(yùn)行在英特爾的AI DevCloud中,這是一個云托管AI模型訓(xùn)練及推斷平臺,其背后是強(qiáng)大的Xeon可擴(kuò)展處理器。DevCloud提供可擴(kuò)展的存儲和計算資源,因此開發(fā)人員能夠針對硬件(例如Aaeon Technologies等制造商提供的mini-PCIe開發(fā)板)遠(yuǎn)程進(jìn)行測試、優(yōu)化以及模型驗證。
 
  隱私
 
  Singer表示,英特爾深知保護(hù)隱私是AI訓(xùn)練以及推斷的重要發(fā)展趨勢之一,去年年底HE-Transformer的開源就是英特爾邁出的重要的第一步。從大的方面來說,HE-Transformer是一個建立在微軟研究院的簡單加密算法庫(Simple Encrypted Arithmetic Library,簡稱SEAL)上的nGraph后端,允許模型對加密數(shù)據(jù)進(jìn)行操作。
 
  HE-Transformer中“HE”代表“同態(tài)加密”(homomorphic encryption),這種加密形式允許使用算法加密的明文。它生成的加密計算結(jié)果經(jīng)過解密后,與針對未加密文本執(zhí)行的操作結(jié)果完全匹配。
 
  HE-Transformer實(shí)際上是一個抽象層,該抽象層可應(yīng)用于Google的TensorFlow、Facebook的PyTorch和MXNet等開源框架上的神經(jīng)網(wǎng)絡(luò)。
 
  Singer表示:“我們相信安全和隱私極其重要。這實(shí)際上是大規(guī)模機(jī)器學(xué)習(xí)的基本條件。例如,如果你需要獲取多家醫(yī)院的很多患者的信息,那么隱私問題就會變得非常重要。即使你想了解這些人的行為和動作,但是如果你無法保護(hù)他們的隱私,那么他們就不會允許你訪問這些數(shù)據(jù)。”
 
  在談到英特爾是否會繼續(xù)開發(fā)類似于Google TensorFlow Privacy(這個庫采用了一系列統(tǒng)計技術(shù)來保證AI模型訓(xùn)練的隱私)的機(jī)器學(xué)習(xí)庫時,Singer表示相關(guān)的工作正在進(jìn)行中,他說:“現(xiàn)階段我們還不想討論這個問題,因為我們的深度學(xué)習(xí)能力還處于早期階段,但是我們非常有興趣,也愿意投資這方面。”
 
  加速器與FPGA
 
  絕大多數(shù)AI系統(tǒng)核心的神經(jīng)網(wǎng)絡(luò)的構(gòu)成元素是神經(jīng)元,即近似模擬生物神經(jīng)元而建模的數(shù)學(xué)函數(shù)。這些神經(jīng)元分層排列,它們通過“突觸”(synapse)連接,將信號傳遞給其他神經(jīng)元。這些信號(提供給神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù),或者叫輸入)在層與層之間傳播,并通過調(diào)整每個連接的突觸強(qiáng)度(權(quán)重)來逐步“調(diào)整”網(wǎng)絡(luò)。經(jīng)過一段時間后,神經(jīng)網(wǎng)絡(luò)就能從數(shù)據(jù)集中提取特征,并識別出跨樣本趨勢,最終學(xué)會預(yù)測。
 
  神經(jīng)網(wǎng)絡(luò)無法攝取原始的圖像、視頻、音頻或文本。訓(xùn)練數(shù)據(jù)集的樣本需要經(jīng)過代數(shù)轉(zhuǎn)換后變成多維數(shù)組,例如標(biāo)量(單個數(shù)字)、向量(有序的標(biāo)量數(shù)組)以及矩陣(排列成多行多列的標(biāo)量)。還有一種實(shí)體類型叫做張量(tensor),它概括了標(biāo)量、向量和矩陣,并提供了線性變換(或線性關(guān)系)的功能。
 
  例如,一張包含數(shù)百萬像素的圖像會轉(zhuǎn)換成超大的數(shù)字矩陣,而音頻記錄中的單詞和短語可以映射成向量,這種技術(shù)稱為嵌入。
 
  毫無疑問,在處理這些統(tǒng)計操作時,有些硬件的效率更高。一般來說,處理器足以處理一些涉及到復(fù)雜順序計算的推斷和訓(xùn)練,特別是像英特爾第二代Xeon可擴(kuò)展CPU,它結(jié)合了向量神經(jīng)網(wǎng)絡(luò)指令以及名為DL Boost AI的深度學(xué)習(xí)軟件優(yōu)化。因此,英特爾聲稱其第二代Xeon可擴(kuò)展CPU可以將AI工作負(fù)載上的性能提高到2.4倍(這些工作負(fù)載占數(shù)據(jù)中心推斷的60%),同時可以將推斷工作負(fù)載的性能提高到14倍,其中包括圖像識別、目標(biāo)檢測和圖像分割等。英特爾還聲稱其即將推出的10nm Ice Lake處理器能夠提供比市場上同類產(chǎn)品最多高8.8倍的AI推斷吞吐量。
 
  然而,一些最苛刻的深度學(xué)習(xí)涉及張量操作,而顯卡以及專用集成電路(Application Specific Integrated Circuit,簡稱ASIC)的芯片更有利于這些操作。這是因為這些芯片包含數(shù)千個能夠并行執(zhí)行數(shù)百萬次數(shù)學(xué)計算的內(nèi)核。
 
  Singer表示:“盡管CPU對于推斷非常有效,但是有些情況下需要進(jìn)行張量操作。深度學(xué)習(xí)中最苛刻的任務(wù)需要處理多維數(shù)組,而且還需要進(jìn)行張量上進(jìn)行多種算術(shù)運(yùn)算。從解決方案體系結(jié)構(gòu)的角度來看,我們應(yīng)該從優(yōu)化軟件和其他硬件功能方面不斷強(qiáng)化CPU,然而僅靠CPU本身并不足以處理所有這類情形。”
 
  英特爾擁有16nm Myriad X VPU這樣的視覺處理器,它的優(yōu)化圖像信號處理和推斷設(shè)備具有立體聲模塊,可以處理最高180Hz的雙720p視頻源,還擁有采用硬件編碼的可調(diào)信號處理器流水線,能夠?qū)碜?個傳感器的最大4K分辨率的視頻進(jìn)行編碼。此外,它還配備了英特爾的神經(jīng)計算引擎,這是一種專用的硬件加速器,具有本地FP16支持和8位定點(diǎn)支持。
 
  英特爾聲稱,這款芯片在全速運(yùn)轉(zhuǎn)時可以達(dá)到每秒4萬億次計算和每秒1萬億次運(yùn)算的專用神經(jīng)網(wǎng)絡(luò)計算,是其前身(Myriad 2)在深度神經(jīng)網(wǎng)絡(luò)推斷性能的10倍。
 
  FPGA與專用的加速器不太一樣,因為它們的硬件往往針對通用的、更廣泛的計算和數(shù)據(jù)功能。但它們在可編程性方面確實(shí)有優(yōu)勢,因此開發(fā)人員能夠在成品上對它們進(jìn)行配置和重新配置。這可能是微軟為Project Brain Wave選擇英特爾Stratix 10 FPGA的原因之一,Project Brainwave是一項針對加速深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練與部署而優(yōu)化的云服務(wù)。
 
  英特爾在Agilex上提供了最先進(jìn)的FPGA解決方案,其最新的10nm嵌入式芯片組旨在解決企業(yè)網(wǎng)絡(luò)和數(shù)據(jù)中心的“以數(shù)據(jù)為中心”的難題。
 
  Agilex產(chǎn)品具有可定制的異構(gòu)3D系統(tǒng)級封裝,包括模擬、內(nèi)存、計算和定制I/O組件——其中包括DDR5、HBM,還有一塊Intel Optane DC。它們得到了英特爾One API的全面支持,并且還提供了遷移到ASIC的解決辦法。
 
  英特爾聲稱,與英特爾老式的14nm Stratix10FPGA相比,Agilex FPGA的性能提高了40%,總功耗則降低了40%,這部分要?dú)w功于他們的第二代HyperFlex架構(gòu)。
 
  Nervana
 
  早在2017年,英特爾首次宣布其正在研發(fā)的兩款A(yù)I加速器芯片:一款用于推斷工作負(fù)載,另一款用于訓(xùn)練。今年1月份,英特爾在消費(fèi)電子展(Consumer Electronics Show,簡稱CES)新聞發(fā)布會上進(jìn)一步詳細(xì)介紹了這款推斷產(chǎn)品。它被稱為Nervana神經(jīng)網(wǎng)絡(luò)處理器(Nervana Neural Network Processor,即NNP-I),它適用于PCIe插槽(或基于OCP加速器模塊規(guī)格的夾層板),采用10nm工藝制造,并涵蓋了基于英特爾Ice Lake架構(gòu)處理器的一般性操作,以及神經(jīng)網(wǎng)絡(luò)加速。
 
  NNP-I針對圖像識別進(jìn)行了優(yōu)化,其架構(gòu)與其他芯片截然不同;它沒有標(biāo)準(zhǔn)的緩存層次結(jié)構(gòu),其處理器內(nèi)嵌的內(nèi)存由軟件直接管理。Singer表示,由于其高速的芯片內(nèi)外互連,NNP-I能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)參數(shù)分散到多個芯片上,從而實(shí)現(xiàn)非常高的并行性。此外,它還使用了一種新的數(shù)字格式——Flexpoint,這種格式可以提高推斷任務(wù)中至關(guān)重要的標(biāo)量計算,讓芯片能夠適應(yīng)大型機(jī)器學(xué)習(xí)模型,同時保持“行業(yè)領(lǐng)先”的功耗。
 
  Singer表示,“圖像可能是最適合加速器的情況,因為很多圖像識別功能都是矩陣乘法。“自然語言處理和推薦系統(tǒng)需要更多的混合類型的計算,該CPU核心可以在本地執(zhí)行大量的張量活動和CPU任務(wù),而無需將數(shù)據(jù)移出芯片。”
 
  NNP-I的量產(chǎn)仍然任重道遠(yuǎn),但Singer表示,它已經(jīng)在英特爾的實(shí)驗室中運(yùn)行了多種拓?fù)浣Y(jié)構(gòu)。他預(yù)計今年有望投入生產(chǎn),支持Facebook的Glow Compiler——這是一款機(jī)器學(xué)習(xí)編譯器,旨在加速深度學(xué)習(xí)框架的性能。
 
  上述代號為“Spring Crest”的加速芯片Nervana Neural Net L-1000可能與NNP-I一起出現(xiàn)。這種16nm芯片的24個計算集群提供的AI訓(xùn)練性能是同類芯片的10倍,是英特爾首款NNP芯片Lake Crest的3-4倍。
 
  Singer不愿透露更多信息,但他表示,有關(guān)Spring Crest的更多細(xì)節(jié)將在未來幾個月內(nèi)公布。
 
  光子集成電路
 
  根據(jù)英特爾AI產(chǎn)品部門內(nèi)負(fù)責(zé)硅光子組的Wierzynski所說,NNP-I和Spring Crest之外的芯片可能與如今的AI加速器芯片截然不同。目前,光子集成電路(光學(xué)芯片的基礎(chǔ))的工作正在進(jìn)行中,與同類電子集成電路相比,光子集成電路有許多優(yōu)點(diǎn)。
 
  Wierzynski表示:“幾年前,麻省理工學(xué)院出版的一篇論文吸引了我的注意。文中提到了在電子產(chǎn)品使用光子。光子具有非常好的特性,它們可以在物質(zhì)中快速移動,而且你可以通過一些方式控制光,讓它為你做有意義的事請。”
 
  Wierzynski指的是總部位于波士頓的光子技術(shù)創(chuàng)業(yè)公司Lightelligence首席執(zhí)行官沈亦晨,與師從麻省理工學(xué)院物理系教授Marin Soljacic的一名光子材料的博士學(xué)生于2017年在《自然光子學(xué)》雜志上發(fā)表的一篇研究論文,文中描述了一種利用光學(xué)干涉實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)工作負(fù)載的新方法。
 
  Wierzynski說:“加速深度學(xué)習(xí)的關(guān)鍵問題之一是,在芯片越來越小的情況下,如何滿足這種延遲越來越低的需求?我們在挑戰(zhàn)硅芯片的極限。這說明一方面你需要一定的計算性能,同時又需要在一定程度上控制功耗。”
 
  為此,像Lightelligence這樣的光學(xué)芯片只需要有限的能量,因為光產(chǎn)生的熱量比電少。而且光也不易受環(huán)境溫度、電磁場和其他噪音的影響。
 
  此外,采用光子的設(shè)計中,延遲比硅材料改善了10,000倍,同時功耗水平還降低了幾個數(shù)量級。在初步的測試中,與最先進(jìn)的電子芯片相比,某些矩陣矢量乘法運(yùn)算速度提高了100倍。
 
  Wierzynski說:“我們希望你能夠使用與人們現(xiàn)在使用的AI模型很相近的模型。我們也正在學(xué)習(xí)更多關(guān)于如何大規(guī)模構(gòu)建光子電路的知識。這聽起來很像《星際迷航》。”
 
  然而,這并非一件易事。正如Wierzynski所指出的那樣,除了矩陣乘法之外,神經(jīng)網(wǎng)絡(luò)還有第二個基本特征:非線性。如果沒有非線性,那么神經(jīng)網(wǎng)絡(luò)只能簡單地計算輸入的加權(quán)和,而不能做出預(yù)測。遺憾的是,關(guān)于在光學(xué)領(lǐng)域中可以執(zhí)行何種非線性操作的問題仍然存在。一種可能的解決方案是,在同一芯片上結(jié)合硅和光學(xué)電路的混合方法。Wierzynski表示,神經(jīng)網(wǎng)絡(luò)的一些部分可以采用光學(xué)的方式運(yùn)行,而其余的部分則仍以電子的方式運(yùn)行。
 
  但是,這并不能解決光學(xué)芯片的縮放問題。速度非??斓墓庾与娐沸枰焖俚拇鎯ζ?,而且還需要將所有元件(包括激光器、調(diào)制器和光學(xué)組合器)全部封裝在大約200毫米的晶圓上。
 
  Wierzynski說:“任何制造過程中都存在不完善之處,這意味著芯片內(nèi)部和芯片之間會有細(xì)微的變化,這些會影響計算的準(zhǔn)確性。”
 
  幸運(yùn)的是,他和同事們正在努力尋找解決方案。在最近的一篇論文中,他們描述了在馬赫-曾德爾干涉儀(Mach–Zehnder interferometer,簡稱MZI)上構(gòu)建AI系統(tǒng)的兩種架構(gòu),MZIs是一種光子電路,經(jīng)過設(shè)置后可以在兩束光的相位相關(guān)的量之間執(zhí)行2×2矩陣乘法。
 
  在基準(zhǔn)手寫數(shù)字識別(MNIST)的深度學(xué)習(xí)任務(wù)上,對這兩種體系結(jié)構(gòu)進(jìn)行模擬訓(xùn)練后,研究人員發(fā)現(xiàn),在雙精度浮點(diǎn)的精度下,GridNet的準(zhǔn)確度比FFTNet更高(98%對95%)。重要的是,F(xiàn)FTNet表現(xiàn)出強(qiáng)大的穩(wěn)健性,即使加入了人工噪聲,它的準(zhǔn)確率也從未低于50%。
 
  Wierzynski表示,這項研究為人工智能軟件訓(xùn)練技術(shù)奠定了基礎(chǔ),可以避免在制造后對光學(xué)芯片進(jìn)行微調(diào),因此省時省力。
 
  他補(bǔ)充道:“這是英特爾在過去幾十年中為光電路開發(fā)的非常復(fù)雜的制造技術(shù),同時英特爾也賦予了這種技術(shù)一個全新的目的。雖然目前這種技術(shù)還處于初期階段,這個領(lǐng)域內(nèi)還有大量工作需要做,但我已然興奮不已了。”
THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論