免费亚洲欧美精品电影,国产一级毛片一区二区视频,免费人成视频xvideos在线看

詳談AI芯片分類和關(guān)鍵技術(shù)

2019-10-30 15:24

今日頭條

架構(gòu)師技術(shù)聯(lián)盟

人工智能芯片目前有兩種發(fā)展路徑：一種是延續(xù)傳統(tǒng)計算架構(gòu)，加速硬件計算能力，主要以3種類型的芯片為代表，即GPU、FPGA、ASIC，但CPU依舊發(fā)揮著不可替代的作用；另一種是顛覆經(jīng)典的馮·諾依曼計算架構(gòu)，采用類腦神經(jīng)結(jié)構(gòu)來提升計算能力，以IBM TrueNorth芯片為代表。

1、傳統(tǒng)CPU

計算機工業(yè)從1960年代早期開始使用CPU這個術(shù)語。迄今為止，CPU從形態(tài)、設(shè)計到實現(xiàn)都已發(fā)生了巨大的變化，但是其基本工作原理卻一直沒有大的改變。通常CPU由控制器和運算器這兩個主要部件組成。傳統(tǒng)的CPU內(nèi)部結(jié)構(gòu)圖如圖所示：

傳統(tǒng)CPU內(nèi)部結(jié)構(gòu)圖(ALU計算模塊)

從圖中我們可以看到：實質(zhì)上僅單獨的ALU模塊（邏輯運算單元）是用來完成數(shù)據(jù)計算的，其他各個模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。這種通用性結(jié)構(gòu)對于傳統(tǒng)的編程計算模式非常適合，同時可以通過提升CPU主頻（提升單位時間內(nèi)執(zhí)行指令的條數(shù)）來提升計算速度。但對于深度學(xué)習中的并不需要太多的程序指令、卻需要海量數(shù)據(jù)運算的計算需求，這種結(jié)構(gòu)就顯得有些力不從心。尤其是在功耗限制下，無法通過無限制的提升CPU和內(nèi)存的工作頻率來加快指令執(zhí)行速度，這種情況導(dǎo)致CPU系統(tǒng)的發(fā)展遇到不可逾越的瓶頸。

2、并行加速計算的GPU

GPU作為最早從事并行加速計算的處理器，相比CPU速度快，同時比其他加速器芯片編程靈活簡單。

傳統(tǒng)的CPU之所以不適合人工智能算法的執(zhí)行，主要原因在于其計算指令遵循串行執(zhí)行的方式，沒能發(fā)揮出芯片的全部潛力。與之不同的是，GPU具有高并行結(jié)構(gòu)，在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比CPU更高的效率。對比GPU和CPU在結(jié)構(gòu)上的差異，CPU大部分面積為控制器和寄存器，而GPU擁有更ALU(ARITHMETIC LOGIC UNIT，邏輯運算單元)用于數(shù)據(jù)處理，這樣的結(jié)構(gòu)適合對密集型數(shù)據(jù)進行并行處理，CPU與GPU的結(jié)構(gòu)對比如圖所示。

CPU及GPU結(jié)構(gòu)對比圖

程序在GPU系統(tǒng)上的運行速度相較于單核CPU往往提升幾十倍乃至上千倍。隨著英偉達、AMD等公司不斷推進其對GPU大規(guī)模并行架構(gòu)的支持，面向通用計算的GPU(即GPGPU，GENERAL PURPOSE GPU，通用計算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段，GPU的發(fā)展歷程可分為3個階段：

第一代GPU(1999年以前)，部分功能從CPU分離，實現(xiàn)硬件加速，以GE(GEOMETRY ENGINE)為代表，只能起到3D圖像處理的加速作用，不具有軟件編程特性。

第二代GPU(1999-2005年)，實現(xiàn)進一步的硬件加速和有限的編程性。1999年，英偉達發(fā)布了“專為執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計算的”GeForce256圖像處理芯片，將更多的晶體管用作執(zhí)行單元，而不是像CPU那樣用作復(fù)雜的控制單元和緩存，將T&L(TRANSFORM AND LIGHTING)等功能從CPU分離出來，實現(xiàn)了快速變換，這成為GPU真正出現(xiàn)的標志。之后幾年，GPU技術(shù)快速發(fā)展，運算速度迅速超過CPU。2001年英偉達和ATI分別推出的GEFORCE3和RADEON 8500，圖形硬件的流水線被定義為流處理器，出現(xiàn)了頂點級可編程性，同時像素級也具有有限的編程性，但GPU的整體編程性仍然比較有限。

第三代GPU(2006年以后)，GPU實現(xiàn)方便的編程環(huán)境創(chuàng)建，可以直接編寫程序。2006年英偉達與ATI分別推出了CUDA(Compute United Device Architecture，計算統(tǒng)一設(shè)備架構(gòu))編程環(huán)境和CTM(CLOSE TO THE METAL)編程環(huán)境，使得GPU打破圖形語言的局限成為真正的并行數(shù)據(jù)處理超級加速器。

2008年，蘋果公司提出一個通用的并行計算編程平臺OPENCL（OPEN COMPUTING LANGUAGE，開放運算語言），與CUDA綁定在英偉達的顯卡上不同，OPENCL和具體的計算設(shè)備無關(guān)。

GPU芯片的發(fā)展階段

目前，GPU已經(jīng)發(fā)展到較為成熟的階段。谷歌、FACEBOOK、微軟、TWITTER和百度等公司都在使用GPU分析圖片、視頻和音頻文件，以改進搜索和圖像標簽等應(yīng)用功能。此外，很多汽車生產(chǎn)商也在使用GPU芯片發(fā)展無人駕駛。不僅如此，GPU也被應(yīng)用于VR/AR相關(guān)的產(chǎn)業(yè)。

但是GPU也有一定的局限性。深度學(xué)習算法分為訓(xùn)練和推斷兩部分，GPU平臺在算法訓(xùn)練上非常高效。但在推斷中對于單項輸入進行處理的時候，并行計算的優(yōu)勢不能完全發(fā)揮出來。

3、半定制化的FPGA

FPGA是在PAL、GAL、CPLD等可編程器件基礎(chǔ)上進一步發(fā)展的產(chǎn)物。用戶可以通過燒入FPGA配置文件來定義這些門電路以及存儲器之間的連線。這種燒入不是一次性的，比如用戶可以把FPGA配置成一個微控制器MCU，使用完畢后可以編輯配置文件把同一個FPGA配置成一個音頻編解碼器。因此，它既解決了定制電路靈活性的不足，又克服了原有可編程器件門電路數(shù)有限的缺點。

FPGA可同時進行數(shù)據(jù)并行和任務(wù)并行計算，在處理特定應(yīng)用時有更加明顯的效率提升。對于某個特定運算，通用CPU可能需要多個時鐘周期；而FPGA可以通過編程重組電路，直接生成專用電路，僅消耗少量甚至一次時鐘周期就可完成運算。

此外，由于FPGA的靈活性，很多使用通用處理器或ASIC難以實現(xiàn)的底層硬件控制操作技術(shù)，利用FPGA可以很方便的實現(xiàn)。這個特性為算法的功能實現(xiàn)和優(yōu)化留出了更大空間。同時FPGA一次性成本(光刻掩模制作成本)遠低于ASIC，在芯片需求還未成規(guī)模、深度學(xué)習算法暫未穩(wěn)定，需要不斷迭代改進的情況下，利用FPGA芯片具備可重構(gòu)的特性來實現(xiàn)半定制的人工智能芯片是最佳選擇之一。

功耗方面，從體系結(jié)構(gòu)而言，F(xiàn)PGA也具有天生的優(yōu)勢。傳統(tǒng)的馮氏結(jié)構(gòu)中，執(zhí)行單元(如CPU核)執(zhí)行任意指令，都需要有指令存儲器、譯碼器、各種指令的運算器及分支跳轉(zhuǎn)處理邏輯參與運行，而FPGA每個邏輯單元的功能在重編程（即燒入）時就已經(jīng)確定，不需要指令，無需共享內(nèi)存，從而可以極大的降低單位執(zhí)行的功耗，提高整體的能耗比。

由于FPGA具備靈活快速的特點，因此在眾多領(lǐng)域都有替代ASIC的趨勢。FPGA在人工智能領(lǐng)域的應(yīng)用如圖所示。

FPGA在人工智能領(lǐng)域的應(yīng)用

4、全定制化的ASIC

目前以深度學(xué)習為代表的人工智能計算需求，主要采用GPU、FPGA等已有的適合并行計算的通用芯片來實現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒有大規(guī)模興起之時，使用這類已有的通用芯片可以避免專門研發(fā)定制芯片(ASIC)的高投入和高風險。但是，由于這類通用芯片設(shè)計初衷并非專門針對深度學(xué)習，因而天然存在性能、功耗等方面的局限性。隨著人工智能應(yīng)用規(guī)模的擴大，這類問題日益突顯。

GPU作為圖像處理器，設(shè)計初衷是為了應(yīng)對圖像處理中的大規(guī)模并行計算。因此，在應(yīng)用于深度學(xué)習算法時，有三個方面的局限性：第一，應(yīng)用過程中無法充分發(fā)揮并行計算優(yōu)勢。深度學(xué)習包含訓(xùn)練和推斷兩個計算環(huán)節(jié)，GPU在深度學(xué)習算法訓(xùn)練上非常高效，但對于單一輸入進行推斷的場合，并行度的優(yōu)勢不能完全發(fā)揮。第二，無法靈活配置硬件結(jié)構(gòu)。GPU采用SIMT計算模式，硬件結(jié)構(gòu)相對固定。目前深度學(xué)習算法還未完全穩(wěn)定，若深度學(xué)習算法發(fā)生大的變化，GPU無法像FPGA一樣可以靈活的配制硬件結(jié)構(gòu)。第三，運行深度學(xué)習算法能效低于FPGA。

盡管FPGA倍受看好，甚至新一代百度大腦也是基于FPGA平臺研發(fā)，但其畢竟不是專門為了適用深度學(xué)習算法而研發(fā)，實際應(yīng)用中也存在諸多局限：

第一，基本單元的計算能力有限。為了實現(xiàn)可重構(gòu)特性，F(xiàn)PGA內(nèi)部有大量極細粒度的基本單元，但是每個單元的計算能力(主要依靠LUT查找表)都遠遠低于CPU和GPU中的ALU模塊。

第二、計算資源占比相對較低。為實現(xiàn)可重構(gòu)特性，F(xiàn)PGA內(nèi)部大量資源被用于可配置的片上路由與連線。

第三，速度和功耗相對專用定制芯片(ASIC)仍然存在不小差距；第四，F(xiàn)PGA價格較為昂貴，在規(guī)模放量的情況下單塊FPGA的成本要遠高于專用定制芯片。

因此，隨著人工智能算法和應(yīng)用技術(shù)的日益發(fā)展，以及人工智能專用芯片ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟，全定制化人工智能ASIC也逐步體現(xiàn)出自身的優(yōu)勢，從事此類芯片研發(fā)與應(yīng)用的國內(nèi)外比較有代表性的公司如圖所示。

人工智能專用芯片研發(fā)情況一覽

深度學(xué)習算法穩(wěn)定后，AI芯片可采用ASIC設(shè)計方法進行全定制，使性能、功耗和面積等指標面向深度學(xué)習算法做到最優(yōu)。

5、類腦芯片

類腦芯片不采用經(jīng)典的馮·諾依曼架構(gòu)，而是基于神經(jīng)形態(tài)架構(gòu)設(shè)計，以IBM Truenorth為代表。IBM研究人員將存儲單元作為突觸、計算單元作為神經(jīng)元、傳輸單元作為軸突搭建了神經(jīng)芯片的原型。目前，Truenorth用三星28nm功耗工藝技術(shù)，由54億個晶體管組成的芯片構(gòu)成的片上網(wǎng)絡(luò)有4096個神經(jīng)突觸核心，實時作業(yè)功耗僅為70mW。由于神經(jīng)突觸要求權(quán)重可變且要有記憶功能，IBM采用與CMOS工藝兼容的相變非揮發(fā)存儲器（PCM）的技術(shù)實驗性的實現(xiàn)了新型突觸，加快了商業(yè)化進程。

THEEND

免責聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

電子檔案檔案數(shù)據(jù)離線光盤刻錄歸檔長期保存方案

11月14日
走進智能工廠，見證卓越智造的力量

11月13日
美妝界的數(shù)字化奇跡：漠小曼的電商轉(zhuǎn)型與國潮崛起

11月12日
2024 數(shù)智化創(chuàng)新應(yīng)用技術(shù)大會 | 一號邀請

11月11日
SRM趨勢洞察：供應(yīng)商關(guān)系管理將走向何方？

11月11日

5G正式商用在即運營商直面三大考驗

詳談AI芯片分類和關(guān)鍵技術(shù)

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

詳談AI芯片分類和關(guān)鍵技術(shù)

最新評論（評論僅代表用戶觀點）

如何讓你的數(shù)據(jù)有價值？數(shù)據(jù)資產(chǎn)“入表”邁出關(guān)鍵一步→

云平臺存儲四種場景的自動化設(shè)計

實現(xiàn)數(shù)據(jù)價值：從“管”到“用”的跨越

“算力浦江”行動計劃2.0版發(fā)布：助力上海算力基礎(chǔ)設(shè)施持續(xù)創(chuàng)新發(fā)展

本月熱門

AI 原生時代，字節(jié)想要復(fù)刻第三次增長奇跡

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項網(wǎng)絡(luò)安全最佳實踐措施

從5G到6G：開啟無線通信的未來

2024年上半年中國云終端市場跟蹤報告：出貨量達到166.3萬臺，同比增長22.4%

DevSecOps建設(shè)標桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導(dǎo)體數(shù)智峰會正式啟動，邀您共創(chuàng)電子半導(dǎo)體行業(yè)美好未來!

精選文章

首屆“數(shù)據(jù)要素×”行業(yè)推進大會召開，合合信息啟信寶榮獲“數(shù)商TOP50”!

樂采云：爭做企業(yè)采購數(shù)字化領(lǐng)域的弄潮兒

中國信息協(xié)會大數(shù)據(jù)分會數(shù)據(jù)創(chuàng)新大講堂第六期直播圓滿成功

與中航工業(yè)第三次合作!華磊迅拓助力深圳航標實現(xiàn)智造管理數(shù)字化

杰成合力科技榮獲“2022業(yè)務(wù)流程管理信息化領(lǐng)航企業(yè)”

王欽敏：數(shù)治安全智理未來

熱點資訊

電子檔案檔案數(shù)據(jù)離線光盤刻錄歸檔長期保存方案

走進智能工廠，見證卓越智造的力量

美妝界的數(shù)字化奇跡：漠小曼的電商轉(zhuǎn)型與國潮崛起

2024 數(shù)智化創(chuàng)新應(yīng)用技術(shù)大會 | 一號邀請

SRM趨勢洞察：供應(yīng)商關(guān)系管理將走向何方？

5G正式商用在即運營商直面三大考驗

互聯(lián)網(wǎng)+醫(yī)療有多大的想象空間

詳談AI芯片分類和關(guān)鍵技術(shù)

最新評論（評論僅代表用戶觀點）

欄目推薦

如何讓你的數(shù)據(jù)有價值？數(shù)據(jù)資產(chǎn)“入表”邁出關(guān)鍵一步→

云平臺存儲四種場景的自動化設(shè)計

實現(xiàn)數(shù)據(jù)價值：從“管”到“用”的跨越

“算力浦江”行動計劃2.0版發(fā)布：助力上海算力基礎(chǔ)設(shè)施持續(xù)創(chuàng)新發(fā)展

本月熱門

精選文章

熱點資訊

5G正式商用在即運營商直面三大考驗

互聯(lián)網(wǎng)+醫(yī)療有多大的想象空間

如何讓你的數(shù)據(jù)有價值？數(shù)據(jù)資產(chǎn)“入表”邁出關(guān)鍵一步→