Nvidia旨在讓神經(jīng)網(wǎng)絡(luò)運(yùn)行速度更快、更高效

信息化觀(guān)察網(wǎng)
編譯
人工智能對(duì)許多行業(yè)都產(chǎn)生了實(shí)際影響,它在一些圖像識(shí)別和語(yǔ)音識(shí)別任務(wù)上超過(guò)了人類(lèi),在各種游戲中也擊敗了專(zhuān)業(yè)玩家。人工智能能夠應(yīng)用于醫(yī)學(xué)、媒體、娛樂(lè)以及安全領(lǐng)域。自動(dòng)駕駛汽車(chē)每年會(huì)大幅減少130萬(wàn)的道路交通...

人工智能對(duì)許多行業(yè)都產(chǎn)生了實(shí)際影響,它在一些圖像識(shí)別和語(yǔ)音識(shí)別任務(wù)上超過(guò)了人類(lèi),在各種游戲中也擊敗了專(zhuān)業(yè)玩家。人工智能能夠應(yīng)用于醫(yī)學(xué)、媒體、娛樂(lè)以及安全領(lǐng)域。自動(dòng)駕駛汽車(chē)每年會(huì)大幅減少130萬(wàn)的道路交通死亡人數(shù),這些事故主要是因?yàn)槿藶槭д`。

“除非你與世隔絕,否則你一定會(huì)知道人工智能革命方興未艾,”Nvidia首席科學(xué)家兼研究主管Bill Dally在最近的VLSI研討會(huì)上說(shuō)道,“人類(lèi)生活和商業(yè)的每個(gè)方面都將受到人工智能的深刻影響。”

Dally說(shuō)道:“盡管取得了這些進(jìn)步,深度學(xué)習(xí)依然是‘完全由硬件支撐’,因?yàn)樘幚淼墓ぷ髁吭絹?lái)越大。目前,ImageNet被認(rèn)為是一個(gè)小型數(shù)據(jù)集,在超過(guò)10億個(gè)圖像上進(jìn)行訓(xùn)練的一些云數(shù)據(jù)中心,并使用超過(guò)1,000個(gè)GPU”。微軟的ResNet-50神經(jīng)網(wǎng)絡(luò)需要77.2億次操作來(lái)處理一個(gè)低分辨率(225x225)圖像。在他的演講中,Dally討論了電路設(shè)計(jì)可以提高訓(xùn)練和在線(xiàn)推斷效率,以滿(mǎn)足這些不斷增長(zhǎng)的要求的一些方法。

“深度神經(jīng)網(wǎng)絡(luò)中的算法主要由卷積和矩陣乘法組成。訓(xùn)練需要至少半精度(FP16),”Dally說(shuō),“最先進(jìn)的是Tesla V100的Tensor Cores,每秒可進(jìn)行120萬(wàn)億次操作,效率非常高。”“CPU和FPGA的數(shù)量級(jí)下降,即使是定制芯片,每瓦性能也會(huì)提高30%。”

Tesla V100是當(dāng)前世界上最快超級(jí)計(jì)算機(jī)的核心。Summit有4608個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都有兩個(gè)IBM Power9處理器和6個(gè)Tesla V100,總共有27648個(gè)GPU,理論峰值吞吐量為3億億次(官方測(cè)量HPL實(shí)測(cè)性能為122.3PFlops)。Dally表示橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室已經(jīng)在“有意義的應(yīng)用程序”上運(yùn)行了能夠支撐1.6 exaops(相當(dāng)于160億億次)的多重精度人工智能運(yùn)算模擬實(shí)驗(yàn)。

但是運(yùn)行這些訓(xùn)練模型是不一樣的。就在線(xiàn)推斷技術(shù)而言,在INT8上已經(jīng)有了足夠的精確度,而且降低精確度能夠節(jié)約能源,因?yàn)榫仃嚦朔〞?huì)已二次方的數(shù)量增加,同時(shí)也會(huì)減少芯片面積(因此會(huì)降低成本)。Xavier SoC的計(jì)算力只有V100的1/10,但是有了類(lèi)似谷歌TPU的固定函數(shù)深度加速器(fixed-function deep-learning accelerator),能夠進(jìn)行每秒20萬(wàn)億次的運(yùn)算操作。需要注意的是,谷歌將其TPU和老款的Nvidia K80進(jìn)行對(duì)比,Dally表示基于Pascal架構(gòu)的Tesla P40已經(jīng)能夠進(jìn)行更加優(yōu)秀的推理運(yùn)算。

在線(xiàn)推理技術(shù)的挑戰(zhàn)在于解決實(shí)時(shí)使用最少數(shù)量能源時(shí)的大量的運(yùn)算操作。例如,Nvidia DriveNet有12個(gè)攝像頭,在4個(gè)分開(kāi)的神經(jīng)網(wǎng)絡(luò)中運(yùn)行。高清分辨率要求其在每張照片上每秒要進(jìn)行9.4萬(wàn)億次的運(yùn)算操作。Dally說(shuō)道:“這是很龐大的計(jì)算載量,需要在能源有限的工具中完成。”

訪(fǎng)問(wèn)本地SRAM每個(gè)字消耗5皮焦耳,片上高速緩存消耗50皮焦耳,而低功耗DDR DRAM(或高帶寬內(nèi)存)則為640皮焦耳,“所以你必非要停止芯片運(yùn)行”。在10焦耳時(shí),計(jì)算成本非常低,甚至從SRAM中提取數(shù)據(jù)也開(kāi)始占主導(dǎo)地位。 Dally提出了一些降低三級(jí)通信成本的技術(shù):片上、模塊和模塊之間。

在降低精度之后,下一個(gè)技巧是利用大多數(shù)神經(jīng)網(wǎng)絡(luò)模型中的數(shù)據(jù)稀疏性。 Nvidia之前提出了一個(gè)三步流程,包括訓(xùn)練網(wǎng)絡(luò)以了解哪些連接很重要,修正不重要的參數(shù),然后重新訓(xùn)練網(wǎng)絡(luò)以微調(diào)剩余連接的權(quán)重以恢復(fù)準(zhǔn)確性。通過(guò)在乘法累加運(yùn)算中重用數(shù)據(jù),系統(tǒng)可以最小化存儲(chǔ)器帶寬和功率。

當(dāng)你需要進(jìn)入存儲(chǔ)器時(shí),片上導(dǎo)線(xiàn)非常密集,但并不節(jié)能,而且由于電源電壓增長(zhǎng)非常緩慢,因此也不太可能改善。 Nvidia提出了首次在ISSCC上展示的這個(gè)想法——電荷再生信號(hào),它使用堆疊的線(xiàn)路中繼器使片上能效提高了四倍。為了避免干擾,Nvidia借用平衡線(xiàn)路上的流量平衡概念——通常用于半定制材料以穿越更長(zhǎng)的距離——以創(chuàng)建僅消耗一平方毫米芯片面積的網(wǎng)絡(luò)芯片結(jié)構(gòu)并具有每秒4TB的帶寬。

在模塊級(jí)別,Dally談到了一個(gè)陣列,該陣列由4個(gè)DRAM內(nèi)存堆棧包圍的GPU組成。這些多芯片模塊還需要密集且節(jié)能的信號(hào)。每個(gè)GPU需要每秒1兆兆位的DRAM帶寬——這個(gè)數(shù)字隨著GPU性能提高而增長(zhǎng)——并且GPU需要以相當(dāng)?shù)膸捪嗷ミB接。由于每個(gè)芯片在每個(gè)邊沿上只有幾百個(gè)可用分配信號(hào)管腳(signal pins),因此你需要20Gbps或更高的信號(hào)速率才能達(dá)到此吞吐量水平。傳統(tǒng)的SerDes鏈路使用大量功率,但Nvidia一直在嘗試一種稱(chēng)為地參考信號(hào)(GRS)的技術(shù),Dally表示該技術(shù)可以在高達(dá)25bps的速度下可靠運(yùn)行,同時(shí)使用大約20%的功率。 GRS可用于在單個(gè)模塊中連接多個(gè)芯片或連接在印刷電路板上緊密排列在一起的多個(gè)Package。

在頂層,Nvidia談到了一種更有效的方式來(lái)連接多個(gè)模塊。為了訓(xùn)練像ResNet-50這樣的大型模型,每個(gè)GPU需要大約每秒400GB的I / O帶寬來(lái)交換參數(shù)。使用印刷電路板中的帶狀線(xiàn)和通孔,在模塊之間發(fā)送高速數(shù)據(jù)的傳統(tǒng)方法,每比特消耗10至15皮焦耳。相反,Nvidia建議將模塊與液體冷卻緊密地封裝在一起,然后將它們直接連接到柔性印刷電路板鏈路上。當(dāng)以25Gbps發(fā)送信號(hào)時(shí),40mm的封裝邊緣可以支持每GPU 400到500GBps的I / O帶寬,而每位僅使用兩個(gè)皮焦耳。

Nvidia是否會(huì)在未來(lái)加速器和DGX系統(tǒng)中采用任何這些研究思路尚不清楚。然而,顯而易見(jiàn)的是,該行業(yè)不再指望摩爾定律每?jī)赡晏峁┫嗤男阅芨倪M(jìn)。由于原始計(jì)算能力在每瓦性能方面達(dá)到極限,因此移動(dòng)數(shù)據(jù)的成本已經(jīng)成為瓶頸,并且在系統(tǒng)設(shè)計(jì)的各個(gè)層面都需要一些創(chuàng)造性的想法來(lái)繼續(xù)擴(kuò)展人工智能。

原文作者:John Morris

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀(guān)點(diǎn))

更多
暫無(wú)評(píng)論