長(zhǎng)久以來(lái),我為深度學(xué)習(xí)方面的創(chuàng)新倍加驚訝。GraphCore,Habana Labs,Cerebras,Blaize,Groq,Perceive等公司現(xiàn)在正在攜帶全新想法進(jìn)入這個(gè)市場(chǎng)。最近,來(lái)自加拿大多倫多的Tenstorrent成為其中的一員。
按照當(dāng)前的AI芯片競(jìng)爭(zhēng)格局,每個(gè)新進(jìn)來(lái)的挑戰(zhàn)者都必須從競(jìng)爭(zhēng)者不斷增長(zhǎng)的領(lǐng)域中尋找最佳的替代方案,因?yàn)榈?025年,這將成長(zhǎng)為一個(gè)高達(dá)250億美元的芯片業(yè)務(wù):Cerebras發(fā)表了不可思議的舉行芯片;Groq表示,他們可以在具有單核的芯片上實(shí)現(xiàn)petaflop;現(xiàn)在,Tenstorrent聲名鵲起,并有可能贏得王冠的全部,因?yàn)樗麄兊姆桨改軌驕p少獲得良好答案所需的計(jì)算量,而不是在問(wèn)題上投入大量的蠻力計(jì)算。
按照Tenstorrent CEO Ljubisa Bajic的說(shuō)法,這主要得意與他們一個(gè)被稱之為fine-grained conditional computation的技術(shù),而現(xiàn)在正是一個(gè)開(kāi)啟全新優(yōu)化的時(shí)刻。值得一提,Ljubisa Bajic曾擔(dān)任Nvidia高級(jí)架構(gòu)師,曾擔(dān)任AMD集成電路設(shè)計(jì)總監(jiān)。公司的聯(lián)合創(chuàng)始人還包括AMD前嵌入式工程師Ivan Hammer和AMD固件設(shè)計(jì)工程師Milos Tajkovic。
除其多倫多總部外,該公司還在奧斯汀,德克薩斯州和硅谷設(shè)有辦事處。它得到了Eclipse Ventures和Real Ventures等投資者的支持,他們?cè)?017年8月的A輪融資中貢獻(xiàn)了1250萬(wàn)美元,在2月的B輪融資中貢獻(xiàn)了2070萬(wàn)美元。
什么是條件計(jì)算(conditional computation),它能做什么?
有多種形式的條件計(jì)算,但原則上它們都?xì)w結(jié)為一個(gè)前提:不要計(jì)算您不需要或已經(jīng)知道的東西。例如,將數(shù)字乘以零是沒(méi)有意義的。不要浪費(fèi)時(shí)間和精力,因?yàn)槟呀?jīng)知道答案當(dāng)然是零。但是,如何設(shè)計(jì)芯片以避免這種情況呢?通常,此示例由在執(zhí)行之前修剪神經(jīng)網(wǎng)絡(luò)的軟件處理,以避免要求硅片進(jìn)行乘法運(yùn)算。但是,在運(yùn)行時(shí)需要避免的更復(fù)雜的情況又如何呢?研究人員一直在研究它,并相信它具有潛力。
哈佛大學(xué)的一個(gè)團(tuán)隊(duì)已經(jīng)證明Resnet50的性能提高了1.9倍,原始精度達(dá)到了98%。
但是,對(duì)該概念的更廣泛使用則要求芯片變得足夠“聰明”。在Tenstorrent提供的示例中,這個(gè)被稱為Grayskull的新芯片可以檢測(cè)到足夠接近準(zhǔn)確答案以停止處理網(wǎng)絡(luò),這被Bajic稱為“早期(模型)退出”。該公司已經(jīng)證明了該概念在用于圖像處理的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural nets)以及用于語(yǔ)言處理的循環(huán)網(wǎng)絡(luò)(ecurrent nets)中效果很好。當(dāng)然,除了條件計(jì)算能力外,芯片還有更多功能。他們的設(shè)備具有片上CPU和快速GEMM(矩陣乘法)內(nèi)核,可提供出色的性能。
根據(jù)Tenstorrent的數(shù)據(jù),在75W總線供電的PCIE卡上,Grayskull可以做到368TOPS的運(yùn)行能力,并且在條件執(zhí)行的情況下,使用BERT-Base的SQuAD 1.1數(shù)據(jù)集可實(shí)現(xiàn)高達(dá)23,345句/秒的性能,使其性能比當(dāng)今的領(lǐng)先解決方案高出26倍。我經(jīng)常說(shuō),并堅(jiān)信將需要3-5倍甚至10倍的優(yōu)勢(shì)來(lái)幫助激發(fā)挑戰(zhàn)現(xiàn)狀的生態(tài)系統(tǒng)。26X當(dāng)然可以勝任。預(yù)計(jì)今年晚些時(shí)候,他們將推出300W版本的卡。
盡管該公司聲稱Grayskull是世界上最快的芯片,但許多公司都在爭(zhēng)奪該稱號(hào),在我看到一些真正的應(yīng)用基準(zhǔn)測(cè)試(例如mlperf)之前,我將保留觀點(diǎn)。但是Tenstorrent對(duì)此公告肯定引起了我的注意,并且需要密切關(guān)注。在我看來(lái),這一宣布標(biāo)志著從具有許多快速內(nèi)核,片上存儲(chǔ)器和結(jié)構(gòu)的芯片(描述了迄今為止的大多數(shù)參與者)向一種新的智能計(jì)算方法轉(zhuǎn)變,該方法包括所有軟件,培訓(xùn)和推理芯片。協(xié)調(diào)網(wǎng)絡(luò)知識(shí)以減少計(jì)算量。
Bajic表示,Grayskull正在給合作伙伴送樣,預(yù)計(jì)將在2020年秋季投入生產(chǎn),它所使用的條件執(zhí)技術(shù)可以促進(jìn)更快的AI推理和培訓(xùn),并支持從數(shù)據(jù)中心到邊緣設(shè)備的工作負(fù)載擴(kuò)展。該系統(tǒng)具有Tenstorrent專有的120個(gè)Tensix內(nèi)核,每個(gè)內(nèi)核都包括一個(gè)高利用率數(shù)據(jù)包處理器,一個(gè)可編程單指令多數(shù)據(jù)(SIMD)處理器,一個(gè)密集的數(shù)學(xué)計(jì)算塊和五個(gè)精簡(jiǎn)指令集計(jì)算機(jī)(RISC)內(nèi)核。它們與自定義環(huán)網(wǎng)互連(一種無(wú)開(kāi)關(guān)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(switch-less network topology),用于高效地并行連接處理節(jié)點(diǎn))連接在一起。
Grayskull將Tensix陣列與120MB本地SRAM和八個(gè)通道的LPDDR4配對(duì),這些通道最多支持16GB的外部RAM(跨PCI-E Gen 4的16條通道)。并將在今年晚些時(shí)候投入生產(chǎn)。毫無(wú)疑問(wèn),它將是高通公司Cloud AI 100邊緣計(jì)算卡中的一個(gè)競(jìng)爭(zhēng)對(duì)手,該卡的最大速度遠(yuǎn)遠(yuǎn)超過(guò)每秒100萬(wàn)億次操作(TOP)。特斯拉去年四月詳細(xì)介紹了三星制造的芯片組,該芯片組具有144個(gè)TOP。百度的最新昆侖AI加速器可提供多達(dá)260個(gè)TOPs。
在應(yīng)用市場(chǎng)方面,Tenstorrent計(jì)劃瞄準(zhǔn)數(shù)據(jù)中心,公共和私有云服務(wù)器,本地服務(wù)器,邊緣服務(wù)器以及汽車和其他市場(chǎng)。Bajic計(jì)劃在今年的虛擬Linley Spring Processor Conference上的一次演講中透露更多信息。
在更好的情況出現(xiàn)以前,蠻力是偉大的,我認(rèn)為Tenstorrent確實(shí)做到了。