互聯(lián),成為核心技術

隨著大模型的參數(shù)規(guī)模和訓練數(shù)據(jù)容量快速提升,訓練和部署最新的大模型一定會使用分布式計算,因為單機幾乎不可能提供運行大模型的足夠算力。

本文來自微信公眾號“半導體行業(yè)觀察”,作者/李飛。

今天,人工智能毫無疑問是全球最火熱的技術,同時也成為了半導體行業(yè)最炙手可熱的新市場。在人工智能技術中,目前看來影響力最大的技術將會是大模型技術,其核心特點就是通過使用規(guī)模巨大(參數(shù)可達百億到千億數(shù)量級)的模型,并且在海量的數(shù)據(jù)上訓練,來實現(xiàn)人工智能能力的突破,并且賦能新的應用,其中典型的例子就是去年下半年開始獲得萬眾關注的ChatGPT;而在未來,大模型的復雜度預計會進一步提升,以滿足應用的需求。

訓練和部署大模型需要強而有力的硬件支持,而這也是人工智能時代芯片成為核心技術的原因,因為大模型需要的算力歸根到底來自于芯片,同時人工智能市場的發(fā)展也極大地推動了芯片行業(yè)的市場規(guī)模,以及相關芯片技術的演進。

在給人工智能大模型提供足夠的算力用于訓練和部署的核心芯片技術中,數(shù)據(jù)互聯(lián)正在占據(jù)越來越重要的位置。芯片互聯(lián)越來越重要主要出于兩個原因:

首先,隨著大模型的參數(shù)規(guī)模和訓練數(shù)據(jù)容量快速提升,訓練和部署最新的大模型一定會使用分布式計算,因為單機幾乎不可能提供運行大模型的足夠算力。在分布式計算中,隨著分布式計算節(jié)點數(shù)量提升,理想情況下計算能力是隨著計算節(jié)點數(shù)量線性提升,但是現(xiàn)實中由于不同計算節(jié)點間的數(shù)據(jù)交互需要額外的開銷,因此只能接近而無法真正實現(xiàn)計算能力隨著計算節(jié)點增加而線性增加。換句話說,隨著模型規(guī)模越來越大,需要的分布式節(jié)點數(shù)量越來越多,對于這類分布式計算節(jié)點間的數(shù)據(jù)互聯(lián)需求(帶寬,延遲,成本等)也就越來越高,否則這類分布式計算中的數(shù)據(jù)互聯(lián)將會成為整體計算中的效率瓶頸。

其次,從芯片層面考慮,隨著摩爾定律越來越接近物理極限,目前以chiplet(芯片粒)為代表的高級封裝技術正在成為芯片性能提升的重要方式。使用chiplet可以把單個復雜的大芯片系統(tǒng)分成多個小的芯片粒,每個芯片粒都可以用最合適的工藝去單獨制造,因此確保復雜的芯片系統(tǒng)可以以合理的成本和良率來制造。對于人工智能大模型而言,用于訓練和部署的芯片的規(guī)模都非常大,因此chiplet將會成為支持人工智能芯片的核心技術。而在chiplet方案中,多個chiplet之間的數(shù)據(jù)通信也需要數(shù)據(jù)互聯(lián)技術,換句話說高帶寬、高密度的數(shù)據(jù)互聯(lián)將會成為使用chiplet搭建的人工智能加速芯片中的核心組件。

如上所述,在人工智能時代,數(shù)據(jù)互聯(lián)將會成為核心技術,而其中最關鍵同時也是未來將會有最多發(fā)展的數(shù)據(jù)互聯(lián)方案,就是用于分布式計算中的中長距離數(shù)據(jù)互聯(lián),以及用于chiplet場景中的超短距離數(shù)據(jù)互聯(lián)。

用于分布式計算的數(shù)據(jù)互聯(lián):硅光子技術成為關鍵

人工智能大模型的分布式計算,包括訓練和部署,通常都在數(shù)據(jù)中心中完成。我們在數(shù)據(jù)中心數(shù)據(jù)互聯(lián)中看到兩個重要趨勢,即常規(guī)長距離通信的進一步規(guī)?;?,以及新的短距離應用的崛起。

在常規(guī)的長距離數(shù)據(jù)中心數(shù)據(jù)互聯(lián)領域,目前為了滿足人工智能等應用的需求,互聯(lián)速度正在快速提升,從今天主流的100/200/400Gbps光互聯(lián)技術快速進展到800Gbps光互聯(lián)技術,而到2026年更是預期會使用上1.6Tbps光數(shù)據(jù)互聯(lián)。除了數(shù)據(jù)率提升之外,在人工智能時代,數(shù)據(jù)中心中每臺服務器上對于數(shù)據(jù)互聯(lián)的需求也在提升,因此單臺服務器會需要更多的光數(shù)據(jù)互聯(lián)模塊。與傳統(tǒng)的分立式光互聯(lián)模塊相比,基于硅光技術的光互聯(lián)模塊能實現(xiàn)更高的集成度:在硅光技術中,波導器件、光柵和調制器等核心模塊都可以集成在同一塊芯片上,從而可以大大降低光互聯(lián)模塊的成本,這對于人工智能應用來說是一個重要優(yōu)勢,因為訓練大模型中需要大量的高帶寬數(shù)據(jù)互聯(lián)同時也不能提高太多成本。

隨著對于數(shù)據(jù)互聯(lián)帶寬的要求進一步提升,數(shù)據(jù)中心中的光互聯(lián)帶寬也需要進一步提升,功耗則需要進一步降低,而從這個角度,硅光子技術搭配共封裝光學(co-packaged optics,CPO)也會成為下一代光互聯(lián)帶寬和功耗優(yōu)化的核心技術。

1.png

在共封裝光學技術中,使用硅光子技術實現(xiàn)的光互聯(lián)模塊和使用傳統(tǒng)CMOS技術實現(xiàn)的數(shù)字邏輯(例如光互聯(lián)模塊后接的網(wǎng)絡模塊)將會使用高級封裝技術集成在同一個封裝里——而在傳統(tǒng)的實現(xiàn)中,光互聯(lián)模塊和其他CMOS芯片并不會集成在同一個封裝里。通過使用共封裝光學技術,光互聯(lián)模塊和其他芯片之間的互聯(lián)距離大大縮小,從而減小了光互聯(lián)模塊與電信號接口的信號傳輸衰減,而這對于超高帶寬通信至關重要,因為在這些超高數(shù)據(jù)率的應用中,真正限制數(shù)據(jù)率的往往不是光信號,而是光信號在轉換成電信號之后的信號衰減(即last-mile問題)。另一方面,通過減小信號衰減,光互聯(lián)模塊的整體功耗可以減小。而共封裝光學是基于硅光技術之上的,因為傳統(tǒng)的分立式光模塊因為體積太大,無法使用共封裝光技術和其他芯片集成到同一個封裝里。

除了目前已經(jīng)為人熟知的數(shù)據(jù)中心中長距離光互聯(lián)模塊之外,在人工智能時代將會崛起的另一個光互聯(lián)技術將是計算集群中的中短距離光互聯(lián)。如前所述,在大模型時代,分布式計算將會得到廣泛應用,而在具體的大規(guī)模分布式計算拓撲結構中,常用的結構就是首先由物理位置相鄰的服務器組成一個集群(cluster),在這樣的計算集群中執(zhí)行需要大量數(shù)據(jù)交換的任務,而計算集群之間再使用長距離數(shù)據(jù)互聯(lián)連接在一起以提升計算規(guī)模。在這樣的計算集群中,目前常規(guī)的數(shù)據(jù)互聯(lián)是使用銅絞線的互聯(lián);但是隨著對于數(shù)據(jù)帶寬、延遲和功耗的需求越來越高,使用在計算集群中的光互聯(lián)正在成為越來越重要的技術路徑。

與長距離通信不同,計算集群間的數(shù)據(jù)互聯(lián)需要延遲極低、功耗也較低,但是由于互聯(lián)距離較?。瓷⑿^?。┮虼丝梢栽试S更多的波分復用,因此光互聯(lián)可以考慮多個波分復用信道,每個信道的數(shù)據(jù)率較小(例如16-64Gbps),這樣做可以盡可能減小對于數(shù)字矯正技術的依賴(使用數(shù)字矯正技術將會提升延遲,同時也增加功耗),以滿足對于功耗和延遲的需求。此外,在計算集群中,我們會預期光模塊和CMOS芯片(例如GPU或者HBM)更緊密地集成在一起,因此在共封裝光學CPO技術之上,我們可能會看到集成度更高的晶圓級共封裝光學(WL-CPO)技術,該技術可以為光學互聯(lián)模塊和CMOS芯片之間提供更多互聯(lián)接口,從而進一步增加通信帶寬。

1.png

用于chiplet的超短距離數(shù)據(jù)互聯(lián)

除了長距離光互連之外,另一個人工智能時代的重要數(shù)據(jù)互聯(lián)技術是用于chiplet之間通信的超短距離數(shù)據(jù)互聯(lián)。

1.png

隨著摩爾定律接近物理極限,使用chiplet來實現(xiàn)復雜芯片系統(tǒng)已經(jīng)是業(yè)界共識。在人工智能時代,隨著對算力需求的進一步提升,單芯片系統(tǒng)預計會用到越來越多的chiplet,同時chiplet之間的互相通信需求也會越來越大。長距離光通信數(shù)據(jù)互聯(lián)的主要演進方向是共封裝光學這類的新封裝工藝,而與之相對地超短距離chiplet數(shù)據(jù)互聯(lián)演進更多是依賴電路設計和系統(tǒng)設計。我們可以看到chiplet對于數(shù)據(jù)互聯(lián)需求的兩大方向:

1

更高的數(shù)據(jù)帶寬,更長的通信距離(從毫米級別上升到厘米級別),更嚴格的功耗要求

2

更復雜的通信協(xié)議需求

先看第一個方向,這條需求對于chiplet數(shù)據(jù)互聯(lián)的電路設計提出了越來越多的需求。隨著chiplet數(shù)量越來越多,系統(tǒng)越來越復雜,勢必chiplet之間的互連距離會越來越長,這也就意味著互聯(lián)線上的衰減會更大,會需要更強的收發(fā)機;另一方面,隨著人工智能對于chiplet間數(shù)據(jù)通信帶寬的要求提升,每個chiplet上的數(shù)據(jù)互聯(lián)模塊數(shù)量也會增加,這就意味著單個數(shù)據(jù)互聯(lián)模塊的功耗不能過大以滿足總功耗的限制。另外,隨著數(shù)據(jù)互聯(lián)需求的快速提升,單個數(shù)據(jù)互聯(lián)模塊的芯片面積又不能太大,這樣才能滿足chiplet上總互聯(lián)接口的需求。因此,chiplet數(shù)據(jù)互聯(lián)電路主要有兩大指標,一個是能效比(J/bit),用來衡量數(shù)據(jù)率與功耗之間的關系;另一個指標則是數(shù)據(jù)率密度(bit/s/mm),用來衡量數(shù)據(jù)率與芯片面積之間的關系。隨著chiplet數(shù)據(jù)互聯(lián)需求的提升,未來我們可望會看到越來越高的數(shù)據(jù)率密度,同時越來越好的能效比。

第二個方向則是通信協(xié)議需求,這里涉及了chiplet之間協(xié)同工作的方式,例如在處理器系統(tǒng)中,如何確保chiplet之間緩存一致性的問題。未來隨著chiplet系統(tǒng)越來越復雜,傳輸?shù)膹碗s度也會提升,未來甚至可能會把目前NoC的模式搬到chiplet上。這對于chiplet數(shù)據(jù)互聯(lián)IP的設計也是一個新的發(fā)展方向。

總體來說,對于chiplet的數(shù)據(jù)互聯(lián)來說,隨著人工智能相關需求的興起,未來它可望會成為芯片IP領域一個越來越重要的品類,而具體的技術方向,則會沿著電路設計的優(yōu)化和系統(tǒng)/傳輸協(xié)議復雜度提升的方向去演進。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論