算力困境:誰(shuí)能成為高性能計(jì)算的助推器?

當(dāng)今我們正處于一個(gè)算力需求極速增長(zhǎng)的時(shí)代,無論是ChatGPT的火爆,還是各種高性能計(jì)算(HPC)的興起,背后都是無盡的算力需求。很明顯,單片SoC在處理、內(nèi)存、帶寬各方面都或多或少面臨著不同程度的挑戰(zhàn),已經(jīng)不能滿足這些強(qiáng)勁的需求。那么,誰(shuí)能成為高性能計(jì)算的助推器呢?

本文來自微信公眾號(hào)“半導(dǎo)體行業(yè)觀察”,作者/杜芹。

當(dāng)今我們正處于一個(gè)算力需求極速增長(zhǎng)的時(shí)代,無論是ChatGPT的火爆,還是各種高性能計(jì)算(HPC)的興起,背后都是無盡的算力需求。很明顯,單片SoC在處理、內(nèi)存、帶寬各方面都或多或少面臨著不同程度的挑戰(zhàn),已經(jīng)不能滿足這些強(qiáng)勁的需求。那么,誰(shuí)能成為高性能計(jì)算的助推器呢?

近年來,異構(gòu)集成、Chiplet等多芯片系統(tǒng)(Multi-Die)開始發(fā)揮重要作用,并呈現(xiàn)出明顯增長(zhǎng)趨勢(shì)。Multi-Die系統(tǒng)通過將多個(gè)不同功能、甚至不同工藝制程的裸片組合在一起,為芯片系統(tǒng)的功率、性能和良率都帶來了新的提升路徑。但是要想確保Multi-Die系統(tǒng)的可靠性和成功,不是易事。為此,行業(yè)內(nèi)各界人士正在為Multi-Die技術(shù)的快速發(fā)展出謀劃策。

Multi-Die系統(tǒng)可靠性要過“兩大關(guān)”

與傳統(tǒng)的單芯片相比,Multi-Die的健康和可靠性有兩大至關(guān)重要的關(guān)隘。

第一大關(guān),驗(yàn)證各個(gè)裸片性能的良好程度。任何一個(gè)裸片的失敗都會(huì)導(dǎo)致整個(gè)系統(tǒng)的失敗,所以首先要保證每個(gè)裸片都經(jīng)過詳盡測(cè)試,達(dá)到極低的故障率。

影響芯片性能的因素有很多,如溫度、老化和退化等。特別是在Multi-Die系統(tǒng)中,不同工藝節(jié)點(diǎn)的芯片可能會(huì)有不同的工作溫度和散熱需求,芯片間的電磁干擾和電遷移問題也需要關(guān)注。因此我們需要進(jìn)行系統(tǒng)級(jí)評(píng)估。在Multi-Die系統(tǒng)中,預(yù)組裝測(cè)試至關(guān)重要,可以幫助確認(rèn)已知良好的芯片(KGD)。此外,先進(jìn)的可測(cè)試設(shè)計(jì)(DFT)功能集成,也可以用來確保芯片的全面評(píng)估。

第二大關(guān),驗(yàn)證芯片間接口的高效性能。這些接口是系統(tǒng)整體性能的關(guān)鍵,尤其在高帶寬、高能效和低延遲的接口設(shè)計(jì)中更為顯著。假如采用了3D堆疊設(shè)計(jì),由于互連的長(zhǎng)度更短,硅通孔(TSV)的脆弱性增加,使得互連級(jí)風(fēng)險(xiǎn)上升。通常,這些高速接口基于UCIe等標(biāo)準(zhǔn),適用于各種封裝類型,支持高速傳輸,適用于從網(wǎng)絡(luò)到大規(guī)模數(shù)據(jù)中心的應(yīng)用。因此,確保小芯片之間的接口無固定故障、開路或短路,以及從時(shí)序和電壓角度的正確行為,對(duì)于確保數(shù)據(jù)的有效共享至關(guān)重要。UCIe提供的冗余通道能在必要時(shí)進(jìn)行修復(fù),確保基于UCIe的系統(tǒng)中的芯片能夠被有效訪問、測(cè)試和修復(fù)。

可以看出,對(duì)單個(gè)芯片到整個(gè)系統(tǒng),以及裸片之間的互聯(lián)特性進(jìn)行全面測(cè)試,對(duì)于確保Multi-Die系統(tǒng)設(shè)計(jì)的可靠性和性能至關(guān)重要。但是要過這兩大關(guān),達(dá)成這樣完整性測(cè)試,對(duì)于行業(yè)來說,具有一定的挑戰(zhàn)。Multi-Die系統(tǒng)的測(cè)試和監(jiān)控必須轉(zhuǎn)向更高級(jí)、集成化的解決方案。

全生命周期管理(SLM):Multi-Die系統(tǒng)成功的關(guān)鍵

隨著芯片和系統(tǒng)復(fù)雜性的不斷增加,以及對(duì)產(chǎn)品性能和壽命的更高期望,為半導(dǎo)體的設(shè)計(jì)、制造和部署定義了新的邊界限制。例如,在Multi-Die系統(tǒng)設(shè)計(jì)中,基于UCIe微凸塊的距離通常在25~55微米,而傳統(tǒng)的物理方法所能探測(cè)的距離一般為90微米。這就意味著傳統(tǒng)的物理探測(cè)技術(shù)無法足夠接近微凸塊以進(jìn)行有效測(cè)試。因此,面對(duì)Multi-Die系統(tǒng)這樣的新需求,必須要找到一種行之有效的方法。

硅生命周期管理(SLM)方法是業(yè)內(nèi)新興的一種范例,是SoC和其他先進(jìn)半導(dǎo)體的生產(chǎn)、制造和部署流程中越來越重要的組成部分。SLM方法使半導(dǎo)體設(shè)計(jì)能夠利用“監(jiān)控、分析和優(yōu)化”的理念,提高硅系統(tǒng)的質(zhì)量、性能和可靠性,實(shí)現(xiàn)預(yù)測(cè)性維護(hù)和故障預(yù)測(cè)。SLM的核心主要體現(xiàn)在以下兩點(diǎn):

通過在芯片設(shè)計(jì)過程中集成傳感器和監(jiān)視器,評(píng)估溫度、電壓、老化和退化等參數(shù),這將特別適用于開發(fā)階段和現(xiàn)場(chǎng)使用的系統(tǒng)。

在硅設(shè)備的整個(gè)生命周期中收集和分析數(shù)據(jù),以提供強(qiáng)大的分析功能,從而實(shí)現(xiàn)設(shè)計(jì)中、測(cè)試中和現(xiàn)場(chǎng)觀察以及設(shè)備改進(jìn);

這種全生命周期洞察的思維也為Multi-Die系統(tǒng)的設(shè)計(jì)和發(fā)展帶來了顯著的功能和性能優(yōu)勢(shì)。以熱問題為例,這是單個(gè)芯片和多芯片系統(tǒng)所共同關(guān)注的。以往在設(shè)計(jì)階段很難在沒有實(shí)際工作負(fù)載的情況下評(píng)估這些問題。當(dāng)引入2.5D或3D架構(gòu)時(shí),了解最終設(shè)計(jì)的熱分布變得更加困難。而借助SLM方法,在芯片上有策略性地放置監(jiān)視器,可以為分析提供數(shù)據(jù),進(jìn)而提供對(duì)芯片熱特性的深入了解,指明可能需要調(diào)整布局以解決散熱問題的地方。

SLM技術(shù)的另一個(gè)優(yōu)勢(shì)是可追溯性,無論最終產(chǎn)品在其生命周期中何時(shí)出現(xiàn)問題,都能追溯到問題的根源。這對(duì)于多芯片系統(tǒng)尤為重要,因?yàn)槠浞庋b成本極高,越早發(fā)現(xiàn)問題,最終損失越小,且能夠更快地投入市場(chǎng)。

此外,在最終產(chǎn)品出現(xiàn)故障的情況下,SLM也能發(fā)揮作用。通過測(cè)試和分析整個(gè)制造生態(tài)系統(tǒng),可以確定故障的根本原因,并識(shí)別可能表現(xiàn)出類似問題的設(shè)備,從而實(shí)現(xiàn)主動(dòng)召回或通過調(diào)整工作電壓或頻率來延長(zhǎng)設(shè)備壽命。

在硅生命周期管理(SLM)領(lǐng)域,新思科技正成為該領(lǐng)域的重要貢獻(xiàn)者。新思科技所開發(fā)的SLM監(jiān)控和分析技術(shù),涵蓋了全面的集成工具、IP和方法,并將其整合到一個(gè)統(tǒng)一的平臺(tái)中。通過智能、高效地收集和存儲(chǔ)整個(gè)Multi-Die系統(tǒng)生命周期中的監(jiān)控?cái)?shù)據(jù),并通過使用強(qiáng)大的分析提供操作建議,為Multi-Die系統(tǒng)的設(shè)計(jì)研發(fā)保駕護(hù)航,進(jìn)而滿足客戶和合作伙伴生態(tài)系統(tǒng)的需求。

640 (1).png

新思科技的SLM解決方案貫穿整個(gè)芯片生命周期的每個(gè)階段

如下圖所示,新思科技的SLM家族中的SLM PVT監(jiān)視器IP,可實(shí)時(shí)收集數(shù)據(jù),用于優(yōu)化和故障診斷,PVT監(jiān)視器IP已通過SGS-TÜV Saar認(rèn)證,并符合AEC-Q100級(jí)標(biāo)準(zhǔn);基于AI的優(yōu)化技術(shù)可提高設(shè)計(jì)性能和可靠性;所有的SLM集成系統(tǒng)都建立在統(tǒng)一的數(shù)據(jù)庫(kù)解決方案之上,可提高數(shù)據(jù)可見性和分析效率。最終形成了一個(gè)端到端解決方案,可滿足所有SLM要求。

640 (1).png

新思科技的SLM家族

助力Multi-Die系統(tǒng)走向更高峰

在高性能計(jì)算的推動(dòng)下,Multi-Die系統(tǒng)的發(fā)展正在加速。但是,Multi-Die系統(tǒng)作為半導(dǎo)體行業(yè)的新興技術(shù),要想廣泛推廣和進(jìn)一步發(fā)展,仍需在設(shè)計(jì)、制造、封裝等方面精雕細(xì)琢。更加自動(dòng)化和智能化的EDA工具將成為推動(dòng)Multi-Die系統(tǒng)迅速成長(zhǎng)的關(guān)鍵支柱。

不過,僅依靠傳統(tǒng)的工具和方法來設(shè)計(jì)和測(cè)試Multi-Die系統(tǒng),愈發(fā)顯得有點(diǎn)吃力。近年來,AI在EDA領(lǐng)域的應(yīng)用無疑為電子設(shè)計(jì)自動(dòng)化增添了新的活力。

借助AI技術(shù),Synopsys.ai套件能夠迅速應(yīng)對(duì)設(shè)計(jì)復(fù)雜性,承擔(dān)諸如設(shè)計(jì)空間探索、驗(yàn)證覆蓋范圍、回歸分析和測(cè)試程序生成等重復(fù)性任務(wù),同時(shí)在功耗、性能和芯片面積方面進(jìn)行優(yōu)化。這使得工程師可以將更多精力專注于芯片質(zhì)量和創(chuàng)新。此外,Synopsys.ai提供業(yè)界首個(gè)數(shù)據(jù)流連續(xù)解決方案,以加速芯片的設(shè)計(jì)、驗(yàn)證和批量制造過程。這種基于人工智能的數(shù)據(jù)分析解決方案使團(tuán)隊(duì)能夠有效地解鎖、連接和分析設(shè)計(jì)、驗(yàn)證、制造、測(cè)試和現(xiàn)場(chǎng)操作中積累的龐大數(shù)據(jù)量。其獨(dú)特的芯片監(jiān)控技術(shù)有助于優(yōu)化功耗、性能、質(zhì)量、良率和吞吐量,而綜合可視化功能則加速了IC生命周期各階段的根本原因分析。

對(duì)于Multi-Die系統(tǒng)中的復(fù)雜的多重測(cè)試而言,AI驅(qū)動(dòng)的Synopsys TSO.ai將是很好的“助手”。它可以最大限度地降低當(dāng)今復(fù)雜設(shè)計(jì)的測(cè)試成本和上市時(shí)間。TSO.ai能夠自動(dòng)在大型測(cè)試搜索空間中搜索最佳解決方案,以最大限度地減少模式數(shù)量和ATPG周轉(zhuǎn)時(shí)間,從而大幅降低測(cè)試成本。通過利用人工智能的力量,TSO.ai提供自動(dòng)化、可擴(kuò)展性和專家級(jí)生產(chǎn)力,以提供超出手動(dòng)工作所能達(dá)到的結(jié)果。

如同Multi-Die技術(shù)將多個(gè)芯片集合在一起一樣,行業(yè)的解決方案也不能靠單個(gè)的工具來支撐。綜合性、平臺(tái)化、一站式的解決方案方是這個(gè)時(shí)代的“良藥”。在這方面,新思科技的Multi-Die系統(tǒng)解決方案集多種成熟技術(shù)于一身。該方案涵蓋了架構(gòu)探索、設(shè)計(jì)、軟件開發(fā)、系統(tǒng)驗(yàn)證、IP、測(cè)試及芯片生命周期管理等多個(gè)方面,正引領(lǐng)著行業(yè)從單片系統(tǒng)芯片(SoC)加速向Multi-Die系統(tǒng)的轉(zhuǎn)型。

結(jié)語(yǔ)

Multi-Die技術(shù)的迅速崛起,不僅是半導(dǎo)體行業(yè)技術(shù)發(fā)展的必然結(jié)果,也是市場(chǎng)需求和技術(shù)創(chuàng)新相互作用的產(chǎn)物。這一變革背后,是眾多芯片行業(yè)從業(yè)者的辛勤努力和智慧結(jié)晶。他們通過精心的設(shè)計(jì)、創(chuàng)新的思維和EDA工具,共同推動(dòng)著Multi-Die技術(shù)的發(fā)展。未來,隨著Multi-Die技術(shù)的進(jìn)一步普及和應(yīng)用,將引領(lǐng)半導(dǎo)體行業(yè)走向新的高度,并開啟計(jì)算技術(shù)的新篇章。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論