隨著企業(yè)開始使用可將其數(shù)據(jù)投入使用的深度學習(DL)項目,他們必須保護這些數(shù)據(jù),而數(shù)字孿生是成功的關鍵。
在當今世界,數(shù)據(jù)為王。無論是亞馬遜、蘋果、Facebook、谷歌、沃爾瑪還是Netflix,世界上最有價值的公司都有一個共同點:數(shù)據(jù)是他們最有價值的資產。所有這些公司都使用深度學習(DL)將這些數(shù)據(jù)投入使用。
無論您從事什么業(yè)務,數(shù)據(jù)都是您最寶貴的資產。您需要通過執(zhí)行自己的DL保護這些資產。深度學習成功的最重要因素是擁有足夠的正確種類的數(shù)據(jù)。那就是數(shù)字孿生的由來。
數(shù)字孿生是實際物理過程、系統(tǒng)或設備的數(shù)字副本。簡單說,數(shù)字孿生就是在虛擬世界中再造一個現(xiàn)實世界。最重要的是,數(shù)字孿生可能是深度學習項目成功的關鍵,尤其是涉及危險、昂貴或耗時的過程的深度學習項目。
深度學習的希望
到目前為止,包括半導體制造在內的幾乎每個行業(yè)都已經意識到DL創(chuàng)造戰(zhàn)略優(yōu)勢的潛力。深度學習使用神經網絡來執(zhí)行高級模式匹配。深度學習已應用于面部和語音識別、醫(yī)學圖像分析、生物信息學和材料檢查等各種領域。
在半導體制造中,深度學習已經應用于產品缺陷分類等領域。大多數(shù)領先的公司都爭先恐后地在這個充滿希望的新競爭環(huán)境中獲得優(yōu)勢。
隨著企業(yè)開始探索深度學習及其如何為他們提供幫助,許多企業(yè)發(fā)現(xiàn)了兩點:第一,獲得深度學習原型很容易;其次,從“好的原型”到“生產質量”的結果很難。
如今,有了所有從低成本到免費的深度學習平臺、工具和套件,與常規(guī)應用程序開發(fā)相比,深度學習應用的初始開發(fā)非常快速且相對容易。但是,產品化深度學習應用并不比產品化傳統(tǒng)應用更容易,甚至更難。
原因在于數(shù)據(jù)。在沒有提供生產質量結果的深度學習應用和徹底改變您解決特定問題方式的深度學習應用之間,通常有足夠的數(shù)據(jù)以及足夠的正確類型的數(shù)據(jù)。
深度學習的數(shù)據(jù)缺口
深度學習基于模式匹配,它是通過向神經網絡呈現(xiàn)表示要匹配的目標的數(shù)據(jù)來進行“編程”的。大量數(shù)據(jù)訓練網絡以識別目標(并知道何時不是目標)。
深度學習具有強大的功能,可快速生成原型并提供概念驗證。但是深度學習的真正優(yōu)勢不是開發(fā)速度。這是事實,它釋放了數(shù)據(jù)的力量來做其他任何方式都做不到的事情。
任何深度學習應用的成功都取決于訓練中使用的數(shù)據(jù)集的深度和廣度。如果訓練數(shù)據(jù)集太小、太狹窄或太“正常”,那么深度學習方法將不會比標準技術做得更好。實際上,它可能會做得更差。重要的是,用足夠多的數(shù)據(jù)來訓練網絡,以表示所有重要狀態(tài)或演示的數(shù)據(jù),以使網絡學會掌握當前問題的正確本質。
對于某些領域(例如自動駕駛或半導體制造)而言,困難之處在于(非常幸運地)很少發(fā)生某些最嚴重的異常情況。但是,如果您想讓深度學習應用識別出在汽車前面跑來跑去的孩子(或致命的光罩錯誤),則必須使用大量這些情況來訓練網絡,而在實際情況是現(xiàn)實世界中并沒有太多這些數(shù)據(jù)。而數(shù)字孿生是創(chuàng)建足夠的異常數(shù)據(jù)以正確訓練網絡識別這些條件的唯一方法。
上圖為帶有標準偏差的正態(tài)分布曲線圖。在半導體制造中,與駕駛一樣,“異常”事件非常少見,但是必須對神經網絡進行盡可能多的訓練,因為最壞的事件會導致芯片故障。使得整體平均效果還不夠好。
數(shù)字孿生縮小了差距
數(shù)字孿生,也就是實際過程、系統(tǒng)和設備的虛擬表示,是用于創(chuàng)建正確數(shù)量以及正確類型的數(shù)據(jù)以成功訓練深度學習網絡的關鍵工具。
使用數(shù)字雙胞胎創(chuàng)建DL訓練數(shù)據(jù)有以下幾個原因:
您所處的數(shù)據(jù)可能屬于您的客戶,因此您不能將其用于深度學習訓練。
您可能需要將創(chuàng)建深度學習所需數(shù)據(jù)的資源完全投入到客戶項目中。
您已經開發(fā)了深度學習應用,但是發(fā)現(xiàn)您需要特定的數(shù)據(jù)來調整和訓練您的神經網絡以達到所需的準確性,但是使用晶圓廠資源創(chuàng)建數(shù)據(jù)的成本高得令人望而卻步。
您知道您將無法找到足夠的異常數(shù)據(jù)來適當?shù)赜柧毶疃葘W習網絡。最后一種情況幾乎是普遍存在的。
理想情況下,要保持對數(shù)據(jù)的完全控制,您需要三個數(shù)字孿生:生產流程中先于您的過程/設備的數(shù)字孿生子,以提供用于模擬您自己的過程的輸入數(shù)據(jù);您自己的過程/設備的數(shù)字孿生;以及在生產流程中跟隨您的過程/設備的數(shù)字孿生,以便您可以將輸出饋送到下游進行驗證。
在2019年SPIE光罩技術會議上,D2S展示了一篇論文,展示了使用深度學習技術創(chuàng)建的兩個數(shù)字孿生,即掃描電子顯微鏡(SEM)數(shù)字孿生子和曲線反光刻技術(ILT)數(shù)字孿生(圖2顯示了SEM數(shù)字孿生的輸出)。雖然數(shù)字孿生的輸出通常不足以用于制造,但這些數(shù)字孿生已被用于訓練深度學習神經網絡和驗證。重要的是,這些數(shù)字孿生是由深度學習而不是通過仿真生成的。
這是一個使用深度學習作為生成其他DL所需數(shù)據(jù)的工具的示例,它展示了投資深度學習的復合收益。
上圖由SEM數(shù)字孿生生成的掩模SEM圖像和真實SEM圖像的兩個示例。還顯示了在同一位置的水平切割線上的圖像強度。不僅圖像看起來非常相似,而且邊緣的信號響應也相似。
深度學習成功的路線圖
所有這些聽起來都像是有很多工作要做。為什么不使用咨詢公司為您做深度學習?因為,記住,數(shù)據(jù)為王!保護數(shù)據(jù)并自己執(zhí)行深度學習。值得慶幸的是,我們可以遵循一條成功的既定道路。
首先,您需要確定將對深度學習產生影響的項目。您確實需要謹慎選擇,深度學習是模式匹配,因此您需要選擇屬于該領域的內容?;趫D像的應用,例如缺陷分類是比較匹配的。晶圓廠中的所有設備都會創(chuàng)建大量的運行數(shù)據(jù),除非出現(xiàn)問題,否則很少引用這些數(shù)據(jù)。
您不僅可以事后將這些寶貴的數(shù)據(jù)僅用作診斷工具,還可以持續(xù)監(jiān)控整個Fab上的數(shù)據(jù),并訓練深度學習應用程序以標記出問題之前的模式,這樣您就可以在問題產生影響之前識別和糾正問題,節(jié)省停機時間。
例如,Mycronic在2020 SPIE Advanced Lithography Conference上的eBeam Initiative午餐時間演講中披露,該公司如何利用其機器日志文件中的數(shù)據(jù)來使深度學習正常工作,以預測像“mura”之類的異常(不均勻的亮度影響,使人煩惱),但是眾所周知,這對于圖像處理算法來說很難在平板顯示器(FPD)掩模上檢測到。
通常,操作員執(zhí)行的是非常乏味且容易出錯的過程,但是很難使用傳統(tǒng)算法實現(xiàn)自動化,因此這是深度學習的不錯選擇。無論是通過目視檢查還是其他方式,檢查特定情況的專業(yè)人員都會非常有可能正確執(zhí)行任務。但是面對許多類似情況的例子,人類會犯錯并變得越來越不可靠。
在特定情況下,深度學習可能不如人類所能做的那樣好。但是它在一些情況下卻做得比人類要好。隨著執(zhí)行任務時間的增加,人類會犯更多的錯誤;而深度學習的成功概率不會隨著數(shù)量或時間的增加而降低。
幫助縮小與深度學習成功之間的差距
一旦確定了深度學習項目,就會有多種可用資源,可帶您邁向成功之路,同時仍然使您能夠嚴格控制自己的數(shù)據(jù)。如果您是深度學習的新手,并希望為深度學習試點項目提供全面支持,則可以加入電子制造深度學習中心(CDLe,www.cdle.ai),這是一個旨在聯(lián)合起來的行業(yè)領導者聯(lián)盟人才和資源來提升深度學習在我們獨特的問題空間中的先進水平,并加快深度學習在我們企業(yè)的每種產品中的采用,從而改善我們?yōu)榭蛻籼峁┑漠a品。
如果您已經開始進行深度學習項目,但是由于深度學習數(shù)據(jù)缺口而遇到了問題,那么D2S可以幫助您構建數(shù)字雙胞胎,您需要對它們進行擴充和調整才能使DL成功。