什么是數(shù)字孿生?數(shù)字孿生是物理系統(tǒng)的虛擬副本。這個(gè)定義看起來(lái)很形象,這個(gè)簡(jiǎn)單的定義是邁克爾·格里夫斯博士在2002年創(chuàng)造的,體現(xiàn)了這個(gè)術(shù)語(yǔ)的本質(zhì),這個(gè)概念最早被美國(guó)宇航局用于太空探索任務(wù)。最初,美國(guó)宇航局有一對(duì)物理孿生體:地球上真實(shí)的宇宙飛船的物理拷貝來(lái)反映遙遠(yuǎn)宇宙飛船的狀態(tài)。
現(xiàn)在,數(shù)字孿生正在影響所有行業(yè),主要是制造業(yè)、汽車(chē)業(yè)、建筑業(yè)、公用事業(yè)和醫(yī)療保健業(yè)。數(shù)字孿生不僅在系統(tǒng)運(yùn)行期間使用,而且在設(shè)計(jì)和構(gòu)建階段也能使用。
首先,了解下用于數(shù)字孿生的當(dāng)前技術(shù)以及構(gòu)成體系結(jié)構(gòu)的技術(shù),其中數(shù)據(jù)管理、數(shù)據(jù)庫(kù)和(實(shí)時(shí))機(jī)器學(xué)習(xí)在這方面起著至關(guān)重要的作用。我們解釋了技術(shù)基礎(chǔ),下面討論下目前存在的不同類(lèi)型的數(shù)字孿生。
一、數(shù)字孿生的結(jié)構(gòu)
數(shù)字孿生正在連接物理世界和虛擬世界。我們?cè)缇鸵呀?jīng)這么做了,ERP(企業(yè)資源規(guī)劃)不就是通過(guò)虛擬拷貝來(lái)管理物理資產(chǎn)嗎,客戶(hù)數(shù)據(jù)庫(kù)中的每個(gè)記錄不是真人的數(shù)字孿生嗎?但是,要想讓數(shù)字孿生真正RUN起來(lái),我們需要做兩件事:
實(shí)時(shí)數(shù)據(jù)集成
實(shí)時(shí)機(jī)器學(xué)習(xí)
1、實(shí)時(shí)數(shù)據(jù)集成
我們已經(jīng)做了幾十年的批量數(shù)據(jù)集成,但并沒(méi)有真正考慮實(shí)時(shí)數(shù)據(jù)集成。因此,類(lèi)似于IBM Streams、Apache Flink、Apache Spark Structured Streaming、Apache Kafka和Node RED的方案應(yīng)運(yùn)而生。
Apache Spark特別有用,因?yàn)樗鼘⑴幚砼c流式處理結(jié)合起來(lái)。apachesparkversion2.3使用微批處理,與Apache Flink和IBM Streams的性能接近,更接近于實(shí)時(shí)數(shù)據(jù)集成的解決方案。
邊緣計(jì)算是工業(yè)互聯(lián)網(wǎng)中的實(shí)時(shí)數(shù)據(jù)集成重要的部分,不必總是將數(shù)據(jù)集成到一個(gè)集中的云存儲(chǔ)中。它也可以分布在各種各樣的邊緣上,并且可以在最有意義的地方直接處理。邊緣計(jì)算解決了三個(gè)主要問(wèn)題:
網(wǎng)絡(luò)分區(qū)。越靠近邊緣,網(wǎng)絡(luò)連接就越不可靠。因此,一種更智能的本地?cái)?shù)據(jù)處理方法可以緩解邊緣斷開(kāi)的問(wèn)題。
網(wǎng)絡(luò)延遲。越接近邊緣,解決方案中的網(wǎng)絡(luò)延遲就越大。關(guān)于邊緣數(shù)據(jù)的決策避免了這種延遲,因此決策速度更快。網(wǎng)絡(luò)延遲是一個(gè)重要的特性,因?yàn)榇蠖鄶?shù)工業(yè)互聯(lián)網(wǎng)傳感器數(shù)據(jù)在幾秒鐘內(nèi)就失去了價(jià)值。例如,在一輛自動(dòng)駕駛的汽車(chē)?yán)?,?dāng)一個(gè)孩子跑在汽車(chē)前面時(shí),你不能再等250毫秒才停下來(lái)。
數(shù)據(jù)隱私。工業(yè)互聯(lián)網(wǎng)傳感器,包括攝像頭和麥克風(fēng),正在捕獲非常有價(jià)值的數(shù)據(jù)。但它們也引起了人們對(duì)數(shù)據(jù)隱私的高度關(guān)注。如果數(shù)據(jù)是在邊緣直接處理的,那么關(guān)鍵信息永遠(yuǎn)不需要離開(kāi)這個(gè)小邊緣設(shè)備。例如,電梯的占用率一旦通過(guò)視頻流進(jìn)行測(cè)量,就可以?xún)?yōu)化調(diào)度和樓層分配,以減少等待時(shí)間,提高電梯的工作負(fù)荷。但是,您永遠(yuǎn)不希望電梯內(nèi)的視頻流離開(kāi)邊緣設(shè)備。
2、實(shí)時(shí)機(jī)器學(xué)習(xí)
傳統(tǒng)的ERP系統(tǒng)是基于規(guī)則的系統(tǒng)。這些規(guī)則是在軟件中手動(dòng)實(shí)現(xiàn)的,主要是業(yè)務(wù)人員查看歷史數(shù)據(jù)和使用過(guò)程,涉及到很多手工工作,而且這些規(guī)則很少改變。
在數(shù)字孿生中,數(shù)據(jù)是實(shí)時(shí)接收和處理的。這允許物理系統(tǒng)的模型實(shí)時(shí)作用于數(shù)據(jù),例如由機(jī)器學(xué)習(xí)支持的黑盒模型或由領(lǐng)域?qū)<叶x的白盒模型;異常檢測(cè)器將發(fā)出警報(bào)并關(guān)閉生產(chǎn)線(xiàn),以防止進(jìn)一步損壞;在數(shù)字孿生機(jī)上模擬不同參數(shù)集的結(jié)果后,用最優(yōu)參數(shù)集更新實(shí)際系統(tǒng)等。
大多數(shù)機(jī)器學(xué)習(xí)模型都是在靜止數(shù)據(jù)上訓(xùn)練的。因此,我們需要將所有實(shí)時(shí)數(shù)據(jù)存儲(chǔ)在能夠高效檢索的地方:
許多機(jī)器學(xué)習(xí)算法也可以使用windows系統(tǒng)通過(guò)數(shù)據(jù)流進(jìn)行訓(xùn)練。實(shí)現(xiàn)機(jī)器學(xué)習(xí)的一個(gè)關(guān)鍵階段是超參數(shù)調(diào)整階段,在這個(gè)階段,您可以多次使用更改的參數(shù)配置重新運(yùn)行模型訓(xùn)練,以獲得最佳結(jié)果。這種調(diào)整超參數(shù)配置的過(guò)程在數(shù)據(jù)流上要困難得多,因?yàn)槿绻行碌南敕ɑ蛳霚y(cè)試一個(gè)新的算法,數(shù)據(jù)已經(jīng)消失了,因?yàn)樗鼪](méi)有被存儲(chǔ)。
在實(shí)時(shí)模型訓(xùn)練中,系統(tǒng)性能必須始終與數(shù)據(jù)到達(dá)率保持同步。否則,緩沖區(qū)會(huì)溢出,系統(tǒng)會(huì)被破壞,數(shù)據(jù)將會(huì)丟失。
由于windows上的訓(xùn)練減少了時(shí)間帶寬,因此不能考慮時(shí)間和距離的因素。
所以實(shí)際上我們需要同時(shí)做這兩件事,實(shí)時(shí)數(shù)據(jù)流上的數(shù)據(jù)處理和歷史數(shù)據(jù)上的數(shù)據(jù)處理,我們也必須要建立一個(gè)歷史數(shù)據(jù)匯集庫(kù)。
二、工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)管理挑戰(zhàn)
工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)的數(shù)據(jù)處理無(wú)疑是相當(dāng)具有挑戰(zhàn)性的。主要是因?yàn)榇罅繑?shù)據(jù)以高速到達(dá)。正如我們之前所了解到的,獲取模型培訓(xùn)的歷史數(shù)據(jù)可能是至關(guān)重要的。但在我們討論最佳工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)之前,讓我們考慮其他一些同樣重要的東西:元數(shù)據(jù)。
數(shù)字孿生通常反映數(shù)千個(gè)傳感器參數(shù)。為了不丟失,使用元數(shù)據(jù)數(shù)據(jù)庫(kù)。在實(shí)際中,我們使用一個(gè)圖形數(shù)據(jù)庫(kù),因?yàn)檫@允許我們?cè)趯哟谓Y(jié)構(gòu)中對(duì)物理系統(tǒng)建模。例如,數(shù)據(jù)中心由3棟樓組成,每棟樓28層,每層樓有不同的房間,每個(gè)房間有不同的傳感器。因此,使用層次圖查詢(xún),可以選擇需要考慮特定下游分析任務(wù)的相關(guān)數(shù)據(jù)源。
垃圾數(shù)據(jù)是任何IT系統(tǒng)中的一個(gè)常見(jiàn)問(wèn)題,因此工業(yè)互聯(lián)網(wǎng)系統(tǒng)也不例外。很多人在他們的工業(yè)互聯(lián)網(wǎng)解決方案中使用時(shí)間序列數(shù)據(jù)庫(kù),因?yàn)樗鼈兂惺芨咄掏铝拷邮蘸透咝У臅r(shí)間查詢(xún)。我也提供一個(gè)項(xiàng)目上的案例看看是怎么做的。我們使用云對(duì)象存儲(chǔ)和一個(gè)簡(jiǎn)單的文件夾方案:
傳感器UUID/年/月/日/時(shí)/分/秒。
為每個(gè)傳感器創(chuàng)建每1秒時(shí)間窗口的索引。UUID避免了沖突,可以在元數(shù)據(jù)存儲(chǔ)庫(kù)中查找元數(shù)據(jù)。甚至不必在乎這些數(shù)據(jù)是否分布在多個(gè)工業(yè)互聯(lián)網(wǎng)邊緣,因?yàn)橐锤櫚囟▊鞲衅鱑UID的數(shù)據(jù)分區(qū)的索引,要么只要求它們?nèi)俊?/p>
因此,工業(yè)互聯(lián)網(wǎng)傳感器數(shù)據(jù)僅是“附加”數(shù)據(jù),它是由每個(gè)傳感器UUID的一個(gè)線(xiàn)程編寫(xiě)的。云對(duì)象存儲(chǔ)現(xiàn)在可以并行到文件夾的最低級(jí)別(秒),這意味著我們可以獲得無(wú)限的線(xiàn)性可伸縮性!
在第二個(gè)文件夾中,使用的是Apache Parquet文件,其中壓縮了數(shù)據(jù)(以加快I/O速度并以列格式存儲(chǔ)),可以使用Apache SparkSQL開(kāi)箱即用來(lái)獲得所有數(shù)據(jù)的SQL視圖,其中備份、復(fù)制和擴(kuò)展由云對(duì)象存儲(chǔ)負(fù)責(zé)。
三、數(shù)字孿生的不同類(lèi)型
現(xiàn)在我們已經(jīng)了解了數(shù)字孿生的基本架構(gòu)和數(shù)據(jù)管理挑戰(zhàn),讓我們來(lái)看看不同類(lèi)型的數(shù)字孿生。在我們談?wù)摂?shù)字孿生時(shí),最常想到的是一個(gè)軟件解決方案以數(shù)字方式鏡像生產(chǎn)系統(tǒng),但還有更多。生產(chǎn)系統(tǒng)在建立之前就已經(jīng)有了歷史,而數(shù)字孿生可以支持一個(gè)產(chǎn)品的完整開(kāi)發(fā)周期。因此,Reason代表產(chǎn)品規(guī)劃階段,Realize代表產(chǎn)品生產(chǎn)階段,Run代表產(chǎn)品部署階段。三個(gè)不同的數(shù)字孿生,都在同時(shí)工作。也就是說(shuō),部署產(chǎn)品的數(shù)據(jù)可以影響新版本產(chǎn)品的計(jì)劃和生產(chǎn)。
下面,讓我們了解一下不同類(lèi)型的數(shù)字孿生:
部分孿生。數(shù)字孿生與一個(gè)大系統(tǒng)的一部分相連。例如,發(fā)電企業(yè)生產(chǎn)車(chē)間的軸承。這種軸承在運(yùn)行時(shí)可以有一個(gè)數(shù)字孿生,這可以了解它的運(yùn)行狀況,如估計(jì)平均故障間隔時(shí)間(MTBF)或平均失效前時(shí)間(MTTF)。這些數(shù)據(jù)可以從當(dāng)前數(shù)據(jù)(如振動(dòng)傳感器數(shù)據(jù)或聲音)中導(dǎo)出(預(yù)測(cè)或建模),也可以從設(shè)計(jì)或制造階段的數(shù)據(jù)(如設(shè)計(jì)了什么樣的齒輪齒形或使用了什么樣的成型刀具制造)。當(dāng)然,在零件操作過(guò)程中發(fā)現(xiàn)的可以反饋到設(shè)計(jì)和制造階段。
產(chǎn)品孿生。產(chǎn)品孿生基本上是一組反映其相互作用的部分孿生體。從軟件產(chǎn)品的角度來(lái)看,產(chǎn)品孿生通常是相同的,因此可以通過(guò)向下鉆取從產(chǎn)品孿生訪問(wèn)部件孿生。發(fā)電企業(yè)發(fā)電機(jī)是雙軸承產(chǎn)品的一個(gè)例子,它有多個(gè)軸承和部分雙軸承。
系統(tǒng)孿生。系統(tǒng)孿生比產(chǎn)品孿生更上一層樓。同樣,系統(tǒng)孿生很可能在同一個(gè)軟件產(chǎn)品中實(shí)現(xiàn),提供與產(chǎn)品或部分孿生相似的功能,但它只是整個(gè)系統(tǒng)的一個(gè)視圖。所以讓我們繼續(xù)以發(fā)電企業(yè)為例,一個(gè)系統(tǒng)孿生(取決于它的定義)可能反映歷史和當(dāng)前狀態(tài),并預(yù)測(cè)一個(gè)發(fā)電廠、整個(gè)發(fā)電廠、甚至一個(gè)電網(wǎng)分區(qū)的特定動(dòng)力傳動(dòng)系統(tǒng)的未來(lái)狀態(tài)。
還有很多不同類(lèi)型的數(shù)字孿生,取決于你問(wèn)誰(shuí)和怎么定義,但以上已經(jīng)涵蓋了最重要的類(lèi)型。
四、數(shù)字孿生的發(fā)展趨勢(shì)
數(shù)字孿生還處于初步發(fā)展階段,但發(fā)展速度會(huì)很快。“盡可能多地輸入數(shù)據(jù)并運(yùn)用于人工智能”—這通常是信息服務(wù)商銷(xiāo)售數(shù)字孿生解決方案的理由。事實(shí)上,這并沒(méi)有錯(cuò)。數(shù)字孿生得益于存在大量機(jī)器生成的數(shù)據(jù),這是其他數(shù)據(jù)科學(xué)學(xué)科所沒(méi)有的奢侈品。當(dāng)有大量的數(shù)據(jù)時(shí),使用深度學(xué)習(xí)模型開(kāi)始變得可行。
數(shù)字孿生是控制中心的新版本,它將歷史和當(dāng)前系統(tǒng)狀態(tài)與未來(lái)預(yù)測(cè)狀態(tài)結(jié)合起來(lái)。向下鉆取功能允許用戶(hù)深入研究單個(gè)產(chǎn)品或產(chǎn)品部件,但也顯示了允許高度復(fù)雜優(yōu)化任務(wù)的全局。數(shù)字孿生不僅在操作上有用,而且在考慮產(chǎn)品設(shè)計(jì)和制造時(shí)也能充分發(fā)揮其潛力。