隨著中國(guó)制造2025的提出,制造企業(yè)實(shí)現(xiàn)智能制造不僅是趨勢(shì),更成為是否可以生存下去的前提條件。智能制造對(duì)連接性、計(jì)算能力、服務(wù)速度和質(zhì)量等方面有著前所未有的需求和期望。邊緣計(jì)算正是充分利用物聯(lián)網(wǎng)終端的嵌入式計(jì)算能力,并與云計(jì)算結(jié)合,通過(guò)云端的交互協(xié)作,實(shí)現(xiàn)系統(tǒng)整體的智能化。但是對(duì)于傳統(tǒng)制造企業(yè)仍然面臨很多問(wèn)題,如新技術(shù)滿天飛,選擇難;邊緣計(jì)算平臺(tái)如何與現(xiàn)有生產(chǎn)系統(tǒng)集成;邊緣數(shù)據(jù)的存儲(chǔ)與管理等。不久前社區(qū)組織汽車制造行業(yè)專家和英偉達(dá)資深專家為社區(qū)會(huì)員解讀邊緣計(jì)算GPU應(yīng)用趨勢(shì)場(chǎng)景以及國(guó)內(nèi)外實(shí)踐案例,同時(shí)答疑解惑,現(xiàn)將活動(dòng)交流和分享總結(jié)如下,供大家參考。
Q1、工業(yè)設(shè)備數(shù)字孿生是如何實(shí)現(xiàn)的,怎樣通過(guò)GPU進(jìn)行加速?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
數(shù)字孿生,就是針對(duì)物理世界的實(shí)體,通過(guò)數(shù)字化手段構(gòu)建一個(gè)數(shù)字世界中的“完整分身”,能夠和物理實(shí)體保持實(shí)時(shí)的交互聯(lián)接,借助歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)以及算法模型等,通過(guò)模擬、驗(yàn)證、預(yù)測(cè)、控制物理實(shí)體全生命周期過(guò)程,實(shí)現(xiàn)對(duì)物理實(shí)體的了解、分析和優(yōu)化。
數(shù)字孿生在工業(yè)制造的應(yīng)用
由于數(shù)字孿生早期的應(yīng)用與工業(yè)制造領(lǐng)域密不可分,因此工業(yè)制造也是數(shù)字孿生的主要戰(zhàn)場(chǎng)。
產(chǎn)品研發(fā)階段
在工業(yè)制造領(lǐng)域,要完成產(chǎn)品部件的設(shè)計(jì)修改,尺寸裝配,通常需要反復(fù)嘗試,耗費(fèi)大量人力物力。利用數(shù)字孿生可以為工業(yè)生產(chǎn)建立起虛擬空間,在該技術(shù)之下,工程設(shè)計(jì)師不僅能看到產(chǎn)品外部變化,更使內(nèi)部零件動(dòng)態(tài)的觀察成為可能。
例如,通過(guò)數(shù)字3D模型,我們可以看到汽車在運(yùn)行過(guò)程中發(fā)動(dòng)機(jī)內(nèi)部的每一個(gè)零部件、線路、各種接頭的每一次變化,從而大幅降低產(chǎn)品的驗(yàn)證工作和工期成本。
制造生產(chǎn)階段
在制造生產(chǎn)中,建立一個(gè)生產(chǎn)環(huán)境的虛擬版本,用數(shù)字化方式描敘整個(gè)制造環(huán)境,在虛擬數(shù)字空間中進(jìn)行設(shè)備診斷、過(guò)程模擬等仿真預(yù)測(cè),可以有效防止現(xiàn)場(chǎng)故障、生產(chǎn)異常產(chǎn)生的嚴(yán)重后果。
將生產(chǎn)環(huán)境、生產(chǎn)數(shù)據(jù)、生產(chǎn)流程實(shí)現(xiàn)數(shù)字可視化。從設(shè)備上的傳感器中導(dǎo)入數(shù)據(jù),實(shí)時(shí)監(jiān)測(cè)到設(shè)備每個(gè)部位的軸溫、開機(jī)時(shí)長(zhǎng)、當(dāng)前生產(chǎn)階段、設(shè)備利用率、產(chǎn)量等關(guān)鍵數(shù)據(jù)信息
那如何通過(guò)GPU加速,就是將上述的需要圖像化的和數(shù)據(jù)建模的場(chǎng)景,在這種邏輯性不強(qiáng),但計(jì)算強(qiáng)度高的場(chǎng)景時(shí),GPU加速就遠(yuǎn)遠(yuǎn)超過(guò)了CPU的能力。
VinceXu NVIDIA SA:
NVIDIA Omniverse™是專為虛擬協(xié)作和物理屬性準(zhǔn)確的實(shí)時(shí)模擬打造的開放式平臺(tái)。
合作者們?cè)诓煌臋C(jī)器上跨多個(gè)應(yīng)用程序工作,通過(guò)不同的應(yīng)用軟件建模道具,建立環(huán)境,紋理繪制,照明,或添加動(dòng)畫或效果等等,每個(gè)應(yīng)用程序組成他們的場(chǎng)景的一部分,
它們每個(gè)都連接到Omniverse Nucleus,這是一個(gè)數(shù)據(jù)庫(kù)和協(xié)作引擎,用來(lái)進(jìn)行3D資產(chǎn)和場(chǎng)景描述的交換。每個(gè)連接的用戶都只是傳遞和接收變化的增量作為USD片段,這使他們能夠?qū)崟r(shí)看到共享場(chǎng)景的變化。
Omniverse是一個(gè)基于物理的平臺(tái),集成了NVIDIA的核心模擬技術(shù),用于材料、物理、AI和實(shí)時(shí)光線和路徑跟蹤渲染。因此,構(gòu)建在Omniverse中的場(chǎng)景是遵循物理定律,是真實(shí)的。
對(duì)于一些developer或者ISV partner,Omniverse有下列一些基礎(chǔ)組件:
Omniverse Connect打開了門戶,允許設(shè)計(jì)軟件工具連接到Omniverse平臺(tái)并保存USD(Universal Scene Description)和MDL(MATERIAL DEFINITION LANGUAGE)內(nèi)容。有了Omniverse,用戶可以繼續(xù)在他們喜愛的行業(yè)軟件應(yīng)用程序中工作Omniverse Nucleus允許用戶存儲(chǔ)、共享和協(xié)作項(xiàng)目數(shù)據(jù),并提供跨多個(gè)應(yīng)用程序?qū)崟r(shí)協(xié)作的獨(dú)特能力。Nucleus在本地機(jī)器上工作,在場(chǎng)地上,或在云上。
Omniverse Kit是一個(gè)強(qiáng)大的工具包,開發(fā)者可以創(chuàng)建新的Omniverse應(yīng)用程序和擴(kuò)展。
Omniverse Simulation由NVIDIA的核心技術(shù)提供動(dòng)力,這些技術(shù)可以模擬世界,包括PhysX、Flow、Blast和剛體動(dòng)力學(xué)。
Omniverse RTX Renderer是一種先進(jìn)的,基于NVIDIA RTX多GPU渲染器,支持實(shí)時(shí)光線跟蹤和超快速路徑跟蹤。
Omniverse APPS是專為加速不同工作流而設(shè)計(jì)的應(yīng)用程序。Omniverse APPS可以由第三方開發(fā)者在Omniverse Kit上構(gòu)建。對(duì)于上層industry用戶,我們有一些生成好的如下application:
Omniverse View支持建筑和工程項(xiàng)目的無(wú)縫協(xié)作設(shè)計(jì)和身臨其境的可視化以及逼真的渲染。
Omniverse Create加速了高級(jí)場(chǎng)景合成,并允許用戶在Pixar USD中實(shí)時(shí)交互地組裝、照明、模擬和渲染場(chǎng)景。
Omniverse Machinima是為GeForce RTX玩家構(gòu)建的,以混合和渲染視頻游戲的。
Omniverse Audio2Face從一個(gè)音頻源生成表情動(dòng)畫,這是AI的一項(xiàng)應(yīng)用。
Omniverse Kaolin是一個(gè)強(qiáng)大的可視化工具,使用NVIDIA’s Kaolin PyTorch library簡(jiǎn)化和加速3D深度學(xué)習(xí)研究。在DL深度學(xué)習(xí),OpenCV可視化方面,通常用點(diǎn)云方式或者代碼工程師自己寫OpenGL代碼,但往往可視化效果都是比較差的,想實(shí)現(xiàn)光照效果也很難調(diào)整,但用Omniverse Kaolin可以方便地實(shí)現(xiàn)滿意的可視化效果。
NVIDIA Isaac Sim是一個(gè)機(jī)器人應(yīng)用程序,用于在逼真和高保真的物理3D環(huán)境下2導(dǎo)入,構(gòu)建和測(cè)試機(jī)器人。
Q2、工控視覺在生產(chǎn)制造中如何利用GPU進(jìn)行加速?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
工控視覺是生產(chǎn)制造中非常重要的一個(gè)應(yīng)用場(chǎng)景,它需要進(jìn)行大量的圖像建模,利用3D或者現(xiàn)實(shí)圖像流進(jìn)行生產(chǎn)線上的圖像收集,但這些數(shù)據(jù),有些是需要在邊緣端直接處理掉的,這個(gè)時(shí)候就是利用GPU加速的好時(shí)機(jī),因?yàn)檫@種一般是需要近實(shí)時(shí)的,如果采用傳統(tǒng)的CPU來(lái)處理,則速度會(huì)比較慢,影響到實(shí)時(shí)性。
bjitnan NVIDIA DevRel:
感覺您提到的應(yīng)該是-工業(yè)視覺。
從行業(yè)發(fā)展來(lái)看,QA及質(zhì)量將會(huì)是目前企業(yè)面臨的一個(gè)很大的挑戰(zhàn),尤其在當(dāng)今勞動(dòng)成本的不斷提升,傳統(tǒng)目檢工作越來(lái)越不被新一代工人所接受的前提下,計(jì)算機(jī)視覺可以起到一個(gè)很好降本增效的助推器,提到計(jì)算機(jī)視覺就不能忽視已經(jīng)很成熟的機(jī)器視覺,其在測(cè)量,定位,識(shí)別等場(chǎng)景已經(jīng)有超過(guò)10年的發(fā)展歷程,并持續(xù)在幫助制造業(yè)提效降本,但是機(jī)器視覺始終無(wú)法解決相對(duì)復(fù)雜的視覺問(wèn)題,譬如對(duì)缺陷程度的判定,更多缺陷種類的劃分,高亮度甚至極小瑕疵的檢測(cè)等等,伴隨人工智能的發(fā)展,基于AI的計(jì)算機(jī)視覺被越來(lái)越關(guān)注,近年來(lái),開始有越來(lái)越多的玩家,從BAT到眾多的Startup公司,包括大型企業(yè)內(nèi)部自身孵化,都可以看到這個(gè)方向活躍的參與者,目前提及很多的工業(yè)4.0或智能制造中,智能化的一個(gè)重要場(chǎng)景體現(xiàn),也會(huì)在計(jì)算機(jī)視覺-工業(yè)檢測(cè)這個(gè)場(chǎng)景中。反觀整個(gè)工業(yè)檢測(cè),對(duì)于精密制程或高節(jié)拍的生產(chǎn)環(huán)節(jié)往往都是一個(gè)復(fù)雜的系統(tǒng)工程,會(huì)包括圖像采集,光源,運(yùn)動(dòng)配合,預(yù)處理,數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練及迭代,模型推理,后處理追蹤,MES集成等眾多環(huán)節(jié),AI算法只是其中很重要的一個(gè)部分,整個(gè)項(xiàng)目在企業(yè)內(nèi)部也應(yīng)該是一個(gè)從上到下,多部門協(xié)作的項(xiàng)目,包括生產(chǎn)制造對(duì)于AI的預(yù)期,譬如漏檢率,過(guò)檢率有一個(gè)充分的預(yù)期和溝通。從目前落地的情況看,半導(dǎo)體,面板,新能源,高端3C,汽車等行業(yè)接受和落地的程度較好,特別是先進(jìn)制程和精密制造方向,對(duì)于企業(yè)QA的提升和成本優(yōu)化,都可以起到明顯的提升,另外一個(gè)感受就是,解決方案的復(fù)制性不強(qiáng),定制化內(nèi)容居多,這也是成本居高的一個(gè)原因。
關(guān)于GPU加速的部分,主要集中在上面提到的AI算法部分,在模型訓(xùn)練的部分,可以參考英偉達(dá)的遷移學(xué)習(xí)工具TLT(Transfer Learning Toolkit)利用我們提供的預(yù)訓(xùn)練模型,加快模型訓(xùn)練的效率,在推理加速部分,可以參考DeepStream SDK快速構(gòu)建推理pipeline并加速視頻分析類業(yè)務(wù)場(chǎng)景,建議關(guān)注TensorRT,特別是近期發(fā)布的TRT8,特別是稀疏性(Sparsity)與量化感知訓(xùn)練(Quantization aware training,QAT),可以極大加速模型的推理速度及INT8在邊緣推理中的適配。developer.nvidia.com/tensorrt/
Q3、成熟的邊緣計(jì)算應(yīng)用場(chǎng)景有哪些?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
邊緣計(jì)算場(chǎng)景,要看業(yè)務(wù)需要在邊緣端執(zhí)行,并可以容器化的場(chǎng)景,比如現(xiàn)在比較多的是MES系統(tǒng)、WMS系統(tǒng)等,特別是MES這種將提升制造業(yè)的自動(dòng)化管理能力,它可以通過(guò)區(qū)分小MES和大MES,小MES一般是和工業(yè)設(shè)備結(jié)合比較緊密的、實(shí)時(shí)的,所以需要在邊緣端運(yùn)行,大MES可以放云端。
還有與IOT數(shù)采結(jié)合緊密的場(chǎng)景,比如IOT數(shù)采軟件化的工具,一般需要邊緣計(jì)算。
還有無(wú)人機(jī)監(jiān)控生產(chǎn)設(shè)備場(chǎng)景,比如華電集團(tuán)這種機(jī)器人等。把機(jī)器人作為一個(gè)邊緣節(jié)點(diǎn)接入到云上,通過(guò)在云端下發(fā)機(jī)器人應(yīng)用程序,比如視覺識(shí)別,監(jiān)控應(yīng)用等的下發(fā),升級(jí)。
還有一些是需要在邊緣側(cè)數(shù)據(jù)分析的場(chǎng)景,比如為了縮小數(shù)據(jù)量,節(jié)省帶寬,又需要實(shí)時(shí)處理的刀片切割數(shù)據(jù)等都需要在邊緣側(cè)部署相關(guān)應(yīng)用程序,tdenge、kuiper、emqx等等。
bjitnan NVIDIA DevRel:
在制造業(yè)的場(chǎng)景中,覆蓋了生產(chǎn)、物流、經(jīng)營(yíng)管理、客服等諸多領(lǐng)域,并將保持快速增長(zhǎng)。主要的應(yīng)用場(chǎng)景包括工業(yè)檢測(cè),預(yù)防性維護(hù),生產(chǎn)安全保護(hù),數(shù)字孿生,智能機(jī)器人,實(shí)時(shí)數(shù)據(jù)采集及分析,智能物流及供應(yīng)鏈,生產(chǎn)過(guò)程智能化,智能客服等眾多場(chǎng)景。
在其他行業(yè),邊緣計(jì)算的應(yīng)用場(chǎng)景也非常豐富,在零售及物流行業(yè),基于視頻分析的包裹追蹤管理,生產(chǎn)及環(huán)境安全管理,客流管理,場(chǎng)站安全管理,智慧園區(qū)等都是邊緣計(jì)算的重要場(chǎng)景。在交通行業(yè),V2X車路協(xié)同場(chǎng)景中,執(zhí)行路側(cè)或路口感知任務(wù)的MEC(Multi-access Edge Computing)多接入計(jì)算單元也是典型的邊緣計(jì)算的場(chǎng)景,通過(guò)多設(shè)備或多傳感器的接入(視頻+毫米波雷達(dá)+激光雷達(dá)),實(shí)時(shí)感知和分析道路上發(fā)生的各類事件和路況,并將這些事件或告警及時(shí)廣播或發(fā)布出來(lái),有效的提高安全性和交通效率。
Q4、邊緣計(jì)算與傳統(tǒng)的計(jì)算模型(云計(jì)算、分布式)的差異?
bjitnan NVIDIA DevRel:
邊緣AI有一系列獨(dú)特的要求。邊緣系統(tǒng)分散在廣闊的物理距離范圍,缺乏數(shù)據(jù)中心的集中性。軟件或系統(tǒng)更新要么需要手動(dòng)執(zhí)行,要么需要集中管理,以便輕松地在龐大的設(shè)備群中部署、管理和擴(kuò)展軟件。此外,邊緣計(jì)算基礎(chǔ)設(shè)施的安全要求不同于云或數(shù)據(jù)中心計(jì)算的模式。邊緣位置不具備數(shù)據(jù)中心的物理安全性,因此用于保護(hù)應(yīng)用程序IP和傳感器數(shù)據(jù)的端到端安全模型對(duì)于成功實(shí)現(xiàn)部署至關(guān)重要。可以類比看做,分布式計(jì)算與集中計(jì)算,分布式計(jì)算(邊緣計(jì)算)可以滿足業(yè)務(wù)系統(tǒng)實(shí)時(shí)計(jì)算處理的要求,對(duì)于海量或富媒體數(shù)據(jù)的處理盡量發(fā)生在數(shù)據(jù)產(chǎn)生的端側(cè),減少網(wǎng)絡(luò)傳輸,特別是低延時(shí)應(yīng)用的需求,同時(shí)由于分布式,特別是基于地域的分布式,對(duì)于管理和安全性的要求就會(huì)特別高,這也是邊緣計(jì)算一個(gè)很大的落地挑戰(zhàn),目前比較好的應(yīng)對(duì),第一,應(yīng)用顆粒度盡量清晰,首選的技術(shù)就是容器,雖然相對(duì)體積還有些大,對(duì)比VM已經(jīng)好了很多,結(jié)合OTA技術(shù)的成熟,目前看容器是一個(gè)很好的折中方案,第二,云邊協(xié)同,云邊數(shù)據(jù)交換及協(xié)同的能力,是邊緣計(jì)算重要的一個(gè)基礎(chǔ),實(shí)現(xiàn)云原生的云邊協(xié)同管理平臺(tái)及安全集中管理,這也是為什么英偉達(dá)在今年推出EGX Platform及Fleet Command軟件參考架構(gòu),通過(guò)Fleet Command軟件幫助客戶實(shí)現(xiàn)云邊數(shù)據(jù)及應(yīng)用的協(xié)同,設(shè)備集中的管理與監(jiān)控等功能。
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
邊緣計(jì)算與云計(jì)算本質(zhì)上沒(méi)有太大區(qū)別,邊緣計(jì)算的出現(xiàn)是云計(jì)算發(fā)展一定階段后,越來(lái)越多的技術(shù)開發(fā)者,想把云計(jì)算這種資源彈性、高可用、分布式等能力下沉到邊緣端,讓邊緣端也具備云上的這些功能,特別是云原生生態(tài)的出現(xiàn),不管是業(yè)務(wù)的易部署還是業(yè)務(wù)的高可用,分布式等等,都催生了邊緣計(jì)算的發(fā)展。更具體點(diǎn)的說(shuō),云計(jì)算是集中化的,離終端設(shè)備(如攝像頭、傳感器等)較遠(yuǎn),對(duì)于實(shí)時(shí)性要求高的計(jì)算需求,把計(jì)算放在云上會(huì)引起網(wǎng)絡(luò)延時(shí)變長(zhǎng)、網(wǎng)絡(luò)擁塞、服務(wù)質(zhì)量下降等問(wèn)題。而終端設(shè)備通常計(jì)算能力不足,無(wú)法與云端相比。在此情況下,邊緣計(jì)算順應(yīng)而生,通過(guò)在靠近終端設(shè)備的地方建立邊緣節(jié)點(diǎn),將云端計(jì)算能力延伸到靠近終端設(shè)備的邊緣節(jié)點(diǎn),從而解決上述問(wèn)題。
Q5、在工業(yè)4.0和中國(guó)制造2025的大背景推動(dòng)下,邊緣計(jì)算在制造業(yè)的發(fā)展趨勢(shì)如何?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
邊緣計(jì)算適用的場(chǎng)景會(huì)有很多,比如工業(yè)制造、智慧園區(qū)、智慧樓宇、智慧醫(yī)療等等。由于云計(jì)算是集中化的,離終端設(shè)備(如攝像頭、傳感器等)較遠(yuǎn),在制造業(yè)方面,比如刀片控制、打點(diǎn)、電焊等等,對(duì)于實(shí)時(shí)性的要求很高,把計(jì)算放在云上會(huì)引起網(wǎng)絡(luò)延時(shí)變長(zhǎng)、網(wǎng)絡(luò)擁塞、服務(wù)質(zhì)量下降等問(wèn)題。在此情況下,邊緣計(jì)算順應(yīng)而生,通過(guò)在靠近終端設(shè)備的地方建立邊緣節(jié)點(diǎn),將云端計(jì)算能力延伸到靠近終端設(shè)備的邊緣節(jié)點(diǎn),從而解決上述問(wèn)題。所以在制造業(yè)和其他需要實(shí)時(shí)處理或響應(yīng)任務(wù)的場(chǎng)景,特別是現(xiàn)在IoT、5G技術(shù)的發(fā)展,結(jié)合邊緣計(jì)算技術(shù),未來(lái)可期。
Yongxiang Nvidia EGX產(chǎn)品總監(jiān):
在工業(yè)4.0的快速發(fā)展的大背景下,遍布工廠車間等各個(gè)位置的數(shù)十億個(gè)攝像頭、物聯(lián)網(wǎng)傳感器等可生成海量數(shù)據(jù),具有助力實(shí)現(xiàn)業(yè)務(wù)轉(zhuǎn)型的潛力。正因如此,邊緣計(jì)算(將計(jì)算能力引入數(shù)據(jù)收集位置的過(guò)程)成為企業(yè)計(jì)算中增長(zhǎng)最快的趨勢(shì)之一。通過(guò)縮短數(shù)據(jù)收集位置與數(shù)據(jù)處理位置之間的距離,企業(yè)可以迅速響應(yīng)以實(shí)現(xiàn)實(shí)時(shí)洞察,充分發(fā)揮潛力。幾乎每個(gè)行業(yè)都在對(duì)邊緣計(jì)算進(jìn)行投資,以加速AI工作負(fù)載。根據(jù)IDC的2020年邊緣支出指南,未來(lái)四年,企業(yè)在邊緣硬件、軟件和服務(wù)方面的支出將以12.5%的年復(fù)合增長(zhǎng)率快速增長(zhǎng),預(yù)計(jì)到2024年將達(dá)到2500億美元。具有人工智能能力的邊緣計(jì)算將成為制造業(yè)和其他行業(yè)最快的增長(zhǎng)引擎之一。邊緣計(jì)算將會(huì)制造業(yè)的數(shù)智化推向更快落地和產(chǎn)業(yè)升級(jí)換代轉(zhuǎn)型。
Q6、邊緣計(jì)算與制造業(yè)的結(jié)合,將提升制造業(yè)哪些場(chǎng)景的能力?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
找準(zhǔn)哪些邊緣業(yè)務(wù)需要在邊緣端執(zhí)行,并可以容器化的場(chǎng)景,比如現(xiàn)在比較多的是MES系統(tǒng),WMS系統(tǒng)等,特別是MES這種將提升制造業(yè)的自動(dòng)化管理能力,它可以通過(guò)區(qū)分小MES和大MES,小MES一般是和工業(yè)設(shè)備結(jié)合比較緊密的,實(shí)時(shí)的,所以需要在邊緣端運(yùn)行,大MES可以放云端。
另外,制造業(yè)一個(gè)很重要的場(chǎng)景是要監(jiān)控設(shè)備的運(yùn)行狀態(tài),比如通過(guò)IOT數(shù)采后,將數(shù)據(jù)上傳到云端,最后進(jìn)行數(shù)據(jù)分析后,形成設(shè)備云眼,這個(gè)就是所有邊端設(shè)備的一個(gè)近實(shí)時(shí)的監(jiān)控平臺(tái),而其中的IOT數(shù)采今后會(huì)越來(lái)越多的使用軟件來(lái)代替硬件盒子實(shí)現(xiàn),比如EMQ的neuron、emqx server,甚至需要在邊緣側(cè)進(jìn)行數(shù)據(jù)分析的tdengine等都是需要利用到邊緣計(jì)算功能,這些軟件的部署、升級(jí),一般都是需要通過(guò)云端部署后,下發(fā)到邊緣端的。
Q7、汽車制造企業(yè)如何推進(jìn)邊緣計(jì)算,切入點(diǎn)有哪些方面?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
邊緣計(jì)算是需要和業(yè)務(wù)一同講才可以落地的。要邊緣計(jì)算,一般需要和云計(jì)算進(jìn)行協(xié)同,所以首先需要解決應(yīng)用以容器的方式從云端下發(fā)到邊緣端,所以切入點(diǎn)就是要找準(zhǔn)哪些邊緣業(yè)務(wù)需要在邊緣端執(zhí)行,并可以容器化的場(chǎng)景,比如現(xiàn)在比較多的是MES系統(tǒng)、WMS系統(tǒng)等。然后還可以找那種云邊協(xié)同的,比如設(shè)備數(shù)采后,需要在邊緣側(cè)預(yù)處理,并上報(bào)到IOT平臺(tái),將數(shù)據(jù)分類處理,再下發(fā)到云端數(shù)據(jù)分析平臺(tái)進(jìn)行處理、訓(xùn)練、建模,最后到監(jiān)視看板或者將所建的模型再下發(fā)到邊端的場(chǎng)景。
bjitnan NVIDIA DevRel:
并不是所有的系統(tǒng)都適合邊緣部署,如果目前的架構(gòu)已經(jīng)滿足業(yè)務(wù)的需求,那就是最好的實(shí)現(xiàn)了,舉個(gè)例子,對(duì)于一些檢測(cè)類的業(yè)務(wù),也并不一定邊緣處理就是最佳架構(gòu),如果業(yè)務(wù)的時(shí)延要求可以在秒~幾秒的級(jí)別,集中式的推理服務(wù)也是不錯(cuò)的選擇。
Q8、車聯(lián)網(wǎng)/自動(dòng)駕駛應(yīng)用場(chǎng)景如何更好的基于GPU實(shí)現(xiàn)邊緣計(jì)算提速和提高利用率?
【問(wèn)題描述】車聯(lián)網(wǎng)/自動(dòng)駕駛對(duì)時(shí)延的要求極高,數(shù)據(jù)傳輸及處理量極大;如何更好的基于GPU實(shí)現(xiàn)邊緣計(jì)算提速?如何通過(guò)GPU加速提升基礎(chǔ)架構(gòu)利用率,及讓GPU資源得到充分利用?實(shí)際遇到部署成本高,需求不是剛性的;用到的硬件需標(biāo)準(zhǔn)化;及如何保證邊緣計(jì)算的安全等問(wèn)題。
bjitnan NVIDIA DevRel:
車聯(lián)網(wǎng)及V2X車路協(xié)同場(chǎng)景中,執(zhí)行路側(cè)或路口感知任務(wù)的MEC(Multi-access Edge Computing)-多接入計(jì)算單元是典型的邊緣計(jì)算的場(chǎng)景,通過(guò)多設(shè)備或多傳感器的接入(視頻+毫米波雷達(dá)+激光雷達(dá)),實(shí)時(shí)感知和分析道路上發(fā)生的各類事件和路況,并將這些事件或告警及時(shí)廣播或發(fā)布出來(lái),有效的提高安全性和交通效率。目前在車聯(lián)網(wǎng)的場(chǎng)景中,經(jīng)常遇到的時(shí)鐘(幀)同步,多傳感器融合,點(diǎn)云數(shù)據(jù)的加速等問(wèn)題,英偉達(dá)與我們的合作伙伴可提供完備的解決方案,尤其對(duì)于激光雷達(dá)的點(diǎn)云數(shù)據(jù)加速處理部分,我們也會(huì)開源一些基于CUDA的加速實(shí)現(xiàn),供廣大的開發(fā)者參考和迭代。(https://github.com/NVIDIA-AI-IOT/cuda-pcl)
GPU更多指的硬件,對(duì)于GPU的使用和調(diào)度,是通過(guò)CUDA實(shí)現(xiàn),CUDA是可編程的一個(gè)軟件堆棧,同時(shí)英偉達(dá)也基于CUDA寫好了很多的基于行業(yè)加速的SDK,幫助開發(fā)者更快的使用CUDA和GPU。
Q9、基于GPU的邊緣計(jì)算,是否可以提高生產(chǎn)安全監(jiān)管?
【問(wèn)題描述】在整車生產(chǎn)環(huán)節(jié),沖焊涂等工藝環(huán)節(jié),對(duì)于安全的監(jiān)管尤為重要,英偉達(dá)是否有基于GPU邊緣計(jì)算的解決方案,不僅僅是提供算力,作為整車廠來(lái)說(shuō),最需要的是可以共創(chuàng)的解決方案?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
生產(chǎn)安全監(jiān)管,主要通過(guò)生產(chǎn)制造流程管理,也就是我們常說(shuō)的MES,它提供了生產(chǎn)自動(dòng)化及安全管理的功能。
還有就是結(jié)合邊緣側(cè)的圖像識(shí)別,工控視覺,數(shù)據(jù)分析,監(jiān)控告警等來(lái)實(shí)現(xiàn)生產(chǎn)安全監(jiān)管,通過(guò)采集大量的場(chǎng)景圖像視頻數(shù)據(jù),將數(shù)據(jù)送云并在云端數(shù)據(jù)處理,訓(xùn)練、建模后,將監(jiān)管模型下發(fā)到邊緣側(cè),并基于GPU加速,快速實(shí)現(xiàn)有效、實(shí)時(shí)的安全監(jiān)管。
潘延晟系統(tǒng)工程師:
對(duì)邊緣計(jì)算也是剛剛接觸。不過(guò)對(duì)只工業(yè)環(huán)境相對(duì)了解一些。我覺得基于GPU的邊緣計(jì)算,是可以輔助提高生產(chǎn)安全監(jiān)督的。比如對(duì)特定區(qū)域的安全監(jiān)控,一些生產(chǎn)設(shè)備的監(jiān)管,但我覺得這種監(jiān)管應(yīng)該還是相對(duì)輔助的。畢竟生產(chǎn)安全是目前企業(yè)要面對(duì)的重要問(wèn)題。之前接觸過(guò)一些廠家的安全做法。是基于安全本質(zhì)化的??傮w的原則就是我不依靠對(duì)人的教育解決安全問(wèn)題。不依靠監(jiān)控手段來(lái)監(jiān)督安全。而是從根本上解決安全存在的隱患。舉個(gè)例子,對(duì)于廠區(qū)入場(chǎng)的通道。如果需要你緩慢進(jìn)入?;蛘哌M(jìn)行瞭望進(jìn)入的地方。前端會(huì)設(shè)置多到欄桿。讓如口成為S型。人在通過(guò)路口的時(shí)候是被迫減速的。無(wú)論你怎么想快都要左橈又繞的繞過(guò)這些欄桿才能通過(guò)。自然也就達(dá)到了讓你減速觀察的目的。一些危險(xiǎn)設(shè)備。直接設(shè)置隔離柵欄。一旦柵欄被打開。直接設(shè)備會(huì)停止。防止發(fā)生故障。所以我安全固然需要監(jiān)管。但應(yīng)該還是輔助手段。
bjitnan NVIDIA DevRel:
基于GPU的邊緣計(jì)算已經(jīng)開始廣泛在制造、零售、物流、安防等行業(yè)落地,如可實(shí)時(shí)監(jiān)測(cè)各行業(yè)工作場(chǎng)地各類違規(guī)操作,6S管理規(guī)范,SOP執(zhí)行情況等。在生產(chǎn)制造等環(huán)節(jié)通過(guò)邊緣計(jì)算中的視覺檢測(cè)來(lái)增加良率,提升生產(chǎn)安全。在視頻分析的應(yīng)用中,有很多的場(chǎng)景都是面向生產(chǎn)安全監(jiān)管的,通過(guò)英偉達(dá)的視頻分析SDK-DeepStream,可以輕松實(shí)現(xiàn)對(duì)于廠區(qū)或操作間的員工著裝,安全帽檢測(cè),異常區(qū)域訪問(wèn),吸煙等眾多基于6S安全生產(chǎn)方面的事件檢測(cè)及觸發(fā)告警,譬如在物流行業(yè),通過(guò)視頻分析的方式,實(shí)現(xiàn)貨物跟蹤及不合規(guī)包裹分揀等異常行為的檢測(cè).
Q10、GPU邊緣計(jì)算場(chǎng)景下如何保障數(shù)據(jù)安全?
VinceXu NVIDIA SA:
Fleet Command要求邊緣服務(wù)器配置TPM模塊,另外會(huì)有專用的定制化的OS,邊緣端激活時(shí)需要與云端秘鑰匹配。所有已處理的數(shù)據(jù)在傳輸過(guò)程中和靜態(tài)時(shí)均會(huì)加密,上傳到private registry的AI應(yīng)用程序經(jīng)過(guò)漏洞和惡意軟件掃描,可以確保所部署的每一個(gè)應(yīng)用程序都是安全的。
另外推薦用NVIDIA Bluefiled,它有多個(gè)層面的安全保障:
secured hardware(HARDWARE ROOT OF TRUST),包括secure firmware upgrade,secure boot,Arm Trust Zone
Advanced L4-L 7 Security:下一代防火墻,深度數(shù)據(jù)包檢測(cè),主機(jī)自省
Crypto Accelerations:內(nèi)聯(lián)加密:IPsec TLS,存儲(chǔ)加密:AES-XTS,硬件公鑰加速
Programmability&Isolation:功能隔離,安全生態(tài)系統(tǒng),能夠運(yùn)行加密&身份驗(yàn)證算算發(fā)。
Q11、如何解決邊緣計(jì)算平臺(tái)在產(chǎn)線的穩(wěn)定性問(wèn)題?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
邊緣計(jì)算平臺(tái)其實(shí)就是為了解決邊緣側(cè)業(yè)務(wù)的穩(wěn)定性的,比如在邊緣側(cè)的某個(gè)節(jié)點(diǎn)掛了后,可以將其上的應(yīng)用通過(guò)云側(cè)控制,再次調(diào)度到與該節(jié)點(diǎn)相鄰或同區(qū)域的另外的節(jié)點(diǎn)上的,甚至可以將一些核心的業(yè)務(wù)同時(shí)部署多份到本地的不同節(jié)點(diǎn)上,實(shí)現(xiàn)服務(wù)的高可用。
目前邊緣計(jì)算社區(qū),比如kubeedge等,都在積極的使用edgemesh來(lái)實(shí)現(xiàn)邊緣側(cè)同數(shù)據(jù)中心節(jié)點(diǎn)的服務(wù)高可用問(wèn)題,即和云端的kube-proxy和kube-dns一樣,來(lái)實(shí)現(xiàn)邊緣側(cè)的服務(wù)發(fā)現(xiàn)與負(fù)載均衡。
還有騰訊的superedge,阿里的openyurt由于都有對(duì)nodegroup的概念,所以本身就實(shí)現(xiàn)邊緣側(cè)的服務(wù)發(fā)現(xiàn)與負(fù)載均衡。
bjitnan NVIDIA DevRel:
企業(yè)級(jí)應(yīng)用中,在很多方面的考量都以穩(wěn)定性作為第一要素,高可靠性(24*7)及業(yè)務(wù)連續(xù)性一直是企業(yè)IT中出現(xiàn)頻率最高的詞條,對(duì)于智能化的應(yīng)用,英偉達(dá)對(duì)于系統(tǒng)整體的穩(wěn)定性和可靠性也會(huì)有對(duì)應(yīng)的解決方案,分別從GPU,嵌入式及整體系統(tǒng)三個(gè)方面,闡述英偉達(dá)在穩(wěn)定性和可靠性方面的理解。
第一,GPU,分為消費(fèi)類產(chǎn)品和企業(yè)級(jí)產(chǎn)品,譬如大家經(jīng)常聽到的2080、2080 Ti、3070、3080、3090等等Geforce系列的明星產(chǎn)品,都屬于消費(fèi)類的產(chǎn)品。Tesla V100、T4、A100、A30、A10、A16、RTX4000/5000/6000、RTX A4000/5000/6000等產(chǎn)品屬于企業(yè)級(jí)產(chǎn)品線,他們之間有著很大的差距,消費(fèi)類產(chǎn)品絕大部分均采用ODM的方式,英偉達(dá)僅提供GPU核心的設(shè)計(jì)和芯片,ODM廠商自己完成顯卡的成品設(shè)計(jì),生產(chǎn),品控,營(yíng)銷及保修流程,打個(gè)比喻,您手里的英偉達(dá)Geforce 2080Ti GPU,也許并不是英偉達(dá)生產(chǎn)的產(chǎn)品,一般會(huì)稱為非公版(公版GPU,數(shù)量少,僅在產(chǎn)品推廣期由英偉達(dá)生產(chǎn)制造并少量投放市場(chǎng)),所以英偉達(dá)也不會(huì)對(duì)其進(jìn)行任何的技術(shù)支持,特別是在AI應(yīng)用的方面,我們的工具鏈和技術(shù)支持更專注于企業(yè)級(jí)GPU。消費(fèi)類GPU在產(chǎn)品的設(shè)計(jì)方面,主要面向廣大的游戲玩家,所以在產(chǎn)品設(shè)計(jì)上會(huì)追求其計(jì)算峰值,這個(gè)也比較容易理解,一般復(fù)雜的3D游戲畫面僅會(huì)在連續(xù)幾秒鐘或若干幀中出現(xiàn),并不會(huì)持續(xù)到若干小時(shí),這就要求GPU在處理圖形加速的過(guò)程中可以支持到短暫的性能尖峰,整體性能的輸出也會(huì)呈現(xiàn)波浪式的形態(tài),為了追求這種計(jì)算尖峰,顯卡會(huì)犧牲掉數(shù)據(jù)校驗(yàn)等額外性能開銷的計(jì)算校驗(yàn)過(guò)程,在一個(gè)高清的一幀畫面中,若干的計(jì)算數(shù)位錯(cuò)誤對(duì)于肉眼幾乎是無(wú)法識(shí)別的,為了追求高性能,消費(fèi)類GPU的主頻均高于企業(yè)級(jí)GPU,也帶來(lái)了散熱及功耗的問(wèn)題,會(huì)直接影響運(yùn)行的可靠性和穩(wěn)定性,在GPU運(yùn)行環(huán)境和驅(qū)動(dòng)方面,企業(yè)級(jí)GPU會(huì)有穩(wěn)定的測(cè)試,更緊密的版本迭代周期,對(duì)于企業(yè)多采用的Linux操作系統(tǒng)和容器環(huán)境有更好的支持,消費(fèi)類GPU提供1年ODM保修,企業(yè)級(jí)GPU英偉達(dá)提供3年保修的政策。企業(yè)級(jí)GPU由英偉達(dá)提供設(shè)計(jì)到生產(chǎn)的整個(gè)環(huán)節(jié),品控及穩(wěn)定均要高于消費(fèi)類產(chǎn)品,對(duì)于GPU上運(yùn)行的AI應(yīng)用及SDK提供全工具鏈可以得到英偉達(dá)原廠技術(shù)團(tuán)隊(duì)的支持。
第二,嵌入式架構(gòu)未來(lái)在邊緣側(cè)的崛起,嵌入式SoC(system on chip)采用更加緊湊且低功耗的設(shè)計(jì),在邊緣側(cè)部署靈活,同時(shí)集成了底層操作系統(tǒng)和驅(qū)動(dòng),對(duì)于穩(wěn)定性和可靠性得到了極大的保障,支持異構(gòu)計(jì)算加速能力,特別是GPU的AI能力的集成,使得在邊緣側(cè)部署智能化的應(yīng)用成為可能性,隨著未來(lái)Jetson ORIN系列芯片模組的推出,在邊緣側(cè)的AI算力可以輕松突破200TOPS,結(jié)合嵌入式架構(gòu)的可靠穩(wěn)定低功耗的特點(diǎn),在工業(yè)場(chǎng)景的應(yīng)用中,對(duì)于目前大量采用的工控機(jī)(IPC+GPU)的形態(tài),將會(huì)是一個(gè)很好的嵌入式解決方案。譬如:一個(gè)功耗50w左右,擁有ARM CPU和高算力的GPU邊緣計(jì)算單元(盒子)將有可能完全替代現(xiàn)有的工控機(jī),在制造的生產(chǎn)線旁,采集設(shè)備產(chǎn)生的數(shù)據(jù),實(shí)時(shí)處理并分析,通過(guò)GPU高速的并行加速能力,結(jié)合英偉達(dá)DeepStream和TensorRT等加速推理軟件,實(shí)現(xiàn)實(shí)時(shí)的工業(yè)缺陷檢測(cè)及其他應(yīng)用場(chǎng)景。
第三,整體系統(tǒng)方面,英偉達(dá)的EGX企業(yè)邊緣加速平臺(tái)中,推出了英偉達(dá)認(rèn)證的服務(wù)器,由于邊緣GPU加速的應(yīng)用相比傳統(tǒng)的企業(yè)級(jí)應(yīng)用,需要更多元化更復(fù)雜的計(jì)算能力和軟件堆棧的支持,包括CPU、GPU和DPU之間的配合與優(yōu)化。分布于邊緣側(cè)的計(jì)算平臺(tái),對(duì)于管理和安全性的要求會(huì)更高,要求系統(tǒng)具備企業(yè)級(jí)的穩(wěn)定性和可靠性。英偉達(dá)與主流的服務(wù)器廠商進(jìn)行了認(rèn)證和適配工作,預(yù)先在多種配置組合的服務(wù)器中,完成了從AI,數(shù)據(jù)分析,視頻分析,圖形加速,數(shù)據(jù)安全等全面的測(cè)試,為客戶智能化應(yīng)用的落地提供了穩(wěn)定可靠的基礎(chǔ)保障。
Q12、我們都知道現(xiàn)在邊緣計(jì)算基礎(chǔ)層更多是用容器去部署,還有什么別的方案嗎?
bjitnan NVIDIA DevRel:
對(duì)于智能化應(yīng)用的部署,更加推薦在裸金屬上,基于容器的開發(fā)和部署方式,首先英偉達(dá)在NGC(ngc.nvidia.com)里面預(yù)制好各種的GPU運(yùn)行環(huán)境,預(yù)訓(xùn)練模型,Helm腳本及SDK,便于快速的開發(fā)和部署,結(jié)合最新一代安培架構(gòu)的A100、A30的MIG(多GPU實(shí)例),支持將一片GPU物理安全切分成多片GPU實(shí)例,同時(shí)部署運(yùn)行獨(dú)立不同的容器或AI應(yīng)用,更加靈活的使用和調(diào)度GPU資源,且相比vGPU有更好的管理粒度和隔離的安全性。也支持在VM中去做應(yīng)用的部署,可同時(shí)選擇vGPU或MIG的切分方案。另外,對(duì)于應(yīng)用的部署,也可以參考英偉達(dá)推理服務(wù)軟件TRITON https://www.nvidia.cn/deep-learning-ai/solutions/inference-platform/
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
由于邊緣計(jì)算是云端功能下沉的體現(xiàn),云端目前都基本是基于K8S+Docker方式實(shí)現(xiàn)業(yè)務(wù)容器化并部署的,所以邊緣計(jì)算一般也是基于容器,因?yàn)檫@樣才更方式的實(shí)現(xiàn)云端調(diào)度,邊端執(zhí)行。另外,如果我們抓住邊緣計(jì)算的本質(zhì),就是通過(guò)分布式、高可用、業(yè)務(wù)易部署與維護(hù),那么容器化就是一個(gè)很重要的過(guò)程,還有一種就是不好容器化的場(chǎng)景,可以基于Kubevirt來(lái)實(shí)現(xiàn)用容器來(lái)管理虛擬機(jī),將業(yè)務(wù)部署在虛擬機(jī)中。
Q13、是否可以分享一些制造企業(yè)的GPU虛擬化應(yīng)用的場(chǎng)景?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
目前比較常見的GPU使用場(chǎng)景,有工業(yè)設(shè)備數(shù)字孿生,工控視覺(監(jiān)控、采集等)、設(shè)備質(zhì)檢等。
bjitnan NVIDIA DevRel:
列舉一些vGPU的應(yīng)用場(chǎng)景,供參考
·渲染:通過(guò)裸機(jī)或虛擬工作站實(shí)例加速最終幀渲染,渲染場(chǎng)景所需的時(shí)間比CPU短很多。
·計(jì)算機(jī)輔助設(shè)計(jì):利用GPU虛擬工作站縮短設(shè)計(jì)周期并降低單位成本,其性能與物理工作站相差無(wú)幾。
·AR/VR:借助全棧解決方案,您可以隨時(shí)隨地在整個(gè)5G網(wǎng)絡(luò)運(yùn)行和擴(kuò)展XR應(yīng)用程序,從而加速實(shí)現(xiàn)邊緣可視化。
·工程模擬:通過(guò)將NVIDIA GPU與用于虛擬工作站上的RTX技術(shù)結(jié)合使用,可以在白天進(jìn)行設(shè)計(jì)并在夜間進(jìn)行計(jì)算,從而更快地設(shè)置,測(cè)試和迭代復(fù)雜的模擬。
·遠(yuǎn)程協(xié)作:借助NVIDIA Omniverse數(shù)字協(xié)作平臺(tái),將RTX功能引入第三方應(yīng)用程序,從而簡(jiǎn)化3D制作。
Q14、GPU作為虛擬化的一部分,顯存虛擬化的工作原理是什么?
【問(wèn)題描述】公司最近準(zhǔn)備上研發(fā)VDI,與廠商交流,經(jīng)常出現(xiàn)2Q、4Q等名詞,說(shuō)是相當(dāng)于內(nèi)存的2G或者4G,那虛擬化的原理是什么?
強(qiáng)哥之神上汽云計(jì)算中心容器云架構(gòu)師及技術(shù)經(jīng)理:
顯卡虛擬化就是將顯卡進(jìn)行切片,并將這些顯卡時(shí)間片分配給虛擬機(jī)使用的過(guò)程。由于支持顯卡虛擬化的顯卡一般可以根據(jù)需要切分成不同的規(guī)格的時(shí)間片,因此可以分配給多臺(tái)虛擬機(jī)使用。其實(shí)現(xiàn)原理其實(shí)就是利用應(yīng)用層接口虛擬化(API remoting),API重定向是指在應(yīng)用層進(jìn)行攔截與GPU相關(guān)的應(yīng)用程序編程接口(API),通過(guò)重定向(仍然使用GPU)的方式完成相應(yīng)功能,再將執(zhí)行結(jié)果返回應(yīng)用程序。
Yongxiang Nvidia EGX產(chǎn)品總監(jiān):
在NVIDIA虛擬GPU助力的虛擬化環(huán)境中,NVIDIA虛擬GPU(vGPU)軟件與Hypervisor一同安裝在虛擬化層上。此軟件可創(chuàng)建虛擬GPU,使每個(gè)虛擬機(jī)(VM)都能共享安裝在服務(wù)器上的物理GPU。對(duì)于要求非常嚴(yán)苛的工作流程,單個(gè)VM可充分利用多個(gè)物理GPU。我們的軟件包含適用于各種VM的顯卡或計(jì)算驅(qū)動(dòng)。由于通常由CPU完成的工作分流到GPU,因而用戶可以獲得更出色的體驗(yàn)。虛擬化和云環(huán)境可支持要求苛刻的工程和創(chuàng)意應(yīng)用程序,以及計(jì)算密集型工作負(fù)載(例如AI和數(shù)據(jù)科學(xué))。關(guān)于2Q,4Q是針對(duì)幀緩存的說(shuō)法,您可以參考我們vGPU的說(shuō)明文檔,里面有詳細(xì)的說(shuō)明。https://docs.nvidia.com/grid/10.0/grid-vgpu-user-guide/index.html#virtual-gpu-types-grid
Q15、英偉達(dá)EGX技術(shù)方案特點(diǎn)有哪些?適合哪些應(yīng)用場(chǎng)景?
VinceXu NVIDIA SA:
1.底層硬件基礎(chǔ)是我們的NVIDIA-Certified Servers,它是我們的Ampere GPU或T4+NVIDIA Mellanox SmartNIC/DPU+OEM servers,是經(jīng)過(guò)我們測(cè)試認(rèn)證的具有優(yōu)良性能、易管理、高安全性、高擴(kuò)展性的服務(wù)器配置。在性能測(cè)試上,我們測(cè)試了pytorch、tensorflow的訓(xùn)練性能,推理上測(cè)試了TensorRT以及Triton inference server,以及Rapids、Spark和核心的一些library如HPC SDK以及CUDA的測(cè)試,還有一些end to end的framework如DeepStream、Clara、Riva的測(cè)試,可視化上的blender、V-ray、redshift等測(cè)試,另外在存儲(chǔ)上我們測(cè)試GPUDirect Storage性能。除了單機(jī)性能測(cè)試外,服務(wù)器配置CX6或Bluefiled,測(cè)試多機(jī)之間的RMDA性能以及多機(jī)的NCCL性能以及訓(xùn)練性能。在安全性上,我們有針對(duì)TPM模塊的功能測(cè)試。另外還有redfish管理功能測(cè)試。
https://www.nvidia.com/en-us/data-center/products/certified-systems;https://docs.nvidia.com/ngc/ngc-deploy-on-premises/nvidia-certified-systems/index.html
2.在底層硬件基礎(chǔ)上,我們支持baremetal的部署,或者虛擬化方式的部署,支持vGPU。這里hypervisior可以使用VMware vSphere、Redhat OpenShift,或者其他的partner的虛擬化方案。
3.在這基礎(chǔ)上的應(yīng)用層,就可以基于我們NGC上的大量的容器鏡像,預(yù)訓(xùn)練模型以及end-to-end的方案。
4.還有就是NVIDIA AI Enterprise,它是端到端的,cloud-native的AI和數(shù)據(jù)分析套件,它經(jīng)過(guò)我們優(yōu)化、認(rèn)證,通過(guò)VMware vSphere with Tanzu運(yùn)行在NVIDIA-certificated服務(wù)器上。它包括NVIDIA用于在現(xiàn)代混合云中快速部署、管理和擴(kuò)展人工負(fù)載的一些關(guān)鍵技術(shù),如magnum IO、DOCA、CUDA-x、GPU operator、Network Operator。在上層應(yīng)用上,也是基于我們NGC上的一系列容器鏡像和解決方案。
https://www.nvidia.com/en-us/data-center/products/ai-enterprise-suite
對(duì)于邊緣設(shè)備的管理,我們有Fleet Command,F(xiàn)leet Command是一款混合云平臺(tái),可以跨數(shù)十臺(tái)到最多數(shù)百萬(wàn)臺(tái)服務(wù)器、以及對(duì)邊緣設(shè)備進(jìn)行管理和擴(kuò)展AI部署,在云端運(yùn)行的集中控制界面,精簡(jiǎn)的配置,詳細(xì)的監(jiān)控儀表板,以及大量的自動(dòng)化流程。使用一鍵式配置,F(xiàn)leet Command可以輕松地與NVIDIA EGX™服務(wù)器配對(duì)。一旦配對(duì)成功,F(xiàn)leet Command就可以很方便的在邊緣設(shè)備上部署OS,部分AI應(yīng)用程序,支持遠(yuǎn)程管理邊緣設(shè)備,支持遠(yuǎn)程軟件更新、遠(yuǎn)程調(diào)試和系統(tǒng)監(jiān)控,以及其他功能,如自愈系統(tǒng),負(fù)載遷移。這些遠(yuǎn)程管理功能使維護(hù)和維護(hù)變得更容易。Fleet Command內(nèi)置端到端的安全性,確保知識(shí)產(chǎn)權(quán)、應(yīng)用程序和傳感器數(shù)據(jù)始終受到保護(hù)。它從應(yīng)用程序開始。應(yīng)用程序在加載之前會(huì)被掃描漏洞和惡意軟件。此外,簽名容器確保只有經(jīng)過(guò)身份驗(yàn)證的軟件被部署到邊緣。
https://www.nvidia.com/en-us/data-center/products/fleet-command
Yongxiang Nvidia EGX產(chǎn)品總監(jiān):
Vince Xu的回復(fù)非常全面,咱們?cè)贀Q一個(gè)維度來(lái)看EGX的幾個(gè)特點(diǎn):
統(tǒng)一的架構(gòu)
•單一架構(gòu)能夠在多種工作負(fù)載中加速現(xiàn)代應(yīng)用程序。
•NVIDIA和合作伙伴提供廣泛的服務(wù)器產(chǎn)品系列,適用于從數(shù)據(jù)中心到邊緣等各種部署場(chǎng)景??蛻艨梢赃x擇適合其用例的產(chǎn)品。
全棧創(chuàng)新
•該平臺(tái)不斷進(jìn)行全面優(yōu)化,并持續(xù)提升性能,更大限度提高投資回報(bào)率。
•與傳統(tǒng)設(shè)計(jì)相比,基于此平臺(tái)的解決方案可提高電源和空間效率,且完成同樣的工作所需的系統(tǒng)更少,這樣便能降低TCO。
可擴(kuò)展性與安全性
•高性能且高效的網(wǎng)絡(luò)架構(gòu)使基礎(chǔ)設(shè)施能夠快速有效地進(jìn)行橫向擴(kuò)展,同時(shí)提供創(chuàng)新功能,更大限度提高安全性。
•GPU虛擬化軟件使多臺(tái)虛擬機(jī)能夠共享一個(gè)GPU,或者對(duì)于要求更高的工作負(fù)載,可以將多個(gè)GPU配置到一臺(tái)虛擬機(jī),確保寶貴的GPU資源得到優(yōu)化。
•部分GPU型號(hào)提供的多實(shí)例GPU(MIG)可以將一個(gè)GPU割成多個(gè)獨(dú)立的GPU實(shí)例。它讓基礎(chǔ)設(shè)施管理員能夠?qū)崿F(xiàn)GPU加速基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)化,同時(shí)靈活地確保在所有計(jì)算工作負(fù)載中合理運(yùn)用GPU資源。
龐大的應(yīng)用程序基礎(chǔ)
•龐大且不斷增長(zhǎng)的應(yīng)用程序意味著,投資此平臺(tái)將帶來(lái)持續(xù)的回報(bào)。數(shù)百種商業(yè)應(yīng)用程序已通過(guò)NVIDIA技術(shù)加速,而且每年還在不斷增加。
•開發(fā)者可以通過(guò)框架、優(yōu)化庫(kù)、SDK、集成的編譯器、預(yù)訓(xùn)練模型、推理優(yōu)化器和其他軟件快速提高工作效率。這些都得到了由200多萬(wàn)名開發(fā)者組成的龐大生態(tài)系統(tǒng)的支持。
基礎(chǔ)設(shè)施平臺(tái)生態(tài)系統(tǒng)
•該平臺(tái)與業(yè)內(nèi)領(lǐng)先的國(guó)內(nèi)的主流OEM廠商的IT基礎(chǔ)設(shè)施平臺(tái)和VMware、Red Hat以及標(biāo)準(zhǔn)的DevOps框架(如Kubernetes等)完全集成,使IT部門能進(jìn)行全方位控制。
Q16、EGX解決方案現(xiàn)在有沒(méi)有成熟的配套軟件應(yīng)用環(huán)境可以用于汽車研產(chǎn)供銷領(lǐng)域?
【問(wèn)題描述】基于視覺的解決方案,在整車研產(chǎn)供銷領(lǐng)域,是否有比較成熟的應(yīng)用產(chǎn)品?在軟件定義汽車的大環(huán)境下,是否有整體的解決方案供車企來(lái)進(jìn)行選擇?
Yongxiang Nvidia EGX產(chǎn)品總監(jiān):
我們?cè)谄囍圃鞓I(yè),可以從設(shè)計(jì)、生產(chǎn)制造到銷售、服務(wù)環(huán)節(jié)利用邊緣計(jì)算加速行業(yè)智能化。從計(jì)算機(jī)輔助設(shè)計(jì)、渲染、工程模擬,到生產(chǎn)制造階段工業(yè)檢測(cè)、機(jī)器人/AGV/UGV的應(yīng)用、物流環(huán)節(jié)加速到銷售時(shí)的數(shù)據(jù)分析均可在邊緣計(jì)算平臺(tái)展開。
目前我們有以下成熟軟件應(yīng)用可以使用:
·我們使用基于EGX Ominverse平臺(tái)對(duì)自動(dòng)駕駛的DriveSim的支持,將加速自動(dòng)駕駛仿真和協(xié)作的能力。自動(dòng)駕駛仿真測(cè)試平臺(tái)是NVIDIA整體自動(dòng)駕駛產(chǎn)品Drive產(chǎn)品技術(shù)體系的關(guān)鍵組成部分,可使汽車在虛擬世界中駕駛數(shù)十億公里,模擬數(shù)千種歷經(jīng)從常規(guī)行駛到罕見危險(xiǎn)情境的廣泛駕駛場(chǎng)景,該平臺(tái)可幫助汽車企業(yè)實(shí)現(xiàn)更高效率、更大成本收益以及更安全的駕駛體驗(yàn),大幅縮短自動(dòng)駕駛行車測(cè)試周期;
·我們基于EGX在vGPU的支持完成VDI、VApp等對(duì)設(shè)計(jì)、渲染的支持;
·我們使用基于EGX平臺(tái)中的NGC中的預(yù)訓(xùn)練模型加速汽車各個(gè)環(huán)節(jié)中對(duì)模型的需求。如自動(dòng)駕駛階段、車內(nèi)娛樂(lè)、車路協(xié)同、售后服務(wù)等場(chǎng)景。