人工智能訓練另一個你,人與人之間姿勢傳遞的最近鄰和生成模型摘要:我們調查人與人之間傳遞姿勢的最近鄰和生成模型。 我們拍攝一個人執(zhí)行一系列動作的視頻,并嘗試生成另一個人執(zhí)行相同動作的視頻。 我們的生成模型(pix2pix)在兩個生成相應的框架上均優(yōu)于k-NN,并且在所演示的動作集之外推廣。 我們最重要的貢獻是確定能夠有效執(zhí)行所需任務的流水線(姿態(tài)檢測,人臉檢測,基于k-NN的配對)。 我們還詳細介紹了幾種迭代改進和失敗模式。
人工智能訓練另一個你,人與人之間姿勢傳遞的最近鄰和生成模型簡介:姿勢轉移是各種應用程序的問題,這些應用程序會推動圖像或視頻生成的邊界。首先,在一個人不能執(zhí)行特定的一系列動作的情況下,能夠轉移姿勢是有用的。這對視頻制作和編輯尤其有用(例如,增強用于電影的特技雙打制作的素材)。從計算機視覺的角度來看,這個問題也是非常具有挑戰(zhàn)性的,因為難以可靠地檢測到關節(jié)位置,并且能夠將姿勢從任意人轉移到另一個人。最后,姿態(tài)轉換構成了我們是否能夠信任我們在互聯(lián)網(wǎng)上看到的圖像和視頻的道德困境。最近引起廣泛關注的“深層次假說”強調了這方面工作的必要性[10]。
人工智能訓練另一個你,人與人之間姿勢傳遞的最近鄰和生成模型。貢獻:我們的目標是從個人A的視頻中執(zhí)行一系列行動,并將個人B的視頻執(zhí)行相同的行為。我們開發(fā)了三個關鍵的定性指標來衡量模型輸出視頻的質量:
1.平滑視頻:單獨的幀將被分開計算,因此高質量的視頻將在幀之間平滑過渡。
2.鋒利的邊緣:生成的個體的輪廓應盡可能清晰逼真
3.最小的偽影:模型應避免產(chǎn)生明顯的視覺偽影,降低輸出質量我們試圖優(yōu)化我們的模型以盡可能最好地處理所有這三個指標。
人工智能訓練另一個你,人與人之間姿勢傳遞的最近鄰和生成模型。pose2pics:pose2pics模型犧牲了輸入中的一些準確性和信息來推廣輸入空間。在圖5中,第一行顯示了一個有效的轉移,其中姿勢模型準確地表示了真實的姿勢,并據(jù)此進行轉換。教授Alexei Efros的姿勢相同,輸出只包含較小的偽影。然而,這個模型也更容易受到不可預見的情況的影響,例如在姿勢骨架中喪失肢體。在第二行中,我們看到個體的右臂沒有被姿勢骨架捕獲,使得pose2pics模型在生成的圖像中截斷了肩膀處的手臂。這首先表明,該模型嚴重依賴聯(lián)合空間數(shù)據(jù)作為生成真實圖像的框架,其次證明不恰當?shù)挠柧?測試數(shù)據(jù)導致輸出大大偏斜。我們還注意到,當我們通過從具有明顯不同骨骼結構的人生成的骨骼時(例如,某個人比我們最初訓練的骨骼的人腳高),輸出圖像將具有明顯的物理異常(例如,細長的肢體)。為了解決這個問題,我們可以訓練一個更加多樣化的姿勢骨架集合(希望能夠引導模型學習肢體長度不變的變換),或者在關節(jié)角度而不是位置上訓練模型。我們也注意到pose2pics正在努力通用化,以前所未有的位置。更多樣化的培訓集可能有助于緩解這個問題。
人工智能訓練另一個你,人與人之間姿勢傳遞的最近鄰和生成模型。pics2pics:使用直接圖片生成圖片,我們發(fā)現(xiàn)我們在圖片方面獲得了相當有希望的結果。如圖6所示,它們看起來相當逼真且具有銳利的邊緣。大部分原因在于,它避免了姿態(tài)骨架生成器作為中間步驟,該步驟會引入噪聲并大大減少信號。我們還觀察到有條件的GAN的泛化,盡管在訓練數(shù)據(jù)中他從未見過Efros的雙臂,但他已經(jīng)學會了將Efros的雙臂提高到頭頂。
然而,這種方法并不像其他方法那樣不依賴于背景或服裝,因為它取決于給定位置上特定個體的非常嚴格的輸入格式。該模型適用于需要長時間和詳細的個人培訓視頻的簡單應用,并且該模型僅用于在兩個特定人員之間轉移姿勢的目的。這可能對于制作一個演員從執(zhí)行相同動作的特技視頻中演繹的技巧非常有用,正如我們介紹中所提到的。
人工智能訓練另一個你,人與人之間姿勢傳遞的最近鄰和生成模型。結論和未來的工作:在本文中,我們探討了k-NN,pose2pics和pics2pics模型在視頻之間的姿勢轉移問題中的應用。作為基線,k-NN將姿態(tài)骨骼生成器識別為姿勢傳輸管道中的薄弱環(huán)節(jié)。姿態(tài)骷髏的嘈雜對跳躍轉變和輸入 - 輸出匹配有著巨大的影響。這使得k-NN姿勢轉換變得困難,即使對于訓練數(shù)據(jù)集中的姿勢空間部分。
但是,我們仍然能夠從我們的實驗結果中解脫出一些有用的經(jīng)驗教訓并且有希望開始。生成的pose2pics模型圖像表明,神經(jīng)網(wǎng)絡有可能學習一個人的結構,然后在給定特定的姿勢骨架時使用該結構生成圖像。此外,pics2pics模型證明條件GAN有能力從訓練數(shù)據(jù)中推廣以生成超出訓練分布的圖像。我們預計完美姿態(tài)骨架生成算法將能夠生成更好的訓練對,從而進一步提高兩種模型的效能。
一個明顯的改進領域是降低我們方法的時間復雜度,以便我們可以實時生成視頻。我們實現(xiàn)了先前討論的pose2pix流水線的基于網(wǎng)絡攝像頭的版本,但無法將幀生成時間降低到一秒以下,比典型幀速率慢30倍。探索視頻之間姿態(tài)轉換的一個特別令人興奮的方法是利用幀之間的時間一致性。在一個瞬間和另一個瞬間之間,視頻不太可能改變(因為我們以60 FPS錄制)。我們可以在框架后面維護一個基礎結構。然后,使用基于壓縮神經(jīng)網(wǎng)絡的方法甚至純算法(如卡爾曼濾波器),我們可以生成當前幀和下一幀之間的差異。這樣,我們就能夠生成流暢的視頻,而只需要在移動對象的邊界執(zhí)行計算。理想的情況是,這會讓我們更接近實時傳輸?shù)哪繕恕?/p>
此外,雖然我們選擇在我們的流水線中不包含邊緣檢測,但如果能夠在增強監(jiān)視和邊緣檢測提供的過度擬合之間找到適當?shù)钠胶恻c,則可以產(chǎn)生更多的實際輸出。一個可能的方法是從各種各樣的輸入源傳入姿勢骨架,以便模型學習忽略邊緣圖像的非關鍵部分。
最后的改進是使用更好的姿態(tài)估計模型。我們使用標準工具(如OpenPose)完成了大部分項目,但姿勢輸出中的噪聲導致了影響我們的k-NN,Pose2Pics和Pics2Pics模型的大部分問題。我們最近發(fā)現(xiàn)了一個更強大的模型[9],它非常精確。它從2D視頻生成三維姿態(tài)估計,并使用1歐過濾器來避免噪聲姿態(tài)估計的問題。利用這種姿態(tài)估計器,我們可以設計更強大的k-NN方法,利用關節(jié)角度空間中的距離,而不是關節(jié)位置空間。如果我們嘗試在高度差異很大的個體之間進行翻譯 - 例如Joshua Hug教授和John DeNero-k-NN教授在關節(jié)位置空間中無法準確地配對圖像。通過在角度空間中工作,我們的姿態(tài)傳輸方法可以對物理屬性的差異保持不變。這個更強大的k-NN會產(chǎn)生更好的訓練對,所以條件GAN可以訓練完美的數(shù)據(jù)。