遠落后于VR,AR還面臨三大挑戰(zhàn):視場、分類、自適應設計

yivian
佚名
由于蘋果和谷歌AR追蹤技術已經(jīng)掌握在數(shù)以百萬計的開發(fā)者和用戶手中,市場對此產(chǎn)生了大量的關注和報道,而你可能會認為我們一直幻想的沉浸式增強現(xiàn)實體驗即將到來。盡管我們比以往任何時候都更加接近于這個未來,...

由于蘋果和谷歌AR追蹤技術已經(jīng)掌握在數(shù)以百萬計的開發(fā)者和用戶手中,市場對此產(chǎn)生了大量的關注和報道,而你可能會認為我們一直幻想的沉浸式增強現(xiàn)實體驗即將到來。盡管我們比以往任何時候都更加接近于這個未來,但事實上,沉浸式增強現(xiàn)實在成為主流之前仍需要多年的研發(fā)和設計工作。以下我們將和大家一起看看當前增強現(xiàn)實技術正在面臨的一些關鍵挑戰(zhàn)。

1. 沉浸式視場

在看完酷炫的ARKit演示視頻后,我們很容易想象完全占據(jù)視場的全屏幕視圖將有多么神奇。但現(xiàn)實情況是,即便是當前最優(yōu)秀的便攜式AR頭顯開發(fā)套件,其視場仍十分有限(遠比不上今天的VR頭顯,而且部分人認為當前VR頭顯的視場也并不足夠)。

從許多方面來說,HoloLens是當前開發(fā)者能夠購買的最佳AR頭顯,但其視場也只不過是34度左右,遠比不上谷歌Cardboard(大約為60度)。文章中的視頻把全視場與約34度的視場進行了對比,結果顯示你在任何時刻內(nèi)都只能看到增強現(xiàn)實世界的一小部分。

這非常重要,因為要實現(xiàn)合理的沉浸感,增強世界需要與現(xiàn)實世界無縫融合。如果無法立即看到大部分的增強現(xiàn)實世界,你將發(fā)現(xiàn)自己需要不自然地“掃描”環(huán)境,以找出AR對象的實際位置(就像在使用望遠鏡一樣),而不是說你的大腦能夠直觀地映射AR世界,并將其看作是現(xiàn)實世界的一部分。

并不是說34度視場的AR頭顯毫無用處,它只是不夠身臨其境而已,因此無法深入地沉浸你的自然感知,同時意味著它不太適合這種直觀的人機交互,不是消費者和娛樂用途的理想選擇。

有人或許會說,“那擁有90度視場的Meta2 AR頭顯呢?”這個問題問得好。

沒錯,Meta 2是目前擁有最大視場的已知AR頭顯,接近于今天的VR頭顯。但這款設備的體積十分龐大,也沒有在不犧牲大部分視場的情況下小型化其光學系統(tǒng)的明顯解決方案。

Meta 2的光學鏡頭其實很簡單。頭顯那大大的“帽檐”部分包含跟智能手機類似的顯示器。大型塑料遮光罩有一部分進行了鍍銀處理,并將顯示屏上的內(nèi)容反射到用戶的眼睛里??s小頭顯意味著縮小顯示屏和遮光罩,這顯然會減少視場。Meta 2對開發(fā)者來說可能是非常好的設備,他們愿意為開發(fā)未來的設備而忍受笨重的頭顯,但對消費者而言,Meta必須采用不同的光學解決方案來達到如此視場。

在這方面,ODG正在研發(fā)一種類似但體積更小的光學系統(tǒng),并且能夠?qū)崿F(xiàn)最高為50度的視場,亦即1800美元的R-9 AR眼鏡。然而,它們也只能勉強接近于消費者可以接受的尺寸。在另一邊,Lumus采用了不同的光學解決方案(波導),成功在2mm厚的光學元件中實現(xiàn)了55度的視場。

約50度的視場還不錯,但遠遠比不上當前高端VR頭顯的約110度視場,而且消費者仍在要求更寬的視場。對于真正身臨其境的視場而言,我們很難判斷一個具體的數(shù)字,而Oculus過去曾認為我們需要至少90度視場才能體驗真正的臨場感(至少在這方面,VR行業(yè)中的大部分人都予以認同)。

2. 實時對象分類

蘋果的ARKit技術和谷歌的ARCore技術能讓你在智能手機上實現(xiàn)一些非常炫麗和新穎的類AR體驗,但在大多數(shù)情況下,這些系統(tǒng)僅局限于“理解”地板和墻壁等平面。這就是為什么現(xiàn)在iOS上99%的AR應用和演示作品都只能發(fā)生在地板或桌子上。

為什么是地板和墻壁呢?因為它們很容易分類。地板或墻壁的平面與另一地板和另一墻壁的平面相同,所以系統(tǒng)有信心假定這一平面能夠向所有方面延展,直到與另一平面相交。

注意,我在這里是使用“理解”一詞,而不是“感知”或“檢測”。這是因為盡管所述系統(tǒng)或許能夠“看到”除地板和墻壁以外的對象的形狀,但目前無法理解它們。

我們不妨把杯子作為例子。當你看著一個杯子時,你看到的不僅只是一種形狀,你對杯子已經(jīng)十分了解。了解有多少?下面讓我們一起看看:

你知道杯子與它所在的平面截然不同。

你知道杯子里面包含一定的空間,可用來容納液體和其他物體。

你知道我們可以用杯子來喝水。

你知道杯子十分輕便,很容易打翻,從而導致杯內(nèi)液體或物體溢出。

……

我可以繼續(xù)往下說…我想說的是,計算機并不知道任何這一切。它只能“看到”一個形狀,而不是一個杯子。計算機無法得到杯子內(nèi)部的完整視圖,無法映射出完整的形狀,計算機甚至不能假定杯子內(nèi)部存在一定的空間。計算機也不知道杯子是獨立于其所在平面的一個對象。但你知道這一切,因為它是一個杯子。

然而,令計算機視覺能夠理解“杯子”,而不僅僅只是看到一個形狀,這是一個非常重要的問題。所以這么多年來,我們在AR演示作品中看到人們把基準標記附加到對象身上,以實現(xiàn)更細致的追蹤和交互。

為什么如此困難呢?第一個挑戰(zhàn)在于分類。杯子有數(shù)千種形狀,大小,顏色和紋理。部分杯子擁有特殊的屬性和特殊的用途(如燒杯),這意味著不同的杯子被用于不同的場景和背景。

你可以想象編程這么一個可以幫助計算機了解所有上述概念的算法的挑戰(zhàn);你也可以想象編寫一個向計算機解釋杯子和碗之間區(qū)別的代碼的挑戰(zhàn)。

僅僅只是一個簡單的杯子就存在如此巨大的挑戰(zhàn),更不用說世界上那數(shù)千或數(shù)十萬件常見物品。

當前基于智能手機的AR發(fā)生在你的環(huán)境之中,但你很難與之進行交互。這就是為什么你今天在智能手機上看到的所有AR體驗都被固定在地板和墻壁上。這種系統(tǒng)不可能與我們周圍的世界進行令人信服的交互,因為雖然系統(tǒng)能夠“看到”地板和墻壁,但不能“理解”它們。

對于我們所向往的科幻式AR(亦即AR眼鏡能夠向我展示杯子里的咖啡的溫度;或者說把微波爐的剩余時間顯示在其上方),我們需要系統(tǒng)“理解”更多關于我們周圍的世界。

那我們該如何實現(xiàn)呢?答案似乎是所謂的“深度學習”。用于每種對象類型的手寫分類算法,甚至是普通的分類算法,這都是一項非常復雜的任務。但我們可以訓練計算機的神經(jīng)網(wǎng)絡,把這種神經(jīng)網(wǎng)絡設計為能夠隨時間發(fā)展而自動調(diào)整其編程,并可靠地檢測周圍的常見物品。我們曾報道研究人員已經(jīng)在開展部分項目,而且看起來十分有希望。在下面這個視頻中,系統(tǒng)能夠稍微可靠地檢測任意人類,雨傘,交通燈和汽車之間的差異。

下一步是大幅擴展可能的分類庫,然后把基于圖像的檢測與從AR追蹤系統(tǒng)采集的實時環(huán)境映射數(shù)據(jù)結合起來。一旦我們可以讓AR系統(tǒng)開始“理解”我們周圍的世界,我們就可以著手解決AR體驗的自適應設計挑戰(zhàn)。

3. 自適應AR設計

打個比方,網(wǎng)頁開發(fā)者投入了多年時間來開發(fā)可靠,實用的設計規(guī)則,使得網(wǎng)站能夠適合不同形狀的屏幕。但與自適應AR設計相比,前者似乎是一個簡單的任務,因為后者需要支持涵蓋所有三維的任意環(huán)境。

這不是一個簡單的問題。即便是已投入多年實踐開發(fā)時間的VR游戲設計,開發(fā)者也仍然在努力解決這一難題的更基礎版本:針對不同的游玩空間大小進行設計。一般來說,VR游玩區(qū)域的形狀是正方形或矩形,而且除了玩家之外沒有任何東西。與伴隨著一系列并發(fā)對象的AR體驗而言,這似乎是簡單不過的問題。

想象一下:即使是生活在相同公寓單位的人來說,家具和物品的擺放也完全不同。要理解如何創(chuàng)建令人信服的娛樂體驗,ar游戲設計將需要很多年時間的發(fā)展。從平面到天花板,再到家具,再到數(shù)以百萬計的家庭,這種娛樂體驗需要適應一個看似無限的環(huán)境變量(更不用說更加廣泛的戶外空間)。

你可能會認為開發(fā)一款簡單的AR射擊游戲并不難,比如說在一房一廳的設計中,敵人就從那特定的房間中冒出來。但不要忘記,如果不預先映射環(huán)境,AR系統(tǒng)甚至不知道這棟房子存在另一個房間。

讓我們假設開發(fā)者已經(jīng)解決了對象分類問題,這樣的系統(tǒng)可以在人類層面上理解你周圍的對象,那開發(fā)者應該如何創(chuàng)建一款利用這些對象的游戲呢?

比如說一款簡單的種田游戲,其中玩家需要在家中種植和澆灌AR作物,而這涉及使用真正的杯子來澆灌AR水。但如果你周圍沒有杯子呢?這樣的游戲是否將變得毫無用處?答案是否定的,開發(fā)者都是聰明人,比如說玩家可以把閉合的拳頭作為杯子的替代品,當傾斜拳頭時,AR水就會倒出來。

所以我們現(xiàn)在可以栽種作物。美國開發(fā)者認為,每個人都應該有足夠的空間來種植10排玉米;但在中國,我們居住的小型公寓不適合種植10排玉米,因為大部分人沒有多余的臥室來進行播種。

我可以繼續(xù)說下去。我想說的是:如果我們不再局限于在空白地板和墻壁上體驗沉浸式AR,我們需要設計自適應的ar游戲和應用,而這涉及利用我們周圍的實際空間和對象。因此,我們需要通過一些非常聰明的設計來管理數(shù)十億種變量。

盡管這可能是所述三大挑戰(zhàn)中最遙遠的一個,但在真正能夠?qū)崿F(xiàn)這些體驗的未來設備到來之前,我們現(xiàn)在就可以從理論上進行設計。

在過去一年中,我們聽到很多人都認為AR和VR在技術成熟度方面已經(jīng)不相上下,但事實上AR仍然遠遠落后于當前的VR。AR令人十分興奮,但從硬件到感知,再到設計,我們?nèi)杂性S多東西需要學習。對AR來說,現(xiàn)在是一個激動人心的時刻。這個領域仍然是相當開放,而且市場已經(jīng)出現(xiàn)了一個牢固的立足點,進軍AR市場的時機已經(jīng)成熟。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論