Wider Challenge結(jié)果爆出,3D對(duì)象探測(cè)技術(shù)發(fā)布

Christopher Dossman
大眾評(píng)判的基準(zhǔn)和ImageNet與COCO舉辦的系列挑戰(zhàn)賽,都在逐步推進(jìn)AI研究的發(fā)展。這些舉措不但激發(fā)了來(lái)自學(xué)術(shù)界和行業(yè)內(nèi)外的學(xué)者與開(kāi)發(fā)人員參與其中,還鼓勵(lì)他們更加深入地進(jìn)行研究與開(kāi)發(fā),正是這樣的結(jié)果激勵(lì)了人臉(識(shí)別)與行人(檢測(cè))這些行業(yè)舉辦頂級(jí)賽事。

還記得2018年Wider Challenge嗎?現(xiàn)在結(jié)果出來(lái)啦

大眾評(píng)判的基準(zhǔn)和ImageNet與COCO舉辦的系列挑戰(zhàn)賽,都在逐步推進(jìn)AI研究的發(fā)展。這些舉措不但激發(fā)了來(lái)自學(xué)術(shù)界和行業(yè)內(nèi)外的學(xué)者與開(kāi)發(fā)人員參與其中,還鼓勵(lì)他們更加深入地進(jìn)行研究與開(kāi)發(fā),正是這樣的結(jié)果激勵(lì)了人臉(識(shí)別)與行人(檢測(cè))這些行業(yè)舉辦頂級(jí)賽事。

該項(xiàng)挑戰(zhàn)的三項(xiàng)任務(wù)來(lái)自計(jì)算機(jī)視覺(jué)中一些長(zhǎng)期存在的挑戰(zhàn)以及估計(jì)問(wèn)題,其中包括人臉檢測(cè),行人檢測(cè)和人物搜尋。

結(jié)果:挑戰(zhàn)總結(jié)及成功的解決方案

挑戰(zhàn)者將會(huì)得到關(guān)于以上三項(xiàng)任務(wù)的基礎(chǔ)數(shù)據(jù)集,在參與流程的知道小,挑戰(zhàn)者需要將他們的模型輸出結(jié)果上傳至公共評(píng)估服務(wù)器,該服務(wù)器分為驗(yàn)證階段和最終測(cè)試階段,最終勝利的挑戰(zhàn)者將由模型的輸出表現(xiàn)來(lái)確定。

這篇研究論文對(duì)提交了有效結(jié)果的100多位挑戰(zhàn)者的研究思路進(jìn)行了總結(jié)。在人臉檢測(cè)任務(wù)中,獲勝者通過(guò)整合多重人臉識(shí)別預(yù)測(cè)來(lái)設(shè)計(jì)了一個(gè)獨(dú)立檢測(cè)器。

在行人檢測(cè)競(jìng)賽中,獲勝者提出了一個(gè)級(jí)聯(lián)的R-CNN模型與強(qiáng)大的附加結(jié)構(gòu),用來(lái)提高性能。而在人物搜尋競(jìng)賽中,獲勝者設(shè)計(jì)了一個(gè)級(jí)聯(lián)模型,該模型使用了每個(gè)人的臉部特征以及身體特征。除此之外,該研究論文還介紹了前5位獲勝者的研究思路細(xì)節(jié)。

潛在應(yīng)用與效果

WIDER challenge激勵(lì)了開(kāi)發(fā)者與研究學(xué)者進(jìn)一步去研究和解決計(jì)算機(jī)視覺(jué)中的關(guān)鍵問(wèn)題。新的方法毋庸置疑會(huì)推動(dòng)并構(gòu)建有效的系統(tǒng),使得人們?cè)谌四槞z測(cè)和物體檢測(cè)方向中解決一些更為嚴(yán)峻的問(wèn)題。

原文:

https://arxiv.org/abs/1902.06854v1

用于學(xué)習(xí)多個(gè)視覺(jué)領(lǐng)域的深層卷積

深層可分離卷積已被證實(shí)非常適合進(jìn)行標(biāo)準(zhǔn)卷積應(yīng)用,其中包括圖像分類(lèi),自然語(yǔ)言處理和嵌入式視覺(jué)應(yīng)用。這項(xiàng)研究則是首次在深層(卷積)中探索其在多領(lǐng)域中的應(yīng)用,它是基于來(lái)自不同領(lǐng)域的共享跨道關(guān)系的假設(shè)。

為了能在不同領(lǐng)域中進(jìn)行有效的知識(shí)傳送,研究人員引用softmax的門(mén)控機(jī)制,在視覺(jué)全能挑戰(zhàn)基準(zhǔn)上進(jìn)行了測(cè)試,他們采取的方法得分高于目前最新的傳統(tǒng)方法的得分。

潛在應(yīng)用與效果

研究者提出的方法比較經(jīng)典,易于拓展,可以以較少的算力來(lái)訓(xùn)練和適應(yīng)新的領(lǐng)域。深層卷積同樣也可以用來(lái)提高特定區(qū)域的精度。該方法可以應(yīng)用于優(yōu)化計(jì)算機(jī)視覺(jué)、情感分析、推薦系統(tǒng)等領(lǐng)域。

原文:

https://arxiv.org/abs/1902.00927v2

SC-FEGAN :新人臉編輯系統(tǒng)

SC-FEGAN 是一款高端人臉編輯系統(tǒng)。它基于CNN,使用用戶(hù)的草圖和顏色作為輸入,來(lái)生成并合成高質(zhì)量的圖像,而用戶(hù)僅僅需要完成簡(jiǎn)單的任務(wù)即可。

為了優(yōu)化圖像不完美的邊緣,SC-FEGAN 加入了使用門(mén)控卷積的自由形式圖像修復(fù)(SN-patch GAN),此外,它還訓(xùn)練了GAN與風(fēng)格損失函數(shù)實(shí)現(xiàn)高質(zhì)量的圖像編輯。根據(jù)這項(xiàng)研究,將SC-FEGAN 在結(jié)構(gòu)和形狀的質(zhì)量方面上述的圖像修復(fù)方法進(jìn)行比較方向——使用自由形式的模型產(chǎn)生的效果更好。研究人員在celebA-HQ數(shù)據(jù)集上對(duì)該系統(tǒng)進(jìn)行了分別的訓(xùn)練。

潛在應(yīng)用與效果

SC-FEGAN 只需一次通過(guò),即可執(zhí)行轉(zhuǎn)換和恢復(fù)大部分面積的面部圖像。它還允許用戶(hù)自主編輯圖像特征,比如發(fā)型、臉型、眼睛、嘴巴等等。SC-FEGAN具有推動(dòng)面部識(shí)別應(yīng)用工作的潛力。此外,它還能幫助生成我們非常需要的高質(zhì)量的基礎(chǔ)圖像數(shù)據(jù)集。

原文:

https://arxiv.org/abs/1902.06838v1

非標(biāo)記(Free Label)的快速、高質(zhì)量注解

這篇新發(fā)布的研究報(bào)告介紹了一個(gè)新工具——Free Label,該工具的目標(biāo)是幫助用戶(hù)獲得高質(zhì)量的、可以很容易適應(yīng)不同數(shù)據(jù)集和種類(lèi)的注解。這項(xiàng)基于Web的工具,為圖像分類(lèi)數(shù)據(jù)集快速、高質(zhì)量的標(biāo)注提供了一種典型的交互式界面。

為了達(dá)到精煉的語(yǔ)義分類(lèi),F(xiàn)ree Label實(shí)現(xiàn)了區(qū)域生長(zhǎng)分割(Region Growing Refinement,即RGR)算法。RGR可以是完全非監(jiān)督式的,并且實(shí)現(xiàn)起來(lái)很簡(jiǎn)單。不像其他相關(guān)算法,它的計(jì)算時(shí)間和參數(shù)化允許極快速的用戶(hù)交互。由于Free Label實(shí)現(xiàn)了一個(gè)模塊設(shè)計(jì)并且僅僅依賴(lài)于開(kāi)源庫(kù),因此很容易便能被獲取。它能夠被部署到一個(gè)本地或外部的服務(wù)器上,允許用戶(hù)通過(guò)私有或公有的方法來(lái)做注解。

潛在應(yīng)用與效果

通過(guò)利用Free Label的模塊化結(jié)構(gòu)來(lái)輕易標(biāo)注圖像數(shù)據(jù)集,深度學(xué)習(xí)社區(qū)可以很大程度上從中獲益。Free Label也可以被調(diào)整去幫助對(duì)不同數(shù)據(jù)集的有效分類(lèi),此舉可以幫助開(kāi)發(fā)更加精確和魯棒的模型。可以通過(guò)短視頻教程和一個(gè)有趣的、游戲版本的Free Label,去學(xué)習(xí)如何使用并合理地標(biāo)注數(shù)據(jù)集。

原文:

https://arxiv.org/abs/1902.06806v1

代碼:

https://bitbucket.org/phil_dias/freelabel-wacv/src

LiDAR FlowNet:用GRU來(lái)估計(jì)動(dòng)態(tài)流

研究者們最近提出了一個(gè)基于高級(jí)神經(jīng)網(wǎng)絡(luò)2D Map預(yù)測(cè)方法的動(dòng)態(tài)流LiDAR-FlowNet,它現(xiàn)在可以在來(lái)自上一個(gè)和目前框架下已存在的Map和未知的Map中估計(jì)動(dòng)態(tài)流。

除此之外,為了取得高水平表現(xiàn),他們已經(jīng)設(shè)計(jì)了一個(gè)自監(jiān)督的策略來(lái)訓(xùn)練LiDAR FlowNet。這讓在2D LiDAR-FlowNet Map上預(yù)測(cè)下一個(gè)動(dòng)態(tài)變得簡(jiǎn)單明了起來(lái)。對(duì)于研究者和開(kāi)發(fā)者來(lái)說(shuō),好消息是這項(xiàng)新方法的測(cè)試結(jié)果驗(yàn)證了它的有效性。

潛在應(yīng)用與效果

對(duì)人工智能和機(jī)器學(xué)習(xí)社區(qū)來(lái)說(shuō),LiDAR FlowNet能夠幫助我們找到一個(gè)更便宜的方式去實(shí)現(xiàn)高級(jí)LiDAR Map預(yù)測(cè)。這個(gè)舉措將會(huì)刺激所有動(dòng)態(tài)規(guī)劃應(yīng)用領(lǐng)域的潛在機(jī)會(huì),從而推動(dòng)整個(gè)領(lǐng)域的進(jìn)步,例如真實(shí)世界中自動(dòng)控制的設(shè)計(jì)和應(yīng)用,自動(dòng)駕駛汽車(chē),角色動(dòng)畫(huà),建筑設(shè)計(jì),游戲,分子生物等等。

原文:

https://arxiv.org/abs/1902.06919v1

PIXOR:來(lái)自點(diǎn)云的實(shí)時(shí)3D對(duì)象探測(cè)

新研究發(fā)現(xiàn)了一個(gè)新的單階段檢測(cè)器模型——PIXOR,可以從像素神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)解碼,從而輸出實(shí)時(shí)的、基于3D對(duì)象的估計(jì)??梢运氤梢粋€(gè)為密集的基于3D對(duì)象檢測(cè)設(shè)計(jì)的完全卷積神經(jīng)網(wǎng)絡(luò)。模型輸入描述包括鳥(niǎo)瞰的視野網(wǎng)絡(luò)結(jié)構(gòu)以及一個(gè)模型優(yōu)化方法,該方法是為在自動(dòng)駕駛中取得平衡感,從而獲得高精確度和實(shí)時(shí)效率而設(shè)計(jì)的。

研究者在KITTI BEV目標(biāo)檢測(cè)以及大規(guī)模3D機(jī)動(dòng)車(chē)檢測(cè)基準(zhǔn)上證實(shí)了PIXOR的有效性。結(jié)果顯示,對(duì)比最先進(jìn)的卷積方法,PIXOR在超過(guò)28FPS運(yùn)轉(zhuǎn)的同時(shí),能提供高水平的效率和AP(平均精度,Average Precision)準(zhǔn)確度。

潛在應(yīng)用與效果

PIXOR通過(guò)增加LIDAR對(duì)象和面部識(shí)別,為魯棒的3D對(duì)象定位取得了更高的簡(jiǎn)化度和更低的成本。模型有潛力去實(shí)現(xiàn)一些自動(dòng)駕駛汽車(chē)的關(guān)鍵技術(shù),比如實(shí)時(shí)3D屏重構(gòu),自定位和通過(guò)語(yǔ)義分析以及面對(duì)對(duì)象的語(yǔ)義理解讓機(jī)動(dòng)車(chē)實(shí)時(shí)響應(yīng)。

原文:

https://arxiv.org/abs/1902.06326v1

AI黑鏡——基于A(yíng)I技術(shù)的人倫小故事

恐怖分子在哪里

在我們共享的線(xiàn)上工作區(qū)忽然蹦出了一些字符,不是聊天信息也不是筆記,是一個(gè)通知,“相關(guān)信息已被上傳至RECOG。”

憤怒的一刻——顯然,在我們的工作系統(tǒng)中插入這個(gè)程序已成定局。就像在星期五下午突然通知要加班一樣,對(duì)于一個(gè)我們沒(méi)有調(diào)查或調(diào)試權(quán)限的系統(tǒng),我們當(dāng)然不可能提出不同意見(jiàn)。同樣,在這個(gè)問(wèn)題上,我們的意見(jiàn)并不重要。

盡管這個(gè)系統(tǒng)是否能得出有價(jià)值的結(jié)果還不得而知,但是它工作的方式已經(jīng)確定了,RECOG可以從我們所有的任務(wù)和對(duì)話(huà)中學(xué)習(xí)。

之后,很多人的情緒開(kāi)始從憤怒開(kāi)始感到驚慌——RECOG的工作界面一直顯示“正在工作……”,從來(lái)不會(huì)拒絕響應(yīng)。

我們要把RECOG訓(xùn)練成一個(gè)目標(biāo)識(shí)別和問(wèn)題回答的系統(tǒng)。但它不是我們開(kāi)發(fā)的系統(tǒng),是政府把它從……不知道什么地方帶來(lái)的,也正因如此,這個(gè)東西的訪(fǎng)問(wèn)權(quán)限設(shè)置非常謹(jǐn)慎。

我只知道我們的工作是,把其中的黑盒內(nèi)容轉(zhuǎn)變成邏輯清晰的系統(tǒng)。

但是,我們無(wú)法查看它的大部分代碼,只能通過(guò)精心設(shè)計(jì)的問(wèn)題測(cè)試它。

所以我們給它提供了大量的城市圖像。他們用綁在無(wú)人駕駛飛機(jī)上的高分辨率攝像機(jī)收集了好幾天的資料,為了了解這些圖像中的人是誰(shuí),或者至少了解他們的工作。

當(dāng)時(shí)我們正在解決校準(zhǔn)問(wèn)題,從最簡(jiǎn)單的問(wèn)題“那里有多少男性穿著紅色夾克、戴著墨鏡?”,到復(fù)雜的問(wèn)題“哪個(gè)熱狗攤最火爆?”系統(tǒng)的回應(yīng)非常精彩,以至于有人忽然問(wèn)出了那個(gè)問(wèn)題。

那時(shí)只有我們?nèi)齻€(gè)人還在做這個(gè)項(xiàng)目。指令的來(lái)源無(wú)法追蹤,所以我不知道這個(gè)問(wèn)題的具體內(nèi)容,但我知道接下來(lái)發(fā)生了什么。

“工作……完成。找到匹配目標(biāo)。”

在一張巨大的城市鳥(niǎo)瞰圖像中,一個(gè)小紅框迅速放大并填充了我們面前的顯示器。

人類(lèi)概率:99%

男性概率:91%

罪犯概率:77%

恐怖分子概率:70%

問(wèn)題是,是誰(shuí)建立了這些類(lèi)別?

我們之后都沒(méi)有再說(shuō)話(huà),各自回去工作,假裝什么都沒(méi)發(fā)生。

我之后聽(tīng)說(shuō)了RECOG犯了個(gè)大錯(cuò),那天它鎖定的人是個(gè)FBI探員,被派跟蹤并吸引國(guó)內(nèi)的潛在恐怖分子現(xiàn)身。他當(dāng)時(shí)正在去見(jiàn)一個(gè)他追蹤的人的路上。而這馬上被RECOG關(guān)注到了。

無(wú)論發(fā)生了什么,我們那天傍晚就接到電話(huà),被告知接下來(lái)的這周我們可以休息了,而在那之后不久,我們又被告知接下來(lái)可以一直休息,因?yàn)樗麄儼堰@個(gè)項(xiàng)目撤下來(lái)了。我猜他們認(rèn)為這個(gè)項(xiàng)目已經(jīng)不適合再交給我們做了。

但是,我一直想知道RECOG下一步會(huì)出現(xiàn)在哪里?

我一直想做一個(gè)鳥(niǎo)類(lèi)識(shí)別的系統(tǒng)。雖然真實(shí)的鳥(niǎo)味道不好聞、很吵并且總需要被喂食,但鳥(niǎo)類(lèi)的圖像是很美的。我的教授認(rèn)為這個(gè)項(xiàng)目會(huì)很簡(jiǎn)單,我只需要提供一個(gè)夏天的時(shí)間就能完成。

但現(xiàn)在,我卻在想,政府的這些步驟會(huì)給恐怖分子提供些什么?

在人類(lèi)歷史上的一些特殊時(shí)期,人們經(jīng)常會(huì)因?yàn)榕e報(bào)——比如嫉妒的鄰居舉報(bào)或者腐敗的警察敲詐,被拖走并折磨至死。那么一個(gè)如果廉潔的機(jī)器所說(shuō)的話(huà),又會(huì)引發(fā)怎樣的事情呢?

大數(shù)據(jù)文摘專(zhuān)欄作品

作者:Christopher Dossman

編譯:笪潔瓊、conrad、云舟

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀(guān)點(diǎn))

更多
暫無(wú)評(píng)論