Facebook研究人員日前發(fā)布了一個(gè)新的人工智能模型SEER,SEER模型可以利用互聯(lián)網(wǎng)上任何一組隨機(jī)的、未被標(biāo)記的圖像進(jìn)行學(xué)習(xí)。Facebook這一“突破”雖然還處于早期階段,但團(tuán)隊(duì)預(yù)計(jì)該“突破”將導(dǎo)致計(jì)算機(jī)視覺領(lǐng)域的一場(chǎng)"革命"。
SEER是SElf-SupERvised(自我監(jiān)督[學(xué)習(xí)])的英文縮寫,SEER的訓(xùn)練用了10億張公開的Instagram圖片,這些圖片是未經(jīng)人工策劃過的。即圖片沒有做過通常用于算法訓(xùn)練的標(biāo)簽和注釋處理,但SEER仍然能夠自主地利用數(shù)據(jù)集一邊學(xué)習(xí)一邊處理數(shù)據(jù),最終可以在物體檢測(cè)等任務(wù)上達(dá)到最高的準(zhǔn)確度。
SEER用的這種方法被稱為「自我監(jiān)督學(xué)習(xí)」,自我監(jiān)督學(xué)習(xí)在人工智能領(lǐng)域已經(jīng)非常成熟,可以直接從用于訓(xùn)練的信息創(chuàng)建學(xué)習(xí)系統(tǒng),不必依靠經(jīng)過仔細(xì)標(biāo)記的數(shù)據(jù)集訓(xùn)練如何執(zhí)行任務(wù),例如識(shí)別照片里的對(duì)象,或翻譯一段文字等任務(wù)。
自我監(jiān)督學(xué)習(xí)最近在科學(xué)界受到大量關(guān)注,因?yàn)檫@個(gè)方法,意味著對(duì)人類標(biāo)注數(shù)據(jù)的需要少很多,標(biāo)注數(shù)據(jù)是一項(xiàng)費(fèi)力費(fèi)時(shí)的任務(wù),是大多數(shù)研究人員都不愿做的事情。同時(shí),由于自監(jiān)督模型不需要經(jīng)人工策劃的數(shù)據(jù)集,因此可以利用更大、更多樣化的數(shù)據(jù)集。
在某些領(lǐng)域(尤其是自然語言處理領(lǐng)域),自我監(jiān)督學(xué)習(xí)方法已經(jīng)取得了突破性的進(jìn)展。許多利用無標(biāo)記文本訓(xùn)練的算法使得諸如答疑、機(jī)器翻譯、自然語言推理等應(yīng)用取得了各種進(jìn)展。
相比之下,計(jì)算機(jī)視覺還沒有完全投入自我監(jiān)督學(xué)習(xí)的革命之中。Facebook AI Research的軟件工程師Priya Gopal稱,SEER標(biāo)志著計(jì)算機(jī)視覺領(lǐng)域的第一次。她告訴記者,"SEER是第一個(gè)完全自我監(jiān)督的計(jì)算機(jī)視覺模型,是利用互聯(lián)網(wǎng)的隨機(jī)圖像進(jìn)行訓(xùn)練的,而相比之下,計(jì)算機(jī)視覺領(lǐng)域現(xiàn)有的自我監(jiān)督方面的工作,都是利用經(jīng)大量編輯過的ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練。"
ImageNet實(shí)際上是個(gè)由數(shù)百萬張圖片組成的大規(guī)模數(shù)據(jù)庫(kù),這些圖片都被研究人員標(biāo)注了標(biāo)簽,ImageNet面向廣大計(jì)算機(jī)視覺界開放,目的是推動(dòng)人工智能的發(fā)展。
Facebook的研究人員以該項(xiàng)目的數(shù)據(jù)庫(kù),作為基準(zhǔn)評(píng)估SEER的性能,他們發(fā)現(xiàn),自監(jiān)督模型在低照、物體檢測(cè)、分割和圖像分類等任務(wù)上的表現(xiàn)優(yōu)于最先進(jìn)的監(jiān)督型AI系統(tǒng)。
Goyal表示,"SEER僅利用隨機(jī)圖像進(jìn)行訓(xùn)練,性能卻優(yōu)于現(xiàn)有的自我監(jiān)督模型。這個(gè)結(jié)果基本上表明,我們?cè)谟?jì)算機(jī)視覺中不需要像ImageNet這種經(jīng)高度策劃過的數(shù)據(jù)集,利用隨機(jī)圖像進(jìn)行自我監(jiān)督學(xué)習(xí)已經(jīng)可以產(chǎn)生非常高質(zhì)量的模型。"
由于自我監(jiān)督學(xué)習(xí)需要的精密程度較高,研究人員在這方面的工作也并非沒有挑戰(zhàn)。在涉及到文本時(shí),人工智能模型要做的是賦予單詞特定的意思;但對(duì)于圖像而言,算法必須給每個(gè)像素賦予一個(gè)對(duì)應(yīng)的概念,同時(shí)要考慮同一個(gè)概念在不同圖片中的各種角度、視圖和形狀。
換句話說,研究人員處理圖像時(shí),需要大量的數(shù)據(jù)以及可以復(fù)雜的信息庫(kù)中推導(dǎo)出所有可能的視覺概念的模型。
Goyal和她的團(tuán)隊(duì)為了達(dá)到這個(gè)目的,在Facebook AI自我監(jiān)督學(xué)習(xí)方面的現(xiàn)有基礎(chǔ)上,開發(fā)了名為「SwAV」的新算法,SwAV算法將那些顯示相似概念的圖像分類為不同的組。Facebook科學(xué)家們還設(shè)計(jì)了一個(gè)深度學(xué)習(xí)算法的卷積網(wǎng)絡(luò),該卷積網(wǎng)絡(luò)可以模擬人腦中神經(jīng)元的連接模式,以及為圖像中的不同對(duì)象賦予不同的重要性。
該系統(tǒng)用了10億Instagram圖的強(qiáng)大數(shù)據(jù)集,至少規(guī)模是夠大了。Facebook的團(tuán)隊(duì)用了V100 Nvidia GPU和32GB內(nèi)存,模型規(guī)模增大后,團(tuán)隊(duì)也只得用模型去套可用的內(nèi)存。但Goyal解釋說,下一步的研究將有助于確保計(jì)算能力可以適應(yīng)新系統(tǒng)。
她表示,"我們要在越來越多的GPU上訓(xùn)練模型時(shí),GPU之間的通信需要足夠快速,以達(dá)到實(shí)現(xiàn)更快訓(xùn)練的目的。這樣的挑戰(zhàn)可以通過開發(fā)明確的軟件和研究技術(shù)得到解決,開發(fā)的軟件和技術(shù)能夠針對(duì)特定的內(nèi)存和運(yùn)行時(shí)間預(yù)算行之有效。"
因此,在SEER付諸實(shí)際使用案例之前還有一些工作要做。但Goyal認(rèn)為,SEER技術(shù)的影響不應(yīng)該被低估。她表示,"SEER技術(shù)使得我們現(xiàn)在可以利用大量豐富的互聯(lián)網(wǎng)隨機(jī)圖像訓(xùn)練大型模型,可以在計(jì)算機(jī)視覺領(lǐng)域取得各種進(jìn)展。"
Goyal稱,"這一突破,可以實(shí)現(xiàn)計(jì)算機(jī)視覺領(lǐng)域的自我監(jiān)督學(xué)習(xí)革命,其和我們?cè)谧匀徽Z言處理里看到的涉及文本的自我監(jiān)督學(xué)習(xí)革命有些類似。"
SEER在Facebook內(nèi)部可以用在廣泛的計(jì)算機(jī)視覺任務(wù)上,包括自動(dòng)生成圖像描述、幫助識(shí)別違反政策的內(nèi)容等等。SEER技術(shù)在Facebook以外的地方也可以在圖像和元數(shù)據(jù)有限的領(lǐng)域發(fā)揮作用,比如醫(yī)療成像。
Facebook的團(tuán)隊(duì)呼吁各方面做更多的工作,以推動(dòng)SEER進(jìn)入下一個(gè)發(fā)展階段。Facebook團(tuán)隊(duì)還開發(fā)了基于PyTorch的多用途庫(kù),可用于自我監(jiān)督學(xué)習(xí),庫(kù)名為「VISSL」,已開源,目的是鼓勵(lì)廣泛的AI社區(qū)使用該技術(shù)進(jìn)行測(cè)試。