中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院副院長(zhǎng)、香港中文大學(xué)教授湯曉鷗教授在杭州云溪大會(huì)發(fā)表題目為《人工智能的云中漫步》的演講。
他表示,總結(jié)起來(lái)做人工智能的跟阿里的理念其實(shí)相似,阿里講“讓天下沒有難做的生意”,做人工智能是講“讓天下沒有難吹的牛”。
他還分享了商湯科技在計(jì)算機(jī)視覺方面的研究成果,比如如何分辨云和雪和地面的物體,用人工智能、圖像識(shí)別技術(shù),可以做的比人更精準(zhǔn),他舉例到,十一的時(shí)候很多人去旅游、去登山,山上可以看到半山腰有些云,登到山上以后發(fā)現(xiàn)進(jìn)到云里就變成霧了,拍照就不太清晰,我們有個(gè)算法可以幫你把霧去掉。
湯曉鷗還介紹了目前有關(guān)城市大腦的應(yīng)用實(shí)踐。
1、人臉識(shí)別已經(jīng)可以做到?jīng)]有任何人工配合的情況下實(shí)時(shí)的識(shí)別人物、抓捕犯人,在廣州、深圳、重慶等幾十個(gè)城市都已經(jīng)開始幫助公安解決了大量的案件,抓了很多犯人。
2、人群,現(xiàn)在可以在上海外灘這樣的公共場(chǎng)合,實(shí)時(shí)判斷每一個(gè)點(diǎn)的人群的密度、人數(shù),進(jìn)來(lái)多少人,出去多少人,還有人流有沒有逆行等特殊情況,這樣可以防止踩踏事件。
3、視頻結(jié)構(gòu)化,可以把視頻里面所有的人、車、非機(jī)動(dòng)車、自行車檢測(cè)、追蹤,識(shí)別出來(lái)屬性,比如這個(gè)人穿什么衣服,男的女的,多大年齡,車什么牌子,哪年生產(chǎn)的,這些東西都從視頻處理成文本文件,你可以進(jìn)行對(duì)應(yīng)物體的快速搜索。
以下是湯曉鷗教授演講實(shí)錄:
湯曉鷗:我先幫大會(huì)發(fā)一個(gè)通知,今天午飯取消了,改下午茶了,大家不著急, 慢慢聽吧。
非常感謝阿里的邀請(qǐng),尤其是做壓軸演講,我跟阿里說(shuō)太客氣了,壓軸這么重要的演講應(yīng)該馬總做,我做個(gè)簡(jiǎn)單的開場(chǎng)演講就差不多了,后來(lái)他們堅(jiān)持我在午飯時(shí)間做壓軸。
另外他們還告訴我說(shuō)今天有大概一千萬(wàn)人在網(wǎng)上看直播,所以我非常緊張,我就做了個(gè)一百頁(yè)的PPT,我想十萬(wàn)人一頁(yè)也對(duì)得起觀眾了,但是組委會(huì)就非常緊張,一直問我說(shuō)40分鐘講一百頁(yè),會(huì)不會(huì)超時(shí),我就跟他們保證說(shuō),放心吧,一定會(huì)的。昨天奧委會(huì)的客人講到奧運(yùn)要更快更高更強(qiáng),那云棲大會(huì)的特點(diǎn)就是要更長(zhǎng)。
前些時(shí)候我跟馬化騰還有一些學(xué)者在清華做了一次對(duì)話,我當(dāng)時(shí)當(dāng)著馬化騰先生的面提了一些意見。今天我到了阿里這里,我想我也不會(huì)客氣的,作為學(xué)者,我們就是要敢于提意見。所以當(dāng)時(shí)我敢于當(dāng)面給Pony(馬化騰)提意見,今天(到了阿里這)我就準(zhǔn)備在背后再給Pony提一些意見(此處玩笑,請(qǐng)勿當(dāng)真)。
現(xiàn)在言歸正傳,今天我講的題目是《人工智能的云中漫步》。人工智能其實(shí)我也聽了很多人講,我自己也講了很多,我覺得總結(jié)起來(lái)做人工智能的跟阿里的理念其實(shí)非常相似。阿里是講“讓天下沒有難做的生意”,做人工智能的是講“讓天下沒有難吹的牛”:)。
這兩天大會(huì)聽大家講了半天人工智能,講了半天的云,一直到今天為止,一直到現(xiàn)在為止,我們其實(shí)一直沒有看到真正的云,現(xiàn)在我給大家看一下。
這是高分一號(hào)衛(wèi)星拍的云圖。其實(shí)我們發(fā)射衛(wèi)星拍攝這些圖像,是為了分析地面上的情況。高分一號(hào)拍出來(lái)的圖,有云有雪,遮蓋了地貌,如何分辨云和雪和地面的物體,我們用人工智能、圖像識(shí)別技術(shù),可以做的比人更精準(zhǔn)。大家可以看到褐色的是雪,白色的云,綠色的是物體。我們識(shí)別的這些云以后,還能用算法把這些云去掉了,這樣衛(wèi)星就可以識(shí)別云下面的東西。
十一的時(shí)候我想很多人去旅游、去登山,山上可以看到半山腰有些云,登到山上以后發(fā)現(xiàn)進(jìn)到云里就變成霧了,拍照就不太清晰,我們有個(gè)算法可以幫你把霧去掉。還有你航拍的時(shí)候,有一些云、霧,我們也可以用算法實(shí)時(shí)的在視頻里把它去掉。
大家想我們杭州好像很少有霧霾,這個(gè)跟杭州有什么關(guān)系?確實(shí)也沒什么關(guān)系,當(dāng)年做的時(shí)候,是專門給北京做的,給北京量身定制的,奧運(yùn)會(huì)時(shí)直接把霧去掉了,藍(lán)天白云的,我們把這個(gè)叫商湯藍(lán)。
這個(gè)算法,這個(gè)應(yīng)用我們已經(jīng)把它做到微博相機(jī)上成為產(chǎn)品了,去年就已經(jīng)上線了。
如果這么一直講下去,阿里的人可能急了,我們是阿里云,不是阿里氣象局。當(dāng)然,我們講的是虛擬云,云計(jì)算,我們其實(shí)在不知不覺間已經(jīng)生活在云中間了,我們生活在物理云下面,實(shí)際上我們也生活在虛擬云上面。今天就給大家講你是如何在云上生活一天的,大概要講8個(gè)小時(shí)。
一開始,早上起來(lái)要化妝。就是拿著手機(jī)可以當(dāng)鏡子,可以做美顏,換衣服,用各種特效效果看一整天該穿什么。這個(gè)化妝下來(lái)大概的時(shí)間從8點(diǎn)開始的,最后結(jié)束了以后,就到9點(diǎn)了,一般女孩的話大概也確實(shí)需要一個(gè)小時(shí)化妝,最后通過美顏、增強(qiáng)現(xiàn)實(shí)(AR)這些特效,不知道為什么最后這張圖成兔女郎了。
然后接著這些AR技術(shù)還可以應(yīng)用在其它的場(chǎng)景上,比如社交場(chǎng)景應(yīng)用,你們現(xiàn)在看到的這些拍照APP,直播APP,有很多AR特效,其實(shí)絕大部分都是基于我們提供的人工智能技術(shù),比如人臉的106點(diǎn)和最新的240點(diǎn)的追蹤分析,是我們定義的行業(yè)標(biāo)準(zhǔn)。
我們不但做人臉、手勢(shì)識(shí)別,現(xiàn)在已經(jīng)做到三維的SLAM特效了,大家可能看過這種特效,游戲里面可以把虛擬物體加到這個(gè)現(xiàn)實(shí)世界里面,但是以前看的都是在一臺(tái)很強(qiáng)的計(jì)算機(jī)上算出來(lái)的,現(xiàn)在我們這個(gè)是在手機(jī)端,手機(jī)上實(shí)時(shí)算出來(lái),這是非常難的事情。
還有你剛才為什么花了一個(gè)小時(shí)換衣服呢?要一件一件換,不合適換另一件,很麻煩。我們實(shí)際上可以用計(jì)算機(jī)幫你換衣服,計(jì)算機(jī)生成衣服。這個(gè)用什么做的呢?用基于自然語(yǔ)言處理的圖像圖像生成技術(shù),比如說(shuō)我要一只小鳥,有白色的胸脯,灰色的頭部,就生成這樣的小鳥;再要一只紅色的小鳥,黑色的翅膀,就再對(duì)應(yīng)生成出來(lái)圖像。這都是計(jì)算機(jī)自動(dòng)的根據(jù)你的語(yǔ)言描述生成的,或者是花也一樣,可以生成一些不同的花。
更實(shí)用的應(yīng)用是什么呢?是衣服。我可以說(shuō)我想穿一件淺藍(lán)色的連衣裙就換成淺藍(lán)色的連衣裙,或者黑色無(wú)袖外套就給你換上了,這樣換衣服的速度非???,幾分鐘就完事了。
十點(diǎn)鐘要出門了。出門走路的時(shí)候,可能沒有什么感覺,但實(shí)際上每個(gè)城市里,剛才講都有幾十萬(wàn)臺(tái)甚至百萬(wàn)臺(tái)相機(jī),這些相機(jī)做的事情是把人、車,物體都檢測(cè)、識(shí)別、分析出來(lái)。
今天講了很多關(guān)于城市大腦的問題。
我們要解決這些問題還是需要核心技術(shù),來(lái)一樣一樣完成這些任務(wù)。首先我們?nèi)四樧R(shí)別,已經(jīng)可以做到?jīng)]有任何人工配合的情況下實(shí)時(shí)的識(shí)別人物、抓捕犯人,在廣州、深圳、重慶等幾十個(gè)城市都已經(jīng)開始幫助公安解決了大量的案件,抓了很多犯人。
人群,我們可以在上海外灘這樣的公共場(chǎng)合,實(shí)時(shí)判斷每一個(gè)點(diǎn)的人群的密度、人數(shù),進(jìn)來(lái)多少人,出去多少人,還有人流有沒有逆行等特殊情況,這樣可以防止踩踏事件。
再就是視頻結(jié)構(gòu)化,可以把視頻里面所有的人、車、非機(jī)動(dòng)車、自行車檢測(cè)、追蹤,識(shí)別出來(lái)屬性,比如這個(gè)人穿什么衣服,男的女的,多大年齡,車什么牌子,哪年生產(chǎn)的,這些東西都從視頻處理成文本文件,你可以進(jìn)行對(duì)應(yīng)物體的快速搜索。
所以其實(shí)你在走在路上的時(shí)候,所有的這些信息都是可以記錄下來(lái)的。所以以后如果做壞事會(huì)越來(lái)越難。大家如果現(xiàn)在還有什么事沒做趕緊做,以后再做相對(duì)會(huì)困難很多了。
12點(diǎn)鐘大家可能出去跟朋友玩了。拍一些自拍照,其實(shí)拍的時(shí)候,就是用了我們的一些視頻處理的技術(shù),比如把一個(gè)手機(jī)拍照拍成單反的效果,這也是我們做的技術(shù),先拍照后聚焦,拍完點(diǎn)什么地方就聚焦到什么地方。另外在拍之前,我就想看看單反預(yù)覽效果是什么樣子的,所以這時(shí)候你在動(dòng)的時(shí)候,效果就要顯示出來(lái),這就是要實(shí)時(shí)視頻級(jí)的處理。視頻上能夠?qū)崟r(shí)把深度信息算出來(lái),預(yù)覽做出來(lái)。這些技術(shù)已經(jīng)在OPPO R9S和R11用了很長(zhǎng)時(shí)間了,包括里面的人臉技術(shù)都是使用我們的技術(shù)支持。
還有手機(jī)上可以做一些智能相冊(cè)的特效、處理。計(jì)算機(jī)識(shí)別你的照片內(nèi)容,然后根據(jù)內(nèi)容打標(biāo)簽、分類管理。
這些特效,大家現(xiàn)在手機(jī)上可能節(jié)日期間也會(huì)用到一些這些應(yīng)用,比如把卡通圖片里的臉換成自己小孩的臉。但是我給你演示這些是我們十年前做的,我們十年前已經(jīng)做到這個(gè)效果了,當(dāng)然那個(gè)時(shí)候是在計(jì)算機(jī)上做出來(lái)的,現(xiàn)在把這些技術(shù)可以做到手機(jī)上了。
我們跟小米合作做了小米智能相冊(cè),跟華為合作做了華為智能相冊(cè),跟微博合作,把大V的照片管理做起來(lái)。
兩點(diǎn)多鐘,你照完相了,吃完飯回來(lái),對(duì)照片想處理,做一些新的藝術(shù)化的濾鏡。
感覺我們公司的人基本不干活,整天在玩手機(jī)。
處理出來(lái)這些特效,這是在圖像上做成的特效,其實(shí)這是我們兩年前做的工作,現(xiàn)在滿大街都是。我們現(xiàn)在又做了新的工作,是視頻上實(shí)時(shí)也可以做出特效,而且可以做出各種特效。
4點(diǎn)鐘,大家可以出去玩一玩,可以做一些體育運(yùn)動(dòng)了,大家可以想像一下,我們公司4點(diǎn)鐘就下班了,開始去玩了。
這個(gè)就是我們?cè)趯?shí)時(shí)的把人體的整個(gè)結(jié)構(gòu)都能跟蹤出來(lái),大家可能覺得這個(gè)不是什么新鮮事,因?yàn)閹啄昵癒inect體感攝像頭就能做的,但是原來(lái)是一個(gè)昂貴的特殊設(shè)備做的,設(shè)備有兩個(gè)攝像頭還有激光投影,我們是用一個(gè)幾塊錢的單個(gè)webcam,可以實(shí)時(shí)做這件事情,所以這個(gè)應(yīng)用可以在各種的智能家居、自動(dòng)駕駛,各種地方做到實(shí)用。
再往下用這些技術(shù)還可以做體育運(yùn)動(dòng)的分析。昨天講到奧委會(huì)跟阿里合作,我們也在跟國(guó)家體育總局做合作。這個(gè)大家可以看到我們用智能分析的方法跟蹤運(yùn)動(dòng)員的動(dòng)作。然后也可以幫助運(yùn)動(dòng)員做康復(fù)的訓(xùn)練。所以昨天奧委會(huì)朋友講,奧運(yùn)會(huì)要做到更高、更快、更強(qiáng)、更聰明,那其實(shí)我現(xiàn)在給你講的,就是如何做到更聰明。
同時(shí)我們可以用跟蹤的算法,然后把整個(gè)畫面分析清楚,用自然語(yǔ)言描述視頻里運(yùn)動(dòng)員到底在干什么。
然后大家下班的時(shí)候要坐車回家了。這時(shí)候可以乘坐由我們自動(dòng)駕駛技術(shù)支持的汽車。自動(dòng)駕駛里面我們做了六個(gè)大的方向,三十幾項(xiàng)技術(shù),目前跟全球前五大車企其中一個(gè)頂級(jí)的廠商進(jìn)行合作。
下面看一下刷臉支付場(chǎng)景,因?yàn)槟阆掳嗔?,總是要買東西的??梢杂盟⒛樦Ц叮⒗餆o(wú)人店可以用這些技術(shù)。還有一些門禁系統(tǒng),酒店,機(jī)場(chǎng)等等應(yīng)用,所有這些地方其實(shí)現(xiàn)都在用我們做的人臉識(shí)別技術(shù),現(xiàn)在的準(zhǔn)確率從當(dāng)年第一次超過人眼睛極限的時(shí)候,從97.5%,到99.15%,到99.55%,一直做到萬(wàn)分之一,十萬(wàn)分之一,百萬(wàn)分之一,今天我們?cè)缇妥龅絻|分之一,實(shí)際上已經(jīng)達(dá)到了八位數(shù)密碼的精度,可以做各種應(yīng)用了。
到了晚上,這個(gè)視頻里,我們分析人的運(yùn)動(dòng)方向。這些對(duì)整個(gè)分析視頻的結(jié)構(gòu)也是非常重要的技術(shù)。
我們綜合前面這些技術(shù),可以把整個(gè)這個(gè)視頻場(chǎng)景分析全部做出來(lái)??梢钥吹阶笙陆菚?huì)講你在什么地方,什么樣的活動(dòng),每個(gè)人是哪一個(gè)人,哪一個(gè)演員,穿的什么衣服,后面有什么物體,騎的什么摩托車,所有這些結(jié)構(gòu)化都可以做出來(lái),大家網(wǎng)上看到很多公司用這兩段視頻結(jié)果演示做宣傳,這個(gè)原創(chuàng)是我們做的,視頻分析演示也是我們做的。這是《歡樂頌》,本來(lái)想做一個(gè)更新的,想用《我的前半生》,后來(lái)一想我的前半生也快過去了,還是做《歡樂頌》了。
剛才很多是我們已經(jīng)落地的產(chǎn)品,是由我們的400多家合作廠商真正落地來(lái)用了的。下面還有一些新的技術(shù)突破,明天就可以馬上用出去,就是因?yàn)檫@些新的技術(shù)突破,才繼續(xù)推動(dòng)做出來(lái)新的應(yīng)用。
首先講運(yùn)動(dòng)監(jiān)測(cè)。還是回到奧運(yùn)會(huì)這個(gè)應(yīng)用,實(shí)際上我們可以在體育的視頻里面把這些射門的鏡頭提取出來(lái),兩個(gè)小時(shí)的比賽可以很快縮到幾分鐘,可以完全自動(dòng)做的。
或者田徑比賽,真的很漫長(zhǎng)的,但是精彩的鏡頭,百米、跳高那幾個(gè)鏡頭,就是那幾塊,我們可以自動(dòng)的識(shí)別提取出來(lái),同時(shí)你也可以進(jìn)行描述,要求怎么樣提取出來(lái),你感興趣的部分。
然后還可以進(jìn)行搜索。比如你要搜索音樂表演的視頻,戰(zhàn)爭(zhēng)場(chǎng)面的視頻,都可以自動(dòng)搜索出來(lái)。
或者你要想做電影自動(dòng)理解。比如可以明白這個(gè)鏡頭到底是災(zāi)難的鏡頭還是浪漫的鏡頭,用我們前面說(shuō)的技術(shù)來(lái)分析整個(gè)場(chǎng)景到底是什么樣的,紅線代表浪漫的,藍(lán)色是災(zāi)難的,實(shí)時(shí)分析鏡頭?;蛘哒f(shuō)他們?cè)诔臣苓€是浪漫的鏡頭。都可以實(shí)時(shí)分析出來(lái)。
可以用自然語(yǔ)言來(lái)描述來(lái)搜索電影的場(chǎng)景。就是你可以說(shuō)一段話,它就把那一段鏡頭的場(chǎng)景把它給搜出來(lái),同時(shí)把所有人,物體和各種東西都檢測(cè)出來(lái)。
還有對(duì)體育場(chǎng)景進(jìn)行分析,就是說(shuō)可以直接對(duì)運(yùn)動(dòng)視頻進(jìn)行描述,自動(dòng)用自然語(yǔ)言描述到底發(fā)生了什么事情,這個(gè)時(shí)候其實(shí)我們就不需要播音員了,機(jī)器自動(dòng)分析運(yùn)動(dòng)場(chǎng)景做什么,直接給大家講解,就像一個(gè)專業(yè)播音員一樣。
還有圖像的分割,以前大家講圖像分割都是前景和背景分開,現(xiàn)在做的分割是不但把前景和背景分開,而且還可以像素級(jí)地把前景的每一個(gè)物體分開,前面有很多跳舞的,每一個(gè)人都標(biāo)注出來(lái),每一個(gè)物體,和背景都分割開來(lái),就可以做很多很多各種各樣的特效。
還有就是判斷兩個(gè)人的關(guān)系,如果你在網(wǎng)上放了照片,我們根據(jù)你這兩個(gè)人的姿勢(shì)和兩個(gè)人的表情,分析出來(lái)你們兩個(gè)人的關(guān)系。這個(gè)有什么用呢?比如說(shuō)你跟一個(gè)很有錢的人照相,分析的結(jié)果是很友好,說(shuō)明你認(rèn)識(shí)有錢人這樣可能你的可信度就增高了,我就可以把錢借給你了,可以做征信的一個(gè)維度。
還有我小孩的照片,他女朋友比較多,想知道哪個(gè)是他真正的女朋友,可以分析識(shí)別一下,后來(lái)發(fā)現(xiàn)每一個(gè)都是,他跟我一樣對(duì)每一個(gè)都很專一。
我給學(xué)生發(fā)了一些比較難處理的關(guān)系的照片,比如銘銘6個(gè)月的時(shí)候跟他第一個(gè)女朋友的照片,第一個(gè)關(guān)系分析的還可以,第二個(gè)也分析出來(lái)了。后面兩張照片就難多了,最后基本上搞不清楚他在干什么了,當(dāng)然最后這張的這種探索精神還是值得敬佩的。
我們以前在微軟的時(shí)候,出去玩的時(shí)候照了照片,我也拿過來(lái)讓機(jī)器分析,這是我的兩個(gè)同事照的我們?cè)诰耪瘻系恼掌?,機(jī)器分析出來(lái)的結(jié)果不明白真正的含義是什么?(這兩個(gè)男同事的背影合影)實(shí)際的含義是我們?cè)谘堇[《斷背山》這個(gè)電影。下面這幾張就更難的讓機(jī)器分析了。一個(gè)人的背影還好,兩個(gè)人也可以理解,出來(lái)三個(gè)人的背影,機(jī)器就糊涂了,到四個(gè)人的時(shí)候可更糊涂了,五個(gè)人就更接受不了了。所以這種對(duì)機(jī)器來(lái)說(shuō)很難理解,對(duì)我們來(lái)說(shuō),我們是很開心的可以笑出來(lái)。我想在這里,提出一個(gè)新研究課題,提出一個(gè)挑戰(zhàn)吧,就叫XO Challenge吧,就是我們?cè)趺茨茏寵C(jī)器笑?就是你怎么能讓機(jī)器識(shí)別一張圖像是搞笑的,我們?nèi)丝梢苑直?,機(jī)器能不能做到?我希望我們研究人員以后可以試試,看看我們是不是能夠讓機(jī)器看到這些圖像,也會(huì)會(huì)心一笑。
最后我用一個(gè)我們研究的例子來(lái)講一下原創(chuàng)的難度,我剛才講的每一個(gè)技術(shù)其實(shí)都不是那么簡(jiǎn)單的,都不是說(shuō)一拍腦袋一下就做出來(lái)的,有非常多的事情要做的,這個(gè)例子是圖像超分辨率增強(qiáng),就是我們?cè)趺窗岩粡垐D放的很大,能夠恢復(fù)的很清晰。這是美國(guó)的一個(gè)電影,F(xiàn)BI在抓人。最后他抓到一張很模糊的圖像圖像放大做成清晰的圖像,當(dāng)時(shí)覺得FBI很厲害,非常棒。我們用傳統(tǒng)的技術(shù)也試圖把這個(gè)圖像恢復(fù)一下。當(dāng)時(shí)希望把小圖恢復(fù)成這樣,用傳統(tǒng)算法做了最大的努力,最后的結(jié)果是這樣,所以我們很不滿意。
這個(gè)應(yīng)用有什么用處呢?實(shí)際上是把可以進(jìn)行圖像、視頻放大,可以把普通的電視信號(hào)變成4K的高清信號(hào),8K的高清信號(hào),這是我們最新做出來(lái)的結(jié)果,可以看到如果直接放大是很模糊的,現(xiàn)在用新的結(jié)果基本上達(dá)到高清的效果,已經(jīng)達(dá)到實(shí)用的階段。
在日本有個(gè)工作叫WAIFU2X,他們用我們的技術(shù)做了演示,就是把太太(二次元妹子)放大兩倍,然后用這個(gè)圖,最后的效果非常清晰。
超分辨率這個(gè)工作是很重要的,因?yàn)橛泻芏鄨?chǎng)合有應(yīng)用。所以谷歌、推特也對(duì)這個(gè)非常重視,他們?cè)?016年連著發(fā)四篇文章做這個(gè)工作。按照以往,大家可能都是跟著谷歌后面做,而我們不是,我們發(fā)表了全球第一篇用深度學(xué)習(xí)超分辨率文章,那是2014年,早于谷歌兩年,2015年又發(fā)了一篇,2016年兩篇,2017發(fā)了三篇,我們不但是做的最早的,第一個(gè)做的,而且也是目前做的最好的。所以是谷歌在跟著我們做!
做這一項(xiàng)工作要想做成功,牽扯的工作是非常多的,有各種各樣的技術(shù),涉及到十幾篇幾十篇的文章才能做到現(xiàn)在的效果。
所以現(xiàn)在我們已經(jīng)可以做到實(shí)用,在街頭上拍的照片,模糊照片可以真正看到罪犯的樣子。
而且已經(jīng)給深圳的公安用了,公安用手機(jī)可以拍人的照片,很模糊的圖像可以在庫(kù)里搜索,實(shí)時(shí)抓捕罪犯。
經(jīng)過我們的努力,所有這些加一起,從原來(lái)這個(gè)效果現(xiàn)在可以做到這個(gè)效果了。
所以每一項(xiàng)工作后面都有大量的工作需要做的,都有大量的頂級(jí)文章。我們不是剛剛這幾年人工智能熱了才開始做的,而是十五六年的積累,04年到08年我們統(tǒng)計(jì)了一下在兩個(gè)頂級(jí)的會(huì)議上,我們一個(gè)實(shí)驗(yàn)室發(fā)了57篇論文,而MIT全校是51篇,伯克利大學(xué)是33篇,牛津大學(xué)是45篇;我們十幾年在頂級(jí)會(huì)議文章數(shù)量上一直是在全球領(lǐng)先的。在過去兩年,三個(gè)頂級(jí)會(huì)議上我們統(tǒng)計(jì)了數(shù)據(jù),微軟最多是發(fā)了124篇,CMU是86篇,我們排第三是76篇,是亞洲唯一的進(jìn)入前十名的。所以我們是有這種強(qiáng)大的人才和經(jīng)驗(yàn)的積累,才做出剛才這些真正落地的產(chǎn)品。
在2011年到2013年深度學(xué)習(xí)剛剛開始的時(shí)候,這兩個(gè)頂級(jí)會(huì)議上,29篇文章我們占了14篇,全球的一半,這里面16項(xiàng)技術(shù),都是我們第一個(gè)真正成功的把深度學(xué)習(xí)應(yīng)用到這些技術(shù)領(lǐng)域。
所以我們是深度學(xué)習(xí)的原創(chuàng)技術(shù)公司,是真正做平臺(tái)的,和臉書的Torch、谷歌的TensorFlow一樣,我們做了自己的原創(chuàng)平臺(tái)Parrots,來(lái)在這上面開發(fā)我們深度學(xué)習(xí)相關(guān)的技術(shù)。
7月份的時(shí)候,我很榮幸作為國(guó)際期刊IJCV主編,召集了夏威夷IJCV Night晚宴會(huì)議,計(jì)算機(jī)視覺領(lǐng)域很多頂級(jí)學(xué)者都參加了我們的這個(gè)晚宴。我們?cè)隈R上10月份,在威尼斯的ICCV大會(huì)上會(huì)再開一次這樣的國(guó)際頂級(jí)學(xué)者的·聚會(huì),歡迎大家過來(lái)參加。
最后,大家看一下這一頁(yè)上的這些圖像的一個(gè)共同的點(diǎn)是什么?米開朗基羅、貝多芬、梵高、喬布斯、蘭博基尼的設(shè)計(jì)首席設(shè)計(jì)師,這些人有一個(gè)共同特點(diǎn),其實(shí)就是兩個(gè)字:原創(chuàng)。中國(guó)最缺的就是原創(chuàng),我們現(xiàn)在做的就是原創(chuàng),做原創(chuàng)是非常難的一件事情,但是不做原創(chuàng)一個(gè)國(guó)家是永遠(yuǎn)也發(fā)展不起來(lái)的。
我們?cè)谧鲭娪胺治龅臅r(shí)候,看到這些老的電影,《上甘嶺》《英雄兒女》《小兵張嘎》,我們團(tuán)隊(duì)的120個(gè)博士很像當(dāng)年《上甘嶺》上最后一個(gè)加強(qiáng)連,一個(gè)博士的加強(qiáng)連。但是以我們這一個(gè)加強(qiáng)連的兵力看起來(lái)很強(qiáng)大,但是對(duì)手是谷歌、微軟、IBM這樣強(qiáng)大的對(duì)手,我們是需要援軍的,需要炮火支援,用《英雄兒女》里面王成的一句話,就是向我開炮,我們這代人好好努力,我相信我們下一代人,小兵湯嘎們就會(huì)比上一代的小兵張嘎的生活過的更好。