昨日,根據(jù)發(fā)表在《自然》上的一篇論文,DeepMind已經(jīng)來到了一個新的里程碑——他們開發(fā)的游戲AI AlphaStar在暴雪的即時戰(zhàn)略游戲《星際爭霸2》中達(dá)到了大師級水平,也就是超過了99.8%的人類玩家。
不僅如此,DeepMind還表示,在今年夏天和人類選手的對戰(zhàn)中,經(jīng)過持續(xù)改進(jìn)的AlphaStar實際上已經(jīng)讓競爭公平了一些。
首先,和之前不同,AlphaStar現(xiàn)在會訓(xùn)練使用游戲中的所有3個種族,其復(fù)雜性大大提高了。另外,DeepMind還調(diào)整了比賽模型,使得“戰(zhàn)爭迷霧”對AlphaStar同樣起作用,AlphaStar只能在獲取同樣信息的情況下和人類選手作戰(zhàn);最后,他們將AlphaStar的操作頻率限制在人類職業(yè)選手的水平,即每5秒鐘22次。
在重重限制之下,AI還是達(dá)到了《星際》在線競賽的最高級別,成為該游戲首個達(dá)到如此水平的AI系統(tǒng)。DeepMind表示,這一結(jié)果充分證明了AlphaStar背后那套“通用強(qiáng)化學(xué)習(xí)”模型的有效性。未來,這一模型有能力用于訓(xùn)練具備自主學(xué)習(xí)能力的機(jī)器人、自動駕駛汽車,以及創(chuàng)建更先進(jìn)的圖像和物體識別系統(tǒng)。
今年1月,DeepMind首次宣布,它開發(fā)的AlphaStar系統(tǒng)能夠在預(yù)先設(shè)定的場景中連續(xù)10場比賽擊敗頂級職業(yè)選手。打臉的是,在現(xiàn)場直播中,“他”最后一場輸給了職業(yè)選手Grzegorz“MaNa”Komincz。
此后,DeepMind一直在改進(jìn)這一系統(tǒng)。6月,DeepMind宣布,將開始接受邀請,迎接來自世界各地的優(yōu)秀人類選手的挑戰(zhàn)。在后續(xù)的比賽中,結(jié)果是驚人的:AlphaStar已經(jīng)是世界上最強(qiáng)的星際玩家之一。
盡管現(xiàn)在還有約0.2%的玩家可以擊敗“他”,但是大家公認(rèn),AlphaStar碾壓人類選手只不過是時間問題。
然而,時間是個大問題。
雖然DeepMind在許多領(lǐng)域代表了當(dāng)前AI的最高水平,持續(xù)給東家谷歌刷新榮譽(yù),但問題是,他們自始至終一直是個花錢的無底洞。從2016年至今,和AI算法越來越成熟對應(yīng)的,是DeepMind每年的虧損越來越多:
2016 年虧損額達(dá) 1.54 億美元;
2017 年虧損額達(dá) 3.41 億美元;
2018 年虧損額達(dá) 5.72 億美元。
作為一家納斯達(dá)克掛牌的公司,谷歌還愿意向這個無底洞砸錢多長時間,這是個問題。
當(dāng)然,DeepMind并不是沒有用。利用其在AI技術(shù)上的優(yōu)勢,DeepMind 曾開發(fā)一套算法,對谷歌數(shù)據(jù)中心的250萬臺服務(wù)器冷卻系統(tǒng)進(jìn)行了優(yōu)化,讓谷歌日常運營的能源成本下降了40%。不過,和DeepMind日常燒的錢比起來,節(jié)省的成本可以忽略不計。
英國《金融時報》曾報道過,谷歌母公司Alphabet已經(jīng)對DeepMind持續(xù)燒錢的行為產(chǎn)生了不滿。2018年,Alphabet AI部門曾督促DeepMind說明其商業(yè)模式,并向董事會說明資金流向。審查小組稱,DeepMind最終必須通過分享算法和數(shù)據(jù)或通過賺錢來證明其價值,否則不能保證Alphabet會一直支持他們的研究。