去年,有個(gè)小孩讀遍人世所有的棋譜,辛勤打譜,苦思冥想,棋藝精進(jìn),4-1打敗世界冠軍李世石,從此人間無敵手。他的名字叫阿法狗。
今年,他的弟弟只靠一副棋盤和黑白兩子,沒看過一個(gè)棋譜,也沒有一個(gè)人指點(diǎn),從零開始,自?shī)首詷?,自己參悟?00-0打敗哥哥阿法狗。他的名字叫阿法元。
DeepMind這項(xiàng)偉大的突破,今天以Mastering the game of Go without human knowledge為題,發(fā)表于Nature,引起轟動(dòng)。知社特邀國(guó)內(nèi)外幾位人工智能專家,給予深度解析和點(diǎn)評(píng)。文末有DeepMind David Silver博士專訪視頻。特別致謝Nature和DeepMind提供訊息和資料授權(quán)。
Nature今天上線的這篇重磅論文,詳細(xì)介紹了谷歌DeepMind團(tuán)隊(duì)最新的研究成果。人工智能的一項(xiàng)重要目標(biāo),是在沒有任何先驗(yàn)知識(shí)的前提下,通過完全的自學(xué),在極具挑戰(zhàn)的領(lǐng)域,達(dá)到超人的境地。去年,阿法狗(AlphaGo)代表人工智能在圍棋領(lǐng)域首次戰(zhàn)勝了人類的世界冠軍,但其棋藝的精進(jìn),是建立在計(jì)算機(jī)通過海量的歷史棋譜學(xué)習(xí)參悟人類棋藝的基礎(chǔ)之上,進(jìn)而自我訓(xùn)練,實(shí)現(xiàn)超越。
可是今天,我們發(fā)現(xiàn),人類其實(shí)把阿法狗教壞了! 新一代的阿法元(AlphaGo Zero), 完全從零開始,不需要任何歷史棋譜的指引,更不需要參考人類任何的先驗(yàn)知識(shí),完全靠自己一個(gè)人強(qiáng)化學(xué)習(xí)(reinforcement learning)和參悟, 棋藝增長(zhǎng)遠(yuǎn)超阿法狗,百戰(zhàn)百勝,擊潰阿法狗100-0。
達(dá)到這樣一個(gè)水準(zhǔn),阿法元只需要在4個(gè)TPU上,花三天時(shí)間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個(gè)TPU上,花幾個(gè)月的時(shí)間,學(xué)習(xí)三千萬棋局,才打敗人類。
這篇論文的第一和通訊作者是DeepMind的David Silver博士, 阿法狗項(xiàng)目負(fù)責(zé)人。他介紹說阿法元遠(yuǎn)比阿法狗強(qiáng)大,因?yàn)樗辉俦蝗祟愓J(rèn)知所局限,而能夠發(fā)現(xiàn)新知識(shí),發(fā)展新策略:
This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge. Instead, it is able to learn tabula rasa from the strongest player in the world: AlphaGo itself. AlphaGo Zero also discovered new knowledge, developing unconventional strategies and creative new moves that echoed and surpassed the novel techniques it played in the games against Lee Sedol and Ke Jie.
DeepMind聯(lián)合創(chuàng)始人和CEO則說這一新技術(shù)能夠用于解決諸如蛋白質(zhì)折疊和新材料開發(fā)這樣的重要問題:
AlphaGo Zero is now the strongest version of our program and shows how much progress we can make even with less computing power and zero use of human data. Ultimately we want to harness algorithmic breakthroughs like this to help solve all sorts of pressing real world problems like protein folding or designing new materials.
美國(guó)的兩位棋手在Nature對(duì)阿法元的棋局做了點(diǎn)評(píng):它的開局和收官和專業(yè)棋手的下法并無區(qū)別,人類幾千年的智慧結(jié)晶,看起來并非全錯(cuò)。但是中盤看起來則非常詭異:
the AI’s open?ing choices and end-game methods have converged on ours — seeing it arrive at our sequences from first principles suggests that we haven’t been on entirely the wrong track. By contrast, some of its middle-game judgements are truly mysterious.
為更深入了解阿法元的技術(shù)細(xì)節(jié),知社采訪了美國(guó)杜克大學(xué)人工智能專家陳怡然教授。他向知社介紹說:
DeepMind最新推出的AlphaGo Zero降低了訓(xùn)練復(fù)雜度,擺脫了對(duì)人類標(biāo)注樣本(人類歷史棋局)的依賴,讓深度學(xué)習(xí)用于復(fù)雜決策更加方便可行。我個(gè)人覺得最有趣的是證明了人類經(jīng)驗(yàn)由于樣本空間大小的限制,往往都收斂于局部最優(yōu)而不自知(或無法發(fā)現(xiàn)),而機(jī)器學(xué)習(xí)可以突破這個(gè)限制。之前大家隱隱約約覺得應(yīng)該如此,而現(xiàn)在是鐵的量化事實(shí)擺在面前!
他進(jìn)一步解釋道:
這篇論文數(shù)據(jù)顯示學(xué)習(xí)人類選手的下法雖然能在訓(xùn)練之初獲得較好的棋力,但在訓(xùn)練后期所能達(dá)到的棋力卻只能與原版的AlphaGo相近,而不學(xué)習(xí)人類下法的AlphaGo Zero最終卻能表現(xiàn)得更好。這或許說明人類的下棋數(shù)據(jù)將算法導(dǎo)向了局部最優(yōu)(local optima),而實(shí)際更優(yōu)或者最優(yōu)的下法與人類的下法存在一些本質(zhì)的不同,人類實(shí)際’誤導(dǎo)’了AlphaGo。有趣的是如果AlphaGo Zero放棄學(xué)習(xí)人類而使用完全隨機(jī)的初始下法,訓(xùn)練過程也一直朝著收斂的方向進(jìn)行,而沒有產(chǎn)生難以收斂的現(xiàn)象。
阿法元是如何實(shí)現(xiàn)無師自通的呢? 杜克大學(xué)博士研究生吳春鵬向知社介紹了技術(shù)細(xì)節(jié):
之前戰(zhàn)勝李世石的AlphaGo基本采用了傳統(tǒng)增強(qiáng)學(xué)習(xí)技術(shù)再加上深度神經(jīng)網(wǎng)絡(luò)DNN完成搭建,而AlphaGo Zero吸取了最新成果做出了重大改進(jìn)。