目標(biāo)驅(qū)動(dòng)系統(tǒng)模式,能否成為實(shí)現(xiàn)人工通用智能(AGI)的關(guān)鍵?

我愛至尊寶
自從人工智能誕生以來,研究人員們一直試圖通過讓機(jī)器人與人類玩游戲來測(cè)試機(jī)器系統(tǒng)的智能水平。人們通常認(rèn)為,人類智慧的一大標(biāo)志,就在于具備創(chuàng)造性思考的能力——考慮多種多樣的可能性,并在制定短期決策的同時(shí)牢記長期目標(biāo)。

來源丨Forbes

作者丨Ron Schmelzer

編譯丨科技行者

自從人工智能誕生以來,研究人員們一直試圖通過讓機(jī)器人與人類玩游戲來測(cè)試機(jī)器系統(tǒng)的智能水平。人們通常認(rèn)為,人類智慧的一大標(biāo)志,就在于具備創(chuàng)造性思考的能力——考慮多種多樣的可能性,并在制定短期決策的同時(shí)牢記長期目標(biāo)。如果計(jì)算機(jī)能夠像人類一樣解決困難的游戲,那么它們肯定可以處理更為復(fù)雜的任務(wù)。從上世紀(jì)五十年代出現(xiàn)的早期跳棋機(jī)器人,到如今得到深度學(xué)習(xí)技術(shù)加持的新AI,智能系統(tǒng)已經(jīng)能夠在國際象棋、圍棋以及《DOTA》等游戲中擊敗全球頂尖人類選手。從這個(gè)角度來看,單純依靠解決謎題的能力來判斷機(jī)器智能水平的思路已經(jīng)過時(shí)。要衡量AI的極限,我們還得找到更靠譜的方法。

因此,組織開發(fā)AI方案時(shí)采取的一大核心模式,正是目標(biāo)驅(qū)動(dòng)型系統(tǒng)模式。與其他AI模式一樣,這種形式的AI能夠解決一系列原本需要人類認(rèn)知能力才能處理的常見問題。在這種特定模式下,機(jī)器的任務(wù)非常明確——找到解決問題的最佳途徑。具體問題可能是找到順利穿過迷宮的路徑、優(yōu)化供應(yīng)鏈或者優(yōu)化駕駛路線與空閑時(shí)間。無論實(shí)際需求如何,我們對(duì)AI系統(tǒng)的期望都是通過反復(fù)試驗(yàn)完成學(xué)習(xí),并找到解決問題的最佳(即使直觀度很低)方法。

強(qiáng)化學(xué)習(xí)與實(shí)驗(yàn)試錯(cuò)學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是目前使用比例不高、但卻最為有趣的機(jī)器學(xué)習(xí)形式之一。與監(jiān)督學(xué)習(xí)方法(人類首先對(duì)數(shù)據(jù)做出標(biāo)記,再由機(jī)器利用標(biāo)記數(shù)據(jù)完成學(xué)習(xí))或者無監(jiān)督學(xué)習(xí)方法(由機(jī)器自主嘗試對(duì)信息進(jìn)行分組與聚類,借此完成學(xué)習(xí))相反,強(qiáng)化學(xué)習(xí)主要通過實(shí)驗(yàn)試錯(cuò)的方式進(jìn)行學(xué)習(xí),并在迭代當(dāng)中不斷匹配環(huán)境反饋與總體目標(biāo),最終達(dá)成理想性能。

在不使用AI的情況下,組織需要依靠人類建立基于程序與規(guī)則的系統(tǒng),借此指導(dǎo)軟件與硬件系統(tǒng)的運(yùn)作流程。程序與規(guī)則雖然能夠有效管理資金、人員、時(shí)間以及其他多種資源類型,但往往存在嚴(yán)重的脆弱與僵化局限。這些系統(tǒng)的能力上限,被牢牢束縛在人類所制定規(guī)則的水平身上;換句話說,這類機(jī)器根本無法真正學(xué)習(xí),而只是將人類智能以規(guī)則的形式重新理解,并借此保證系統(tǒng)的正常工作。

另一方面,目標(biāo)學(xué)習(xí)型AI系統(tǒng)的規(guī)則數(shù)量非常有限,我們可以通過迭代幫助系統(tǒng)學(xué)會(huì)如何獨(dú)立工作。以此為基礎(chǔ),AI能夠全面優(yōu)化整個(gè)系統(tǒng),而不必依賴于人類設(shè)定的易碎規(guī)則。目標(biāo)驅(qū)動(dòng)型系統(tǒng)在這方面證明了自己的價(jià)值,表明系統(tǒng)完全能夠從極具挑戰(zhàn)性的問題當(dāng)中自行找到“隱藏規(guī)則”、并主效將其解決。也正因?yàn)槿绱?,目?biāo)驅(qū)動(dòng)型系統(tǒng)才在需要進(jìn)行資源優(yōu)化的領(lǐng)域當(dāng)中迸發(fā)出巨大的能量。

AI技術(shù)能夠有效實(shí)現(xiàn)場景模擬與資源優(yōu)化。通過將這種通用方法應(yīng)用于學(xué)習(xí)當(dāng)中,我們可以引導(dǎo)AI系統(tǒng)學(xué)會(huì)針對(duì)特定目標(biāo)或方案的優(yōu)化方向,并找出很多即使是擁有多年從業(yè)經(jīng)驗(yàn)的資深人類專家也難以發(fā)覺的解決方案。如此一來,盡管目標(biāo)驅(qū)動(dòng)型系統(tǒng)模式在普及度方面不及其他模式(例如識(shí)別、預(yù)測(cè)分析或者對(duì)話模式),但卻在眾多行業(yè)中顯示出巨大的發(fā)展?jié)摿Α?/p>

在金融領(lǐng)域,基于強(qiáng)化學(xué)習(xí)的目標(biāo)驅(qū)動(dòng)系統(tǒng)也在遍地開花。以“機(jī)器人咨詢”為例,這類方案通過自主學(xué)習(xí)發(fā)現(xiàn)眾多能夠滿足個(gè)人特定需求的儲(chǔ)蓄與投資計(jì)劃。目標(biāo)驅(qū)動(dòng)系統(tǒng)模式還能在控制交通信號(hào)燈系統(tǒng)方面發(fā)揮作用,找到最大程度保證流量通行能力的控制方式。供應(yīng)鏈與物流行業(yè)也在使用此類系統(tǒng)尋求打包及配送貨物的最優(yōu)方法。除此之外,訓(xùn)練物理機(jī)器人、創(chuàng)造可指揮機(jī)器人行走及跳躍的算法等也都是目標(biāo)驅(qū)動(dòng)系統(tǒng)模式的理想施展舞臺(tái)。

目標(biāo)驅(qū)動(dòng)系統(tǒng)甚至被應(yīng)用于電子商務(wù)與廣告宣傳當(dāng)中,負(fù)責(zé)幫助客戶找到最佳商品價(jià)格并自動(dòng)給出廣告展示區(qū)報(bào)價(jià)。目標(biāo)驅(qū)動(dòng)系統(tǒng)甚至在制藥行業(yè)中計(jì)算蛋白質(zhì)折疊,并找到發(fā)現(xiàn)疾病的創(chuàng)新方法。這些系統(tǒng)能夠選擇最佳試劑與反應(yīng)參數(shù),設(shè)計(jì)出所需產(chǎn)品,這種強(qiáng)大的能力也使其成為高度復(fù)雜的藥物或治療流程中的新型資產(chǎn)。

目標(biāo)驅(qū)動(dòng)型系統(tǒng)模式能否成為實(shí)現(xiàn)人工通用智能(AGI)的關(guān)鍵?

實(shí)驗(yàn)試錯(cuò)是種行之有效的好辦法,而且很可能適用于幾乎一切問題。值得一提的是,DeepMind是一家致力于將機(jī)器智能變成現(xiàn)實(shí)的機(jī)構(gòu)。該機(jī)構(gòu)已經(jīng)成功解決了一系列人們?cè)疽詾闄C(jī)器永遠(yuǎn)無法解決的難題。在他們看來,強(qiáng)化學(xué)習(xí)型目標(biāo)驅(qū)動(dòng)系統(tǒng)很可能成為解鎖機(jī)器人終極形態(tài)的關(guān)鍵——這將是一臺(tái)能夠?qū)W習(xí)一切知識(shí)、完成任何任務(wù)的機(jī)器。“通用智能”的概念類似于人類大腦,這意味著人工通用智能不再像當(dāng)前已經(jīng)存在的真實(shí)AI系統(tǒng)那樣只能專注于狹窄的單一學(xué)習(xí)任務(wù),而能夠?qū)W習(xí)到一切知識(shí)并將經(jīng)驗(yàn)心得從一個(gè)領(lǐng)域轉(zhuǎn)移到另一個(gè)領(lǐng)域——期間無需進(jìn)行大量重新訓(xùn)練。

DeepMind公司成立于英國,并于2014年接受了谷歌收購。他們希望突破目標(biāo)驅(qū)動(dòng)系統(tǒng)及其他AI模式的能力范圍,解決各類最復(fù)雜的機(jī)器智能問題。從設(shè)計(jì)專業(yè)級(jí)圍棋AI系統(tǒng)AlphaGo為起點(diǎn),DeepMind方面又迅速開發(fā)出AlphaZero——后者能夠從零開始學(xué)習(xí)任何游戲,并快速獲得遠(yuǎn)超一般人類的技術(shù)水平。以往AlphaGo需要幾個(gè)月才能學(xué)習(xí)完成的對(duì)弈技巧,如今基于強(qiáng)化學(xué)習(xí)的AlphaZero已經(jīng)能夠在短短幾天之內(nèi)完成。從零開始,以提高勝率作為唯一目標(biāo),AlphaZero在多達(dá)100款測(cè)試游戲中均將AlphaGo斬于馬下。

正如技術(shù)行業(yè)的從業(yè)者們樂于使用新興成果一樣,DeepMind也在努力將新的發(fā)現(xiàn)轉(zhuǎn)化為可能的實(shí)際應(yīng)用。AlphaZero使用當(dāng)時(shí)最尖端的技術(shù)創(chuàng)建而成,目前已經(jīng)被用于推動(dòng)神經(jīng)科學(xué)及行為心理學(xué)等領(lǐng)域的研究。此外,人們還在利用這些技術(shù)開發(fā)強(qiáng)大的通用學(xué)習(xí)算法,也許人工通用智能領(lǐng)域的真正突破再有幾年就會(huì)初現(xiàn)端倪。

對(duì)整個(gè)人工智能行業(yè)來說,機(jī)器學(xué)習(xí)可以算是發(fā)展過程中的十字路口。目前,使用范圍最廣的算法主要負(fù)責(zé)解決重要但相對(duì)簡單的問題。盡管機(jī)器已經(jīng)證明了自己有能力識(shí)別圖像、理解語音、發(fā)現(xiàn)模式、識(shí)別異常并做出預(yù)測(cè),但這類算法在精確完成任務(wù)之前仍然需要大量訓(xùn)練數(shù)據(jù)與狹窄的學(xué)習(xí)任務(wù)作為基礎(chǔ)。在這種情況下,機(jī)器學(xué)習(xí)需要耗費(fèi)大量數(shù)據(jù)以及可觀的計(jì)算資源。如果想要解決的任務(wù)足夠復(fù)雜,那么大家可能需要準(zhǔn)備PB甚至更高數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)、投入數(shù)十萬美元租用GPU密集型計(jì)算資源并等待長達(dá)數(shù)個(gè)月時(shí)間。很明顯,單靠這樣的暴力手段,我們永遠(yuǎn)不可能實(shí)現(xiàn)人工通用智能。

目標(biāo)驅(qū)動(dòng)型系統(tǒng)模式屬于當(dāng)前七大主流AI模式當(dāng)中使用頻率最低的一種,但卻也是最有可能突破數(shù)據(jù)與計(jì)算密集型樊籬的關(guān)鍵。好消息,是,如今目標(biāo)驅(qū)動(dòng)型系統(tǒng)正越來越多地在具有實(shí)際用例的項(xiàng)目中得到實(shí)施。憑借著光明的發(fā)展前景,它也成為其中最有趣、最值得期待的模式之一。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論