“深度學(xué)習(xí)所需的大規(guī)模樣本數(shù)據(jù)對(duì)于算力產(chǎn)生巨大需求,但近日美國(guó)麻省理工學(xué)院等研究機(jī)構(gòu)的報(bào)告顯示,深度學(xué)習(xí)正在逼近算力極限,而提升算力所需的硬件、成本和對(duì)于環(huán)境的影響正變得越來(lái)越難以承受……”
美國(guó)麻省理工學(xué)院、安德伍德國(guó)際學(xué)院和巴西利亞大學(xué)的研究人員在最近的一項(xiàng)研究中發(fā)現(xiàn),深度學(xué)習(xí)的進(jìn)步強(qiáng)烈地依賴于計(jì)算的增長(zhǎng)。其結(jié)論顯示,訓(xùn)練模型的進(jìn)步取決于算力的大幅提高,具體來(lái)說(shuō),計(jì)算能力提高10倍相當(dāng)于3年的算法改進(jìn)成果。大量數(shù)據(jù)和算力是促進(jìn)人工智能發(fā)展的重要因素,但是研究人員認(rèn)為,深度學(xué)習(xí)正在逼近算力極限。換言之,算力提高的背后,其實(shí)現(xiàn)目標(biāo)所隱含的計(jì)算需求——硬件、環(huán)境和金錢(qián)等成本將變得無(wú)法承受。
研究人員表示,深度學(xué)習(xí)急需革命性的算法才能讓AI更有效地學(xué)習(xí),并越來(lái)越像人類。那么,為何深度學(xué)習(xí)算法十分依賴算力的增長(zhǎng),現(xiàn)在算力的極限在哪里,如何突破?除了算力,深度學(xué)習(xí)還能否依靠其他方式改進(jìn)算法性能?革命性算法的標(biāo)準(zhǔn)是什么?
大規(guī)模樣本數(shù)據(jù)催生計(jì)算需求
“深度學(xué)習(xí)本質(zhì)上是基于統(tǒng)計(jì)的科學(xué),所以大規(guī)模的樣本數(shù)據(jù)對(duì)于深度學(xué)習(xí)的效果至關(guān)重要。更大規(guī)模和更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型已經(jīng)被證明非常有效,并在產(chǎn)品中有廣泛的使用,同時(shí)這也讓深度學(xué)習(xí)對(duì)計(jì)算能力有著更大要求和消耗。”遠(yuǎn)望智庫(kù)AI事業(yè)部部長(zhǎng)、圖靈機(jī)器人首席戰(zhàn)略官譚茗洲表示。
人工智能設(shè)計(jì)之初,并沒(méi)有考慮節(jié)能原則,只要有足夠的算力和電力,算法就可以一直跑下去。
2019年6月,美國(guó)馬薩諸塞州大學(xué)阿默斯特分校的一份報(bào)告顯示,訓(xùn)練和搜索某種模型所需的電量涉及約626000磅二氧化碳排放量,這相當(dāng)于美國(guó)普通汽車使用壽命內(nèi)排放量的近5倍。此外,優(yōu)越的靈活性使深度學(xué)習(xí)可以很好地建立不同的模型,超越專家的模型,但也帶來(lái)昂貴的算力成本。深度學(xué)習(xí)需要的硬件負(fù)擔(dān)和計(jì)算次數(shù),背后消耗的是巨額資金。
一份業(yè)內(nèi)報(bào)告顯示,華盛頓大學(xué)的Grover假新聞檢測(cè)模型兩周內(nèi)培訓(xùn)費(fèi)用約為25000美元。另?yè)?jù)報(bào)道,著名人工智能非營(yíng)利組織OpenAI花費(fèi)高達(dá)1200萬(wàn)美元訓(xùn)練其GPT-3語(yǔ)言模型,而GPT-2語(yǔ)言模型,每小時(shí)訓(xùn)練花費(fèi)則達(dá)到256美元。
改進(jìn)算法降低對(duì)計(jì)算平臺(tái)要求
實(shí)際上,算力一直在提高。OpenAI一項(xiàng)研究表明,自2012年以來(lái),每16個(gè)月將AI模型訓(xùn)練到ImageNet(一個(gè)用于視覺(jué)對(duì)象識(shí)別軟件研究的大型可視化數(shù)據(jù)庫(kù))圖像分類中,相同性能模型所需的計(jì)算量就減少了一半;谷歌的Transformer架構(gòu)超越了其之前開(kāi)發(fā)的seq2架構(gòu),計(jì)算量減少了61倍;DeepMind的AlphaZero與該系統(tǒng)的前身AlphaGoZero的改進(jìn)版本相匹配,其計(jì)算量也減少了8倍。
有網(wǎng)友提出,現(xiàn)在的硬件算力提升有些誤區(qū),不一定非得在單位面積上堆更多的晶體管,我們需要更好的框架來(lái)支持底層計(jì)算條件及相應(yīng)的硬件改進(jìn)。理想情況下,用消費(fèi)級(jí)的GPU就能運(yùn)行很多深度模型。
“人們對(duì)深度學(xué)習(xí)的性能或結(jié)果的要求越來(lái)越高,隨之對(duì)于算力的需求也越來(lái)越大。要讓算力增長(zhǎng)或突破,從算法層面,首先可以優(yōu)化并行計(jì)算,有效利用多機(jī)多核的計(jì)算能力,靈活滿足各種需求。同時(shí),相對(duì)于傳統(tǒng)的基于單機(jī)編寫(xiě)的程序,如果改寫(xiě)為多機(jī)多核的并行程序,能夠充分利用其CPU和GPU(或AI芯片)的資源,將使運(yùn)行效率大幅度提升。”西安電子科技大學(xué)電子工程學(xué)院教授吳家驥表示。
除了算力,深度學(xué)習(xí)本身還可通過(guò)哪些方式改進(jìn)算法?吳家驥介紹,深度學(xué)習(xí)都是在異構(gòu)硬件上運(yùn)行,大數(shù)據(jù)進(jìn)入時(shí),需要分流處理,從算法上來(lái)看,可以調(diào)度優(yōu)化,讓異構(gòu)架構(gòu)(CPU、GPU、AI芯片)因地制宜地調(diào)度深度學(xué)習(xí)和大數(shù)據(jù)處理業(yè)務(wù)。
吳家驥指出,未來(lái)可能很長(zhǎng)一段時(shí)間內(nèi),對(duì)深度算法的改進(jìn),不僅要從架構(gòu)、硬件上考慮,還要考慮模型的壓縮能力。例如,就具體問(wèn)題而言,考慮如何把大象關(guān)進(jìn)冰箱,但問(wèn)題是冰箱關(guān)不了大象,但若把大象壓縮成小貓小狗的大小,就可裝入冰箱。這就需要模型壓縮,在保證精度的前提下,壓縮神經(jīng)網(wǎng)絡(luò)模型,降低對(duì)計(jì)算平臺(tái)的要求,大大提高計(jì)算效率,滿足更多的實(shí)際場(chǎng)景需求。
研究人員認(rèn)為,在算法水平上進(jìn)行深度學(xué)習(xí)改進(jìn)已有先例。例如谷歌的張量處理單元,現(xiàn)場(chǎng)可編程門(mén)陣列和專用集成電路,并試圖通過(guò)網(wǎng)絡(luò)壓縮和加速技術(shù)來(lái)降低計(jì)算復(fù)雜性。他們還引用了神經(jīng)體系結(jié)構(gòu)搜索和元學(xué)習(xí),查找在一類問(wèn)題上保持良好性能的體系結(jié)構(gòu),以此作為計(jì)算上有效改進(jìn)算法的途徑。
算力增長(zhǎng)未必會(huì)讓AI擁有類人智力
無(wú)疑,算法突破的目的是讓機(jī)器更像人類大腦一樣具有神經(jīng)元的功能。但就功耗而言,大腦要像超級(jí)計(jì)算機(jī)那樣運(yùn)算,自身溫度就會(huì)飆升上百攝氏度,所以若簡(jiǎn)單認(rèn)為更多的計(jì)算能力就可讓人工智能擁有人類智能的想法顯然是存在爭(zhēng)議的。
“人類的智能中基因與常識(shí)是機(jī)器所不具備的,其中基因是不需要計(jì)算的,常識(shí)是可以通過(guò)簡(jiǎn)單計(jì)算實(shí)現(xiàn)的。”譚茗洲指出。
“常識(shí)決定了基本能力、發(fā)現(xiàn)力和創(chuàng)造力,而具有常識(shí)能力,是更先進(jìn)意義上的人工智能。革命性的算法,就是要讓AI具備擁有學(xué)習(xí)常識(shí)的能力,這也是未來(lái)一個(gè)很有潛力的研究方向。”吳家驥說(shuō)。
有人說(shuō),深度學(xué)習(xí)大多數(shù)是“煉金術(shù)”,大多數(shù)算法是對(duì)經(jīng)驗(yàn)更樸實(shí)的歸納,對(duì)說(shuō)的問(wèn)題進(jìn)行更精辟的演繹。譚茗洲說(shuō):“現(xiàn)在數(shù)據(jù)非常多,算力也在增強(qiáng),人們依賴深度學(xué)習(xí)提升AI智力,但‘傻學(xué)硬練’形成更強(qiáng)的學(xué)習(xí)方法,很難達(dá)到或超越人類的算力及智力。”
那么,革命性算法的標(biāo)準(zhǔn)是什么,為什么優(yōu)于深度學(xué)習(xí)的算法遲遲沒(méi)出現(xiàn)?
譚茗洲認(rèn)為,革命算法的標(biāo)準(zhǔn)首先是在不同場(chǎng)景具有高適應(yīng)度,可以形成知識(shí)記憶和經(jīng)驗(yàn)記憶的算法,并且低耗能低成本。未來(lái)革命性算法有可能基于三點(diǎn)提升,一是基于常識(shí)推理。由于我們面對(duì)的大量場(chǎng)景不是通過(guò)大量數(shù)據(jù)訓(xùn)練而來(lái),人類大腦面對(duì)這些場(chǎng)景往往是通過(guò)常識(shí)推理運(yùn)算而得出結(jié)論,而深度學(xué)習(xí)并沒(méi)有建立這套體系。另外,常識(shí)和常識(shí)之間的關(guān)聯(lián)性,加速了人類對(duì)結(jié)果的推理速度。二是基于負(fù)性小樣本的學(xué)習(xí)。在深度學(xué)習(xí)模型中,往往很少去學(xué)習(xí)什么是錯(cuò)誤的,而汲取負(fù)面行為及教訓(xùn)性質(zhì)類型的小樣本是有學(xué)習(xí)意義的。三是基于交流、溝通的學(xué)習(xí),人與人交流在學(xué)習(xí)中分幾個(gè)層次,看、聽(tīng)、模仿等,AI也應(yīng)多從這幾個(gè)方面入手,建立以交通、溝通為目的的學(xué)習(xí),而不是單單通過(guò)大數(shù)據(jù)訓(xùn)練模仿人類智能。