解決AI大難題:如何降低AI運行對能源的消耗?

編譯丨科技行者
就當下來看,AI領(lǐng)域?qū)崿F(xiàn)突破性進展的深度學(xué)習(xí)模型,其規(guī)模越大,能耗和成本也隨之增加。自然語言處理模型GPT-3就是個典型的例子,為了能夠在準確性與速度方面與人類相匹敵,該模型包含1750億個參數(shù)、占用350 GB內(nèi)存并產(chǎn)生高達1200萬美元的模型訓(xùn)練成本。

360截圖16450626515344.png

就當下來看,AI領(lǐng)域?qū)崿F(xiàn)突破性進展的深度學(xué)習(xí)模型,其規(guī)模越大,能耗和成本也隨之增加。自然語言處理模型GPT-3就是個典型的例子,為了能夠在準確性與速度方面與人類相匹敵,該模型包含1750億個參數(shù)、占用350 GB內(nèi)存并產(chǎn)生高達1200萬美元的模型訓(xùn)練成本。而且單從成本來看,大家應(yīng)該就能體會到它所消耗的海量能源。

UMass Amherst的研究人員們發(fā)現(xiàn),訓(xùn)練大型AI模型所需要的算力往往對應(yīng)超過60萬英磅二氧化碳排放量,相當于五臺家用汽車在整個使用周期內(nèi)的全部排放!

更要命的是,這些模型在實際生產(chǎn)環(huán)境中(即推理階段)還需要耗費更多能源以不斷產(chǎn)出分析結(jié)論。根據(jù)英偉達的估算,神經(jīng)網(wǎng)絡(luò)模型運行所產(chǎn)生的成本有80%至90%來自推理階段、而非訓(xùn)練階段。

因此有觀點認為,要保持AI技術(shù)的快速進步,我們必須想辦法找到一條具備環(huán)境可持續(xù)性的道路。但事實證明,我們完全可以將大規(guī)模模型縮減為能夠運行在日常工作站或服務(wù)器上的大小,且?guī)缀醪挥绊憸蚀_性與速度。

下面,我們先來聊聊為什么機器學(xué)習(xí)模型總是這么龐大臃腫。

當前,計算能力每3到4個月即翻一番

十多年前,斯坦福大學(xué)的研究人員發(fā)現(xiàn),用于為視頻游戲中的復(fù)雜圖形提供處理支持的處理器(GPU)能夠在深度學(xué)習(xí)模型中提供極高的計算效率。這一發(fā)現(xiàn)掀起一輪“軍備競賽”,各廠商爭相為深度學(xué)習(xí)應(yīng)用程序開發(fā)出越來越強大的專用硬件。與之對應(yīng),數(shù)據(jù)科學(xué)家們創(chuàng)建的模型也越來越龐大,希望借此帶來更準確的處理結(jié)果。兩股力量相互纏繞,也就形成了如今的態(tài)勢。

來自O(shè)penAI的研究證明,目前整體行業(yè)都處于這樣的升級循環(huán)當中。2012年至2018年期間,深度學(xué)習(xí)模型的計算能力每3到4個月就翻一番。這意味著六年時間內(nèi),AI計算能力增長達驚人的30萬倍。如前所述,這些算力不僅可用于訓(xùn)練算法,同時也能在生產(chǎn)環(huán)境中更快帶來分析結(jié)果。但MIT的最終研究則表明,我們達到計算能力極限的時間可能遠遠早于大家的想象。

更重要的是,資源層面的限制導(dǎo)致深度學(xué)習(xí)算法開始成為極少數(shù)組織的專屬。我們當然希望使用深度學(xué)習(xí)從醫(yī)學(xué)影像中檢測癌細胞變化、或者在社交媒體上自動清除仇恨言論,但我們也確實無法承受體量更大、耗電量更高的深度學(xué)習(xí)模型。

未來:少即是多

幸運的是,研究人員們發(fā)現(xiàn)了多種新方法,能夠使用更智能的算法縮小深度學(xué)習(xí)模型,并重新調(diào)整訓(xùn)練數(shù)據(jù)集的使用方式。如此一來,大型模型也能夠在配置較低的小規(guī)模生產(chǎn)環(huán)境內(nèi)運行,并繼續(xù)根據(jù)用例提供必要的結(jié)果。

這些技術(shù)有望推動機器學(xué)習(xí)大眾化,幫助那些沒有充足金錢或資源的組織也能訓(xùn)練算法并將成果投入生產(chǎn)。這一點對于無法容納專用AI硬件的“邊緣”用例顯得尤其重要,包括攝像機、汽車儀表板以及智能手機等小型設(shè)備。

研究人員們一直嘗試刪除神經(jīng)網(wǎng)絡(luò)內(nèi)的某些非必要連接,或降低某些數(shù)學(xué)運算的復(fù)雜性等方式縮小模型體積。這些更小、更快的模型能夠在任意位置以類似于大型模型的準確度與性能保持運行。如此一來,我們不再需要瘋狂追求極致算力,也就有望緩解對環(huán)境的重大破壞。事實上,縮小模型體量、提升模型效率已經(jīng)成為深度學(xué)習(xí)的未來發(fā)展方向。

另一個重要問題,則體現(xiàn)在針對不同用例在新數(shù)據(jù)集上反復(fù)訓(xùn)練大型模型方面。遷移學(xué)習(xí)技術(shù)有望消除此類問題——這項技術(shù)以預(yù)訓(xùn)練完成的模型作為起點,能夠使用有限的數(shù)據(jù)集將模型知識“遷移”至新任務(wù)當中,因此我們不必從零開始重新訓(xùn)練初始模型。這既是降低模型訓(xùn)練所需算力的重要手段,也將極大緩解AI發(fā)展給自然環(huán)境帶來的能源壓力。

底線在哪?

只要有可能,模型應(yīng)當、也必須尋求“瘦身”以降低算力需求。

另外,模型得到的知識應(yīng)該可以回收并再次利用,而不必每次都從零開始執(zhí)行深度學(xué)習(xí)訓(xùn)練過程。最終,一切有望降低模型規(guī)模、削減算力消耗(而不會影響性能或準確性)的方法都將成為解放深度學(xué)習(xí)能量的重要新機遇。

如此一來,任何人都能夠以較低的成本在生產(chǎn)環(huán)境中運行這些應(yīng)用程序,同時極大減輕對自然環(huán)境造成的壓力。當“大AI”開始變小時,其中必將蘊藏?zé)o數(shù)新的可能。對于這樣的前景,我們充滿期待。

作者丨Jeannie Finks

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論