国产av超清一区二区无码在,亚洲国产精品综合入口99久久

深度學習模型并非“越大越好”，它可能引起氣候變化問題

2020-06-23 08:45

科技行者

我愛至尊寶

和當今的深度學習方法相比，我們大腦的效率高得不可思議。它們只有幾磅重，大概只需要20瓦左右的能量消耗，這個能耗只能夠給昏暗的燈泡供電。然而，它們代表了已知宇宙中最強大的智力形式。

來源丨Forbes

作者丨Rob Toews

編譯丨科技行者

本月早些時候，OpenAI宣布已經(jīng)建成史上最大的人工智能模型，該模型規(guī)模驚人，被命名為“GPT-3”，是一項令人印象深刻的技術成就。然而，它卻凸顯了人工智能領域的一個隱患。

現(xiàn)代人工智能模型需要消耗大量能量，并且這些能量需求正以驚人的速度增長。在深度學習時代，產(chǎn)生一流的人工智能模型所需的計算資源，平均每3.4個月翻一番；這意味著，能量需求在2012年至2018年之間增加了300,000倍。而“GPT-3”只是這種指數(shù)級增長軌跡上的一個最新節(jié)點。

深度學習模型真的越大越好嗎？

在今天，人工智能的碳足跡是有意義的，而如果這個行業(yè)趨勢繼續(xù)下去，情況將很快變得糟糕得多。除非我們愿意重新評估并改革當今的人工智能研究方向，否則，人工智能領域可能會成為我們在未來幾年中應對氣候變化的對手。

GPT-3很好地說明了這種現(xiàn)象。該模型包含多達1750億個參數(shù)。如何理解這個數(shù)字呢？不妨參考一下它的前身模型GPT-2，它在去年發(fā)布時被認為是最先進的，GPT-2只有15億個參數(shù)。去年GPT-2的訓練耗費了數(shù)十千兆次/天，這個計算輸入的數(shù)量已經(jīng)非常龐大了，而GPT-3需要的數(shù)量可能是GPT-2的好幾千倍。

依靠越來越大的模型，來推動人工智能技術進步，這種做法的問題在于，構建和部署這些模型需要大量的能源消耗，并因此產(chǎn)生碳排放。

在2019年一項被廣泛討論的研究《Energy and Policy Considerations for Deep Learning in NLP（NLP深度學習的能源和政策考慮）》中，由Emma Strubell領導的一組研究人員，評估了訓練單個深度學習模型的能量消耗，這個數(shù)值可能高達626,155磅的二氧化碳排放量——約相當于五輛汽車在整個生命周期內(nèi)的碳足跡。相比之下，一個普通的美國人每年產(chǎn)生的二氧化碳排放量大約是36,156磅。

可以肯定的是，這項評估針對的是能耗特別高的模型。如今，訓練一個普通規(guī)模的機器學習模型產(chǎn)生的碳排放量應該遠遠小于626,155磅。

同時值得注意的是，在進行這項分析時，GPT-2是當時可供研究的、最大的模型，研究人員將其視為模型大小的上限?？蓛H僅一年之后，GPT-2看上去很袖珍了，比它的后繼產(chǎn)品小了一百倍。

那么，機器學習模型到底為什么會需要消耗這么多的能量呢？

第一個原因是，用于訓練這些模型的數(shù)據(jù)集的大小在不斷地膨脹。在2018年，BERT模型在使用了30億個單詞的數(shù)據(jù)集進行訓練之后，實現(xiàn)了同類中最佳的NLP（自然語言處理）性能。XLNet使用了320億個單詞的數(shù)據(jù)集進行訓練，并且在性能上超過了BERT。不久之后，GPT-2接受了400億個單詞的數(shù)據(jù)集的訓練。而讓之前所有此類工作都相形見絀的是，GPT-3將使用一個包含5,000億個單詞的加權數(shù)據(jù)集進行訓練。

在訓練過程中，神經(jīng)網(wǎng)絡會針對輸入的每條數(shù)據(jù)，執(zhí)行一整套冗長的數(shù)學運算（既包括正向傳播，也包括反向傳播），并且以復雜的方式更新其參數(shù)。因此，更大的數(shù)據(jù)集，就會轉化為飛速增長的計算和能源需求。

導致人工智能巨大能量消耗的另一個原因是，開發(fā)模型所需要進行的大量實驗和調(diào)校。今天的機器學習，在很大程度上仍然是反復試錯的練習。從業(yè)人員通常會在訓練過程中針對給定模型構建數(shù)百個不同的版本，在確定最佳設計之前，他們會嘗試不同的神經(jīng)體系架構和超參數(shù)。

上述提到的那篇2019年研究論文中，描述了一個案例研究。研究人員們選擇了一個平均規(guī)模的模型——比GPT-3之類的博人眼球的龐然大物要小得多，并且不僅檢查了訓練最終版本所需的能量，還測量了為了生產(chǎn)這個最終版本進行的各種測試的總體能量消耗。

在六個月的過程之中，他們培訓了4,789個不同版本的模型，總共需要花費9,998天的GPU時間（超過27年）?？紤]到所有這些因素，這些研究人員估計，構建該模型總計要產(chǎn)生78,000磅的二氧化碳排放量，超過一個普通美國成年人兩年的碳排放量。

到此為止，這次討論還僅僅涉及了機器學習模型的訓練環(huán)節(jié)。但是訓練只是一個模型生命周期的起點。模型訓練完成之后，就會在現(xiàn)實世界中得到應用。

部署人工智能模型，讓它們在現(xiàn)實環(huán)境中采取行動——這個過程被稱為推理，該過程的能耗比訓練環(huán)節(jié)更高。實際上，英偉達公司（Nvidia）估計，神經(jīng)網(wǎng)絡80％至90％的能量消耗出現(xiàn)在推理環(huán)節(jié)，而不是訓練環(huán)節(jié)。

例如，想想自動駕駛汽車中的人工智能。首先必須要對神經(jīng)網(wǎng)絡進行培訓，讓它學會駕駛。在訓練完成并部署到自動駕駛汽車上之后，模型會不斷地進行推理，才能在環(huán)境中行駛，只要汽車還在使用之中，這個過程就會日復一日地持續(xù)下去。

毋庸置疑，模型具有的參數(shù)越多，對這種持續(xù)不斷的推理的能量需求就越高。

能源使用和碳排放

既然提到了人工智能能量消耗和碳排放之間的關系。那么思考這種關系的最好方式是什么呢？

EPA數(shù)據(jù)顯示，在美國，一千瓦時的能耗平均會產(chǎn)生0.954磅的二氧化碳排放量。這個平均值，反應了美國能源網(wǎng)中不同能量來源（例如可再生能源、核能、天然氣、煤炭）的相對比例和碳足跡的變化。

上述提到的那篇2019年研究分析，采用了全美國的平均值，以便根據(jù)各種人工智能模型的能量需求來計算碳排放量。這是一個比較合理的假設。例如，亞馬遜網(wǎng)絡服務公司（Amazon Web Services）的電力來源組合，大致反應了美國整體的電力來源，而且絕大多數(shù)的人工智能模型都是在云端進行訓練的。

當然，如果使用主要由可再生能源產(chǎn)生的電力訓練人工智能模型，那么碳足跡也會相應地降低。例如，與AWS相比，谷歌云平臺（Google Cloud Platform）使用的電力結構在可再生能源方面的比重更大。（上述那篇2019年研究論文顯示，兩家公司的這一比例分別為56%和17%。）

或者，舉另一個例子，如果在太平洋西北部的硬件上訓練一個模型，所產(chǎn)生的碳排放量會低于其他國家，這是因為這一地區(qū)擁有豐富的清潔水源。而在這方面，每一家云服務提供商都在鼓吹自己在碳補償方面的投資。

總體而言，使用美國總體能源平均值，應該可以大致準確地估算出人工智能模型的碳足跡。

效益遞減

通過不斷變大的模型，追求人工智能進步的做法，凸顯了模型規(guī)模和模型性能之間的關系。下列數(shù)據(jù)顯示得很清楚：模型規(guī)模的增加，最終會導致性能回報的急劇下降。

比如，ResNet是2015年發(fā)布的一個著名計算機視覺模型。該模型的改進版本稱為ResNeXt，于2017年問世。與ResNet相比，ResNeXt所需的計算資源要多35％（以總浮點運算來衡量），準確度卻只提高了0.5％。

艾倫人工智能研究所（Allen AI Institute）2019年的一篇論文提供了詳細的數(shù)據(jù)，記錄了不同任務、模型和人工智能子領域中的效益遞減問題。與GPT-2相比，最新發(fā)布的大型模型GPT-3出現(xiàn)了明顯的效益遞減跡象。

如果人工智能社區(qū)仍然繼續(xù)沿著當前的研究方向前進，就會不斷的構建越來越大的模型，耗費越來越多的能源，以實現(xiàn)越來越小的性能提升。任何成本/收益分析都會變得越來越比例失調(diào)。

既然存在效益遞減的問題，又是什么在推動著模型不斷地朝著越來越大的方向發(fā)展呢？一個主要的原因是，當前人工智能社區(qū)對獲取“最好的”性能基準測試結果非常關注。構建一個新模型，能夠在性能基準測試中創(chuàng)下新的準確性記錄，即便成績提升僅僅是微不足道的一點，也可以贏得研究人員的認可和好評。

正如加州大學洛杉磯分校（UCLA）的教授Guy Van den Broeck所說：“我認為對這種情況的一個最好的比喻，就是某個富油的國家能夠建造一座很高的摩天大樓。當然，建造這樣的東西需要花很多錢，還有很多的工程工作。你也確實可以在建造這座高樓的時候，獲得‘最先進的技術’。但是……這件事在本質上并沒有什么科學上的進步。”

在當前的人工智能研究領域，占據(jù)主導地位的“越大越好”思路，可能會在未來幾年對環(huán)境造成重大的破壞。需要在這個領域內(nèi)進行思慮周詳?shù)执竽懙淖兏?，讓人工智能技術的發(fā)展變得更加可持續(xù)，并更具生產(chǎn)力。

展望未來

首先，每一位人工智能從業(yè)人員都應該考慮，如何在短期內(nèi)“快速制勝”，以減輕其研究對碳足跡的影響。

重要的第一步是，提高這個問題的透明度和度量程度。當人工智能研究人員們發(fā)布新模型的結果時，除了性能和準確性指標之外，他們還應該公布在模型開發(fā)中消耗了多少能量的數(shù)據(jù)。

經(jīng)過深入徹底的分析，艾倫人工智能研究所的團隊建議，將「浮點運算」作為研究人員追蹤的最通用、也是最有效的能效度量標準。另一組研究人員創(chuàng)建了一個機器學習排放計算器，從業(yè)人員可以使用這個計算器來評估他們構建的模型的碳足跡（根據(jù)硬件、云服務提供商和地理區(qū)域等因素）。

遵循這些思路，綜合考慮能源成本和性能收益的做法，將成為研究人員們在訓練模型時的最佳實踐。明確地量化這種關系，將促使研究人員在面對效益遞減問題時，對資源分配做出更明智、更平衡的決定。

隨著可持續(xù)人工智能實踐的擴散，希望人工智能社區(qū)能夠在評估人工智能研究的時候，開始考慮這些效率指標，就像今天我們對傳統(tǒng)性能指標（例如準確性）采取的做法一樣：在會議論文提交、演講、學術角色中考慮它們。

還有一些已經(jīng)相對比較成熟的方法，能夠幫助人工智能技術在近期減少碳足跡：使用更有效的超參數(shù)搜索方法、減少訓練過程中不必要的實驗次數(shù)、使用更高能效的硬件等。

但是，單靠這些補救措施并不足以解決這個問題。人工智能領域需要更根本的長期轉變。

我們需要退后一步，并且承認，僅僅依靠建立越來越大的神經(jīng)網(wǎng)絡并非通往通用智能的正確途徑。我們需要推動自己去發(fā)現(xiàn)更優(yōu)雅、更有效的方法，來對機器中的智能進行建模。我們正在持續(xù)不斷地同氣候變化進行斗爭，這是一場關乎地球未來的戰(zhàn)爭。

在此引用人工智能傳奇人物、深度學習教父Geoff Hinton的話：“未來取決于那些‘對我所說的一切’都深表懷疑的研究生……我的觀點是將其全部拋棄并重新開始。”

人工智能社區(qū)必須開始致力于開創(chuàng)人工智能的新范例，這些范例應該既不需要指數(shù)級增長的數(shù)據(jù)集，也不需要龐大的能源消耗。小樣本學習（few-shot learning）等新興研究領域，都是有前途的途徑。

人類的大腦——智力的原始來源提供了重要的啟發(fā)。和當今的深度學習方法相比，我們大腦的效率高得不可思議。它們只有幾磅重，大概只需要20瓦左右的能量消耗，這個能耗只能夠給昏暗的燈泡供電。然而，它們代表了已知宇宙中最強大的智力形式。

人工智能研究人員Siva Reddy指出：“人類的大腦用很少的能量消耗，就能夠完成令人驚嘆的事情。問題是我們?nèi)绾谓ㄔ斐鲞@樣的機器來。”

THEEND

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權益，請作者持權屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

走進智能工廠，見證卓越智造的力量

11月13日
美妝界的數(shù)字化奇跡：漠小曼的電商轉型與國潮崛起

11月12日
2024 數(shù)智化創(chuàng)新應用技術大會 | 一號邀請

11月11日
SRM趨勢洞察：供應商關系管理將走向何方？

11月11日
喜訊!智邦國際榮獲“數(shù)智化轉型領導品牌”

11月8日

分析在云計算架構中添加邊緣計算的利與弊

深度學習模型并非“越大越好”，它可能引起氣候變化問題

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

深度學習模型并非“越大越好”，它可能引起氣候變化問題

最新評論（評論僅代表用戶觀點）

推動轉型成功的 4 項人工智能核心原則

人工智能在物聯(lián)網(wǎng)中的挑戰(zhàn)和局限性

發(fā)展大模型，不打“籃球賽”而要“下圍棋”

腦機接口技術日漸成熟　AI產(chǎn)業(yè)開啟新藍海

本月熱門

AI 原生時代，字節(jié)想要復刻第三次增長奇跡

2024 年預防網(wǎng)絡攻擊的 12 項網(wǎng)絡安全最佳實踐措施

從5G到6G：開啟無線通信的未來

2024年上半年中國云終端市場跟蹤報告：出貨量達到166.3萬臺，同比增長22.4%

DevSecOps建設標桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導體數(shù)智峰會正式啟動，邀您共創(chuàng)電子半導體行業(yè)美好未來!

精選文章

感恩智慧視通每一位伙伴，回顧第十九屆CPSE安博會精彩時刻

探索公共數(shù)據(jù)授權運營提升政府監(jiān)管治理能力

推動數(shù)智化轉型，OCR技術助力金融行業(yè)高質量發(fā)展

喜訊!2022行業(yè)信息化競爭力成果公布：賽意信息獲“2022年數(shù)字化轉型領航企業(yè)”

芯軟智控榮獲淮安移動2022年度生態(tài)合作獎

“眾工云”助力行業(yè)企業(yè)發(fā)展

熱點資訊

走進智能工廠，見證卓越智造的力量

美妝界的數(shù)字化奇跡：漠小曼的電商轉型與國潮崛起

2024 數(shù)智化創(chuàng)新應用技術大會 | 一號邀請

SRM趨勢洞察：供應商關系管理將走向何方？

喜訊!智邦國際榮獲“數(shù)智化轉型領導品牌”

分析在云計算架構中添加邊緣計算的利與弊

5G將為無人機帶來變革

深度學習模型并非“越大越好”，它可能引起氣候變化問題

最新評論（評論僅代表用戶觀點）

欄目推薦

推動轉型成功的 4 項人工智能核心原則

人工智能在物聯(lián)網(wǎng)中的挑戰(zhàn)和局限性

發(fā)展大模型，不打“籃球賽”而要“下圍棋”

腦機接口技術日漸成熟 AI產(chǎn)業(yè)開啟新藍海

本月熱門

精選文章

熱點資訊

分析在云計算架構中添加邊緣計算的利與弊

5G將為無人機帶來變革

深度學習模型并非“越大越好”，它可能引起氣候變化問題

發(fā)展大模型，不打“籃球賽”而要“下圍棋”

腦機接口技術日漸成熟　AI產(chǎn)業(yè)開啟新藍海