Nature:AI也許可以擁有常識(shí),但不是現(xiàn)在

70年前科學(xué)家們所暢想的「機(jī)器常識(shí)」被LLM實(shí)現(xiàn)了嗎?Nature最近的一篇評(píng)論文章給出了否定的答案,并堅(jiān)定地指出:常識(shí)推理是AGI的必備品。

本文來(lái)自微信公眾號(hào)“新智元”。

70年前科學(xué)家們所暢想的「機(jī)器常識(shí)」被LLM實(shí)現(xiàn)了嗎?Nature最近的一篇評(píng)論文章給出了否定的答案,并堅(jiān)定地指出:常識(shí)推理是AGI的必備品。

自從2022年ChatGPT橫空出世以來(lái),LLM進(jìn)入了一日千里、突飛猛進(jìn)的發(fā)展階段。

一些專(zhuān)家和研究人員推測(cè),這些模型的問(wèn)世,代表著我們向「通用人工智能」(AGI)的實(shí)現(xiàn)邁出了決定性的一步,從而完成了人工智能(AI)研究70年來(lái)的探索。

這一歷程中的一個(gè)重要里程碑之一,就是機(jī)器能夠展現(xiàn)出「常識(shí)」。

對(duì)人類(lèi)來(lái)說(shuō),「常識(shí)」是關(guān)于人和日常生活的「顯而易見(jiàn)的事情」。比如,我們可以從經(jīng)驗(yàn)中知道,玻璃是易碎的,或者給吃素的朋友端上來(lái)一盤(pán)肉是不禮貌的。

然而,在「常識(shí)」這一點(diǎn)上,即使是當(dāng)今最先進(jìn)、最強(qiáng)大的LLM也常常達(dá)不到要求。

微信圖片_20241114142753.png

一名機(jī)器人藝術(shù)家在2022年英國(guó)Glastonbury音樂(lè)節(jié)上為表演者作畫(huà)

LLM非常善于在涉及記憶的測(cè)試中取得高分,比如GPT-4最為人稱(chēng)道的成績(jī)之一,就是可以通過(guò)美國(guó)的醫(yī)生和律師執(zhí)業(yè)考試,但依舊很容易被簡(jiǎn)單的謎題搞迷糊。

如果你問(wèn)ChatGPT「Riley很痛苦,之后她會(huì)感覺(jué)如何?」,它會(huì)從很多個(gè)選項(xiàng)中挑出「覺(jué)察」(aware)作為最佳答案,而不是對(duì)人類(lèi)來(lái)說(shuō)顯而易見(jiàn)的「痛苦」(painful)。

為了彌補(bǔ)這方面的缺陷,很多這類(lèi)的選擇題都被納入到流行的基準(zhǔn)測(cè)試中,用于用于衡量AI對(duì)常識(shí)的掌握。

然而,這些問(wèn)題很少能夠真正反映現(xiàn)實(shí)世界,包括人類(lèi)對(duì)物理定律的直覺(jué)理解,以及社交互動(dòng)中的背景和語(yǔ)境。因此,要量化出LLM的「類(lèi)人」程度仍然是一個(gè)尚未解決的問(wèn)題。

相比于AI,我們可以發(fā)現(xiàn)人類(lèi)認(rèn)知的一些不同之處。

首先,人類(lèi)善于處理不確定和模糊的情況,會(huì)滿足于一個(gè)「令人滿意但未必最佳」的答案,很少消耗大量的認(rèn)知資源去執(zhí)著于找到最佳的解決方案。

其次,人類(lèi)可以在「直覺(jué)推理」和「深思熟慮」的模式之間靈活切換,從而更好地應(yīng)對(duì)小概率的突發(fā)情況。

AI能否實(shí)現(xiàn)類(lèi)似的認(rèn)知能力?我們又如何如何確切地知道AI系統(tǒng)是否正在獲得這種能力?

這就不僅僅是AI或計(jì)算機(jī)科學(xué)的問(wèn)題,還需要涉足發(fā)展心理學(xué)、認(rèn)知哲學(xué)等學(xué)科,同時(shí)我們也需要對(duì)人類(lèi)認(rèn)知過(guò)程的生物基礎(chǔ)有更深入的了解,才能設(shè)計(jì)更好的指標(biāo)來(lái)評(píng)估LLM的表現(xiàn)。

AI發(fā)展出常識(shí),從何時(shí)開(kāi)始?

機(jī)器常識(shí)的研究,還是要追溯到深度學(xué)習(xí)領(lǐng)域不得不提的一個(gè)時(shí)間點(diǎn)——1956年,新罕布什爾州達(dá)特茅斯的那場(chǎng)暑期研討會(huì)。

這場(chǎng)會(huì)議將當(dāng)時(shí)頂尖的AI研究人員聚集在了一起,隨后就誕生了基于邏輯的符號(hào)框架,使用字母或邏輯運(yùn)算符來(lái)描述對(duì)象和概念之間的關(guān)系,用于構(gòu)建有關(guān)時(shí)間、事件和物理世界的常識(shí)知識(shí)。

例如,一系列「如果發(fā)生……,那么就會(huì)發(fā)生……」的語(yǔ)句可以被手動(dòng)編程到機(jī)器中,用于教會(huì)一個(gè)常識(shí)性事實(shí),比如不受支持力的物體會(huì)因?yàn)橹亓Χ侣洹?/p>

這類(lèi)研究確立了機(jī)器常識(shí)的愿景,即構(gòu)建能夠像人類(lèi)一樣有效地從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算機(jī)程序。

從技術(shù)角度定義,這個(gè)目標(biāo)就是制造一臺(tái)機(jī)器,在給定一組規(guī)則的情況下,「根據(jù)已知內(nèi)容和信息,自行推斷出范圍足夠廣泛的直接結(jié)果」。

微信圖片_20241114142800.png

在加州舉行的機(jī)器人挑戰(zhàn)賽中,一個(gè)人形機(jī)器人向后摔倒

因此,機(jī)器常識(shí)不僅限于有效學(xué)習(xí),還包括自我反思和抽象等能力。

從本質(zhì)上講,常識(shí)需要事實(shí)知識(shí),也需要利用知識(shí)進(jìn)行推理的能力。僅僅是記住大量事實(shí)是不夠的,從現(xiàn)有信息中推斷出新信息同樣重要,這樣才能在新的或不確定的情況下做出決策。

20世紀(jì)80年代時(shí),研究人員開(kāi)始進(jìn)行早期嘗試,希望賦予機(jī)器以常識(shí)和決策能力,主要的手段是創(chuàng)建結(jié)構(gòu)化的知識(shí)數(shù)據(jù)庫(kù),例如CYC、ConceptNet等項(xiàng)目。

CYC這個(gè)名字的靈感來(lái)源于「百科全書(shū)」(encyclopedia),不僅包含了事物間的關(guān)系,還嘗試使用關(guān)系符號(hào)來(lái)整合上下文相關(guān)的知識(shí)。

因此,憑借CYC,機(jī)器能夠區(qū)分事實(shí)知識(shí)(例如「美國(guó)第一任總統(tǒng)是喬治·華盛頓」)和常識(shí)知識(shí)(例如「椅子是用來(lái)坐的」)。

ConceptNet項(xiàng)目有類(lèi)似的原理,同樣是將關(guān)系邏輯映射到一個(gè)由三元詞組構(gòu)成的龐大網(wǎng)絡(luò)(例如「蘋(píng)果」—「用來(lái)」—「吃」)。

然而,無(wú)論是CYC,還是ConceptNet,都不具備推理能力。

常識(shí)推理的挑戰(zhàn)性在于模糊性,因?yàn)樵谔峁└嘈畔⒑?,情況或問(wèn)題就會(huì)變得很難確定。

比如,想要回答「Lina和Michael正在節(jié)食,他們來(lái)做客時(shí)我們要準(zhǔn)備蛋糕嗎?」這個(gè)問(wèn)題,如果添加了另一個(gè)事實(shí)「他們有cheat days」,答案就會(huì)變得相對(duì)復(fù)雜且難以抉擇。

基于符號(hào)和規(guī)則的邏輯無(wú)法處理這種模糊性,甚至依靠概率生成下一個(gè)token的LLM也無(wú)濟(jì)于事,因?yàn)橐腙P(guān)于「cheat days」的額外信息不僅會(huì)降低確定性,還會(huì)完全改變語(yǔ)境。

AI系統(tǒng)如何應(yīng)對(duì)這種未見(jiàn)的、不確定的情況,將直接決定機(jī)器常識(shí)進(jìn)化的速度,我們要做的,就是開(kāi)發(fā)出更好的評(píng)估方法來(lái)跟蹤相關(guān)進(jìn)展,但「衡量常識(shí)」這個(gè)任務(wù)并沒(méi)有看起來(lái)這么容易。

LLM有常識(shí)嗎?這很難評(píng)

目前評(píng)估AI系統(tǒng)常識(shí)推理能力的80多項(xiàng)著名測(cè)試中,至少75%是多項(xiàng)選擇測(cè)驗(yàn)。然而,從統(tǒng)計(jì)的角度來(lái)看,這樣的測(cè)驗(yàn)最多也只能給出模棱兩可的結(jié)果。

向LLM提出一個(gè)相關(guān)領(lǐng)域的問(wèn)題,并不能揭示模型是否擁有更廣泛的事實(shí)知識(shí),因?yàn)長(zhǎng)LM在響應(yīng)特定查詢(xún)時(shí),并不會(huì)以統(tǒng)計(jì)學(xué)上有意義的方式從知識(shí)庫(kù)中進(jìn)行采樣。

比如,即使向LLM提出兩個(gè)非常相似的問(wèn)題,也可能會(huì)得到截然不同的答案。

對(duì)于不涉及多項(xiàng)選擇題的測(cè)試,比如為圖像生成合適標(biāo)題,也很難完全探測(cè)到模型的多步驟和常識(shí)性推理能力。

不涉及多項(xiàng)選擇測(cè)驗(yàn)的測(cè)試(例如,為圖像生成適當(dāng)?shù)膱D像標(biāo)題)不會(huì)完全探測(cè)模型顯示靈活、多步驟、常識(shí)性推理的能力。

因此,機(jī)器常識(shí)相關(guān)的測(cè)試方案和方法仍需要發(fā)展,從而更清楚地區(qū)分「知識(shí)」和「推理」。

有一種方法可以用于改進(jìn)當(dāng)前測(cè)試,就是要求AI解釋給出當(dāng)前答案的理由。例如,一杯咖啡放在室外會(huì)變涼,這是常識(shí),但其中的推理過(guò)程涉及熱傳遞、熱平衡等物理概念。

微信圖片_20241114142802.png

盡管LLM可能會(huì)生成正確的答案(「因?yàn)闊崃恳萆⒌街車(chē)目諝庵小梗谶壿嫷捻憫?yīng)將需要逐步的推理過(guò)程來(lái)解釋原因。

如果LLM能夠使用CYC項(xiàng)目開(kāi)創(chuàng)的那種符號(hào)語(yǔ)言來(lái)復(fù)現(xiàn)出正確的原因揭示,我們就更有理由認(rèn)為,模型不僅僅是通過(guò)參考訓(xùn)練語(yǔ)料來(lái)查找答案,而是確實(shí)發(fā)展出了常識(shí)推理能力。

另一類(lèi)開(kāi)放式測(cè)試,就是考察LLM的計(jì)劃或戰(zhàn)略規(guī)劃能力。

想象一個(gè)簡(jiǎn)單的游戲:能量令牌隨機(jī)分布在棋盤(pán)上,玩家需要在棋盤(pán)上移動(dòng)20次,收集盡可能多的能量并將其放到指定的地方。

在這類(lèi)游戲中,人類(lèi)不一定能找到最佳解決方案,但常識(shí)推理足以支持我們拿到合理的分?jǐn)?shù)。那LLM呢?

研究人員進(jìn)行測(cè)試后發(fā)現(xiàn),模型的表現(xiàn)遠(yuǎn)遠(yuǎn)低于人類(lèi)。

從LLM的行為來(lái)看,它似乎理解了游戲規(guī)則:它可以棋盤(pán)上移動(dòng),有時(shí)也能找到能量令牌并收集起來(lái),但會(huì)犯各種看似愚蠢的錯(cuò)誤,比如將能量令牌丟在錯(cuò)誤的位置。

鑒于LLM會(huì)犯這種有常識(shí)的人都不會(huì)犯的錯(cuò)誤,因此我們很難期待這種模型在解決更混亂的現(xiàn)實(shí)規(guī)劃問(wèn)題時(shí),能夠有更出色的表現(xiàn)。

下一步怎么走

為了系統(tǒng)地奠定機(jī)器常識(shí)的基礎(chǔ),可以考慮采取以下步驟:

「把盤(pán)子做大」

研究人員需要超越單純的AI或計(jì)算機(jī)科學(xué)領(lǐng)域的經(jīng)驗(yàn),涉足認(rèn)知科學(xué)、哲學(xué)和心理學(xué)等學(xué)科,找出關(guān)于人類(lèi)如何學(xué)習(xí)、如何應(yīng)用常識(shí)的關(guān)鍵原理。

這些原則應(yīng)該能夠指導(dǎo)我們,創(chuàng)建能夠進(jìn)行類(lèi)人推理的AI系統(tǒng)。

擁抱理論

與此同時(shí),研究人員需要設(shè)計(jì)全面的、理論驅(qū)動(dòng)的基準(zhǔn)測(cè)試,反映廣泛的常識(shí)推理技能,例如理解物理特性、社交互動(dòng)和因果關(guān)系。

這些基準(zhǔn)測(cè)試的目標(biāo),必須是量化AI系統(tǒng)跨領(lǐng)域概括常識(shí)知識(shí)的能力,而不是專(zhuān)注于一組狹窄的任務(wù)。

超越語(yǔ)言的思考

夸大LLM能力的風(fēng)險(xiǎn)之一就是夸大了語(yǔ)言的重要性,這會(huì)讓我們與另一個(gè)重要愿景脫節(jié)——構(gòu)建能在混亂現(xiàn)實(shí)環(huán)境中感知、導(dǎo)航的具身系統(tǒng)。

DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman就認(rèn)為,實(shí)現(xiàn)「有能力」的AI(capable)可能是比AGI更切實(shí)可行的里程碑。

至少在人類(lèi)基本水平上,如果要構(gòu)建具有物理能力的人工智能,具體化的機(jī)器常識(shí)是十分必要的。然而,目前的AI似乎仍處于獲取幼兒水平身體智力的早期階段。

令人欣喜的是,研究人員開(kāi)始在以上所有方面取得了進(jìn)展,但仍有很長(zhǎng)的路要走。

隨著人工智能系統(tǒng),尤其是LLM成為各種應(yīng)用的主要內(nèi)容,理解人類(lèi)推理的能力將在醫(yī)療保健、法律決策、客服和自動(dòng)駕駛等領(lǐng)域產(chǎn)生更可靠和值得信賴(lài)的結(jié)果。

例如,具有社交常識(shí)的客服機(jī)器人將能夠推斷出用戶(hù)的沮喪情緒,即使沒(méi)有明確的表達(dá)出來(lái)。

從長(zhǎng)遠(yuǎn)來(lái)看,也許機(jī)器常識(shí)領(lǐng)域的最大貢獻(xiàn),將是讓人類(lèi)更深入地了解自己。

參考資料:

https://www.nature.com/articles/d41586-024-03262-z

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論