本文來自微信公眾號“騰訊研究院”,作者/張欽坤,騰訊研究院秘書長、曹建峰,騰訊研究院高級研究員。
AI價值對齊:是什么
人工智能進(jìn)入大模型時代后,各種“類人”和“超人”能力持續(xù)涌現(xiàn),其自主性、通用性和易用性快速提升,成為經(jīng)濟(jì)社會發(fā)展的新型技術(shù)底座。有機(jī)構(gòu)預(yù)測,大模型將深入各行各業(yè),每年為全球經(jīng)濟(jì)增加2.6萬億到4.4萬億美元的價值。[1]
然而,隨著大模型(又稱為基礎(chǔ)模型)開始像人類一樣從事廣泛的語言理解和內(nèi)容生成任務(wù),人們需要直面一個最根本的、頗具科學(xué)挑戰(zhàn)的問題:如何讓大模型的能力和行為跟人類的價值、真實(shí)意圖和倫理原則相一致,確保人類與人工智能協(xié)作過程中的安全與信任。這個問題被稱為“價值對齊”(value alignment,或AI alignment)。價值對齊是AI安全的一個核心議題。
在一定程度上,模型的大小和模型的風(fēng)險、危害成正相關(guān),模型越大,風(fēng)險越高,對價值對齊的需求也就越強(qiáng)烈。就當(dāng)前而言,大模型的核心能力來源于預(yù)訓(xùn)練階段,而且大模型在很大程度上基于整個互聯(lián)網(wǎng)的公開信息進(jìn)行訓(xùn)練,這既決定了它的能力,也決定了其局限性,互聯(lián)網(wǎng)內(nèi)容存在的問題都可能映射在模型當(dāng)中。
一個沒有價值對齊的大語言模型(LLM),可能輸出含有種族或性別歧視的內(nèi)容,幫助網(wǎng)絡(luò)黑客生成用于進(jìn)行網(wǎng)絡(luò)攻擊、電信詐騙的代碼或其他內(nèi)容,嘗試說服或幫助有自殺念頭的用戶結(jié)束自己的生命,以及生產(chǎn)諸如此類的有害內(nèi)容。因此,為了讓大模型更加安全、可靠、實(shí)用,就需要盡可能地防止模型的有害輸出或?yàn)E用行為。這是當(dāng)前AI價值對齊的一項(xiàng)核心任務(wù)。
AI價值對齊:為什么
對大模型進(jìn)行價值對齊,可以更好地應(yīng)對大模型目前存在的一些突出問題。根據(jù)各界對于大模型突出問題的梳理,主要有如下四項(xiàng):
一是錯誤信息問題。業(yè)內(nèi)稱為人工智能的“幻覺”。OpenAI首席技術(shù)官M(fèi)ira Murati認(rèn)為,ChatGPT和底層的大型語言模型的最大挑戰(zhàn)是它們會輸出錯誤的或者不存在的事實(shí)。[2]這可能源于訓(xùn)練數(shù)據(jù)中的錯誤或虛假信息,也可能是過度創(chuàng)造的副產(chǎn)物(如虛構(gòu)事實(shí))。讓大模型在創(chuàng)造性和真實(shí)性之間踩好蹺蹺板,這是一個技術(shù)難題。
二是算法歧視問題。很多既有研究表明,大語言模型會從訓(xùn)練數(shù)據(jù)中復(fù)制有害的社會偏見和刻板印象。[3]OpenAI首席執(zhí)行官Sam Altman認(rèn)為,不可能有哪個模型在所有的領(lǐng)域都是無偏見的。因此,核心問題是如何檢測、減少、消除模型的潛在歧視。
三是能力“涌現(xiàn)”的失控風(fēng)險問題。隨著算力和數(shù)據(jù)的持續(xù)增加,大模型預(yù)期將變得越來越強(qiáng)大,可能涌現(xiàn)出更多新的能力,其涌現(xiàn)出來的能力甚至可能超過其創(chuàng)造者的理解和控制,這意味著新的風(fēng)險可能相伴而來,包括涌現(xiàn)出有風(fēng)險的行為或目標(biāo)。目前技術(shù)專家的一個普遍擔(dān)憂是,現(xiàn)在的AI大模型,以及將來可能出現(xiàn)的通用人工智能(AGI)和超級智能(ASI)等更強(qiáng)大先進(jìn)的AI系統(tǒng),可能形成不符合人類利益和價值的子目標(biāo)(sub-goals),如為了實(shí)現(xiàn)其既定目標(biāo)而涌現(xiàn)出追逐權(quán)力(power-seeking)、欺騙、不服從等行為。[4]例如,研究人員發(fā)現(xiàn),GPT-4展現(xiàn)出了策略性欺騙人類的能力,可以“欺騙人類去執(zhí)行任務(wù)以實(shí)現(xiàn)其隱藏目標(biāo)”。
四是濫用問題。惡意分子可以通過對抗性輸入、“越獄”(jailbreaking)操作等方式,讓大模型幫助自己實(shí)現(xiàn)不法目的。
因此,價值對齊作為一個需要從技術(shù)上找到應(yīng)對之策的實(shí)踐性問題,已經(jīng)成為AI大模型設(shè)計(jì)開發(fā)和部署過程中的一項(xiàng)基本原則,即:通過價值對齊的工具開發(fā)和工程化建設(shè),努力確保AI以對人類和社會有益的方式行事,而不會對人類的價值和權(quán)利造成傷害或干擾。
AI價值對齊:怎么做
為了實(shí)現(xiàn)價值對齊,研發(fā)人員需要在模型層面讓人工智能理解、遵從人類的價值、偏好和倫理原則,盡可能地防止模型的有害輸出以及濫用行為,從而打造出兼具實(shí)用性與安全性的AI大模型。
首先,人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)被證明是一個有效的方法,通過小量的人類反饋數(shù)據(jù)就可能實(shí)現(xiàn)比較好的效果。
2017年,OpenAI研究人員發(fā)表《依托人類偏好的深度強(qiáng)化學(xué)習(xí)》一文,提出將人類反饋引入強(qiáng)化學(xué)習(xí)。[5]RLHF包括初始模型訓(xùn)練、收集人類反饋、強(qiáng)化學(xué)習(xí)、迭代過程等幾個步驟,其核心思路是要求人類訓(xùn)練員對模型輸出內(nèi)容的適當(dāng)性進(jìn)行評估,并基于收集的人類反饋為強(qiáng)化學(xué)習(xí)構(gòu)建獎勵信號,以實(shí)現(xiàn)對模型性能的改進(jìn)優(yōu)化。[6]從實(shí)踐來看,RLHF在改進(jìn)模型性能、提高模型的適應(yīng)性、減少模型的偏見、增強(qiáng)模型的安全性等方面具有顯著優(yōu)勢,包括減少模型在未來生產(chǎn)有害內(nèi)容的可能性。
圖:RLHF流程圖(來源:OpenAI)
OpenAI將RLHF算法發(fā)揚(yáng)光大,ChatGPT籍此取得成功,能夠在很大程度上輸出有用的、可信的、無害的內(nèi)容。[7]GPT-4在RLHF訓(xùn)練階段,通過增加額外的安全獎勵信號(safety reward signal)來減少有害的輸出,這一方法產(chǎn)生了很好的效果,顯著提升了誘出惡意行為和有害內(nèi)容的難度。GPT-4相比之前的模型(如GPT-3.5)顯著減少了幻覺、有害偏見和違法有害內(nèi)容等問題。經(jīng)過RLHF訓(xùn)練之后,GPT-4在相關(guān)真實(shí)性測試中得分比GPT-3.5高40%,響應(yīng)禁止性內(nèi)容請求的可能性比GPT-3.5降低了82%,并且能夠更好地回應(yīng)涉及敏感內(nèi)容的用戶請求。[8]總之,RLHF算法可以為大語言模型建立必要的安全護(hù)欄,在大模型的強(qiáng)大性/涌現(xiàn)性和安全性/可靠性之間扮演著“平衡器”這一關(guān)鍵角色。
其次,“憲法性AI”模式,使得價值對齊從低效的“人類監(jiān)督”轉(zhuǎn)向更高效的“規(guī)?;O(jiān)督”(scalable oversight)。
考慮到將人類反饋用于訓(xùn)練更大規(guī)模、更復(fù)雜的AI模型所面臨的時間和資源投入、人類能力等挑戰(zhàn),業(yè)界一直在探索如何借助AI監(jiān)督(包括AI自我監(jiān)督,以及一個AI系統(tǒng)監(jiān)督另一個AI系統(tǒng))的方法實(shí)現(xiàn)AI對齊。美國的AI大模型公司Anthropic提出了“憲法性AI”(constitutional AI)的方法。具體而言,研發(fā)一個從屬的AI模型,其主要功能在于評估主模型的輸出是否遵循了特定的“憲法性”原則(即一套事先確定的原則或規(guī)則),評估結(jié)果被用于優(yōu)化主模型。
Anthropic結(jié)合自己的實(shí)踐經(jīng)驗(yàn),并借鑒世界人權(quán)宣言、蘋果公司的服務(wù)條款、DeepMind的Sparrow規(guī)則[9]等文件,提出了一套覆蓋面廣泛的原則清單,并以此為評估基準(zhǔn)讓其大模型Claude自己來評估自己的輸出,其目標(biāo)是在促進(jìn)模型輸出有用回答的同時,將其輸出有害內(nèi)容的可能性最小化。[10]
圖:憲法性AI路徑(來源:Anthropic)
Claude證明了憲法性AI方法的有效性,即幫助Claude減少有害的、歧視性的輸出,避免幫助惡意使用者從事違法或不道德的活動,對使用者的“對抗性輸入”作出更恰當(dāng)?shù)幕貞?yīng)而非簡單采取回避策略。總之,Anthropic認(rèn)為,憲法性AI方法可以幫助創(chuàng)建一個有用的、誠實(shí)的、無害的AI系統(tǒng),而且具有可拓展性、透明度、兼顧有用性和無害性等優(yōu)勢。
第三,多措并舉,保障AI價值對齊的實(shí)現(xiàn)。
一是對訓(xùn)練數(shù)據(jù)的有效干預(yù)。大模型的很多問題(如幻覺、算法歧視)來源于訓(xùn)練數(shù)據(jù),因此從訓(xùn)練數(shù)據(jù)切入是可行的方式,如對訓(xùn)練數(shù)據(jù)進(jìn)行記錄以識別是否存在代表性或多樣化不足的問題,對訓(xùn)練數(shù)據(jù)進(jìn)行人工或自動化篩選、檢測以識別、消除有害偏見,構(gòu)建價值對齊的專門數(shù)據(jù)集,等等。
二是對抗測試(adversarial testing)或者說紅隊(duì)測試(red teaming)。簡言之就是在模型發(fā)布之前邀請內(nèi)部或外部的專業(yè)人員(紅隊(duì)測試員)對模型發(fā)起各種對抗攻擊,以發(fā)現(xiàn)潛在問題并予以解決。例如,在GPT-4發(fā)布之前,OpenAI聘請了50多位各領(lǐng)域?qū)W者和專家對其模型進(jìn)行測試,這些紅隊(duì)測試員的任務(wù)是向模型提出試探性的或者危險性的問題以測試模型的反應(yīng),OpenAI希望通過紅隊(duì)測試,幫助發(fā)現(xiàn)其模型在不準(zhǔn)確信息(幻覺)、有害內(nèi)容、虛假信息、歧視、語言偏見、涉及傳統(tǒng)和非傳統(tǒng)武器擴(kuò)散的信息等方面的問題。[11]
三是內(nèi)容過濾工具。例如OpenAI專門訓(xùn)練了一個對有害內(nèi)容進(jìn)行過濾的AI模型(即過濾模型),來識別有害的用戶輸入和模型輸出(即違反其使用政策的內(nèi)容),從而實(shí)現(xiàn)對模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)的管控。
四是推進(jìn)模型的可解釋性和可理解性研究,例如OpenAI利用GPT-4來針對其大語言模型GPT-2的神經(jīng)網(wǎng)絡(luò)行為自動化地撰寫解釋并對其解釋打分;[12]有研究人員則從機(jī)制解釋性(mechanistic interpretability)的角度來應(yīng)對AI對齊問題。
AI價值對齊:需長期解決的問題
價值對齊這項(xiàng)工作是AI領(lǐng)域最根本的,也是最具挑戰(zhàn)性的研究。挑戰(zhàn)性在于它需要廣泛的學(xué)科和社會參與,需要各種各樣的輸入、方法和反饋;根本性在于它不僅關(guān)乎當(dāng)下大模型的成敗,而且事關(guān)人類能否實(shí)現(xiàn)對未來更加強(qiáng)大的人工智能(如AGI)的安全控制。因此AI領(lǐng)域的創(chuàng)新主體有責(zé)任和義務(wù)確保其AI模型是以人為本的、負(fù)責(zé)任的、安全可靠的。著名人工智能科學(xué)家張亞勤教授指出,要解決AI和人類價值觀對齊問題,做技術(shù)的人要把研究放到對齊上面,讓機(jī)器理解并遵循人的價值。因此,價值對齊不僅僅是倫理的問題,還有如何實(shí)現(xiàn)的問題。做技術(shù)和研究的人不能只開發(fā)技術(shù)能力,不著力解決對齊問題。[13]
雖然AI價值對齊在技術(shù)上取得了一定的效果,但人們對最基礎(chǔ)的AI價值問題依然沒有形成共識:如何確立用以規(guī)范人工智能的一套統(tǒng)一的人類價值。目前看,選擇哪些原則可能完全取決于研究人員的主觀判斷和價值觀。而且考慮到我們生活在一個人們擁有多元文化、背景、資源和信仰的世界中,AI價值對齊需要考慮不同社會和群體的不同價值和道德規(guī)范。進(jìn)一步而言,完全讓研究人員自行選擇這些價值是不切實(shí)際的,需要更多的社會參與來形成共識。
與此同時,當(dāng)下的AI價值對齊工作還面臨著一個關(guān)鍵問題:在人類的智能基本上保持不變的前提下,隨著人工智能的能力持續(xù)提升,人類自己對那些前沿AI模型的有效監(jiān)督將變得越來越困難。因此,為了確保AI安全,我們需要使我們監(jiān)控、理解、設(shè)計(jì)AI模型的能力與模型本身的復(fù)雜性同步發(fā)展。
基于AI輔助或主導(dǎo)的“規(guī)?;O(jiān)督”就體現(xiàn)出這一思路。今年7月,OpenAI宣布成立一個新的AI對齊團(tuán)隊(duì),這個新的超級對齊團(tuán)隊(duì)(superalignment)的目標(biāo)是在4年內(nèi)弄明白如何讓超級智能的AI系統(tǒng)實(shí)現(xiàn)價值對齊和安全,OpenAI將投入20%的算力資源來支持這一工程。其核心是探索如何利用AI來幫助人類解決AI的價值對齊問題。[14]
圖:OpenAI超級對齊團(tuán)隊(duì)(來源:OpenAI)
可以說,只有確保AI系統(tǒng)的目標(biāo)和行為與人類的價值和意圖相一致,才能確保實(shí)現(xiàn)AI向善,促進(jìn)生產(chǎn)力發(fā)展、經(jīng)濟(jì)增長和社會進(jìn)步。價值對齊的研究和技術(shù)實(shí)現(xiàn),離不開廣泛的多學(xué)科協(xié)作和社會參與。政府、產(chǎn)業(yè)界、學(xué)術(shù)界等利益相關(guān)方需要投入更多資源來推動AI價值對齊的研究與實(shí)踐,讓人們監(jiān)督、理解、控制人工智能的能力和人工智能的發(fā)展進(jìn)步齊頭并進(jìn),以確保人工智能能夠造福全人類和全社會。
參考資料來源:
[1]https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-ai-the-next-productivity-frontier#introduction
[2]https://time.com/6252404/mira-murati-chatgpt-openai-interview/
[3]https://dl.acm.org/doi/fullHtml/10.1145/3531146.3533088
[4]https://yoshuabengio.org/2023/05/22/how-rogue-ais-may-arise/
[5]https://arxiv.org/abs/1706.03741
[6]https://www.unite.ai/what-is-reinforcement-learning-from-human-feedback-rlhf/
[7]https://venturebeat.com/ai/how-reinforcement-learning-with-human-feedback-is-unlocking-the-power-of-generative-ai/
[8]https://openai.com/research/gpt-4
[9]https://storage.googleapis.com/deepmind-media/DeepMind.com/Authors-Notes/sparrow/sparrow-final.pdf
[10]https://www.anthropic.com/index/claudes-constitution
[11]https://www.ft.com/content/0876687a-f8b7-4b39-b513-5fee942831e8(last visited on May 6,2023).
[12]https://openai.com/research/language-models-can-explain-neurons-in-language-models
[13]https://mp.weixin.qq.com/s/gSWwj_HzVA3Lq5XZal1a3Q
[14]https://openai.com/blog/introducing-superalignment