免费看视频高清在线观看,国产女同一区二区在线,亚洲av无码一区二区三区少妇

AI大模型價值對齊：是什么，為什么，怎么做？

2024-02-22 08:59

騰訊研究院

張欽坤、曹建峰

人工智能進(jìn)入大模型時代后，各種“類人”和“超人”能力持續(xù)涌現(xiàn)，其自主性、通用性和易用性快速提升，成為經(jīng)濟(jì)社會發(fā)展的新型技術(shù)底座。有機(jī)構(gòu)預(yù)測，大模型將深入各行各業(yè)，每年為全球經(jīng)濟(jì)增加2.6萬億到4.4萬億美元的價值。

本文來自微信公眾號“騰訊研究院”，作者/張欽坤，騰訊研究院秘書長、曹建峰，騰訊研究院高級研究員。

AI價值對齊：是什么

然而，隨著大模型（又稱為基礎(chǔ)模型）開始像人類一樣從事廣泛的語言理解和內(nèi)容生成任務(wù)，人們需要直面一個最根本的、頗具科學(xué)挑戰(zhàn)的問題：如何讓大模型的能力和行為跟人類的價值、真實(shí)意圖和倫理原則相一致，確保人類與人工智能協(xié)作過程中的安全與信任。這個問題被稱為“價值對齊”（value alignment，或AI alignment）。價值對齊是AI安全的一個核心議題。

在一定程度上，模型的大小和模型的風(fēng)險、危害成正相關(guān)，模型越大，風(fēng)險越高，對價值對齊的需求也就越強(qiáng)烈。就當(dāng)前而言，大模型的核心能力來源于預(yù)訓(xùn)練階段，而且大模型在很大程度上基于整個互聯(lián)網(wǎng)的公開信息進(jìn)行訓(xùn)練，這既決定了它的能力，也決定了其局限性，互聯(lián)網(wǎng)內(nèi)容存在的問題都可能映射在模型當(dāng)中。

一個沒有價值對齊的大語言模型（LLM），可能輸出含有種族或性別歧視的內(nèi)容，幫助網(wǎng)絡(luò)黑客生成用于進(jìn)行網(wǎng)絡(luò)攻擊、電信詐騙的代碼或其他內(nèi)容，嘗試說服或幫助有自殺念頭的用戶結(jié)束自己的生命，以及生產(chǎn)諸如此類的有害內(nèi)容。因此，為了讓大模型更加安全、可靠、實(shí)用，就需要盡可能地防止模型的有害輸出或?yàn)E用行為。這是當(dāng)前AI價值對齊的一項(xiàng)核心任務(wù)。

AI價值對齊：為什么

對大模型進(jìn)行價值對齊，可以更好地應(yīng)對大模型目前存在的一些突出問題。根據(jù)各界對于大模型突出問題的梳理，主要有如下四項(xiàng)：

一是錯誤信息問題。業(yè)內(nèi)稱為人工智能的“幻覺”。OpenAI首席技術(shù)官M(fèi)ira Murati認(rèn)為，ChatGPT和底層的大型語言模型的最大挑戰(zhàn)是它們會輸出錯誤的或者不存在的事實(shí)。[2]這可能源于訓(xùn)練數(shù)據(jù)中的錯誤或虛假信息，也可能是過度創(chuàng)造的副產(chǎn)物（如虛構(gòu)事實(shí)）。讓大模型在創(chuàng)造性和真實(shí)性之間踩好蹺蹺板，這是一個技術(shù)難題。

二是算法歧視問題。很多既有研究表明，大語言模型會從訓(xùn)練數(shù)據(jù)中復(fù)制有害的社會偏見和刻板印象。[3]OpenAI首席執(zhí)行官Sam Altman認(rèn)為，不可能有哪個模型在所有的領(lǐng)域都是無偏見的。因此，核心問題是如何檢測、減少、消除模型的潛在歧視。

三是能力“涌現(xiàn)”的失控風(fēng)險問題。隨著算力和數(shù)據(jù)的持續(xù)增加，大模型預(yù)期將變得越來越強(qiáng)大，可能涌現(xiàn)出更多新的能力，其涌現(xiàn)出來的能力甚至可能超過其創(chuàng)造者的理解和控制，這意味著新的風(fēng)險可能相伴而來，包括涌現(xiàn)出有風(fēng)險的行為或目標(biāo)。目前技術(shù)專家的一個普遍擔(dān)憂是，現(xiàn)在的AI大模型，以及將來可能出現(xiàn)的通用人工智能（AGI）和超級智能（ASI）等更強(qiáng)大先進(jìn)的AI系統(tǒng)，可能形成不符合人類利益和價值的子目標(biāo)（sub-goals），如為了實(shí)現(xiàn)其既定目標(biāo)而涌現(xiàn)出追逐權(quán)力（power-seeking）、欺騙、不服從等行為。[4]例如，研究人員發(fā)現(xiàn)，GPT-4展現(xiàn)出了策略性欺騙人類的能力，可以“欺騙人類去執(zhí)行任務(wù)以實(shí)現(xiàn)其隱藏目標(biāo)”。

四是濫用問題。惡意分子可以通過對抗性輸入、“越獄”（jailbreaking）操作等方式，讓大模型幫助自己實(shí)現(xiàn)不法目的。

因此，價值對齊作為一個需要從技術(shù)上找到應(yīng)對之策的實(shí)踐性問題，已經(jīng)成為AI大模型設(shè)計(jì)開發(fā)和部署過程中的一項(xiàng)基本原則，即：通過價值對齊的工具開發(fā)和工程化建設(shè)，努力確保AI以對人類和社會有益的方式行事，而不會對人類的價值和權(quán)利造成傷害或干擾。

AI價值對齊：怎么做

為了實(shí)現(xiàn)價值對齊，研發(fā)人員需要在模型層面讓人工智能理解、遵從人類的價值、偏好和倫理原則，盡可能地防止模型的有害輸出以及濫用行為，從而打造出兼具實(shí)用性與安全性的AI大模型。

首先，人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）被證明是一個有效的方法，通過小量的人類反饋數(shù)據(jù)就可能實(shí)現(xiàn)比較好的效果。

2017年，OpenAI研究人員發(fā)表《依托人類偏好的深度強(qiáng)化學(xué)習(xí)》一文，提出將人類反饋引入強(qiáng)化學(xué)習(xí)。[5]RLHF包括初始模型訓(xùn)練、收集人類反饋、強(qiáng)化學(xué)習(xí)、迭代過程等幾個步驟，其核心思路是要求人類訓(xùn)練員對模型輸出內(nèi)容的適當(dāng)性進(jìn)行評估，并基于收集的人類反饋為強(qiáng)化學(xué)習(xí)構(gòu)建獎勵信號，以實(shí)現(xiàn)對模型性能的改進(jìn)優(yōu)化。[6]從實(shí)踐來看，RLHF在改進(jìn)模型性能、提高模型的適應(yīng)性、減少模型的偏見、增強(qiáng)模型的安全性等方面具有顯著優(yōu)勢，包括減少模型在未來生產(chǎn)有害內(nèi)容的可能性。

圖：RLHF流程圖（來源：OpenAI）

OpenAI將RLHF算法發(fā)揚(yáng)光大，ChatGPT籍此取得成功，能夠在很大程度上輸出有用的、可信的、無害的內(nèi)容。[7]GPT-4在RLHF訓(xùn)練階段，通過增加額外的安全獎勵信號（safety reward signal）來減少有害的輸出，這一方法產(chǎn)生了很好的效果，顯著提升了誘出惡意行為和有害內(nèi)容的難度。GPT-4相比之前的模型（如GPT-3.5）顯著減少了幻覺、有害偏見和違法有害內(nèi)容等問題。經(jīng)過RLHF訓(xùn)練之后，GPT-4在相關(guān)真實(shí)性測試中得分比GPT-3.5高40%，響應(yīng)禁止性內(nèi)容請求的可能性比GPT-3.5降低了82%，并且能夠更好地回應(yīng)涉及敏感內(nèi)容的用戶請求。[8]總之，RLHF算法可以為大語言模型建立必要的安全護(hù)欄，在大模型的強(qiáng)大性/涌現(xiàn)性和安全性/可靠性之間扮演著“平衡器”這一關(guān)鍵角色。

其次，“憲法性AI”模式，使得價值對齊從低效的“人類監(jiān)督”轉(zhuǎn)向更高效的“規(guī)?；O(jiān)督”（scalable oversight）。

考慮到將人類反饋用于訓(xùn)練更大規(guī)模、更復(fù)雜的AI模型所面臨的時間和資源投入、人類能力等挑戰(zhàn)，業(yè)界一直在探索如何借助AI監(jiān)督（包括AI自我監(jiān)督，以及一個AI系統(tǒng)監(jiān)督另一個AI系統(tǒng)）的方法實(shí)現(xiàn)AI對齊。美國的AI大模型公司Anthropic提出了“憲法性AI”（constitutional AI）的方法。具體而言，研發(fā)一個從屬的AI模型，其主要功能在于評估主模型的輸出是否遵循了特定的“憲法性”原則（即一套事先確定的原則或規(guī)則），評估結(jié)果被用于優(yōu)化主模型。

Anthropic結(jié)合自己的實(shí)踐經(jīng)驗(yàn)，并借鑒世界人權(quán)宣言、蘋果公司的服務(wù)條款、DeepMind的Sparrow規(guī)則[9]等文件，提出了一套覆蓋面廣泛的原則清單，并以此為評估基準(zhǔn)讓其大模型Claude自己來評估自己的輸出，其目標(biāo)是在促進(jìn)模型輸出有用回答的同時，將其輸出有害內(nèi)容的可能性最小化。[10]

圖：憲法性AI路徑（來源：Anthropic）

Claude證明了憲法性AI方法的有效性，即幫助Claude減少有害的、歧視性的輸出，避免幫助惡意使用者從事違法或不道德的活動，對使用者的“對抗性輸入”作出更恰當(dāng)?shù)幕貞?yīng)而非簡單采取回避策略。總之，Anthropic認(rèn)為，憲法性AI方法可以幫助創(chuàng)建一個有用的、誠實(shí)的、無害的AI系統(tǒng)，而且具有可拓展性、透明度、兼顧有用性和無害性等優(yōu)勢。

第三，多措并舉，保障AI價值對齊的實(shí)現(xiàn)。

一是對訓(xùn)練數(shù)據(jù)的有效干預(yù)。大模型的很多問題（如幻覺、算法歧視）來源于訓(xùn)練數(shù)據(jù)，因此從訓(xùn)練數(shù)據(jù)切入是可行的方式，如對訓(xùn)練數(shù)據(jù)進(jìn)行記錄以識別是否存在代表性或多樣化不足的問題，對訓(xùn)練數(shù)據(jù)進(jìn)行人工或自動化篩選、檢測以識別、消除有害偏見，構(gòu)建價值對齊的專門數(shù)據(jù)集，等等。

二是對抗測試（adversarial testing）或者說紅隊(duì)測試（red teaming）。簡言之就是在模型發(fā)布之前邀請內(nèi)部或外部的專業(yè)人員（紅隊(duì)測試員）對模型發(fā)起各種對抗攻擊，以發(fā)現(xiàn)潛在問題并予以解決。例如，在GPT-4發(fā)布之前，OpenAI聘請了50多位各領(lǐng)域?qū)W者和專家對其模型進(jìn)行測試，這些紅隊(duì)測試員的任務(wù)是向模型提出試探性的或者危險性的問題以測試模型的反應(yīng)，OpenAI希望通過紅隊(duì)測試，幫助發(fā)現(xiàn)其模型在不準(zhǔn)確信息（幻覺）、有害內(nèi)容、虛假信息、歧視、語言偏見、涉及傳統(tǒng)和非傳統(tǒng)武器擴(kuò)散的信息等方面的問題。[11]

三是內(nèi)容過濾工具。例如OpenAI專門訓(xùn)練了一個對有害內(nèi)容進(jìn)行過濾的AI模型（即過濾模型），來識別有害的用戶輸入和模型輸出（即違反其使用政策的內(nèi)容），從而實(shí)現(xiàn)對模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)的管控。

四是推進(jìn)模型的可解釋性和可理解性研究，例如OpenAI利用GPT-4來針對其大語言模型GPT-2的神經(jīng)網(wǎng)絡(luò)行為自動化地撰寫解釋并對其解釋打分；[12]有研究人員則從機(jī)制解釋性(mechanistic interpretability)的角度來應(yīng)對AI對齊問題。

AI價值對齊：需長期解決的問題

價值對齊這項(xiàng)工作是AI領(lǐng)域最根本的，也是最具挑戰(zhàn)性的研究。挑戰(zhàn)性在于它需要廣泛的學(xué)科和社會參與，需要各種各樣的輸入、方法和反饋；根本性在于它不僅關(guān)乎當(dāng)下大模型的成敗，而且事關(guān)人類能否實(shí)現(xiàn)對未來更加強(qiáng)大的人工智能（如AGI）的安全控制。因此AI領(lǐng)域的創(chuàng)新主體有責(zé)任和義務(wù)確保其AI模型是以人為本的、負(fù)責(zé)任的、安全可靠的。著名人工智能科學(xué)家張亞勤教授指出，要解決AI和人類價值觀對齊問題，做技術(shù)的人要把研究放到對齊上面，讓機(jī)器理解并遵循人的價值。因此，價值對齊不僅僅是倫理的問題，還有如何實(shí)現(xiàn)的問題。做技術(shù)和研究的人不能只開發(fā)技術(shù)能力，不著力解決對齊問題。[13]

雖然AI價值對齊在技術(shù)上取得了一定的效果，但人們對最基礎(chǔ)的AI價值問題依然沒有形成共識：如何確立用以規(guī)范人工智能的一套統(tǒng)一的人類價值。目前看，選擇哪些原則可能完全取決于研究人員的主觀判斷和價值觀。而且考慮到我們生活在一個人們擁有多元文化、背景、資源和信仰的世界中，AI價值對齊需要考慮不同社會和群體的不同價值和道德規(guī)范。進(jìn)一步而言，完全讓研究人員自行選擇這些價值是不切實(shí)際的，需要更多的社會參與來形成共識。

與此同時，當(dāng)下的AI價值對齊工作還面臨著一個關(guān)鍵問題：在人類的智能基本上保持不變的前提下，隨著人工智能的能力持續(xù)提升，人類自己對那些前沿AI模型的有效監(jiān)督將變得越來越困難。因此，為了確保AI安全，我們需要使我們監(jiān)控、理解、設(shè)計(jì)AI模型的能力與模型本身的復(fù)雜性同步發(fā)展。

基于AI輔助或主導(dǎo)的“規(guī)?；O(jiān)督”就體現(xiàn)出這一思路。今年7月，OpenAI宣布成立一個新的AI對齊團(tuán)隊(duì)，這個新的超級對齊團(tuán)隊(duì)（superalignment）的目標(biāo)是在4年內(nèi)弄明白如何讓超級智能的AI系統(tǒng)實(shí)現(xiàn)價值對齊和安全，OpenAI將投入20%的算力資源來支持這一工程。其核心是探索如何利用AI來幫助人類解決AI的價值對齊問題。[14]

圖：OpenAI超級對齊團(tuán)隊(duì)（來源：OpenAI）

可以說，只有確保AI系統(tǒng)的目標(biāo)和行為與人類的價值和意圖相一致，才能確保實(shí)現(xiàn)AI向善，促進(jìn)生產(chǎn)力發(fā)展、經(jīng)濟(jì)增長和社會進(jìn)步。價值對齊的研究和技術(shù)實(shí)現(xiàn)，離不開廣泛的多學(xué)科協(xié)作和社會參與。政府、產(chǎn)業(yè)界、學(xué)術(shù)界等利益相關(guān)方需要投入更多資源來推動AI價值對齊的研究與實(shí)踐，讓人們監(jiān)督、理解、控制人工智能的能力和人工智能的發(fā)展進(jìn)步齊頭并進(jìn)，以確保人工智能能夠造福全人類和全社會。

參考資料來源:

[1]https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-ai-the-next-productivity-frontier#introduction

[2]https://time.com/6252404/mira-murati-chatgpt-openai-interview/

[3]https://dl.acm.org/doi/fullHtml/10.1145/3531146.3533088

[4]https://yoshuabengio.org/2023/05/22/how-rogue-ais-may-arise/

[5]https://arxiv.org/abs/1706.03741

[6]https://www.unite.ai/what-is-reinforcement-learning-from-human-feedback-rlhf/

[7]https://venturebeat.com/ai/how-reinforcement-learning-with-human-feedback-is-unlocking-the-power-of-generative-ai/

[8]https://openai.com/research/gpt-4

[9]https://storage.googleapis.com/deepmind-media/DeepMind.com/Authors-Notes/sparrow/sparrow-final.pdf

[10]https://www.anthropic.com/index/claudes-constitution

[11]https://www.ft.com/content/0876687a-f8b7-4b39-b513-5fee942831e8(last visited on May 6,2023).

[12]https://openai.com/research/language-models-can-explain-neurons-in-language-models

[13]https://mp.weixin.qq.com/s/gSWwj_HzVA3Lq5XZal1a3Q

[14]https://openai.com/blog/introducing-superalignment

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

2024年全球半導(dǎo)體市場四個預(yù)判

AI大模型價值對齊：是什么，為什么，怎么做？

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

AI大模型價值對齊：是什么，為什么，怎么做？

最新評論（評論僅代表用戶觀點(diǎn)）

觸目驚心!電子郵件網(wǎng)絡(luò)犯罪的數(shù)據(jù)統(tǒng)計(jì)

如何降低密碼管理的隱性成本

人工智能攻擊成為企業(yè)面臨的新主要風(fēng)險|觀點(diǎn)

第一季度集成電路設(shè)計(jì)收入736億元，同比增長16.3%

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

黑科技!加州理工學(xué)院團(tuán)隊(duì)利用AR為盲人提供空間語音導(dǎo)航

2020第五屆中國網(wǎng)絡(luò)信息安全云上峰會圓滿召開

58集團(tuán)本地服務(wù)和汽車服務(wù)總部項(xiàng)目落地?zé)o錫（國家）軟件園

“以數(shù)見智數(shù)智共生”2021中國大數(shù)據(jù)技術(shù)應(yīng)用大會在京隆重召開

2022 SCIC網(wǎng)絡(luò)安全合規(guī)創(chuàng)新峰會成功召開

分享數(shù)智化醫(yī)院低碳運(yùn)營，中瑞恒閃耀第七屆全國醫(yī)院后勤精細(xì)化管理大會

熱點(diǎn)資訊

榮耀應(yīng)用市場攜手?jǐn)?shù)智融合應(yīng)用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍(lán)罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

2024年全球半導(dǎo)體市場四個預(yù)判

工信部等九部門:打造一批實(shí)現(xiàn)制造過程數(shù)字孿生的數(shù)字化轉(zhuǎn)型標(biāo)桿工廠

AI大模型價值對齊：是什么，為什么，怎么做？

最新評論（評論僅代表用戶觀點(diǎn)）

欄目推薦

觸目驚心!電子郵件網(wǎng)絡(luò)犯罪的數(shù)據(jù)統(tǒng)計(jì)

如何降低密碼管理的隱性成本

人工智能攻擊成為企業(yè)面臨的新主要風(fēng)險|觀點(diǎn)

第一季度集成電路設(shè)計(jì)收入736億元，同比增長16.3%

本月熱門

精選文章

熱點(diǎn)資訊

2024年全球半導(dǎo)體市場四個預(yù)判

工信部等九部門:打造一批實(shí)現(xiàn)制造過程數(shù)字孿生的數(shù)字化轉(zhuǎn)型標(biāo)桿工廠

AI大模型價值對齊：是什么，為什么，怎么做？

第一季度集成電路設(shè)計(jì)收入736億元，同比增長16.3%