亚洲乱码一区二区三区国产精品,欧美粉嫩泬无套在线观看1

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

2024-10-14 11:07

DeepTech深科技

目前，GenAI-Arena 已能支持 14 個(gè)文生圖模型、10 個(gè)圖像編輯模型和 8 個(gè)文生圖模型，并一共收集到 9000 多個(gè)人類偏好的投票。這些投票結(jié)果經(jīng)過處理之后，都將用于 GenAI Arena 榜單的計(jì)算。同時(shí)，在 GenAI-Arena 上收集的數(shù)據(jù)，能被用于多個(gè)不同的應(yīng)用場(chǎng)景。

本文來自微信公眾號(hào)“DeepTech深科技”。

2023年底，文生圖、文生視頻等各種模型并沒有很好的評(píng)測(cè)標(biāo)準(zhǔn)。很多論文都還在使用比較傳統(tǒng)的工具來進(jìn)行自動(dòng)化評(píng)測(cè)。

但是，這些指標(biāo)并不能反應(yīng)真實(shí)世界的用戶對(duì)于這些生成模型的偏好。

而對(duì)于生成模型來說，生成結(jié)果的好壞，又恰恰非常容易被人們所看出來，比如圖像是否扭曲、模糊，再比如視頻是否不自然等。

那么，如何開發(fā)一個(gè)能夠收集人類偏好并能直接評(píng)測(cè)各個(gè)多模態(tài)模型能力的榜單？

為了解決這個(gè)問題，加拿大滑鐵盧大學(xué)博士生姜東甫和所在團(tuán)隊(duì)，提出一個(gè)由用戶來打分的多模態(tài)生成模型的競(jìng)技場(chǎng)——GenAI Arena。

圖|左起：姜東甫、max ku、tianle li（來源：姜東甫）

定下課題之后，本次論文的共同一作Tianle Li開始在Chatbot Arena的代碼基礎(chǔ)之上進(jìn)行改進(jìn)，并添加了對(duì)于多模態(tài)生成模型的支持。

由于Chatbot Arena只支持生成文字的大模型，因此需要針對(duì)模型和網(wǎng)站用戶界面（UI，User Interface）做出修改。

比如，在UI上增加對(duì)于圖片的支持、進(jìn)行底層數(shù)據(jù)類型的修改、以及添加對(duì)于各種生成模型的支持等。

得益于之前該團(tuán)隊(duì)成員Max Ku的ImagenHub的成功，讓姜東甫等人得以利用其中包裝好的文生圖與圖片編輯模型的應(yīng)用程序編程接口（API，Application Programming Interface），借此順利地支持了一系列文生圖模型的部署。

研究中，姜東甫主要負(fù)責(zé)提供網(wǎng)站部署的技術(shù)支持和榜單維護(hù)。

而由于之前他們自己的服務(wù)器沒有提供網(wǎng)站部署的服務(wù)，出于服務(wù)器安全問題的考量，他們只能開放https端口。

后來，課題組使用nginx來進(jìn)行端口轉(zhuǎn)發(fā)，在購買服務(wù)器網(wǎng)址，并使用certbot生成ssl許可證之后，才終于支持了這一整套流程。

最終，他們?cè)?024年2月發(fā)布了本次產(chǎn)品的第一個(gè)版本，并能支持文生圖和圖生圖這兩類任務(wù)。

再后來，本次產(chǎn)品在上線之后受到了一些關(guān)注，Hugging Face的工作人員主動(dòng)聯(lián)系他們，表示愿意給他們提供圖形處理器（GPU，graphics processing unit）支持。

姜東甫表示：“維護(hù)這樣一個(gè)Arena需要很多GPU資源，一般來說一個(gè)模型就要單獨(dú)占用一張GPU來進(jìn)行部署。”

于是，為了適配Hugging Face所提供的GPU的使用特性，姜東甫和同事Yuansheng Ni開始針對(duì)代碼進(jìn)行徹底重構(gòu)。

重構(gòu)之后的代碼，不僅能夠保持之前所有的功能，并能順利在Hugging Face的Space上進(jìn)行部署。

同時(shí)，姜東甫的導(dǎo)師認(rèn)為同樣需要增加對(duì)于文生視頻任務(wù)的支持。于是，該團(tuán)隊(duì)的Max Ku帶領(lǐng)Shizhuo Sun和RongQi Fan開發(fā)了VideoGenHub。

只用幾行代碼，VideoGenHub就可以在本地完成一個(gè)文生視頻模型的推理。

最終，他們?cè)?024年4月發(fā)布了GenAI-Arena上的text-to-video板塊。

日前，相關(guān)論文以《GenAI競(jìng)技場(chǎng)：生成模型的開放式評(píng)估平臺(tái)》（GenAI Arena:An Open Evaluation Platform for Generative Models）發(fā)表于NeurIPS 2024 Dataset&Benchmark Track，論文可在arXiv上閱讀[1]。

圖|相關(guān)論文（來源：arXiv）

據(jù)姜東甫介紹，這一成果受到了Chatbot Arena的啟發(fā)。

如前所述，在2023年底啟動(dòng)本次項(xiàng)目的時(shí)候，對(duì)于大模型的評(píng)測(cè)來說，很多人批評(píng)采用傳統(tǒng)基準(zhǔn)只能測(cè)試出來準(zhǔn)確率，并不能反應(yīng)大模型在人類真實(shí)世界中的交互能力，也就是無法反應(yīng)人類偏好。

而Chatbot Arena作為一個(gè)人人都可以參與的大模型競(jìng)技場(chǎng)，逐漸成為大模型評(píng)測(cè)的權(quán)威榜單。

對(duì)于該課題組來說，他們也希望自己研發(fā)的GenAI-Arena，能在未來逐漸成為多模態(tài)生成模型的可靠榜單。

目前，GenAI-Arena已能支持14個(gè)文生圖模型、10個(gè)圖像編輯模型和8個(gè)文生圖模型，并一共收集到9000多個(gè)人類偏好的投票。

這些投票結(jié)果經(jīng)過處理之后，都將用于GenAI Arena榜單的計(jì)算。同時(shí)，在GenAI-Arena上收集的數(shù)據(jù)，能被用于多個(gè)不同的應(yīng)用場(chǎng)景。

姜東甫展望稱：“除了GenAI-Arena這樣直接由人類進(jìn)行投票進(jìn)行評(píng)測(cè)的方法，能否開發(fā)出更快、更準(zhǔn)確的指標(biāo)，來對(duì)模型進(jìn)行自動(dòng)化評(píng)測(cè)？”

他和所在團(tuán)隊(duì)認(rèn)為：目前的多模態(tài)語言模型已經(jīng)具有這方面的潛力。

比如，可以通過使用GPT-4o、LLaVA-Next、Mantis等多模態(tài)模型，來進(jìn)行文生圖、文生視頻的打分與評(píng)測(cè)。

基于此，該團(tuán)隊(duì)將自己收集的人類偏好投票，打包處理后變成了GenAI-Bench，以用于衡量這些多模態(tài)語言模型的能力。

同時(shí)，GenAI-Bench可以促進(jìn)生成更好的自動(dòng)化指標(biāo)，在更加符合人類偏好的同時(shí)，還能更好地衡量生成式模型的能力。

另外，姜東甫所思考的另一個(gè)問題是：“能否利用所收集的偏好數(shù)據(jù)，來針對(duì)生成模型訓(xùn)練獎(jiǎng)勵(lì)模型？或者直接針對(duì)生成模型進(jìn)行DPO（Direct Preference Optimization，一種用于語言模型對(duì)齊的技術(shù)）？這樣一來就能直接提升生成模型的能力。”

最近，領(lǐng)域內(nèi)的一篇論文已經(jīng)證明，這是一個(gè)非常有潛力的方向。

當(dāng)然，姜東甫等人還需要收集更多的數(shù)據(jù)，只有達(dá)到類似Chatbot Arena那樣的量級(jí)（百萬的投票），才能達(dá)到更好的影響力。

參考資料：

1.https://arxiv.org/pdf/2406.04485

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

AMD最強(qiáng)AI芯片，性能強(qiáng)過英偉達(dá)H200，但市場(chǎng)仍不買賬，生態(tài)是最大短板？

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

大模型都卷麻了，米哈游為啥還來摻一腳

農(nóng)業(yè)農(nóng)村部發(fā)布全國智慧農(nóng)業(yè)典型案例

相約日照!2023鋼鐵展洽會(huì)4月26日開展

大模型會(huì)是一場(chǎng)泡沫嗎？

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

關(guān)于入選《2021中國大數(shù)據(jù)應(yīng)用樣板100例》的決定

華云數(shù)據(jù)吳濤：筑牢信創(chuàng)云基座助力政企數(shù)字化轉(zhuǎn)型

科技賦能公共安全，三川科技打造可持續(xù)競(jìng)爭(zhēng)力

三維家攜家居行業(yè)CXO走進(jìn)抖音集團(tuán)，揭秘家居營銷新趨勢(shì)

知識(shí)圖譜解決方案

天融信張鳳羽：數(shù)字化轉(zhuǎn)型下的云安全攻防之道

熱點(diǎn)資訊

什么是 OSI 模型？OSI 模型的七層是哪些？

自動(dòng)化測(cè)試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

AMD最強(qiáng)AI芯片，性能強(qiáng)過英偉達(dá)H200，但市場(chǎng)仍不買賬，生態(tài)是最大短板？

數(shù)據(jù)中心邁入液冷時(shí)代

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

大模型都卷麻了，米哈游為啥還來摻一腳

農(nóng)業(yè)農(nóng)村部發(fā)布全國智慧農(nóng)業(yè)典型案例

相約日照!2023鋼鐵展洽會(huì)4月26日開展

大模型會(huì)是一場(chǎng)泡沫嗎？

本月熱門

精選文章

熱點(diǎn)資訊

AMD最強(qiáng)AI芯片，性能強(qiáng)過英偉達(dá)H200，但市場(chǎng)仍不買賬，生態(tài)是最大短板？

數(shù)據(jù)中心邁入液冷時(shí)代

研究人員打造大模型評(píng)測(cè)標(biāo)準(zhǔn)GenAI-Arena，已能支持13個(gè)文生圖模型

大模型都卷麻了，米哈游為啥還來摻一腳

AMD最強(qiáng)AI芯片，性能強(qiáng)過英偉達(dá)H200，但市場(chǎng)仍不買賬，生態(tài)是最大短板？