本文來自微信公眾號(hào)“DeepTech深科技”。
2023年底,文生圖、文生視頻等各種模型并沒有很好的評(píng)測(cè)標(biāo)準(zhǔn)。很多論文都還在使用比較傳統(tǒng)的工具來進(jìn)行自動(dòng)化評(píng)測(cè)。
但是,這些指標(biāo)并不能反應(yīng)真實(shí)世界的用戶對(duì)于這些生成模型的偏好。
而對(duì)于生成模型來說,生成結(jié)果的好壞,又恰恰非常容易被人們所看出來,比如圖像是否扭曲、模糊,再比如視頻是否不自然等。
那么,如何開發(fā)一個(gè)能夠收集人類偏好并能直接評(píng)測(cè)各個(gè)多模態(tài)模型能力的榜單?
為了解決這個(gè)問題,加拿大滑鐵盧大學(xué)博士生姜東甫和所在團(tuán)隊(duì),提出一個(gè)由用戶來打分的多模態(tài)生成模型的競(jìng)技場(chǎng)——GenAI Arena。
圖|左起:姜東甫、max ku、tianle li(來源:姜東甫)
定下課題之后,本次論文的共同一作Tianle Li開始在Chatbot Arena的代碼基礎(chǔ)之上進(jìn)行改進(jìn),并添加了對(duì)于多模態(tài)生成模型的支持。
由于Chatbot Arena只支持生成文字的大模型,因此需要針對(duì)模型和網(wǎng)站用戶界面(UI,User Interface)做出修改。
比如,在UI上增加對(duì)于圖片的支持、進(jìn)行底層數(shù)據(jù)類型的修改、以及添加對(duì)于各種生成模型的支持等。
得益于之前該團(tuán)隊(duì)成員Max Ku的ImagenHub的成功,讓姜東甫等人得以利用其中包裝好的文生圖與圖片編輯模型的應(yīng)用程序編程接口(API,Application Programming Interface),借此順利地支持了一系列文生圖模型的部署。
研究中,姜東甫主要負(fù)責(zé)提供網(wǎng)站部署的技術(shù)支持和榜單維護(hù)。
而由于之前他們自己的服務(wù)器沒有提供網(wǎng)站部署的服務(wù),出于服務(wù)器安全問題的考量,他們只能開放https端口。
后來,課題組使用nginx來進(jìn)行端口轉(zhuǎn)發(fā),在購買服務(wù)器網(wǎng)址,并使用certbot生成ssl許可證之后,才終于支持了這一整套流程。
最終,他們?cè)?024年2月發(fā)布了本次產(chǎn)品的第一個(gè)版本,并能支持文生圖和圖生圖這兩類任務(wù)。
再后來,本次產(chǎn)品在上線之后受到了一些關(guān)注,Hugging Face的工作人員主動(dòng)聯(lián)系他們,表示愿意給他們提供圖形處理器(GPU,graphics processing unit)支持。
姜東甫表示:“維護(hù)這樣一個(gè)Arena需要很多GPU資源,一般來說一個(gè)模型就要單獨(dú)占用一張GPU來進(jìn)行部署。”
于是,為了適配Hugging Face所提供的GPU的使用特性,姜東甫和同事Yuansheng Ni開始針對(duì)代碼進(jìn)行徹底重構(gòu)。
重構(gòu)之后的代碼,不僅能夠保持之前所有的功能,并能順利在Hugging Face的Space上進(jìn)行部署。
同時(shí),姜東甫的導(dǎo)師認(rèn)為同樣需要增加對(duì)于文生視頻任務(wù)的支持。于是,該團(tuán)隊(duì)的Max Ku帶領(lǐng)Shizhuo Sun和RongQi Fan開發(fā)了VideoGenHub。
只用幾行代碼,VideoGenHub就可以在本地完成一個(gè)文生視頻模型的推理。
最終,他們?cè)?024年4月發(fā)布了GenAI-Arena上的text-to-video板塊。
日前,相關(guān)論文以《GenAI競(jìng)技場(chǎng):生成模型的開放式評(píng)估平臺(tái)》(GenAI Arena:An Open Evaluation Platform for Generative Models)發(fā)表于NeurIPS 2024 Dataset&Benchmark Track,論文可在arXiv上閱讀[1]。
圖|相關(guān)論文(來源:arXiv)
據(jù)姜東甫介紹,這一成果受到了Chatbot Arena的啟發(fā)。
如前所述,在2023年底啟動(dòng)本次項(xiàng)目的時(shí)候,對(duì)于大模型的評(píng)測(cè)來說,很多人批評(píng)采用傳統(tǒng)基準(zhǔn)只能測(cè)試出來準(zhǔn)確率,并不能反應(yīng)大模型在人類真實(shí)世界中的交互能力,也就是無法反應(yīng)人類偏好。
而Chatbot Arena作為一個(gè)人人都可以參與的大模型競(jìng)技場(chǎng),逐漸成為大模型評(píng)測(cè)的權(quán)威榜單。
對(duì)于該課題組來說,他們也希望自己研發(fā)的GenAI-Arena,能在未來逐漸成為多模態(tài)生成模型的可靠榜單。
目前,GenAI-Arena已能支持14個(gè)文生圖模型、10個(gè)圖像編輯模型和8個(gè)文生圖模型,并一共收集到9000多個(gè)人類偏好的投票。
這些投票結(jié)果經(jīng)過處理之后,都將用于GenAI Arena榜單的計(jì)算。同時(shí),在GenAI-Arena上收集的數(shù)據(jù),能被用于多個(gè)不同的應(yīng)用場(chǎng)景。
姜東甫展望稱:“除了GenAI-Arena這樣直接由人類進(jìn)行投票進(jìn)行評(píng)測(cè)的方法,能否開發(fā)出更快、更準(zhǔn)確的指標(biāo),來對(duì)模型進(jìn)行自動(dòng)化評(píng)測(cè)?”
他和所在團(tuán)隊(duì)認(rèn)為:目前的多模態(tài)語言模型已經(jīng)具有這方面的潛力。
比如,可以通過使用GPT-4o、LLaVA-Next、Mantis等多模態(tài)模型,來進(jìn)行文生圖、文生視頻的打分與評(píng)測(cè)。
基于此,該團(tuán)隊(duì)將自己收集的人類偏好投票,打包處理后變成了GenAI-Bench,以用于衡量這些多模態(tài)語言模型的能力。
同時(shí),GenAI-Bench可以促進(jìn)生成更好的自動(dòng)化指標(biāo),在更加符合人類偏好的同時(shí),還能更好地衡量生成式模型的能力。
另外,姜東甫所思考的另一個(gè)問題是:“能否利用所收集的偏好數(shù)據(jù),來針對(duì)生成模型訓(xùn)練獎(jiǎng)勵(lì)模型?或者直接針對(duì)生成模型進(jìn)行DPO(Direct Preference Optimization,一種用于語言模型對(duì)齊的技術(shù))?這樣一來就能直接提升生成模型的能力。”
最近,領(lǐng)域內(nèi)的一篇論文已經(jīng)證明,這是一個(gè)非常有潛力的方向。
當(dāng)然,姜東甫等人還需要收集更多的數(shù)據(jù),只有達(dá)到類似Chatbot Arena那樣的量級(jí)(百萬的投票),才能達(dá)到更好的影響力。
參考資料:
1.https://arxiv.org/pdf/2406.04485