口爆无码黄色片不卡,国产电影一区二区,亚洲图片小说欧美激情

業(yè)內(nèi)：ChatGPT們毀了網(wǎng)絡(luò)共享根基，內(nèi)容所有者不愿再分享

2023-08-31 15:46

網(wǎng)易科技報(bào)道

辰辰

隨著人工智能技術(shù)的迅猛發(fā)展，曾經(jīng)用于搜索引擎索引的網(wǎng)絡(luò)爬蟲(chóng)現(xiàn)在被用于收集訓(xùn)練數(shù)據(jù)來(lái)開(kāi)發(fā)人工智能模型。內(nèi)容創(chuàng)作者意識(shí)到，他們的勞動(dòng)成果被大科技公司免費(fèi)使用來(lái)開(kāi)發(fā)新的人工智能工具，爬蟲(chóng)協(xié)議已經(jīng)無(wú)法解決這個(gè)問(wèn)題。這可能會(huì)影響內(nèi)容所有者在線分享內(nèi)容的動(dòng)力，從而從根本上改變互聯(lián)網(wǎng)。

本文來(lái)自網(wǎng)易科技報(bào)道，作者/辰辰。

8月31日消息，隨著人工智能技術(shù)的迅猛發(fā)展，曾經(jīng)用于搜索引擎索引的網(wǎng)絡(luò)爬蟲(chóng)現(xiàn)在被用于收集訓(xùn)練數(shù)據(jù)來(lái)開(kāi)發(fā)人工智能模型。內(nèi)容創(chuàng)作者意識(shí)到，他們的勞動(dòng)成果被大科技公司免費(fèi)使用來(lái)開(kāi)發(fā)新的人工智能工具，爬蟲(chóng)協(xié)議已經(jīng)無(wú)法解決這個(gè)問(wèn)題。這可能會(huì)影響內(nèi)容所有者在線分享內(nèi)容的動(dòng)力，從而從根本上改變互聯(lián)網(wǎng)。

以下為翻譯內(nèi)容：

20世紀(jì)90年代末，出現(xiàn)了一種名為爬蟲(chóng)協(xié)議（robots.txt）的簡(jiǎn)單代碼，允許網(wǎng)站所有者告知搜索引擎的機(jī)器人爬蟲(chóng)哪些頁(yè)面可以抓取，哪些頁(yè)面不能抓取。如今，爬蟲(chóng)協(xié)議已成為業(yè)界普遍接受的非官方網(wǎng)絡(luò)規(guī)則之一。

機(jī)器人爬蟲(chóng)的主要目的是索引信息，改善搜索引擎的搜索結(jié)果。谷歌、必應(yīng)和其他搜索引擎都有爬蟲(chóng)程序，它們生成網(wǎng)絡(luò)內(nèi)容的索引信息，并提供給潛在的數(shù)十億用戶。這也是互聯(lián)網(wǎng)蓬勃發(fā)展的基礎(chǔ)，創(chuàng)作者們?cè)诰W(wǎng)絡(luò)上分享豐富信息，因?yàn)樗麄冎烙脩魰?huì)訪問(wèn)他們的網(wǎng)站并瀏覽廣告、訂閱服務(wù)或購(gòu)買商品。

然而，生成式人工智能和大語(yǔ)言模型正在從根本上迅速改變網(wǎng)絡(luò)爬蟲(chóng)的任務(wù)。這些工具并沒(méi)有為內(nèi)容創(chuàng)作者提供支持，反而成為他們的敵人。

機(jī)器人喂飽了大科技公司

現(xiàn)在，網(wǎng)絡(luò)爬蟲(chóng)收集在線信息，并生成大規(guī)模的數(shù)據(jù)集，這些數(shù)據(jù)集被富有的科技公司免費(fèi)用于開(kāi)發(fā)人工智能模型。比如，CCBot為最大的人工智能數(shù)據(jù)集之一Common Crawl提供數(shù)據(jù)；GPTbot則是向人工智能明星創(chuàng)企OpenAI提供數(shù)據(jù)。谷歌將自家的大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)稱為“無(wú)限集合”，但沒(méi)有提及大部分?jǐn)?shù)據(jù)來(lái)自Common Crawl的精簡(jiǎn)版C4。

這些公司開(kāi)發(fā)的人工智能模型使用這些免費(fèi)信息來(lái)學(xué)習(xí)如何回答用戶的問(wèn)題，這與為網(wǎng)站建立索引信息、讓用戶訪問(wèn)原始內(nèi)容的既定模式相去甚遠(yuǎn)。

如果沒(méi)有潛在的消費(fèi)者，內(nèi)容創(chuàng)作者就沒(méi)有動(dòng)力讓網(wǎng)絡(luò)爬蟲(chóng)繼續(xù)收集免費(fèi)數(shù)據(jù)。GPTbot已被亞馬遜、愛(ài)彼迎、Quora和其他上千家網(wǎng)站屏蔽。對(duì)Common Crawl數(shù)據(jù)集的CCBot的屏蔽也越來(lái)越多。

“粗糙的工具”

阻止這些網(wǎng)絡(luò)爬蟲(chóng)的方式并沒(méi)有太大變化。網(wǎng)站所有者只能部署爬蟲(chóng)協(xié)議并屏蔽特定爬蟲(chóng)，但效果并不理想。

“這是件有點(diǎn)粗糙的工具，”Wordpress前高管、科技投資者、數(shù)字營(yíng)銷公司Yoast創(chuàng)始人約斯特·德·瓦爾克(Joost de Valk)說(shuō)。“它沒(méi)有法律依據(jù)，基本上是由谷歌維護(hù)的，盡管他們聲稱是與其他搜索引擎共同維護(hù)的。”

考慮到各大企業(yè)對(duì)高質(zhì)量人工智能數(shù)據(jù)的巨大需求，爬蟲(chóng)協(xié)議也容易被操縱。例如，像OpenAI這樣的公司只需更改其網(wǎng)絡(luò)爬蟲(chóng)的名稱，就可以繞過(guò)人們使用爬蟲(chóng)協(xié)議設(shè)置的禁止規(guī)則。

此外，由于爬蟲(chóng)協(xié)議是自愿遵守的，網(wǎng)絡(luò)爬蟲(chóng)也可以簡(jiǎn)單地忽略指令并繼續(xù)收集信息。像Brave等較新的搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)就不會(huì)受到規(guī)則的影響。

“網(wǎng)上的一切信息都被模型吸進(jìn)了真空，”研究人類生成數(shù)據(jù)與人工智能之間關(guān)系的計(jì)算機(jī)科學(xué)教授尼克·文森特(Nick Vincent)說(shuō)。“這背后發(fā)生了很多事情。在接下來(lái)的時(shí)間里，我們希望能以不同的方式評(píng)估這些模型。

創(chuàng)作者的回應(yīng)

德·瓦爾克警告稱，內(nèi)容所有者和創(chuàng)作者可能已經(jīng)太遲鈍，無(wú)法理解允許這些網(wǎng)絡(luò)爬蟲(chóng)免費(fèi)獲取他們的數(shù)據(jù)、不加區(qū)分地使用這些數(shù)據(jù)來(lái)開(kāi)發(fā)人工智能模型的風(fēng)險(xiǎn)。

“現(xiàn)在，什么都不做意味著，‘我認(rèn)可我的內(nèi)容出現(xiàn)在世界上所有的人工智能和大語(yǔ)言模型中，’”德·瓦爾克說(shuō)。“這是完全錯(cuò)誤的。需要?jiǎng)?chuàng)建更好的爬蟲(chóng)協(xié)議，但搜索引擎和大型人工智能團(tuán)隊(duì)自己很難會(huì)去做這件事。”

一些大公司和網(wǎng)站最近做出了回應(yīng)，其中一些是第一次部署爬蟲(chóng)協(xié)議。

檢測(cè)人工智能生成內(nèi)容的公司Originality.ai表示，截至8月22日，在1000個(gè)最受用戶歡迎的網(wǎng)站中有70個(gè)使用爬蟲(chóng)協(xié)議屏蔽GPTBot。

Originality.ai還發(fā)現(xiàn)，在1000個(gè)最受歡迎的網(wǎng)站中，有62個(gè)屏蔽了Common Crawl的網(wǎng)絡(luò)爬蟲(chóng)CCBot。隨著人們對(duì)人工智能數(shù)據(jù)收集的意識(shí)日益增強(qiáng)，今年有越來(lái)越多的網(wǎng)站開(kāi)始屏蔽Common Crawl。

然而，網(wǎng)站不能強(qiáng)制執(zhí)行爬蟲(chóng)協(xié)議。任何爬蟲(chóng)都可以忽略該文件，繼續(xù)收集網(wǎng)頁(yè)上的數(shù)據(jù)，而網(wǎng)頁(yè)所有者可能根本不知情。即使部署爬蟲(chóng)協(xié)議具有法律依據(jù)，其初衷與利用網(wǎng)絡(luò)信息開(kāi)發(fā)人工智能模型關(guān)系不大。

紐約大學(xué)技術(shù)法律與政策診所主任杰森·舒爾茨(Jason Schultz)表示，"Robots.txt不太可能被視為禁止使用網(wǎng)站數(shù)據(jù)的法律。"這主要是為了表明人們不希望自己的網(wǎng)站被搜索引擎編入索引，而不是表示人們不希望自己的內(nèi)容被用于訓(xùn)練機(jī)器學(xué)習(xí)和人工智能。

“這是一個(gè)雷區(qū)”

事實(shí)上，這種情況已經(jīng)持續(xù)了多年。早在2018年，OpenAI就公布了首個(gè)GPT模型，并通過(guò)BookCorpus數(shù)據(jù)集進(jìn)行訓(xùn)練。Common Crawl始于2008年，并于2011年通過(guò)亞馬遜云服務(wù)公開(kāi)了數(shù)據(jù)集。

盡管如今屏蔽GPTBot的網(wǎng)站越來(lái)越多，但對(duì)于那些擔(dān)心自己的數(shù)據(jù)被用于訓(xùn)練人工智能模型的企業(yè)來(lái)說(shuō)，Common Crawl的威脅更大?？梢哉f(shuō)，Common Crawl之于人工智能，就像谷歌之于互聯(lián)網(wǎng)搜索。

非營(yíng)利組織知識(shí)共享（Creative Commons）首席執(zhí)行官凱瑟琳·斯蒂勒(Catherine Stihler)表示，

“這是一個(gè)雷區(qū)。我們幾年前才更新了戰(zhàn)略，現(xiàn)在我們處于一個(gè)不同的世界。”

知識(shí)共享始于2001年，是創(chuàng)作者和內(nèi)容所有者用知識(shí)共享許可協(xié)議來(lái)替代嚴(yán)格版權(quán)，在網(wǎng)上使用并分享作品許可的一種方式。在共享許可協(xié)議的基礎(chǔ)上，創(chuàng)作者和所有者保留他們的權(quán)利，并允許其他人訪問(wèn)內(nèi)容并創(chuàng)作衍生作品。維基百科、Flickr、Stack Overflow等許多知名網(wǎng)站都是通過(guò)知識(shí)共享許可協(xié)議運(yùn)作的。

知識(shí)共享組織在最新的五年戰(zhàn)略中表示，在訓(xùn)練人工智能技術(shù)方面，開(kāi)放內(nèi)容的使用存在問(wèn)題。知識(shí)共享組織希望使在線作品共享更加公平。

1600億網(wǎng)頁(yè)

通過(guò)CCBot爬取公開(kāi)信息的Common Crawl擁有最大的數(shù)據(jù)存儲(chǔ)庫(kù)。自2011年以來(lái)，它已從1600億個(gè)網(wǎng)頁(yè)中抓取和保存信息，并持續(xù)增加。一般來(lái)說(shuō)，Common Crawl每月抓取并保存大約30億個(gè)網(wǎng)頁(yè)的信息。

Common Crawl稱，這項(xiàng)事業(yè)是一個(gè)“開(kāi)放數(shù)據(jù)”項(xiàng)目，旨在讓任何人“打開(kāi)自己的好奇心，分析世界，追求卓越的想法”。

然而，現(xiàn)在的情況完全不同。大量Common Crawl收集的數(shù)據(jù)被大科技公司用于開(kāi)發(fā)專有模型。即使一家大型科技公司目前沒(méi)有從人工智能產(chǎn)品中獲利，未來(lái)也有可能這樣做。

一些大型科技公司已停止披露訓(xùn)練數(shù)據(jù)來(lái)源。然而，許多強(qiáng)大的人工智能模型都是使用Common Crawl開(kāi)發(fā)的。它幫助谷歌開(kāi)發(fā)了Bard，幫助Meta訓(xùn)練Llama，幫助OpenAI創(chuàng)建ChatGPT。

Common Crawl還向The Pile提供數(shù)據(jù)，后者還擁有更多從其他爬蟲(chóng)抓取的數(shù)據(jù)集。The Pile已廣泛用于人工智能項(xiàng)目，包括Llama和微軟與英偉達(dá)共同開(kāi)發(fā)的MT-NLG。

從今年6月份開(kāi)始，The Pile下載量最大的數(shù)據(jù)之一是受版權(quán)保護(hù)的漫畫(huà)書(shū)，包括阿奇漫畫(huà)、蝙蝠俠、X戰(zhàn)警、星球大戰(zhàn)和超人系列的作品。這些作品都是DC漫畫(huà)和漫威創(chuàng)作的，現(xiàn)在仍受版權(quán)保護(hù)。最近有報(bào)道稱，The Pile中還存儲(chǔ)了大量受版權(quán)保護(hù)的書(shū)籍。

紐約大學(xué)的舒爾茨表示，爬蟲(chóng)的目的和使用方式完全不同。很難監(jiān)管或要求它們以特定方式使用數(shù)據(jù)。

對(duì)于The Pile來(lái)說(shuō)，雖然它承認(rèn)數(shù)據(jù)中包含受版權(quán)保護(hù)的材料，但在創(chuàng)立數(shù)據(jù)集的技術(shù)文章中聲稱，“處理和分發(fā)他人擁有的數(shù)據(jù)也可能違反版權(quán)法”的說(shuō)法幾乎沒(méi)有人會(huì)認(rèn)同。

此外，The Pile還辯稱，盡管數(shù)據(jù)集中存儲(chǔ)了相對(duì)未經(jīng)改變的作品，但根據(jù)合理使用原則，對(duì)這些材料的使用應(yīng)該是變革性的。The Pile還承認(rèn)，在訓(xùn)練大語(yǔ)言模型時(shí)，需要使用完整的版權(quán)內(nèi)容以產(chǎn)生最佳效果。

網(wǎng)絡(luò)爬蟲(chóng)和人工智能項(xiàng)目中所謂的合理使用觀點(diǎn)已經(jīng)受到了質(zhì)疑。作家、視覺(jué)藝術(shù)家甚至源代碼開(kāi)發(fā)人員起訴OpenAI、微軟和Meta等公司，因?yàn)樗麄兊脑瓌?chuàng)作品在未經(jīng)許可的情況下被用于訓(xùn)練模型，而他們并沒(méi)有從中受益。

微軟前高管、風(fēng)投公司安德森·霍洛維茨(Andreessen Horowitz)合伙人史蒂文·辛諾夫斯基(Steven Sinofsky)最近在社交媒體上寫(xiě)道，即便將東西放到互聯(lián)網(wǎng)上，也不能不經(jīng)同意就免費(fèi)、無(wú)限制地將某人的勞動(dòng)成果用于商業(yè)用途。

沒(méi)有解決辦法

“我們現(xiàn)在正在努力解決所有這些問(wèn)題，”知識(shí)共享組織首席執(zhí)行官斯蒂勒表示，有很多問(wèn)題需要解決：補(bǔ)償、授權(quán)、信任。在人工智能時(shí)代，我們還沒(méi)有答案。

德·瓦爾克表示，由于知識(shí)共享許可協(xié)議可以促進(jìn)版權(quán)的流通性、允許自己擁有的作品在互聯(lián)網(wǎng)上使用，可以作為開(kāi)發(fā)人工智能模型的一種潛在許可模式。

斯蒂勒對(duì)此并不確定。她說(shuō)，涉及到人工智能時(shí)，也許并沒(méi)有單一的解決方案。即使是更靈活的通用協(xié)議，也可能行不通。你如何向整個(gè)互聯(lián)網(wǎng)授權(quán)？

斯蒂勒說(shuō)：“與我交談過(guò)的每一位律師都說(shuō)，許可并不能解決問(wèn)題。”

她經(jīng)常與作者、人工智能行業(yè)高管等利益相關(guān)者討論這個(gè)問(wèn)題。斯蒂勒今年早些時(shí)候會(huì)見(jiàn)了OpenAI的代表，并表示公司正在討論如何獎(jiǎng)勵(lì)創(chuàng)作者。

但她補(bǔ)充說(shuō)，目前還不清楚人工智能時(shí)代的公共空間將會(huì)是什么樣子。

鑒于網(wǎng)絡(luò)爬蟲(chóng)已經(jīng)為大型科技公司收集了大量數(shù)據(jù)，加上內(nèi)容創(chuàng)作者根本無(wú)法掌控，互聯(lián)網(wǎng)可能會(huì)發(fā)生巨大變化。

如果發(fā)布信息意味著將數(shù)據(jù)免費(fèi)提供給與自己競(jìng)爭(zhēng)的人工智能模型，那么這種活動(dòng)可能會(huì)停止。

已經(jīng)有跡象表明，訪問(wèn)問(wèn)答網(wǎng)站Stack Overflow來(lái)回答問(wèn)題的程序員越來(lái)越少，因?yàn)樗麄冎暗母冻霰挥脕?lái)訓(xùn)練人工智能模型，現(xiàn)在這些模型可以自動(dòng)回答許多問(wèn)題。

斯蒂勒表示，所有在線創(chuàng)作內(nèi)容的未來(lái)可能很快就會(huì)像現(xiàn)在的流媒體一樣，內(nèi)容被鎖在訂閱服務(wù)中，成本越來(lái)越高。

“如果我們不小心，最終就會(huì)導(dǎo)致公共空間關(guān)閉，”斯蒂勒說(shuō)。“將會(huì)有更多有圍墻的花園、更多人們無(wú)法訪問(wèn)的東西。這不是未來(lái)知識(shí)和創(chuàng)造力的成功模式。”（辰辰）

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

簡(jiǎn)析防火墻即服務(wù)（FWaaS）的應(yīng)用價(jià)值與挑戰(zhàn)

業(yè)內(nèi)：ChatGPT們毀了網(wǎng)絡(luò)共享根基，內(nèi)容所有者不愿再分享

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

業(yè)內(nèi)：ChatGPT們毀了網(wǎng)絡(luò)共享根基，內(nèi)容所有者不愿再分享

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

ChatGPT限流生成式大模型觸碰算力天花板？

科創(chuàng)丨文心一言開(kāi)啟國(guó)產(chǎn)大模型時(shí)代，應(yīng)用新機(jī)遇

《貴陽(yáng)貴安“萬(wàn)企融合”大賦能行動(dòng)實(shí)施方案》解讀

國(guó)家數(shù)據(jù)局：今年將陸續(xù)推出八項(xiàng)制度文件

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

安全初創(chuàng)企業(yè)Pindrop獲得9000萬(wàn)美元融資用于預(yù)防語(yǔ)音詐騙

支持國(guó)密算法的TurboEx郵件數(shù)據(jù)安全解決方案

谷歌在Kubernetes平臺(tái)上部署Istio 以輕松管理微服務(wù)

2024國(guó)有企業(yè)數(shù)智化轉(zhuǎn)型推進(jìn)大會(huì)8月召開(kāi)：共議數(shù)智轉(zhuǎn)型，展望行業(yè)未來(lái)

載譽(yù)而歸!北京中控國(guó)數(shù)榮獲“2023國(guó)資國(guó)企數(shù)字化轉(zhuǎn)型領(lǐng)先服務(wù)商”，入刊《2023中國(guó)大數(shù)據(jù)應(yīng)用樣板工程100例》

中冶賽迪信息亮相2022行業(yè)信息化技術(shù)創(chuàng)新發(fā)展峰會(huì)

熱點(diǎn)資訊

什么是 OSI 模型？OSI 模型的七層是哪些？

自動(dòng)化測(cè)試有哪些常見(jiàn)的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

簡(jiǎn)析防火墻即服務(wù)（FWaaS）的應(yīng)用價(jià)值與挑戰(zhàn)

國(guó)產(chǎn)CPU破局路上，黎明將近

業(yè)內(nèi)：ChatGPT們毀了網(wǎng)絡(luò)共享根基，內(nèi)容所有者不愿再分享

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

ChatGPT限流 生成式大模型觸碰算力天花板？

科創(chuàng)丨文心一言開(kāi)啟國(guó)產(chǎn)大模型時(shí)代，應(yīng)用新機(jī)遇

《貴陽(yáng)貴安“萬(wàn)企融合”大賦能行動(dòng)實(shí)施方案》解讀

國(guó)家數(shù)據(jù)局：今年將陸續(xù)推出八項(xiàng)制度文件

本月熱門(mén)

精選文章

熱點(diǎn)資訊

簡(jiǎn)析防火墻即服務(wù)（FWaaS）的應(yīng)用價(jià)值與挑戰(zhàn)

國(guó)產(chǎn)CPU破局路上，黎明將近

業(yè)內(nèi)：ChatGPT們毀了網(wǎng)絡(luò)共享根基，內(nèi)容所有者不愿再分享

ChatGPT限流生成式大模型觸碰算力天花板？

科創(chuàng)丨文心一言開(kāi)啟國(guó)產(chǎn)大模型時(shí)代，應(yīng)用新機(jī)遇

國(guó)產(chǎn)CPU破局路上，黎明將近