智能體可以商業(yè)化了?

王智遠
AI智能體時代快要來了,應(yīng)用爆發(fā)點就在我們眼前;智能體可能會成為AI應(yīng)用的主流,還會迎來爆發(fā)式的增長。這個觀點引起業(yè)界的討論,也讓我對智能體有了更深的認識。

本文來自鈦媒體(www.tmtpost.com),作者 | 王智遠。

你用智能體嗎?類似聊天機器人的東西。

以前,了解一個行業(yè),得看大量數(shù)據(jù),查好多資料,現(xiàn)在AI改變了做事、生活的方式;只要問幾個問題,它就能幫我整理出清晰的計劃。

最近在看martech市場,信息量巨大,我告訴智能體想看全景圖,它直接幫我找到了答案,很方便。所以,智能體是最好的AI應(yīng)用方向嗎?我不知道。

不過,百度李廠長在百度世界2024大會上提到:

AI智能體時代快要來了,應(yīng)用爆發(fā)點就在我們眼前;智能體可能會成為AI應(yīng)用的主流,還會迎來爆發(fā)式的增長。這個觀點引起業(yè)界的討論,也讓我對智能體有了更深的認識。

我一直在關(guān)注這個領(lǐng)域。我覺得智能體不僅是提供提示、旅行建議、分析文檔的工具。它們更像有智慧的專家,能進行深入的交流。

智能體和傳統(tǒng)的問答機器不一樣,它們能和用戶連續(xù)對話,一步步深入問題的核心,這是它們的強項。前幾天,我就用智能體解決了obsidian插件沖突的問題。

不過,進一步探索中,我發(fā)現(xiàn),智能體還有很多問題需要解決。什么問題呢?

第一個:使用距離。

使用距離?什么意思?別人不會用嗎?不是的。準確說,是用戶習慣。

智能體不僅是一個聊天機器人,更像一個超級大腦,我們用聊天的方式跟它交流,但要認識到它真的可以解決系統(tǒng)問題。

這個過程,不是簡單的一問一答那么簡單,是可以讓思考更上一層樓,讓效率翻一倍。

舉個身邊的例子:

前幾天,有個朋友在群里說要做PPT。咱們以前做PPT,基本上兩種方法。第一種非常老土,不用AI,自己把內(nèi)容整理好,結(jié)構(gòu)搭起來,然后動手做,這種方法雖然踏實,但費時費力,效率不高。

第二種呢,用AI幫忙,先給個提示詞,再給AI一些背景資料,讓它根據(jù)提示詞和資料來輔助你整理后,再給新的提示詞,讓它幫我們把內(nèi)容做得更結(jié)構(gòu)化,最后,用這些內(nèi)容去做PPT。

這種方法效率提升了,但還缺少點人性化的互動。智能體呢,它更高級,屬于第三種方法。

我們可以直接跟它說:接下來有個做PPT的任務(wù),你跟我著一起完成。我先給你一些資料,你學習下,然后,學習過程中,給我提出問題,類似于問我要多少頁?每頁突出什么?

如此循環(huán)漸進的像一個合作伙伴,不僅理解了需求,還能提出建設(shè)性意見,同時又節(jié)省了寫提示詞的時間,還能達到我們想要的目的。

所以,智能體真的很能干活兒。它是三維思考的。

想用好它,我們得有點項目思維、或者任務(wù)思維,這樣才能發(fā)揮巨大作用;但是,很多人還在用二維思維,你問我答的方式,如果一直這樣想,用智能體的速度和效率就上不去。

比起使用距離,第二個關(guān)于API的問題要廠商們思考下。

事情是這樣:

前兩天百度上搜比亞迪,看到官網(wǎng)用了智能體,我就跟它說:“幫我找找比亞迪內(nèi)飾的照片。”結(jié)果,你猜怎么著?它給我生成了四張圖。

我差點笑出聲,這不是搞笑嗎?我要生成圖嗎?當然不是。我更希望它能直接從官網(wǎng)上給我調(diào)出照片來。

緊接著,我?guī)е蓡?,又試了豆包、騰訊元寶,想讓他們幫我P個圖。結(jié)果都差不多,我發(fā)現(xiàn)他們對P圖的理解跟我不一樣。

我理解的P圖是用Photoshop那樣去掉背景,但他們好像把P圖理解成生成新照片。

這個問題可能出在智能體本身。因為,它們現(xiàn)在還做不到那種專業(yè)的修圖效果,背后缺少某種插件或能力模塊;只有當能調(diào)用這些模塊時,才能幫我修圖。

為什么大公司都做不到智能體處理一整套任務(wù)呢?

因為,一個智能體要完成一個復(fù)雜的工作流,背后不是靠一個生成模塊就能搞定的,它要調(diào)動很多數(shù)據(jù)和應(yīng)用程序。

打個比方:

你去餐廳吃飯,不需要知道廚師是怎么做菜的,菜就端到你面前了。但其實,廚師得用各種材料,比如白菜、辣椒、調(diào)料,把它們放到鍋里一炒,菜就出來了。

智能體也是這樣,得調(diào)用各種API,API像菜單一樣,集合所有的服務(wù)和請求,讓不同的軟件能夠互相交流合作,最后才能達到想要的效果。

現(xiàn)在,很多網(wǎng)站和APP都有自己的API,API不統(tǒng)一,不標準化,這導致智能體沒有足夠的接口可以用,限制了它的發(fā)展。

還有,以前沒有統(tǒng)一的底層開發(fā)框架,技術(shù)團隊開發(fā)智能體時得從零開始,現(xiàn)在阿里、百度都做了統(tǒng)一開發(fā)框架,解決了底層數(shù)據(jù)處理、模型訓練、監(jiān)控部署的問題,但中小型軟件服務(wù)商還是不多。

因此,也就限制了其他能力模塊的發(fā)展。

當然,這也是個好機會,因為如果有人能在細分場景下,利用自己對特定業(yè)務(wù)場景的了解,開發(fā)出一個更符合一線需求的智能體,那就有機會成功。

比如:

你在教育賽道很多年,憑借個人對教育技術(shù)和孩子學習需求的理解,開發(fā)一個智能體,幫孩子提升學習進度和測試成績,就能賺到錢。

所以,API的問題需要時間和更多中小開發(fā)者入局。

能寫出這些想法,自然不會錯過開發(fā)智能體的好機會;開發(fā)中,我發(fā)現(xiàn)一個第三個問題:能力泛化。

什么意思呢?

起初,我設(shè)計占卜師智能體,目的讓它進行占卜。沒想到,它不僅能占卜,還能算命,甚至能總結(jié)文章。

我以為提示詞沒寫清楚。后來,試了其他智能體,發(fā)現(xiàn)也有類似情況。你可以嘗試看看,連官方出的Kimi也存在這個問題。

為什么會這樣?

我認為智能體知識可以分為兩部分:一部分通用知識,像我們學的基礎(chǔ)知識,這是智能體必須掌握的。

另一部分則是針對特定行業(yè)的,隨著行業(yè)人士的使用,智能體也能跟著學習。這有點像能力的二八法則:80%的能力是基礎(chǔ)的,剩下20%在實際工作中邊干邊學。

實際上,過去一年,大廠都在訓練大型語言模型,這些大模型的本質(zhì),是通過海量數(shù)據(jù)訓練得到的,目的是生成最有可能的回答,而不是專注于特定能力或任務(wù)。

這種泛化能力,讓智能體在多任務(wù)中表現(xiàn)不錯,因為這些任務(wù)都涉及語言處理和推理,這意味著,要進行任務(wù)微調(diào),就必須做任務(wù)分離。

而開發(fā)多個智能體,是一種過程性的解決方案。

你想想看,各大平臺現(xiàn)在都在嘗試將智能體做垂直細分,專注于特定領(lǐng)域或任務(wù),比如法律助手、醫(yī)療問診、學習輔助等。

這種趨勢也表明,未來肯定會有更多人根據(jù)不同需求,選擇和使用專門化的智能體,推動AI更深入地融入日常生活和工作場景。這是第一點。

第二點,目前市面上缺少專業(yè)的智能體開發(fā)者,能培養(yǎng)的也很少,我想去,居然還找不到;要不,廠牌們考慮下開個班吧?

現(xiàn)在的開發(fā)者,很多是對AI感興趣的人,他們在設(shè)計智能體時,主要是用提示詞來引導模型的行為。

但是,提示詞這種東西,像個軟性的約束,并不能真正限制智能體能干什么,這種設(shè)計方式,很容易讓智能體“越界”。

你想想看,我設(shè)計一個占卜師智能體,占卜本身可能“順便”會提供點兒心理咨詢,甚至還會推薦人生規(guī)劃;這種能力的模糊性,不是我不愿意解決,而是目前工具和方法還不夠成熟,我很難精準控制。

就像禪宗里說的:“少即是多(Less is more)”。少比多難,少不是減少,是聚焦,得用技術(shù)聚焦。

還有一點:現(xiàn)在智能體缺少明確場景。這聽起來像廢話。但你有沒有想過,這些場景究竟從哪里來?

釘釘總裁不窮說過一句話:

“AI得從下面開始,先讓懂行的人用起來。”只有對AI有需求、愿意嘗試的人開始用了,才能慢慢積累出真正有用的場景,找到AI真正的價值。

我覺得,就算智能體慢慢融入了醫(yī)療、法律、金融這些領(lǐng)域,它還是停留在“看起來懂,但不專業(yè)”的階段。

因為現(xiàn)在大多數(shù)人還是把智能體當成“聊天工具”,聊天工具是什么?即弄個董宇輝文案、搞個媽媽式嘮叨,這不能幫助行業(yè)。

如果這種情況一直這樣下去,最后的結(jié)果就是,大家還是只把它當聊天工具玩,沒法真正用到工作中;這樣的話,別說提高行業(yè)效率了,這不僅是對智能體的浪費,更是錯過了行業(yè)變革的機會。

所以,一個簡單的結(jié)論即:我們要思考清楚,哪類智能體做工具?哪類做平臺?需要什么樣的開發(fā)者來開發(fā)智能體?

這三個問題回答清楚,智能體才會在場景中發(fā)揮作用。

看到這,別誤會,我不是說通用智能體不行,確實有它們的好處。

垂直單一的智能體可能比較局限,但能處理多種任務(wù)處理就厲害了,因為能同時搞定好幾個工作流程,不僅速度快,而且思考的過程也更清楚、更靠譜。

而且,這些智能體還能處理各種類型數(shù)據(jù),在很多場景下都能派上用場。

在公司里,這種能干多種事情的智能體,已經(jīng)開始發(fā)揮作用了,比如:RPA技術(shù),現(xiàn)在已經(jīng)被看作是智能體的一個工具。

這種通用智能體在營銷、生產(chǎn)管理、運營自動化這些地方也有很多可能。

最近特別火的一個話題就是:智能體在手機界面上的應(yīng)用。大家都覺得,將來它們會成為重要的用戶界面入口,就像人一樣,能自動操作界面,根據(jù)需要自動用APP完成任務(wù)。

比如:

騰訊的AppAgent和阿里的MobileAgent項目,或者手機廠商發(fā)布會上展示的“一句話點單”的功能,這些都是很好的例子。

我相信,在電腦、手機、自動駕駛這些領(lǐng)域,將來這種多功能的智能體會有很多應(yīng)用場景,比如:接管系統(tǒng)級操作,或者用通用智能體管理子智能體等等。

我也看到,很多智能體在一些特定場景中的開發(fā)和工程化潛力,但是,話說回來,智能體的使用和能不能商業(yè)化,是兩回事。

你想想看,如果一個公司用了被隨意開發(fā)的智能體,然后問它另一個公司的情況,它也回答了,豈不是很荒謬?

所以,不能光看宏觀敘事,還是要扎根行業(yè)去思考,希望大公司能多想想行業(yè)的實際問題。

比如:智能體怎么幫一個職員做決定,怎么規(guī)劃某個工作流程,怎么提供真正管用的解決方案。

我說的行業(yè),更準確地是行業(yè)里在用、想用智能體的人,因為只有這些人,才能會不斷給智能體特定知識;換句話說:智能體學習了他們的東西,它才會進步。

你覺得呢?

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論