本文來自微信公眾號“計算機世界”。
作為一種界面,生成式人工智能具有巨大的潛力,可以讓用戶以獨特的方式查詢數(shù)據(jù),從而獲得符合其需求的答案。例如,作為查詢助手,生成式人工智能工具可以通過簡單的問答形式幫助客戶更好地瀏覽龐大的產(chǎn)品知識庫。
但是,在使用生成式人工智能回答有關(guān)數(shù)據(jù)的問題之前,首先評估所提出的問題非常重要。
這是Miso.ai公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人Lucky Gunasekara對當(dāng)今開發(fā)生成式人工智能工具的團隊提出的建議。
Miso.ai是智能回答項目的供應(yīng)商合作伙伴。Smart Answers使用生成式人工智能回答有關(guān)CIO.com和Foundry網(wǎng)站Computerworld、CSO、InfoWorld和Network World上發(fā)表的文章的問題。Miso.ai還為IDG的消費技術(shù)網(wǎng)站PCWorld、Macworld和TechHive建立了類似的Answers項目。
我對智能問答如何獲得洞察力很感興趣,于是請Gunasekara就Miso.ai理解和回答用戶問題的方法進行了深入探討。
大型語言模型(LLM)"實際上比我們想象的要天真得多,"古納塞卡拉說。例如,如果被問到一個帶有強烈觀點的問題,大型語言模型很可能會去挑選能夠證實該觀點的數(shù)據(jù),即使現(xiàn)有數(shù)據(jù)顯示該觀點是錯誤的。因此,如果被問到"為什么X項目失敗了?",法學(xué)碩士可能會列出一連串項目失敗的原因--即使它是成功的。這可不是面向公眾的應(yīng)用程序應(yīng)該做的。
古納塞卡拉指出,評估問題是所謂的RAG(檢索增強生成)應(yīng)用程序通常會忽略的一個步驟。RAG應(yīng)用程序?qū)LM指向特定的數(shù)據(jù)體,并告訴它僅根據(jù)這些數(shù)據(jù)回答問題。
此類應(yīng)用程序通常遵循這種(略微簡化的)設(shè)置模式:
●將現(xiàn)有數(shù)據(jù)分割成塊,因為所有數(shù)據(jù)都太大,無法用一個LLM查詢來處理。
●為每個數(shù)據(jù)塊生成所謂的嵌入,將該數(shù)據(jù)塊的語義表示為一串?dāng)?shù)字,并將其存儲起來。根據(jù)數(shù)據(jù)變化的需要進行更新。
然后是每個問題:
●生成嵌入。
●根據(jù)嵌入計算,找出與問題含義最相似的文本塊。
●將用戶的問題輸入LLM,讓它只根據(jù)最相關(guān)的信息塊來回答。
在這里,古納塞卡拉的團隊采取了不同的方法,在搜索相關(guān)信息之前增加了一個檢查問題的步驟。"Miso首席技術(shù)官兼聯(lián)合創(chuàng)始人安迪-謝(Andy Hsieh)解釋說:"我們不直接問這個問題,而是先問這個假設(shè)是否正確。
除了檢查問題中固有的假設(shè)外,還有其他方法可以增強基本的RAG管道,幫助改進結(jié)果。Gunasekara建議,尤其是在從實驗階段向生產(chǎn)型解決方案過渡時,要超越基礎(chǔ)知識。
Gunasekara說:"現(xiàn)在很多人都在強調(diào)'獲取一個矢量數(shù)據(jù)庫,進行RAG設(shè)置,然后一切就可以開箱即用了'。這是獲得概念驗證的好方法。但是,如果你需要創(chuàng)建一個企業(yè)級服務(wù),并且不會造成意想不到的后果,那就必須要考慮上下文、上下文、上下文。
這可能意味著要使用文本語義之外的其他信號,如重復(fù)性和流行度。Gunasekara提到了Miso正在與一家烹飪網(wǎng)站合作的另一個項目,即解構(gòu)問題:"派對上最適合提前烘焙的蛋糕是什么?
他說,"你需要分清你真正需要的是什么"。"提前制作"蛋糕意味著它不需要馬上食用;"用于聚會"意味著它需要供幾個人以上食用。還有一個問題是,法律碩士如何確定哪些食譜是"最好的"。這可能意味著要使用其他網(wǎng)站的數(shù)據(jù),例如哪些食譜流量最大、讀者排名靠前,或者被編輯選中--所有這些都與查找和總結(jié)相關(guān)文本塊是分開的。
古納塞卡拉說:"要想把這些事情做對,很多詭異的魔力都在于這些語境線索。
雖然LLM的質(zhì)量是另一個重要因素,但Miso認為沒有必要使用評價最高、價格最昂貴的商業(yè)LLM。相反,為了降低成本,同時也因為有些客戶不希望將他們的數(shù)據(jù)交給第三方,順應(yīng)潮流,順便為一些客戶項目微調(diào)了基于Llama 2的模型。順應(yīng)Gunasekara所稱的"開源[LLMs]正在形成一股巨大的推動力",Miso也在這樣做。
"開源確實正在迎頭趕上,"Hsieh補充道。"開源模型已經(jīng)非常非常接近超越GPT-4。"