本文來自微信公眾號(hào)“AI前線”,作者|Jiang Chen,Moveworks機(jī)器學(xué)習(xí)副總裁,譯者|王強(qiáng),策劃|劉燕。
從Siri到Alexa再到谷歌助手,今天我們已經(jīng)被各種人工智能系統(tǒng)包圍了。它們的設(shè)計(jì)目標(biāo)只有一個(gè):理解我們。
我們已經(jīng)看到了很多驚人的進(jìn)展。在一瞬間數(shù)以千億計(jì)的計(jì)算能力幫助下,最新的人工智能技術(shù)能夠以人類水平的準(zhǔn)確性理解某些類型的文本。然而,當(dāng)目標(biāo)文本屬于一長(zhǎng)段對(duì)話時(shí),系統(tǒng)面臨的挑戰(zhàn)就變得更加艱巨,因?yàn)樗枰紤]對(duì)話上下文來解釋用戶的意思并決定該如何回應(yīng)。不過,像Facebook的BlenderBot 2.0這樣的聊天機(jī)器人似乎預(yù)示著人類與人工智能的互動(dòng)會(huì)流暢自然許多。
但問題在于:我們給這些對(duì)話式人工智能機(jī)器人增加的復(fù)雜性越多,就越難滿足我們對(duì)實(shí)時(shí)響應(yīng)能力的期望。BlenderBot 2.0就是一個(gè)完美的例子。因?yàn)樗黄屏薆lenderBot 1.0的許多關(guān)鍵局限(包括缺乏長(zhǎng)期記憶),所以2.0版本比它的前輩要復(fù)雜得多。因此,要讓幕后起作用的機(jī)器學(xué)習(xí)(ML)響應(yīng)速度更快就更難了。
對(duì)話式人工智能和聊天機(jī)器人的速度限制
要實(shí)現(xiàn)自然流暢的對(duì)話是沒有什么秘密可言的。它需要一個(gè)讓人頭疼的龐大ML模型網(wǎng)絡(luò),為了確定下一步應(yīng)該回答什么內(nèi)容,網(wǎng)絡(luò)中每一個(gè)模型都要解決一小塊難題。一個(gè)模型可能會(huì)考慮用戶的位置,另一個(gè)模型會(huì)考慮到互動(dòng)的歷史,還有一個(gè)模型需要考慮到過去類似回應(yīng)引起的反饋——每個(gè)模型都會(huì)給系統(tǒng)增加以毫秒計(jì)的寶貴延遲。
換句話說,對(duì)話式人工智能的真正限制是我們的耐心。
“依賴地獄”的深度
我們對(duì)人工智能的期望在學(xué)術(shù)背景下完全是另一碼事。在學(xué)術(shù)背景下,我們?yōu)榱私Y(jié)果可以等待幾個(gè)小時(shí)甚至幾天;而在現(xiàn)實(shí)環(huán)境中,我們要求系統(tǒng)立即做出反應(yīng)。特別是對(duì)于對(duì)話式人工智能機(jī)器人來說,每一項(xiàng)潛在的改進(jìn)都必須考慮到降低延遲的目標(biāo)來進(jìn)行權(quán)衡。
這種延遲是所謂的“關(guān)鍵路徑“的產(chǎn)物,關(guān)鍵路徑是指:從輸入(用戶的信息)到輸出(機(jī)器人的反應(yīng))所需的最短ML模型鏈條序列。這是一個(gè)來自項(xiàng)目管理的古老概念,但在試圖避免不必要的步驟這方面,它對(duì)今天的ML網(wǎng)絡(luò)來說是非常重要的。
那么,你該如何找到關(guān)鍵路徑呢?這一切都?xì)w結(jié)為依賴關(guān)系,長(zhǎng)期以來,這一直是常規(guī)軟件開發(fā)領(lǐng)域的一個(gè)決定性問題。對(duì)于任何一種由很多部分相互連接而成的軟件架構(gòu)來說,改進(jìn)其中某一個(gè)應(yīng)用程序都可能迫使工程師更新整個(gè)系統(tǒng)。但有時(shí),對(duì)應(yīng)用A來說至關(guān)重要的更新卻與應(yīng)用B、C和D不兼容。
這就是所謂的“依賴地獄“。如果不去特別關(guān)注細(xì)節(jié)的話,機(jī)器學(xué)習(xí)的依賴關(guān)系會(huì)讓我們面對(duì)的地獄更加深邃黑暗。
正常的軟件依賴項(xiàng)是基于API的,它傳達(dá)了一個(gè)特定應(yīng)用程序的簡(jiǎn)單、離散的狀態(tài),例如電子表格中的一個(gè)單元格從紅色變?yōu)榫G色。API允許工程師在某種程度上獨(dú)立開發(fā)每個(gè)應(yīng)用程序,同時(shí)讓它們保持在同一頁面上。但對(duì)于ML的依賴項(xiàng)來說,工程師則要處理抽象的概率分布才行,這意味著我們很難搞清楚一個(gè)模型的變化應(yīng)該如何影響更大范圍的ML網(wǎng)絡(luò)。只有掌握了這些模型之間的細(xì)微關(guān)系,我們才能讓對(duì)話式人工智能成為現(xiàn)實(shí)——更不用說實(shí)時(shí)體驗(yàn)了。
通過跳過步驟來節(jié)省時(shí)間
為了充分了解對(duì)話式人工智能的依賴關(guān)系,你需要將機(jī)器學(xué)習(xí)與人類的直覺相結(jié)合在一起。
舉個(gè)例子,我們的一個(gè)對(duì)話式人工智能機(jī)器人旨在回應(yīng)員工的各種請(qǐng)求,比如說他們想要一個(gè)PowerPoint許可證,或是對(duì)PTO政策有疑問。事實(shí)證明,即使是看起來很簡(jiǎn)單的問題也會(huì)把你帶入依賴地獄的深處。PTO問題的答案可能深藏在員工手冊(cè)的第53頁,而且對(duì)于加拿大的銷售人員和西班牙的工程師來說可能還是不一樣的。此外你還要忽略很多不相關(guān)的細(xì)節(jié)(比如員工的夏威夷度假計(jì)劃),所以你有幾十個(gè)專門的ML模型,它們還必須作為一個(gè)整體來運(yùn)作。
訣竅在于確定哪些模型——也就是關(guān)鍵路徑中的哪些步驟——是解決每個(gè)問題所必需的。第一步是自然語言理解,或NLU,其目標(biāo)是將非結(jié)構(gòu)化文本轉(zhuǎn)化為機(jī)器可操作的信息。我們的NLU是一個(gè)由許多ML模型組成的管道,可以糾正錯(cuò)別字、識(shí)別關(guān)鍵實(shí)體、從噪音中分離出信號(hào)、弄清用戶的意圖,等等。有了這些信息,我們就可以開始在下游篩選出不必要的模型。
這意味著在分析公司現(xiàn)有的實(shí)際解決方案之前,預(yù)測(cè)出目標(biāo)問題有哪些有益解決方案。一名要求使用PowerPoint的員工可能會(huì)用到軟件許可或申請(qǐng)表格,但他們幾乎肯定不想要新辦公室的地圖。只要能充分利用來自NLU流程的信息,我們就可以通過所謂的“預(yù)觸發(fā)“系統(tǒng),預(yù)測(cè)哪些模型需要激活,哪些模型需要繞過。
鑒于這一過程中所涉及的概率分布的抽象性質(zhì),我們的預(yù)觸發(fā)系統(tǒng)既依賴于機(jī)器學(xué)習(xí)的輸入,也依賴于人類專家基于直覺制定的規(guī)則。歸根結(jié)底,把時(shí)間花在有意義的地方既是一門藝術(shù),也是一門科學(xué)。
為對(duì)話式AI機(jī)器人的進(jìn)步留出空間
沒有人知道對(duì)話式人工智能在十年后會(huì)是什么樣子。然而我們所知道的是,我們現(xiàn)在需要優(yōu)化我們的聊天機(jī)器人,為未來的進(jìn)步留出空間。如果我們想獲得像人類對(duì)話一樣的體驗(yàn),我們就必須考慮整個(gè)系統(tǒng)的延遲,不能毫不顧忌地增加越來越多的復(fù)雜性。
與科幻小說相反,我們?cè)谌斯ぶ悄茴I(lǐng)域看到的“突破“都是對(duì)現(xiàn)有模型和技術(shù)的許多小的、漸進(jìn)式改進(jìn)累加起來的產(chǎn)物。優(yōu)化對(duì)話式人工智能的工作并不是為了影視作品里那種效果,成果也很難在一夜之間就爆發(fā)。但是,正是這些年的不懈努力——而不是幾次天才般的思想火花——讓聊天機(jī)器人能夠?qū)崟r(shí)理解我們的意圖并幫助我們。
原文鏈接:
https://venturebeat.com/2022/02/23/why-the-true-test-for-todays-conversational-ai-chatbots-is-time/