人工智能領(lǐng)域的成就很容易被誤讀和高估。這一點在人類語言處理領(lǐng)域表現(xiàn)得最為明顯,在人類語言領(lǐng)域中,表象可能會錯誤地暗示出深層次的能力。
在過去的一年里,很多公司給人的印象是他們的聊天機(jī)器人、機(jī)器人和其他應(yīng)用程序可以像人類一樣進(jìn)行有意義的對話。只需要看看谷歌的Duplex、Hanson Robotics的Sophia及其他許多故事,就會相信我們已經(jīng)到了一個人工智能可以展示人類行為的階段。
但是掌握人類的語言需要的不僅僅是模仿人類的聲音或者創(chuàng)造出完整的句子。它需要常識和對環(huán)境、創(chuàng)造力的理解,而目前的人工智能趨勢并不具備這些。
事實上,深度學(xué)習(xí)和其他人工智能技術(shù)已經(jīng)在讓人類和電腦更接近彼此方面取得了長足的進(jìn)展。但是在電路和二進(jìn)制數(shù)據(jù)的世界以及人類大腦的奧秘之間仍然存在著巨大的鴻溝。除非我們不理解和承認(rèn)人工智能和人類智能之間的差異,否則我們將會對未實現(xiàn)的期望感到失望,并錯失人工智能發(fā)展提供的真正機(jī)會。
為了理解人工智能與人類語言關(guān)系的真正深度,我們將場分解為幾個子域來看看。
語音文字轉(zhuǎn)換
語音轉(zhuǎn)錄是人工智能算法取得最大進(jìn)展的領(lǐng)域之一。平心而論,這甚至不應(yīng)該被認(rèn)為是人工智能,但人工智能的定義是有點模糊的,而且由于許多人可能會錯誤地將自動轉(zhuǎn)錄解釋為智能的表現(xiàn),我們決定在這里研究它。
較早的技術(shù)迭代要求程序員經(jīng)歷冗長乏味的過程,即發(fā)現(xiàn)并編纂語音樣本分類和轉(zhuǎn)換為文本的規(guī)則。由于深度學(xué)習(xí)和深層神經(jīng)網(wǎng)絡(luò)的進(jìn)步,語音到文本的轉(zhuǎn)換發(fā)生了巨大的飛躍,變得更加簡單和精確。使用神經(jīng)網(wǎng)絡(luò),您可以提供大量的語音樣本和相應(yīng)的文本,而不是編碼規(guī)則。神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)單詞發(fā)音的共同模式,然后“學(xué)習(xí)”將新的語音記錄映射到相應(yīng)的文本。
這些進(jìn)步使許多服務(wù)能夠向用戶提供實時轉(zhuǎn)錄服務(wù)。
人工智能的語音到文本有很多用途。谷歌最近推出了Call Screen,這是Pixel手機(jī)上的一項功能,可以處理詐騙電話,并實時顯示通話的文本。YouTube使用深度學(xué)習(xí)提供自動的近距字幕。
但是,人工智能算法可以將語音轉(zhuǎn)換為文本,這并不意味著它明白自己在處理什么。
語音合成
語音到文本的另一面是語音合成。同樣,這不是智力,因為它與理解人類語言的意義和語境無關(guān)。但它仍然是許多應(yīng)用程序中不可或缺的一部分,這些應(yīng)用程序以自己的語言與人類交互。
和語音到文本一樣,語音合成也已經(jīng)存在很長時間。我記得90年代在實驗室里第一次看到計算機(jī)語音合成。失去聲音的漸凍癥患者數(shù)十年來一直在使用這種技術(shù),他們通過輸入句子并讓電腦為他們讀出來,從而與人進(jìn)行交流。盲人還使用這項技術(shù)來閱讀他們看不見的文字。
然而,在過去,計算機(jī)產(chǎn)生的聲音聽起來不像人類,而語音模型的創(chuàng)建需要數(shù)百小時的編碼和調(diào)整。現(xiàn)在,在神經(jīng)網(wǎng)絡(luò)的幫助下,合成人類聲音變得不那么麻煩了。
這個過程包括使用生成對抗網(wǎng)絡(luò)(GAN),這是一種人工智能技術(shù),將神經(jīng)網(wǎng)絡(luò)相互對立以創(chuàng)建新的數(shù)據(jù)。首先,神經(jīng)網(wǎng)絡(luò)會攝取一個人聲音的大量樣本,直到它能分辨出一個新的聲音樣本是否屬于同一個人。然后,第二個神經(jīng)網(wǎng)絡(luò)生成音頻數(shù)據(jù)并在第一個網(wǎng)絡(luò)中運行,以查看是否驗證它屬于主題。如果沒有,生成器將糾正其示例并通過分類器重新運行它。這兩個網(wǎng)絡(luò)重復(fù)這個過程,直到它們能夠生成聽起來很自然的樣本。
有幾個網(wǎng)站可以讓您用神經(jīng)網(wǎng)絡(luò)合成自己的聲音。這個過程很簡單,只要您提供足夠的聲音樣本就可以了,這遠(yuǎn)遠(yuǎn)低于老一代的技術(shù)要求。
這種技術(shù)有很多好的用途。例如,公司正在使用人工智能的語音合成技術(shù)來提高他們的客戶體驗,讓他們的品牌擁有自己獨特的聲音。在醫(yī)學(xué)領(lǐng)域,人工智能正在幫助漸凍癥患者恢復(fù)他們的真實聲音,而不是使用計算機(jī)化的聲音。當(dāng)然,谷歌也在使用這項技術(shù),它的Duplex功能能代表用戶用自己的聲音打電話。
人工智能語音合成也有其邪惡的用途,它可以被用來偽造,用目標(biāo)人物的聲音打電話,或者通過模仿國家元首或知名政治家的聲音來傳播假新聞。
我想我不需要提醒您,如果一臺電腦說話聽起來像個人,那并不意味著它能理解它所說的。
處理人類語言命令
這就是我們突破表面并深入人工智能與人類語言關(guān)系的地方。近年來,我們看到了自然語言處理領(lǐng)域(NLP)的巨大進(jìn)步,這也是得益于深度學(xué)習(xí)的進(jìn)步。
NLP是人工智能的一個子集,它使計算機(jī)能夠識別書面文字的含義,無論是將語音轉(zhuǎn)換為文本,通過聊天機(jī)器人等文本界面接收它們,還是從文件中讀取它們。然后,他們可以使用這些詞語背后的含義來執(zhí)行特定的動作。
但NLP是一個非常廣泛的領(lǐng)域,可能涉及許多不同的技能。NLP最簡單的形式是幫助計算機(jī)通過文本命令執(zhí)行給它們的命令。
智能語音和智能手機(jī)AI助手使用NLP處理用戶的命令?;旧?,這意味著用戶不必嚴(yán)格遵守命令的順序,并且可以使用相同句子的不同變體。
在其他地方,NLP是谷歌搜索引擎用來理解用戶查詢的更廣泛含義并返回與查詢相關(guān)的結(jié)果的技術(shù)之一。
NLP在分析工具(如谷歌Analytics和IBM Watson)中非常有用,在這些工具中,用戶可以使用自然語言語句來查詢數(shù)據(jù),而不是編寫復(fù)雜的查詢語句。
NLP的一個有趣用法是Gmail的智能回復(fù)特性。谷歌審查了電子郵件的內(nèi)容,并提出了回答建議。該功能的范圍有限,只適用于簡短回答有意義的電子郵件,比如當(dāng)谷歌的人工智能算法檢測到預(yù)定的會議,或者發(fā)件人希望聽到一句簡單的“謝謝”或“我看看”。但有時,它會給出相當(dāng)簡潔的答案,可以節(jié)省幾秒鐘的打字時間,尤其是在移動設(shè)備上。
但僅僅因為一個智能語音或AI助手能夠?qū)υ儐柼鞖獾牟煌绞阶龀龇磻?yīng),并不意味著它完全理解人類的語言。目前的NLP只擅長理解意義非常明確的句子。人工智能助手越來越擅長執(zhí)行基本命令,但如果您認(rèn)為您可以與他們進(jìn)行有意義的對話,并與他們討論抽象話題,您就會大失所望。
用人類語言說話
NLP的另一面是自然語言生成(NLG),這是一門讓計算機(jī)生成對人類有意義的文本的人工智能學(xué)科。這一領(lǐng)域同樣得益于人工智能的進(jìn)步,尤其是在深度學(xué)習(xí)方面。NLG算法的輸出可以像聊天機(jī)器人一樣以文本形式顯示,也可以像智能語音和AI助手一樣,通過語音合成轉(zhuǎn)換為語音并為用戶播放。
在許多情況下,NLG與NLP關(guān)系密切,與NLP一樣,NLG是一個非常廣闊的領(lǐng)域,可能涉及不同程度的復(fù)雜性。NLG的基本水平有一些非常有趣的用途。例如,NLG可以將圖表和電子表格轉(zhuǎn)換成文本描述。Siri和Alexa等AI助手也使用NLG來生成對查詢的響應(yīng)。
Gmail的自動完成功能以一種非常有趣的方式使用NLG。當(dāng)您輸入一個句子時,Gmail會為您提供一個完成句子的建議,您可以按tab鍵或輕敲它來選擇。這個建議考慮了您的郵件的主題,也就是說也涉及到NLP。
一些出版物正在使用人工智能來編寫基本的新聞報道。盡管一些記者編造了人工智能將如何很快取代人類作家的故事,但他們的觀點與事實相去甚遠(yuǎn)。這些新聞寫作機(jī)器人背后的技術(shù)是NLG,它通過分析人類記者撰寫報道的方式,基本上把事實和數(shù)據(jù)變成故事。它不能提出新的想法,不能寫出講述個人經(jīng)歷的故事,不能寫出介紹和闡述觀點的專欄文章。
另一個有趣的案例研究是谷歌的Duplex。谷歌的AI助手將人工智能對人類語言的掌握能力和局限性結(jié)合起來。Duplex以非常出色的方式結(jié)合了語音到文本、NLP、NLG和語音合成,使許多人相信它可以像打電話的人那樣進(jìn)行交互。但谷歌Duplex是狹義的人工智能,這意味著它將擅長執(zhí)行公司演示的任務(wù)類型,比如預(yù)訂餐廳或安排沙龍聚會。這些領(lǐng)域的問題空間是有限的和可預(yù)測的。當(dāng)您討論在餐廳預(yù)訂餐桌時,您要說的話很有限。
但是Duplex并不理解對話的上下文。它只是將人類語言轉(zhuǎn)換為計算機(jī)命令,將計算機(jī)輸出轉(zhuǎn)換為人類語言。它無法就抽象話題進(jìn)行有意義的對話,而這些話題可能會帶來不可預(yù)測的方向。
一些夸大了人工智能語言處理和生成能力的公司最終雇傭人類員工來彌補(bǔ)不足。
機(jī)器翻譯
2016年,《紐約時報》雜志刊登了一篇長篇特寫,解釋了人工智能(更具體地說,是深度學(xué)習(xí))是如何讓谷歌廣受歡迎的翻譯引擎的準(zhǔn)確性突飛猛進(jìn)的。誠然,谷歌翻譯已經(jīng)大大改善。
但人工智能翻譯也有其自身的局限性,我也經(jīng)常遇到這種情況。神經(jīng)網(wǎng)絡(luò)使用一種機(jī)械的、統(tǒng)計的過程來翻譯不同的語言。他們舉例說明在目標(biāo)語言中單詞和短語出現(xiàn)的不同模式,并嘗試在翻譯時選擇最方便的模式。換句話說,它們是基于數(shù)學(xué)值的映射,而不是翻譯單詞的意思。
相比之下,當(dāng)人們進(jìn)行翻譯時,他們會考慮語言的文化和語境,詞匯和諺語背后的歷史。他們在做決定之前會先對話題的背景進(jìn)行研究。這是一個非常復(fù)雜的過程,涉及到很多常識和抽象的理解,而這些是人工智能所不具備的。
印第安納大學(xué)認(rèn)知科學(xué)和比較文學(xué)教授道格拉斯·霍夫斯塔特(Douglas Hofstadter)在《大西洋月刊》上發(fā)表的文章中,揭示了人工智能翻譯的局限性。
需要明確的是,人工智能翻譯有很多非常實用的用途。當(dāng)我將法語翻譯成英語時,我經(jīng)常使用它來加快我的工作速度。翻譯簡單、真實的句子幾乎是完美的。例如,如果您在和不懂您的語言的人交流,而且您對理解一個句子的意思比對翻譯的質(zhì)量更感興趣,像谷歌這樣的人工智能應(yīng)用程序可能是一個非常有用的工具。
但不要指望人工智能能在短時間內(nèi)取代專業(yè)譯者。
我們需要了解AI對人類語言的理解
首先,我們需要認(rèn)識到深度學(xué)習(xí)的局限性,它目前是人工智能的前沿。目前,深度學(xué)習(xí)還無法理解人類語言。當(dāng)有人破解代碼,創(chuàng)造出能夠像人類思維那樣理解世界的人工智能時,情況可能會發(fā)生變化。但這不會很快實現(xiàn)。
正如大多數(shù)例子所顯示的那樣,人工智能是一種增強(qiáng)人類能力的技術(shù),可以幫助提高或減輕使用人類語言的任務(wù)的速度。但是仍然缺乏常識和抽象地解決問題的能力,使它能夠完全自動化需要掌握人類語言的學(xué)科。
所以,當(dāng)您面對一種聽起來、看起來和行為都很像人類的人工智能技術(shù)時,不妨看看它對人類語言的掌握有多深。您將能夠更好地理解它的功能和限制。外表有時會騙人。
原文作者:Ben Dickson