2019里人工智能領(lǐng)域會出現(xiàn)怎樣的演變呢?相比之前幾年會有什么樣的變化呢?
人工智能正主導(dǎo)著全球企業(yè)的創(chuàng)新——無論是大型企業(yè)集團還是年輕的初創(chuàng)企業(yè)。據(jù)市場研究報告《從技術(shù)和垂直行業(yè)看人工智能市場——全球機會分析和行業(yè)預(yù)測》稱,2018年至2025年,全球人工智能市場規(guī)模預(yù)計將從2016年的40.65億美元增長至1694.11億美元,復(fù)合年增長率達到55.6%。該報告按技術(shù)、行業(yè)垂直和地區(qū)來劃分人工智能市場。人工智能技術(shù)被細分為機器學(xué)習(xí)、自然語言處理、圖像處理和語音識別。2016年,在營收方面,機器學(xué)習(xí)領(lǐng)域主導(dǎo)了人工智能市場,得益于人工智能行業(yè)解決方案的需求增加,預(yù)計未來幾年這一趨勢將會延續(xù)下去。根據(jù)Statista的數(shù)據(jù),最大的營收部分來自面向企業(yè)應(yīng)用程序市場的人工智能。
以下是對2019年人工智能領(lǐng)域的預(yù)測:
IBM、谷歌、微軟、亞馬遜以及機器學(xué)習(xí)API提供商將發(fā)布更具包容性的數(shù)據(jù)集,以應(yīng)對人工智能內(nèi)嵌的歧視和偏見問題
機器學(xué)習(xí)是人工智能的主要形式,已被成功應(yīng)用到多個不同的領(lǐng)域,比如亞馬遜智能助手Alexa上的語音識別,F(xiàn)acebook自動標(biāo)記照片功能的人臉識別,無人駕駛汽車當(dāng)中的行人檢測,甚至基于你訪問電子商務(wù)網(wǎng)站的記錄決定向你展示鞋子廣告等。在機器學(xué)習(xí)中,決策是從人類決策和標(biāo)簽的現(xiàn)有數(shù)據(jù)記錄中學(xué)習(xí)的。因此,為了讓計算機區(qū)分狗和貓,我們向它展示了許多帶標(biāo)記的狗的圖像和許多帶標(biāo)記的貓的圖像,讓它學(xué)習(xí)了解二者之間的區(qū)別。這種看似無害的方法本身帶來了一個嚴(yán)重的問題——偏見。如果我們盲目地把人類的標(biāo)記和決策輸入電腦,電腦可能會完全復(fù)制我們的偏見。臭名昭著的微軟Tay機器人便是前車之鑒。
更糟糕但更微妙的是,來自數(shù)據(jù)本身的偏見并不能代表我們想要了解的廣大群體。例如,今年早些時候,喬伊·布洛沃米(Joy Buolawumi)和蒂尼特·格布魯(Timnit Gebru)的研究表明,在對一個人的性別進行分類的任務(wù)中,主流的商用計算機視覺產(chǎn)品在被灌輸淺膚色男性的圖像時表現(xiàn)最佳,在被灌輸深膚色女性的圖像時表現(xiàn)最差。如果我們訓(xùn)練這些分類器所用的數(shù)據(jù)集沒有包含足夠多的正確標(biāo)記的有色人種,也沒有捕捉到更廣泛的文化差異(不管來自哪里),這會是一個巨大的問題。
在這些非包容性數(shù)據(jù)集上訓(xùn)練的機器學(xué)習(xí)模型所做的關(guān)于樣本不足的人的決策顯然是有缺陷的。2019年,我們將會看到擁有主流計算機視覺產(chǎn)品的大公司公開發(fā)布更具包容性的數(shù)據(jù)集。這些數(shù)據(jù)集將在地理、種族、性別、文化概念以及其他維度上變得更加均衡,它們的公開發(fā)布也將驅(qū)動研究者展開研究將人工智能的偏見最小化。
隨著讓人工智能的決策變得更容易解釋的產(chǎn)品逐漸成為主流,醫(yī)療和金融服務(wù)領(lǐng)域?qū)嗟夭捎萌斯ぶ悄?/p>
當(dāng)人工智能基于算法作出可輕易解釋的決策時,生活要簡單得多。例如,算法首先了解你是否頭痛,然后看看你是否發(fā)燒,然后得出你患了流感的結(jié)論,這個過程是可以解釋的。只要算法如何作出決定是可以解釋的,無論它的預(yù)測是對是錯,它都具有巨大的價值。
在像醫(yī)學(xué)這樣我們可能會用機器做出生死攸關(guān)的決定的領(lǐng)域,能夠追溯理解為什么機器會給出特定的行動建議顯然非常重要。在金融等領(lǐng)域,這一點也至關(guān)重要。如果人工智能算法拒絕向某人提供貸款,我們很有必要理解其中的原因——尤其重要的是要確保它不存在毫無緣由的歧視。隨著人工智能變得越來越成功,它更依賴于一種被稱為“深度學(xué)習(xí)”的技術(shù),這種技術(shù)利用了許多的神經(jīng)網(wǎng)絡(luò)層(因此其名稱帶有“深度”一詞)。在這些系統(tǒng)中,沒有明確的方法來解釋發(fā)生了什么,以及機器的決策原因。這個系統(tǒng)就像一個極其精確的黑匣子,可以接收一系列癥狀、測量數(shù)據(jù)、圖像以及病人的狀態(tài)和病史數(shù)據(jù),并能輸出高度準(zhǔn)確的診斷結(jié)果。
例如,谷歌AI可以通過檢查你的眼睛來預(yù)測你是否有患心臟病的風(fēng)險!你的眼睛到底有什么毛???沒有人會輕易認(rèn)為自己的眼睛有毛病!2019年,隨著初創(chuàng)企業(yè)和大公司尋求推動金融和醫(yī)療等行業(yè)采用人工智能,將會有專門針對這些行業(yè)的商業(yè)支持系統(tǒng),幫助我們反思深層神經(jīng)網(wǎng)絡(luò),并讓我們更好地解釋人工智能的預(yù)測。企業(yè)將會嘗試將這些預(yù)測的解釋流程完全自動化,但成功的做法將會是,使得人類能夠調(diào)查探究“黑盒子”,更好地理解它的決策,這樣機器背后的人類可以提出自己的解釋。
算法VS算法。除了“假新聞”,還會有其它領(lǐng)域的人工智能系統(tǒng)受到基于人工智能的攻擊
隨著生成逼真的虛假圖像和視頻的技術(shù)不斷進步,以及欺騙機器學(xué)習(xí)算法的新方法的出現(xiàn)(例如假新聞)——自動駕駛汽車和其他關(guān)鍵任務(wù)系統(tǒng)將面臨新的安全問題。到目前為止,公眾的關(guān)注主要集中在圖像、視頻和音頻上面——泛泛地說,就是“假媒體”和“假新聞”泛濫成災(zāi)——但在2019年,我們將看到某種攻擊示范:產(chǎn)生令人信服但虛假的結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù),導(dǎo)致機器在一些問題的自動化決策上出錯,比如信用評分和從文件中提取數(shù)據(jù)。
遷移學(xué)習(xí)和模擬成為主流,幫助企業(yè)克服冷啟動問題和避免高企的培訓(xùn)數(shù)據(jù)積累成本
大多數(shù)人工智能項目的成功在很大程度上取決于是否擁有高質(zhì)量的、帶標(biāo)記的數(shù)據(jù)。大多數(shù)項目都死在這個問題上,因為它們通常都沒有關(guān)于手頭問題的現(xiàn)成數(shù)據(jù),又或者很難手工標(biāo)記所有現(xiàn)有的數(shù)據(jù)。
例如,即使是像預(yù)測客戶是否會購買產(chǎn)品這樣簡單的事情,在起初沒有客戶的時候也會遇到冷啟動問題。如果你的生意一直都沒能做大,那么你就永遠不會得到在利用最強大技術(shù)上可能必不可少的“大數(shù)據(jù)”。更糟糕的是,在需要專業(yè)知識的情況中(例如,給腫瘤貼標(biāo)簽),獲得數(shù)千個數(shù)據(jù)標(biāo)記的成本極其高昂。
人工智能研究的一個活躍領(lǐng)域是如何應(yīng)對這種挑戰(zhàn)。在只有少量數(shù)據(jù)的情況下,我們?nèi)绾文苡蒙蠌姶蟮纳疃葘W(xué)習(xí)技術(shù)呢?2019年,有兩種方法將在企業(yè)內(nèi)得到更多的采用。第一個有效的方法是遷移學(xué)習(xí)——從一個有大量數(shù)據(jù)的領(lǐng)域中學(xué)習(xí)的模型被用來重新訓(xùn)練機器在另一個數(shù)據(jù)少得多的領(lǐng)域中學(xué)習(xí)。例如,Landing AI?能夠通過僅僅使用少數(shù)有缺陷的產(chǎn)品的例子來檢測生產(chǎn)線上目標(biāo)對象的缺陷?,F(xiàn)在任何人都可以先從從像ImageNet這樣的大型數(shù)據(jù)集學(xué)習(xí)了大量關(guān)于圖像的知識的模型著手,訓(xùn)練專門的物體分類器(比如區(qū)分損壞的汽車或房屋,自動處理保險)。這些領(lǐng)域也不必基于相同的數(shù)據(jù)類型。研究人員使用從圖像數(shù)據(jù)庫學(xué)習(xí)的模型來訓(xùn)練分類器,獲取傳感器數(shù)據(jù)。
第二種方法是合成數(shù)據(jù)生成和模擬。生成式對抗網(wǎng)絡(luò)可讓我們創(chuàng)造非常逼真的數(shù)據(jù)。眾所周知,英偉達公司使用生成式對抗網(wǎng)絡(luò)生成了虛擬但非常引人注目的名人面孔。自動駕駛汽車公司們還創(chuàng)建了虛擬的模擬場景,在這些場景中,它們能夠在比現(xiàn)實生活中更大的距離上訓(xùn)練自己的駕駛算法。例如,Waymo無人駕駛汽車在模擬中行駛了50億英里,在現(xiàn)實世界的道路上則僅僅行駛了8英里。2019年,企業(yè)將利用模擬、虛擬現(xiàn)實和合成數(shù)據(jù)來在機器學(xué)習(xí)上取得巨大的進展。而在以前,由于數(shù)據(jù)方面的局限性,這是不可能實現(xiàn)的。
越來越多的隱私要求將推動更多的人工智能發(fā)生在邊緣設(shè)備上,大型互聯(lián)網(wǎng)巨頭將紛紛投資于邊緣人工智能,以獲得競爭優(yōu)勢
隨著消費者對于將自己所有的數(shù)據(jù)都交給大型互聯(lián)網(wǎng)公司變得越來越警覺,可提供不需要將數(shù)據(jù)上傳到云端的服務(wù)的企業(yè)將享有競爭優(yōu)勢。業(yè)界普遍認(rèn)為,產(chǎn)品服務(wù)必須要使用云端才能進行像面部識別和語音識別這樣的昂貴的機器學(xué)習(xí)運算,但是硬件的進步和人們隱私保護意識的增強,將會推動更多的機器學(xué)習(xí)運算直接發(fā)生在手機和更小的邊緣設(shè)備上,進而減少將潛在的敏感數(shù)據(jù)發(fā)送到中央服務(wù)器的需要。這一趨勢還處于早期階段,蘋果等公司在移動設(shè)備上進行智能處理(運行機器學(xué)習(xí)模型),而不是在云上(例如,使用CoreML和它專用的神經(jīng)引擎芯片,谷歌也已宣布推出TPU邊緣產(chǎn)品)。2019年,這一趨勢將會加速發(fā)展,移動化、智能家居和物聯(lián)網(wǎng)生態(tài)系統(tǒng)將會推動機器學(xué)習(xí)發(fā)生在邊緣設(shè)備上。