人工智能是個高科技、寬領(lǐng)域、多維度、跨學科的集大成者,從立足大數(shù)據(jù)、圍繞互聯(lián)網(wǎng)的純計算機應(yīng)用,逐步衍生到人們?nèi)粘Ia(chǎn)生活的方方面面,在細微之處改善和改變著我們。目前,不少新技術(shù)、新模式已經(jīng)逐步投入到現(xiàn)實運用,但是多數(shù)領(lǐng)域仍然處在推廣、試驗、研究階段,如何把握推廣人工智能技術(shù)的重大機遇,讓人們像普及手機一樣用上人工智能,這是我們這一代人必須面對的時代發(fā)展“必答題”。
2018年人工智能技術(shù)已在多方面實現(xiàn)突破性進展,國內(nèi)外的科技公司都在不斷嘗試將人工智能應(yīng)用于更多領(lǐng)域,不論科技巨頭還是初創(chuàng)企業(yè),都在致力于不斷創(chuàng)新,推動技術(shù)進步,接下來我們就來看看十項中外人工智能領(lǐng)域富有突破性的技術(shù)。
一、基于神經(jīng)網(wǎng)絡(luò)的機器翻譯
入選理由:翻譯是“自然語言處理”的最重要分支,也是比較難的一支。早年間,機器翻譯還被視作 “低級翻譯”被嘲諷,如今神經(jīng)網(wǎng)絡(luò)的機器翻譯準確性大大提高,堪比專業(yè)人工翻譯。我們熟知的谷歌翻譯、微軟語音翻譯以及搜狗語音識別等都是基于此項技術(shù)。
技術(shù)突破:機器翻譯是科研人員攻堅了數(shù)十年的研究領(lǐng)域,其技術(shù)核心是一個擁有海量結(jié)點的深度神經(jīng)網(wǎng)絡(luò),它可以自動的從語料庫中學習翻譯知識。由于神經(jīng)網(wǎng)絡(luò)能夠比較好地模擬人腦神經(jīng)元多層深度傳遞的過程,它在解決一些復雜問題的時候有著非常明顯的突破性表現(xiàn)。
今年3月,微軟宣布其研發(fā)的機器翻譯系統(tǒng)首次在通用新聞的漢譯英上達到了人類專業(yè)水平,微軟基于之前的研究積累,自然語言計算組在此次的系統(tǒng)模型中增加了另外兩項新技術(shù):聯(lián)合訓練和一致性規(guī)范,以提高翻譯的準確性。最終實現(xiàn)了自然語言處理的又一里程碑突破,將機器翻譯超越人類業(yè)余譯者的時間,提前了整整7年。
重大意義:基于神經(jīng)網(wǎng)絡(luò)的機器翻譯,直接改善了之前逐詞直譯的效果,升級為以整個句子為單位進行翻譯。
二、基于視覺的機器人自主導航及智能應(yīng)用
入選理由:機器人的終極目標是為人類提供智能化的服務(wù),其中自主導航是近年來人類一直想要攻克的技術(shù)壁壘,臻迪(PowerVision)通過視覺等多傳感器融合,使其水下機器人能實現(xiàn)自主導航及智能識別,在智能機器人領(lǐng)域內(nèi)取得了突破性進展。
技術(shù)突破:隨著機器人的應(yīng)用場景及作業(yè)任務(wù)越來越復雜,單一傳感器難以滿足應(yīng)用需求。而多傳感器的信息融合對硬件資源依賴程度比較高,臻迪(PowerVision)基于自身在機器人行業(yè)深耕細作多年所積累的各類傳感器、慣性導航、運動控制、相機ISP、視覺檢測/識別、視覺SLAM等核心技術(shù),以及深度學習等核心算法,通過嵌入式端一體化集成平臺的系統(tǒng)架構(gòu)及優(yōu)化設(shè)計,突破了移動平臺硬件資源的限制,使水下機器人更加準確、智能、全面地感知目標,對水下的魚類進行鎖定、檢測、識別、跟隨等。實現(xiàn)了自主導航在水下機器人領(lǐng)域的智能應(yīng)用。
重大意義:通過導航控制、視覺技術(shù)與深度學習的結(jié)合實現(xiàn)了讓機器人在全局環(huán)境中的定位及自主導航,為人類探索更為廣闊的水下資源和應(yīng)用需求提供強有力的保障和安全措施。
三、DuerOS對話式人工智能系統(tǒng)
入選理由:DuerOS3.0能夠為用戶帶來了劃時代的自然對話交互,包括情感語音播報、聲紋識別等能力在內(nèi)的自然語言交互技術(shù)的全面升級。
技術(shù)突破:DuerOS是百度度秘事業(yè)部研發(fā)的對話式AI操作系統(tǒng),擁有10大類目的250多項技能。DuerOS包括了從語音識別到語音播報再到屏幕顯示的一個完整交互流程,以及背后支撐交互的自然語言理解、對話狀態(tài)控制、自然語言生成、搜索等等核心技術(shù),這些技術(shù)支撐著應(yīng)用層和能力層的實現(xiàn)。
2018年7月4日,最新的DuerOS 3.0正式發(fā)布,使賦能的產(chǎn)品能夠?qū)崿F(xiàn)語音多輪糾錯,進行復雜的遞進意圖識別與帶邏輯的條件意圖識別,從而更加準確判斷用戶意圖,最終實現(xiàn)功能升維——利用擴展特征理解用戶行為?;诖?,DuerOS3.0提供了包括有屏設(shè)備解決方案、藍牙設(shè)備解決方案和行業(yè)解決方案等在內(nèi)超過20個跨場景、跨設(shè)備的解決方案。
重大意義:DuerOS率先開啟AI時代商業(yè)化,將為生態(tài)合作伙伴從產(chǎn)品、內(nèi)容與推廣三大方面提供完整的應(yīng)用方案支持,加速AI設(shè)備落地。
四、移動AR技術(shù)
入選理由:未來AR與AI需要相互加持,可以將AR比喻成AI的眼睛。
技術(shù)突破:集成了眾多計算機科技和圖形圖像學技術(shù),包括實時渲染技術(shù)、空間定位追蹤、圖像識別、人機交互、顯示技術(shù)、云端存儲、數(shù)據(jù)傳輸、內(nèi)容開發(fā)工具等領(lǐng)域。
AR技術(shù)不僅展現(xiàn)了真實世界的信息,而且將虛擬的信息同時顯示出來,兩種信息相互補充、疊加。在視覺化的增強現(xiàn)實中,用戶利用頭戴顯示器,把真實世界與電腦圖形多重合成在一起,便可以看到真實的世界圍繞著它。增強現(xiàn)實技術(shù)包含了多媒體、三維建模、實時視頻顯示及控制、多傳感器融合、實時跟蹤及注冊、場景融合等新技術(shù)與新手段,為人類感知信息提供了新的方式。
未來移動AR技術(shù)將向創(chuàng)意性AR應(yīng)用、基于位置的AR體驗、多人AR體驗發(fā)展。
重大意義:隨著蘋果 ARKit、谷歌 ARCore 的發(fā)布,意味著全球 5 億臺支持 AR 功能的移動設(shè)備正在吸引所有的公司入局,這些公司正在將數(shù)據(jù)與 API 相結(jié)合,為用戶創(chuàng)造新的 AR 體驗。
五、行為識別技術(shù)
入選理由:行為識別技術(shù)應(yīng)用于安防,為安全又上了一道鎖。
技術(shù)突破:店鋪安裝攝像頭已經(jīng)是一件非常普遍的行為,但普通的攝像頭只能紀錄店鋪內(nèi)人們的行為,如果發(fā)現(xiàn)盜竊需要通過觀看監(jiān)控記錄人工排查,耗時費力。
而近日,日本電信巨頭宣布已研發(fā)出一款名為“AI Guardman”的新型人工智能安全攝像頭,這款攝像頭可以通過對人類動作意圖的理解,在盜竊行為發(fā)生前就能準確預測,從而幫助商店識別偷竊行為,發(fā)現(xiàn)潛在的商店扒手。
這套人工智能系統(tǒng)采用開源技術(shù),能夠?qū)崟r對視頻流進行掃描,并預測人們的姿勢。當遇到監(jiān)控中出現(xiàn)可以行為時,系統(tǒng)會嘗試將姿勢數(shù)據(jù)與預定義的“可疑”行為匹配,一旦發(fā)現(xiàn)就會通過相關(guān)手機App來通知店主。據(jù)相關(guān)媒體報道,這款產(chǎn)品使得商店減少了約四成的盜竊行為。
重大意義:通過行為識別技術(shù),能夠第一時間發(fā)現(xiàn)犯罪分子,預測犯罪行為,有效保護店鋪安全。
六、機器人流程自動化
入選理由:機器人流程自動化能夠幫助甚至代替人類負擔大量簡單且單一、重復而繁重的工作,并且效率更高、零失誤。
技術(shù)突破:機器人流程自動化(RPA)是通過使用高性能認知技術(shù)實現(xiàn)業(yè)務(wù)的自動化和工作的效率。人類只需在操作界面上編寫需要人工完成的工作流程,即可處理各種業(yè)務(wù),如瀏覽器,云,以及各種軟件。
Gartner數(shù)據(jù)顯示,在過去的一年中,全球范圍中大型商業(yè)巨頭里有300家陸陸續(xù)續(xù)開展了RPA工程,將原先手工化的流程進行自動化改革。隨著科技的進步RPA將融入更多人工智能技術(shù),即智能流程自動化(Intelligent Process Automation)。相當于在基于規(guī)則的自動化基礎(chǔ)(RPA)之上增加基于深度學習和認知技術(shù)的推理、判斷、決策能力。
重大意義:機器人流程自動化能夠大幅提升企業(yè)的工作效率,減少人員投入,幫助企業(yè)降低成本,讓人類釋放生產(chǎn)力,騰出雙手去做價值更高的事情。
七、像素級聲源定位系統(tǒng)PixelPlayer
入選理由:從視覺和聽覺信號角度實現(xiàn)聲源分離,開辟研究新途徑。
技術(shù)突破:在進行音樂編輯時,一般是利用均衡器將音樂中的低音部分調(diào)出來,而麻省理工學院計算機科學和人工智能實驗室的研究人員發(fā)現(xiàn)了更好的解決方案。他們所研發(fā)的新系統(tǒng)PixelPlayer。
PixelPlayer能夠通過結(jié)合聲音和圖像信息,機器學習系統(tǒng)能以無監(jiān)督的方式從圖像或聲音中識別目標、定位圖像中的目標,以及分離目標產(chǎn)生的聲音。當我們給定一個輸入視頻,PixelPlayer可以聯(lián)合地將配音分離為目標組件以及在圖像幀上定位目標組件。PixelPlayer 允許在視頻的每個像素上定位聲源。
簡單點說就是PixelPlayer能識別出視頻中哪個物體發(fā)出哪些聲音,并將聲音分離出來。
重大意義:PixelPlayer能夠過濾伴奏、識別音源,不僅能幫助人類處理音樂,還能夠幫助機器人更好地理解其他物體所產(chǎn)生的環(huán)境聲音。
八、兼顧高精度學習和低精度推理的深度學習芯片
入選理由:這個芯片可以涵蓋目前已知的最佳訓練和最好推理,能夠保持所有處理器組件能夠得到數(shù)據(jù)和工作。
技術(shù)突破:該深度學習芯片是IBM正在研究的項目之一。IBM將這個芯片的目標利用率定在90%。這將是一個質(zhì)的突破,為了實現(xiàn)這一突破,IBM的研發(fā)團隊做了兩項創(chuàng)新。
首先,利用率低通常是因為存在于芯片周圍的數(shù)據(jù)流瓶頸。為了突破這些信息障礙,該項目的團隊開發(fā)了一個“定制”的數(shù)據(jù)流系統(tǒng)。該數(shù)據(jù)流系統(tǒng)是一種網(wǎng)絡(luò)方案,可以加速數(shù)據(jù)從一個處理引擎到下一個處理引擎的傳輸過程。它還針對要處理的是學習任務(wù)還是推理任務(wù)以及不同的精度進行了優(yōu)化。
第二項創(chuàng)新是團隊使用專門設(shè)計的“便箋本”形式的片上存儲器,而不是CPU或GPU上的傳統(tǒng)高速緩沖存儲器。構(gòu)建它的目標是為了保持數(shù)據(jù)流經(jīng)芯片的處理引擎,并確保數(shù)據(jù)在恰當?shù)臅r間處于正確的位置。為了獲得90%的利用率,IBM必須使設(shè)計出的便箋本具有巨大的讀/寫帶寬。
重大意義:該芯片可以執(zhí)行當前所有的三種主要深度學習AI:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、多層感知器(MLP)和長-短期記憶(LSTM)。這些技術(shù)共同主導了語言、視覺和自然語言處理。
九、智能代理訓練平臺
入選理由:智能代理技術(shù)使計算機應(yīng)用趨向人性化、個性化。它能夠以主動服務(wù)的方式完成的一組操作的機動計算實體,不需要人的即時干預。
技術(shù)突破:智能代理技術(shù)具有解決問題所需的豐富知識、策略和相關(guān)數(shù)據(jù),能夠進行相關(guān)的推理和智能計算,智能代理還可以在用戶沒有給出十分明確的需求時推測出用戶的意圖、興趣或愛好,并按最佳方式代為其完成任務(wù),并能自動拒絕一些不合理或可能給用戶帶來危害的要求;智能代理還從經(jīng)驗中不斷自我學習,能夠根據(jù)環(huán)境調(diào)整自身的行為,從而提高處理問題的能力。
智能代理技術(shù)可以應(yīng)用于商業(yè)、智能搜索代理、數(shù)字圖書館、電子商務(wù)和遠程教育的研究等,現(xiàn)在它也被應(yīng)用于游戲領(lǐng)域。
Unity是全球領(lǐng)先的游戲開發(fā)公司之一,去年其推出了機器學習平臺ML-Agents,讓AI開發(fā)人員和研究人員在Unity模擬游戲環(huán)境,可以讓機器學習系統(tǒng)了解如何優(yōu)化游戲時間、為玩家配對以及如何最大化利用游戲時間。這種模擬訓練的方法在工業(yè)機器人、無人機、無人駕駛車輛和游戲角色設(shè)計中均有著廣泛應(yīng)用。
重大意義:Unity以使機器學習研究人員獲得最強大的訓練場景為使命,為快速增長的AI愛好者群體探索深度學習提供了一個研究平臺。
十、入耳式人工智能
入選理由:耳機從外設(shè)變成了智能穿戴設(shè)備,可以無限延續(xù)使用時間和場景。
技術(shù)突破:蘋果在今年即將推出的AirPods 2中加入了Siri喚起、內(nèi)置芯片等等,可以收集行走步數(shù)、心率數(shù)據(jù)和體溫等等,還可以通過內(nèi)置陀螺儀捕捉用戶頭部移動狀況甚至定位位置,當然也可以通過麥克風接受命令,再通過揚聲器進行反饋。
谷歌的實時翻譯無線耳機PixelBuds常被拿來與AirPods相比,PixelBuds對Google Assistant的喚起十分迅速,只要把手指放在耳機的觸控板上,幾乎同一時刻就可以和Google Assistant進行對話。
AirPods與PixelBuds讓我們重新定義了耳機對人類的作用,相比手腕上的智能手表,耳機顯然可以更方便的進行語音交互,在接收信息時更無需占用寶貴的視覺空間。還將智能音箱式的遠場交互變成更自然也更快捷的近場交互。
重大意義:智能耳機讓智能助理更接近隨身隨行,蘋果、谷歌的涉足,必將帶起一波耳中AI的風潮。
寫在最后
我們看到這些科技公司或者科研團隊,學習翻譯、研究捕魚、開發(fā)游戲、做著音樂……看似“不務(wù)正業(yè)”,而這恰恰證明了,人工智能不單單是一種技術(shù)或一個產(chǎn)品。
從IBM、蘋果,到谷歌,百度,所有的人工智能巨頭都在嘗試軟件、硬件、應(yīng)用場景的聯(lián)通。聰明的科技公司都不再單一的專注于自己的傳統(tǒng)業(yè)務(wù),而是著眼于未來,不斷創(chuàng)新技術(shù),跨界融合打造一個整合的生態(tài)系統(tǒng)。
在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以留心多智時代,及時獲取人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識,讓我們一起攜手,引領(lǐng)人工智能的未來!