今年五月,谷歌人工智能程序“AlphaGo”戰(zhàn)勝世界圍棋冠軍柯潔,引發(fā)了世界范圍內(nèi)人們對人工智能的探討。同時,國內(nèi)的“天網(wǎng)”監(jiān)控系統(tǒng)憑借著精準的人臉識別技術(shù)相繼抓獲了多名逃犯,引起了網(wǎng)絡(luò)熱議。人們忽然發(fā)現(xiàn),以前看似陌生而遙遠的“人工智能”、“深度學(xué)習(xí)”等概念已經(jīng)在不經(jīng)意間實現(xiàn)了應(yīng)用化和產(chǎn)業(yè)化,出現(xiàn)在我們身邊。
人工智能產(chǎn)業(yè)的市場規(guī)模究竟有多大?人工智能項目究竟如何實現(xiàn)商業(yè)落地?面對人工智能,投資人究竟應(yīng)該儲備哪些知識?艾瑞咨詢分析師張云給出了他的階段性分析成果。
本篇實錄系根據(jù)健一會(ID:jianyihui2011)沙龍第196位主講人張云在健一會“人工智能的商業(yè)化變現(xiàn)”專題沙龍上的精彩分享整理而成。原標(biāo)題為《人工智能的商業(yè)落地》,現(xiàn)標(biāo)題為健一君所加。
大家好,我是艾瑞的張云,我今天講的主題是《人工智能商業(yè)落地》。人工智能現(xiàn)在雖然很火,但其實巨頭對AI在很多領(lǐng)域的商業(yè)落地也處于探索階段,下面和大家分享一下我們的階段性研究成果。
人工智能發(fā)展史上有過三次熱潮,最近的這次和以往兩次不同的是,前兩次熱潮主要蔓延于學(xué)界和政界,而此次熱潮則很大程度上是由谷歌AlphaGo所引發(fā),逐漸激起來自工業(yè)界、投資界、政府、媒體、大眾對人工智能的興趣,大家都在希望它能給各行各業(yè)帶來巨大改變。
還有個不同是,前兩次人工智能熱潮中的科學(xué)家相對集中在麻省理工、斯坦福等世界級學(xué)術(shù)殿堂里,此番熱潮里的科學(xué)家們會相對分散到全球各地不同實驗室、高校乃至產(chǎn)業(yè)界中,這也使得可能沒有一個科學(xué)家能真正完全了解人工智能所有細分領(lǐng)域的發(fā)展進度與研究水平。
產(chǎn)業(yè)規(guī)模難以估算,投資人得不到答案
國家在2017年7月公布的新一代人工智能發(fā)展規(guī)劃中將戰(zhàn)略目標(biāo)分為兩個維度,一個是人工智能核心產(chǎn)業(yè)規(guī)模,一個是相關(guān)產(chǎn)業(yè)規(guī)模。
比如說在安防領(lǐng)域,人臉識別算法和技術(shù)屬于核心產(chǎn)業(yè),當(dāng)這些算法與技術(shù)落地時,要加上攝像頭、傳輸線路、存儲等基礎(chǔ)硬件設(shè)施,后者都屬于相關(guān)產(chǎn)業(yè)規(guī)模。又比如在無人駕駛領(lǐng)域,自動駕駛的感知與決策算法屬于核心產(chǎn)業(yè),整車生產(chǎn)制造則屬于相關(guān)產(chǎn)業(yè)。
投資人在選擇投資標(biāo)的的時候通常都會問創(chuàng)始人,人工智能這個產(chǎn)業(yè)現(xiàn)階段的市場規(guī)模有多大?有些市場相對來說有比較清晰的邏輯,但整體而言AI市場規(guī)模的推算有諸多不確定性,為什么?有三點原因。
首先是收費模式。
人工智能的很多產(chǎn)品或服務(wù)具有開放性的特點,前所未有,有些甚至還在研發(fā)中,要給它們確定一種定價模式,是按一次性授權(quán)收費,還是按年或按API調(diào)用次數(shù)收費?另外還有乙方競爭的問題,人工智能在落地應(yīng)用的時候,現(xiàn)階段未必能夠形成很高的技術(shù)、產(chǎn)品壁壘,這就會導(dǎo)致一個問題:在出現(xiàn)多家供應(yīng)商競爭時,如何保持價格優(yōu)勢?如果提供的是免費服務(wù),又該如何計算其市場空間?
第二個是供應(yīng)量集中度的問題。
人工智能這個產(chǎn)業(yè)的業(yè)務(wù)比較新,很多領(lǐng)域集中度低,難以由個別推整體。雖然存在一些知名公司目前在AI企業(yè)服務(wù)領(lǐng)域非常領(lǐng)先,但一些地方性的企業(yè)因為資源渠道優(yōu)勢,取得的營收也會非常客觀,卻因為分散難以統(tǒng)計。
另外,如果目前接受AI技術(shù)服務(wù)的需求方之后自行組建隊伍進行相關(guān)應(yīng)用的開發(fā),那么之前由技術(shù)供應(yīng)商主導(dǎo)的市場空間該如何估算?
第三個是推算邏輯。不同領(lǐng)域的推算邏輯千差萬別,比如說在安防領(lǐng)域,人工智能技術(shù)落地的方式之一是幫助警察做影像中的人臉比對,它起的是一種輔助效果,輔助公安人員去判斷,而在工業(yè)領(lǐng)域,未來假如說人工智能應(yīng)用于質(zhì)檢等環(huán)節(jié),所起的作用可能將會是代替,很多質(zhì)檢工作就完全被機器取代了。如何區(qū)分不同領(lǐng)域的推算邏輯以及其商業(yè)落地的困難程度,并結(jié)合這種程度做市場規(guī)模推斷,這中間困難重重。
應(yīng)用場景比較明確,技術(shù)受限仍需發(fā)展
智能語音領(lǐng)域,知名廠商在近場識別聽寫方面,對外宣稱的準確率均在97%以上,但是必須是在比較安靜的環(huán)境下,而且說的是普通話;若是遠場識別,技術(shù)仍在快速迭代中。
識別之后要做對話,目前對話交互只能滿足限定任務(wù),比如說在特定的客服場景、金融領(lǐng)域或是服裝領(lǐng)域。如果要進行開放式聊天,比如以朋友的身份與人類談心,人工智能可能還處于人工智障的階段。
語音在企業(yè)服務(wù)的落地,一個是醫(yī)生語音錄入病例,另一個是諸如法院庭審之類的閉門會議記錄。但其實在更多的場景,在開放性的會議活動上安排的還是人工速記,因為人工速記雖然會遺漏一些信息,但人類會識別哪些話需要記錄,哪些話屬于噪音,不需要記錄,現(xiàn)階段的機器分析不出來這個區(qū)別。
人工智能在To C端的商業(yè)應(yīng)用場景相對比較明確,一個是智能車載,另一個是智能家居。我們在開車的時候不方便用手機去完成導(dǎo)航等其他操作,在這種場景下,通過語音進行交互就會比較好。智能家居里現(xiàn)在智能音箱比較火,但目前市場空間不見得很大。
機器視覺進步顯著,落地安防越來越強
2015年,微軟的卷積神經(jīng)網(wǎng)絡(luò)以3.57%的錯誤率獲得ImageNet大規(guī)模視覺識別挑戰(zhàn)賽第一名,而人眼的錯誤率為5.1%,所以有人說機器視覺現(xiàn)在超越了人眼識別。
其實,比賽表現(xiàn)好,不代表實戰(zhàn)真能做的好。比賽里所用的圖片都是公開和標(biāo)準化的,并且可能已經(jīng)做好了標(biāo)注,但在安防等實際場景里,角度、光照、臉型、臉上是否戴口罩等因素都會影響人臉識別的實際效果,網(wǎng)速、帶寬也會影響識別的準確率。
比賽本身的數(shù)據(jù)集也往往相對有限,所以比賽的意義更多地是向公眾展示新算法,讓大家看到相關(guān)領(lǐng)域的技術(shù)進步。
計算機識別比較有市場化的落地場景是安防。其實真正跟AI相關(guān)的主要是兩個功能,一個是動態(tài)視頻人臉對比,另一個是視頻結(jié)構(gòu)化。
動態(tài)視頻可以做到,在高速公路檢查站、機場、火車站檢票口等處對海量人群進行人臉抓拍識別,并將其與警方所提供的黑名單庫進行比對,把比對結(jié)果實時推送給警方,如果與黑名單中的人物匹配,警方就會實時出警進行逮捕。
公安部門的攝像頭監(jiān)控的大量視頻信息都屬于非結(jié)構(gòu)化信息,警方若是想抓某個人,需要花大量時間把相關(guān)視頻拷出來,或者分給幾十個人去分析,而計算機視覺技術(shù)則可將其結(jié)構(gòu)化,機器可以自動把視頻里的敏感信息截取出來,它可能是某個特定場景、特定人物或是特定事件,這樣警察就從之前的大海撈針變成甕中捉鱉,判斷更為精準和快速。
3D視覺技術(shù)仍處于研發(fā)階段
視覺在工業(yè)場景的應(yīng)用有兩個維度,一個和3D視覺有關(guān),一個是將深度學(xué)習(xí)用于產(chǎn)品質(zhì)檢。
3D視覺在國內(nèi)是有一些技術(shù)相對成熟的國外企業(yè)在提供相關(guān)服務(wù),不過該技術(shù)本身還不太成熟,國外企業(yè)很難大規(guī)模落地。首先,國外企業(yè)售價較高,國內(nèi)企業(yè)的產(chǎn)品服務(wù)將會存在價格優(yōu)勢。第二,一旦出現(xiàn)技術(shù)問題,國外往往通過電子郵件進行溝通,國內(nèi)的企業(yè)客戶不太能接受這種解決方式。
計算機視覺在醫(yī)療領(lǐng)域中的優(yōu)缺點
大家都覺得醫(yī)療領(lǐng)域可被技術(shù)改造的空間很大,這主要有三點原因。
首先,中國的醫(yī)療資源不平衡,北京有很多三甲醫(yī)院,其他二三線城市沒有;其次,醫(yī)生工作強度大,一天要看很多片子,接待很多病人;第三,由于工作強度大,導(dǎo)致醫(yī)生誤診誤判的現(xiàn)象出現(xiàn)。
當(dāng)然,計算機視覺在醫(yī)療領(lǐng)域也存在技術(shù)瓶頸。醫(yī)生在看病時,不是單一的考量,他會通過望聞問切,和病人交流,最后對癥下藥,而機器只能通過醫(yī)療影像這個方式做輔助,儀器很難完全參照醫(yī)生的判斷邏輯做決策。
計算機視覺在醫(yī)療影像診斷領(lǐng)域落地時還存在別的限制。
一個是數(shù)據(jù)量少,數(shù)據(jù)很難獲取。一家三甲醫(yī)院的某個典型疾病,每年可能也就幾十個病例。
另一個是標(biāo)注成本高。我們做安防、汽車等場景的標(biāo)注,普通人通過簡單培訓(xùn)就能上崗,而醫(yī)療樣本的標(biāo)注可能需要請三甲醫(yī)院醫(yī)生進行標(biāo)注。
自動駕駛看上去很美,想要變現(xiàn)不容易
今年有很多自動駕駛公司獲得天使輪融資,不過當(dāng)下的投資人對這些廠商的商業(yè)變現(xiàn)能力開始有要求了,不會再像之前那樣給他們較長的周期去研發(fā)。
全球14家汽車巨頭里有13家、14家科技巨頭里有12家都已經(jīng)涉足自動駕駛領(lǐng)域,英特爾曾經(jīng)推算過,到2050年,自動駕駛產(chǎn)業(yè)有7萬億美元的市場空間,這個數(shù)字不僅僅包括汽車本身,還包括自動駕駛相關(guān)服務(wù)及其給人類帶來的因時間節(jié)約所產(chǎn)生的市場價值。
一些創(chuàng)業(yè)公司都在說,2020年自動駕駛就會落地并量產(chǎn)。我問過很多學(xué)術(shù)界的專家,他們都認為現(xiàn)在看來要想在2020年實現(xiàn)這個目標(biāo)是比較困難的,甚至有的教授坦言,目前的這套技術(shù)路徑,并不是能達到自動駕駛的技術(shù)路徑。美國交通部門近期公布了一個自動駕駛汽車指導(dǎo)方針,他們認為,將在2025年之后實現(xiàn)全面自動的安全功能以及高速公路的自動駕駛。
To B服務(wù)關(guān)鍵要做好落地工程建設(shè)
對場景的理解,是人工智能產(chǎn)業(yè)升級的關(guān)鍵。盡管有很多很高級的模型,但它必須要理解業(yè)務(wù)場景,能清晰地定義問題,才能做好算法,才能有效地求解。現(xiàn)在的問題是,大多數(shù)廠商對于場景的理解不是很深刻。
問答環(huán)節(jié)
面對人工智能項目,投資人往往需要對技術(shù)的價值做出準確判斷。如何能夠做到在儲備相關(guān)技術(shù)知識的同時,不陷入具體的技術(shù)細節(jié)?
張云:還是需要花費一些時間的,最好有興趣去看一些專業(yè)書籍。南京大學(xué)周志華教授的《機器學(xué)習(xí)》、伯克利人工智能專家斯圖爾特·拉塞爾的《人工智能:一種現(xiàn)代化方法》都涉及對AI相關(guān)技術(shù)的梳理,能夠幫助大家對人工智能、機器學(xué)習(xí)等形成一個相對全面的認知。
人工智能目前在教育領(lǐng)域有哪些應(yīng)用嗎?
張云:目前在教育信息化方面,包括自動批卷、個性化課程推薦等有一些探索落地。今年出現(xiàn)了一些在教育領(lǐng)域應(yīng)用人工智能的公司。教育這個場景非常好,因為它離錢特別近,而且目前教育資源不平衡的問題很突出,優(yōu)質(zhì)資源集中在少數(shù)的地區(qū)或者是一些學(xué)校,人工智能的應(yīng)用可能會打破這樣的局面。
目前研究算法和技術(shù)的公司,他們的甲方或者下沉渠道公司,如果想往上游走,技術(shù)壁壘大不大?他們會不會自己做算法?
張云:確實有些下沉渠道的公司開始自己組建團隊,研究算法。但這些公司往往有多條業(yè)務(wù)線,在算法上投入的精力相對有限。
有些開發(fā)算法的公司也在研究專用芯片,他們跟上游芯片廠商有無沖突?
張云:對于這個問題,我引用一下邢波老師的觀點。目前在深度學(xué)習(xí)方面,不同場景、不同習(xí)慣領(lǐng)域用的是不同的算法。針對不同場景、不同習(xí)慣領(lǐng)域開發(fā)針對性的芯片,市場空間其實相對有限,而且這些算法本身也處于快速迭代中。
您如何看待人工智能在棋牌競技里的應(yīng)用?
張云:今年 “AlphaGo”和“冷撲大師”(一款根據(jù)德州撲克規(guī)則設(shè)計,能夠進行自我學(xué)習(xí)的程序)都引起了大家的熱議。“AlphaGo”的技術(shù)很難直接實現(xiàn)商業(yè)落地,谷歌將這項技術(shù)用于節(jié)省其能源中心的成本,相關(guān)技術(shù)讓能源中心的消耗降低了40%,但是它在其他場景落地還是比較困難的。而“冷撲大師”并沒太涉及如今最火的技術(shù),基于博弈論和人工智能的結(jié)合。相比較來說,“AlphaGo”面對的是完備信息,大家都可以看到整個棋盤和布局,但是打德州撲克的時候我們并不知道每個人手里有哪些牌,它是一個不完備信息下的落地,它跟我們的實際業(yè)務(wù)會有一些類似的地方。但無論是“AlphaGo”還是“冷撲大師”,面對我們實際業(yè)務(wù)場景的金融產(chǎn)品風(fēng)控或者商務(wù)談判時,還是難以直接應(yīng)對,因為它們沒有相關(guān)領(lǐng)域的知識體系。