談到人工智能,相信各位讀者都不會(huì)陌生,字面意思也很容易理解。
有些人眼里,人工智能已經(jīng)是一種很成熟的計(jì)算機(jī)技術(shù),可以幫我們做很大的事情,大到預(yù)測(cè)局部地區(qū)明天的天氣如何、分析金融市場(chǎng)的股票交易波動(dòng);也可以幫我們做很小的事情,小到拍照時(shí)的貼紙自動(dòng)追隨人臉,推送我感興趣的新聞或商品,這些都可以用人工智能實(shí)現(xiàn)。
但是在另一些人眼里,人工智能還是待在實(shí)驗(yàn)室的新事物,它離我們的生活還很遠(yuǎn),我們現(xiàn)在接觸的人工智能最多算是個(gè)人工智障,現(xiàn)在炒得大熱的人工智能概念只是資本游戲的噱頭,其實(shí)它什么都沒有改變。
人工智能并非萬能鑰匙,并非所有事情都能用人工智能解決。但同樣,人工智能也并非是虛無縹緲的新技術(shù),它的身影已出現(xiàn)在生活中的方方面面。
在日常工作中,我發(fā)現(xiàn)很多身邊朋友以及互聯(lián)網(wǎng)從業(yè)者同樣對(duì)人工智能存在不少誤解,我嘗試結(jié)合我過去的一些經(jīng)驗(yàn),聊一聊我的看法。在此我們先聊聊,人工智能的概念為啥突然這么火。
01、人工智能為什么突然崛起?
很多人都誤認(rèn)為,人工智能是近幾年才被創(chuàng)造出來的新概念。
實(shí)際上最早提出“人工智能”這個(gè)概念是在1956年美國(guó)達(dá)特茅斯學(xué)院的一次學(xué)術(shù)會(huì)議上。雖然當(dāng)時(shí)這個(gè)會(huì)議只進(jìn)行了一個(gè)月,也沒有取得什么實(shí)質(zhì)性的進(jìn)展,但是這個(gè)會(huì)議首次正式提出“人工智能”一詞,并且沿用至今。
盡管在當(dāng)時(shí),對(duì)于人工智能的研究進(jìn)展非常緩慢,但是經(jīng)典的科幻電影《2001太空漫游》還是表達(dá)了當(dāng)時(shí)的人們對(duì)人工智能的美好幻想。又經(jīng)過了近50年的發(fā)展,人工智能從電影的幻想逐漸走進(jìn)了人們的日常生活,并且成為了各個(gè)領(lǐng)域的得力助手。
這個(gè)過程并非一帆風(fēng)順。
上世紀(jì)80年代前后,日本人研究了一種能夠模擬人類專家決策能力的計(jì)算機(jī)系統(tǒng),稱為專家系統(tǒng)。這個(gè)專家系統(tǒng)實(shí)際上就是一個(gè)巨大的知識(shí)庫,再通過一些推理規(guī)則讓這個(gè)系統(tǒng)能夠根據(jù)提問找到答案。
這種專家系統(tǒng)能夠根據(jù)輸入的問題,提供回答是當(dāng)時(shí)人工智能技術(shù)的代表,一定程度上也是計(jì)算機(jī)“智能化”的表現(xiàn)。因此這個(gè)項(xiàng)目得到日本政府的高度重視,投入了大量的人力物力研究,希望能打造一個(gè)計(jì)算速度更快、知識(shí)儲(chǔ)備量更高的專家系統(tǒng)。受到日本人的刺激,同期美國(guó)和許多歐洲國(guó)家也紛紛進(jìn)入到這個(gè)賽道中。
可以預(yù)見的是,專家系統(tǒng)最初取得的成功是有限的,因?yàn)樗鼰o法自我學(xué)習(xí)并更新知識(shí)庫,維護(hù)成本極高。就像以前沒有聯(lián)網(wǎng)的車載導(dǎo)航系統(tǒng)一樣,每年都需要更新地圖否則這個(gè)系統(tǒng)一年以后就廢掉了,無法給出正確的指引。
專家系統(tǒng)的失敗,也讓人們對(duì)于人工智能的信任產(chǎn)生了巨大的危機(jī),硬件市場(chǎng)的潰敗和理論研究的迷茫,加上各國(guó)政府和機(jī)構(gòu)紛紛停止向人工智能研究領(lǐng)域投入資金,導(dǎo)致了數(shù)年的低谷。
好在資本不再關(guān)注人工智能的時(shí)候,人工智能的理論研究還在緩慢進(jìn)行中。1988年,美國(guó)科學(xué)家Judea Pearl將概率統(tǒng)計(jì)方法引入人工智能的推理過程中,這對(duì)后來人工智能的發(fā)展起到了重大影響。1989年,AT&T貝爾實(shí)驗(yàn)室的Yann LeCun和團(tuán)隊(duì)使用卷積神經(jīng)網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)了人工智能識(shí)別手寫的郵政編碼數(shù)字圖像。
在此后近二十年,人工智能技術(shù)逐漸與計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)進(jìn)行深入融合。得益于大規(guī)模并行計(jì)算、大數(shù)據(jù)、深度學(xué)習(xí)算法和人腦芯片這四大催化劑的發(fā)展,以及計(jì)算成本的降低,使得人工智能技術(shù)突飛猛進(jìn)。
它利用計(jì)算機(jī)和互聯(lián)網(wǎng)的發(fā)展機(jī)遇,化名為商業(yè)智能、數(shù)據(jù)分析、信息化、自動(dòng)化等等,滲透到社會(huì)發(fā)展的每個(gè)角落。一方面,互聯(lián)網(wǎng)的推廣為人工智能創(chuàng)造了很多落地應(yīng)用的場(chǎng)景,體現(xiàn)出真正的價(jià)值;另一方面,計(jì)算機(jī)軟硬件的升級(jí)為人工智能提供了強(qiáng)大的運(yùn)算力,以前在理論上才能實(shí)現(xiàn)的算法得以落地,讓人工智能在越來越多賽事上創(chuàng)造奇跡,甚至超越人類。
2011年沃森在自然語言常識(shí)問答比賽中戰(zhàn)勝人類選手,ImageNet挑戰(zhàn)賽上圖像識(shí)別算法準(zhǔn)確度超越人類;2016年,AlphaGo戰(zhàn)勝李世石,成為第一個(gè)戰(zhàn)勝世界圍棋冠軍的AI機(jī)器人...
02、人工智能還是人工智障?
近兩年人工智能被人們?cè)嵅∽疃嗟牡胤绞牵喝斯ぶ悄荏w現(xiàn)不出智能。
很多人對(duì)人工智能的認(rèn)知都是分裂的。一方面媒體不斷報(bào)道人工智能又取得了什么樣的新成果,國(guó)外各路大咖讓人們要警惕人工智能的發(fā)展,人工智能還被納入我國(guó)發(fā)展的規(guī)劃中等等;
另一方面,新聞里經(jīng)常傳出自動(dòng)駕駛又發(fā)生事故,家里的智能家具表現(xiàn)地像個(gè)智障一樣,資訊平臺(tái)總是傻傻地推同樣類型的新聞等,這些現(xiàn)象都讓我們疑惑,人工智能到底智能在哪里?
回答這個(gè)問題之前,我們有必要搞清楚,強(qiáng)人工智能和弱人工智能的區(qū)別。
最初,在達(dá)特茅斯會(huì)議提出人工智能一詞時(shí)并沒有強(qiáng)與弱之分。普遍認(rèn)為人工智能就是讓機(jī)器擁有思想,能夠像人類一樣決策。當(dāng)時(shí)各種算法的研究也是奔著這個(gè)目標(biāo)而去,希望能夠模擬人類決策的方式賦予機(jī)器真正的智能。
但很快就有人發(fā)現(xiàn):在這種方式下實(shí)現(xiàn)的人工智能并非真正的智能,只是對(duì)人類智能的模擬。美國(guó)哲學(xué)家John Searle提出了一個(gè)思維實(shí)驗(yàn):中文房間(Chinese Room Argument),它是這樣的:
想象一位只會(huì)英語的人身處一個(gè)房間之中,這間房間除了門上有一個(gè)小窗口以外,全部都是封閉的。他隨身帶著一本寫有中文翻譯程序的書。房間里還有足夠的稿紙和鉛筆。
寫著中文的紙片通過小窗口被送入房間中。房間中的人可以使用他的書來翻譯這些文字并用中文回復(fù)。雖然他完全不會(huì)中文,Searle認(rèn)為通過這個(gè)過程,房間里的人可以讓任何房間外的人以為他會(huì)說流利的中文。
值得注意的是,這本書僅僅是語法的對(duì)應(yīng),并不涉及到任何語義的說明。房間中的人,只需要按照對(duì)應(yīng)的回答,拼湊出相應(yīng)的中文字符遞出去即可。在這個(gè)過程中,他并不理解問題和他所寫的答案是什么意思。
Searle認(rèn)為,人工智能就是這樣工作的。他認(rèn)為計(jì)算機(jī)根本無法真正理解接收到的信息,但它們可以運(yùn)行一個(gè)程序,處理信息,然后給出一個(gè)智能的印象。
例如圖像識(shí)別技術(shù),它的工作原理就是將顏色變成數(shù)字編碼,再從這些數(shù)字編碼中找到特征,查找字典,找到對(duì)應(yīng)的解釋然后顯示出來。實(shí)際上計(jì)算機(jī)壓根不知道自己識(shí)別的到底是飛機(jī)還是兔子,只是字典告訴它這個(gè)特征很大概率對(duì)應(yīng)的是“飛機(jī)”這個(gè)單詞。
絕大部分算法在本質(zhì)上都是在玩概率的游戲,不同的方式只是在模型訓(xùn)練時(shí)需要的信息不同,以及計(jì)算出來對(duì)應(yīng)“飛機(jī)”的判定方式不同。
當(dāng)前所有被廣泛應(yīng)用的知名模型都是通過矩陣運(yùn)算訓(xùn)練數(shù)據(jù)來獲得某種概率分布。復(fù)雜模型的概率分布通常是高維的,這里又會(huì)引申出各種數(shù)學(xué)方法,但本質(zhì)的思想依舊是想通過概率分布來描述訓(xùn)練數(shù)據(jù)的特征。有了這些,對(duì)于同類的數(shù)據(jù),就可以使用相同的概率分布去描述,從而實(shí)現(xiàn)所謂的“識(shí)別”或“預(yù)測(cè)”。
實(shí)際上并非模型真的像人類一樣理解了什么是“飛機(jī)”,只是通過這種方式,模型能夠大概率把長(zhǎng)得像飛機(jī)的圖片識(shí)別出來。
后來業(yè)界也普遍認(rèn)識(shí)到這一點(diǎn)。因此把人工智能這個(gè)概念又劃分為強(qiáng)人工智能與弱人工智能。
強(qiáng)人工智能流派仍然追求讓計(jì)算機(jī)擁有人類的心智與意識(shí),具有自主選擇行為。就像西部世界中從固化程序逐漸演化出自我意識(shí)的梅芙一樣。但是強(qiáng)人工智能的研究難度較大,市面上還沒有成熟的應(yīng)用。
而弱人工智能更像是一個(gè)解決特定問題的工具。這類問題的特點(diǎn)是可以通過統(tǒng)計(jì),歸納出經(jīng)驗(yàn)并形成解決方案,而這種解決問題的實(shí)現(xiàn)方法被稱為“機(jī)器學(xué)習(xí)”。
機(jī)器學(xué)習(xí)最基本的做法,是使用算法解析數(shù)據(jù)、從中學(xué)習(xí)數(shù)據(jù)的規(guī)律,然后對(duì)真實(shí)世界中的事件做出決策。與傳統(tǒng)的編程方式不同,機(jī)器學(xué)習(xí)是用大量的數(shù)據(jù)進(jìn)行訓(xùn)練,通過各種算法從數(shù)據(jù)中學(xué)習(xí)“如何完成任務(wù)”。
例如量化交易、人臉識(shí)別和AlphaGo都是擅長(zhǎng)于單個(gè)方面的機(jī)器學(xué)習(xí)模型。在訓(xùn)練模型時(shí),我們只教會(huì)AlphaGo下圍棋的技巧,所以它只能會(huì)下圍棋。如果你把一道數(shù)學(xué)題丟給AlphaGo,顯然它是無從下手的。
所有的機(jī)器學(xué)習(xí)模型都只能完成特定的任務(wù),很多時(shí)候我們通過組合的方式滿足更多的場(chǎng)景。例如智能音箱本質(zhì)上是一個(gè)語音識(shí)別的模型結(jié)合NLP(自然語言處理)模型,它并非真的能聽懂我們說的話代表什么含義,僅僅是能夠把接收到的信息轉(zhuǎn)化為模型的輸入,在字典中找到對(duì)應(yīng)的輸出而已。
從機(jī)器學(xué)習(xí)的特點(diǎn)可以看出來,如果想通過統(tǒng)計(jì)歸納經(jīng)驗(yàn),數(shù)據(jù)的數(shù)量與質(zhì)量是決定性條件。沒有數(shù)據(jù),就沒有人工智能。
也就是說在你沒有作出同類別行為,或者是與你行為相近的人群較少時(shí),人工智能是沒有辦法作出判斷的,這也是人工智能變成人工智障的重要原因。當(dāng)行為增加,數(shù)據(jù)慢慢變多,數(shù)據(jù)質(zhì)量逐漸上升時(shí),你會(huì)發(fā)現(xiàn)預(yù)測(cè)越來越準(zhǔn)確,人工智能通過大數(shù)據(jù)也能做到真正的“想你所想”。
03、什么問題適合用機(jī)器學(xué)習(xí)解決?
前面我們說弱人工智能像工具,專門解決某個(gè)特定的問題。但是否所有問題都適合用機(jī)器學(xué)習(xí)去解決呢?很明顯答案是否定的。
適合用機(jī)器學(xué)習(xí)去解決的問題,主要有三個(gè)基本條件。
(1)有規(guī)律可以學(xué)習(xí)。這類問題必須存在共性,有內(nèi)在的規(guī)律等待被發(fā)現(xiàn);
(2)編程難以實(shí)現(xiàn)。數(shù)據(jù)之間關(guān)聯(lián)關(guān)系復(fù)雜,很難通過窮舉的方式列清楚規(guī)則;
(3)有足夠多能夠?qū)W習(xí)到規(guī)律的數(shù)據(jù)。沒有數(shù)據(jù)支撐,機(jī)器學(xué)習(xí)就像搭好了結(jié)構(gòu)少了磚瓦的房子。
舉個(gè)栗子。
我們熟知的垃圾郵件檢測(cè)是一個(gè)使用機(jī)器學(xué)習(xí)解決的經(jīng)典場(chǎng)景。最常見的垃圾郵件是各種類型的營(yíng)銷郵件,并且這種郵件的發(fā)送方通常是各類用郵箱注冊(cè)過的網(wǎng)站。在這個(gè)場(chǎng)景中我們發(fā)現(xiàn),營(yíng)銷郵件一定是包含某些產(chǎn)品信息或推廣信息,所以這類郵件有一定的規(guī)律。
但是因?yàn)椴煌a(chǎn)品種類各異,我們很難用編程的方式把所有規(guī)則寫出來。就算能寫出來,發(fā)送方也會(huì)設(shè)計(jì)各種規(guī)則躲避系統(tǒng)的檢測(cè)。同時(shí)我們很容易找到大量垃圾郵件與正常郵件作為樣本數(shù)據(jù)。因此這個(gè)場(chǎng)景非常適合用機(jī)器學(xué)習(xí)的方式解決。
但如果我們想判斷新郵件包含多少個(gè)字符,恐怕就不太適用。雖然這個(gè)問題同樣難以用編程解決并且有大量歷史郵件支持,但包含多少個(gè)字符這個(gè)問題的隨機(jī)性太強(qiáng),沒有規(guī)律可循,因此不適合。
由此可見,機(jī)器學(xué)習(xí)不是萬能的,不是所有的問題都能用它去解決。機(jī)器學(xué)習(xí)擅長(zhǎng)的是通過已知經(jīng)驗(yàn)找到規(guī)律去解決問題。如果面對(duì)的問題沒有任何規(guī)律可循,完全是一個(gè)隨機(jī)事件,那么就算使用多復(fù)雜的機(jī)器學(xué)習(xí)算法也是無濟(jì)于事。
值得注意的是,很多問題看似沒有規(guī)律,實(shí)際上是因?yàn)槿祟愄幚聿涣藬?shù)據(jù)量太大的情況,看起來雜亂的數(shù)據(jù)掩蓋了背后的面目,這類問題并非真的無跡可尋,只是需要用正確的方法。
我們通過機(jī)器學(xué)習(xí)可以對(duì)大量數(shù)據(jù)進(jìn)行分析獲得規(guī)則,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)。不但能從數(shù)據(jù)中看到人類能看到的規(guī)律,更重要的是能在更短的時(shí)間內(nèi)發(fā)現(xiàn)人類看不到的規(guī)律,我想這就是機(jī)器學(xué)習(xí)最大的應(yīng)用價(jià)值。
在醫(yī)學(xué)領(lǐng)域,通過圖像識(shí)別技術(shù),已經(jīng)實(shí)現(xiàn)讓計(jì)算機(jī)自動(dòng)識(shí)別腫瘤細(xì)胞,幫助醫(yī)生快速進(jìn)行醫(yī)學(xué)診斷;在制造業(yè),通過強(qiáng)化學(xué)習(xí)的方式自動(dòng)檢測(cè)產(chǎn)品缺陷提高出品率,幫助企業(yè)加快生產(chǎn)周期降低生產(chǎn)成本;在金融領(lǐng)域,通過神經(jīng)網(wǎng)絡(luò)技術(shù)可以避免傳統(tǒng)程序化交易因?yàn)闊o法根據(jù)實(shí)時(shí)發(fā)生的市場(chǎng)變動(dòng)調(diào)整算法,從而造成資產(chǎn)損失的風(fēng)險(xiǎn)。還有在零售、安防、航空、互聯(lián)網(wǎng)等等不同領(lǐng)域,機(jī)器學(xué)習(xí)都有廣泛的應(yīng)用,它已經(jīng)對(duì)我們生活的產(chǎn)生了巨大的變化。
最后我們必須認(rèn)識(shí)到,目前的人工智能并非真正的智能,只是一種模擬人類行為的智能。而真正的智能,離我們的生活還非常遙遠(yuǎn)。但值得慶幸的是,僅僅是模擬人類行為的智能已經(jīng)能夠給我們的生活帶來了如此大的便利,相信隨著技術(shù)的發(fā)展,我們能夠做出更多超越想象的場(chǎng)景。