對于多數(shù)有興趣使用人工智能(AI)的企業(yè)來說,不存在可以效法的明確模式。亞馬遜和谷歌等大型互聯(lián)網(wǎng)企業(yè)使用的構(gòu)建AI的方法實在無法轉(zhuǎn)化——多數(shù)企業(yè)都沒有可以用來培育模式的大量數(shù)據(jù)。
因此,制造業(yè)、農(nóng)業(yè)和醫(yī)療衛(wèi)生等行業(yè)需要采取不同的方法:使用數(shù)據(jù)而不是代碼進行編程。這些行業(yè)的企業(yè)擁有的數(shù)據(jù)集通常相對較小,定制系統(tǒng)成本高昂,而且會被試點與生產(chǎn)之間長久的時間間隔嚇退。
然而,考慮到AI技術(shù)的進步,這些企業(yè)應(yīng)該將重點從構(gòu)建正確的模式——專注于軟件的方法——轉(zhuǎn)移到獲取有用的數(shù)據(jù)上(這些數(shù)據(jù)可以說明我們需要AI學習的概念),以及使用新的機器學習操作工具。尤其是,這些用來幫助生成高質(zhì)量數(shù)據(jù)集的工具對于解決數(shù)據(jù)集小、定制成本高以及AI項目應(yīng)用于生產(chǎn)的時間長等上述挑戰(zhàn)至關(guān)重要。
企業(yè)應(yīng)該專注于收集高質(zhì)量數(shù)據(jù),將其工程團隊的注意力從以模式為中心的方法轉(zhuǎn)移,并讓部署過程以及支持它所需的MLOP工具成為任何AI項目規(guī)劃方案的核心部分。
盡管AI的潛力巨大,但它尚未在大多數(shù)行業(yè)立足。當然,它已經(jīng)改變了谷歌、百度和亞馬遜等消費類互聯(lián)網(wǎng)企業(yè)——所有這些公司規(guī)模都很龐大,擁有數(shù)億用戶的大量數(shù)據(jù)。
不過,要實現(xiàn)AI每年創(chuàng)造13萬億美元價值這一預(yù)測,制造業(yè)、農(nóng)業(yè)和醫(yī)療衛(wèi)生等行業(yè)仍然需要找到辦法讓這項技術(shù)為它們服務(wù)。問題在于:這些消費類互聯(lián)網(wǎng)企業(yè)用來構(gòu)建其AI系統(tǒng)的行動手冊——一個一體萬用的AI系統(tǒng)可以為大量用戶服務(wù)——對其他這些行業(yè)不起作用。
相反,這些傳統(tǒng)產(chǎn)業(yè)將需要大量定制的解決方案,以適應(yīng)其眾多不同的用例。然而,這并不意味著AI不適于這些行業(yè)。而只意味著他們需要采取不同的方法。
為了彌合這一差距并釋放AI的全部潛力,所有行業(yè)的高管都應(yīng)該采用新的、以數(shù)據(jù)為中心的方法來構(gòu)建AI。
具體來說,他們在致力于構(gòu)建AI系統(tǒng)目標時應(yīng)該小心注意確保數(shù)據(jù)清楚地傳達他們需要讓AI學習的內(nèi)容。這就需要專注于囊括重要案例、并進行了連貫標記的數(shù)據(jù),以便AI能夠從這些數(shù)據(jù)中學習它應(yīng)該要做的事情。換言之,創(chuàng)建這些有價值的AI系統(tǒng)的關(guān)鍵是我們需要能夠使用數(shù)據(jù)編程而不是代碼編程的團隊。
為何在科技企業(yè)之外采用AI如此之難
為何AI沒有在消費類互聯(lián)網(wǎng)企業(yè)之外得到廣泛使用?其他行業(yè)采用AI面臨的最大挑戰(zhàn)包括:
1.數(shù)據(jù)集規(guī)模小
在一家擁有大量用戶的消費類互聯(lián)網(wǎng)公司中,工程師擁有數(shù)百萬個數(shù)據(jù)點,他們的AI可以從中學習。但在其他行業(yè),數(shù)據(jù)集的規(guī)模要小得多。比如,你是否能夠建立一個AI系統(tǒng),在只看了50個例子之后就學會檢測有缺陷的汽車部件?或者僅僅學習了100例病例診斷之后就能發(fā)現(xiàn)一種罕見疾???當你只有50個數(shù)據(jù)點時,構(gòu)建5000萬個數(shù)據(jù)點的技術(shù)不起作用。
2.定制成本
消費類互聯(lián)網(wǎng)公司會雇用數(shù)十或數(shù)百名技術(shù)熟練的工程師來構(gòu)建和維護能夠創(chuàng)造巨大價值的龐大AI系統(tǒng)——比如,每年產(chǎn)生超過10億美元收入的在線廣告系統(tǒng)。但在其他行業(yè),有許多100萬-500萬美元的項目,每個項目都需要一個定制的AI系統(tǒng)。
比如,每一家制造不同類型產(chǎn)品的工廠可能需要定制的檢查系統(tǒng),每一家醫(yī)院因有自己的病歷編碼方式可能需要自己的AI來處理患者數(shù)據(jù)。這些數(shù)以十萬計的項目總價值十分巨大;但是單個項目的經(jīng)濟規(guī)模可能無法支持聘用一個大型、專門的AI團隊來構(gòu)建和維護它。這一問題因AI人才的持續(xù)短缺而加劇,從而進一步推高了這些成本。
3.概念驗證和用于生產(chǎn)之間的時間差
即使AI系統(tǒng)在實驗室奏效,要在生產(chǎn)中部署它也還需要大量的工程。團隊慶祝概念驗證成功,卻發(fā)現(xiàn)在系統(tǒng)部署和維護之前,他們還有12-24個月的工作,這是很正常的。
為了讓AI充分發(fā)揮潛力,我們需要一種系統(tǒng)性的方法來解決各行各業(yè)的這些問題。這種以數(shù)據(jù)為中心應(yīng)對AI的方法在旨在用來構(gòu)建、部署和維護AI應(yīng)用程序的工具——機器學習操作(MLOps)平臺的支持下,將有可能讓這變成現(xiàn)實。更快采用這一方法的企業(yè)將獲得比競爭對手更大的優(yōu)勢。
以數(shù)據(jù)為中心的AI開發(fā)
AI系統(tǒng)由軟件——包括某種AI模型的計算機程序——和數(shù)據(jù)(用于培育模型的信息)組成。比如,為了構(gòu)建一個用于制造業(yè)自動化檢查的AI系統(tǒng),AI工程師可能會創(chuàng)建可以執(zhí)行深度學習算法的軟件,然后向其顯示一個包含優(yōu)質(zhì)零件和有缺陷零件圖片的數(shù)據(jù)集,這樣它可以學會區(qū)分這些零件。
在過去的十年中,許多AI研究都是由以軟件為中心的開發(fā)(也稱為以模型為中心的開發(fā))所推動的,數(shù)據(jù)在這種開發(fā)中是固定的。團隊試圖優(yōu)化或發(fā)明新的程序,以便好好地從現(xiàn)有數(shù)據(jù)中學習。許多科技企業(yè)擁有源自數(shù)百萬消費者的大型數(shù)據(jù)集,他們利用這些數(shù)據(jù)來推動AI的大量創(chuàng)新。
然而,在AI目前的發(fā)展水平上,許多應(yīng)用程序的瓶頸在于獲得正確的數(shù)據(jù)提供給軟件。我們已經(jīng)聽說了大數(shù)據(jù)的好處,但我們現(xiàn)在知道,對于許多應(yīng)用程序而言,專注于確保我們擁有優(yōu)質(zhì)的數(shù)據(jù)會更富有成效——這些數(shù)據(jù)清楚地說明了我們需要讓AI學習的概念。這意味著數(shù)據(jù)在對重要案例的覆蓋面上應(yīng)該適當全面并進行連貫標記。數(shù)據(jù)是AI的食糧,現(xiàn)代AI系統(tǒng)不僅需要卡路里,還需要高質(zhì)量的營養(yǎng)。
將重點從軟件轉(zhuǎn)變到數(shù)據(jù)提供了一個重大好處:它依賴的是你的現(xiàn)有員工。在AI人才嚴重短缺的時代,以數(shù)據(jù)為中心的方法允許許多在各自行業(yè)擁有淵博知識的主題專家為AI系統(tǒng)的開發(fā)盡力。
比如,多數(shù)工廠的工人都非常擅長定義和識別什么才算缺陷(0.2mm的劃痕是否是缺陷?還是說它小得無關(guān)緊要?)。如果我們期望每家工廠要求其工人發(fā)明新的AI軟件,以此讓工廠獲得其所需的定制解決方案,那么進展會十分遲緩。但是,如果我們轉(zhuǎn)而構(gòu)建并提供工具,使這些領(lǐng)域?qū)<夷軌蛟O(shè)計數(shù)據(jù)——通過向AI提供數(shù)據(jù)、使他們能夠表達自己在制造業(yè)方面的知識——他們成功的幾率會高得多。
讓構(gòu)建和使用AI
變得系統(tǒng)化且可重復(fù)
向以數(shù)據(jù)為中心的AI開發(fā)的轉(zhuǎn)變是由新興的MLOps領(lǐng)域?qū)崿F(xiàn)的,該領(lǐng)域提供了比以往任何時候都更容易構(gòu)建、部署和維護AI系統(tǒng)的工具。要特別指出的是,用來幫助生成高質(zhì)量數(shù)據(jù)集的工具對于解決數(shù)據(jù)集小、定制成本高以及AI項目應(yīng)用于生產(chǎn)的時間長等挑戰(zhàn)至關(guān)重要。
到底怎樣才能做到?首先,確保數(shù)據(jù)高質(zhì)量意味著AI系統(tǒng)能夠從多數(shù)行業(yè)可用的較小數(shù)據(jù)集中學習。其次,通過讓企業(yè)的領(lǐng)域?qū)<叶茿I專家能夠設(shè)計數(shù)據(jù),所有行業(yè)都可以更容易地使用AI。第三,MLOps平臺提供了將AI系統(tǒng)應(yīng)用于生產(chǎn)所需的許多腳手架軟件,因此團隊不必再開發(fā)這種軟件。這使得團隊能夠部署AI系統(tǒng)——并將概念驗證與用于生產(chǎn)之間的時間差縮短至數(shù)周或數(shù)月,而不是幾年。
絕大多數(shù)有價值的AI項目尚待構(gòu)想。即使是各團隊已經(jīng)在進行的項目,逐漸在生產(chǎn)中部署的時間差仍有待縮短——事實上,埃森哲估計,80%到85%的企業(yè)的AI項目處于概念驗證階段。
以下是企業(yè)現(xiàn)在可以做的一些事情:
1.不要只關(guān)注所收集數(shù)據(jù)的數(shù)量,也要關(guān)注質(zhì)量,確保它清楚地說明了我們需要讓AI學習的概念。
2.確保團隊考慮采用以數(shù)據(jù)為中心的方法,而不是以軟件為中心的方法。許多AI工程師,包括許多具有強大學術(shù)或研究背景的工程師,接受過的是以軟件為中心的方法培訓(xùn);要敦促他們也采用以數(shù)據(jù)為中心的技術(shù)。
3.對于打算應(yīng)用于生產(chǎn)的任何AI項目,請確保對部署過程進行規(guī)劃并提供MLOps工具予以支持。比如,即使在構(gòu)建概念驗證系統(tǒng)時,也要敦促團隊開始制定長期計劃進行數(shù)據(jù)管理、部署以及AI系統(tǒng)的監(jiān)控和維護。
AI有可能成為數(shù)據(jù)豐富的消費類互聯(lián)網(wǎng)企業(yè)之外的一項蓬勃發(fā)展的資產(chǎn),但尚未在其他行業(yè)取得進展。
但正因為如此,AI尚未開發(fā)的最大機會可能在于將其帶到其他行業(yè)。就像電力改變了每個行業(yè)一樣,AI也走在同樣的道路上。但這條道路上的下幾個步驟將要求我們在行動手冊中改變構(gòu)建和部署AI系統(tǒng)的方式。
具體而言,新的以數(shù)據(jù)為中心的思維方式,加上允許行業(yè)領(lǐng)域?qū)<覅⑴cAI系統(tǒng)創(chuàng)建、部署和維護的MLOps工具,將確保所有行業(yè)都能收獲AI所能提供的回報。