在最近一次的AI項目中,我輕松地花費了60%的時間來獲取,捕獲,清理,導入數(shù)據(jù)并將其放置在訓練系統(tǒng)可以使用的地方。正如很多業(yè)內(nèi)人士所知,人工智能是垃圾輸入,垃圾輸出的最純粹的例子。最糟糕的例子是:有時你問到某人最喜歡的食物是什么,直到AI回答了“鐵砧”,你才意識到這句話的一樣。
那么,可以采取哪些措施來提高AI開發(fā)的質(zhì)量?這是我今天建議構建一流的AI系統(tǒng)的建議:
依靠同行評審的創(chuàng)新。使用AI并經(jīng)過深思熟慮的研究支持的公司(最好是經(jīng)過學術界同行評審)顯示出最大的進步。但是,這種檢查不應隨算法而停止。對數(shù)據(jù)也應進行同樣的嚴格分析。為此,我最近向一家風險投資公司建議,如果對預期投資進行的盡職調(diào)查過程顯示出算法質(zhì)量與初創(chuàng)企業(yè)使用的數(shù)據(jù)質(zhì)量之間存在巨大差異,則應繼續(xù)投資進行下去。為什么?因為差距是主要的危險信號。
正確組織數(shù)據(jù)。每天都會產(chǎn)生大量數(shù)據(jù)。但是要記住,學習數(shù)據(jù)與生產(chǎn)數(shù)據(jù)是不同的,并且當你從訓練環(huán)境過渡到生產(chǎn)環(huán)境時,必須穩(wěn)定數(shù)據(jù)。因此,利用內(nèi)聚的內(nèi)部數(shù)據(jù)模型至關重要,特別是如果AI是根據(jù)最新的“數(shù)據(jù)驅動”體系結構與“模型驅動”系統(tǒng)構建的。沒有凝聚力的系統(tǒng),您就容易遭受災難。正如一位首席執(zhí)行官最近告訴我的那樣,必須放棄一年的發(fā)展,因為他的公司沒有正確配置其訓練數(shù)據(jù)。
使生產(chǎn)環(huán)境中的一切自動化。這與組織起來是齊頭并進的,但是需要分別進行標注。從研究實驗室過渡到生產(chǎn)環(huán)境,無論您要構建哪種系統(tǒng),都需要一個完全自動化的解決方案。大數(shù)據(jù)和物聯(lián)網(wǎng)系統(tǒng)成熟的好處之一是,構建這樣的解決方案是開發(fā)AI系統(tǒng)的相對簡單的部分。但是,如果沒有完全的自動化,學習、生產(chǎn)中的錯誤以及對人力資源的壓力會使缺陷更加復雜,并使修復工作極為困難。
選擇質(zhì)量勝于數(shù)量。如今,數(shù)據(jù)科學家發(fā)現(xiàn)自己處在收集大量數(shù)據(jù)質(zhì)量糟糕的情況下。一個例子是臨床遺傳學,其中用于分析基因序列變異的數(shù)據(jù)源是如此不一致,以至于已經(jīng)建立了“數(shù)據(jù)庫數(shù)據(jù)庫”系統(tǒng)來理解數(shù)據(jù)集。例如,在基因分析系統(tǒng)中,經(jīng)常使用200多個單獨的數(shù)據(jù)庫。銀行經(jīng)常必須至少從15個外部系統(tǒng)中提取數(shù)據(jù)。沒有選擇和選擇數(shù)據(jù)的系統(tǒng)性基礎,數(shù)據(jù)中的任何差異都會影響AI系統(tǒng)的效率。
擴展數(shù)據(jù)(這很難做到)。鑒于我之前對大數(shù)據(jù)和物聯(lián)網(wǎng)的評論,您可能會認為擴展數(shù)據(jù)管理很容易獲得。但是你會錯的。這是因為一旦清除了前面的四個步驟,您最終可能會得到非常小的相關樣本集。在某些應用中,一個小的數(shù)據(jù)集可能代表一個好的開始。但是,這在AI系統(tǒng)中并不可行。確實,您是否想在小型數(shù)據(jù)庫上接受訓練后,將諸如自動駕駛汽車或個性化抗癌藥之類的AI程序放到野外?
總體而言,上述注意事項代表了一些基本出發(fā)點,可確保你將數(shù)據(jù)保持在與AI相同的標準下。