數(shù)據(jù)質(zhì)量低下正嚴(yán)重?fù)p害人工智能(AI)與機(jī)器學(xué)習(xí)(ML)技術(shù)的實(shí)際表現(xiàn)。這個(gè)問(wèn)題困擾著不同規(guī)模的企業(yè),從小型初創(chuàng)公司到谷歌這類科技巨頭都無(wú)法幸免于難。但數(shù)據(jù)質(zhì)量為什么總不可靠?人為因素可能才是關(guān)鍵所在。
如今,企業(yè)手中掌握的數(shù)據(jù)總量遠(yuǎn)超以往任何時(shí)候,但將這些數(shù)據(jù)轉(zhuǎn)化為實(shí)際價(jià)值卻仍然困難重重。AI與ML帶來(lái)的自動(dòng)化功能,已被廣泛視為解決現(xiàn)實(shí)數(shù)據(jù)復(fù)雜難題的有效手段;眾多公司也迫切希望利用它們?cè)鰪?qiáng)自身業(yè)務(wù)。但是,這種熱潮本身,也引起大量上游數(shù)據(jù)分析項(xiàng)目的匆忙上馬。
在自動(dòng)化管道構(gòu)建完成之后,其中的算法已經(jīng)能夠完成大部分工作,而且?guī)缀醪恍枰聰?shù)據(jù)收集過(guò)程。但請(qǐng)注意,管道建成并不代表它可以一勞永逸地永遠(yuǎn)運(yùn)作。我們需要隨時(shí)間推移不斷探索并分析底層數(shù)據(jù),關(guān)注哪些漂移模式正不斷侵蝕管道性能。
好消息是,數(shù)據(jù)團(tuán)隊(duì)完全有能力降低這種侵蝕風(fēng)險(xiǎn),但成本就是付出必要的時(shí)間與精力。為了維持自動(dòng)化管道的執(zhí)行效率,我們必須定期進(jìn)行探索性數(shù)據(jù)分析(EDA),保證整個(gè)體系始終精準(zhǔn)運(yùn)行。
探索性數(shù)據(jù)分析是什么?
EDA是成功實(shí)現(xiàn)AI與ML的第一步。在分析算法本體之前,我們首先需要理解數(shù)據(jù)內(nèi)容。數(shù)據(jù)質(zhì)量,終將決定下游分析管道的實(shí)際效果。在正確起效之后,EDA將幫助用戶識(shí)別出數(shù)據(jù)中不必要的模式與噪聲,同時(shí)指導(dǎo)企業(yè)更準(zhǔn)確地選取適當(dāng)算法。
在EDA階段,我們需要積極查詢數(shù)據(jù)以確保其中的行為模式合乎預(yù)期。首先,先從以下十個(gè)需要全面分析的重要問(wèn)題起步:
1、是否擁有充足的數(shù)據(jù)點(diǎn)?
2、數(shù)據(jù)中心與離散的量度,是否與預(yù)期相符?
3、有多少個(gè)數(shù)據(jù)點(diǎn)質(zhì)量良好、可用于實(shí)際分析?
4、是否存在缺失值?這些壞值是否構(gòu)成數(shù)據(jù)中的重要部分?
5、數(shù)據(jù)的經(jīng)驗(yàn)分布如何?數(shù)據(jù)是否符合正態(tài)分布?
6、數(shù)值中是否存在特殊聚類或分組?
7、是否存在離群值?應(yīng)如何處理這些離群值?
8、不同維度間是否具有相關(guān)性?
9、是否需要通過(guò)重新格式化等手段進(jìn)行數(shù)據(jù)轉(zhuǎn)換,以供下游分析及解釋?
10、如果數(shù)據(jù)為高維形式,是否能夠在不損失過(guò)多信息的前提下降低維數(shù)?其中某些維度是否屬于噪聲?
這些問(wèn)題又會(huì)衍生出更多問(wèn)題。這不是完整的問(wèn)題清單,而僅僅只是思考的開(kāi)始。最終,希望大家能對(duì)現(xiàn)有數(shù)據(jù)模式建立起更好的理解,而后正確處理數(shù)據(jù)并選擇最適合的處理算法。
底層數(shù)據(jù)一直在不斷變化,這就要求我們?cè)贓DA上引入更多時(shí)間,確保算法接收到的輸入特征始終保持穩(wěn)定。例如,Airbnb發(fā)現(xiàn),數(shù)據(jù)科學(xué)家在模型開(kāi)發(fā)周期中近七成的時(shí)間被用于數(shù)據(jù)收集與特征工程,通過(guò)大量分析工作確定數(shù)據(jù)結(jié)構(gòu)與模式。簡(jiǎn)而言之,如果不花時(shí)間理解這些數(shù)據(jù),那么AI與ML計(jì)劃將極易失控。
唯一不變的,只有變化
目前,數(shù)字服務(wù)中最重要的應(yīng)用集中在網(wǎng)絡(luò)安全與欺詐檢測(cè)層面,這部分市場(chǎng)的總價(jià)值已經(jīng)超過(guò)300億美元。預(yù)計(jì)到2030年左右,市場(chǎng)總值有望超過(guò)1000億美元。雖然Amazon Fraud Detector及PayPal Fraud Management Filters等工具已經(jīng)在抗擊網(wǎng)絡(luò)欺詐方面發(fā)揮作用,但欺詐檢測(cè)中唯一不變的只有變化本身。企業(yè)需要不斷為新的欺詐行為做好準(zhǔn)備,而欺詐一方也在努力“創(chuàng)新”保證自己的攻擊能力。
每種新型欺詐往往都包含前所未有的數(shù)據(jù)模式。例如,新用戶在注冊(cè)與交易時(shí)往往對(duì)應(yīng)AI系統(tǒng)未曾見(jiàn)過(guò)的郵政編碼。雖然新用戶可能來(lái)自四面八方,但如果注冊(cè)地真的特別生僻,我們最好提高警惕。
這類計(jì)算中最困難的部分,是讓AI模型準(zhǔn)確辨別欺詐交易與正常交易。作為數(shù)據(jù)科學(xué)家,我們需要先引導(dǎo)底層算法初步理解正常交易與欺詐交易的特征,之后再由它慢慢探索更多欺詐檢測(cè)途徑。后續(xù)學(xué)習(xí),離不開(kāi)由統(tǒng)計(jì)技術(shù)搜索到的大量數(shù)據(jù)。用戶可以剖析客戶群體,確定普通客戶與欺詐者之間的區(qū)別;之后提取出有助于進(jìn)行準(zhǔn)確分類的信息,具體涵蓋注冊(cè)信息、交易內(nèi)容、客戶年齡、收入水平、姓名等等。需要注意的是,將正常交易標(biāo)記為欺詐行為,對(duì)客戶體驗(yàn)及產(chǎn)品聲譽(yù)造成的損害往往比欺詐本身更大。
更“有趣”的一點(diǎn)在于,EDA是個(gè)需要在整個(gè)產(chǎn)品生命周期內(nèi)不斷重復(fù)的過(guò)程。新的欺詐活動(dòng),必然對(duì)應(yīng)著新的數(shù)據(jù)模式。最終,企業(yè)需要投入大量時(shí)間與精力推進(jìn)EDA,借此保持最佳欺詐檢測(cè)能力以維持AI與ML管道的正常運(yùn)作。
總之,AI與ML的成功源自對(duì)數(shù)據(jù)的深刻理解,而非大量算法的盲目堆疊。
AI與ML管道應(yīng)該適應(yīng)數(shù)據(jù),而不要指望數(shù)據(jù)能適應(yīng)用戶的現(xiàn)有管道。只有滿足這些條件,AI與ML支撐起的新業(yè)務(wù)才有望勇猛精進(jìn)、一路向前。