如今人們總是能聽到有關(guān)機器學(xué)習(xí)的新聞,而機器學(xué)習(xí)技術(shù)確實有更多發(fā)展?jié)摿?。調(diào)研機構(gòu)Gartner公司預(yù)測,對于很多組織來說,80%的人工智能項目仍是一種難以獲得成功的煉金術(shù)。根據(jù)VentureBeat公司發(fā)布的“Transform2019”研究報告,87%的人工智能項目將永遠(yuǎn)無法投入生產(chǎn)。
為什么會這樣呢?為什么這么多項目失敗?
1.沒有足夠的專業(yè)知識
其中一個原因是,機器學(xué)習(xí)技術(shù)對人們來說仍然是新技術(shù)。此外,大多數(shù)組織仍不熟悉軟件工具和所需的硬件。
如今,從事數(shù)據(jù)分析或軟件開發(fā)工作并完成了一些數(shù)據(jù)科學(xué)項目的一些人卻將自己標(biāo)榜為數(shù)據(jù)科學(xué)家。
事實上,組織需要經(jīng)驗豐富的真正數(shù)據(jù)科學(xué)家來處理大多數(shù)機器學(xué)習(xí)和人工智能項目,尤其是在定義成功標(biāo)準(zhǔn)、最終部署和模型的持續(xù)監(jiān)控方面。
2.數(shù)據(jù)科學(xué)與傳統(tǒng)軟件開發(fā)之間的脫節(jié)
數(shù)據(jù)科學(xué)與傳統(tǒng)軟件開發(fā)之間的脫節(jié)是另一個主要因素。傳統(tǒng)的軟件開發(fā)往往更具可預(yù)測性和可衡量性。
數(shù)據(jù)科學(xué)研究通過多次迭代和試驗而向前發(fā)展。有時,由于選擇的度量標(biāo)準(zhǔn)不會驅(qū)動用戶行為,因此整個項目將不得不從部署階段返回到計劃階段。
傳統(tǒng)的基于敏捷的項目交付可能不適用于數(shù)據(jù)科學(xué)項目。對于在常規(guī)軟件開發(fā)項目的每個任務(wù)周期結(jié)束時一直在努力交付清晰結(jié)果的領(lǐng)導(dǎo)者來說,這將造成大規(guī)模的混亂。
3.數(shù)據(jù)量和質(zhì)量
眾所周知,數(shù)據(jù)集越大,采用人工智能系統(tǒng)進(jìn)行的預(yù)測就越好。除了數(shù)據(jù)量增加的直接影響之外,隨著數(shù)據(jù)量的增加,還會出現(xiàn)許多新的挑戰(zhàn)。
在許多情況下,組織將不得不合并來自多個源的數(shù)據(jù)。一旦開始這樣做,就會意識到它們同步的次數(shù)很少,這將導(dǎo)致很多混亂。有時,組織最終將合并不應(yīng)該合并的數(shù)據(jù),這將導(dǎo)致數(shù)據(jù)點具有相同的名稱但含義不同。
錯誤的數(shù)據(jù)會帶來無法采取行動或無法提供真知灼見的結(jié)果,也會導(dǎo)致誤導(dǎo)性結(jié)果。
4. 標(biāo)記數(shù)據(jù)
標(biāo)記數(shù)據(jù)的不可用是另一個阻礙機器學(xué)習(xí)項目的挑戰(zhàn)。《麻省理工學(xué)院斯隆管理評論》雜志指出,76%的人通過嘗試自己標(biāo)記和注釋訓(xùn)練數(shù)據(jù)來應(yīng)對這一挑戰(zhàn),而63%的人甚至嘗試構(gòu)建自己的標(biāo)記和注釋自動化技術(shù)。
這意味著數(shù)據(jù)科學(xué)家在標(biāo)記過程中無法充分利用其專業(yè)知識。這是有效執(zhí)行人工智能項目的主要挑戰(zhàn)。
這就是許多公司將標(biāo)記任務(wù)外包給其他公司的原因。但是,如果標(biāo)記任務(wù)需要足夠的領(lǐng)域知識,則將標(biāo)記任務(wù)外包是一個挑戰(zhàn)。如果組織需要保持?jǐn)?shù)據(jù)集之間的質(zhì)量和一致性,則必須投資于標(biāo)記人員的標(biāo)準(zhǔn)化培訓(xùn)。
如果要標(biāo)記的數(shù)據(jù)很復(fù)雜,則另一個選擇是開發(fā)自己的數(shù)據(jù)標(biāo)記工具。但是,與機器學(xué)習(xí)任務(wù)本身相比,這通常需要更多的成本。
5.組織孤立無援
數(shù)據(jù)是機器學(xué)習(xí)項目中最重要的實體。在大多數(shù)組織中,這些數(shù)據(jù)將以不同的安全約束和不同格式(例如結(jié)構(gòu)化、非結(jié)構(gòu)化、視頻文件、音頻文件、文本和圖像)駐留在不同的位置。
在不同的地方以不同的格式保存這些數(shù)據(jù)本身就是一個挑戰(zhàn)。然而,當(dāng)組織孤立無援而卻沒有相互協(xié)作時,其挑戰(zhàn)就會加倍。
6.缺乏合作
另一個主要挑戰(zhàn)是不同團(tuán)隊之間缺乏協(xié)作,如數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、數(shù)據(jù)管理員、商業(yè)智能(BI)專家、DevOps和工程。這對于物聯(lián)網(wǎng)到數(shù)據(jù)科學(xué)的工程方案中的團(tuán)隊尤其重要,因為他們在工作方式和完成項目所使用的技術(shù)上有很多不同。
工程團(tuán)隊將實施機器學(xué)習(xí)模型并將其投入生產(chǎn)。因此,他們之間需要有適當(dāng)?shù)睦斫夂蛷娪辛Φ膮f(xié)作。
7.技術(shù)上不可行的項目
由于機器學(xué)習(xí)項目的成本往往非常昂貴,因此大多數(shù)企業(yè)傾向于以雄心勃勃的“登月計劃”為目標(biāo),這將完全改變組織或產(chǎn)品并帶來超額回報或投資。
這樣的項目將永遠(yuǎn)無法完成,并將推動數(shù)據(jù)科學(xué)團(tuán)隊達(dá)到極限。最終,企業(yè)領(lǐng)導(dǎo)者將對項目失去信心并停止投資。
8.技術(shù)團(tuán)隊和業(yè)務(wù)團(tuán)隊之間的協(xié)調(diào)問題
很多時候,機器學(xué)習(xí)項目在業(yè)務(wù)團(tuán)隊和數(shù)據(jù)科學(xué)團(tuán)隊之間在項目的期望、目標(biāo)和成功標(biāo)準(zhǔn)上沒有明確的一致性。
這些類型的項目將永遠(yuǎn)停留在研究階段,因為他們永遠(yuǎn)不知道自己是否正在取得進(jìn)展,因為至今還不清楚其目標(biāo)是什么。
在這里,數(shù)據(jù)科學(xué)團(tuán)隊將主要專注于準(zhǔn)確性,而業(yè)務(wù)團(tuán)隊將對諸如財務(wù)收益或業(yè)務(wù)洞察力之類的指標(biāo)更感興趣。最后,業(yè)務(wù)團(tuán)隊最終不接受數(shù)據(jù)科學(xué)團(tuán)隊的結(jié)果。
9.缺乏數(shù)據(jù)策略
根據(jù)《麻省理工學(xué)院斯隆管理評論》雜志的調(diào)查,員工人數(shù)超過10萬名的大型組織將有50%可能采用數(shù)據(jù)策略。而組織在開始機器學(xué)習(xí)項目之前制定可靠的數(shù)據(jù)策略至關(guān)重要。
組織需要對以下內(nèi)容有清晰的了解,這是數(shù)據(jù)策略的一部分:
組織擁有的全部數(shù)據(jù)是多少?
項目實際需要多少數(shù)據(jù)?
所需的人員將如何訪問這些數(shù)據(jù),以及這些人員訪問這些數(shù)據(jù)的容易程度?
如何將來自不同來源的所有這些數(shù)據(jù)匯總在一起?
如何清理和轉(zhuǎn)換這些數(shù)據(jù)?
大多數(shù)組織一開始沒有計劃,或者根本沒有想到自己沒有數(shù)據(jù)。
10.缺乏領(lǐng)導(dǎo)支持
很多人認(rèn)為,只需要投入一些資金和技術(shù)來解決問題,其結(jié)果就會自動出現(xiàn)。
但是他們沒有看到組織領(lǐng)導(dǎo)者提供正確的支持來確保成功所需的條件,而組織領(lǐng)導(dǎo)者有時對數(shù)據(jù)科學(xué)家開發(fā)的模型沒有信心。
這可能是由于組織的領(lǐng)導(dǎo)者對人工智能缺乏了解,以及數(shù)據(jù)科學(xué)家無法向他們傳達(dá)模型具有業(yè)務(wù)利益的原因。
最終,組織的領(lǐng)導(dǎo)者需要了解機器學(xué)習(xí)的工作原理以及人工智能對組織的真正意義。