每年,機器學(xué)習(xí)研究人員都會因新發(fā)現(xiàn)和創(chuàng)新而著迷我們。在十二場人工智能會議上,研究人員突破了科學(xué)的界限,展示了神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)架構(gòu)如何在計算機視覺和自然語言處理等領(lǐng)域面臨新的挑戰(zhàn)。
但是,在現(xiàn)實世界的應(yīng)用程序和業(yè)務(wù)問題中使用機器學(xué)習(xí)(通常稱為“應(yīng)用機器學(xué)習(xí)”或“應(yīng)用人工智能”)提出了學(xué)術(shù)和科研環(huán)境中不存在的挑戰(zhàn)。應(yīng)用機器學(xué)習(xí)需要超越數(shù)據(jù)科學(xué)的資源,技能和知識,這些資源,技能和知識可以將AI算法集成到每天成千上萬的人使用的應(yīng)用程序中。
兩位經(jīng)驗豐富的應(yīng)用機器學(xué)習(xí)從業(yè)者Alyssa Simpson Rochwerger和Wilson Pang在他們的新書《真實世界AI:負責(zé)任的機器學(xué)習(xí)實用指南》中討論了這些挑戰(zhàn)。IBM Watson的前產(chǎn)品總監(jiān)Rochwerger和Appen的CTO Pang結(jié)合了他們的個人經(jīng)驗和知識,提供了許多示例說明組織如何成功或失敗地將機器學(xué)習(xí)集成到他們的產(chǎn)品和業(yè)務(wù)模型中。
真實世界的AI解釋了機器學(xué)習(xí)策略的常見挑戰(zhàn)和陷阱,以及產(chǎn)品領(lǐng)導(dǎo)者如何避免重復(fù)其他組織的失敗。這是Rochwerger和Pang在書中強調(diào)的四個關(guān)鍵挑戰(zhàn)。
定義問題
知道要解決的問題是一項挑戰(zhàn),它適用于所有軟件工程任務(wù)。任何有經(jīng)驗的開發(fā)人員都會承認(rèn),“做正確的事”不同于“做正確的事”。在應(yīng)用機器學(xué)習(xí)中,定義問題在您對技術(shù),數(shù)據(jù)源和將要使用您的產(chǎn)品的人員的選擇中起著至關(guān)重要的作用。
Rochwerger和Pang在《真實世界》中寫道:“在大型公司處于試點階段的AI中,只有20%投入生產(chǎn),而且許多都無法盡其所能為客戶提供服務(wù)。”“在某些情況下,這是因為他們試圖解決錯誤的問題。在其他情況下,這是因為它們無法考慮所有對模型的成敗至關(guān)重要的變量或潛在偏差。”
考慮圖像分類問題。深度神經(jīng)網(wǎng)絡(luò)可以驚人的精度執(zhí)行此類任務(wù)。但是,如果要將它們應(yīng)用于實際應(yīng)用程序,則對問題的詳細定義將確定所需的模型,數(shù)據(jù),人才和投資的類型。
例如,如果您想要一個可以標(biāo)記圖像檔案中文件的神經(jīng)網(wǎng)絡(luò),則可以使用很多預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(例如ResNet,Inception)和公共數(shù)據(jù)集(例如ImageNet和Microsoft COCO)開箱即用。您可以在自己的服務(wù)器上設(shè)置深度學(xué)習(xí)模型,并通過它運行圖像?;蛘?,您可以注冊基于API的服務(wù),例如Amazon Rekognition或Microsoft Azure Computer Vision。在這種情況下,推斷將在服務(wù)提供商的服務(wù)器中完成。
但是,假設(shè)您正在一家大型農(nóng)業(yè)公司工作,并且想要開發(fā)一種可以在無人機上運行并且可以檢測農(nóng)作物中雜草的圖像分類器。希望這項技術(shù)將幫助您的公司轉(zhuǎn)而精確地使用除草劑,以降低成本,浪費和化學(xué)藥品的負面影響。
在這種情況下,您將需要一種更專業(yè)的方法。您必須考慮對機器學(xué)習(xí)模型和數(shù)據(jù)的約束。您需要一個足夠輕的神經(jīng)網(wǎng)絡(luò),以在邊緣設(shè)備的計算資源上運行。而且,您將需要一個特殊的帶有雜草和非雜草植物標(biāo)簽圖像的數(shù)據(jù)集。
在機器學(xué)習(xí)中,定義問題還包括確定要解決問題的程度。例如,在圖像檔案標(biāo)簽的情況下,如果您的機器學(xué)習(xí)模型將每100張圖像中的5張標(biāo)簽錯誤,那么您應(yīng)該不會有太大的問題。但是,如果要創(chuàng)建癌癥檢測神經(jīng)網(wǎng)絡(luò),則需要更高的標(biāo)準(zhǔn)。每個遺漏的案件都可能會影響生命。
收集訓(xùn)練數(shù)據(jù)
應(yīng)用機器學(xué)習(xí)的主要挑戰(zhàn)之一是收集和組織訓(xùn)練模型所需的數(shù)據(jù)。這與科學(xué)研究相反,在科學(xué)研究中通??梢垣@得訓(xùn)練數(shù)據(jù),其目標(biāo)是創(chuàng)建正確的機器學(xué)習(xí)模型。
“在現(xiàn)實世界中創(chuàng)建AI時,用于訓(xùn)練模型的數(shù)據(jù)比模型本身更為重要,”Rochwerger和Pang在《Real World AI》中寫道。“這是學(xué)術(shù)界代表的典型范例的逆轉(zhuǎn),在該范例中,數(shù)據(jù)科學(xué)博士將大部分精力和精力用于創(chuàng)建新模型。但是,用于在學(xué)術(shù)界訓(xùn)練模型的數(shù)據(jù)僅用于證明模型的功能,而不能解決實際問題。在現(xiàn)實世界中,可用于訓(xùn)練工作模型的高質(zhì)量,準(zhǔn)確數(shù)據(jù)很難收集。”
在許多應(yīng)用的機器學(xué)習(xí)應(yīng)用程序中,公共數(shù)據(jù)集對于訓(xùn)練模型沒有用。您需要收集自己的數(shù)據(jù)或從第三方購買它們。兩種選擇都有其自身的挑戰(zhàn)。
例如,在前面提到的除草劑監(jiān)視場景中,該組織將需要捕獲很多農(nóng)作物和雜草的圖像。為了使機器學(xué)習(xí)模型可靠地工作,工程師將需要在不同的光照,環(huán)境和土壤條件下拍照。收集數(shù)據(jù)后,他們需要將圖像標(biāo)記為“植物”或“雜草”。數(shù)據(jù)標(biāo)記需要手動工作,這是一項艱巨的工作,并且已經(jīng)引起了整個行業(yè)的發(fā)展。有數(shù)十個平臺和公司為AI應(yīng)用程序提供數(shù)據(jù)標(biāo)記服務(wù)。
在其他情況下,例如醫(yī)療保健和銀行業(yè),培訓(xùn)數(shù)據(jù)將包含敏感信息。在這種情況下,外包標(biāo)簽任務(wù)可能很棘手,產(chǎn)品團隊將必須小心,不要違反隱私和安全法規(guī)。
然而,在其他應(yīng)用程序中,數(shù)據(jù)可能會分散并分散在不同的數(shù)據(jù)庫,服務(wù)器和網(wǎng)絡(luò)中。當(dāng)組織從各種來源獲取數(shù)據(jù)時,他們還將面臨其他挑戰(zhàn),例如數(shù)據(jù)庫架構(gòu)之間的不一致,約定不匹配,數(shù)據(jù)丟失,數(shù)據(jù)過時等等。在這種情況下,機器學(xué)習(xí)策略的主要挑戰(zhàn)之一將是清理數(shù)據(jù)并將不同的源合并到一個數(shù)據(jù)湖中,以支持ML模型的訓(xùn)練和維護。
在數(shù)據(jù)來自不同數(shù)據(jù)庫的情況下,驗證數(shù)據(jù)質(zhì)量和出處對于機器學(xué)習(xí)模型的質(zhì)量也至關(guān)重要。Rochwerger和Pang警告說:“在企業(yè)中,發(fā)現(xiàn)分散在不同部門的整個數(shù)據(jù)庫中的數(shù)據(jù)而沒有任何有關(guān)它來自何處或如何到達那里的任何文檔,這在企業(yè)中是非常普遍的,”Rochwerger和Pang警告說。
“隨著數(shù)據(jù)從收集到數(shù)據(jù)庫的那一刻開始出現(xiàn),很可能已經(jīng)以一種有意義的方式對其進行了更改或操縱。如果您對正在使用的數(shù)據(jù)如何到達那里進行假設(shè),那么最終可能會產(chǎn)生一個無用的模型。”
維護機器學(xué)習(xí)模型
機器學(xué)習(xí)模型是一種預(yù)測機器,可以從世界上獲得的數(shù)據(jù)中查找模式,并根據(jù)當(dāng)前的觀察結(jié)果預(yù)測未來的結(jié)果。隨著我們周圍世界的變化,數(shù)據(jù)模式也會發(fā)生變化,并且根據(jù)過去的數(shù)據(jù)訓(xùn)練的模型會逐漸衰減。
“AI并不是一種“設(shè)置即忘了”的系統(tǒng),無需人工干預(yù)就能不斷創(chuàng)造出結(jié)果。它需要不斷的維護,管理和過程校正,才能繼續(xù)提供有意義的期望輸出。”Rochwerger和Pang在《Real World AI》中寫道。
一個明顯的例子是covid-19大流行,該大流行引起了全球范圍內(nèi)的封鎖,并改變了許多生活習(xí)慣,從而破壞了許多機器學(xué)習(xí)模型。例如,隨著購物從實體店轉(zhuǎn)變?yōu)樵诰€商店,用于供應(yīng)鏈管理和銷售預(yù)測的機器學(xué)習(xí)模型已過時,需要重新培訓(xùn)。
因此,任何成功的機器學(xué)習(xí)策略的關(guān)鍵部分是確保您具有基礎(chǔ)結(jié)構(gòu)和流程來收集連續(xù)的新數(shù)據(jù)流并更新模型。如果您使用的是監(jiān)督式機器學(xué)習(xí)模型,則還必須弄清楚如何標(biāo)記新數(shù)據(jù)。在某些情況下,您可以通過提供工具來執(zhí)行此操作,該工具允許用戶提供有關(guān)機器學(xué)習(xí)模型所做的預(yù)測的反饋。在其他情況下,則需要手動標(biāo)記新數(shù)據(jù)。
“不要忘記為正在進行的模型培訓(xùn)分配資源。模型必須不斷地訓(xùn)練,否則隨著時間的推移,模型將變得不那么精確,”Rochwerger和Pang寫道。
聚集合適的團隊
在應(yīng)用機器學(xué)習(xí)中,您的模型將影響人們的工作和生活(以及公司的底線)。這就是為什么一個孤立的數(shù)據(jù)科學(xué)家團隊很少實施成功的機器學(xué)習(xí)策略的原因。
“僅通過模型即可解決的業(yè)務(wù)問題非常罕見。大多數(shù)問題是多方面的,需要各種各樣的技能-數(shù)據(jù)管道,基礎(chǔ)架構(gòu),UX,業(yè)務(wù)風(fēng)險分析。”Rochwerger和Pang在Real World AI中寫道。“換句話說,機器學(xué)習(xí)僅在將其整合到業(yè)務(wù)流程,客戶體驗或產(chǎn)品中并真正發(fā)布后才有用。”
應(yīng)用機器學(xué)習(xí)需要一個跨職能的團隊,其中包括來自不同學(xué)科和背景的人員。并非所有這些都是技術(shù)性的。
主題專家將需要驗證訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和模型推論的可靠性。產(chǎn)品經(jīng)理將需要為機器學(xué)習(xí)策略建立業(yè)務(wù)目標(biāo)和期望的結(jié)果。用戶研究人員將通過與系統(tǒng)最終用戶的訪談和反饋,幫助驗證模型的性能。道德團隊將需要確定機器學(xué)習(xí)模型可能造成有害危害的敏感區(qū)域。
Rochwerger和Pang寫道:“成功的AI解決方案的非技術(shù)成分與建立模型所需的純技術(shù)技能同樣重要,甚至更為重要。”
應(yīng)用機器學(xué)習(xí)還需要除數(shù)據(jù)科學(xué)技能之外的技術(shù)支持。軟件工程師將必須幫助將模型集成到組織正在使用的其他軟件中。數(shù)據(jù)工程師將需要建立在培訓(xùn)和維護期間為模型提供數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)架構(gòu)和管道。而且IT團隊將需要提供訓(xùn)練,服務(wù)機器學(xué)習(xí)模型所需的計算,網(wǎng)絡(luò)和存儲資源。
“即使有了出色的業(yè)務(wù)策略,明確表達的具體問題和強大的團隊,如果沒有訪問攝取,保存和移動每個數(shù)據(jù)集所需的數(shù)據(jù),工具和基礎(chǔ)架構(gòu),也無法取得成功。并在適當(dāng)?shù)奈恢眠M行操作,”Rochwerger和Pang寫道。
制定正確的機器學(xué)習(xí)策略
這些只是您在應(yīng)用機器學(xué)習(xí)中將面臨的一些關(guān)鍵挑戰(zhàn)。您仍然需要更多元素來使您的機器學(xué)習(xí)策略有效。Rochwerger和Pang在他們的書中討論了試點計劃,“構(gòu)建與購買”困境,應(yīng)對生產(chǎn)挑戰(zhàn),安全和隱私問題以及應(yīng)用機器學(xué)習(xí)的道德挑戰(zhàn)。他們提供了許多真實的示例,這些示例顯示了如何正確地做事并避免破壞機器學(xué)習(xí)的主動性。