那些從事機器學習(ML)項目的人都知道機器學習需要大量數據來訓練算法。有的人會說數據永遠不嫌多。數據量和生成的機器學習模型的復雜程度之間通常存在著正相關性。隨著人工智能向著新的領域發(fā)展,用到的人工智能功能變得愈加復雜,這種對數據的饑渴只會變得更加強烈。除了人工智能的復雜性,其他一些趨勢也在加劇這一問題,因此組織面前就出現(xiàn)了這樣一個問題:“他們是否擁有適當的數據以成功推動人工智能項目?”如果他們沒有足夠的資源,他們是否應該為人工智能盛宴做更多的準備?
圖1:人工智能/數據連續(xù)性
組織已經收集的所有大數據不太可能都是正確的數據,但是了解人工智能的發(fā)展方向能夠讓組織獲得“立足點”,在未來幾十年人工智能的發(fā)展過程中篩選和收集更多正確的數據。
人工智能的發(fā)展改變了數據游戲
雖然機器學習需要大量數據對自身行為進行修正,但隨著人工智能功能復雜程度的提高,人工智能對數據的需求量也會迅速增加。從機器學習到深度學習(DL)更是向前邁出了一大步,而深度學習比機器學習需要的數據要多得多。原因在于深度學習通常只能識別神經網絡各層之間的概念差異。當暴露在數百萬個數據點之下時,深度學習可以確定概念的邊界。深度學習讓機器像人的大腦一樣能夠通過神經網絡表示概念,從而能夠解決更復雜的問題。人工智能還可以解決更為模糊的問題,這些問題的答案通常更加不確定或者是模棱兩可的。這通常是判斷或者識別類的問題,可以擴展到創(chuàng)作或者其他的右腦活動。這又導致對數據的更多需求,在某些情況下,從本質上而言,這些需求可能是迫切或者實時的。
從數據驅動到結果驅動的轉變
人工智能在協(xié)助或解決的復雜問題中不斷發(fā)展,隨著這一趨勢,它將成為數據驅動和目標/結果驅動。這意味著人工智能可能會在解決特定問題或者進行特定推斷過程中即時請求數據,從而使數據管理變得更加復雜。它可能涉及解決方案的歸納數據驅動部分與為了達到目標假設的數據演繹需求的交互。以結果為導向的問題需要這種類型的動態(tài)交互。這與僅僅檢索數據以尋找感興趣的事件或模式的做法有很大的不同。決策驅動的方式則正好落在這兩種截然不同的模式之間。通過將數據和結果進行匹配,可以聚焦一些決策的運行狀況并加以改進。無論是歸納還是演繹都會出現(xiàn)更多的戰(zhàn)略決策。這只是推動數據使用量需求的源動力之一。
不斷變化的問題范圍影響數據需求
人工智能解決方案的范圍通常會從狹窄的領域開始,并隨著時間的流逝而擴大到更大的范圍,因此也就會需要更多數據。復雜的解決方案通常瞄準了多個答案,并且需要更多的數據來支持支路解決方案集,從而產生復雜/混合的結果。隨著決策、行動和結果的范圍跨越組織內部和外部的更多場景,將需要獲取更多的數據以了解每種場景及其相互作用。這些場景中的每一個都可能以不同的速率變化和變形,因此,也就會需要更多的數據。
總結
顯然,更多數據將成為人工智能輔助解決方案的標志。對數據的渴求可能來自于更具挑戰(zhàn)性的問題、對高級人工智能/分析的更好利用或者是端到端價值鏈的增長。只有一點是確定無疑的。組織最好為“人工智能/數據交互”的新世界做好準備。它將改變或拓展數據管理策略、方法和技術。