實際上,與數(shù)據(jù)的規(guī)模相比,數(shù)據(jù)的質(zhì)量、價值和多樣性更值得關(guān)注,即數(shù)據(jù)的“深度”重于“廣度”。本文從四個角度思考了大數(shù)據(jù)時代的問題并提出了一些建議的做法以改善這些問題。
最近一段時間,對大數(shù)據(jù)的炒作正在減弱。云計算,Hadoop 及其他類似的工具已經(jīng)有效地解決了大數(shù)據(jù)的處理問題。
但是,仍有大部分人愿意在基礎(chǔ)設(shè)施上加大投資力度,以期望處理、保存和組織這些大型數(shù)據(jù)庫。一味的地追求“大”,會在基礎(chǔ)設(shè)施和人力資源方面產(chǎn)生一定程度上的不必要成本。
而現(xiàn)在,是時候?qū)狳c從“大數(shù)據(jù)”改為“深數(shù)據(jù)”了。如今,我們對待數(shù)據(jù)應(yīng)當更加深思熟慮,而不是不加篩選地收集所有可獲得的數(shù)據(jù)來實現(xiàn)“大數(shù)據(jù)”。我們現(xiàn)在需要讓一些數(shù)據(jù)落實到位,并尋求數(shù)量和質(zhì)量的多樣性。這一舉措將帶來許多長期利益。
01 四種大數(shù)據(jù)神話
要理解從“大”到“深”的這種轉(zhuǎn)變,首先讓我們看一下對大數(shù)據(jù)的一些錯誤觀念。以下是一些嚴重夸大的大數(shù)據(jù)神話:
1、所有數(shù)據(jù)都可以并且應(yīng)當被捕獲和存儲。
2、更多的數(shù)據(jù)總是有助于建立更準確的預(yù)測模型。
3、儲存更多數(shù)據(jù)的成本幾乎為零。
4、計算更多數(shù)據(jù)的成本幾乎為零。
然而:
1、來自物聯(lián)網(wǎng)和網(wǎng)絡(luò)流量的數(shù)據(jù)顯然超過了我們的捕獲能力。很多數(shù)據(jù)都需要在獲取時進行預(yù)處理以便儲存和管理。我們需要依照其價值對數(shù)據(jù)進行分類與篩選。
2、重復(fù)使用一千次相同的數(shù)據(jù)進行訓(xùn)練并不會提高預(yù)測模型的準確性。
3、存儲更多數(shù)據(jù)的成本不僅僅是亞馬遜網(wǎng)絡(luò)服務(wù)向您收取的以 TB 計費的美元。同時也包括系統(tǒng)在查找和管理多個數(shù)據(jù)源的額外復(fù)雜性,以及員工移動和使用該數(shù)據(jù)的“虛擬重量”。這些成本通常高于存儲和計算費用。
4、人工智能算法對計算資源的需求會快速超越彈性云基礎(chǔ)設(shè)施所能提供的算力。在沒有專業(yè)的管理策略的情況下,計算資源會呈線性增長,而計算需求則會出現(xiàn)超線性增長,甚至指數(shù)級增長。
如果輕信了這些神話,你所構(gòu)建的信息系統(tǒng)可能看起來會像是紙上談兵,或從長期角度看起來很好,但在即時性的框架中實現(xiàn)起來則是復(fù)雜且低效的。
02 四種大數(shù)據(jù)問題
以下是在數(shù)據(jù)方面盲目相信“越多越好”會導(dǎo)致的四個問題:
●重復(fù)的數(shù)據(jù)對模型無益。在為 AI 構(gòu)建機器學(xué)習(xí)模型時,訓(xùn)練樣本的多樣性至關(guān)重要。原因是模型試圖確定概念邊界。例如,如果您的模型試圖通過年齡和職業(yè)來定義“退休工人”的概念,那么像“32 歲的注冊會計師”這樣的重復(fù)樣本對該模型并沒有什么價值,因為這些人大都沒有退休。在 65 歲的概念邊界中獲得樣本并了解退休如何隨職業(yè)而變化則更具有價值。
●低質(zhì)量數(shù)據(jù)會對模型有害。在 AI 試圖學(xué)習(xí)兩個概念之間邊界的過程中,如果新數(shù)據(jù)是不精確的,或存在錯誤,那么它會混淆這個邊界。在這種情況下,更多數(shù)據(jù)無濟于事,并且還有可能會降低現(xiàn)有模型的準確性。
●大數(shù)據(jù)增加了時間成本。對于不同學(xué)習(xí)算法,在 TB 級的數(shù)據(jù)上構(gòu)建模型可能會比在數(shù) GB 的數(shù)據(jù)上構(gòu)建模型多花費約千倍、甚至萬倍的時間。數(shù)據(jù)科學(xué)本就是快速實驗,雖不完美卻輕量的模型更具有前景。數(shù)據(jù)科學(xué)一旦失去了速度,則失去了未來。
●大數(shù)據(jù)環(huán)境下易于實現(xiàn)的模型。任何預(yù)測模型的最終目的都是創(chuàng)建一個可用于商業(yè)部署的高度準確的模型。有時使用來自數(shù)據(jù)庫深處陰暗面的模糊數(shù)據(jù)可能會產(chǎn)生更高的準確性,但所使用的數(shù)據(jù)對于實際部署可能是有風險的。使用一個不太準確卻可以快速部署和運行的模型往往更好。
03 四種更好的措施
您可以采取一些措施來對抗大數(shù)據(jù)的“陰暗面”并轉(zhuǎn)為深度數(shù)據(jù)思維:
●學(xué)會在準確性和執(zhí)行性之前權(quán)衡。數(shù)據(jù)科學(xué)家普遍喜歡將目標定為更準確的模型。實際上,你應(yīng)當根據(jù)準確性和部署速度,計算合理的 ROI 期望,然后再開始你的項目。
●使用隨機樣本構(gòu)建每個模型。如果你已經(jīng)獲得了大數(shù)據(jù),那么沒有理由不使用它。如果可以使用好的隨機抽樣方法,那么你可以先使用小樣本建立模型,然后在整個數(shù)據(jù)庫上進行訓(xùn)練和調(diào)試以獲得更準確的預(yù)測模型。
●丟棄一些數(shù)據(jù)。如果您對來自物聯(lián)網(wǎng)設(shè)備和其他來源的流數(shù)據(jù)感到不知所措,請拋棄一些數(shù)據(jù),不要有太大的負擔。如果你無法購買足夠的磁盤來存儲多余的數(shù)據(jù),它會破壞你在數(shù)據(jù)科學(xué)生產(chǎn)線后期的所有工作。
●尋找更多數(shù)據(jù)源。人工智能最近的許多突破并不是因為更大的數(shù)據(jù)集,而是能夠?qū)C器學(xué)習(xí)算法成功的運用于這些數(shù)據(jù),這在之前是無法實現(xiàn)的。例如,如今普遍存在的大型文本,圖像,視頻和音頻數(shù)據(jù)集在二十年前并不存在。你應(yīng)當不斷尋找新的數(shù)據(jù)以找到更好的機會。
04 四種得到的改善
●如果您專注于深度數(shù)據(jù)而不僅僅是數(shù)據(jù)的廣度,您將享受到許多好處。以下是一些關(guān)鍵問題:
●一切都會更快。使用較小的數(shù)據(jù),您的數(shù)據(jù)遷移、實驗、訓(xùn)練和模型測試都會快得多。
●更少的存儲和計算需求。專注于深度數(shù)據(jù)意味著您將更加智能地使用更小的磁盤以及云平臺占用空間。這將為你節(jié)省一筆可觀的基礎(chǔ)設(shè)施成本,用你節(jié)省的資金聘請更多數(shù)據(jù)科學(xué)家和 AI 專家吧!
●低壓的 IT 人員和更高幸福感的數(shù)據(jù)科學(xué)家。憑借深厚的數(shù)據(jù)文化,您的 IT 團隊將不會愿意聽從數(shù)據(jù)科學(xué)家的意見行事,或者不得不終止所有因沉浸于云資源而失控的作業(yè)。同樣,當數(shù)據(jù)科學(xué)家花費更多時間構(gòu)建和測試模型,而不是將這些時間消耗在遷移數(shù)據(jù)或等待長時間的訓(xùn)練過程時,他們會更加高興。
●更難的問題可以解決。構(gòu)建 AI 模型并不是一種神奇的體驗,只能由類似巫師的研究人員執(zhí)行。事實上,邏輯遠比魔術(shù)更重要。這類似于一位藝術(shù)老師的故事,他告訴半個班級,他們的成績將取決于他們制作的藝術(shù)品的數(shù)量,另一半的成績將根據(jù)他們最好的作品的質(zhì)量進行評分。很多學(xué)生都創(chuàng)造了大量的藝術(shù)品,并且令人震驚的是,這些藝術(shù)品的質(zhì)量也都不差。數(shù)量和質(zhì)量很多時候并不矛盾。這則例子是想說明:在相同資源約束下嘗試的更多模型可能意味著可以獲得質(zhì)量更高的模型。
許多公司的決策過程都在逐漸轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的方式,這與大數(shù)據(jù)及其技術(shù)方面的突破密不可分。隨著人工智能的興起以及對這些強大資源的處理能力的飽和,我們現(xiàn)在需要更加精確地根據(jù)我們的數(shù)據(jù)需求建立一種理解深度數(shù)據(jù)而不僅僅是廣度數(shù)據(jù)的文化。
作者:Stephen Smith
編譯:Alex,編輯:Debra
來源:AI前線(ID:ai-front)
查看英文原文:
https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html