大數(shù)據(jù)到深度數(shù)據(jù)有什么變化?

云棲社區(qū)編譯
目前,越來越多的聲音討論是否從“大數(shù)據(jù)”轉(zhuǎn)向?yàn)椤吧疃葦?shù)據(jù)”了,我們現(xiàn)在需要更加的明智和思考全面,而不是收集所有可能的數(shù)據(jù)來實(shí)現(xiàn)“大數(shù)據(jù)”。

摘要:自從阿法狗戰(zhàn)勝人類頂級(jí)棋手之后,深度學(xué)習(xí)、人工智能變得再一次火熱起來,但有一個(gè)基本的誤解是更大的數(shù)據(jù)會(huì)產(chǎn)生更好的機(jī)器學(xué)習(xí)結(jié)果。然而,更大的數(shù)據(jù)池/倉(cāng)庫(kù)并不一定有助于模型學(xué)習(xí)到更深刻的見解。正確的答案是?

大數(shù)據(jù)到深度數(shù)據(jù)有什么變化?

自從阿法狗戰(zhàn)勝人類頂級(jí)棋手之后,深度學(xué)習(xí)、人工智能變得再一次火熱起來。有些人認(rèn)為,深度學(xué)習(xí)的再一次興起是源于硬件的提升、數(shù)據(jù)量的增多以及高效算法的研究。這并不完全精確,有一個(gè)基本的誤解是更大的數(shù)據(jù)會(huì)產(chǎn)生更好的機(jī)器學(xué)習(xí)結(jié)果。然而,更大的數(shù)據(jù)池/倉(cāng)庫(kù)并不一定有助于模型學(xué)習(xí)到更深刻的見解。正確的答案是,要把重心專注于數(shù)據(jù)的質(zhì)量、價(jià)值以及多樣性,而不僅僅是數(shù)據(jù)的規(guī)模——“深度數(shù)據(jù)”(deep data)比大數(shù)據(jù)(big data)好。

隨著研究的進(jìn)行,人們對(duì)大數(shù)據(jù)的炒作逐漸在減弱。云計(jì)算、Hadoop及其變種已經(jīng)能夠解決一些大數(shù)據(jù)的問題。但是“大數(shù)據(jù)”是指許多人仍在花費(fèi)大量資金建設(shè)更大的基礎(chǔ)設(shè)施來處理、保存和管理的龐大數(shù)據(jù)庫(kù)。這種盲目追求“大”的做法,在基礎(chǔ)設(shè)施和人力資源方面產(chǎn)生了巨大的、且本可避免的成本。

目前,越來越多的聲音討論是否從“大數(shù)據(jù)”轉(zhuǎn)向?yàn)?ldquo;深度數(shù)據(jù)”了,我們現(xiàn)在需要更加的明智和思考全面,而不是收集所有可能的數(shù)據(jù)來實(shí)現(xiàn)“大數(shù)據(jù)”。我們現(xiàn)在需要讓一些數(shù)據(jù)落實(shí)到位,并尋求數(shù)量和質(zhì)量的多樣性,這將給我們帶來許多長(zhǎng)期的收益。

被神話的大數(shù)據(jù)

要理解從“大”到“深”的這種轉(zhuǎn)變,讓我們首先看一下我們對(duì)大數(shù)據(jù)的一些錯(cuò)誤觀念:

可以并且應(yīng)該捕獲和存儲(chǔ)所有數(shù)據(jù);

更多數(shù)據(jù)總是有助于構(gòu)建更準(zhǔn)確的預(yù)測(cè)模型;

存儲(chǔ)更多的數(shù)據(jù),其存儲(chǔ)成本幾乎為零;

更多數(shù)據(jù)的計(jì)算成本幾乎為零;

以下是現(xiàn)實(shí):

來自物聯(lián)網(wǎng)和網(wǎng)絡(luò)流量的數(shù)據(jù)仍然超過了我們目前具備的捕獲所有數(shù)據(jù)的能力。有些數(shù)據(jù)必須在攝取時(shí)被丟棄。我們需要變得聰明,這就需要我們根據(jù)價(jià)值對(duì)數(shù)據(jù)進(jìn)行分類;

重復(fù)一千次的相同數(shù)據(jù)示例并不會(huì)提高預(yù)測(cè)模型的準(zhǔn)確性;

存儲(chǔ)更多數(shù)據(jù)的成本不僅僅是網(wǎng)絡(luò)服務(wù)向用戶收取的費(fèi)用(比如云盤),這也是查找和管理多個(gè)數(shù)據(jù)源的額外復(fù)雜性以及員工移動(dòng)和使用該數(shù)據(jù)的隱藏代價(jià),這些成本通常高于存儲(chǔ)和計(jì)算費(fèi)用。

人工智能算法對(duì)計(jì)算資源的需求甚至可以快速超越彈性云基礎(chǔ)設(shè)施。雖然計(jì)算資源可以線性增長(zhǎng),但計(jì)算需求可以超線性增長(zhǎng),甚至指數(shù)級(jí)增長(zhǎng)。

相信這些神話的問題在于,我們將以一種在紙上或長(zhǎng)期看來都很好的方式構(gòu)建信息系統(tǒng),但在即時(shí)時(shí)間框架內(nèi)過于繁瑣,無法發(fā)揮作用。

大數(shù)據(jù)的四個(gè)問題

以下是在數(shù)據(jù)方面盲目相信“越多越好”時(shí)存在的四個(gè)問題:

更多相同的數(shù)據(jù)是沒有作用的。為人工智能構(gòu)建機(jī)器學(xué)習(xí)模型時(shí),訓(xùn)練示例的多樣性至關(guān)重要,原因是模型是根據(jù)數(shù)據(jù)來試圖確定概念邊界。例如,如果模型試圖通過使用年齡和職業(yè)來定義“退休工人”的概念,那么32歲的注冊(cè)會(huì)計(jì)師的重復(fù)示例對(duì)該模型并沒有什么好處,因?yàn)樗鼈儽硎镜暮x都是沒有退休。在65歲的概念邊界獲得示例并了解退休如何隨職業(yè)而變化對(duì)模型會(huì)更有幫助;

嘈雜的數(shù)據(jù)可能會(huì)傷害模型。如果新數(shù)據(jù)中存在錯(cuò)誤或者不精確,那么它只會(huì)混淆模型試圖學(xué)習(xí)的兩個(gè)概念之間的界限。在這種情況下,更多的數(shù)據(jù)將無濟(jì)于事,實(shí)際上可能會(huì)降低現(xiàn)有模型的準(zhǔn)確性;

大數(shù)據(jù)讓一切都變慢了。在數(shù)TB的數(shù)據(jù)上構(gòu)建模型可能比在數(shù)GB的數(shù)據(jù)上構(gòu)建模型花費(fèi)一千倍的時(shí)間,或者它可能需要一萬倍的時(shí)間,這都取決于學(xué)習(xí)算法。數(shù)據(jù)科學(xué)就是快速實(shí)驗(yàn),快速實(shí)驗(yàn),快速更新以獲得較為合適的模型;

大數(shù)據(jù)可實(shí)現(xiàn)的模型。任何預(yù)測(cè)模型的最終目標(biāo)都是創(chuàng)建一個(gè)可以為業(yè)務(wù)部署的高度準(zhǔn)確的模型。有時(shí)使用來自數(shù)據(jù)池深處更加模糊的數(shù)據(jù)可能會(huì)導(dǎo)致更高的準(zhǔn)確性,但所使用的數(shù)據(jù)對(duì)于實(shí)際部署可能是不可靠的。最好有一個(gè)不太準(zhǔn)確的模型,它可以快速運(yùn)行并可供企業(yè)使用。

能做得更好的四件事

以下是我們可以采取的一些措施來對(duì)抗大數(shù)據(jù)的“黑暗面”,并將大數(shù)據(jù)思維轉(zhuǎn)向深度數(shù)據(jù)思維:

了解準(zhǔn)確性/執(zhí)行權(quán)衡。數(shù)據(jù)科學(xué)家常常認(rèn)為目標(biāo)是獲得更準(zhǔn)確的模型。而是要根據(jù)準(zhǔn)確性和部署速度,以明確的ROI預(yù)期啟動(dòng)項(xiàng)目;

使用隨機(jī)樣本構(gòu)建每個(gè)模型。如果你的數(shù)據(jù)集足夠大,那么你就沒有理由一次性全部使用整個(gè)數(shù)據(jù)集。如果數(shù)據(jù)集具有良好的隨機(jī)抽樣功能,那么我們就可以使用來自大數(shù)據(jù)集中的小樣本構(gòu)建模型,并進(jìn)行準(zhǔn)確預(yù)測(cè)。小樣本使得模型迭代更新更加快速,然后使用整個(gè)數(shù)據(jù)庫(kù)構(gòu)建最終模型。

丟棄一些數(shù)據(jù)。如果對(duì)來自物聯(lián)網(wǎng)設(shè)備和其他來源的數(shù)據(jù)流感到不知所措,那么就可以聰明地隨意丟棄一些數(shù)據(jù)。這個(gè)方法適合于構(gòu)建模型的早期階段,如果到后期的話,這樣操作會(huì)使得后期工作一團(tuán)糟。

尋找更多的數(shù)據(jù)源。人工智能最近的許多突破并非來自更大的數(shù)據(jù)集,而是源于機(jī)器學(xué)習(xí)算法利用到了以前無法獲得數(shù)據(jù)的能力。例如,二十年前,現(xiàn)在普遍存在的大型文本、圖像、視頻和音頻數(shù)據(jù)集在那個(gè)時(shí)代并不存在,因此,我們應(yīng)該不斷尋找產(chǎn)生這些新的數(shù)據(jù)的機(jī)會(huì)。

變得更好的四件事

如果我們轉(zhuǎn)換思路,專注于深度數(shù)據(jù)而不僅僅是大數(shù)據(jù),這樣將享受到以下這些好處:

一切都會(huì)變得更快。使用較小的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行移動(dòng)、實(shí)驗(yàn)、訓(xùn)練和模型評(píng)估都會(huì)快得多;

需要更少的存儲(chǔ)和計(jì)算資源。專注于深度數(shù)據(jù)意味著我們將更加智能地使用更小的磁盤并通過云計(jì)算,這樣會(huì)直接降低基礎(chǔ)設(shè)施的成本,節(jié)省下來的資金就可以聘請(qǐng)更多數(shù)據(jù)科學(xué)家和人工智能專家;

減輕研究人員的壓力并變得更加快樂。在有了深度數(shù)據(jù)思維后,團(tuán)隊(duì)將發(fā)現(xiàn)自己不太可能只是做一些打雜工作,比如制作數(shù)據(jù)集或者殺死那些占用所有云資源的錯(cuò)誤程序等。同樣,數(shù)據(jù)科學(xué)家也會(huì)花更多的時(shí)間在構(gòu)建和測(cè)試模型上,而不是被數(shù)據(jù)移動(dòng)或等待長(zhǎng)時(shí)間的訓(xùn)練過程,這樣也會(huì)使其變得更快樂。

可以解決更難的問題。構(gòu)建一個(gè)人工智能模型并不是一個(gè)只有像巫師一樣的研究人員才能完成的神奇體驗(yàn)。與其說人工智能是魔法,不如說是一種邏輯。這類似于一個(gè)藝術(shù)老師告訴他班上一半的學(xué)生,他們的分?jǐn)?shù)將基于他們制作的藝術(shù)作品的數(shù)量,另一半的學(xué)生將根據(jù)他們最好的作品的質(zhì)量來評(píng)分。毫不奇怪,學(xué)生創(chuàng)作的藝術(shù)品數(shù)量會(huì)大大增加。令人震驚的是,在產(chǎn)量增多的同時(shí),高品質(zhì)的產(chǎn)品也會(huì)出現(xiàn)——數(shù)量有時(shí)會(huì)產(chǎn)生質(zhì)量。在我們的例子中,在相同資源約束下嘗試的更多模型可能意味著更好的最佳模型。

大數(shù)據(jù)和支持它的技術(shù)突破極大地促進(jìn)了許多公司在決策過程中成為數(shù)據(jù)驅(qū)動(dòng)的動(dòng)力。隨著人工智能的興起以及處理這些強(qiáng)大資源的能力,現(xiàn)在需要更加精確地根據(jù)我們的數(shù)據(jù)需求建立一種理解深度數(shù)據(jù)的思維,而不僅僅是大數(shù)據(jù)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論