大數(shù)據(jù)帶來特定的挑戰(zhàn)

TechTarget中國
佚名
隨著大數(shù)據(jù)分析技術(shù)的迅猛發(fā)展,大數(shù)據(jù)分析逐漸被灌上了預(yù)言家的稱號。人們利用大數(shù)據(jù)分析技術(shù)預(yù)測2018年俄羅斯世界杯比賽結(jié)果,借助“大數(shù)據(jù)+AI”預(yù)測疾病風(fēng)險等。如今,越來越多的人認(rèn)為任何用于預(yù)測分...

隨著大數(shù)據(jù)分析技術(shù)的迅猛發(fā)展,大數(shù)據(jù)分析逐漸被灌上了預(yù)言家的稱號。人們利用大數(shù)據(jù)分析技術(shù)預(yù)測2018年俄羅斯世界杯比賽結(jié)果,借助“大數(shù)據(jù)+AI”預(yù)測疾病風(fēng)險等。如今,越來越多的人認(rèn)為任何用于預(yù)測分析的系統(tǒng)都必定涉及大數(shù)據(jù)。

而事實(shí)上,這兩者并非一回事。盡管通過訪問海量數(shù)據(jù)與新的數(shù)據(jù)類型,開發(fā)出更好的預(yù)測模型的能力會得到顯著增強(qiáng)。但是分析管理人員與其團(tuán)隊(duì)需要更多考慮數(shù)據(jù)的構(gòu)成,以及在大數(shù)據(jù)環(huán)境中如何管理這類基礎(chǔ)性問題。

首先,讓我們審視預(yù)測分析過程本身。在主流的預(yù)測分析過程中,會涉及到某些與業(yè)務(wù)應(yīng)用相集成的統(tǒng)計分析與模式匹配,從而推動運(yùn)營決策與操作。但是,預(yù)測模型的實(shí)時需要多項(xiàng)步驟,其中包括:

數(shù)據(jù)準(zhǔn)備工作,清理、轉(zhuǎn)換與重組數(shù)據(jù),使其符合預(yù)測分析或機(jī)器學(xué)習(xí)算法所需的格式。包括分析數(shù)據(jù)、尋找異常、確定應(yīng)用和待修復(fù)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)類型、設(shè)計適合分析的數(shù)據(jù)模型,并執(zhí)行轉(zhuǎn)換,使數(shù)據(jù)集保持一致。

預(yù)測模型開發(fā),包括創(chuàng)建試用數(shù)據(jù)集,選擇特定算法進(jìn)行處理,從而測試某些分析模式。這一步需要有計劃地進(jìn)行,將被分析的數(shù)據(jù)分為不同的子集,包括試用數(shù)據(jù)集和一份或多份測試數(shù)據(jù)集。

測試過程,即在各模型上運(yùn)行測試數(shù)據(jù)集,對性能加以評估,從而確定哪種模型能夠得到最佳效果。

集成與實(shí)施,選中的模型被納入生產(chǎn)業(yè)務(wù)流程、實(shí)際上線、并產(chǎn)生真實(shí)的分析結(jié)果,以此采取行動。

調(diào)整所選的預(yù)測模型以確保其持續(xù)有效與準(zhǔn)確,重復(fù)分析、不斷更新。

大數(shù)據(jù)帶來特定的挑戰(zhàn)

接下來,讓我們看看大數(shù)據(jù)環(huán)境中出名的3V數(shù)據(jù)——即容量,多樣性和速度——并思考在大數(shù)據(jù)環(huán)境,預(yù)測分析過程中必須解決的一些特定挑戰(zhàn)。

數(shù)據(jù)容量。除了那些顯而易見的,與管理與海量數(shù)據(jù)有關(guān)的考量因素,包括數(shù)據(jù)獲取、分段和防止延遲,你必須有精簡的流程,從而支持各不同階段的分析過程。例如,你需要能夠提取到可以使用不同算法快速分析的試用數(shù)據(jù)集,也需要能夠充分反映整體數(shù)據(jù)的那部分信息。

數(shù)據(jù)的多樣化。企業(yè)越來越多地得到各式各樣的數(shù)據(jù)輸入,從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到日益增長的非結(jié)構(gòu)化數(shù)據(jù)類型。而且,隨著更多的非結(jié)構(gòu)化數(shù)據(jù)流成為業(yè)務(wù)流程中不可或缺的組成部分,例如對推特信息流的持續(xù)監(jiān)測可以識別客戶情緒,非結(jié)構(gòu)化數(shù)據(jù)正成為預(yù)測模型必不可少的數(shù)據(jù)源。這意味著你必須擁有一套非常強(qiáng)大的流程,用于掃描、分析和處理非結(jié)構(gòu)化數(shù)據(jù),以將其轉(zhuǎn)化為可用作分析算法輸入的數(shù)據(jù)集。

數(shù)據(jù)的速度。處理大量不同數(shù)據(jù)所帶來的復(fù)雜性,與更快速的數(shù)據(jù)流輸入速度疊加。使得你不僅必須能夠處理輸入速度更快的數(shù)據(jù)源,而且需要應(yīng)對這些數(shù)據(jù)源的結(jié)構(gòu)或格式可能會發(fā)生的變化。更要命的是,這種變化通常難以預(yù)測,因此迫切需要做好數(shù)據(jù)分析與準(zhǔn)備工作。

智慧的分析策略

設(shè)計大數(shù)據(jù)系統(tǒng)預(yù)測分析策略能夠應(yīng)對上述挑戰(zhàn),以便你可以成功管理或優(yōu)化流程中的關(guān)鍵點(diǎn)。

例如,考慮如何將龐大的數(shù)據(jù)集合轉(zhuǎn)化為容量更為合理的試用數(shù)據(jù)塊。在某些情況下,最佳實(shí)踐是,不要隨機(jī)選擇試用數(shù)據(jù)集,而是通過過濾器來減少數(shù)據(jù)集合的大小,這樣或許會消除特例的那部分記錄。另外一些情況中,你的目標(biāo)可能是增加大數(shù)據(jù)系統(tǒng)的計算資源,使分析算法有能力處理更大的訓(xùn)練集——并且無需過濾任何記錄。

另一個例子是,解決數(shù)據(jù)在速度方面挑戰(zhàn)或許意味著擴(kuò)大系統(tǒng)對數(shù)據(jù)流的吞吐能力,從而可以讓每個數(shù)據(jù)逐一進(jìn)入預(yù)測模型;當(dāng)然,你同樣可以降低模型的復(fù)雜度,以便更快速地加以執(zhí)行。

當(dāng)涉及到設(shè)計、工程量、復(fù)雜性和成本這些問題時,每一次選擇都意味著相應(yīng)的取舍。一組更精確的預(yù)測模型可能需要更多的處理和存儲資源,但分析帶來的優(yōu)勢或許會超越所增加的成本。又或者,你所在的企業(yè)組織也許可以從并不復(fù)雜的模型中,以較少的處理資源,獲得大數(shù)據(jù)應(yīng)用中的預(yù)測分析能力。

預(yù)測分析必須與大數(shù)據(jù)處理相結(jié)合,從而為分析管理人員、甚至企業(yè)高層提供所期待的結(jié)果。要做到這一點(diǎn),就必須弄清楚如何在預(yù)測分析帶來的收益與大數(shù)據(jù)所需的性能和管理之間做出平衡。

(原標(biāo)題:攻關(guān)克難:大數(shù)據(jù)系統(tǒng)中的預(yù)測技術(shù))

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論