你已經(jīng)準(zhǔn)備好了,你的數(shù)據(jù)準(zhǔn)備好了么?

數(shù)據(jù)準(zhǔn)備常常被認(rèn)為是企業(yè)內(nèi)部利用數(shù)據(jù)的主要障礙。找到正確的工具則可以幫助企業(yè)實(shí)現(xiàn)突破。

要想獲得數(shù)據(jù)分析的好處,首先必須正確地準(zhǔn)備數(shù)據(jù)。據(jù)市場(chǎng)研究機(jī)構(gòu)Gartner的最新研究顯示,對(duì)于許多企業(yè)來(lái)說(shuō),這是一個(gè)很大的瓶頸,其70%的時(shí)間都花在了數(shù)據(jù)準(zhǔn)備工作上了。

作為《數(shù)據(jù)準(zhǔn)備工具市場(chǎng)指南》的主要作者,Gartner的數(shù)據(jù)和分析團(tuán)隊(duì)高級(jí)分析師Ehtisham Zaidi指出,“通過(guò)適當(dāng)?shù)娜藛T及時(shí)地查找、訪問(wèn)、清理、轉(zhuǎn)換和共享數(shù)據(jù)仍然是數(shù)據(jù)管理和分析中最耗時(shí)的障礙之一。”

日立Vantara的首席營(yíng)銷官Jonathan Martin認(rèn)為,對(duì)于希望通過(guò)分析來(lái)轉(zhuǎn)變業(yè)務(wù)的公司而言,主要問(wèn)題不在于掌握人工智能,而在于掌握數(shù)據(jù)管道。

他指出:“數(shù)據(jù)準(zhǔn)備工作是最具挑戰(zhàn)性的工作。如何確定所有這些數(shù)據(jù)在哪里?是否可以建立一個(gè)投資組合?是否可以設(shè)計(jì)管道,以自動(dòng)化的管理與治理方式將所有這些數(shù)據(jù)源連接在一起,從而使我們能夠在要求的時(shí)間范圍將這些數(shù)據(jù)送到正確的位置、合適的人和適當(dāng)?shù)臋C(jī)器那里?”

以下我們將深入探討數(shù)據(jù)準(zhǔn)備為何仍然是數(shù)據(jù)分析所面臨的重大挑戰(zhàn),如何準(zhǔn)備數(shù)據(jù)準(zhǔn)備工具以解決這些問(wèn)題,以及在為企業(yè)選擇數(shù)據(jù)準(zhǔn)備工具時(shí)要尋找哪些內(nèi)容。

數(shù)據(jù)準(zhǔn)備面臨的挑戰(zhàn)

數(shù)據(jù)準(zhǔn)備面臨的挑戰(zhàn)是由多種因素導(dǎo)致的。

首先,支持分析計(jì)劃所需的數(shù)據(jù)源和數(shù)據(jù)類型在數(shù)量上和復(fù)雜性上呈指數(shù)級(jí)增長(zhǎng)。訪問(wèn)這些分布在分布式數(shù)據(jù)生態(tài)系統(tǒng)、公司內(nèi)部和外部的數(shù)據(jù)源需要大量的時(shí)間、資源、技能和工具才能完成。

市場(chǎng)研究機(jī)構(gòu)IDC負(fù)責(zé)數(shù)據(jù)集成和完整性軟件服務(wù)的研究主管Stewart Bond說(shuō):“當(dāng)今乃至這個(gè)時(shí)代的數(shù)據(jù)環(huán)境是非常復(fù)雜的。環(huán)境中存在著多種不同的數(shù)據(jù)類型,如交易數(shù)據(jù)、主數(shù)據(jù)、社交媒體數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、日志文件數(shù)據(jù)、圖形數(shù)據(jù)。不僅數(shù)據(jù)類型各不相同,并且這些數(shù)據(jù)所使用的存儲(chǔ)技術(shù)也都不相同。”

其次,對(duì)自助式數(shù)據(jù)訪問(wèn)與集成的請(qǐng)求數(shù)量正在讓IT團(tuán)隊(duì)不堪重負(fù)。Zaidi認(rèn)為,這表明集中式IT模型和數(shù)據(jù)集成已經(jīng)不再有效。

他說(shuō):“IT部門需要通過(guò)易于用戶使用和理解的工具來(lái)配置數(shù)據(jù)訪問(wèn)和集成,這是數(shù)據(jù)準(zhǔn)備需求進(jìn)一步上升的原因。”

再次,數(shù)據(jù)需求在不斷變化。因?yàn)闃I(yè)務(wù)分析師、整合者、業(yè)務(wù)用戶、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家對(duì)他們的項(xiàng)目都有著不同的數(shù)據(jù)需求。

Zaidi表示:“這使得準(zhǔn)備一次數(shù)據(jù)就可以滿足不同角色/消費(fèi)者的不斷變化的需求成為了不可能的事情。”

下一代數(shù)據(jù)準(zhǔn)備工具

他補(bǔ)充道,隨著數(shù)據(jù)準(zhǔn)備工具的成熟,痛點(diǎn)已經(jīng)發(fā)生了很大的變化。過(guò)去,痛點(diǎn)在于用來(lái)連接哪些數(shù)據(jù)源以及準(zhǔn)備哪些數(shù)據(jù)。如今,公司正在將重點(diǎn)放在數(shù)據(jù)治理、沿襲、可追溯性和質(zhì)量上。此外,他們還需要確保具有必要技能的合適人員能夠通過(guò)數(shù)據(jù)準(zhǔn)備工具訪問(wèn)適當(dāng)?shù)臄?shù)據(jù)。

Bond將此歸為“數(shù)據(jù)智能”問(wèn)題,即有關(guān)數(shù)據(jù)的元數(shù)據(jù)。他說(shuō):“這種智能包括了解數(shù)據(jù)的位置、數(shù)據(jù)的含義,以及誰(shuí)在使用它們,誰(shuí)可以訪問(wèn)它們,為什么我們有數(shù)據(jù),我們需要保存這些數(shù)據(jù)多長(zhǎng)時(shí)間,別人如何使用它們。”

值得慶幸的是,數(shù)據(jù)準(zhǔn)備工具市場(chǎng)正在不斷發(fā)展,并且發(fā)展出了能夠解決這些問(wèn)題的新功能。上一代工具僅限于簡(jiǎn)單數(shù)據(jù)轉(zhuǎn)換要求。數(shù)據(jù)轉(zhuǎn)換可以說(shuō)是業(yè)務(wù)用戶所需的數(shù)據(jù)準(zhǔn)備工作中的最后一英里。下一代工具可以與IT團(tuán)隊(duì)共享發(fā)現(xiàn)結(jié)果和準(zhǔn)備就緒的模型,并包含了諸如數(shù)據(jù)編錄之類的數(shù)據(jù)管理功能,這樣用戶就能夠查看和搜索連接的數(shù)據(jù)資產(chǎn)。

Zaidi表示:“某些工具現(xiàn)在還嵌入了高級(jí)數(shù)據(jù)質(zhì)量功能,這些是上一代工具所沒有的。這些功能包括性能分析、標(biāo)記、注釋、重復(fù)數(shù)據(jù)刪除、模糊邏輯匹配、鏈接和合并功能。IT和數(shù)據(jù)管理團(tuán)隊(duì)通過(guò)這些功能可以更容易提高質(zhì)量,確保廣泛采用和數(shù)據(jù)模型使用的治理與合規(guī)”。

這里機(jī)器學(xué)習(xí)(ML)是關(guān)鍵?;跈C(jī)器學(xué)習(xí)的功能不僅可以在準(zhǔn)備之前自動(dòng)進(jìn)行數(shù)據(jù)的匹配、聯(lián)接、配置文件、標(biāo)記和注釋,而且某些工具可以突出顯示敏感屬性、反?,F(xiàn)象和異常值,并與元數(shù)據(jù)管理和治理工具進(jìn)行協(xié)作以防止敏感數(shù)據(jù)被泄露。

Zaidi解釋道:“這些由機(jī)器學(xué)習(xí)增強(qiáng)的數(shù)據(jù)準(zhǔn)備工具允許不同技能水平的用戶采用數(shù)據(jù)準(zhǔn)備,同時(shí)確保治理和合規(guī)性。”

應(yīng)關(guān)注數(shù)據(jù)準(zhǔn)備工具的哪些方面?

Zaidi指出,企業(yè)在評(píng)估現(xiàn)代化的數(shù)據(jù)準(zhǔn)備工具時(shí)應(yīng)當(dāng)將重點(diǎn)放在以下關(guān)鍵功能上:

● 數(shù)據(jù)提取和分析。關(guān)注可視化環(huán)境,讓用戶能夠以交互方式獲取、搜索、采樣和準(zhǔn)備數(shù)據(jù)資產(chǎn)。

● 數(shù)據(jù)分類和基本元數(shù)據(jù)管理。工具應(yīng)允許用戶創(chuàng)建和搜索元數(shù)據(jù)。

● 數(shù)據(jù)建模和轉(zhuǎn)換。工具應(yīng)支持?jǐn)?shù)據(jù)混搭和混合、數(shù)據(jù)清洗、過(guò)濾,以及用戶定義的計(jì)算、群組和層級(jí)結(jié)構(gòu)。

● 數(shù)據(jù)安全。工具應(yīng)包括安全性功能,例如數(shù)據(jù)屏蔽、平臺(tái)身份驗(yàn)證以及用戶/組/角色級(jí)別的安全性篩選。

● 基本的數(shù)據(jù)質(zhì)量和治理支持。數(shù)據(jù)準(zhǔn)備工具應(yīng)與支持?jǐn)?shù)據(jù)治理/管理以及數(shù)據(jù)質(zhì)量、用戶權(quán)限和數(shù)據(jù)沿襲功能的工具集成在一起。

● 數(shù)據(jù)豐富。工具應(yīng)支持基本的數(shù)據(jù)豐富功能,包括實(shí)體提取和從集成數(shù)據(jù)中捕獲屬性。

● 用戶協(xié)作和可操作性。這些工具應(yīng)便于共享查詢和數(shù)據(jù)集,包括發(fā)布、共享和推廣具有治理功能的模型,例如數(shù)據(jù)集用戶評(píng)分或官方水印。

此外,Zaidi還強(qiáng)調(diào)要關(guān)注以下差異化功能:

● 數(shù)據(jù)源訪問(wèn)/連接。工具應(yīng)具有基于API和基于標(biāo)準(zhǔn)的連接性,包括原生的對(duì)云應(yīng)用程序和數(shù)據(jù)源的訪問(wèn)能力,例如流行的數(shù)據(jù)庫(kù)PaaS和云數(shù)據(jù)倉(cāng)庫(kù)、本地?cái)?shù)據(jù)源、關(guān)系型和非結(jié)構(gòu)化數(shù)據(jù)以及非關(guān)系型數(shù)據(jù)庫(kù)。

● 機(jī)器學(xué)習(xí)。工具應(yīng)支持使用機(jī)器學(xué)習(xí)AI來(lái)改善甚至自動(dòng)化數(shù)據(jù)準(zhǔn)備過(guò)程。

● 混合和多云部署選項(xiàng)。數(shù)據(jù)準(zhǔn)備工具需要支持在云端、本地或混合集成平臺(tái)中的部署。

● 針對(duì)特定領(lǐng)域或垂直領(lǐng)域的產(chǎn)品或模板。工具應(yīng)提供針對(duì)特定領(lǐng)域或垂直領(lǐng)域的數(shù)據(jù)和模型的成套模板或產(chǎn)品,以加快數(shù)據(jù)準(zhǔn)備時(shí)間。

Zaidi在最后指出,用戶必須考慮的第一件事是,企業(yè)是使用獨(dú)立的數(shù)據(jù)準(zhǔn)備工具,還是與廠商合作將數(shù)據(jù)準(zhǔn)備嵌入后者的分析/商業(yè)智能、數(shù)據(jù)科學(xué)、數(shù)據(jù)集成工具中。如果用戶的大多數(shù)使用情況依賴于一系列分析/商業(yè)智能和數(shù)據(jù)科學(xué)工具的數(shù)據(jù)集成,那么請(qǐng)考慮使用獨(dú)立工具。如果僅在特定平臺(tái)或生態(tài)系統(tǒng)的背景中需要數(shù)據(jù)準(zhǔn)備,則使用這些工具的嵌入式數(shù)據(jù)準(zhǔn)備功能可能更有意義。

數(shù)據(jù)準(zhǔn)備市場(chǎng)概況

Gartner將數(shù)據(jù)準(zhǔn)備工具供應(yīng)商分為四類,由于數(shù)據(jù)準(zhǔn)備功能已嵌入所有數(shù)據(jù)管理和分析工具中,因此每一類都在不斷發(fā)生著變化。

獨(dú)立的數(shù)據(jù)準(zhǔn)備工具。這一領(lǐng)域內(nèi)的供應(yīng)商將重點(diǎn)放在了與下游流程進(jìn)行更緊密集成方面,例如API訪問(wèn)以及對(duì)多個(gè)分析/商業(yè)智能、數(shù)據(jù)科學(xué)和數(shù)據(jù)集成工具的支持。該領(lǐng)域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供應(yīng)商的產(chǎn)品。

數(shù)據(jù)整合工具。此類供應(yīng)商一直專注于數(shù)據(jù)集成和管理。相關(guān)產(chǎn)品包括來(lái)自Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData等供應(yīng)商的解決方案。

現(xiàn)代分析和商業(yè)智能平臺(tái)。這些供應(yīng)商專注于將數(shù)據(jù)準(zhǔn)備作為端到端分析工作流的一部分。Zaidi稱,由于數(shù)據(jù)準(zhǔn)備對(duì)于現(xiàn)代分析和商業(yè)智能至關(guān)重要,因此該領(lǐng)域的所有供應(yīng)商都嵌入了數(shù)據(jù)準(zhǔn)備功能。此類別中的供應(yīng)商包括Alteryx、Tableau、Cambridge Semantics、Infogix、微軟、MicroStrategy、甲骨文、Qlik、SAP、SAS、TIBCO Software和TMMData。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)。Gartner指出,這類供應(yīng)商將數(shù)據(jù)準(zhǔn)備功能作為了端到端數(shù)據(jù)科學(xué)和ML流程的一部分。代表廠商包括Alteryx、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP和SAS。

除了以上四個(gè)大類之外,Gartner還注意到了其他新興的具有數(shù)據(jù)準(zhǔn)備功能的新類別,其中包括以下平臺(tái)和代表性供應(yīng)商:

● 數(shù)據(jù)管理/數(shù)據(jù)湖支持平臺(tái):Informatica、Talend、Unifi和Zaloni

● 數(shù)據(jù)工程平臺(tái):Infoworks

● 數(shù)據(jù)質(zhì)量工具:Experian

● 數(shù)據(jù)集成專家:Alooma、Nexla、StreamSet和Striim

下列6個(gè)數(shù)據(jù)準(zhǔn)備工具充分展示了當(dāng)前有關(guān)可用功能的發(fā)展情況。

Alteryx Designer

這個(gè)獨(dú)立的數(shù)據(jù)準(zhǔn)備工具其實(shí)也是Alteryx Analytics和Data Science平臺(tái)的一部分,這意味著它們能夠作為廣泛應(yīng)用的分析與商業(yè)智能平臺(tái)中的一個(gè)功能被嵌入,亦或是作為被廣泛應(yīng)用的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)中的一個(gè)功能被嵌入。它們可以提供拖放工作流,無(wú)需SQL代碼即可分析、準(zhǔn)備和混合數(shù)據(jù)。另外,該工具采取按年訂閱并根據(jù)用戶數(shù)量進(jìn)行收費(fèi)。

Cambridge Semantics Anzo

Anzo為Cambridge Semantics的端到端數(shù)據(jù)發(fā)現(xiàn)與集成平臺(tái),因此涵蓋了上述Gartner的所有4個(gè)類別。Anzo在現(xiàn)有數(shù)據(jù)基礎(chǔ)架構(gòu)上應(yīng)用了基于語(yǔ)義和圖形的數(shù)據(jù)結(jié)構(gòu)層,以映射企業(yè)數(shù)據(jù),顯示數(shù)據(jù)集之間的連接,啟用可視化探索與發(fā)現(xiàn)以及混合多個(gè)數(shù)據(jù)集。Anzo可通過(guò)訂閱獲得,其根據(jù)核心數(shù)量和用戶數(shù)量進(jìn)行收費(fèi)。

Datameer Enterprise

Datameer Enterprise為數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)工程平臺(tái),屬于Gartner劃分的獨(dú)立類別。其重點(diǎn)是使用由向?qū)б龑?dǎo)的集成流程將原始且分散的數(shù)據(jù)源聚集在一起,以創(chuàng)建單一的數(shù)據(jù)存儲(chǔ)。Datameer提供了類似于電子表格的界面,可用于混合和視覺探索功能。收費(fèi)方式采取的是根據(jù)計(jì)算能力或數(shù)據(jù)量向客戶收費(fèi),云用戶則按小時(shí)收費(fèi)或是包年。

Infogix Data3Sixty Analyze

Infogix的Data3Sixty Analyze為基于Web的解決方案,源自于Infogix收購(gòu)的Lavastorm。與Datameer一樣,其涵蓋了Gartner的所有4個(gè)類別。Data3Sixty通過(guò)角色定義用戶。設(shè)計(jì)人員可以創(chuàng)建和編輯數(shù)據(jù)流,調(diào)度器可以創(chuàng)建和修改計(jì)劃以進(jìn)行自動(dòng)處理,但瀏覽器只能執(zhí)行數(shù)據(jù)流。Infogix既將Data3Sixty作為基于訂閱的桌面產(chǎn)品,又將其作為基于服務(wù)器的產(chǎn)品出售。作為基于服務(wù)器的產(chǎn)品出售時(shí),其采取的收費(fèi)方式為一次收費(fèi)和訂閱兩種方式。

Talend Data Preparation

Talend提供了三種數(shù)據(jù)準(zhǔn)備工具:開源桌面版Talend Data Preparation、Talend Data Preparation Cloud(作為Talend Cloud平臺(tái)的一部分提供的商業(yè)版本)和商業(yè)版Talend Data Preparation(作為本地部署的Talend Data Fabric產(chǎn)品的一部分)。Talend數(shù)據(jù)準(zhǔn)備是一個(gè)獨(dú)立的工具,而Talend Cloud和Talend Data Fabric則將數(shù)據(jù)準(zhǔn)備作為一個(gè)功能整合到了數(shù)據(jù)集成/數(shù)據(jù)管理工具中。Talend使用了機(jī)器學(xué)習(xí)算法進(jìn)行標(biāo)準(zhǔn)化、清洗、模式識(shí)別和對(duì)賬。開源版本是免費(fèi)的,商業(yè)版本則采取的是指定用戶許可證的方式進(jìn)行訂閱。

Trifacta Wrangler

Trifacta Wrangle是一個(gè)獨(dú)立的數(shù)據(jù)準(zhǔn)備平臺(tái),其有著多種版本,可支持云計(jì)算和本地計(jì)算環(huán)境。該平臺(tái)提供了嵌入式的機(jī)器學(xué)習(xí)功能,能夠推薦與之連接的數(shù)據(jù)、推斷數(shù)據(jù)結(jié)構(gòu)和架構(gòu)、推薦聯(lián)接、定義用戶訪問(wèn)權(quán)限以及能夠?qū)崿F(xiàn)可視化/數(shù)據(jù)質(zhì)量的自動(dòng)化可視化。Trifacta Wrangler有免費(fèi)版本,有收費(fèi)版本。其中,Wrangler Pro根據(jù)計(jì)算力和用戶數(shù)量收費(fèi),Wrangler Enterprise(分為本地版本和云版本) 按計(jì)算/處理規(guī)模和用戶數(shù)量收費(fèi),Trifacta的Google Cloud Dataprep則根據(jù)計(jì)算消耗情況收費(fèi)。

作者:Thor Olavsrud長(zhǎng)期負(fù)責(zé)CIO.com網(wǎng)站的數(shù)據(jù)分析、商業(yè)智能和數(shù)據(jù)科學(xué)專欄。

編譯:陳琳華

原文網(wǎng)址:https://www.cio.com/article/3449897/data-preparation-tools-your-analytics-strategys-secret-weapon.html?nsdr=true

排版編輯:周星如

排版審核:焦 旭

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論