從各個發(fā)展趨勢來看,產(chǎn)業(yè)與科技正面臨前所未有的快速變化,在未來也將會是如此。因此,數(shù)據(jù)分析產(chǎn)業(yè)建立一套靈活的、「以數(shù)據(jù)為中心」(data-centric)的服務(wù)架構(gòu)是很重要的,才能在如此變動的環(huán)境中維持競爭優(yōu)勢。
Gartner歸結(jié)出在將來的三到五年間可能顛覆數(shù)據(jù)分析產(chǎn)業(yè)的十項科技趨勢,并建議數(shù)據(jù)分析工作者應(yīng)評估這些趨勢,以因應(yīng)對所經(jīng)營策略可能帶來的影響并做相應(yīng)的調(diào)整。
趨勢一:增強分析(Augmented Analytics)
增強分析指在數(shù)據(jù)分析和商業(yè)智能(business intelligence)的領(lǐng)域中應(yīng)用機器學(xué)習(xí)、人工智能和自動化等科技輔助分析人員以進行數(shù)據(jù)準(zhǔn)備、產(chǎn)生洞察和解釋洞察等數(shù)據(jù)分析工作。運用增強分析將能實現(xiàn)整合人工智能和數(shù)據(jù)分析兩個專業(yè)領(lǐng)域,為企業(yè)提供重要的企業(yè)洞察。此外,增強分析將有助于讓非專業(yè)的數(shù)據(jù)分析人員,或稱為「素人資料科學(xué)家」(citizen data scientist),也能生產(chǎn)出重要的企業(yè)洞察。Gartner將增強分析趨勢造成數(shù)據(jù)分析專業(yè)門坎降低的現(xiàn)象,稱為數(shù)據(jù)分析的「民主化」(democratization)。
Gartner預(yù)估,到了2020年,增強分析將會是帶動數(shù)據(jù)分析產(chǎn)業(yè)和商業(yè)智能成長的重要驅(qū)力。另一方面,對于數(shù)據(jù)科學(xué)、機器學(xué)習(xí)平臺和嵌入分析(embedded analytics)的需求也會跟著提升。隨著相關(guān)技術(shù)的成熟,Gartner建議數(shù)據(jù)分析工作者應(yīng)建立計劃,將增強分析整合進數(shù)據(jù)分析服務(wù)中。
趨勢二:增強數(shù)據(jù)管理(Augmented Data Management)
增強數(shù)據(jù)管理指運用機器學(xué)習(xí)和人工智能引擎讓企業(yè)的數(shù)據(jù)管理系統(tǒng)能具有自我調(diào)適(self-configuring)的功能,減少在數(shù)據(jù)管理上面的人力成本,讓專業(yè)人員可專注于更高附加價值的業(yè)務(wù)上。
增強數(shù)據(jù)管理影響所及的范疇,包含:數(shù)據(jù)質(zhì)量、后設(shè)數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)整合和數(shù)據(jù)庫等數(shù)據(jù)管理層面。尤其是在于對后設(shè)數(shù)據(jù)的處理,Gartner指出,增強數(shù)據(jù)管理的關(guān)鍵流程便是將過往被視為次要的后設(shè)數(shù)據(jù)(metadata)運用于機器學(xué)習(xí)的機制中,讓后設(shè)數(shù)據(jù)成為增強數(shù)據(jù)管理的主要數(shù)據(jù)。
Gartner預(yù)測,到了2022年底,結(jié)合機器學(xué)習(xí)和自動化管理的增強數(shù)據(jù)管理發(fā)展趨勢將會讓數(shù)據(jù)管理的人工操作減少45%。
趨勢三:自然語言處理/會話分析(Natural Language Processing/Conversational Analytics)
Gartner估計,在2020年將會有五成以上的數(shù)據(jù)分析查詢(query)是以文字搜尋(search)或語音的方式進行。也就是說,將來使用者會以更加人性化的方式或甚至以對話的方式來和數(shù)據(jù)互動。
自然語言處理或會話分析的發(fā)展趨勢,將可讓數(shù)據(jù)分析的結(jié)果有更廣泛的應(yīng)用情境,例如客服部門或柜臺等辦公室前端的人員,以及能讓更多人以更簡便的方式取用到數(shù)據(jù)分析的結(jié)果。
趨勢四:圖形分析(Graph)
圖形分析指以神經(jīng)網(wǎng)絡(luò)的形式仿真數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系網(wǎng)絡(luò),并藉以探索未知的問題、串連不同領(lǐng)域的數(shù)據(jù)庫或以更貼近人類思維的方式管理數(shù)據(jù)。
圖形分析的關(guān)鍵技術(shù)在于對圖形數(shù)據(jù)庫(graph database)的運用與管理。圖形數(shù)據(jù)庫是以數(shù)據(jù)節(jié)點以及數(shù)據(jù)節(jié)點之間的路徑關(guān)系所構(gòu)成的數(shù)據(jù)庫結(jié)構(gòu)。運用圖形數(shù)據(jù)庫將有助于分析人員處理更復(fù)雜的問題或是整合不同層面的數(shù)據(jù),例如將飲食規(guī)劃、醫(yī)療數(shù)據(jù)和保健新聞?wù)线\用于運動app。
Gartner指出,到了2022年,圖形分析的運用比例將會以100%的成長率倍速成長,并解決傳統(tǒng)關(guān)系數(shù)據(jù)庫所無法應(yīng)付的難題。
趨勢五:商業(yè)化的人工智能和機器學(xué)習(xí)(Commercial AI and machine learning)
運用于開發(fā)人工智能和機器學(xué)習(xí)(AI/ML)的開發(fā)環(huán)境,目前以開源(open source)平臺為大宗。商業(yè)機構(gòu)則是以提供企業(yè)化服務(wù)為主,例如與AI/ML相關(guān)的項目管理、模型管理、重復(fù)利用、透明化和整合服務(wù)等,這些服務(wù)則是目前開源平臺較缺乏的。
不過Gartner預(yù)測,到了2022年,75%的新使用者將會使用商業(yè)機構(gòu)(如亞馬遜、Google和微軟)所提供的AI/ML解決方案,而不是使用來自開源平臺的解決方案。運用商業(yè)機構(gòu)所提供的AI/ML解決方案將有助于分析人員快速將AI/MI投入工作流程中,并加速提高企業(yè)價值。
趨勢六:數(shù)據(jù)結(jié)構(gòu)(Data Fabric)
由企業(yè)或各種部門所搜集產(chǎn)生的數(shù)據(jù)數(shù)據(jù)持續(xù)爆炸性的增長,但這些數(shù)據(jù)數(shù)據(jù)卻又分處在各種不同的儲存空間中,例如存放在亞馬遜的S3、微軟的Azure或谷歌的Google Cloud Platform等公有云上,又或是存放在企業(yè)建立的私有云中,同時這些數(shù)據(jù)數(shù)據(jù)也可能建立于不同的文件系統(tǒng)(file system)或傳輸協(xié)議,因此造成數(shù)據(jù)群集(cluster)之間取用的困難,而形成所謂的數(shù)據(jù)孤島(data silo)。
為了要解決數(shù)據(jù)孤島的困境,數(shù)據(jù)結(jié)構(gòu)的概念是建立一套可以整合各種不同云端服務(wù)以及橋接各種文件系統(tǒng)和傳輸協(xié)議的操作系統(tǒng)。運用數(shù)據(jù)結(jié)構(gòu)將可以更有效率的運用與分享數(shù)據(jù)數(shù)據(jù),減少因數(shù)據(jù)孤島而造成的數(shù)據(jù)重復(fù)、轉(zhuǎn)移困難等資源的浪費。
Gartner認(rèn)為,在2022年左右,為了企業(yè)服務(wù)而建造的數(shù)據(jù)結(jié)構(gòu)將會成為企業(yè)的基礎(chǔ)設(shè)施,同時也會誘發(fā)企業(yè)投入成本于改良數(shù)據(jù)數(shù)據(jù)基礎(chǔ)設(shè)施。
趨勢七:可解釋人工智能(Explainable AI,XAI)
隨著AI的運用層面越來越廣泛,對于AI的可信度、了解程度和可修正程度的要求也相應(yīng)的提升?,F(xiàn)行的AI雖然可以透過機器學(xué)習(xí)的方式建立起可應(yīng)用的AI模型,但在實際的應(yīng)用場景中,AI就如同一個黑盒子(black box),只能提供使用者一個結(jié)果或決策,而無法進一步說明是依據(jù)什么推論過程而得出該結(jié)果或決策,也可能導(dǎo)致使用者因看不見又摸不著的AI系統(tǒng)而產(chǎn)生出錯誤的決策。
可解釋人工智能是在AI研究領(lǐng)域中的一種新趨勢,其主要概念便是要讓AI在處理資料的過程中能同時對使用者提供回饋,讓使用者可以了解為什么AI會得出該結(jié)果或決策,藉以提升使用者對AI的可信任程度或是在必要時能修正AI。
依據(jù)Gartner預(yù)估,2023年以前將會有75%的大型企業(yè)開始雇用AI行為研究人員和消費者隱私保護專家來預(yù)防企業(yè)潛在的品牌與名譽風(fēng)險。
趨勢八:區(qū)塊鏈(Blockchain)
對數(shù)據(jù)分析產(chǎn)業(yè)而言,區(qū)塊鏈技術(shù)最重要的兩項優(yōu)勢在于,第一,區(qū)塊鏈可以細盡的記錄數(shù)據(jù)的來源去向或是交易紀(jì)錄。第二,區(qū)塊鏈可以建立透明化的關(guān)系網(wǎng)絡(luò)。
運用區(qū)塊鏈技術(shù),雖然可以建立起具有可信度的、無法竄改的數(shù)據(jù)網(wǎng)絡(luò),但Gartner強調(diào),區(qū)塊鏈仍然無法取代對數(shù)據(jù)分析產(chǎn)業(yè)最重要的工作流程,即數(shù)據(jù)的儲存、管理及在商業(yè)上的應(yīng)用。此外,Gartner還指出,目前區(qū)塊鏈技術(shù)的成熟度還不足以讓區(qū)塊鏈擁有在虛擬貨幣以外的大規(guī)模應(yīng)用機會。
Gartner認(rèn)為,在2021年以前,賬本式數(shù)據(jù)庫管理系統(tǒng)(ledger database management system)將會足以取代大部份的私有區(qū)塊鏈。
趨勢九:連續(xù)智慧(Continuous Intelligence)
連續(xù)智能意指在企業(yè)運作的流程中整合實時性(real-time)的數(shù)據(jù)分析工作,讓企業(yè)可以隨時從數(shù)據(jù)數(shù)據(jù)中得出洞察,并進而制定企業(yè)當(dāng)下所應(yīng)實行的決策。連續(xù)智慧與傳統(tǒng)商業(yè)智慧(business intelligence)不同之處在于,連續(xù)智慧強調(diào)運用AI/ML和自動化等技術(shù),取代傳統(tǒng)分析數(shù)據(jù)所需的人力,并且大量且實時的產(chǎn)出企業(yè)所需的決策依據(jù),而非是如傳統(tǒng)企業(yè)決策流程以階段性或費時的方式產(chǎn)出決策。
Gartner預(yù)測,在2022年以前將會有過半的大型企業(yè)采用連續(xù)智慧幫助他們依據(jù)實時的數(shù)據(jù)數(shù)據(jù)做出企業(yè)決策,同時也協(xié)助大型企業(yè)建立對產(chǎn)業(yè)環(huán)境變動的警覺能力。
趨勢十:持續(xù)性內(nèi)存服務(wù)器(Persistent Memory Servers)
持續(xù)性內(nèi)存是一種介于DRAM與閃存之間的一種新興內(nèi)存技術(shù)。持續(xù)性內(nèi)存保有DRAM的指令周期,同時也擁有閃存的非揮發(fā)性(non-volatile),即使斷電后數(shù)據(jù)也不會遺失。
過去在執(zhí)行數(shù)據(jù)分析時,尤其是在網(wǎng)絡(luò)或云端作業(yè)當(dāng)中,為了加快指令周期而將數(shù)據(jù)保存在DRAM中同時也在DRAM內(nèi)完成運算,省去系統(tǒng)和硬盤之間的讀取時間。但隨著數(shù)據(jù)量越來越龐大,DRAM空間則顯得不足、昂貴。因此,持續(xù)性內(nèi)存的出現(xiàn)將能提供一種符合經(jīng)濟成本同時也具有穩(wěn)定性的內(nèi)存解決方案。
Gartner預(yù)估,持續(xù)性內(nèi)存將持續(xù)成長,在2021年以前將會提供DRAM內(nèi)運算的整體需求量的10%。