【定義】
大數(shù)據(jù)這個詞從20世紀90年代就開始使用。
大數(shù)據(jù)通常包括規(guī)模超過常用軟件工具在可容忍的時間內(nèi)抓取、研究、管理和處理數(shù)據(jù)的能力的數(shù)據(jù)集。
大數(shù)據(jù)的理念包括非結構化、半結構化和結構化數(shù)據(jù),主要的重點是非結構化數(shù)據(jù)。
大數(shù)據(jù)的 "規(guī)模"是一個不斷變化的概念,大數(shù)據(jù)需要一套技術整合,才能從多樣化、復雜化、大規(guī)模的數(shù)據(jù)集中揭示出規(guī)律。
2018年的一個定義指出,"大數(shù)據(jù)是需要并行計算工具來處理的數(shù)據(jù)",并指出,"這代表著通過并行編程理論,對所使用的計算機科學產(chǎn)生了明顯的、明確的需求變化,同時也損失了Codd關系模型所具備的一些保障和能力"。
這個概念的日益成熟,更加鮮明地劃定了 "大數(shù)據(jù)"與 "商業(yè)智能"的區(qū)別:
商業(yè)智能是利用應用數(shù)學工具和描述性統(tǒng)計學,用高信息密度的數(shù)據(jù)來衡量事物、檢測趨勢等等。
大數(shù)據(jù)利用數(shù)學分析、優(yōu)化、歸納統(tǒng)計和非線性系統(tǒng)識別的概念,從信息密度較低的大數(shù)據(jù)集中推斷出規(guī)律(回歸、非線性關系和因果效應),揭示關系和依賴性,或?qū)Y果和行為進行預測。
【關鍵概念】
大數(shù)據(jù)技術是處理分析數(shù)據(jù)集并且系統(tǒng)地從數(shù)據(jù)集中提取信息或以其他方式處理數(shù)據(jù)集的技術。
由于這些數(shù)據(jù)集過于龐大或復雜,以至于傳統(tǒng)的數(shù)據(jù)處理應用軟件無法處理。
具有多種用例的數(shù)據(jù)會提供更大的統(tǒng)計能力,而復雜度較高的數(shù)據(jù)更有可能會導致錯誤。
大數(shù)據(jù)的挑戰(zhàn)包括數(shù)據(jù)的捕獲、數(shù)據(jù)存儲、數(shù)據(jù)分析、搜索、共享、傳輸、可視化、查詢、更新、信息隱私和數(shù)據(jù)來源等等。
大數(shù)據(jù)與三個關鍵概念相關:
數(shù)量、種類和變化速度。
【數(shù)量】
當我們在處理大數(shù)據(jù)時,可能不是采樣,而是簡單地觀察和跟蹤發(fā)生的事情。
大數(shù)據(jù)往往包括了在可接受的時間和價值范圍內(nèi)超過傳統(tǒng)軟件處理能力的數(shù)據(jù)。
目前對大數(shù)據(jù)這個詞的使用,往往是指使用預測分析、用戶行為分析或某些其他高級數(shù)據(jù)分析方法,從數(shù)據(jù)中提取價值,而很少指特定規(guī)模的數(shù)據(jù)集。
毫無疑問,現(xiàn)在的數(shù)據(jù)量確實很大,但這并不是這個新的數(shù)據(jù)生態(tài)系統(tǒng)最相關的特征。
【種類】
分析數(shù)據(jù)集可以找到新的關聯(lián)性,用以發(fā)現(xiàn)商業(yè)趨勢、預防疾病、打擊犯罪等等。
科學家、企業(yè)高管、醫(yī)學從業(yè)者、廣告業(yè)者和政府都經(jīng)常遇到大數(shù)據(jù)集處理的困難,這些領域包括互聯(lián)網(wǎng)搜索、金融科技、城市信息學、商業(yè)信息學等。
科學家在電子科學工作中遇到的限制,包括氣象學、基因組學、連接組學、復雜的物理模擬、生物學和環(huán)境研究等等。
【變化速度】
數(shù)據(jù)集的快速增長,在一定程度上是因為它們越來越多地被移動設備、航拍(遙感)、軟件日志、攝像頭、麥克風、射頻識別(RFID)讀卡器和無線傳感網(wǎng)絡等廉價且數(shù)量眾多的信息傳感物聯(lián)網(wǎng)設備所收集。
自20世紀80年代以來,全球人均存儲信息的技術能力大致以每40個月增加一倍的速度增長。截至2012年,每天都有2.5 exabytes(1exabytes = 1.0E+9 Gigabytes)的數(shù)據(jù)產(chǎn)生。
根據(jù)IDC的報告預測,2013年至2020年,全球數(shù)據(jù)量將從4.4 zettabytes(1 Zettabytes = 1.0E+12 Gigabytes)呈指數(shù)級增長,達到44zettabytes。
到2025年,IDC預測將有163zettabytes的數(shù)據(jù)量,大型企業(yè)面臨的一個問題是確定誰應該制定影響整個組織的大數(shù)據(jù)舉措。
關系型數(shù)據(jù)庫管理系統(tǒng)、桌面統(tǒng)計和用于可視化數(shù)據(jù)的軟件包往往難以處理大數(shù)據(jù)。這些工作可能需要使用可在幾十臺、幾百臺甚至幾千臺服務器上運行的大規(guī)模并行軟件系統(tǒng)。
"大數(shù)據(jù)"的定義取決于用戶及其工具的能力,而不斷擴大的能力使大數(shù)據(jù)成為一個移動的目標概念。
對于一些企業(yè)來說,第一次面對數(shù)百GB(千兆字節(jié))的數(shù)據(jù),可能會引發(fā)企業(yè)重新考慮數(shù)據(jù)管理方案。
而對于另一些組織來說,可能要等到幾十兆或幾百terabytes(百萬兆字節(jié))的數(shù)據(jù)規(guī)模才會成為重要的考慮因素。
【特點】
大數(shù)據(jù)存在如下屬性特征:
體積
產(chǎn)生和存儲的數(shù)據(jù)量。
數(shù)據(jù)的大小決定了數(shù)據(jù)的價值和潛在的規(guī)律,也決定了它是否可以被認為是大數(shù)據(jù)。
品種
數(shù)據(jù)的類型和性質(zhì)。
這有助于分析數(shù)據(jù)的人有效利用由此產(chǎn)生的規(guī)律。大數(shù)據(jù)從文字、圖像、音頻、視頻中提取,再加上數(shù)據(jù)融合來完成缺失的部分。
速度
數(shù)據(jù)產(chǎn)生和處理的速度,以滿足成長和發(fā)展道路上的需求和挑戰(zhàn)。
大數(shù)據(jù)往往具有實時性。與小數(shù)據(jù)相比,大數(shù)據(jù)的產(chǎn)生更具有持續(xù)性。與大數(shù)據(jù)相關的兩種速度是產(chǎn)生和處理的頻率、記錄和發(fā)布的頻率。
真實性
它是大數(shù)據(jù)的延伸定義,指的是數(shù)據(jù)質(zhì)量和數(shù)據(jù)價值。如果采集到的數(shù)據(jù)質(zhì)量有很大的差異,就會影響到分析的準確性。
大數(shù)據(jù)的數(shù)據(jù)質(zhì)量是指數(shù)據(jù)質(zhì)量和數(shù)據(jù)價值。
大數(shù)據(jù)的其他重要特征是:
詳盡無遺
整個系統(tǒng)是否被捕獲或記錄。
細粒度和唯一性
分別是指每個元素的具體數(shù)據(jù)的比例,每個元素的具體數(shù)據(jù)的收集,以及元素及其特征是否被適當?shù)乃饕蜃R別。
相關性
如果收集到的數(shù)據(jù)中包含共性字段,可以對不同的數(shù)據(jù)集進行聯(lián)接或元分析。
擴展性
收集到的數(shù)據(jù)中的每個元素中的新字段是否可以很容易地添加或更改。
可擴展性
數(shù)據(jù)的大小是否可以迅速擴大。
價值
是否可以從數(shù)據(jù)中提取的效用。
變化性
它是指其價值或其他特征相對于其產(chǎn)生的背景而發(fā)生變化的數(shù)據(jù)。
【架構演進】
大數(shù)據(jù)存儲庫以多種形式存在,通常是由有特殊需求的企業(yè)創(chuàng)建。
【并行數(shù)據(jù)庫管理系統(tǒng)】
從20世紀90年代開始,商業(yè)廠商提供了大數(shù)據(jù)并行數(shù)據(jù)庫管理系統(tǒng)。多年來,WinterCorp公司發(fā)布了最大的數(shù)據(jù)庫報告。
Teradata公司在1984年推出了并行處理的DBC 1012系統(tǒng)。1992年,Teradata系統(tǒng)是第一個能夠存儲和分析1個terabytes數(shù)據(jù)的系統(tǒng)。1991年,硬盤容量為2.5GB,所以根據(jù)Kryder定律,大數(shù)據(jù)的定義在不斷發(fā)展。
Teradata在2007年安裝了第一個基于petabyte級的RDBMS系統(tǒng)。
截止到2017年,Teradata的關系型數(shù)據(jù)庫已經(jīng)安裝了幾十個petabyte級的Teradata關系型數(shù)據(jù)庫,其中最大的超過50PB。
【結構化數(shù)據(jù)和非結構化數(shù)據(jù)】
2008年之前的系統(tǒng)都是100%的結構化關系型數(shù)據(jù)。
此后,Teradata又增加了非結構化數(shù)據(jù)類型,包括XML、JSON和Avro。
【分布式平臺】
2000年,Seisint公司(現(xiàn)在的LexisNexis Risk Inc)開發(fā)了一個基于C++的分布式數(shù)據(jù)處理和查詢平臺,被稱為HPCC系統(tǒng)平臺。
該系統(tǒng)可在多個商品服務器上自動分區(qū)、分發(fā)、存儲和傳遞結構化、半結構化和非結構化數(shù)據(jù)。用戶可以用一種名為ECL的聲明式數(shù)據(jù)流編程語言編寫數(shù)據(jù)處理管道和查詢。在ECL中工作的數(shù)據(jù)分析人員不需要預先定義數(shù)據(jù)模式,而是可以專注于手頭的特定問題,在開發(fā)解決方案時以最佳的方式重塑數(shù)據(jù)。2004年,LexisNexis收購了Seisint公司及其高速并行處理平臺,并在2008年收購Choicepoint公司時,成功地利用該平臺整合了Choicepoint公司的數(shù)據(jù)系統(tǒng),2011年,HPCC系統(tǒng)平臺在Apache v2.0許可證下開源。
【高通量計算】
歐洲核子研究中心和其他物理實驗收集大數(shù)據(jù)集已有數(shù)十年的歷史,通常是通過高通量計算來分析,而不是目前流行的"大數(shù)據(jù)"模式,通常指的MapReduce架構。
【MapReduce架構】
2004年,谷歌發(fā)表了一篇名為MapReduce的論文。MapReduce提供了一個并行處理模型,并發(fā)布了相關的實現(xiàn)來處理海量數(shù)據(jù)。通過MapReduce模型,查詢工作被拆分并分布在并行節(jié)點上,然后進行并行處理(Map步驟),然后將結果進行收集并交付(Reduce步驟)。
這個框架是非常成功的,Apache開源項目Hadoop采用了MapReduce框架的實現(xiàn),Apache Spark在2012年針對MapReduce范式的局限性而創(chuàng)建,它增加了許多操作的設置能力,而不僅僅是Map之后的Reduce。
【MIKE2.0】
MIKE2.0是一種開放的信息管理方法論,該方法論解決了在處理大數(shù)據(jù)時的幾個困難:
· 數(shù)據(jù)源的有效組合
· 相互關系的復雜性
· 刪除(或修改)單個記錄
等方面。
【多層架構】
2012年的研究表明,多層架構是解決大數(shù)據(jù)帶來的問題的一種選擇。分布式并行架構將數(shù)據(jù)分布在多個服務器上,這些并行執(zhí)行環(huán)境可以顯著提高數(shù)據(jù)處理速度。這種類型的架構將數(shù)據(jù)插入到并行DBMS中,實現(xiàn)了MapReduce和Hadoop框架的使用。這種類型的框架希望通過使用前端應用服務讓處理對終端用戶透明化 。
【數(shù)據(jù)湖泊】
數(shù)據(jù)湖泊使處理的重點從集中控制轉(zhuǎn)移到共享模式,以應對信息管理的動態(tài)變化。這樣可以將數(shù)據(jù)快速隔離到數(shù)據(jù)湖泊中,從而減少了時間開銷。
【技術發(fā)展】
2011年麥肯錫全球研究所的一份報告將大數(shù)據(jù)的主要組成部分和生態(tài)系統(tǒng)描述如下:
· 數(shù)據(jù)分析技術,如A/B測試、機器學習和自然語言處理等數(shù)據(jù)分析技術
· 商業(yè)智能、云計算和數(shù)據(jù)庫等大數(shù)據(jù)技術
· 可視化,如圖表、圖形和其他數(shù)據(jù)顯示等
多維大數(shù)據(jù)可以用OLAP數(shù)據(jù)立方體來表示,或者在數(shù)學上也可以用張量(tensor)來表示。
陣列數(shù)據(jù)庫系統(tǒng)已經(jīng)著手為這種數(shù)據(jù)類型提供存儲和高級查詢支持。
正在應用于大數(shù)據(jù)的其他技術包括基于張量(tensor)的高效計算,如:
· 多線子空間學習、
· 大規(guī)模并行處理(MPP)數(shù)據(jù)庫、
· 基于搜索的應用、
· 數(shù)據(jù)挖掘、
· 分布式文件系統(tǒng)、
· 分布式緩存(如突發(fā)緩沖器和Memcached)、
· 分布式數(shù)據(jù)庫、
· 云
· 基于HPC的基礎設施(應用、存儲和計算資源)
· 互聯(lián)網(wǎng)
雖然許多方法和技術已經(jīng)形成了氣候,但要利用大數(shù)據(jù)進行機器學習仍然是困難重重。
【MPP關系型數(shù)據(jù)庫】
一些MPP關系型數(shù)據(jù)庫具有存儲和管理PB級數(shù)據(jù)的能力,也就是指擁有對RDBMS中的大數(shù)據(jù)表進行加載、監(jiān)控、備份和優(yōu)化使用的能力。
【DARPA的拓撲數(shù)據(jù)分析】
DARPA的拓撲數(shù)據(jù)分析通過尋求海量數(shù)據(jù)集的基本結構來處理,2008年,該技術隨著一家名為Ayasdi的公司的推出而為業(yè)界所熟悉。
【共享存儲】
大數(shù)據(jù)分析過程的從業(yè)者普遍對速度較慢的共享存儲持有懷疑態(tài)度,他們更喜歡各種形式的直連式存儲(DAS):
· 固態(tài)硬盤(SSD)
· 部署在并行處理節(jié)點內(nèi)的大容量SATA磁盤。
共享存儲架構如:
· 存儲區(qū)域網(wǎng)絡(SAN)
· 網(wǎng)絡連接存儲(NAS)
人們對共享存儲架構的看法是:相對較慢、復雜而且昂貴。
這些特點與大數(shù)據(jù)分析系統(tǒng)的要求相悖,因為大數(shù)據(jù)分析系統(tǒng)很深的依賴于系統(tǒng)性能、商用的基礎設施并且追求低成本。
實時或近乎實時的信息傳遞是大數(shù)據(jù)分析的重要需求之一。
因此要盡可能地避免延遲。
訪問直連的內(nèi)存或磁盤中的數(shù)據(jù)是好的方式,而跨連的FC SAN的內(nèi)存或磁盤數(shù)據(jù)訪問則不理想。并且在分析應用所需的規(guī)模下,SAN的成本比其他存儲技術要高得多。
總的來說,在大數(shù)據(jù)分析中,共享存儲有優(yōu)點也有缺點,但截至2011年,大數(shù)據(jù)分析從業(yè)者并不看好共享存儲。
也許隨著網(wǎng)絡速度的大大提升,人們對于共享存儲的觀念會有所改變。
【應用】
大數(shù)據(jù)研究增加了對信息管理專家的需求。
Software AG、甲骨文公司、IBM、微軟、SAP、EMC、惠普和戴爾公司在專門從事數(shù)據(jù)管理和分析的軟件公司上花費了超過150億美元。
2010年,這個行業(yè)的價值超過了1000億美元,并且每年以近10%的速度增長:這個速度大約是整個軟件業(yè)務的兩倍。
發(fā)達經(jīng)濟體越來越多地使用數(shù)據(jù)密集型技術。
全世界有46億移動電話用戶,有10億至20億人使用互聯(lián)網(wǎng),1990年至2005年期間,全世界有10億多人進入中產(chǎn)階級,這意味著對于知識量擴展需求的增加,這反過來又帶動了信息的增長。
1986年,全球通過電信網(wǎng)絡進行信息交換的有效容量為281兆字節(jié)(petabytes),1993年為471 281 兆字節(jié)(petabytes),2000年為2.2 以太字節(jié)(exabytes),2007年為65以太字節(jié)(exabytes),據(jù)預測,到2014年,每年的互聯(lián)網(wǎng)流量將達到667以太字節(jié)(exabytes),據(jù)一項估計,全球存儲的信息有三分之一是以字母數(shù)字文本和靜態(tài)圖像數(shù)據(jù)的形式。這也從一個側(cè)面反映了尚未使用的數(shù)據(jù)形式如視頻和音頻形式的潛力。
雖然許多廠商提供了現(xiàn)成的大數(shù)據(jù)解決方案,但專家們建議如果公司有足夠的技術能力,可以在公司內(nèi)部開發(fā)定制化的解決方案,以解決公司當前面臨的大數(shù)據(jù)處理問題。
【政府】
大數(shù)據(jù)在政府流程中的使用可以提高效率、生產(chǎn)力和創(chuàng)新能力,但數(shù)據(jù)分析往往需要政府的多個部門(中央和地方)協(xié)同合作,創(chuàng)建新的創(chuàng)新流程,以達到預期的結果。
CRVS(民事登記和生命統(tǒng)計)收集從出生到死亡的所有證書狀態(tài)。
民事登記和人口動態(tài)統(tǒng)計系統(tǒng)是政府的一個大數(shù)據(jù)來源。
【國際發(fā)展】
關于有效利用信息和通信技術促進發(fā)展(也稱為ICT4D)的研究表明,大數(shù)據(jù)技術可以做出重要貢獻,但同時也給國際發(fā)展帶來了獨特的挑戰(zhàn)。
大數(shù)據(jù)分析的進步為改善保健、就業(yè)、經(jīng)濟生產(chǎn)力、治理犯罪、安全、自然災害和資源管理等關鍵發(fā)展領域的決策提供了卓有成效的幫助。
此外,用戶生成的數(shù)據(jù)也提供了新的更多的機會,讓名不見經(jīng)傳的普通人也有了發(fā)言權。
然而,發(fā)展中地區(qū)長期以來面臨的挑戰(zhàn),如技術基礎設施不足、經(jīng)濟和人力資源匱乏等等問題,帶來了諸如隱私、方法不完善和互操作性不規(guī)范等等的問題。
【醫(yī)療保健】
大數(shù)據(jù)分析通過提供個性化醫(yī)療及處方分析、臨床風險干預及預測分析、減少浪費及護理變異性、患者數(shù)據(jù)的外部及內(nèi)部自動報告、標準化的醫(yī)療術語及患者登記再加上碎片化的處理解決方案,幫助醫(yī)療系統(tǒng)改善了醫(yī)療服務。
有些領域的改善還存在一些不足。
醫(yī)療系統(tǒng)內(nèi)部產(chǎn)生的數(shù)據(jù)量是巨大的。隨著mHealth、eHealth和可穿戴技術的增加,數(shù)據(jù)量將繼續(xù)增加。這包括電子健康記錄數(shù)據(jù)、影像數(shù)據(jù)、患者數(shù)據(jù)、傳感器數(shù)據(jù)和其他難以處理的數(shù)據(jù)。
現(xiàn)在,這樣的環(huán)境更需要重視數(shù)據(jù)和信息質(zhì)量。
大數(shù)據(jù)很多時候存在'臟數(shù)據(jù)'的情況,數(shù)據(jù)不準確的比例會隨著數(shù)據(jù)量的增長而增加。
在大數(shù)據(jù)規(guī)模下,人類的檢查是不可能達到預期效果的,醫(yī)療服務領域迫切需要智能工具來控制和處理信息的準確性和可信度,并對遺漏的信息進行處理。
雖然現(xiàn)在醫(yī)療領域的大量信息都是電子化的,但由于大部分是非結構化的數(shù)據(jù),難以直接使用,這些信息都符合大數(shù)據(jù)研究的范疇。
大數(shù)據(jù)在醫(yī)療領域的應用提出了重大的倫理挑戰(zhàn),從個人權利、隱私和自主權的風險評估,到透明度和信任度等方面都有很大的挑戰(zhàn)。
大數(shù)據(jù)在健康領域研究中的探索性生物醫(yī)學研究的應用前景特別被看好,因為數(shù)據(jù)驅(qū)動的分析能夠比假設驅(qū)動的研究更快地推進,接著,在數(shù)據(jù)分析中看到的趨勢可以在傳統(tǒng)的假設驅(qū)動的后續(xù)生物學研究中進行實踐檢驗,最終可以推動進行臨床研究。
在醫(yī)療衛(wèi)生領域內(nèi),醫(yī)學中的計算機輔助診斷是依賴大數(shù)據(jù)的應用細分領域。比如說,對于癲癇監(jiān)測,每天要建立5到10GB的數(shù)據(jù)。
同樣地,一個未壓縮的乳腺斷層掃描圖像平均需要450MB的數(shù)據(jù)。
這些只是計算機輔助診斷使用大數(shù)據(jù)幾個簡單例子。
大數(shù)據(jù)被認為是計算機輔助診斷系統(tǒng)需要克服的七大挑戰(zhàn)之一。
【教育】
麥肯錫全球研究所的一項研究發(fā)現(xiàn),全球缺乏150萬受過良好訓練的數(shù)據(jù)專業(yè)人才和管理人員,包括田納西大學和加州大學伯克利分校在內(nèi)的一些大學都開設了碩士課程,以滿足這一需求。
私人訓練營也開發(fā)了一些項目來滿足這種需求,包括像數(shù)據(jù)孵化器這樣的免費項目,或者像General Assembly這樣的付費項目。
在營銷的具體領域,Wedel和Kannan強調(diào)的問題之一是,營銷有多個子領域(如廣告、促銷、產(chǎn)品開發(fā)、品牌建設),這些領域都使用不同類型的數(shù)據(jù)。
由于 "一刀切"的分析方案是不可取的,因此,商學院應該培養(yǎng)營銷經(jīng)理人對這些子領域中使用的不同技術有廣泛的了解,以便掌握大局觀,并與分析人員有效地合作。
【媒體】
要了解媒體如何利用大數(shù)據(jù),首先需要先了解一些關于媒體制作過程中使用機制的背景資料。
Nick Couldry和JosephTurow曾提出,媒體和廣告業(yè)的從業(yè)者將大數(shù)據(jù)作為許多可操作的信息點來對待。
這個行業(yè)正在擺脫傳統(tǒng)的方法,即利用報紙、雜志或電視節(jié)目等特定的媒體環(huán)境,轉(zhuǎn)而利用技術手段挖掘消費者,在最佳時間、最佳地點觸達目標人群。
最終的目的是傳達或者服務(從統(tǒng)計學上講)符合消費者心理的信息或內(nèi)容。
例如,出版環(huán)境越來越多地對信息(廣告)和內(nèi)容(文章)進行定制,以吸引消費者,而這些信息(廣告)和內(nèi)容(文章)都是通過各種數(shù)據(jù)挖掘活動獨家收集到的。
數(shù)據(jù)新聞:出版商和記者利用大數(shù)據(jù)工具提供獨特的創(chuàng)新見解和信息圖表。
英國公共服務電視廣播公司Channel 4是大數(shù)據(jù)和數(shù)據(jù)分析領域的領導者。
【保險業(yè)務】
健康保險機構正在收集社會上的 "健康決定因素"的數(shù)據(jù),如食物及電視消費、婚姻狀況、衣著尺寸和購買習慣等,并據(jù)此對健康費用進行預測,以發(fā)現(xiàn)客戶的健康問題。目前,這些預測結果是否被用于商業(yè)化定價是有爭議的。
【物聯(lián)網(wǎng)(IoT)】
大數(shù)據(jù)和物聯(lián)網(wǎng)協(xié)同工作。從物聯(lián)網(wǎng)設備中提取的數(shù)據(jù)提供了設備間的相互連接映射。這種映射已經(jīng)被媒體行業(yè)、企業(yè)和政府用于更準確地定位受眾,提高媒體效率。物聯(lián)網(wǎng)也越來越多地被用作收集感官數(shù)據(jù)的手段,這些感官數(shù)據(jù)已經(jīng)被應用于醫(yī)療、制造和交通等場景。
【信息技術】
特別是2015年以來,大數(shù)據(jù)作為幫助員工提高工作效率、簡化信息技術(IT)收集和分配的工具,在企業(yè)內(nèi)部的業(yè)務運營中逐漸凸顯出來。
利用大數(shù)據(jù)來解決企業(yè)內(nèi)部的IT和數(shù)據(jù)收集問題被稱為IT運營分析(ITOA)。
通過將大數(shù)據(jù)原理應用到機器智能和深度計算的概念中,IT部門可以在問題發(fā)生之前預測潛在的問題,并在問題發(fā)生之前就采取行動提供解決方案。
這時,ITOA業(yè)務也開始在系統(tǒng)管理中發(fā)揮重要作用,它提供的平臺將單個數(shù)據(jù)孤島匯集在一起,并從整個系統(tǒng)中產(chǎn)生洞察力。
【小結】
本來我們對大數(shù)據(jù)的一些概念進行了學習和探討,主要從大數(shù)據(jù)的定義,特點,架構演進和技術發(fā)展應用等幾個方面進行了細化分析,希望對廣大關心大數(shù)據(jù)技術的朋友有所幫助。