今天,很多人還沒弄懂大數(shù)據(jù),區(qū)塊鏈又來了。區(qū)塊鏈與大數(shù)據(jù)究竟有著怎樣的關系?進入大數(shù)據(jù)時代,云計算成為大數(shù)據(jù)基礎設施,也使得大數(shù)據(jù)的核心思想和云計算一脈相承。大數(shù)據(jù)和區(qū)塊鏈兩者之間有個共同的關鍵詞:分布式,代表了一種從技術權威壟斷到去中心化的轉變。
區(qū)塊鏈讓數(shù)據(jù)真正“放心”流動起來
區(qū)塊鏈以其可信任性、安全性和不可篡改性,讓更多數(shù)據(jù)被解放出來。用一個典型案例來說明,即區(qū)塊鏈是如何推進基因測序大數(shù)據(jù)產(chǎn)生的。區(qū)塊鏈測序可以利用私鑰限制訪問權限,從而規(guī)避法律對個人獲取基因數(shù)據(jù)的限制問題,并且利用分布式計算資源,低成本完成測序服務。區(qū)塊鏈的安全性讓測序成為工業(yè)化的解決方案,實現(xiàn)了全球規(guī)模的測序,從而推進數(shù)據(jù)的海量增長。
分布式的儲存
大數(shù)據(jù),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)需要應對海量化和快增長的存儲,這要求底層硬件架構和文件系統(tǒng)在性價比上要大大高于傳統(tǒng)技術,能夠彈性擴張存儲容量。
區(qū)塊鏈,是比特幣的底層技術架構,它在本質上是一種去中心化的分布式賬本。區(qū)塊鏈技術作為一種持續(xù)增長的、按序整理成區(qū)塊的鏈式數(shù)據(jù)結構,通過網(wǎng)絡中多個節(jié)點共同參與數(shù)據(jù)的計算和記錄,并且互相驗證其信息的有效性。從這一點來說,區(qū)塊鏈技術也是一種特定的數(shù)據(jù)庫技術。由于去中心化數(shù)據(jù)庫在安全、便捷方面的特性,很多業(yè)內(nèi)人士看好其發(fā)展,認為它是對現(xiàn)有互聯(lián)網(wǎng)技術的升級與補充。區(qū)塊鏈則是純粹意義上的分布式系統(tǒng)。
分布式計算
大數(shù)據(jù)的分析挖掘是數(shù)據(jù)密集型計算,需要巨大的分布式計算能力。節(jié)點管理、任務調度、容錯和高可靠性是關鍵技術。Google是這種分布式計算技術的代表,通過添加服務器節(jié)點可線性擴展系統(tǒng)的總處理能力,在成本和可擴展性上都有巨大的優(yōu)勢。現(xiàn)在,除了批計算,大數(shù)據(jù)還包括了流計算、圖計算、實時計算、交互查詢等計算框架。
區(qū)塊鏈的共識機制,就是所有分布式節(jié)之間怎么達成共識,通過算法來生成和更新數(shù)據(jù),去認定一個記錄的有效性,這既是認定的手段,也是防止篡改的手段。區(qū)塊鏈主要包括四種不同的共識機制,適用于不同的應用場景,在效率和安全性之間取得平衡。以比特幣為例,采用的是“工作量證明”,只有在控制了全網(wǎng)超過51%的記賬節(jié)點的情況下,才有可能偽造出一條不存在的記錄。
大數(shù)據(jù)與區(qū)塊鏈的不同點
2011年,“大數(shù)據(jù)”第一次上榜,位于技術萌芽期的爬坡階段,當時還統(tǒng)稱為“Big Data and Extreme Information Processing and Management”(“大數(shù)據(jù)”和極端信息處理和管理)。2012年更進一步,并在2013年幾乎達到了過熱期頂峰。經(jīng)歷了2014年的下滑,從2015年開始,“大數(shù)據(jù)”突然從曲線中消失,可解讀為Gartner對大數(shù)據(jù)的定位已從“新興”轉為“主流”。當前,大數(shù)據(jù)對于企業(yè)的意義已從能力要素上升為戰(zhàn)略核心。相對而言,“區(qū)塊鏈”直到2016年才第一次出現(xiàn)在《技術成熟度曲線》中,并直接進入“過熱期”??偟膩砜?,“大數(shù)據(jù)”和“區(qū)塊鏈”所處的生命周期階段大不相同,兩者約有5年左右的差距。
大數(shù)據(jù)通常用來描述數(shù)據(jù)集足夠大,足夠復雜,以致很難用傳統(tǒng)的方式來處理。區(qū)塊鏈能承載的信息數(shù)據(jù)是有限的,離“大數(shù)據(jù)”標準還差得很遠。
大數(shù)據(jù)與區(qū)塊鏈的差異
結構化 vs 非結構化:區(qū)塊鏈是結構定義嚴謹?shù)膲K,通過指針組成的鏈,典型的結構化數(shù)據(jù),而大數(shù)據(jù)需要處理的更多的是非結構化數(shù)據(jù)。
獨立 vs 整合:區(qū)塊鏈系統(tǒng)為保證安全性,信息是相對獨立的,而大數(shù)據(jù)著重的是信息的整合分析。
直接 vs 間接:區(qū)塊鏈系統(tǒng)本身就是一個數(shù)據(jù)庫,而大數(shù)據(jù)指的是對數(shù)據(jù)的深度分析和挖掘,是一種間接的數(shù)據(jù)。
數(shù)學 vs 數(shù)據(jù):區(qū)塊鏈試圖用數(shù)學說話,區(qū)塊鏈主張“代碼即法律”,而大數(shù)據(jù)試圖用數(shù)據(jù)說話。
匿名 vs 個性:區(qū)塊鏈是匿名的(公開賬本,匿名擁有者,相對于傳統(tǒng)金融機構的公開賬號,賬本保密),而大數(shù)據(jù)有意的是個性化。
在區(qū)塊鏈中使用大數(shù)據(jù)技術
區(qū)塊鏈是一種不可篡改的、全歷史的分布式數(shù)據(jù)庫存儲技術,巨大的區(qū)塊鏈數(shù)據(jù)集合包含著每一筆交易的全部歷史,隨著區(qū)塊鏈技術的應用迅速發(fā)展,數(shù)據(jù)規(guī)模會越來越大,不同業(yè)務場景區(qū)塊鏈的數(shù)據(jù)融合會進一步擴大數(shù)據(jù)規(guī)模和豐富性。
區(qū)塊鏈以其可信任性、安全性和不可篡改性,讓更多數(shù)據(jù)被解放出來,推進數(shù)據(jù)的海量增長。
區(qū)塊鏈的可追溯性使得數(shù)據(jù)從采集、交易、流通,以及計算分析的每一步記錄都可以留存在區(qū)塊鏈上,使得數(shù)據(jù)的質量獲得前所未有的強信任背書,也保證了數(shù)據(jù)分析結果的正確性和數(shù)據(jù)挖掘的效果。
區(qū)塊鏈能夠進一步規(guī)范數(shù)據(jù)的使用,精細化授權范圍。脫敏后的數(shù)據(jù)交易流通,則有利于突破信息孤島,建立數(shù)據(jù)橫向流通機制,形成“社會化大數(shù)據(jù)”。基于區(qū)塊鏈的價值轉移網(wǎng)絡,逐步推動形成基于全球化的數(shù)據(jù)交易場景。
區(qū)塊鏈提供的是賬本的完整性,數(shù)據(jù)統(tǒng)計分析的能力較弱。大數(shù)據(jù)則具備海量數(shù)據(jù)存儲技術和靈活高效的分析技術,極大提升區(qū)塊鏈數(shù)據(jù)的價值和使用空間。