一、引言
“大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)……”維克托·邁爾-舍恩伯格和肯尼思·庫克耶在其所著的大數(shù)據(jù)通俗讀物《大數(shù)據(jù)時代——生活、工作與思維的大變革》的引言中如是說。我們所生活的時代已經(jīng)在各個方面被大數(shù)據(jù)技術(shù)影響和塑造,我們正在享受越來越多來自大數(shù)據(jù)技術(shù)的益處。同時,習(xí)近平總書記在十九大報告中提出:“人民群眾最痛恨腐敗現(xiàn)象,腐敗是我們黨面臨的最大威脅。”自黨的十八大以來,我們黨保持了反腐的持續(xù)高壓態(tài)勢,將反腐工作作為重點任務(wù)持續(xù)推進。如何將正在深刻改變我們生活的新興技術(shù)應(yīng)用于黨和國家所關(guān)注的反腐事業(yè),便成為促進國家治理體系和治理能力現(xiàn)代化的重要課題之一。
大數(shù)據(jù)反腐是電子政務(wù)發(fā)展到一定階段的產(chǎn)物。中國政府早在1999年就正式啟動了“政府上網(wǎng)”工程,這一工程標(biāo)志著我國政府信息化開始步入互聯(lián)網(wǎng)時代。大數(shù)據(jù)反腐是互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)運用的子領(lǐng)域。盡管大數(shù)據(jù)的概念在十?dāng)?shù)年來,尤其是近幾年來已經(jīng)得到了較為廣泛的傳播,但大數(shù)據(jù)反腐對很多人來說仍然較為新穎。本文將結(jié)合具體的案例,在分析大數(shù)據(jù)相關(guān)概念和理論的基礎(chǔ)上,對大數(shù)據(jù)反腐的發(fā)展歷程、主要機制及其優(yōu)勢和阻力進行梳理。
二、大數(shù)據(jù)反腐的概念與理論背景
和傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)最顯著的特點是數(shù)量巨大。大數(shù)據(jù)時代,數(shù)據(jù)以指數(shù)級增長,數(shù)據(jù)的總量級別不停刷新人類認知,從拍字節(jié)(一般記作PB,等于250B),到艾字節(jié)(一般記作EB,等于260B)再到澤字節(jié)(一般記作ZB,等于270B),機器所記錄的數(shù)據(jù)總量迅速跨越我們經(jīng)常在天文學(xué)領(lǐng)域中看到的不同量級。數(shù)量巨大也是大數(shù)據(jù)最本質(zhì)的特征。人類在信息時代產(chǎn)生、儲存的數(shù)據(jù)呈現(xiàn)爆發(fā)性增長,這些數(shù)據(jù)開始深刻改變?nèi)祟惿畹母鱾€方面:人類開始尋找全新的方法分析傳統(tǒng)問題,開始用全新的技術(shù)處理經(jīng)濟事務(wù),開始轉(zhuǎn)變對于事物的傳統(tǒng)認知思維……根據(jù)維克托·邁爾-舍恩伯格和肯尼思·庫克耶在《大數(shù)據(jù)時代———生活、工作與思維的大變革》中的總結(jié),大數(shù)據(jù)從思維、商業(yè)和管理等三個方面深刻改變著人類的生活。他們認為,“大數(shù)據(jù)時代將要釋放出的巨大價值使得我們選擇大數(shù)據(jù)的理念和方法不再是一種權(quán)衡,而是通往未來的必然改變”。
1.大數(shù)據(jù)的概念
按照普遍的觀點,大數(shù)據(jù)具有“4V”的特征:Volume(數(shù)量龐大)、Variety(種類繁多)、Velocity(產(chǎn)生迅速)、Value(價值大但密度低)。
首先,從數(shù)據(jù)數(shù)量來看。近20年來,互聯(lián)網(wǎng)使用的普及以及互聯(lián)網(wǎng)技術(shù)的進步導(dǎo)致網(wǎng)絡(luò)世界產(chǎn)生了數(shù)量巨大的數(shù)據(jù)。根據(jù)國際數(shù)據(jù)公司(IDC) 報告,2011 年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1800EB,而且預(yù)計這一數(shù)字將至少每兩年翻一番。2010年,淘寶網(wǎng)擁有會員3.7 億,在線商品8.8 億件,每天交易超過千萬筆,單日數(shù)據(jù)產(chǎn)量超過50TB(50×1012B),存儲量達40PB。2011 年,據(jù)Internet World 統(tǒng)計,互聯(lián)網(wǎng)用戶近20億;Facebook注冊用戶超過8.5 億,每年上傳照片3 億張,每天生成日志數(shù)據(jù)300TB;新浪微博每天有數(shù)十億的外部網(wǎng)頁和API 接口訪問需求,每分鐘都會發(fā)出數(shù)萬條微博;百度數(shù)據(jù)總量接近1000PB,存儲網(wǎng)頁數(shù)量接近1 萬億,每天要處理約60 億次搜索請求、幾十PB 數(shù)據(jù)。2014年,互聯(lián)網(wǎng)巨頭Google 每月處理的數(shù)據(jù)超過400PB,Youtube 每天上傳的視頻達7 萬小時。
其次,從數(shù)據(jù)種類來看?;ヂ?lián)網(wǎng)時代的網(wǎng)絡(luò)數(shù)據(jù)包含了文字、圖片、音頻、視頻等多種形式,這意味著需要處理數(shù)量巨大并且種類繁多的數(shù)據(jù),才能找出數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)。
再次,從數(shù)據(jù)產(chǎn)生速度來看。網(wǎng)絡(luò)時代的數(shù)據(jù)可以說是瞬息萬變。2000 年天文學(xué)項目“Slaon Digital Sky Survey”啟動,其位于新墨西哥州的望遠鏡在幾周之內(nèi)搜集的數(shù)據(jù),就已經(jīng)超過了天文學(xué)歷史上搜集的所有數(shù)據(jù)之和。
最后,從數(shù)據(jù)的價值來看。網(wǎng)絡(luò)數(shù)據(jù)的總體價值越來越高,但數(shù)據(jù)價值的密度卻很低。大數(shù)據(jù)時代,挖掘數(shù)據(jù)的價值就像是沙里淘金,需要花費巨大的成本來尋找真正有價值的數(shù)據(jù)。2012 年,Twitter 公司每天都會發(fā)布超過4 億條微博,這些巨量的微博是高達1.4 億的活躍用戶在不同時間和不同地點發(fā)布的,想要從用戶發(fā)布的數(shù)據(jù)中整理出可以利用的資源,是一項需要想象力和付出巨大努力的工程。
2.大數(shù)據(jù)技術(shù)的概念
大數(shù)據(jù)技術(shù)本質(zhì)上就是對大數(shù)據(jù)進行處理的技術(shù),其具體步驟依次為數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析、數(shù)據(jù)解釋。大數(shù)據(jù)數(shù)量大、種類多、產(chǎn)生速度快等特點,決定了其采集方式必然是多樣的。目前常見的數(shù)據(jù)采集手段有傳感器收取、無線射頻識別(RFID),或是借助數(shù)據(jù)檢索分類工具如百度和谷歌等搜索引擎、條形碼技術(shù)、移動軟件和社交網(wǎng)絡(luò)等。數(shù)據(jù)處理與集成主要是對數(shù)據(jù)進行篩選,去除無效數(shù)據(jù),提高數(shù)據(jù)的相關(guān)性和穩(wěn)定性。數(shù)據(jù)分析是大數(shù)據(jù)處理的核心部分,通過數(shù)據(jù)分析,數(shù)據(jù)的價值被挖掘出來,諸如數(shù)據(jù)挖掘、數(shù)理統(tǒng)計、機器學(xué)習(xí)、智能算法等傳統(tǒng)數(shù)據(jù)分析技術(shù)已經(jīng)不能夠滿足處理大數(shù)據(jù)的需要,云計算技術(shù)等全新的數(shù)據(jù)分析技術(shù)出現(xiàn),提高了數(shù)據(jù)分析的效率和準(zhǔn)確性。數(shù)據(jù)解釋即將數(shù)據(jù)分析的結(jié)果向大眾進行說明和展示,使其被大眾所理解和認可。目前較為有效和流行的展示手段包括“數(shù)據(jù)可視化”等。(見圖1)
大數(shù)據(jù)技術(shù)的運用范圍十分廣泛。大數(shù)據(jù)技術(shù)可以使企業(yè)制訂的生產(chǎn)、運營和營銷方案更具針對性,同時增強企業(yè)把握市場、行業(yè)現(xiàn)狀以及預(yù)測發(fā)展前景的能力;大數(shù)據(jù)技術(shù)能幫助非企業(yè)機構(gòu)根據(jù)服務(wù)對象的特點定制個性化方案,或是在解決問題時更加有效地篩選出所需數(shù)據(jù),節(jié)約成本和精力。劉智慧、張泉靈總結(jié)了大數(shù)據(jù)運用的四個主要領(lǐng)域,分別是商業(yè)、金融、醫(yī)療和制造業(yè);而張引等則歸納出了科學(xué)計算、金融、社交網(wǎng)絡(luò)、移動數(shù)據(jù)、物聯(lián)網(wǎng)、Web數(shù)據(jù)和多媒體等七個具有代表性的大數(shù)據(jù)運用領(lǐng)域。可見,商業(yè)和科研領(lǐng)域是目前大數(shù)據(jù)技術(shù)的主要運用領(lǐng)域。
3.大數(shù)據(jù)反腐的概念
大數(shù)據(jù)反腐指的是大數(shù)據(jù)技術(shù)在反腐領(lǐng)域的應(yīng)用,這一應(yīng)用建立在幾個前提之上。首先,數(shù)據(jù)庫為大數(shù)據(jù)技術(shù)發(fā)現(xiàn)和預(yù)防腐敗提供數(shù)據(jù)基礎(chǔ)。電子政務(wù)的發(fā)展、公職人員及相關(guān)人員的網(wǎng)絡(luò)參與使政府部門產(chǎn)生了海量的數(shù)據(jù),其種類、數(shù)量和規(guī)模都在不斷擴展,相關(guān)數(shù)據(jù)庫的建設(shè)和維護已經(jīng)成為政府部門的日常工作之一。其次,云計算和云服務(wù)、量子計算等新興技術(shù)的不斷成熟使處理海量數(shù)據(jù)的時間極大縮短,同時成本大大降低,為大數(shù)據(jù)技術(shù)在反腐領(lǐng)域的運用提供技術(shù)支撐。大數(shù)據(jù)技術(shù)經(jīng)過一定時間的發(fā)展,已經(jīng)具有了相對穩(wěn)定和成熟的基礎(chǔ)技術(shù)和運用模式,計算機高速的計算能力和強大的儲存能力,結(jié)合由諸多巧妙算法構(gòu)成的專業(yè)軟件的使用,能夠大大縮短數(shù)據(jù)處理的時間,提高數(shù)據(jù)處理的準(zhǔn)確性。另外,黨和政府反腐敗的決心,為大數(shù)據(jù)技術(shù)在反腐敗領(lǐng)域的運用提供有利的政治環(huán)境。十八大以來反腐工作成為黨和國家重點關(guān)注和落實的領(lǐng)域之一,《習(xí)近平新時代中國特色社會主義思想學(xué)習(xí)綱要》提到,“腐敗是社會毒瘤,是我們黨面臨的最大威脅。如果任憑腐敗問題愈演愈烈,最終必然亡黨亡國。……黨的十八大以來,我們黨以猛藥去疴、重典治亂的決心,以刮骨療毒、壯士斷腕的勇氣,堅定不移‘打虎’、‘拍蠅’、‘獵狐’”。
從目前的發(fā)展來看,大數(shù)據(jù)反腐的主要機制包括產(chǎn)生反腐需求、建設(shè)反腐數(shù)據(jù)庫、反饋腐敗證據(jù)、更新反腐體系等。反腐需求的產(chǎn)生主要源于腐敗現(xiàn)象的出現(xiàn),部分源于預(yù)防腐敗發(fā)生的預(yù)警心理。建設(shè)反腐數(shù)據(jù)庫是大數(shù)據(jù)反腐的關(guān)鍵環(huán)節(jié),正是在這一環(huán)節(jié)上,大數(shù)據(jù)技術(shù)充分體現(xiàn)了其技術(shù)特點和應(yīng)用價值。從搜集海量數(shù)據(jù)、建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)、構(gòu)建數(shù)據(jù)結(jié)構(gòu)到更新數(shù)據(jù)內(nèi)容,大數(shù)據(jù)技術(shù)將原來似乎無用的海量數(shù)據(jù)以一種不可思議的方式高效整合起來,并且能針對性地檢測和預(yù)防腐敗問題。反饋腐敗證據(jù)是在數(shù)據(jù)庫建設(shè)的基礎(chǔ)之上,運用處理腐敗信息的分析邏輯來發(fā)現(xiàn)腐敗現(xiàn)象的存在。更新反腐體系是為了形成大數(shù)據(jù)反腐機制的長效性,主要包括對數(shù)據(jù)庫數(shù)據(jù)的準(zhǔn)確性和實效性的維持,以及對利用數(shù)據(jù)庫數(shù)據(jù)分析腐敗現(xiàn)象的邏輯的反思。