基于兩個經(jīng)典案例的分析兩類“大數(shù)據(jù)”的區(qū)分

數(shù)據(jù)雜志
薛永紅
雖然兩類大數(shù)據(jù)有區(qū)別,但隨著不斷融合,它們之間的界限越來越模糊。SDS的數(shù)據(jù)雖然依賴于網(wǎng)絡(luò)技術(shù)的發(fā)展,但其所使用的方法、模型很多都是來自于SSD的研究成果。正如漢弗萊斯所指出的,當(dāng)小寫的大數(shù)據(jù)向社會各領(lǐng)域滲透并迅速發(fā)展時,便產(chǎn)生了大寫的大數(shù)據(jù)。

11.jpg

美國科學(xué)哲學(xué)家漢弗萊斯將大數(shù)據(jù)分為兩類,一類是大寫的大數(shù)據(jù)(BIG DATA),另一類是小寫的大數(shù)據(jù)(big data)。小寫的大數(shù)據(jù)指與數(shù)據(jù)科學(xué)相關(guān)的活動和方法,是擁有海量數(shù)據(jù)的組織機構(gòu)所面臨的技術(shù)問題;而當(dāng)這些活動、方法尤其關(guān)于處理海量數(shù)據(jù)的技術(shù)向社會各領(lǐng)域滲透并迅速發(fā)展時,便產(chǎn)生了大寫的大數(shù)據(jù)。這意味著我們平常所用的“大數(shù)據(jù)”所指的對象并不同一。大數(shù)據(jù)激進派的代表人物安德森、舍恩伯格等認(rèn)為:數(shù)據(jù)可以客觀地表征世界;只要數(shù)據(jù)量足夠大,就不需要模型、問題及相關(guān)的理論,只要在數(shù)據(jù)的驅(qū)動下,數(shù)據(jù)可以自己發(fā)聲;相關(guān)性是世界的本質(zhì);由于大數(shù)據(jù)可以完全避免人類的主觀因素進入科學(xué)研究,大數(shù)據(jù)知識發(fā)現(xiàn)的模式更客觀、更自由。大數(shù)據(jù)保守派的代表人物有弗洛里迪、克勞德、皮耶奇等,他們一方面承認(rèn)大數(shù)據(jù)的獨特性,另一方面對大數(shù)據(jù)是否能客觀反映實在、大數(shù)據(jù)是否是理論自由的、大數(shù)據(jù)能否完全取代小數(shù)據(jù)、相關(guān)性能否代替因果性等都保持理性的懷疑態(tài)度,并且通過案例,對激進派的各種論調(diào)一一進行反駁。

案例一人類數(shù)感研究

人類對物體或事件的數(shù)量存在一種非言語的表征方式,區(qū)別于通過言語或數(shù)字符號對數(shù)量的精確表征,具有近似性和不精確性,心理學(xué)家稱之為近似數(shù)量系統(tǒng)(ANS)。ANS是一種與生俱來的結(jié)構(gòu),無論人還是動物都有,它不僅體現(xiàn)在視覺任務(wù)中,也能體現(xiàn)在聽覺任務(wù)中,是人類數(shù)感和形成數(shù)學(xué)能力的基礎(chǔ),在理論上服從韋伯定律。腦科學(xué)研究表明,腦區(qū)雙側(cè)的頂內(nèi)溝處大致為ANS系統(tǒng)所處的位置。目前,腦科學(xué)和心理科學(xué)的相關(guān)研究成果被廣泛應(yīng)用到教育教學(xué)實踐中。但長期以來,對ANS的研究缺乏對人的整個生命周期的研究,因為實踐中很難對每一個樣本進行終生的追蹤研究。大數(shù)據(jù)技術(shù)出現(xiàn)之后,約翰霍布斯大學(xué)的心理學(xué)家哈爾伯達(J.Halberda)通過已有的ANS理論,構(gòu)造出測試模型,然后向全球征求志愿者,在線完成測試任務(wù)。在短短的幾個月時間里,便收集到了分布在全球不同地區(qū)的13000名年齡在11-85歲的測試者。通過對這些數(shù)據(jù)的分析,哈爾伯達不但完成了對人類數(shù)量感知力發(fā)展的整體描述、驗證了前期對于不同年齡階段ANS與數(shù)學(xué)水平之間的理論假設(shè),填補了這一領(lǐng)域的研究空白,而且還發(fā)現(xiàn)了之前沒有發(fā)現(xiàn)的一些“意外”規(guī)律。

案例二谷歌流感預(yù)測

季節(jié)性流感是人類社會長期面臨的一個世界性的威脅和問題,據(jù)統(tǒng)計,全球每年約有25萬-50萬人死于季節(jié)性流感。因此,對季節(jié)性流感進行預(yù)測并提前防控具有重要意義。美國疾病控制和預(yù)防中心(CDC)、歐洲流感監(jiān)測計劃(EISS)所使用的流感預(yù)測系統(tǒng),都是依據(jù)病毒學(xué)理論,使用臨床監(jiān)測數(shù)據(jù),對流感進行預(yù)測,并向公眾發(fā)布預(yù)測報告,但預(yù)測報告通常會滯后1-2周。隨著互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)在某一地區(qū),某些詞的互聯(lián)網(wǎng)搜索頻率與流感樣疾?。╥nfluenza-like illness,ILI)病例的就診比率高度相關(guān)。2008年,谷歌建立了一種通過分析谷歌搜索查詢來跟蹤、預(yù)測流感的系統(tǒng)。在谷歌的預(yù)測模型中,自變量為同一地區(qū)與流感樣疾病相關(guān)的檢索詞的檢索頻率。將模型的預(yù)測結(jié)果與CDC的結(jié)果相比較,發(fā)現(xiàn)對2008年各季度預(yù)測的結(jié)果與美國CDC的監(jiān)測結(jié)果的相關(guān)系數(shù)達到0.97。而最為關(guān)鍵的是,由于可以快速處理搜索查詢,谷歌的預(yù)測報告比CDC的提前1-2周。

分析SSD與SDS

以上兩個大數(shù)據(jù)案例恰好代表了兩個大數(shù)據(jù)流派對大數(shù)據(jù)的看法。當(dāng)研究者基于案例一來分析時,必然會得出大數(shù)據(jù)研究離不開模型、以問題驅(qū)動、相關(guān)性不能代替因果性等,而對于影響人類“數(shù)感”的機制是什么仍舊懸而未決;如果以案例二為依據(jù)則可以得出,大數(shù)據(jù)不需要具體問題,

雖然兩類大數(shù)據(jù)有區(qū)別,但隨著不斷融合,它們之間的界限越來越模糊。SDS的數(shù)據(jù)雖然依賴于網(wǎng)絡(luò)技術(shù)的發(fā)展,但其所使用的方法、模型很多都是來自于SSD的研究成果。正如漢弗萊斯所指出的,當(dāng)小寫的大數(shù)據(jù)向社會各領(lǐng)域滲透并迅速發(fā)展時,便產(chǎn)生了大寫的大數(shù)據(jù)。綜上所述,由于大數(shù)據(jù)所指陳的對象并不同一,即客觀上存在著兩類既有區(qū)別又有聯(lián)系的大數(shù)據(jù),因此,在開展相關(guān)研究時,研究者首先要明確自己所研究的對象屬于哪一類,如此才不至于陷入激進派與保守派無休止的論爭漩渦。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論