如今,隨著數(shù)據(jù)的不斷增加,以往那種隨機采樣的方式已經(jīng)不能適應(yīng)這個日新月異的大數(shù)據(jù)時代了。隨著高性能數(shù)字技術(shù)的流行,我們意識到采樣分析的弊端,高性能數(shù)字技術(shù)的采用也讓我們更清楚地看到了樣本無法揭示的細節(jié)信息。
我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,數(shù)據(jù)庫引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因為需要分析的數(shù)據(jù)很少,所以我們必須盡可能精準地量化我們的記錄。在某些方面,我們已經(jīng)意識到了差別。
例如,一個小商店在晚上打烊的時候要把收銀臺里的每分錢都數(shù)清楚,但是我們不會、也不可能用“分”這個單位去精確計算國民生產(chǎn)總值。隨著規(guī)模的擴大,對精確度的癡迷將減弱。
(原標題:大數(shù)據(jù)讓我們更清楚地看到了樣本無法揭示的細節(jié)信息)