近些年來(lái),大數(shù)據(jù)這個(gè)看上去實(shí)在是有點(diǎn)土的詞匯,令人瞠目的在2011年之后成為冉冉升起的傳媒焦點(diǎn),并匯同社交網(wǎng)絡(luò)、自媒體、工業(yè)4.0、云計(jì)算、風(fēng)險(xiǎn)投資等等相關(guān)或者不相關(guān)的概念,共同形成了橫掃大街小巷的一股信息泥石流。最終在幾乎每一個(gè)人的腦海里固化為一個(gè)概念:我們已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代了!
但是,且慢,人類迄今已經(jīng)有了數(shù)千年文明史,那么在大數(shù)據(jù)這個(gè)概念出現(xiàn)之前,人類使用數(shù)據(jù)的歷史又是怎樣的呢?本文就來(lái)聊聊這個(gè)有趣的話題。
1、為什么大數(shù)據(jù)概念出現(xiàn)的如此之晚
提到數(shù)據(jù),可能大家腦海里默認(rèn)反映出的是0-9這樣一些數(shù)字,比如說(shuō)今天大盤又跌了2%,昨天買的大白菜每公斤又漲了1毛錢之類的。但實(shí)際這種理解是將數(shù)字和數(shù)據(jù)的概念混淆了,數(shù)據(jù)的范圍可遠(yuǎn)遠(yuǎn)不止于數(shù)字范疇。
準(zhǔn)確地講,數(shù)據(jù)是指對(duì)客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的符號(hào)組合,除數(shù)字外,文字、圖像、聲音、視頻等實(shí)際上都是數(shù)據(jù),只不過(guò)在歷史上由于手段限制,對(duì)除數(shù)字外的數(shù)據(jù)很難做進(jìn)一步的分析利用罷了。而數(shù)據(jù)實(shí)際上是人類文明傳承的重要媒介。通過(guò)對(duì)各種人類活動(dòng)的數(shù)據(jù)化(比如利用語(yǔ)言和文字加以記錄)和不斷累積,文明得以繼承和發(fā)展。生產(chǎn)生活活動(dòng)得以不斷的精細(xì)化。
那么,為什么在人類文明史上卻長(zhǎng)期沒(méi)有所謂的“大數(shù)據(jù)”什么事呢?讓我們把數(shù)據(jù)分析還沒(méi)有得到大規(guī)模應(yīng)用之前的漫長(zhǎng)年代籠統(tǒng)地稱為大數(shù)據(jù)的史前時(shí)代。這個(gè)時(shí)期有以下的基本特征:
除非特意人工記錄,否則數(shù)據(jù)信息不會(huì)產(chǎn)生,也不會(huì)保留。這一時(shí)期并不存在對(duì)數(shù)據(jù)進(jìn)行自動(dòng)觀察和記錄的儀器,因此除非有人站在十字路口數(shù),否則就無(wú)法得知當(dāng)日通過(guò)該路口的人數(shù)有多少,而這個(gè)數(shù)據(jù)如果不被記錄下來(lái),也很快就會(huì)被遺忘。顯然,數(shù)據(jù)在這一時(shí)期是異常匱乏的。
嚴(yán)重缺乏對(duì)數(shù)據(jù)進(jìn)行加工利用的技術(shù)和工具。數(shù)據(jù)分析高度依賴統(tǒng)計(jì)學(xué),而統(tǒng)計(jì)學(xué)是數(shù)學(xué)發(fā)展到一定階段才會(huì)產(chǎn)生的分支,而在阿拉伯?dāng)?shù)字尚未普及的年代,羅馬和希臘的數(shù)字用于計(jì)算加減都非常困難,計(jì)算乘除更是難如登天。就算高斯提前降生在這個(gè)時(shí)代,大概率其結(jié)局也只能是無(wú)甚建樹(shù)。中國(guó)情況雖然要好一些,但相應(yīng)的數(shù)學(xué)知識(shí)也不可能普及到每一個(gè)平民,就更不要說(shuō)討論統(tǒng)計(jì)學(xué)有無(wú)可能出現(xiàn)了。
嚴(yán)重缺乏數(shù)據(jù)信息交流的工具和手段。在文字出現(xiàn)之前,數(shù)據(jù)信息的交流只能靠口耳相傳(例如祭司師徒之間的知識(shí)傳承,或者游吟詩(shī)人的世代傳唱),而印刷術(shù)出現(xiàn)之前,則只能靠手抄文字加以流傳。直到印刷術(shù)出現(xiàn)之后,信息才有了大規(guī)模普及的和交流的基礎(chǔ),但這種速度和媒介尚遠(yuǎn)遠(yuǎn)不能滿足知識(shí)本身的傳播需求,更不要說(shuō)加以二次分析利用了。
而以上客觀條件的限制,使得有意識(shí)地去采集數(shù)據(jù),并利用數(shù)據(jù)來(lái)達(dá)成某種分析目標(biāo)也變得幾乎不可能(有多余的錢先拿來(lái)happy一下不好么?搞什么數(shù)據(jù)采集呀!)。比如中國(guó)傳統(tǒng)典籍中所稱頌的日出而作,日落而息,男耕女織的生活,其本質(zhì)就是完全靠天吃飯,略有盈余往往也不會(huì)想到拿到集市上去交換,農(nóng)夫幾乎不會(huì)去考慮田地種什么收益會(huì)更高一些,臨水而居的人也很少會(huì)考慮自己是打漁還是撐船,甚或改行去弄幾畝水澆地來(lái)種,一切似乎都是家傳,自然而然。
但是,文明總是在不斷進(jìn)步的,即使是在大數(shù)據(jù)的史前時(shí)代,也確實(shí)存在著采集數(shù)據(jù)、分析數(shù)據(jù)的需求,這方面以作為社會(huì)管理者出現(xiàn)的教會(huì)、政府的需求最為強(qiáng)烈,特別是集中體現(xiàn)在人口普查的需求上:
古代中國(guó)在人口統(tǒng)計(jì)上做的非常出色,這里就不單獨(dú)拎出來(lái)表?yè)P(yáng)了
據(jù)說(shuō)古埃及就進(jìn)行過(guò)人口普查,古羅馬在擁有數(shù)十萬(wàn)人口的時(shí)候規(guī)定每5年普查一次。然而普查所需要的能力在當(dāng)時(shí)遠(yuǎn)遠(yuǎn)超越了人類社會(huì)的上限,以至于隨著國(guó)家人口越來(lái)越多而最終只能粗略計(jì)數(shù)。
1086年,英國(guó)國(guó)王威廉一世對(duì)全國(guó)進(jìn)行人口普查,結(jié)果到他1087年去世時(shí)這項(xiàng)工作也還未完成。
實(shí)際上,直到19世紀(jì)為止(此時(shí)已進(jìn)入小數(shù)據(jù)時(shí)代),即使這樣不頻繁的人口普查依然很困難。美國(guó)在1880年進(jìn)行的人口普查,耗時(shí)8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過(guò)時(shí)的。1890年進(jìn)行的人口普查,當(dāng)時(shí)則預(yù)計(jì)要花費(fèi)13年的時(shí)間來(lái)匯總數(shù)據(jù)。
2、史前時(shí)代的階段細(xì)分
史前時(shí)代的時(shí)間跨度很長(zhǎng),而在此期間,雖然非常緩慢,但對(duì)數(shù)據(jù)的分析利用方面也逐漸出現(xiàn)這一些變化,因此史前時(shí)代可以大致分為如下幾個(gè)階段:
2.1遠(yuǎn)古時(shí)代
遠(yuǎn)古時(shí)代指的是文字系統(tǒng)尚未出現(xiàn)之前的時(shí)期,信息的交流主要依靠口耳相傳,比如部落祭司師徒傳承時(shí)的口耳相傳。雖然在后期逐步出現(xiàn)了結(jié)繩記事之類的簡(jiǎn)單記錄方法,但總體而言,在這種狀態(tài)下,數(shù)據(jù)的準(zhǔn)確記錄都無(wú)法得到保證,就更不用考慮數(shù)據(jù)分析利用的問(wèn)題了。
2.2文字時(shí)代
文字是人類互相所交流的信息的客觀記錄方式,而不是一般所認(rèn)為的僅僅是記錄語(yǔ)言的符號(hào)。文字的產(chǎn)生在人類文明史上起著至關(guān)重要的作用,它的出現(xiàn)意味著前人得到的知識(shí)可以被準(zhǔn)確無(wú)誤地傳承下去。
目前公認(rèn)世界上出現(xiàn)最早的是距今5000~6000年兩河流域的楔形文字,隨后在世界各地的各個(gè)文明發(fā)展出了各自使用的古埃及象形文字、美洲瑪雅文字、中國(guó)甲骨文、古印度印章文字、腓尼基字母、希臘字母、拉丁字母、斯拉夫字母等。文字的出現(xiàn)初步解決了數(shù)據(jù)信息的保存問(wèn)題,也使得數(shù)據(jù)信息的交流變得可行和可靠。
但是,由于各個(gè)文字體系并不相同,跨文明間的交流仍然非常困難。例如對(duì)數(shù)字的記錄和計(jì)算方式,中國(guó)古代采用的是十進(jìn)位制的算籌記數(shù)法,這在歷史上非常先進(jìn),也使得古代中國(guó)的數(shù)學(xué)取得了許多卓越成就。
籌算,歷史上第一種有進(jìn)位的10進(jìn)制記數(shù)法
而同時(shí)期的其他先進(jìn)文明在數(shù)學(xué)方面確實(shí)就沒(méi)有那么先進(jìn)了:
古羅馬的數(shù)字系統(tǒng)沒(méi)有位值制,只有七個(gè)基本符號(hào),如要記稍大一點(diǎn)的數(shù)目就相當(dāng)繁難;
古美洲瑪雅人倒是懂得位值制,但用的是20進(jìn)位,太不方便,所以近代被打敗了;
古巴比倫人也知道位值制,但用的是60進(jìn)位,太不方便*3,所以很早就消失了。
古巴比倫的學(xué)生們真可憐。。。
缺少統(tǒng)一且高效的數(shù)學(xué)語(yǔ)言,使得在文字時(shí)代對(duì)數(shù)據(jù)信息做有效挖掘仍然是非常困難的。
2.3阿拉伯?dāng)?shù)字時(shí)代
一般認(rèn)為是公元3世紀(jì),印度科學(xué)家巴格達(dá)發(fā)明了阿拉伯?dāng)?shù)字,并在大約公元9世紀(jì)傳入阿拉伯地區(qū),隨后傳入歐洲,并在大約13到14世紀(jì)傳入中國(guó)。由于阿拉伯?dāng)?shù)字筆畫簡(jiǎn)單,書(shū)寫方便,加上使用十進(jìn)位制便于運(yùn)算,逐漸在各國(guó)流行起來(lái),最終成為世界各國(guó)通用的數(shù)字。
數(shù)學(xué)語(yǔ)言,特別是計(jì)算進(jìn)制的統(tǒng)一,終于使得各個(gè)文明之間能夠?qū)?shù)據(jù)的分析利用做有效的交流。此時(shí)數(shù)據(jù)記錄、存儲(chǔ)、分析、交流的前提條件都已具備,數(shù)據(jù)的分析需求逐漸產(chǎn)生,小數(shù)據(jù)時(shí)代開(kāi)始逐步向人類文明走來(lái)。