在信息爆炸的時(shí)代,開(kāi)放的數(shù)據(jù)共享大大加快了科學(xué)技術(shù)向前推進(jìn)的步伐。研究者在公共數(shù)據(jù)獲取方面遭遇的限制,則反過(guò)來(lái)阻礙了科研的進(jìn)步。最近,上海海事大學(xué)交通運(yùn)輸學(xué)院的Zheng Wan在《自然》上發(fā)表評(píng)論,指出中國(guó)科學(xué)家在進(jìn)行重要的科學(xué)研究時(shí),想要訪問(wèn)高質(zhì)量的公共數(shù)據(jù)庫(kù),已是越來(lái)越難。
在這個(gè)大數(shù)據(jù)時(shí)代,生物信息數(shù)據(jù)庫(kù)和數(shù)據(jù)共享都有所發(fā)展,可用的技術(shù)資源也越來(lái)越多。直到最近,這種開(kāi)放科學(xué)的趨勢(shì)一直在幫助中國(guó)科學(xué)家獲得國(guó)際競(jìng)爭(zhēng)力。然而,中國(guó)社會(huì)正日益感受到對(duì)于公共數(shù)據(jù)搜索和共享的限制。如果這個(gè)問(wèn)題不能盡快解決,便將拖累科學(xué)研究和創(chuàng)新。
Zheng Wan表示,中國(guó)的科研進(jìn)步正因數(shù)據(jù)獲取方面的困難而受限。圖片來(lái)源:themandarin.com.au
當(dāng)前,中國(guó)科學(xué)家很難獲得高質(zhì)量的國(guó)內(nèi)數(shù)據(jù),而且這還將會(huì)越來(lái)越難。政府部門掌握了絕大多數(shù)公共數(shù)據(jù)。其中一些部門正在強(qiáng)化自己對(duì)數(shù)據(jù)的壟斷,使研究者想獲取數(shù)據(jù)變得更加艱難。人文社科研究者所受的影響尤其明顯,而由于研究涉及的數(shù)據(jù)可能在政治上較敏感,環(huán)境科學(xué),公共健康等領(lǐng)域也受到波及。我的很多同行都在學(xué)術(shù)會(huì)議上抱怨過(guò)想獲取常規(guī)數(shù)據(jù)——例如從當(dāng)局索取空氣污染水平數(shù)據(jù)——有多困難。
即便是公布的數(shù)據(jù),也常常因?yàn)閿?shù)據(jù)收集存在缺陷而質(zhì)量不佳。這其中最典型的例子就是關(guān)于中國(guó)國(guó)內(nèi)生產(chǎn)總值(GDP)的爭(zhēng)議。官方公布的全國(guó)數(shù)據(jù),與31個(gè)省級(jí)行政區(qū)的GDP總和存在著顯著的差異——而且這差異還在拉大。位于北京的國(guó)家統(tǒng)計(jì)局承認(rèn),各省使用的統(tǒng)計(jì)方法并不一致,正在進(jìn)行協(xié)調(diào)。只是到目前為止,效果并不理想。
公共數(shù)據(jù)的共享已然變成一種營(yíng)利手段。當(dāng)在編制諸如道路交通的污染數(shù)據(jù)時(shí),公共數(shù)據(jù)共享是很有用的。理想狀況下,這樣的任務(wù)需要收集多種數(shù)據(jù):各類車輛的詳細(xì)上牌數(shù)量、交通擁堵情況、詳細(xì)的發(fā)動(dòng)機(jī)參數(shù)以及燃油等級(jí)等等。但研究機(jī)構(gòu)甚至連從政府部門獲得基礎(chǔ)的車輛所有權(quán)數(shù)據(jù)都困難重重,所以他們只能使用生產(chǎn)商的銷售數(shù)據(jù),但這樣的數(shù)據(jù)既不夠縝密,也常常容易造成誤導(dǎo)。諷刺的是,對(duì)外虛報(bào)數(shù)據(jù)的汽車生產(chǎn)商,自己卻可以得到客觀可靠的、關(guān)于競(jìng)爭(zhēng)對(duì)手的銷售數(shù)據(jù)——他們以公共機(jī)構(gòu)和科學(xué)家負(fù)擔(dān)不起的價(jià)格,通過(guò)特殊渠道向政府部門的關(guān)聯(lián)方購(gòu)買數(shù)據(jù)。
研究者求之不得的數(shù)據(jù),一些企業(yè)卻可以通過(guò)特殊渠道以高價(jià)購(gòu)買到。圖片來(lái)源:Daniel Allan/Photographer’s Choice
在這樣的環(huán)境下,一些中國(guó)研究團(tuán)隊(duì)不愿意公開(kāi)自己的數(shù)據(jù),也就不是什么令人感到意外的事情了。數(shù)據(jù)就是無(wú)形資產(chǎn),可以使科學(xué)家在自己的學(xué)術(shù)領(lǐng)域中獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。很多人都向我自己的研究團(tuán)隊(duì)請(qǐng)求海事數(shù)據(jù)——例如我們匯編的港口統(tǒng)計(jì)數(shù)據(jù)和船隊(duì)信息——但是我們也不情愿分享這些信息。為了將零散的數(shù)據(jù)收集、整理稱可用的形式,我們付出了巨大的人力物力。如果我們不公開(kāi)這些數(shù)據(jù),就可以使用這些數(shù)據(jù)撰寫(xiě)論文。
但如果我們能更便捷地從其他來(lái)源獲取優(yōu)質(zhì)數(shù)據(jù),我們就會(huì)更愿意分享自己的數(shù)據(jù)。
由于研究者獲取公共數(shù)據(jù)都需要克服重重困難,研究數(shù)據(jù)在中國(guó)研究團(tuán)隊(duì)之間的分享氛圍也因而受到了削弱。圖片來(lái)源:nature.com
開(kāi)放公共數(shù)據(jù)庫(kù)并提高數(shù)據(jù)質(zhì)量可以提高政府事務(wù)的透明度。盡管進(jìn)展緩慢,我們還是有一些提高透明度,使社會(huì)受益的案例。在社會(huì)壓力下,環(huán)保局從2014年起開(kāi)始全面公布空氣污染數(shù)據(jù),便是一個(gè)典型的例子。之前,環(huán)保局只公布簡(jiǎn)略的日?qǐng)?bào),如今每小時(shí)都更新數(shù)據(jù)。這些數(shù)據(jù)被中國(guó)的政府部門廣泛使用。根據(jù)這些數(shù)據(jù),衛(wèi)生局得以向民眾發(fā)布預(yù)警,教育局也有依據(jù)決定學(xué)校是否在空氣重度污染時(shí)停課,交管局則得以調(diào)整限行規(guī)定。充分披露這些數(shù)據(jù)最重要的作用,也許在于提高了公眾對(duì)不斷惡化的污染問(wèn)題的關(guān)注程度。
不幸的是,科學(xué)家感興趣的數(shù)據(jù),公眾不一定感興趣。實(shí)現(xiàn)完全透明,開(kāi)放更多公共數(shù)據(jù),任重而道遠(yuǎn)。受到限制的不僅僅是中國(guó)國(guó)內(nèi)產(chǎn)生的數(shù)據(jù),查閱國(guó)外的學(xué)術(shù)資源有時(shí)也在技術(shù)上很難實(shí)現(xiàn)——一些政府信息管理部門用技術(shù)手段設(shè)限,以過(guò)濾潛在的有害信息。
我在中國(guó)的學(xué)術(shù)生涯受到了影響。我?guī)缀醪荒苡行У厮阉鲗W(xué)術(shù)文獻(xiàn)。相比于其他搜索引擎,我更喜歡使用谷歌學(xué)術(shù)搜索,因?yàn)樗藞D書(shū)、論文、學(xué)位論文、專利、技術(shù)報(bào)告——但我卻無(wú)法使用它,只好逐一搜索其他尚可以登錄的、由出版商運(yùn)營(yíng)的數(shù)據(jù)庫(kù)。
網(wǎng)絡(luò)安全對(duì)于國(guó)家安全固然至關(guān)重要,而優(yōu)質(zhì)的數(shù)據(jù)是科學(xué)進(jìn)步和經(jīng)濟(jì)發(fā)展的后盾。資源共享和開(kāi)放可靠數(shù)據(jù)可以鞏固經(jīng)濟(jì)發(fā)展和社會(huì)安定。中國(guó)需要全面的研究來(lái)解決這些矛盾。這樣我們才能建立起對(duì)各方都有益的,高效合理的數(shù)據(jù)管理機(jī)制。更具體地說(shuō)來(lái),研究者應(yīng)該有更多權(quán)限,尤其是訪問(wèn)公共數(shù)據(jù)和學(xué)術(shù)搜索引擎的權(quán)限。