未來(lái)檔案館的核心競(jìng)爭(zhēng)力很大程度上取決于將檔案數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí)的速度與能力。檔案部門(mén)作為存儲(chǔ)信息、提供信息服務(wù)的信息中心,必須主動(dòng)創(chuàng)新,推動(dòng)檔案工作向“知識(shí)化、信息化、技術(shù)化、市場(chǎng)化”變革,利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)戰(zhàn)略發(fā)展以滿足未來(lái)需求。
一、制度保障
標(biāo)準(zhǔn)與規(guī)范是大數(shù)據(jù)時(shí)代檔案信息資源挖掘的重要依據(jù)。在大數(shù)據(jù)時(shí)代下,信息眾多無(wú)法管理,嚴(yán)格把關(guān)檔案的收集渠道和收集范圍、規(guī)范網(wǎng)上數(shù)字檔案信息資源挖掘流程、建立大數(shù)據(jù)時(shí)代數(shù)字檔案信息資源收集原則及規(guī)范體系變得尤為重要。
因此,檔案的收集工作要做到全流程控制。檔案管理工作從前端進(jìn)行控制,將檔案管理融入到辦公系統(tǒng)、科技創(chuàng)新管理、網(wǎng)絡(luò)支撐等管理系統(tǒng)中,將文件、數(shù)據(jù)歸檔流程寫(xiě)入發(fā)文環(huán)節(jié)、驗(yàn)收環(huán)節(jié)等,抓好文檔的前端控制。
二、人才保障
大數(shù)據(jù)時(shí)代的到來(lái)使得大數(shù)據(jù)技術(shù)與相關(guān)產(chǎn)業(yè)得到空前發(fā)展,也使得整個(gè)社會(huì)對(duì)掌握數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、商業(yè)分析和自然語(yǔ)言處理等多學(xué)科知識(shí)背景的大數(shù)據(jù)人オ需求越來(lái)越旺盛。大數(shù)據(jù)時(shí)代的檔案工作不再是裝裝訂訂,檔案利用也不是簡(jiǎn)單查閱,檔案人員應(yīng)從數(shù)據(jù)的視角看待檔案,以大數(shù)據(jù)的思維推動(dòng)檔案館的管理和服務(wù)。
培養(yǎng)檔案館大數(shù)據(jù)人才關(guān)鍵在于培養(yǎng)和造就一支懂技術(shù)、懂管理的大數(shù)據(jù)檔案從業(yè)人員。數(shù)據(jù)研究和管理將成為下一代檔案從業(yè)人員的最重要的能力之一。大數(shù)據(jù)檔案從業(yè)人員要有較高的綜合素質(zhì)和能力,既要了解館藏檔案信息,還要了解案館的相關(guān)服務(wù)知識(shí),更要了解大數(shù)據(jù)技術(shù)的各個(gè)層面,能夠?yàn)橛脩籼峁┡c大數(shù)據(jù)時(shí)代技術(shù)條件相適應(yīng)的創(chuàng)新性、個(gè)性化、移動(dòng)化、智能化的服務(wù)。當(dāng)前,檔案館大數(shù)據(jù)人才
還相當(dāng)匱乏、短缺,為此,檔案館系統(tǒng)要跟上時(shí)代步伐,盡快更新理念、加大投入,加快培養(yǎng)與現(xiàn)代檔案館業(yè)務(wù)相適應(yīng)的大數(shù)據(jù)技術(shù)人才和服務(wù)管理人才??梢越梃b一些高校與企業(yè)聯(lián)合開(kāi)展的大數(shù)據(jù)教育模式,如北京航空航天大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院與百度、淘寶、騰訊等企業(yè)合作,聯(lián)合創(chuàng)辦了國(guó)內(nèi)首個(gè)大數(shù)據(jù)專業(yè)工程碩士培養(yǎng)項(xiàng)目,檔案館系統(tǒng)也可以采用這種聯(lián)合培養(yǎng)模式加快大數(shù)據(jù)人才培養(yǎng)。
三、技術(shù)保障
大數(shù)據(jù)時(shí)代,檔案館的核心競(jìng)爭(zhēng)力取決于其占有數(shù)據(jù)的規(guī)模、活性及對(duì)數(shù)據(jù)分析挖掘、運(yùn)用的能力。檔案部門(mén)要緊跟大數(shù)據(jù)時(shí)代信息技術(shù)發(fā)展,密切關(guān)注流處理、并行性、摘要索引和可視化等大數(shù)據(jù)應(yīng)用理論研究,在檔案工作中研究引進(jìn)并應(yīng)用大數(shù)據(jù)數(shù)據(jù)庫(kù)管理、數(shù)據(jù)模型構(gòu)建、數(shù)據(jù)分析、數(shù)據(jù)挖掘、云計(jì)算等技術(shù)和計(jì)算機(jī)軟硬件設(shè)備設(shè)施,構(gòu)建檔案工作的大數(shù)據(jù)管理技術(shù)能力進(jìn)而推動(dòng)檔案工作向技術(shù)化進(jìn)行轉(zhuǎn)變。
在大數(shù)據(jù)檔案館建設(shè)進(jìn)程中,大數(shù)據(jù)規(guī)模龐大、半結(jié)構(gòu)化數(shù)據(jù)比重日益加大,傳統(tǒng)的定性、定量分析已遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)分析的需求,這也對(duì)檔案館大數(shù)據(jù)技術(shù)應(yīng)用水平提出了新的要求。目前,檔案館在數(shù)據(jù)采集、存儲(chǔ)、分析及應(yīng)用的各個(gè)層面,已有相對(duì)比較成熟的開(kāi)源的大數(shù)據(jù)技術(shù)( Hadoop)可供選擇。
一方面, Hadoop是大數(shù)據(jù)存儲(chǔ)和管理中極具獨(dú)特優(yōu)勢(shì)的大數(shù)據(jù)管理系統(tǒng),可以為用戶面臨數(shù)據(jù)規(guī)模急劇膨脹、對(duì)系統(tǒng)可靠性和實(shí)用性要求極高的應(yīng)用提供良好的解決方案。
另一方面,數(shù)據(jù)挖掘技術(shù)通過(guò)利用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別等技術(shù),可以從大量的、還有噪聲的、多元異構(gòu)的實(shí)際數(shù)據(jù)中提取其中隱含的、潛在的價(jià)值信息。今后,在大數(shù)據(jù)檔案館建設(shè)中,要積極引進(jìn)新興大數(shù)據(jù)技術(shù),借鑒各類(lèi)開(kāi)源的大數(shù)據(jù)技術(shù),自主開(kāi)發(fā)案館大數(shù)據(jù)移動(dòng)應(yīng)用技術(shù),破解大數(shù)據(jù)檔案館建設(shè)的技術(shù)瓶頸。
四、資金保障
自《全國(guó)檔案信息化建設(shè)實(shí)施綱要》實(shí)施以來(lái),柲案館的信息資源總量增長(zhǎng)迅速,已初具大數(shù)據(jù)特征。雖然目前單個(gè)檔案館數(shù)據(jù)資源總量達(dá)到PB級(jí)的還不多,但各檔案館檔案資源總和則堪稱海量。據(jù)統(tǒng)計(jì),2008年,全國(guó)各級(jí)國(guó)家檔案館共保存檔案1.93億卷,較上年增加1709萬(wàn)卷,増幅達(dá)10%,而到2011年,各級(jí)國(guó)家檔案館館藏已達(dá)3.3億卷,到2020年,各級(jí)國(guó)家檔案館館藏將達(dá)到6億多卷。隨著數(shù)字案館建設(shè)的不斷開(kāi)展及資源整合的實(shí)現(xiàn),這些海量資源將形成一個(gè)巨大的檔案資源庫(kù)。
面對(duì)如此巨量的檔案信息資源,檔案管理機(jī)構(gòu)現(xiàn)有的存儲(chǔ)設(shè)備不足以有效和完整地存儲(chǔ)檔案數(shù)據(jù),即使使用云盤(pán)也無(wú)法解決這個(gè)難題。因?yàn)榇髷?shù)據(jù)系統(tǒng)需要分析所有的相關(guān)數(shù)據(jù),然后根據(jù)相應(yīng)的算法提取出重要的信息。把TB級(jí)的數(shù)據(jù)上傳到云盤(pán)需要大量的時(shí)間,而且這些數(shù)據(jù)又是在快速的變化,所以無(wú)法保證上傳到云盤(pán)數(shù)據(jù)的實(shí)時(shí)性。
因此,檔案管理機(jī)構(gòu)需要資金購(gòu)買(mǎi)與大數(shù)據(jù)時(shí)代相適應(yīng)并且安全的存儲(chǔ)設(shè)備來(lái)保存這些檔案信息資源。同時(shí),云計(jì)算的分布式性質(zhì)對(duì)于大數(shù)據(jù)的分析也存在問(wèn)題。大數(shù)據(jù)在處理數(shù)據(jù)時(shí)需要把數(shù)據(jù)從存儲(chǔ)點(diǎn)傳輸?shù)教幚睃c(diǎn),如果數(shù)據(jù)流量大會(huì)造成數(shù)據(jù)堵塞影響處理速度。所以,購(gòu)買(mǎi)具備高速信息傳輸及處理能力的檔案存儲(chǔ)設(shè)備也十分必要。
上面只簡(jiǎn)單列舉了硬件方面的資金問(wèn)題,還有諸如資源的建設(shè)、新技術(shù)的引進(jìn)、人才的培養(yǎng),個(gè)性化的服務(wù)等等問(wèn)題,都需要大量可持續(xù)資金的支持。必須加大資金投入,通過(guò)引進(jìn)現(xiàn)代化技術(shù)和相應(yīng)設(shè)備來(lái)實(shí)現(xiàn)檔案管理的信息化與現(xiàn)代化。
五、安全保障
檔案館歷來(lái)一直注重保護(hù)隱私和國(guó)家機(jī)密檔案,在小數(shù)據(jù)時(shí)代面臨的威脅較小,也較容易應(yīng)對(duì)。但在大數(shù)據(jù)時(shí)代,雖然檔案工作位勢(shì)和聲譽(yù)會(huì)得到提升,但一些隱私信息也將無(wú)處遁形,數(shù)據(jù)開(kāi)放、數(shù)據(jù)共享是其應(yīng)有之義,個(gè)人隱私保護(hù)數(shù)據(jù)安全問(wèn)題成為大數(shù)據(jù)檔案館面臨的緊迫而突出的挑戰(zhàn)。
大數(shù)據(jù)時(shí)代下檔案部門(mén)除了建立傳統(tǒng)的反黑客、反病毒、防盜竊等信息安全保護(hù)技術(shù),抵御外來(lái)入侵者的威脅外,還需要特別加強(qiáng)數(shù)據(jù)信息安全管理,建立全面數(shù)據(jù)信息安全保障體系。
面對(duì)這一挑戰(zhàn),要做好以下工作切實(shí)保護(hù)數(shù)據(jù)安全。
一方面,檔案館作為數(shù)據(jù)的守護(hù)者,要提高專業(yè)素養(yǎng)和職業(yè)道德,保護(hù)國(guó)家機(jī)密和其他信息數(shù)據(jù)安全,嚴(yán)格控制其傳播或開(kāi)放范圍,堅(jiān)定地保護(hù)個(gè)人隱私、嚴(yán)守情報(bào)機(jī)密、維護(hù)國(guó)家信息安全,杜絕信息安全風(fēng)險(xiǎn)。
另一方面,要引進(jìn)或研發(fā)大數(shù)據(jù)安全技術(shù),防范他人惡意入侵盜取或破壞數(shù)據(jù),規(guī)范數(shù)據(jù)開(kāi)放流程和接口,保障檔案館大數(shù)據(jù)資源的安全使用。另一方面,政府部門(mén)要特別加強(qiáng)數(shù)據(jù)信息安全管理,研究建立數(shù)據(jù)信息安全保障體系,通過(guò)立法來(lái)保護(hù)大數(shù)據(jù)的信息安全,嚴(yán)厲懲罰數(shù)據(jù)的入侵者、濫用者和破壞者,造成危害后果嚴(yán)重的甚至可以追究刑事責(zé)任。
檔案館大數(shù)據(jù)安全保障本身也是一個(gè)系統(tǒng)工程,需要多方共同努力,不僅需要檔案館系統(tǒng)的努力,也需要數(shù)據(jù)安全技術(shù)供應(yīng)商以及用戶自身的支持,同時(shí)還需要政府在法律法規(guī)等制度建設(shè)上的支撐。