在信息化時(shí)代里,作為人們獲取信息、汲取知識(shí)的素材和源泉,數(shù)據(jù)已經(jīng)成為社會(huì)生產(chǎn)和生活既重要又具體的資源。當(dāng)然,要讓數(shù)據(jù)全面、充分地發(fā)揮出其價(jià)值,一個(gè)看似簡(jiǎn)單卻必要的前提是:數(shù)據(jù)需要被妥善保管在可靠、可信、可管理的平臺(tái)中,能夠被隨時(shí)隨地且方便地存取。
可以說(shuō),存儲(chǔ)是利用數(shù)據(jù)的基礎(chǔ),是數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)價(jià)值等實(shí)現(xiàn)的前提,數(shù)據(jù)存儲(chǔ)的重要性不言而喻。然而,數(shù)據(jù)作為當(dāng)前社會(huì)最寶貴的資源之一,如何做好各類數(shù)據(jù)的長(zhǎng)期存儲(chǔ)管理,依然是個(gè)有待解決的問(wèn)題。
一方面,伴隨著各類信息化應(yīng)用的迅猛發(fā)展,數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng),大量數(shù)據(jù)吞吐和運(yùn)算,帶來(lái)不可忽視的能耗問(wèn)題;另一方面,由于不同主體對(duì)信息化的不同需求,各類數(shù)據(jù)依然被封存在不同的系統(tǒng)中,孤島林立,不可避免地帶來(lái)資源的浪費(fèi)。
當(dāng)前,我們已身處于存儲(chǔ)變革的風(fēng)暴眼中,加快推動(dòng)數(shù)據(jù)資源共享和開發(fā)應(yīng)用,更好地存儲(chǔ)、管理和使用數(shù)據(jù)是數(shù)據(jù)存儲(chǔ)的當(dāng)務(wù)之急。
存儲(chǔ)技術(shù)日新月異
不可否認(rèn),人類在過(guò)去200年里取得的存儲(chǔ)技術(shù)的進(jìn)步比在之前2000年里取得的還要多。
1932年,奧地利出現(xiàn)了早期計(jì)算機(jī)的磁鼓內(nèi)存。一個(gè)三維模擬的磁鼓存儲(chǔ)器形成一個(gè)陣列,相當(dāng)于一個(gè)硬盤,由此而生的磁滾筒存儲(chǔ)成功地運(yùn)用在IBM 650超級(jí)計(jì)算機(jī)中,并于1953年發(fā)布。IBM 650長(zhǎng)為16英寸,直徑4英寸,鼓旋轉(zhuǎn)速度為750千赫,可以存儲(chǔ)高達(dá)8.5 KB的數(shù)據(jù)。
磁鼓存儲(chǔ)器在1950至60年代用作計(jì)算機(jī)的主要外存儲(chǔ)器。它利用電磁感應(yīng)原理進(jìn)行數(shù)字信息的記錄與再生,由作為信息載體的磁鼓筒、磁頭,讀寫及譯碼電路和控制電路等主要部分組成。不過(guò),磁鼓是利用鋁鼓筒表面涂覆的磁性材料來(lái)存儲(chǔ)數(shù)據(jù)的。鼓筒旋轉(zhuǎn)速度很高,因此存取速度快。它采用飽和磁記錄,從固定式磁頭發(fā)展到浮動(dòng)式磁頭,從采用磁膠發(fā)展到采用電鍍的連續(xù)磁介質(zhì)。
這些,都為后來(lái)的存儲(chǔ)器打下了基礎(chǔ)。1956年,世界上的第一款硬盤終于由IBM設(shè)計(jì)完成。這款名為IBM350 RAMAC的硬盤產(chǎn)品體積十分龐大,但容量?jī)H為5MB,總共使用了50張24英寸的盤片。
1973年,IBM公司制造出第一臺(tái)采用“溫徹斯特”技術(shù)的硬盤。自此,硬盤技術(shù)的發(fā)展有了正確的結(jié)構(gòu)基礎(chǔ)。它的容量為60MB,轉(zhuǎn)速略低于3000RPM,采用4張14英寸盤片,存儲(chǔ)密度為每平方英寸1.7MB。1991年,IBM生產(chǎn)的3.5英寸的硬盤使用了MR磁頭,使硬盤的容量首次達(dá)到了1GB,硬盤容量由此進(jìn)入了GB數(shù)量級(jí)的發(fā)展新階段。
數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)的引入改變了我們生產(chǎn)、操作和存儲(chǔ)信息的方式。顯然,相比起書面存儲(chǔ),數(shù)字存儲(chǔ)有更低的成本和更高的效益。當(dāng)前,數(shù)字信息已經(jīng)滲透到我們生活和社會(huì)的方方面面,以至于近些年信息生產(chǎn)量的增長(zhǎng)似乎勢(shì)不可擋。數(shù)字信息的膨脹帶了巨大的存儲(chǔ)需求,也推動(dòng)了存儲(chǔ)產(chǎn)業(yè)進(jìn)行自發(fā)的更新。
一方面,新的存儲(chǔ)產(chǎn)品形態(tài)和技術(shù)架構(gòu)開始普及。一是閃存和固態(tài)硬盤(SSD)價(jià)格持續(xù)降低,成為更多人的選擇;二是存儲(chǔ)技術(shù)也在快速發(fā)展,新的接口、協(xié)議、架構(gòu)開始出現(xiàn),使存儲(chǔ)設(shè)備的帶寬、性能和存儲(chǔ)容量得到極大提升,為更高性能的服務(wù)器設(shè)計(jì)和更大規(guī)模的數(shù)據(jù)中心應(yīng)用做好了準(zhǔn)備。
另一方面,新的存儲(chǔ)系統(tǒng)以及建立在其上的各種存儲(chǔ)架構(gòu)理念開始出現(xiàn)。除了傳統(tǒng)的存儲(chǔ)陣列之外,全閃存陣列、混合存儲(chǔ)等存儲(chǔ)系統(tǒng)開始涌現(xiàn),從不同的角度滿足大規(guī)模存儲(chǔ)和上層應(yīng)用對(duì)于數(shù)據(jù)的快速讀取需要;融合存儲(chǔ)、超融合存儲(chǔ)、軟件定義存儲(chǔ)等各種理念,各自都能看到許多廠商的背后支持。
此外,在軟件技術(shù)和硬件發(fā)展的推動(dòng)下,云計(jì)算技術(shù)和產(chǎn)業(yè)日趨成熟,給包括存儲(chǔ)在內(nèi)的傳統(tǒng)硬件產(chǎn)業(yè)帶來(lái)巨大的沖擊??偟膩?lái)說(shuō),存儲(chǔ)技術(shù)的發(fā)展支撐著日益擴(kuò)大的數(shù)據(jù)應(yīng)用的需求,使數(shù)據(jù)不斷升華為信息和知識(shí),并再一次被重新投入到新一輪的各類社會(huì)經(jīng)濟(jì)活動(dòng)中,創(chuàng)造出更大的價(jià)值。
能耗問(wèn)題和數(shù)據(jù)孤島
數(shù)據(jù)存儲(chǔ)的重要性不言而喻。然而,數(shù)據(jù)作為當(dāng)前社會(huì)最寶貴的資源之一,在數(shù)據(jù)存儲(chǔ)技術(shù)不斷更新的背景下,卻依然面臨各類數(shù)據(jù)的長(zhǎng)期存儲(chǔ)管理不善的問(wèn)題——在大量數(shù)據(jù)吞吐和運(yùn)算帶來(lái)不可忽視的能耗問(wèn)題的另一邊,數(shù)據(jù)孤島問(wèn)題突出,資源浪費(fèi)難以避免。
在2進(jìn)制代碼中,數(shù)字信息以1和0的形式存儲(chǔ),也稱為比特。8比特構(gòu)成1字節(jié)。然而,全世界在2018年創(chuàng)建、捕獲、復(fù)制和消耗的數(shù)據(jù)總量就已經(jīng)達(dá)到33澤字節(jié)(ZB),而1澤字節(jié)整整有8x1021比特。2020年,這一數(shù)字增長(zhǎng)到59 ZB,預(yù)計(jì)到2025年將達(dá)到令人難以想象的175 ZB。
更直觀地說(shuō),假設(shè)每一個(gè)比特都是一枚硬幣,大約3毫米厚。由一摞硬幣組成的1ZB將有2550光年高,可以到達(dá)最近的恒星系統(tǒng)半人馬座阿爾法星600次。目前,我們每年產(chǎn)生的數(shù)據(jù)量是這個(gè)數(shù)字的59倍,復(fù)合增長(zhǎng)率估計(jì)在61%左右。
為滿足日益增長(zhǎng)的數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)需求,每?jī)赡昃蜁?huì)有約100個(gè)新的超大規(guī)模數(shù)據(jù)中心建成。根據(jù)工信部印發(fā)的《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》,到2023年底,全國(guó)數(shù)據(jù)中心機(jī)架規(guī)模年均增速保持在20%左右,總算力超過(guò)200EFLOPS,高端算力占比達(dá)到10%。
大量數(shù)據(jù)吞吐和運(yùn)算,不可避免地增加用電量,這將排放大量二氧化碳,以及二氧化硫、氮氧化物等主要環(huán)境污染物。2018年,中國(guó)數(shù)據(jù)中心總用電量為1608億千瓦時(shí),占全社會(huì)用電量2.35%,用電相關(guān)排放量為9855萬(wàn)噸二氧化碳,成為名副其實(shí)的“耗能大戶”。按照當(dāng)前速度發(fā)展,預(yù)計(jì)到2023年,數(shù)據(jù)中心能耗將相當(dāng)于2.6個(gè)三峽電站的發(fā)電量,碳排放量將達(dá)1.63億噸。
面對(duì)不可忽視的能耗問(wèn)題,建設(shè)一體化大數(shù)據(jù)中心、破解高能耗難題,找準(zhǔn)破局關(guān)鍵點(diǎn)尤為重要。然而,事實(shí)是,由于不同主體對(duì)信息化的不同需求,各類數(shù)據(jù)依然被封存在不同的系統(tǒng)中,孤島林立,不可避免地造成了資源的浪費(fèi)。
數(shù)字信息通常存儲(chǔ)在三種地方:一是全球各地的終端,包括所有物聯(lián)網(wǎng)設(shè)備、個(gè)人電腦、智能手機(jī)和所有其他信息存儲(chǔ)設(shè)備。二是邊緣位置,包括基礎(chǔ)設(shè)施如手機(jī)發(fā)射塔和機(jī)構(gòu)服務(wù)器,以及服務(wù)處如大學(xué)、政府辦公室、銀行和工廠。三是存儲(chǔ)大部分?jǐn)?shù)據(jù)的核心位置——傳統(tǒng)數(shù)據(jù)服務(wù)器和云數(shù)據(jù)中心。
然而,在設(shè)計(jì)信息系統(tǒng)架構(gòu)時(shí),由于沒有一套參照的標(biāo)準(zhǔn)。因此,不同的主體的不同的選擇,使得各類數(shù)據(jù)依然被封存在不同的系統(tǒng)中。以政府為例,根據(jù)政府采購(gòu)網(wǎng)的采購(gòu)公告,僅過(guò)去半年就有11431條相關(guān)采購(gòu),各省的各種單位都有,采購(gòu)金額從幾十萬(wàn)到幾百萬(wàn)不等,比如:
中國(guó)教育圖書進(jìn)出口有限公司私有云存儲(chǔ)擴(kuò)容采購(gòu)項(xiàng)目230萬(wàn);重慶大學(xué)全閃存儲(chǔ)及服務(wù)器采購(gòu)項(xiàng)目243萬(wàn);中央廣播電視總臺(tái)私有云存儲(chǔ)設(shè)備全包代維項(xiàng)目150萬(wàn);廣州中山大學(xué)第一附屬醫(yī)院數(shù)據(jù)中心服務(wù)器與存儲(chǔ)擴(kuò)容升級(jí)項(xiàng)目601萬(wàn);廣東工貿(mào)職業(yè)技術(shù)學(xué)院存儲(chǔ)容量擴(kuò)容項(xiàng)目30萬(wàn)等等。
這帶來(lái)的后果,首先是每個(gè)單位都有自己的機(jī)房、服務(wù)器和管理員,造成管理成本上的浪費(fèi);再就是當(dāng)每個(gè)單位都使用自己的存儲(chǔ)格式、數(shù)據(jù)庫(kù)設(shè)計(jì)、操作軟件,將不利于數(shù)據(jù)通用和對(duì)外開放,而大量數(shù)據(jù)吞吐和運(yùn)算,又不可避免地增加用電量,側(cè)面帶來(lái)能耗上的浪費(fèi)。
政府尚且如此,更不用說(shuō)以商業(yè)為目的企業(yè)。因?yàn)槠髽I(yè)在不同發(fā)展時(shí)段對(duì)信息化有著不同需求,在搭建基礎(chǔ)設(shè)施與軟件系統(tǒng)時(shí)本就有側(cè)重。再加上有限的預(yù)算與部署難度,使得很多企業(yè)信息化系統(tǒng)之間都互不相通。
往往每個(gè)事業(yè)部都有各自存儲(chǔ)、各自定義的數(shù)據(jù)。各部門數(shù)據(jù)就像一個(gè)個(gè)孤島一樣無(wú)法和企業(yè)內(nèi)部其他數(shù)據(jù)進(jìn)行連接互動(dòng)。存在數(shù)據(jù)孤島的企業(yè),所有數(shù)據(jù)被封存在各系統(tǒng)中,讓完整的業(yè)務(wù)鏈上孤島林立,信息的共享、反饋難。數(shù)據(jù)之間缺乏關(guān)聯(lián)性,數(shù)據(jù)庫(kù)彼此無(wú)法兼容。
合理規(guī)劃打破孤島
如何解決能耗問(wèn)題和數(shù)據(jù)孤島,更好地存儲(chǔ)、管理和使用數(shù)據(jù)是數(shù)據(jù)存儲(chǔ)的當(dāng)務(wù)之急。
顯然,社會(huì)對(duì)數(shù)據(jù)存儲(chǔ)和使用的認(rèn)識(shí)有待提高。當(dāng)前,隨著全球云計(jì)算產(chǎn)業(yè)的深刻變化,其產(chǎn)生了越來(lái)越多的新型數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)一方面依靠存儲(chǔ)技術(shù)來(lái)存儲(chǔ)海量數(shù)據(jù),另一方面又給存儲(chǔ)服務(wù)提出了新的訴求,影響著它的發(fā)展。但是,全社會(huì)對(duì)數(shù)據(jù)存儲(chǔ)的認(rèn)識(shí)并未及時(shí)更新。比如,現(xiàn)階段政府部門雖然大力倡導(dǎo)大數(shù)據(jù)發(fā)展戰(zhàn)略,但是許多數(shù)據(jù)存儲(chǔ)仍然沿襲傳統(tǒng)分析流程和方法。
一方面,從能耗角度來(lái)看,數(shù)據(jù)存儲(chǔ)需要合理規(guī)劃布局,統(tǒng)籌集群發(fā)展。供需失衡、能源布局失配,是我國(guó)數(shù)據(jù)中心的突出問(wèn)題。這需要全國(guó)大數(shù)據(jù)中心的一體化布局,合理應(yīng)用我國(guó)能源分布特點(diǎn),結(jié)合當(dāng)?shù)啬茉礂l件。目前,我國(guó)數(shù)據(jù)中心存量機(jī)柜數(shù)量機(jī)柜總數(shù)約360余萬(wàn)架,其中熱數(shù)據(jù)集聚在京津冀、長(zhǎng)三角、珠三角三大經(jīng)濟(jì)區(qū),冷數(shù)據(jù)集聚于西部資源富足地區(qū)。
此外,還應(yīng)進(jìn)一步挖掘數(shù)據(jù)中心的節(jié)能減排潛力,提升能源利用效率、降低能耗;加大對(duì)基礎(chǔ)設(shè)施的整合調(diào)度,推動(dòng)老舊基礎(chǔ)設(shè)施轉(zhuǎn)型升級(jí),靈活運(yùn)用高密度集成高效電子信息設(shè)備、液冷等節(jié)能技術(shù),及可再生能源。
另一方面,對(duì)于數(shù)據(jù)分散的現(xiàn)狀而言,“各打各的鑼、各唱各的戲”是導(dǎo)致政府部門信息孤島、重復(fù)建設(shè)問(wèn)題的重要原因。目前,中央層面建立了國(guó)家電子政務(wù)統(tǒng)籌協(xié)調(diào)機(jī)制,厘清了中央有關(guān)部門在電子政務(wù)建設(shè)、管理、運(yùn)行和標(biāo)準(zhǔn)化方面的職能和職責(zé),避免了部門之間職責(zé)交叉重疊。
然而,由于國(guó)家電子政務(wù)統(tǒng)籌協(xié)調(diào)工作職能多次調(diào)整,各地?cái)?shù)字政府建設(shè)水平參差不齊,使得地方數(shù)字政府建設(shè)統(tǒng)籌工作的情況依然復(fù)雜,各地做法也不盡相同。從整體來(lái)看,地方統(tǒng)籌協(xié)調(diào)不暢,網(wǎng)絡(luò)、平臺(tái)、應(yīng)用等資源建設(shè)管理缺乏有效配合的現(xiàn)象仍舊客觀存在。因此,想要打破政府部門的“孤島”現(xiàn)象,還需要持續(xù)的深入的調(diào)整和改革。
在企業(yè)方面,失去對(duì)數(shù)據(jù)的控制權(quán)是企業(yè)對(duì)開放數(shù)據(jù)的最大擔(dān)憂。基于此,隱私計(jì)算作為一種由兩個(gè)或多個(gè)參與方聯(lián)合計(jì)算的技術(shù)和系統(tǒng),參與方可以在不泄露各自數(shù)據(jù)的前提下通過(guò)協(xié)作對(duì)他們的數(shù)據(jù)進(jìn)行聯(lián)合機(jī)器學(xué)習(xí)和聯(lián)合分析。
隱私計(jì)算的參與方既可以是同一機(jī)構(gòu)的不同部門,也可以是不同的機(jī)構(gòu)。在隱私計(jì)算框架下,參與方的數(shù)據(jù)不出本地,在保護(hù)數(shù)據(jù)安全的同時(shí)實(shí)現(xiàn)多源數(shù)據(jù)跨域合作,可以破解數(shù)據(jù)保護(hù)與融合應(yīng)用難題。