DNA存儲(chǔ)技術(shù),可持續(xù)存儲(chǔ)的未來(lái)?

劉玉豪
當(dāng)人類(lèi)進(jìn)入數(shù)據(jù)爆發(fā)式增長(zhǎng)時(shí)代,DNA存儲(chǔ)技術(shù)作為未來(lái)潛在的無(wú)限存儲(chǔ)方式,或?qū)⒋蜷_(kāi)數(shù)據(jù)存儲(chǔ)的新紀(jì)元。

移動(dòng)互聯(lián)網(wǎng)經(jīng)過(guò)多年的發(fā)展,全球覆蓋人群已經(jīng)突破40億大關(guān),聊天軟件、短視頻、網(wǎng)購(gòu)、搜索引擎等互聯(lián)網(wǎng)應(yīng)用服務(wù)每天產(chǎn)生著大量數(shù)據(jù)。隨著5G時(shí)代來(lái)臨,傳感器以及各種數(shù)字化終端設(shè)備的普及將會(huì)造就一個(gè)萬(wàn)物互聯(lián)的世界,同時(shí)意味著新一輪數(shù)字洪流也將洶涌而來(lái)。

數(shù)據(jù)爆炸式增長(zhǎng)時(shí)代,新興存儲(chǔ)技術(shù)迎來(lái)發(fā)展機(jī)遇

根據(jù)國(guó)際機(jī)構(gòu)IDC預(yù)測(cè),全球數(shù)據(jù)產(chǎn)生量將從2018年的33ZB(澤字節(jié))快速增長(zhǎng)至2025年的175ZB,1ZB約相當(dāng)于10億TB(太字節(jié))的數(shù)據(jù)量存儲(chǔ),屆時(shí)不僅將會(huì)對(duì)全球數(shù)據(jù)中心的建設(shè)產(chǎn)生影響,同時(shí)也會(huì)對(duì)數(shù)據(jù)的存儲(chǔ)發(fā)起挑戰(zhàn)。

按目前最大的單個(gè)硬盤(pán)數(shù)據(jù)存儲(chǔ)量換算,全部存儲(chǔ)175ZB數(shù)據(jù)至少需要約120億個(gè)硬盤(pán)。根據(jù)IDEMA(國(guó)際磁盤(pán)驅(qū)動(dòng)器設(shè)備制造商協(xié)會(huì))研究報(bào)告顯示,2018年全球固態(tài)硬盤(pán)出貨量約為1.7億片。

以目前數(shù)據(jù)的生成速度來(lái)看,到2040年全球?qū)⒅辽傩枰偃f(wàn)噸的硅基芯片才能存儲(chǔ)當(dāng)年產(chǎn)生的數(shù)據(jù),不到100年的時(shí)間內(nèi),現(xiàn)在所用的磁存儲(chǔ)系統(tǒng)或光學(xué)存儲(chǔ)系統(tǒng)就會(huì)達(dá)到容量上限。

因此,未來(lái)短期內(nèi)存儲(chǔ)硬盤(pán)將迎來(lái)快速增長(zhǎng)需求,但從長(zhǎng)遠(yuǎn)來(lái)說(shuō),全球數(shù)據(jù)存儲(chǔ)將面臨著嚴(yán)峻的考驗(yàn),這就不得不造就可持續(xù)使用的存儲(chǔ)介質(zhì)和全新的存儲(chǔ)替代方案。

日前,億歐智庫(kù)最新發(fā)布了《2020技術(shù)趨勢(shì)報(bào)告》,通過(guò)技術(shù)篩選以及關(guān)鍵性指標(biāo)測(cè)評(píng),將具有技術(shù)承接性、資源持續(xù)性和顛覆革新性的DNA存儲(chǔ)技術(shù)列為2020年之后的重點(diǎn)發(fā)展趨勢(shì),體積小、獲取方便,擁有極高密度的DNA存儲(chǔ)或?qū)⒊蔀閿?shù)據(jù)儲(chǔ)發(fā)展的未來(lái)。

DNA存儲(chǔ)優(yōu)勢(shì)初現(xiàn),引領(lǐng)企業(yè)爭(zhēng)相角逐

DNA是磷酸基團(tuán)、多糖和四種堿基構(gòu)成的雙螺旋結(jié)構(gòu)大分子,四種基本堿基單元為A、T、C、G,通過(guò)堿基兩兩配對(duì),構(gòu)成DNA雙鏈。DNA是生物信息保存最久的存在,也是已知最古老的信息存儲(chǔ)系統(tǒng),DNA的半衰期約為521年,即每過(guò)521年,構(gòu)成DNA骨架的核苷酸間的化學(xué)鍵才會(huì)有一半斷裂。

DNA存儲(chǔ)是利用4個(gè)堿基,以二進(jìn)制代碼形式對(duì)數(shù)據(jù)文件進(jìn)行信息編碼,按堿基序列順序通過(guò)人工合成技術(shù)形成長(zhǎng)鏈DNA來(lái)保存數(shù)據(jù)。

同時(shí),根據(jù)最新的研究進(jìn)展發(fā)現(xiàn),每克DNA的數(shù)據(jù)存儲(chǔ)密度已經(jīng)達(dá)到215PB(約22萬(wàn)TB),理論上最大可以達(dá)到455EB(約4.7億TB),而且DNA作為存儲(chǔ)介質(zhì),常溫條件下的儲(chǔ)存半衰期可以達(dá)到數(shù)千年之久。因此,存儲(chǔ)密度大、能耗低、存儲(chǔ)周期長(zhǎng)的DNA存儲(chǔ)便逐漸成為全球存儲(chǔ)技術(shù)的研究熱點(diǎn)。

科技巨頭微軟公司是最早研究DNA存儲(chǔ)技術(shù)的公司之一,微軟一直以來(lái)都堅(jiān)信DNA是長(zhǎng)期存儲(chǔ)數(shù)據(jù)的最佳介質(zhì)。2016年時(shí),微軟便宣布從一家舊金山生物科技公司購(gòu)買(mǎi)1000萬(wàn)個(gè) DNA長(zhǎng)寡核苷酸分子,用以探索 DNA 分子存儲(chǔ)數(shù)據(jù)的方法。2019年3月,微軟公司和華盛頓大學(xué)的研究人員已經(jīng)開(kāi)發(fā)出一個(gè)完全自動(dòng)化的系統(tǒng),用于編寫(xiě)、存儲(chǔ)和讀取DNA編碼的數(shù)據(jù)。

2019年6月,初創(chuàng)公司Catalog Technologies宣布已經(jīng)將16GB的英文維基百科數(shù)據(jù)存儲(chǔ)在DNA鏈上,使DNA存儲(chǔ)技術(shù)對(duì)于簡(jiǎn)單數(shù)據(jù)存檔需求用戶來(lái)說(shuō)成為現(xiàn)實(shí)。除此之外,包括Evonetix、Molecular Assemblies、DNA Script等初創(chuàng)企業(yè)也在加速DNA存儲(chǔ)研發(fā)的探索。

核心技術(shù)原理探索,方法與性能并進(jìn)

從技術(shù)原理來(lái)看,完整的DNA存儲(chǔ)包括編碼寫(xiě)入部分、存放部分和解碼讀取部分。編碼寫(xiě)入由DNA編碼和人工合成DNA組成,解碼讀取部分即DNA測(cè)序解碼讀取,而想要實(shí)現(xiàn)成熟的DNA存儲(chǔ)應(yīng)用,DNA編碼技術(shù)和讀取技術(shù)的發(fā)展至關(guān)重要。

DNA編碼過(guò)程包含壓縮、糾錯(cuò)和轉(zhuǎn)換三個(gè)部分。其中壓縮方法經(jīng)過(guò)長(zhǎng)期不斷的發(fā)展,形成了以哈夫曼編碼、噴泉碼為代表的多種壓縮方法;糾錯(cuò)方面,漢明碼糾錯(cuò)、RS碼糾錯(cuò)等糾錯(cuò)方式的出現(xiàn)提高了數(shù)據(jù)編碼和讀取的準(zhǔn)確性;DNA編碼轉(zhuǎn)換由最初的二進(jìn)制模型發(fā)展演變成三進(jìn)制和四進(jìn)制共存的三種常見(jiàn)轉(zhuǎn)換模型。

2012年,美國(guó)哈佛大學(xué)教授Church采用二進(jìn)制進(jìn)行轉(zhuǎn)換,將659kB信息存入DNA中,使DNA存儲(chǔ)數(shù)據(jù)容量的紀(jì)錄提高了1000倍,此后,DNA存儲(chǔ)技術(shù)便進(jìn)入了新的快速發(fā)展期。2013年,Goldman等人利用哈夫曼編碼、四倍重疊法、三進(jìn)制編碼等,將739kB的內(nèi)容存入DNA中;2017年,Erlich等人基于噴泉碼壓縮技術(shù),將6個(gè)文件存入了DNA中,該技術(shù)只引入了20.71%的冗余,大大降低了DNA存儲(chǔ)的成本。

2018年,愛(ài)爾蘭沃特福德理工學(xué)院(WIT)研究人員開(kāi)發(fā)出一種新型DNA存儲(chǔ)方法,可在1克大腸桿菌DNA中存儲(chǔ)1ZB的數(shù)據(jù)。經(jīng)過(guò)多年的研發(fā)積累,DNA存儲(chǔ)的方法形式與性能不斷得到進(jìn)步提升。

DNA存儲(chǔ)價(jià)值曙光初現(xiàn),應(yīng)用挑戰(zhàn)仍有待突破

目前,DNA存儲(chǔ)數(shù)據(jù)讀取主要通過(guò)傳統(tǒng)測(cè)序法實(shí)現(xiàn),微軟研究院與華盛頓大學(xué)研究人員測(cè)試了一種隨機(jī)讀取數(shù)據(jù)的方案,但是這種方案定位依然不夠精確,而且效率很低。除此之外,通過(guò)納米孔進(jìn)行測(cè)序的數(shù)據(jù)讀取技術(shù)還處于研發(fā)階段,但作為新興的第四代測(cè)序技術(shù),納米孔測(cè)序讀取或許將成為讀取技術(shù)新的突破。

2019年12月,哥倫比亞大學(xué)聯(lián)合蘇黎世聯(lián)邦理工學(xué)院研究團(tuán)隊(duì)通過(guò)3D打印制作了一只兔子,并將這只兔子的三維結(jié)構(gòu)數(shù)據(jù)以雙鏈 DNA 結(jié)構(gòu)形式內(nèi)置在打印材料中,實(shí)現(xiàn)了其自身數(shù)據(jù)的DNA存儲(chǔ)和傳遞。這項(xiàng)研究的最大突破在于證實(shí)了萬(wàn)物皆可實(shí)現(xiàn) DNA 存儲(chǔ)的理論,且不受任何形狀限制,這也使得DNA存儲(chǔ)的商業(yè)價(jià)值曙光進(jìn)一步顯現(xiàn)。

從技術(shù)發(fā)展成熟度來(lái)看,DNA數(shù)據(jù)存儲(chǔ)還面臨著較大的技術(shù)挑戰(zhàn),主要集中體現(xiàn)在人工合成成本高、合成速度慢、數(shù)據(jù)讀取時(shí)間長(zhǎng)、準(zhǔn)確性低等方面。如目前DNA合成成本約為0.05-0.1美元一個(gè)堿基,合成存儲(chǔ)200MB的數(shù)據(jù)需要耗資上百萬(wàn)美元,時(shí)間花費(fèi)至少兩周左右。所以,如果可以使得DNA合成讀取成本通過(guò)技術(shù)發(fā)展大幅得到改善的話,DNA存儲(chǔ)的應(yīng)用將會(huì)非常可觀。

DNA存儲(chǔ)對(duì)于一些不常用卻需要長(zhǎng)期保存信息的應(yīng)用場(chǎng)景極為適用,如政府文件、病人臨床信息、研究數(shù)據(jù)、歷史檔案、視頻資料等。其次,DNA存儲(chǔ)作為一種全新的存儲(chǔ)方式,或?qū)⒊蔀檐娛骂I(lǐng)域、經(jīng)濟(jì)領(lǐng)域等特殊加密用途的數(shù)據(jù)存儲(chǔ)手段,并且在人工智能應(yīng)用前端及云存儲(chǔ)方面,也將發(fā)揮獨(dú)特的存儲(chǔ)優(yōu)勢(shì)。

雖然DNA擁有可持續(xù)獲取的天然優(yōu)勢(shì),但如何使得DNA存儲(chǔ)達(dá)到現(xiàn)有硬盤(pán)存儲(chǔ)系統(tǒng)的效率和便捷,實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的可持續(xù)發(fā)展和顛覆變革,還需大量的理論研究與技術(shù)探索。作為人類(lèi)未來(lái)的無(wú)限存儲(chǔ)方式,DNA存儲(chǔ)技術(shù)將會(huì)伴隨人類(lèi)的前進(jìn)腳步共同發(fā)展。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論