在如今這個(gè)經(jīng)受著大數(shù)據(jù)洗禮的時(shí)代下,弄清楚如何以低成本方式存儲(chǔ)數(shù)據(jù)已經(jīng)成為愈發(fā)重要的核心議題。其中最奇特的方案也許就是最佳答案所在:在DNA分子中存儲(chǔ)信息。
目前流行的長(zhǎng)效冷存儲(chǔ)方法可以追溯到上世紀(jì)五十年代,當(dāng)時(shí)人們會(huì)把數(shù)據(jù)寫(xiě)入至披薩餅大小的磁帶卷上。相比之下,DNA存儲(chǔ)可能成本更低、能效更高、持久性更強(qiáng)。研究表明,用鹽封存的DNA在室溫環(huán)境下可以穩(wěn)定保存幾十年,如果在數(shù)據(jù)中心的受控環(huán)境內(nèi)應(yīng)該可以存放更長(zhǎng)時(shí)間。另外,DNA本身不需要維護(hù)、存儲(chǔ)DNA內(nèi)的文件易于復(fù)制,而且存儲(chǔ)成本幾乎可以忽略不計(jì)。
更妙的是,DNA能夠在幾乎不可思議的袖珍空間內(nèi)存儲(chǔ)驚人的信息量。我們先來(lái)展望這樣的未來(lái):到2025年,人類(lèi)估計(jì)將掌握33澤字節(jié)(ZB)數(shù)據(jù)——即33后面加上21個(gè)0。DNA存儲(chǔ)能夠在一個(gè)乒乓球的體積下存儲(chǔ)全部這些信息,甚至還有不少富余空間。美國(guó)國(guó)會(huì)圖書(shū)館中一共7400萬(wàn)字節(jié)的信息完全可以塞進(jìn)一粒小小的芝麻中,即乒乓球體積的六千分之一。而只需要半顆芝麻,就能存儲(chǔ)Facebook上的所有數(shù)據(jù)。
聽(tīng)起來(lái)很科幻?并不會(huì)。DNA存儲(chǔ)技術(shù)當(dāng)下已經(jīng)存在,但要真正全面推行,研究人員還需要克服技術(shù)整合中的種種艱難阻礙。要完成這項(xiàng)意義重大的工作,洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的團(tuán)隊(duì)開(kāi)發(fā)出一種用于分子存儲(chǔ)的關(guān)鍵技術(shù),配套軟件能夠使用自適應(yīng)DNA存儲(chǔ)規(guī)范(ADS Codex)將數(shù)據(jù)文件由計(jì)算機(jī)中的二進(jìn)制形式轉(zhuǎn)譯為具有生物學(xué)意義的四字母代碼。
ADS Codex也是情報(bào)高級(jí)研究計(jì)劃署(IARPA)分子信息存儲(chǔ)(MIST)項(xiàng)目的關(guān)鍵組成部分。MIST希望為政府及各私營(yíng)部門(mén)的大數(shù)據(jù)操作提供成本更低、規(guī)模更大、持久性更強(qiáng)的存儲(chǔ)解決方案,目前的短期發(fā)展目標(biāo)是在24小時(shí)內(nèi)實(shí)現(xiàn)寫(xiě)入1 TB(1萬(wàn)億字節(jié))、讀取10 TB數(shù)據(jù)的性能,并且將成本控制在1000美元。
從計(jì)算機(jī)代碼到因素代碼
提起DNA,大多數(shù)人想到的首先是生命的藍(lán)圖——跟計(jì)算機(jī)扯不上半點(diǎn)關(guān)系。但DNA本身其實(shí)就是一條四字母編碼,用于傳遞關(guān)于生物體的各項(xiàng)信息。DNA分子由四種堿基或者核苷酸組成,每一種用一個(gè)字母標(biāo)記,分別為:腺嘌呤(A)、胸腺嘧啶(T)、鳥(niǎo)嘌呤(G)與胞嘧啶(C)。這些是所有DNA編碼的基礎(chǔ),指引著地球上一切生物的繁衍生長(zhǎng)。
DNA合成已經(jīng)是一項(xiàng)相當(dāng)成熟的技術(shù),目前被廣泛應(yīng)用于醫(yī)學(xué)、制藥、生物燃料開(kāi)發(fā)等領(lǐng)域。這項(xiàng)技術(shù)的實(shí)質(zhì),就是將堿基組織為由A、C、G、T的特定序列所指示的不同排列。這些堿基以相互纏繞的扭曲鏈(即雙螺旋)結(jié)構(gòu)形成分子。而字母本身的序列也由此建立起編碼系統(tǒng),可用于指導(dǎo)生物體的生長(zhǎng)發(fā)育。
完整的DNA分子集將構(gòu)成基因組,也就是肌體生長(zhǎng)的藍(lán)圖。而通過(guò)從零開(kāi)始合成DNA分子,研究人員發(fā)現(xiàn)他們可以指定編寫(xiě)出由字母A、C、G、T組成的長(zhǎng)串,并隨時(shí)讀取序列信息。整個(gè)流程類(lèi)似于計(jì)算機(jī)中的二進(jìn)制信息存儲(chǔ)方式,只是這一次我們需要將二進(jìn)制計(jì)算機(jī)文件編碼為四字母生物分子的形式。
這種方法已經(jīng)被證實(shí)有效,但目前對(duì)DNA編碼文件的讀取與寫(xiě)入都需要很長(zhǎng)時(shí)間。向DNA中添加單一堿基大約需要一秒鐘,以這樣的速度編寫(xiě)歸檔文件可能需要幾十年時(shí)間。但研究人員正在開(kāi)發(fā)速度更快的方法,包括一次性寫(xiě)入多個(gè)分子并進(jìn)行大規(guī)模并發(fā)操作。
轉(zhuǎn)譯過(guò)程沒(méi)有任何數(shù)據(jù)損失
ADS Codex準(zhǔn)確說(shuō)明了如何將0和1轉(zhuǎn)錄為A、C、G、T四個(gè)字母的組合序列。Codex還能將此序列解碼回二進(jìn)制形式。DNA可以通過(guò)多種方法合成,而ADS Codex則將這些合成方法進(jìn)行了規(guī)范整理。
遺憾的是,與傳統(tǒng)數(shù)字系統(tǒng)相比,使用DNA合成進(jìn)行分子寫(xiě)入時(shí)的錯(cuò)誤率非常高。這些錯(cuò)誤的來(lái)源與數(shù)字寫(xiě)入完全不同,因此更難以糾正。在數(shù)字硬盤(pán)上,將0誤寫(xiě)為1即代表錯(cuò)誤,反之亦然。但對(duì)于DNA,問(wèn)題主要來(lái)自插入與刪除錯(cuò)誤。例如,我們可能希望寫(xiě)入A-C-G-T,但實(shí)際上A沒(méi)能正常寫(xiě)入,于是整個(gè)字母序列向左移動(dòng),變成了C-G-T。當(dāng)然,也有可能一次寫(xiě)入,直接形成了A-A-A。
常規(guī)的糾錯(cuò)碼無(wú)法很好地解決這類(lèi)問(wèn)題,因此ADS Codex添加了驗(yàn)證數(shù)據(jù)的錯(cuò)誤檢測(cè)碼。當(dāng)軟件將數(shù)據(jù)轉(zhuǎn)換回十進(jìn)制時(shí),會(huì)同時(shí)進(jìn)行測(cè)試以查看代碼是否匹配。如果不匹配,則會(huì)刪除或添加堿基(字母)直到驗(yàn)證成功。
前景可期
目前已經(jīng)完成了ADS Codex的1.0版本,今年年底計(jì)劃用它來(lái)評(píng)估其他MIST團(tuán)隊(duì)開(kāi)發(fā)的存儲(chǔ)與檢索系統(tǒng)。這項(xiàng)工作也高度契合洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室在計(jì)算領(lǐng)域不斷開(kāi)拓的歷史使命與探索精神。自上世紀(jì)四十年代以來(lái),我們一直鉆研計(jì)算技術(shù)并積累下一批歷史最悠久、規(guī)模最龐大的純數(shù)字?jǐn)?shù)據(jù)資產(chǎn)。時(shí)至今日,這些資產(chǎn)仍然具有可觀的價(jià)值。我們將永遠(yuǎn)保存這些數(shù)據(jù),希望為其找到最理想的冷存儲(chǔ)解決方案。
最終,每位用戶的數(shù)碼照片與推文,全球金融部門(mén)的所有記錄,關(guān)于農(nóng)業(yè)、設(shè)施、冰川融化等的衛(wèi)星圖像,現(xiàn)代科學(xué)背后的一切模擬體系等數(shù)據(jù)終將有所歸處。如今大家所熟悉的“云”并非高懸天外,而是一座座巨大的數(shù)據(jù)中心,需要消耗大量電力才能存儲(chǔ)這數(shù)以萬(wàn)億計(jì)的字節(jié)。這些數(shù)據(jù)中心的建設(shè)、供電與運(yùn)行成本高達(dá)數(shù)十億美元,而隨著對(duì)數(shù)據(jù)存儲(chǔ)需求量的指數(shù)級(jí)增長(zhǎng),我們恐怕很難無(wú)限制地支撐這樣的基礎(chǔ)設(shè)施規(guī)模。
DNA也許正是數(shù)據(jù)存儲(chǔ)的終極解決方案。誠(chéng)然,這項(xiàng)技術(shù)需要新的工具與新的使用方法,但如果真有一天全球最具價(jià)值的信息已經(jīng)能夠存儲(chǔ)在小小一顆“芝麻”當(dāng)中,也請(qǐng)大家千萬(wàn)不要過(guò)分驚訝。
來(lái)源丨Scientific American
編譯丨科技行者