亚洲精品在线一区二区,乳首奶水授乳亚洲一区

終極存儲(chǔ)解決方案：把ZB級(jí)海量數(shù)據(jù)寫(xiě)在DNA上

2021-06-11 11:02

來(lái)源丨Scientific American

編譯丨科技行者

在如今這個(gè)經(jīng)受著大數(shù)據(jù)洗禮的時(shí)代下，弄清楚如何以低成本方式存儲(chǔ)數(shù)據(jù)已經(jīng)成為愈發(fā)重要的核心議題。其中最奇特的方案也許就是最佳答案所在：在DNA分子中存儲(chǔ)信息。

目前流行的長(zhǎng)效冷存儲(chǔ)方法可以追溯到上世紀(jì)五十年代，當(dāng)時(shí)人們會(huì)把數(shù)據(jù)寫(xiě)入至披薩餅大小的磁帶卷上。相比之下，DNA存儲(chǔ)可能成本更低、能效更高、持久性更強(qiáng)。研究表明，用鹽封存的DNA在室溫環(huán)境下可以穩(wěn)定保存幾十年，如果在數(shù)據(jù)中心的受控環(huán)境內(nèi)應(yīng)該可以存放更長(zhǎng)時(shí)間。另外，DNA本身不需要維護(hù)、存儲(chǔ)DNA內(nèi)的文件易于復(fù)制，而且存儲(chǔ)成本幾乎可以忽略不計(jì)。

更妙的是，DNA能夠在幾乎不可思議的袖珍空間內(nèi)存儲(chǔ)驚人的信息量。我們先來(lái)展望這樣的未來(lái)：到2025年，人類(lèi)估計(jì)將掌握33澤字節(jié)（ZB）數(shù)據(jù)——即33后面加上21個(gè)0。DNA存儲(chǔ)能夠在一個(gè)乒乓球的體積下存儲(chǔ)全部這些信息，甚至還有不少富余空間。美國(guó)國(guó)會(huì)圖書(shū)館中一共7400萬(wàn)字節(jié)的信息完全可以塞進(jìn)一粒小小的芝麻中，即乒乓球體積的六千分之一。而只需要半顆芝麻，就能存儲(chǔ)Facebook上的所有數(shù)據(jù)。

聽(tīng)起來(lái)很科幻?并不會(huì)。DNA存儲(chǔ)技術(shù)當(dāng)下已經(jīng)存在，但要真正全面推行，研究人員還需要克服技術(shù)整合中的種種艱難阻礙。要完成這項(xiàng)意義重大的工作，洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的團(tuán)隊(duì)開(kāi)發(fā)出一種用于分子存儲(chǔ)的關(guān)鍵技術(shù)，配套軟件能夠使用自適應(yīng)DNA存儲(chǔ)規(guī)范(ADS Codex)將數(shù)據(jù)文件由計(jì)算機(jī)中的二進(jìn)制形式轉(zhuǎn)譯為具有生物學(xué)意義的四字母代碼。

ADS Codex也是情報(bào)高級(jí)研究計(jì)劃署(IARPA)分子信息存儲(chǔ)(MIST)項(xiàng)目的關(guān)鍵組成部分。MIST希望為政府及各私營(yíng)部門(mén)的大數(shù)據(jù)操作提供成本更低、規(guī)模更大、持久性更強(qiáng)的存儲(chǔ)解決方案，目前的短期發(fā)展目標(biāo)是在24小時(shí)內(nèi)實(shí)現(xiàn)寫(xiě)入1 TB(1萬(wàn)億字節(jié))、讀取10 TB數(shù)據(jù)的性能，并且將成本控制在1000美元。

從計(jì)算機(jī)代碼到因素代碼

提起DNA，大多數(shù)人想到的首先是生命的藍(lán)圖——跟計(jì)算機(jī)扯不上半點(diǎn)關(guān)系。但DNA本身其實(shí)就是一條四字母編碼，用于傳遞關(guān)于生物體的各項(xiàng)信息。DNA分子由四種堿基或者核苷酸組成，每一種用一個(gè)字母標(biāo)記，分別為：腺嘌呤(A)、胸腺嘧啶(T)、鳥(niǎo)嘌呤(G)與胞嘧啶(C)。這些是所有DNA編碼的基礎(chǔ)，指引著地球上一切生物的繁衍生長(zhǎng)。

DNA合成已經(jīng)是一項(xiàng)相當(dāng)成熟的技術(shù)，目前被廣泛應(yīng)用于醫(yī)學(xué)、制藥、生物燃料開(kāi)發(fā)等領(lǐng)域。這項(xiàng)技術(shù)的實(shí)質(zhì)，就是將堿基組織為由A、C、G、T的特定序列所指示的不同排列。這些堿基以相互纏繞的扭曲鏈(即雙螺旋)結(jié)構(gòu)形成分子。而字母本身的序列也由此建立起編碼系統(tǒng)，可用于指導(dǎo)生物體的生長(zhǎng)發(fā)育。

完整的DNA分子集將構(gòu)成基因組，也就是肌體生長(zhǎng)的藍(lán)圖。而通過(guò)從零開(kāi)始合成DNA分子，研究人員發(fā)現(xiàn)他們可以指定編寫(xiě)出由字母A、C、G、T組成的長(zhǎng)串，并隨時(shí)讀取序列信息。整個(gè)流程類(lèi)似于計(jì)算機(jī)中的二進(jìn)制信息存儲(chǔ)方式，只是這一次我們需要將二進(jìn)制計(jì)算機(jī)文件編碼為四字母生物分子的形式。

這種方法已經(jīng)被證實(shí)有效，但目前對(duì)DNA編碼文件的讀取與寫(xiě)入都需要很長(zhǎng)時(shí)間。向DNA中添加單一堿基大約需要一秒鐘，以這樣的速度編寫(xiě)歸檔文件可能需要幾十年時(shí)間。但研究人員正在開(kāi)發(fā)速度更快的方法，包括一次性寫(xiě)入多個(gè)分子并進(jìn)行大規(guī)模并發(fā)操作。

轉(zhuǎn)譯過(guò)程沒(méi)有任何數(shù)據(jù)損失

ADS Codex準(zhǔn)確說(shuō)明了如何將0和1轉(zhuǎn)錄為A、C、G、T四個(gè)字母的組合序列。Codex還能將此序列解碼回二進(jìn)制形式。DNA可以通過(guò)多種方法合成，而ADS Codex則將這些合成方法進(jìn)行了規(guī)范整理。

遺憾的是，與傳統(tǒng)數(shù)字系統(tǒng)相比，使用DNA合成進(jìn)行分子寫(xiě)入時(shí)的錯(cuò)誤率非常高。這些錯(cuò)誤的來(lái)源與數(shù)字寫(xiě)入完全不同，因此更難以糾正。在數(shù)字硬盤(pán)上，將0誤寫(xiě)為1即代表錯(cuò)誤，反之亦然。但對(duì)于DNA，問(wèn)題主要來(lái)自插入與刪除錯(cuò)誤。例如，我們可能希望寫(xiě)入A-C-G-T，但實(shí)際上A沒(méi)能正常寫(xiě)入，于是整個(gè)字母序列向左移動(dòng)，變成了C-G-T。當(dāng)然，也有可能一次寫(xiě)入，直接形成了A-A-A。

常規(guī)的糾錯(cuò)碼無(wú)法很好地解決這類(lèi)問(wèn)題，因此ADS Codex添加了驗(yàn)證數(shù)據(jù)的錯(cuò)誤檢測(cè)碼。當(dāng)軟件將數(shù)據(jù)轉(zhuǎn)換回十進(jìn)制時(shí)，會(huì)同時(shí)進(jìn)行測(cè)試以查看代碼是否匹配。如果不匹配，則會(huì)刪除或添加堿基(字母)直到驗(yàn)證成功。

前景可期

目前已經(jīng)完成了ADS Codex的1.0版本，今年年底計(jì)劃用它來(lái)評(píng)估其他MIST團(tuán)隊(duì)開(kāi)發(fā)的存儲(chǔ)與檢索系統(tǒng)。這項(xiàng)工作也高度契合洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室在計(jì)算領(lǐng)域不斷開(kāi)拓的歷史使命與探索精神。自上世紀(jì)四十年代以來(lái)，我們一直鉆研計(jì)算技術(shù)并積累下一批歷史最悠久、規(guī)模最龐大的純數(shù)字?jǐn)?shù)據(jù)資產(chǎn)。時(shí)至今日，這些資產(chǎn)仍然具有可觀的價(jià)值。我們將永遠(yuǎn)保存這些數(shù)據(jù)，希望為其找到最理想的冷存儲(chǔ)解決方案。

最終，每位用戶的數(shù)碼照片與推文，全球金融部門(mén)的所有記錄，關(guān)于農(nóng)業(yè)、設(shè)施、冰川融化等的衛(wèi)星圖像，現(xiàn)代科學(xué)背后的一切模擬體系等數(shù)據(jù)終將有所歸處。如今大家所熟悉的“云”并非高懸天外，而是一座座巨大的數(shù)據(jù)中心，需要消耗大量電力才能存儲(chǔ)這數(shù)以萬(wàn)億計(jì)的字節(jié)。這些數(shù)據(jù)中心的建設(shè)、供電與運(yùn)行成本高達(dá)數(shù)十億美元，而隨著對(duì)數(shù)據(jù)存儲(chǔ)需求量的指數(shù)級(jí)增長(zhǎng)，我們恐怕很難無(wú)限制地支撐這樣的基礎(chǔ)設(shè)施規(guī)模。

DNA也許正是數(shù)據(jù)存儲(chǔ)的終極解決方案。誠(chéng)然，這項(xiàng)技術(shù)需要新的工具與新的使用方法，但如果真有一天全球最具價(jià)值的信息已經(jīng)能夠存儲(chǔ)在小小一顆“芝麻”當(dāng)中，也請(qǐng)大家千萬(wàn)不要過(guò)分驚訝。

來(lái)源丨Scientific American

編譯丨科技行者

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

首席信息官在數(shù)字化轉(zhuǎn)型中需要具備的11項(xiàng)技能

終極存儲(chǔ)解決方案：把ZB級(jí)海量數(shù)據(jù)寫(xiě)在DNA上

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

終極存儲(chǔ)解決方案：把ZB級(jí)海量數(shù)據(jù)寫(xiě)在DNA上

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

我國(guó)數(shù)據(jù)出境安全評(píng)估管理政策解讀與合規(guī)建議

數(shù)據(jù)中臺(tái)建設(shè)：千萬(wàn)級(jí)的瀑布式，和十萬(wàn)級(jí)的迭代式，你會(huì)選擇哪一個(gè)？

數(shù)據(jù)中心光纖布線100G網(wǎng)絡(luò)遷移綜合指南

業(yè)界首個(gè)!沖量在線聯(lián)合海光信息發(fā)布—異構(gòu)隱私計(jì)算一體機(jī)!

本月熱門(mén)

AI 原生時(shí)代，字節(jié)想要復(fù)刻第三次增長(zhǎng)奇跡

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項(xiàng)網(wǎng)絡(luò)安全最佳實(shí)踐措施

2024年上半年中國(guó)云終端市場(chǎng)跟蹤報(bào)告：出貨量達(dá)到166.3萬(wàn)臺(tái)，同比增長(zhǎng)22.4%

從5G到6G：開(kāi)啟無(wú)線通信的未來(lái)

光芯片，時(shí)代“芯”寵

權(quán)威解答+圖解 | 《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全事件應(yīng)急預(yù)案（試行）》

精選文章

新業(yè)態(tài)、新應(yīng)用、助推新經(jīng)濟(jì) 2019中國(guó)互聯(lián)網(wǎng)+產(chǎn)業(yè)創(chuàng)新合作發(fā)展論壇已全面啟動(dòng)

賦能數(shù)字化轉(zhuǎn)型，助推數(shù)字強(qiáng)國(guó)發(fā)展 | 三維天地榮膺2023數(shù)字化轉(zhuǎn)型十大杰出企業(yè)

我們?yōu)槭裁匆_(kāi)發(fā)iVX？—iVX嘗試用“圖形化”的方式解決編程的問(wèn)題

崔艷輝：生態(tài)賦能助力企業(yè)財(cái)稅票數(shù)據(jù)安全

QuestMobile 2023中國(guó)互聯(lián)網(wǎng)核心趨勢(shì)年度報(bào)告（精華版）：12.24億用戶每月上網(wǎng)160小時(shí)，15大巨頭月活破4億

三度合作!光伏加工裝備產(chǎn)品市場(chǎng)占有率全球No.1高測(cè)股份又簽約華磊迅拓

熱點(diǎn)資訊

DevSecOps建設(shè)標(biāo)桿丨民生證券攜手懸鏡安全，共建敏捷安全開(kāi)發(fā)體系

ESIS 2024第三屆中國(guó)電子半導(dǎo)體數(shù)智峰會(huì)正式啟動(dòng)，邀您共創(chuàng)電子半導(dǎo)體行業(yè)美好未來(lái)!

榮耀應(yīng)用市場(chǎng)攜手?jǐn)?shù)智融合應(yīng)用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍(lán)罐曲奇”敗訴——市場(chǎng)競(jìng)爭(zhēng)需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

首席信息官在數(shù)字化轉(zhuǎn)型中需要具備的11項(xiàng)技能

登上Nature!谷歌AI設(shè)計(jì)芯片6小時(shí)完成平面布局，關(guān)鍵指標(biāo)媲美人類(lèi)

終極存儲(chǔ)解決方案：把ZB級(jí)海量數(shù)據(jù)寫(xiě)在DNA上

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

我國(guó)數(shù)據(jù)出境安全評(píng)估管理政策解讀與合規(guī)建議

數(shù)據(jù)中臺(tái)建設(shè)：千萬(wàn)級(jí)的瀑布式，和十萬(wàn)級(jí)的迭代式，你會(huì)選擇哪一個(gè)？

數(shù)據(jù)中心光纖布線100G網(wǎng)絡(luò)遷移綜合指南

業(yè)界首個(gè)!沖量在線聯(lián)合海光信息發(fā)布—異構(gòu)隱私計(jì)算一體機(jī)!

本月熱門(mén)

精選文章

熱點(diǎn)資訊

首席信息官在數(shù)字化轉(zhuǎn)型中需要具備的11項(xiàng)技能

登上Nature!谷歌AI設(shè)計(jì)芯片6小時(shí)完成平面布局，關(guān)鍵指標(biāo)媲美人類(lèi)

數(shù)據(jù)中臺(tái)建設(shè)：千萬(wàn)級(jí)的瀑布式，和十萬(wàn)級(jí)的迭代式，你會(huì)選擇哪一個(gè)？

登上Nature!谷歌AI設(shè)計(jì)芯片6小時(shí)完成平面布局，關(guān)鍵指標(biāo)媲美人類(lèi)