微軟成功研制用DNA存儲(chǔ)讀取數(shù)據(jù)的全自動(dòng)系統(tǒng)

編譯/大數(shù)據(jù)文摘:林安安、夏雅薇、周素云
DNA存儲(chǔ)數(shù)字信息的空間比目前建造的數(shù)據(jù)中心要小好幾個(gè)數(shù)量級(jí)。我們每天都在產(chǎn)生海量數(shù)據(jù),從商業(yè)信息到可愛的動(dòng)物視頻再到醫(yī)學(xué)掃描圖像和外太空?qǐng)D像,因此DNA非常適合用來存儲(chǔ)大規(guī)模的數(shù)據(jù)。

現(xiàn)代存儲(chǔ)技術(shù)已經(jīng)無法滿足字節(jié)的海嘯式增長(zhǎng),但是大自然也許已為這個(gè)難題提供了解決方案。

比如,DNA。

上個(gè)月,來自微軟和華盛頓大學(xué)的研究人員宣布:以人工合成為DNA為載體的存儲(chǔ)和讀取數(shù)據(jù)的全自動(dòng)系統(tǒng)研制成功,邁出了該技術(shù)從研究實(shí)驗(yàn)室走進(jìn)商業(yè)應(yīng)用關(guān)鍵的一步。

在一次概念驗(yàn)證測(cè)試中,該研究團(tuán)隊(duì)成功地在人工合成的DNA片段中編碼了“hello”一詞,并使用全自動(dòng)端到端系統(tǒng)將其轉(zhuǎn)換回?cái)?shù)字?jǐn)?shù)據(jù)。

其實(shí)早在2016年7月,微軟和華盛頓大學(xué)的研究人員就已經(jīng)宣布,利用DNA存儲(chǔ)技術(shù)完成了約200MB數(shù)據(jù)的保存,相對(duì)于當(dāng)時(shí)最大存儲(chǔ)為739KB的EBI文件來說已經(jīng)實(shí)現(xiàn)了信息存儲(chǔ)了飛躍。

該研究聲稱,如果信息封裝密度像大腸桿菌的基因那么高,全世界的存儲(chǔ)需求可用1千克的DNA來滿足。

這一結(jié)果發(fā)布在當(dāng)年9月份的《自然(Nature)》雜志上。

兩年多的時(shí)間過去了,微軟和華盛頓大學(xué)的研究人員又取得了新突破:不僅存儲(chǔ)量翻了5倍——能夠在DNA中存儲(chǔ)1000MB的數(shù)據(jù),還實(shí)現(xiàn)了從存儲(chǔ)到提取信息的重大突破。也就是說,用DNA存儲(chǔ)數(shù)據(jù)已經(jīng)成為可能。

該研究結(jié)果發(fā)表在一篇名為《DNA自動(dòng)存儲(chǔ)端到端自動(dòng)化演示》的論文中,并于3月21日出版在Nature Scientific Reports版塊。

論文鏈接:

人工合成DNA存儲(chǔ)

DNA存儲(chǔ)數(shù)字信息的空間比目前建造的數(shù)據(jù)中心要小好幾個(gè)數(shù)量級(jí)。我們每天都在產(chǎn)生海量數(shù)據(jù),從商業(yè)信息到可愛的動(dòng)物視頻再到醫(yī)學(xué)掃描圖像和外太空?qǐng)D像,因此DNA非常適合用來存儲(chǔ)大規(guī)模的數(shù)據(jù)。

微軟首席研究員Karin Strauss稱:“我們的最終目標(biāo)是將一個(gè)全自動(dòng)系統(tǒng)投入到實(shí)際應(yīng)用。對(duì)終端用戶來說,這類似于云端存儲(chǔ)服務(wù)——將數(shù)據(jù)上傳到數(shù)據(jù)中心并存儲(chǔ)在那里,用戶隨時(shí)可以查看并下載云端數(shù)據(jù)。要做到這一點(diǎn),我們首先需要從自動(dòng)化角度證明這是可用的。”

華盛頓大學(xué)的高級(jí)研究科學(xué)家Chris Takahashi說:“信息存儲(chǔ)在人工合成的DNA分子中(而不是人類或其它生物的DNA分子),并且可以在發(fā)送到系統(tǒng)之前進(jìn)行加密。 雖然這個(gè)過程的關(guān)鍵部分可以由DNA合成器和DNA測(cè)序儀等機(jī)器完成,但到目前為止,許多中間步驟都需要在研究實(shí)驗(yàn)室中進(jìn)行人工操作,這在實(shí)際應(yīng)用中是很難實(shí)現(xiàn)。”

“總不能讓一群人帶著移液器(一種用于定量轉(zhuǎn)移液體的小型器具)在數(shù)據(jù)中心里四處奔跑,而且移液器在使用過程中容易出現(xiàn)人為錯(cuò)誤,成本也很高。”

從信息存儲(chǔ)商業(yè)化的角度來看,人們需要降低合成DNA的成本,包括合成存儲(chǔ)信息的DNA雙鏈和提取信息的DNA測(cè)序。

自動(dòng)化是DNA存儲(chǔ)商用關(guān)鍵

微軟的研究人員說,自動(dòng)化是另一個(gè)關(guān)鍵因素,因?yàn)樗梢詫?shí)現(xiàn)商業(yè)級(jí)規(guī)模的存儲(chǔ)并極大降低成本。

現(xiàn)有的存檔技術(shù)在幾十年內(nèi)將不再適用,而DNA存儲(chǔ)信息的時(shí)間要比它長(zhǎng)得多。比如說:DNA可以在猛犸象牙和原始人骨骼中存在數(shù)萬年。

值得強(qiáng)調(diào)的是,這還不是理想的儲(chǔ)存條件。DNA包含的遺傳密碼是通用的,也就是說自然界所有生物共用同一套遺傳密碼,基于此,理論上來說人類可以解讀所有生物的遺傳信息。

DNA是由四個(gè)堿基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)構(gòu)建而成的。微軟和華盛頓大學(xué)聯(lián)合開發(fā)了一套DNA數(shù)據(jù)自動(dòng)存儲(chǔ)系統(tǒng),將數(shù)字?jǐn)?shù)據(jù)的1和0轉(zhuǎn)換為構(gòu)成DNA的A、T、C和G,然后將其它必要反應(yīng)液注入合成器,合成器就能合成DNA片段并將其推入儲(chǔ)存器。

將1和0 轉(zhuǎn)換成DNA的A、T、C、G

當(dāng)系統(tǒng)需要檢索信息時(shí),它會(huì)添加其它化學(xué)物質(zhì)來提取所需的DNA,并使用微流體泵將液體推入系統(tǒng)的其它部分。接著“讀取”DNA序列并將其轉(zhuǎn)換回計(jì)算機(jī)可以理解的信息。

研究人員表示,研究項(xiàng)目的目標(biāo)不是要證明系統(tǒng)能夠以多快的速度或多低的成本運(yùn)作,而只是為了證明自動(dòng)化是可行的。

DNA自動(dòng)化存儲(chǔ)系統(tǒng)的一個(gè)直接好處是,它可以讓研究人員從繁復(fù)的實(shí)驗(yàn)中掙脫出來,去解決更深層次的問題。

微軟研究員Bichlien Nguyen說:“自動(dòng)化系統(tǒng)能進(jìn)行重復(fù)性的工作,這使得人們能夠從更宏觀的角度制定新策略,從根本上進(jìn)行更快的創(chuàng)新。”

分子信息系統(tǒng)實(shí)驗(yàn)室的團(tuán)隊(duì)已經(jīng)證明DNA可以存儲(chǔ)寵物照片,文學(xué)作品,流行視頻和檔案信息,并且在檢索數(shù)據(jù)的過程中不出錯(cuò)。

研究人員還開發(fā)了一些技術(shù)來執(zhí)行很有意義的計(jì)算任務(wù)——比如只搜索包含蘋果或綠色自行車的圖像,使用的是DNA分子本身,而不必將文件轉(zhuǎn)換回?cái)?shù)字格式。

華盛頓大學(xué)的Luis Ceze教授說:“我們肯定會(huì)看到一種新型計(jì)算機(jī)系統(tǒng)的誕生,人們可以使用DNA分子存儲(chǔ)數(shù)據(jù),用電子設(shè)備進(jìn)行控制和處理。將DNA和計(jì)算機(jī)結(jié)合到一起為未來提供了無限的可能。”

人類的DNA存儲(chǔ)探索

人類對(duì)DNA數(shù)據(jù)存儲(chǔ)能力的探索早已有之。

1988年,藝術(shù)家喬?戴維斯與哈佛的學(xué)者合作,第一個(gè)將數(shù)字信號(hào)0和1對(duì)應(yīng)到DNA的四個(gè)堿基。他們把DNA序列插入到大腸桿菌里,僅僅編碼了35個(gè)字節(jié)。當(dāng)排列成一個(gè)5*7的矩陣時(shí),1對(duì)應(yīng)到暗像素,0對(duì)應(yīng)到亮像素,它們組成了一幅古代日耳曼如尼字母圖畫,代表生命和女性的地球。

現(xiàn)在戴維斯已經(jīng)加入了丘奇的實(shí)驗(yàn)室,該實(shí)驗(yàn)室2011年起開始探索DNA數(shù)據(jù)存儲(chǔ)。哈佛團(tuán)隊(duì)希望該應(yīng)用可以減少合成DNA的高成本,就像基因組學(xué)的測(cè)序成本已經(jīng)降低了許多。丘奇與加州大學(xué)洛杉磯分校的瑟里? 庫蘇里(Sri Kosuri)以及約翰?霍普金斯大學(xué)的基因組專家高原(Yuan Gao)于2011年11月實(shí)施了概念證明性實(shí)驗(yàn)。

他們的團(tuán)隊(duì)使用了很多短DNA片段編碼了一本丘奇與他人合寫的659KB數(shù)據(jù)的書。每個(gè)片段的一部分用來進(jìn)行排序后片段組裝順序,剩余部分用于編碼數(shù)據(jù)。將數(shù)據(jù)保存在DNA之中需要將二進(jìn)制0和1數(shù)據(jù)轉(zhuǎn)換為4種核苷酸,其中0用腺苷酸或胞嘧啶來編碼,而1則用鳥苷酸或胸腺嘧啶。

這種靈活性幫助團(tuán)隊(duì)設(shè)計(jì)序列,避免測(cè)序中高GC區(qū)讀取錯(cuò)誤、重復(fù)序列或發(fā)卡結(jié)構(gòu)導(dǎo)致的綁定彼此的片段發(fā)生序列折疊。他們沒有做嚴(yán)謹(jǐn)?shù)募m錯(cuò),而是依靠每個(gè)片段擁有多個(gè)拷貝的信息冗余。結(jié)果對(duì)片段測(cè)序后,他們發(fā)現(xiàn)了22個(gè)錯(cuò)誤,大大高于可靠存儲(chǔ)的要求。

同時(shí)在EBI,高德曼、伯尼和他們的同事也在使用很多DNA片段來編碼一個(gè)739KB的數(shù)據(jù)存儲(chǔ),包含一個(gè)圖片、ASCII文本、聲音文件和一個(gè)PDF版的華生和克里克標(biāo)志性的雙螺旋結(jié)構(gòu)。為了避免重復(fù)堿基和其他來源的錯(cuò)誤,EBI領(lǐng)導(dǎo)的這個(gè)團(tuán)隊(duì)使用了一個(gè)更加復(fù)雜的系統(tǒng)(見“制作存儲(chǔ)體”)。

一方面是將0和1組成的二進(jìn)制數(shù)據(jù)編碼修改成以3個(gè)數(shù)為基礎(chǔ),即0,1和2,然后持續(xù)地輪換使用每一個(gè)數(shù)的代表,因此而避免在讀取數(shù)據(jù)時(shí)序列可能出現(xiàn)的問題。通過利用序列重疊,100個(gè)堿基長(zhǎng)度的片段持續(xù)位移25個(gè)堿基,EBI的科學(xué)家們確保有4個(gè)版本的片段來做錯(cuò)誤檢查和互相比較。

液體轉(zhuǎn)移DNA難點(diǎn)

與基于硅的計(jì)算系統(tǒng)不同,基于DNA的存儲(chǔ)和計(jì)算系統(tǒng)必須使用液體來轉(zhuǎn)移DNA分子。流體本質(zhì)上與電子不同,這意味著我們需要全新的技術(shù)解決方案。

華盛頓大學(xué)的團(tuán)隊(duì)與微軟正在合作開發(fā)一種可編程系統(tǒng),利用電和水的特性在電極網(wǎng)格上移動(dòng)水滴,從而實(shí)現(xiàn)實(shí)驗(yàn)自動(dòng)化。名為“Puddle”和“PurpleDrop”的一整套軟件和硬件可以混合、分離、加熱或冷卻不同的液體并按標(biāo)準(zhǔn)實(shí)驗(yàn)步驟進(jìn)行實(shí)驗(yàn)。

MISL團(tuán)隊(duì)下一步要做的是將簡(jiǎn)單的端到端自動(dòng)化系統(tǒng)與PurpleDrop等技術(shù)以及能夠使用DNA分子進(jìn)行搜索的技術(shù)相結(jié)合。研究人員專門設(shè)計(jì)了模塊化的自動(dòng)化系統(tǒng),使其能夠隨著新的DNA技術(shù)的出現(xiàn)而發(fā)展。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論