幾年前,連研究人員都不愿使用DNA來存儲(chǔ)數(shù)據(jù),覺得這么做太超前了,不具有任何實(shí)用價(jià)值。今天,你可以使用合適的軟件和生化模塊來擴(kuò)展PostgreSQL,并在DNA上運(yùn)行SQL。
當(dāng)下全世界的數(shù)據(jù)浪潮來勢(shì)兇猛,不僅超出了我們理解數(shù)字和衡量單位(比如澤字節(jié))的能力,還超出了我們存儲(chǔ)海量數(shù)據(jù)的能力。一切都變得數(shù)字化,一切都在基于算法的應(yīng)用軟件上運(yùn)行,這些算法拿數(shù)據(jù)來訓(xùn)練,反過來生成更多的數(shù)據(jù),饋送給為更多的下游應(yīng)用軟件和算法……結(jié)果可想而知。
簡(jiǎn)而言之,按照這種步伐,很快就沒有足夠的數(shù)據(jù)存儲(chǔ)和計(jì)算材料以滿足需求。這就是為什么人們現(xiàn)在一直在尋找替代的存儲(chǔ)介質(zhì)以存儲(chǔ)數(shù)據(jù)。
現(xiàn)在研究人員已取得了重大突破,他們因而能夠?qū)NA存儲(chǔ)整合到PostgreSQL這種流行的開源數(shù)據(jù)庫(kù)中。法國(guó)通信系統(tǒng)工程師學(xué)校與研究中心(Eurecom)數(shù)據(jù)科學(xué)系助理教授Appuswamy和倫敦帝國(guó)理工學(xué)院SCALE實(shí)驗(yàn)室負(fù)責(zé)人Heinis最近發(fā)表了DNA存儲(chǔ)方面的開創(chuàng)性成果。
DNA是一種信息編碼機(jī)制
究其核心,DNA是一個(gè)數(shù)據(jù)存儲(chǔ)層。DNA由四種基礎(chǔ)部分組成:腺嘌呤、鳥嘌呤、胞嘧啶和胸腺嘧啶(又名AGCT)。DNA由這四個(gè)堿基組成三個(gè)核苷酸形成的三聯(lián)體(名為密碼子)。密碼子是給人體細(xì)胞下達(dá)蛋白質(zhì)形成指令的單位。
我們的信息技術(shù)基礎(chǔ)設(shè)施基于以比特(包括兩個(gè)數(shù)字:0和1)來存儲(chǔ)信息,而DNA信息存儲(chǔ)在四個(gè)潛在堿基單位的串中。為了將非遺傳信息存儲(chǔ)在DNA中,我們必須先將二進(jìn)制數(shù)據(jù)從比特轉(zhuǎn)換成DNA數(shù)據(jù)的四單位(AGCT)結(jié)構(gòu)。
理論部分實(shí)際上相當(dāng)簡(jiǎn)單。與使用硅或磁性介質(zhì)(其工作原理基于將狀態(tài)存儲(chǔ)為1和0序列的能力)一樣,我們可以使用DNA,存儲(chǔ)A、G、C和T組成的序列。但是這實(shí)際上如何運(yùn)作?——該如何將數(shù)據(jù)寫入到DNA和從DNA中讀取數(shù)據(jù)?
這可能聽起來太過遙遠(yuǎn),但分子技術(shù)的進(jìn)步使其變得切實(shí)可行,盡管并不稱心如意。這一切意味著,確實(shí)能夠以一種可以在DNA上存儲(chǔ)和檢索信息的方式來編碼信息,分別利用DNA合成和DNA測(cè)序。
DNA是數(shù)據(jù)的未來嗎?
盡管技術(shù)堆棧的某些部分還不成熟,但這是一項(xiàng)重大突破。讓已有的數(shù)據(jù)中心擁有充足的存儲(chǔ)資源可以改變游戲規(guī)則。但將DNA這種數(shù)量充足的材料充當(dāng)存儲(chǔ)和計(jì)算的可行介質(zhì)具有重大影響,遠(yuǎn)非我們所能想象。
這可能只是朝這個(gè)方向邁出的第一步,但每段旅程都從第一步開始。Heinis和Appuswamy并非單槍匹馬開展這項(xiàng)工作。他們的項(xiàng)目OLIGOARCHIVE一直在取得進(jìn)展,這歸功于與法國(guó)蔚藍(lán)海岸大學(xué)(UCA)和CNRS的其他研究人員進(jìn)行合作,因而得以壯大研究團(tuán)隊(duì),并擴(kuò)大研究范圍。
將數(shù)據(jù)存儲(chǔ)在DNA中方面的進(jìn)一步研究將得到歐盟的資助。
在這項(xiàng)技術(shù)方面獲得優(yōu)勢(shì)可能意味著主導(dǎo)未來,因?yàn)檫@個(gè)領(lǐng)域的突破將帶來巨大影響。Appuswamy和Heinis特別指出,人們的態(tài)度表明了這一點(diǎn):“幾年前,人們會(huì)覺得這遙不可及。而今天,我們告訴他們我們?cè)谧龅墓ぷ骱?,他們的態(tài)度是‘告訴我們更多’”。