我們怎樣存儲信息?
寫下來的紙張會被焚毀,電腦可能會被黑,DVD可能會無法讀取。威脅無處不在,從簡單的一盆水到復(fù)雜的網(wǎng)絡(luò)攻擊,都有可能讓我們的記錄化為烏有。
信息爆炸,數(shù)據(jù)井噴,可能未來連云存儲也無法承載,而且它無法阻擋住所有黑客,還會持續(xù)消耗能量。據(jù)估計,到2020年,全球數(shù)字化檔案估計將達(dá)到44萬億Gb,數(shù)字化海嘯馬上就要席卷而來,浪潮之下,我們應(yīng)該如何面對海量信息?
哈佛信息服務(wù)中心的計算機(jī)存儲架與笨拙的數(shù)據(jù)線
現(xiàn)在,有一種存儲信息的新方法可以穩(wěn)定地存儲數(shù)百萬年的數(shù)據(jù),并且不受到黑客的威脅。
它的占用空間非常小,想象一下用一勺蛋白質(zhì)就可以保存整個紐約市公共圖書館的資料,一鍋蛋白質(zhì)就可以容納所有地球往事。并且一旦編寫,就不會再消耗能量。所需要的只有一個化學(xué)家,一些易得的分子和需要存儲的信息。
這是哈佛大學(xué)與西北大學(xué)合作開發(fā)的一個項(xiàng)目,研究結(jié)果已經(jīng)在國際學(xué)術(shù)期刊ACS Central Science發(fā)表。該項(xiàng)目提出并實(shí)現(xiàn)了利用易獲得、低能耗、穩(wěn)定且能超長時間保存的寡肽分子存儲數(shù)據(jù)(以二進(jìn)制形式),數(shù)據(jù)檢索準(zhǔn)確率超過99%。
從生物學(xué)到有機(jī)化學(xué):數(shù)據(jù)存儲的靈感
利用生物存儲能力來存儲數(shù)據(jù)的想法早已有之,并且已經(jīng)有了一定的進(jìn)展。比如,目前我們已經(jīng)可以通過合成DNA鏈來記錄信息,記錄的信息可以從美食照片,烹飪教程一直到擼貓視頻。
但是雖然DNA與計算機(jī)芯片相比較小,但還是屬于大分子。并且,DNA的合成需要大量重復(fù)的勞動。如果每條消息都需要從頭開始設(shè)計編譯,那么大分子存儲可能會因?yàn)檫^于昂貴耗時而無法實(shí)現(xiàn)。
Brian Cafferty
Brian Cafferty,該研發(fā)團(tuán)隊(duì)的成員之一,也是論文的第一作者介紹說,于是他們的研究團(tuán)隊(duì)從生物學(xué)轉(zhuǎn)向有機(jī)和分析化學(xué)尋求靈感,開發(fā)使用一種更小、更低分子量的分子來編碼信息的方法。
這種存儲方式只需一次合成就可以生成足夠的小分子,用以編碼多個視頻,使這種方法無疑比基于DNA的方法更省力也更便宜。
用分子實(shí)現(xiàn)聽說讀寫畫
該團(tuán)隊(duì)選擇的低分子量分子是寡肽(兩個或多個結(jié)合在一起的肽),這些肽常見而穩(wěn)定,并且比DNA,RNA或蛋白質(zhì)分子量都要小。
而且由于組成寡肽的氨基酸數(shù)量和類型不同,它們的分子質(zhì)量是有差異的。當(dāng)不同的寡肽分子混合在一起時,這種差異可以實(shí)現(xiàn)相互區(qū)分,不同質(zhì)量的分子就像字母表中的不同字母一樣。
將這些“字母”組成單詞會有點(diǎn)復(fù)雜,該團(tuán)隊(duì)將不同質(zhì)量的寡肽存儲在384個不同的“微孔”中,然后將寡肽混合物放置在金屬板的表面上,就像將墨水印在書頁上一樣。如果想要讀取“寫下”的內(nèi)容,可以通過質(zhì)譜儀按質(zhì)量對微孔中的分子進(jìn)行分類,查看這個孔中存在哪些寡肽、不存在哪些寡肽,由此讀取內(nèi)容。
然后團(tuán)隊(duì)使用二進(jìn)制編碼將混亂的分子翻譯成字母和單詞。例如,字母“K”在ASCII(美國信息交換標(biāo)準(zhǔn)代碼)中被寫作01001011,就可以通過使用八種不同質(zhì)量的寡肽存儲“K”。將微孔中存在的四種寡肽讀取為“1”,而缺失的四種讀取為“0”(如下表)。這些分子二進(jìn)制代碼指向相應(yīng)的字母;如果存儲的信息是圖像,則指向相應(yīng)的像素。使用這種方法,八種寡肽的混合物可以存儲一個字節(jié)的信息; 32種寡肽的混合物可以存儲四個字節(jié),以此類推。
更快,更便捷,更安全
到目前為止,Cafferty和他的團(tuán)隊(duì)已經(jīng)用這種方法記錄、存儲并“閱讀”了物理學(xué)家Richard Feynman的著名演講、Claude Shannon(他被稱為“信息理論之父”)的相片和葛飾北齋的畫作《神奈川沖浪里》。
名畫《神奈川沖浪里》
經(jīng)檢驗(yàn),這種存儲方式的檢索準(zhǔn)確率為99.9%。平均“寫入”速度為每秒8bits,“讀取”速度每秒20 bits。雖然目前還比大多數(shù)數(shù)據(jù)存儲設(shè)備要慢,但隨著技術(shù)的繼續(xù)發(fā)展,速度肯定還會提升。例如,如果噴墨打印機(jī)可以以每秒1,000次的速率產(chǎn)生液滴,就能將更多信息塞入更小的區(qū)域,或者再加以改進(jìn)質(zhì)譜儀使之可以同時獲取更多信息。
未來,還可以通過引入不同類別的分子,提高存儲的穩(wěn)定性和容量,并降低成本。實(shí)驗(yàn)中使用寡肽是定制的,因此價格較貴。但未來還可以考慮可以購買更便宜的分子(如烷硫醇),實(shí)現(xiàn)花1美分就可以記錄1億比特的信息。
“目前,這種方法還不會取代現(xiàn)有的數(shù)據(jù)存儲方法,”Cafferty說,“我們認(rèn)為它是對現(xiàn)有技術(shù)的補(bǔ)充,非常適合長期存檔數(shù)據(jù)存儲。”Cafferty團(tuán)隊(duì)提出的分子存儲方法是一種穩(wěn)定的、零能耗、抗腐蝕的存儲可選方案。
寡肽等分子具備復(fù)原能力,可以在數(shù)百年甚至數(shù)千年的時間內(nèi)保持穩(wěn)定性。在高溫和干旱的情況下,這些分子可以在沒有光或氧的情況下存活下來。而且,黑客無法像攻破云存儲那樣竊取分子存儲的內(nèi)容,分子存儲只能通過人工訪問。即使被發(fā)現(xiàn)藏匿的數(shù)據(jù),小偷也需要擁有足夠的化學(xué)知識才能實(shí)現(xiàn)代碼檢索。
所以未來,即使所有的書都付之一炬,所有的計算機(jī)都被黑了,所有DVD都被毀壞,這些分子可能還會繼續(xù)存在,提醒未來的人類,我們曾經(jīng)是多么喜歡那些萌萌的貓咪視頻。