比DNA存儲更可怕!你的照片居然可以存儲在胺基酸分子溶液裡

2021-01-09 和訊網

  新智元原創

  來源:plos、newscientist

  新智元編輯部

  【新智元導讀】前幾天,一個DNA分子存儲16G維基百科的新聞刷新了我們的三觀,引發人們對於未來數據存儲的大討論。近日,布朗大學的研究人員受此啟發發現:DNA並不是唯一可以用於數字存儲的分子,含有糖、胺基酸和其他小分子的溶液也可以取代硬碟。意外不意外?

  原來,不只DNA能夠存儲數據,小分子溶液也可以。

  上周, 了DNA數據存儲的新聞,不僅16G的維基百科能夠存儲到一個DNA分子上,就連存儲全球的數據也只需要1kg DNA。

  而近期,布朗大學的研究人員受此啟發並發現:DNA並不是唯一可以用於數字存儲的分子。事實證明,含有糖、胺基酸和其他小分子的溶液也可以取代硬碟。

  論文地址:

  https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0217364&type=printable

  在DNA的下遊,代謝組(metabolome)是一個信息豐富的分子系統,它具有不同的化學維度,可以用來存儲和處理信息。

  為了證明小分子後基因組( small-molecule postgenomic)數據存儲的原理,研究人員利用機器人液體處理將數字信息寫入化學混合物,並利用質樸分析提取數據。

  研究人員還提出了幾個存儲在合成代謝體中的千字節(kilobyte-scale)級圖像數據集,使用多質量邏輯回歸可以對其進行解碼,其精度超過99%。

  布朗大學工程學院教授、該研究的高級作者Jacob Rosenstein說:

  這是一個概念驗證,我們希望讓人們考慮使用更廣泛的分子來存儲信息,在某些情況下,我們在這個研究中使用的小分子可以比DNA擁有更大的信息密度。

  另一個潛在的優勢在於,多種小分子可以相互反應形成新的化合物。這為分子系統創造了潛力,不僅可以存儲數據,還可以操縱數據——在代謝物混合物中執行計算。

  縮略圖大小的圖像,存儲在比DNA還小的分子上

  為了上述的想法,研究人員用常見代謝物做了一種混合物——含有糖、胺基酸和其他小分子的溶液,人類和其他生物利用這些小分子來消化食物和執行其他重要的化學功能。

  他們的想法是利用混合物中特定代謝物的存在或不存在作為二進位的1和0來編碼數字信息。

  圖1 該方法將數字數據的1和0映射到溶液中特定分子的存在或不存在。研究人員使用該方案對圖像文件進行了編碼。

  例如,為了生成北山羊的圖像,研究小組使用了6種不同代謝物的混合物,這些混合物由液體處理機器人點綴在一個小金屬板上。他們總共製作了1024個液滴,每個液滴中6種代謝物或缺失或存在,提供了足夠的二進位信息來編碼6142像素的圖像。

  然後,金屬板被烘乾,留下微小的代謝物分子點,每個點都保存著數字信息。

  然後,這些數據可以用質譜儀讀出,質譜儀可以識別存在於板上每個點的代謝物,並對數據進行解碼。

  研究人員將這張貓的圖像保存在小分子溶液中

  研究人員通過用質譜儀分析每個點的化學成分,能夠以99%的準確率檢索到這些數據。他們還用12種代謝物的混合物,解碼了一張解析度更高的貓的照片。

  密集數據

  他們使用手掌大小的標準板來編碼縮略圖大小的圖像。但是據Rosenstein介紹,代謝物存儲設備的物理尺寸可以更小。

  代謝物分子比DNA和蛋白質小得多,而且種類繁多。他說,這意味著它們可以比DNA更密集地表示少量數據。

  Rosenstein說:「一旦數據被記錄下來,它們就不需要任何能量了。根據分子和環境條件的不同,這些數據可以保存數月或數年。」事實上,在極端溫度、壓力和機械力等條件下,分子存儲可能比電子存儲更穩定,這取決於分子的特性。

  分子存儲還可以使離線存儲大量數據成為可能,而不是存儲在雲中,從而防止黑客入侵。

  到目前為止,Rosenstein和他的同事們發明的技術與電子計算機相比速度還比較慢。

  研究人員指出,這種技術也有一些局限。例如,當多種代謝物分子被放在同一溶液中時,它們之間會發生化學反應,這可能導致錯誤或數據丟失。但這個bug最終可能成為一個功能。也許可以利用這些反應來操縱執行數據的計算。

  Rosenstein表示:

  與DNA相比,我們的代謝物數據具有較低的延遲,從而可以從頭到尾快速地讀寫數據集。」他也補充說 DNA 目前在編碼大型數據集方面有優勢。

  這些想法在研究實驗室中使用已經可行,但我們需要加快速度,縮小分析硬體的尺寸,然後才能在實驗室外實施。

  這類研究挑戰了人們在分子數據系統中所看到的可能性。DNA不是唯一可以用來存儲和處理信息的分子。認識到還有其他潛力巨大的可能性是令人興奮的。

  實驗原料和方法

  化學庫的製備

  將36種不同代謝化合物的試劑級樣品(S1文件中的表A)在二甲基亞碸(DMSO,無水)中稀釋,標稱濃度均為25mM。將一些代謝物首先溶解在替代溶劑(去離子水,可選擇加入0.5M或1M的鹽酸)中,以促進化合物在DMSO中的溶解。將10μL每種化合物等分到384孔的微量培養板(Labcyte384LDV)上。

  數據混合物的準備

  在規格為76mm×120mm不鏽鋼MALDI板上製備化學數據混合物。使用聲學液體處理器(LabcyteEcho 550型)將化合物從培養板轉移到MALDI板上。儀器標稱的單液滴體積為2.5nL,但為了降低液滴體積變化對結果的影響,通常每種化合物使用2滴(5nL)。液滴以標準的2.25mm點距排布,共計1536個位置(32×48)。

  將化合物按編好的位置滴到MALDI板上之後,需要將MALDI基質材料添加到每個位置上。我們選擇9-氨基吖啶作為基質材料,因為它與代謝物庫能夠共存,它在小分子體系中具備低背景(low background)特徵,同時支持正離子和負離子模式。將MALDI板放置在乾燥環境中,大約在一夜時間即可完成結晶(最多10小時)。乾燥後,可將板儲存在溼度控制櫃中,或進行MALDI-FT-ICR質譜分析。

  數據板的質譜分析

  實驗中使用傅立葉變換離子迴旋共振(FT-ICR)質譜儀(SolariX 7T,Bruker)分析結晶代謝物數據混合物。精確的成分結果是每個頻譜上的測量時間的函數。這些實驗中通常耗時0.5-1秒,產生的分辨精度<0.001Da。該儀器將連續測量48x32網格上的每種混合物的質譜。測定全部樣本只需要不到2個小時。

  為了從質譜中讀取編碼數據,將代謝物存在的概率建模為多個預測質量的組合。利用多項邏輯回歸方法,考慮偏移量的自然指數,加上所有識別質譜信噪比之和,每個信噪比均與訓練的權重係數相乘。在給定每種代謝物的n個最佳峰值輸入的情況下,使用有限記憶BFGS算法來預測邏輯精度評分。

  在實驗中,對所有代謝組合成分重複以上過程。

  實驗結果:檢索準確率高達99%!

  編寫合成代謝組分

  我們的合成代謝組由36種化合物組成,包括維生素、核苷、核苷酸、胺基酸、糖和代謝途徑中間體。為了將數據寫入代謝物混合物中,我們使用聲學液體處理器以2.5nL的增量將純代謝物溶液傳輸到鋼製MALDI板上預先定義的位置。選擇2.25 mm節距網格,以與標準wellplate協議兼容。這產生了一個不同代謝物混合物的空間陣列,其中每種混合物中每個化合物的存在(或不存在)編碼一位信息。

  在蒸發溶劑後,每個數據板包含多達1536個乾燥點(圖1b),我們可以使用基質輔助雷射解吸電離(MALDI)質譜(MS)進行分析。為了預先篩選合成代謝組中的每種化合物,在1400個獨特的點上,用36種代謝物的組合混合物寫出圖版。由於MALDI方案具有化學特異性,因此我們不希望在一組條件下,整個化合物庫具有相同的鑑定準確度。我們使用此預篩選來確定具有相同方案的每種代謝物的MS鑑定準確度。

  代謝物混合物的離子回旋加速器質譜

  使用傅立葉變換離子迴旋共振(FT-ICR)質譜儀(SolariX 7T,Bruker)分析結晶混合物陣列。在FT-ICR MS中,脈衝RF激發離子進入周期軌道,其頻率由磁場強度和離子質量決定,這使得質量解析度比飛行時間(ToF)更精細。儀器。在這些實驗中,質量解析度通常為0.001Da。使用FT-ICR MS,即使它們的質量僅相差milli-Daltons ,也可以區分代謝物。

  在圖2(a)中,顯示了包含鳥苷(go)和9-氨基吖啶(9A)基質的斑點的一個正離子MALDI-FT-ICR質譜。質子化的基質加合物在峰1和6(藍色)處鑑定,連同鳥苷的加合物,標記為(2:Na,3:K,4:2K-H和5:異丙醇(IPA)+ H)。觀察到的強度因加合物和種類而異,在圖2(b)中,在1024個點上顯示了第一個峰值(m / z = 195.0916±0.001處的質子化基質)的強度。

  圖2.用質譜分析化學數據板。

  許多開放獲取工具可用於代謝峰的檢測和MS質譜的分配。為了清楚地將質譜與二進位數據聯繫起來,我們考慮了一個基本的檢測方案:如果代謝物的質量強度高於某個特定的閾值,則聲明它存在,並且其地址的二進位狀態設置為1(或0,如果它的質量峰值不存在)。該方法在圖2(b)中的1024個斑點中識別出1020個基質質子化峰(≈99.6%)。

  作為初始演示,我們選擇了6種代謝物的庫子集,用於將Nubian ibex的6,142像素二進位圖像編碼為1024個混合物的陣列。偽隨機交織後,將數據映射到存在或不存在山梨醇(SO)、穀氨酸(GA)、色氨酸(TP)、胞苷(CD)、鳥苷(GO)和2-脫氧鳥苷水合物(GH)中。如方法中所述,使用FT-ICR-MS對板進行書寫和分析。

  圖3a顯示了240個獨立點觀測到的質譜背景噪聲的空間圖和直方圖。在進一步分析之前,我們將每個質譜除以其背景σ,這樣可以更直接地比較多個位置的信號強度。信號強度是樣品製備、分析物和加合物的複雜函數。歸一化後,6種代謝物的目標峰顯示在圖3b中。第一行是其數據包含六位[1 0 0 0 0 0]的點,因此僅存在與第一代謝物(山梨糖醇)相關的m / z峰。類似地,顯示了五個其他「一次觸發」模式,可以無錯誤地解碼。

  圖3.質譜背景和噪聲考慮因素。

  選擇閾值3σ作為說明代謝物存在所需的強度。例如,如果我們檢查色氨酸[2Mtp+K]+質量(圖3c),我們發現該閾值產生96%的正確分類。如圖3d所示,還可以對板上的每個點顯示該檢測方案。板邊緣的誤差聚類表明MALDI雷射位置和液滴點位置之間的微小偏差是誤差的來源。

  數據板統計分析

  在實踐中,一個化合物將與多個峰相關聯,並且具有不同的信噪比和用途。對於給定的代謝組,研究人員需要確定哪種m/z峰值最適合識別每個庫的元素。

  每個高解析度FT-ICR質譜包含?2×106 m/z 點。由於質譜空間的大部分是背景,因此首先將特徵的數量減少到統計上有用的特徵數量。而後研究人員測試了所有質譜的系綜平均值(ensemble average)中發現的1444個候選峰,用來確定m/z處的強度對編碼數據值的分類精度(圖 4a)。

  圖4

  雖然這些峰值的識別沒有化學偏差,但許多特徵可以歸因於已知的代謝物加合物離子。相關加合物質量的直方圖如圖4b所示。

  達到70-100%範圍內檢測精度的峰數如圖4c所示。選擇每種代謝物的最佳表現峰值,並應用2.5σ的檢測閾值,足以恢復約2%累積讀/寫錯誤的數據(圖4e)。 相應的輸入和輸出數據圖像如圖4f和4g所示。

  利用邏輯回歸對多峰數據進行解碼

  假設鑑別峰值是部分不相關的(如圖D所示),利用每個代謝組的多個m/z峰來尋求改進是合理的。這樣的策略將在更複雜的代謝組中變得越來越重要。

  圖D

  研究人員使用類似6kb ibex圖像類似的技術,從埃及墳墓中編碼了17424位的貓圖像(使用了1452個點),其中包含庫中12個代謝物子集的數據混合物(圖5a)。他們使用這些數據來擴展解碼方案,使其包含多個m/z特性。

  圖5

  在確定一組統計鑑別峰之後,研究人員使用1到16個表現最好的峰進行邏輯回歸。多質量回歸對整個cat圖像的讀取準確率為97.7%(圖5c)。

  圖4和圖5中的數據的累積讀取錯誤率顯示為邏輯回歸中使用的質量數的函數。

  將這些技術應用於早期的ibex數據集,可以實現<0.5%的錯誤率。但是,重複測量斑點會導致數據丟失。研究人員還發現,每次連續讀取數據板都會增加<1%的誤差(圖E)。

  圖E

  使用不同的板進行訓練可以獲得相同的精度而不會過度擬合(圖F)。

  圖F

  總而言之,上述實驗表明:代謝組是一種可行且強大的表示數字信息的媒介。

  參考連結:

  https://www.newscientist.com/article/2208439-data-can-now-be-stored-inside-the-molecules-that-power-our-metabolism/

  https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0217364

本文首發於微信公眾號:新智元。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

(責任編輯:李顯傑 )

相關焦點

  • 文件居然可以存儲在胺基酸分子溶液裡
    原來,不只DNA能夠存儲數據,小分子溶液也可以。上周,報導了DNA數據存儲的新聞,不僅16G的維基百科能夠存儲到一個DNA分子上,就連存儲全球的數據也只需要1kg DNA。而近期,布朗大學的研究人員受此啟發並發現:DNA並不是唯一可以用於數字存儲的分子。事實證明,含有糖、胺基酸和其他小分子的溶液也可以取代硬碟。
  • 猜想木乃伊之謎,DNA記憶存儲,複製人是否有本體記憶?
    大家都知道人之所以能證明自己的存在過這個世界上都靠記憶發生過的事如果你失去了記憶就不知道自己是誰了電影裡很多發生過車禍的人,或者重大創傷的人,失去了自己的記憶忘記了自己是誰記憶到底存儲在哪裡現在還沒有一個準確的定論
  • 存儲技術新突破 採用有機小分子長期穩定存儲
    你需要的僅僅是一名化學家、便宜的分子以及寶貴的信息。因此,這個方案與基於DNA的方案相比,勞動密集程度更低,也更便宜。 團隊選擇了寡肽(兩個或者更多的肽綁定在一起)作為他們的輕量分子。寡肽很常見,也很穩定,而且比DNA、RNA或者蛋白質都更小。 根據它們的胺基酸數量與種類,各種寡肽的質量也不同。即使混合在一起,它們也可以互相區分開來,就像字母湯裡面的字母一樣。
  • 存儲技術新突破:採用有機小分子長期穩定地存儲信息!
    創新現在,哈佛大學開發的一種存儲信息的新方法,可穩定地存儲數據達數百萬年。它處於會遭到黑客攻擊的網際網路之外,而且在寫入數據之後不會消耗能量。你需要的僅僅是一名化學家、便宜的分子以及寶貴的信息。(圖片來源:Michael J.
  • DNA:終極數據存儲方式
    在人類的基因序列中,1克的重量就可以包含幾十億GB的數據,而1毫克分子的信息存儲空間就可以包含美國國會圖書館 全部的書籍,並且還有剩餘。在過去,這些只是理論上的概念。現在,最新的一項研究表明,研究人員可以把一部遺傳學教科書的內容存儲到1微微克 (picogram,相當於萬億分之一克)DNA中,這一技術上的突破很可能會革命性的提升人類存儲信息的能力。
  • 可植入人體,可存儲DNA
    如何突破現有存儲設備限制,實現更高效、更大容量的存儲是當下技術人員研究的重點。在人們的印象中,蠶絲最主要的用途就是作為紡織材料,如今科技的發展正在不斷突破人們的想像。製作蠶絲硬碟的過程有點像「攤大餅」,利用近紅外納米光刻技術往蠶絲硬碟裡寫入信息則像是在大餅上撒芝麻,整道工藝完成後,「大餅」表面的凹凸痕跡就類似「0」和「1」的數位訊號,通過解碼即可獲知所存儲的信息。
  • Nature:用2斤DNA就能存儲世界上所有的數據
    高德曼說。那時,他是位於英國欣克斯頓的歐洲生物信息研究所(European Bioinformatics Institute (EBI))的小組負責人。的確,與矽質存儲晶片的毫秒級讀寫速度相比,DNA存儲可能慢的可憐。鹼基通過特定模式合成DNA鏈要花數小時,而通過測序來解讀信息又要花費數小時。但是用DNA,人類全基因組都可以存儲到一個肉眼所不能見的細胞內。
  • 類似DNA的分子被創造,可存儲傳遞信息
    類似DNA的分子被創造,可存儲傳遞信息在NASA資助的一項研究突破中,科學家們成功創造了一種分子系統,可以像DNA一樣存儲和傳遞信息。眾做周知,DNA是地球絕大部分生命的遺傳信息載體。這項研究由由佛羅裡達阿拉庫應用分子進化基金會的Steven Benner領導的一個研究小組突破,他們成功地構建了一種類似DNA的新型信息分子系統,最令外界吃驚的是:這種新分子有8種信息成分,而不是DNA的4種,這意味著這種分子能存儲更多的信息。
  • DNA存儲,拯救人類數據危機的良方?
    現有存儲方式,比如說一個數據中心,要消耗大量的單晶矽,還要消耗大量的電。而DNA物質只需保存在陰涼、乾燥的地方就可以,基本不需要額外的人工維護。就算需要把DNA冷凍起來,消耗的資源和能源也幾乎可以忽略不計。此外,最重要的一點就是,保存時間非常久。現在高密度的存儲器都會隨著時間推移而衰減,能存儲時間最長的工具是磁帶,其壽命也就50年,其他的存儲器壽命更短。
  • 存儲能力驚人 哈佛科學家將一部電影上傳到了DNA中
    騰訊科技訊 據外媒報導,復活猛獁象一直是許多科學家的夢想,現在我們離將其變成現實又近了一步,因為人類讀取生物DNA中存儲信息的技術正在快速提高
  • 在DNA上存儲信息或即將成為現實
    包括美國國防高級研究計劃局(DARPA)在內的幾家機構已經開發了基於DNA的存儲系統,這種系統能夠將各種信息編碼到微小而穩定的分子鏈中,分子鏈能夠持續數千年。只有一個問題:製造編碼信息的獨特DNA成本十分高昂。據《連線》雜誌報導,印製目前錄製一分鐘立體聲音所需的150萬對鹼基對,成本約為10萬美元。
  • DNA數據存儲,有了新方法
    美國北卡羅萊納州立大學的研究人員在《自然通訊》發表論文稱,他們開發了一種全新的DNA數據存儲系統,可使用戶在不破壞原始文件的情況下讀取或修改數據文件,並且具有更強的實用性。  「現有的大多數DNA數據存儲系統都需要通過聚合酶鏈式反應(PCR)來訪問存儲的文件,這在複製信息方面非常有效,但也帶來了一些重大的挑戰。」論文共同通訊作者、北卡州立大學化學與生物分子工程學的助理教授Albert Keung說,「我們開發了一種不依賴PCR的『動態操作且可重複使用的信息存儲系統』(DORIS),解決了DNA數據存儲技術在實際應用中面臨的一些關鍵問題。」
  • 記錄遺傳信息的DNA可能成為存儲載體嗎?
    但是你有沒有想過,隨著生物科技的發展,未來某天,來源於人體內部的基因和DNA可能會成為新的存儲方式呢?2013年,Ewan Birney和NickGoldman的研究團隊用三年時間成功將一些莎士比亞的詩、一張JPG格式圖片、一份關於DNA分子結構的PDF學術論文以及馬丁路德金演講「我有一個夢想」的26秒片段等信息存進了微量DNA裡。理論上來講,DNA存儲相對於其他存儲方式來說優勢明顯,DNA具有體積小、容易獲取、存儲量大(10噸DNA即可存儲人類目前所創造的所有數字信息)等特點。
  • DNA存儲有望成現實 基因晶片概念股受關注
    據外媒報導,歐洲生物信息研究所(EMBL)的研究人員開創了一個新途徑,可以將數據資料存儲在DNA裡,而DNA是一種可以存放數萬年的材料。
  • 【地球周報】神奇的DNA 竟然可以存儲電影
    為什麼呢,因為我全身是細胞,細胞裡有DNA。《紐約時報》報導,哈佛大學的研究人員把電影片段放在了細胞DNA中存儲,可以被隨意訪問和無限複製。這是一部1878年拍攝的關於馬的電影。遺傳學家們將這部電影中每一幀畫面的每個像素都指定了一個DNA編碼,最後獲得了一個代表整部電影的DNA序列,他們利用基因編輯技術,把這個DNA序列插入到一種腸道細菌的基因裡面。
  • 有機電池:可用於存儲來自風力渦輪機和太陽的能量
    它屬於「氧化還原液流電池」類型,具有大容量,可用於存儲來自風力渦輪機和太陽的能量,用作汽車的移動電源。氧化還原液流電池是固定電池,其中的能量位於燃料本身中的電解質裡,就像燃料電池一樣。它們經常以「eco」開頭,因為它們開啟了存儲來自太陽和風力等額外能源的可能性。
  • 我,就是數據:高中生把數據編入體內,1公斤DNA 未來可儲存全球數據
    把希伯來語和阿拉伯語的字符轉換成DNA鹼基的特定組合,然後用購買的病毒編輯到DNA鏈裡,最後用注射器注入自己的大腿(詳細內容見文末附錄)。除了這位高中生之外,上周,一家位于波士頓的初創公司Catalog宣布,他們將維基百科英文版一共16G的所有文本存儲在了一個DNA分子上!
  • FC存儲和IP存儲 兩者可以兼得?
    FC存儲和IP存儲 兩者可以兼得?    AXUS推出新一代一體化統一系統---T4116,是一款可以搭建FCSAN(或DAS)+IPSAN+NAS三種存儲於一體的統一存儲系統。T4116是一套高度集成化、模塊化、熱插拔存儲系統,通過獨立的4GFC/8GFC存儲控制器實現安全快速的FCSAN服務,通過獨立的IPSAN和NAS控制器實現便利的IP存儲服務。
  • 手機存儲告急?三步教你瘦身
    ,你就可以看到下面的這張圖。因為我幾乎每天都在跟緩存做鬥爭,所以這個截圖裡的緩存並不多。這裡邊有一個注意事項,大家儘量不要選擇長按 APP 裡的「移除 APP」而是到設置裡的「iPhone 存儲空間」找到這款 APP,選擇裡面的「刪除 APP」,這樣會得到最大空間的釋放。
  • 當聽到蠶絲竟然能用來存儲數據時,你的第一反應是什麼?
    說起蠶絲製品想必大家不陌生,關於蠶絲最初的印象就是武俠電影裡刀槍不入的天蠶寶甲(真假無考究);隨後就是讓我們感到自豪的絲綢,幾千年以來,絲綢幾乎就成為了東方文明的傳播者和象徵。現在,蠶絲又有了新的應用,那就是作為硬碟來存儲數據。聽到這你肯定以為我在胡說八道,但事實就是如此。