根據Domo的數據,2020年每分鐘,谷歌進行400萬次搜索,用戶在YouTube上觀看了433萬段視頻,發送了204,000,000封電子郵件,發了27萬次推特,在Instagram上發布了21萬張照片。到 2021年,全球人均每秒將創造約 1.7 兆字節的數據,假設世界人口為 78 億,一年可創建約 418 ZB(4180 億 個1TB 硬碟的信息價值)。目前的磁性或光學數據存儲系統通常不能持續超過一個世紀,此外,運行數據中心需要大量能源。簡而言之,我們即將遇到嚴重的數據存儲問題,隨著時間的推移,這個問題只會變得更加嚴重。
1.DNA存儲時間長
基於 DNA 的數據存儲,DNA由核苷酸A、T、C、G的長鏈組成,是生命中的信息存儲材料。數據可以按這些字母的順序存儲,將DNA轉化為一種新的信息技術形式。它已經可以常規地排序(讀取),合成(寫入),並輕鬆地準確地複製。DNA也非常穩定,遠古的化石樣本完全基因組測序就證明了這一點,儲存它不需要太多的能量。
2.DNA存儲容量大
DNA可以用遠遠超過電子設備的密度來儲存大量數據。例如,根據哈佛大學喬治·丘奇(George Church)及其同事在《自然材料》上發表的計算,簡單的大腸桿菌的儲存密度約為每立方釐米1019位。在這種密度下,目前世界上一年的儲存需求可以通過一個大約一米的DNA立方體很好地滿足。
3.DNA技術可行性高
DNA數據存儲不僅僅存在於理論中,實際的可行性高。例如,2017年,哈佛大學的教會小組採用了CRISPR DNA編輯技術,將人類手掌的圖像記錄到大腸桿菌的基因組中,這些圖像的讀取精度超過90%。華盛頓大學和微軟研究公司的研究人員已經開發出一種全自動系統,用於編寫、存儲和讀取DNA編碼的數據,包括微軟和Twist生物科學在內的許多公司都在努力推進DNA存儲技術。
與此同時,DNA已經被用來以不同的方式管理數據,研究人員正在努力理解大量的數據。下一代測序技術的最新進展使數十億個DNA序列能夠同時輕鬆讀取。有了這種能力,研究人員可以使用DNA序列作為分子識別"標籤"來跟蹤實驗結果。
目前存在的挑戰是DNA數據存儲成本較高,讀取和寫入的速度並不能支持大規模商用。幾乎可以肯定的是DNA會用於以全新的尺度生成信息,並長期保存某些類型的數據,促進整個存儲工業的發展。
近日,北卡羅納州立大學(North Carolina State University,以下簡稱NC)的研究人員開發了一種全新的DNA數據存儲系統方法,使用戶能夠讀取或修改數據文件,而不會破壞它們,並使系統更易於擴展實際使用。
"大多數現有的DNA數據存儲系統依靠聚合酶鏈式反應(PCR)來訪問存儲的文件,這在複製信息方面非常有效,但也帶來了一些重大挑戰,",論文的共同作者Albert Keung說。"我們開發了一種稱為動態操作和可重用信息存儲技術DORIS(筆者註:DORIS是Dynamic Operations and Reusable Information Storage的縮寫),該系統不依賴於 PCR。這有助於我們解決實際實施 DNA 數據存儲技術所面臨的一些關鍵障礙,Keung 是北卡羅來納州立大學化學和生物分子工程助理教授。
目前的系統依賴於稱為引物結合序列(primer-binding sequences)的DNA序列,這些序列被添加到存儲信息的DNA鏈的末端。簡而言之,DNA的引物結合序列用作文件名。當您需要文件時,您可以檢索帶有該序列的 DNA 鏈。
DNA 數據存儲技術的許多實際障礙都圍繞著使用 PCR 來檢索存儲的數據。依賴PCR的系統必須大幅度提高和降低存儲的遺傳物質的溫度,以便將DNA雙鏈撕開並顯示引物結合序列。這導致所有的引物結合序列和數據存儲序列自由地混在「基因湯」中。現有技術可以對基因混合物進行排序,以便使用 PCR 查找、檢索和複製相關的 DNA。溫度波動對於開發實用技術來說是個問題,PCR 技術本身逐漸消耗正在檢索的文件的原始版本。
DORIS採取了不同的方法。DORIS不使用雙鏈DNA作為引物結合序列,而是使用由單鏈DNA組成的"懸空"——就像一條尾巴,它系在實際存儲數據的雙鏈DNA後面。雖然傳統技術要求溫度波動撕開DNA以找到相關的引物結合序列,但使用單鏈游離意味著DORIS可以在不幹擾雙鏈DNA的情況下找到適當的引物結合序列。
論文的共同作者、NC電氣和計算機工程教授詹姆斯·塔克(James Tuck)表示:"換句話說,DORIS可以在室溫下工作,這使得開發在真實場景中的DNA數據管理技術更加可行。
不必撕開DNA鏈的另一個好處是,懸垂中的DNA序列可以與在數據文件的雙鏈區域找到相同的序列。在不犧牲信息密度的情況下,基於 PCR 的系統很難實現這一點,因為系統無法區分引物結合序列和數據存儲序列。
文的第一作者、NC博士生Kevin Lin說:"DORIS使我們能夠顯著提高系統的信息密度,也使得處理大型資料庫變得更加容易。一旦DORIS確定了正確的DNA序列,它就不會依靠PCR來複製。相反,DORIS將DNA轉錄為RNA,然後通過反向轉錄來讀取的數據存儲系統DNA。單鏈懸垂也可以修改,允許用戶重命名文件、刪除文件或"鎖定"文件,從而有效地使其他用戶看不到這些文件。
存儲材料科學一直處於變革之中,隨著時間的推移,數據存儲的需求增長,一批批新的存儲材料將會應運而生,一家家基於數據存儲的企業也會如雨後春筍破土而出。
BMJ一直致力於前沿科技的研究,2020年投資3000萬成立了分布式存儲產業基金,投資50個數據研究中心,用於分布式存儲相關的技術研究。2021年在全球成立30家分布式存儲實驗室,主要做存儲材料相關領域的技術研究。BMJ分布式存儲,為存儲而來,為服務而生。
筆者註:
PCR:(Polymerase Chain Reaction),聚合酶鏈式反應是一種用於放大擴增特定的DNA片段的分子生物學技術,根據DNA 雙螺旋結構雙鏈互補的特性,通過ATCG鹼基對在短時間內大量複製生成,形成DNA長鏈。
參考文獻:https://news.ncsu.edu/2020/06/dynamic-scalable-dna-data/