未來一定是一個數據爆炸的時代!
5G、物聯網和人工智慧等信息技術的快速發展,使得信息量呈指數級增長。根據國際機構IDC預測,全球數據產生量將從2018年的33ZB快速增長至2025年的175ZB,1ZB約相當於10億TB(太字節)的數據量存儲。
這有多恐怖呢?舉個很簡單的例子:數據單位從小到大分別為KB、MB、GB、TB、PB、EB再到ZB,如果將1ZB文件加載到1TB硬碟中,則需要轉換大約10億個1TB硬碟。如果它是連接的,那麼繞地球旋轉兩次都足夠了!
然而目前的存儲技術卻完全滿足不了未來的需求。
正是在新一輪數字洪流噴薄而出的背景下,DNA存儲數據這一思路被提出來。DNA存儲技術作為未來潛在的無限存儲方式,或將打開數據存儲的新紀元。
DNA是如何實現數據存儲的?
DNA存儲是一種相對於傳統存儲設備的生物存儲技術。它是一種用人工合成的脫氧核糖核酸(DNA)存儲文本文檔、圖片和聲音文件等數據,隨後完整讀取的技術。
其原理本身並不複雜!
我們知道,電腦上存儲的數據是依據電壓的高和低代表0和1來表示的,每一個數字、字符和標點符號都由唯一的一串01組合來構成。比如小寫字母「e」的代碼是:01100101,因此,任何數位化的內容(視頻,圖片,文字)本質上都只是一串串的0和1而已。
那麼,DNA的存儲原理實際上就是把原本這些用0和1來表示的內容,換成用鹼基:A,C,G,T來表示,這是一個從數位訊號到化學信號的過程。而且由於鹼基有四個,相比起原本的0和1,我們可以用來多表示兩個狀態,比如,我們可以假設用A代表00,C代表01,G代表10,T代表11。一個本來要用8bit代表的字符用DNA編碼的話,只需要用4個化學鹼基,比如上面的小寫字符「e」編碼成為DNA序列就是:CGCC。
DNA可以以遠超過電子設備的密度精確存儲大量數據。根據《新科學家》雜誌報導,1克DNA理論上攜帶有455EB的數據。在這樣的密度下,1kg DNA就能儲存全球數據。
在應用場景上,DNA存儲大概可以分為以下幾類:
1. 歸檔場景,其中美國國家圖書館、維基百科、Google有意願將資料備份在DNA存儲上;
2. 在軍事用途應用中,可以通過人體攜帶DNA數據,有了DNA存儲技術,我們人體就是「雲硬碟」;
3. 在個人應用中,未來個人可以隨身攜帶超大容量的DNA USB數據盤。
而且相較於傳統的硬碟、存儲器等存儲介質,DNA存儲還具有以下優勢:
(圖為目前常見存儲產品形式)
DNA存儲優勢初現,引領企業爭相角逐
DNA存儲雖然作為一個比較新的概念,但卻早已不是「PPT產品」。
早在2012年,哈佛大學研究人員就用DNA儲存了一本五萬字的圖書。2016年,哈佛大學醫學院也第一次利用這樣的技術把這一張「奔跑的駿馬」的Gif放進了活大腸桿菌的DNA裡,而且還能重新測序並解碼出來。
同樣是2016年,華盛頓大學和微軟研究院的團隊,他們更進了一步,把莎士比亞的十四行詩、馬丁路德金的演講原聲、醫學論文等資料共計739KB的數據編碼成了DNA序列,並存儲起來,這個技術以此為標記取得了巨大的進步。
2019年年初,微軟宣布在概念驗證測試中,微軟已經演示了第一個全自動DNA數據存儲系統。這將是 DNA 存儲技術從實驗室走向商業數據中心的關鍵步驟。
正如微軟所說,「假如合成 DNA作為存儲手段能夠實現的話,那麼合成DNA的成本和提取信息的測序過程成本都需要降下來。」這些過程自動化,對降低合成 DNA 存儲信息的成本極為重要。
在研究的同時,一些企業也圍繞DNA存儲技術加緊推出商業服務。
其中美國初創企業Catalog在2019年宣布,他們已經把維基百科英文版的所有文本,一共16GB,塞進了和我們人類身體相同的DNA分子裡。據悉,Catalog擁有自己的設備,可以每秒4MB的速度將數據寫入DNA中。技術優化應該將這個速度提高兩倍,讓人們在一天內記錄125GB內存的數據,這大約相當於一部高端手機的存儲容量。
此外,全球還有這些企業在DNA存儲領域「逐鹿中原」:
雖然中國在DNA存儲技術領域剛剛起步,企業或高校的研究水平目前都不突出,但也有某些企業開始將目光轉向DNA存儲技術。 蘇州泓迅生物科技有限公司是一家專注於合成生物學的DNA技術公司,該公司在DNA存儲技術領域申請了2件相關專利,有自主智慧財產權的編碼轉制軟體,精確、快速的大規模和高通量的合成DNA序列,應用於下一代的信息存儲。
另外,上海吐露港生物科技有限公司與上海生命科學院於2018年在《ACS合成生物學》上共同發表了一篇關於輔助的DNA隱寫術對DNA編碼信息的儲存和轉移的安全處理的文章。 該研究結果可以巧妙地利用Cas12a的trans切割特性,對DNA數據進行加密。
大數據藍海將催生DNA存儲新紀元
DNA存儲是在解決海量數據存儲的背景下應運而生的。而大數據的蓬勃發展必將為DNA存儲帶來廣闊空間。
根據IDC發布的白皮書顯示:每年被創建、採集或是複製的數據集合就是全球數據圈,2018 至 2025 年全球數據圈將增長5倍以上。IDC預測,全球數據圈將從2018年的33ZB增至 2025年的175ZB。屆時不僅將會對全球數據中心的建設產生影響,同時也會對數據的存儲發起挑戰。
此外,從數據量和存儲空間來看,在2018年,全球已安裝的存儲容量為 5.0ZB,到2025年預計屆時全球容量大約為16.5ZB。這與全球2025年將產生175ZB的數據量相比,遠遠不夠。
而中國存儲市場將率先享受到海量數據帶來的紅利。
IDC發布的白皮書顯示:中國數據圈增速最為迅速,平均每年的增長速度比全球快 3%。2018 年,中國數據圈佔全球數據圈的23.4%,即7.6ZB。預計到2025年將增至 48.6ZB,佔全球數據圈的 27.8%,中國將成為全球最大的數據圈。
從不同存儲類型的存儲容量增長情況來看,即使電影和音樂從DVD 和CD 遷移到流媒體,在中國市場,磁碟和光碟仍將繼續發揮重要作用。但隨著數據的爆炸式增長,可以預見的是這部分市場將被率先被取代。
從研發到商業落地,DNA存儲的技術瓶頸亟待打破
DNA存儲要想完成從研發到商業化的華麗轉身,就必須打破現有的技術瓶頸。
其中數據的輸入和讀取效率一直是阻礙DNA 儲存技術商業化的最大瓶頸之一,今年年初微軟首次實現了全自動 DNA 信息存儲,僅僅是編碼「hello」五個字母,從轉換到讀取就要花費 21 小時。但在現有技術下,這已經算是非常快的速度了。
其次,與現在幾百塊的硬碟相比,成本高企也是目前DNA存儲的「阿克琉斯之踵」。據早前《Wired》雜誌報導,存儲一分鐘立體聲音所需150 萬對鹼基對,成本約為10萬美元。如果成本不能大幅降低,那麼將無法進入實用環節。
現階段下,如果DNA存儲能夠解決這些瓶頸,那麼距它迎來高光時刻也就不遠了。
從結繩記事到竹簡紙張,從計算機存儲到光碟刻錄,人類從未停止追求更加高效便捷的信息存儲方式,信息存儲方式的變革很大程度上也塑造著我們獲取信息和認知世界的方式。
本文來自: 前瞻網