我,就是數據:高中生把數據編入體內,1公斤DNA 未來可儲存全球數據

2021-01-10 新智元

新智元原創

來源:cnet、sciencemag等

編輯:金磊、張佳

【新智元導讀】全球每年產生的數據需要4180億個1TB硬碟才能放下,若是把如此龐大的數據放到DNA上,只需 1kg DNA就夠了!最近一家公司將16G的維基百科存儲在了一個DNA分子上讓人驚嘆,DNA存儲已成為最受關注的新興技術之一,「我,就是數據」時代即將來臨。

「我,就是數據」時代悄然將至。

在科幻大片《超體》中,「女超人」Lucy憑藉藥物的作用,大腦不斷被開發,獲得了包括心靈感應、瞬間吸收知識等技能。當大腦開發到100%時,已然達到了「I am everywhere」的至高境界。

Lucy最終化身為超級「U盤」

而目前我們正處於數據爆炸增長的時代,現存的硬碟、3D內存晶片等數據存儲方式已然出現「負荷過重」的跡象。若是要存儲全球的數據似乎是一件較為棘手的事情,更不要提做到像Lucy那般集「全宇宙數據於一身」了。

一種新的方式便應運而生——DNA數據存儲。

其實,這種嘗試早就已經開始了。

去年年底,法國一位16歲高中生Locatelli便將《古蘭經》和《聖經》中的部分內容注入到了自己體內。把希伯來語和阿拉伯語的字符轉換成DNA鹼基的特定組合,然後用購買的病毒編輯到DNA鏈裡,最後用注射器注入自己的大腿(詳細內容見文末附錄)。

除了這位高中生之外,上周,一家位于波士頓的初創公司Catalog宣布,他們將維基百科英文版一共16G的所有文本存儲在了一個DNA分子上!

裡面就是儲存了16G維基百科的DNA

他們相信生物分子的壽命將比最新的計算機存儲技術長得多。

16G的維基百科,只需一個DNA分子便可輕鬆存儲

計算機存儲技術已經從帶磁鐵的電線變成了硬碟,變成了3D存儲晶片。但是下一代存儲技術可能會使用與地球上的生命一樣古老的方法:DNA。

初創企業Catalog近日宣布,維基百科英文版的所有文本都被塞進了我們身體使用的相同基因分子中。也就是說,他們將維基百科英文版一共16G的所有文本存儲在了一個DNA分子上!

Catalog用它的第一臺DNA書寫器完成了這項壯舉。

Catalog的DNA寫入機可以以每秒4兆比特的速度寫入數據,但該公司希望使其速度至少提高1000倍。

至於說這個DNA書寫器有多大,呃,如果你先把家裡的冰箱、烤箱扔掉,再打掉一部分櫥櫃,這臺機器就可以很容易地安裝在你的房子裡啦(機器的大小與一輛現代SUV差不多)。儘管它不太可能很快就將手機的快閃記憶體晶片推到一邊,但Catalog認為,它對一些需要存檔數據的客戶已經很有用了。

DNA鏈很小,很難管理,但是生物分子可以存儲除了控制細胞如何變成豌豆植物或黑猩猩的基因以外的其他數據。Catalog使用了比人類DNA短但更多的預製合成DNA鏈,因此它可以存儲更多的數據。

依靠DNA而不是最新的高科技小型化設備來存儲可能聽起來像是倒退了一步。但是DNA是緊密的,化學上是穩定的,而且因為它是地球生物學的基礎,它可能不會像硬碟驅動器或CD那樣過時,也不會像軟盤驅動器那樣消失。

誰在市場上購買這種存儲?Catalog有一個合作夥伴要宣布, Arch Mission基金會正試圖將人類知識儲存在不只是在地球上,甚至在太陽系的其他地方——就像SpaceX發射到軌道上的Elon Musk的Tesla Roadster一樣。除此之外,Catalog還未透露其他客戶是誰,或者是否會為其DNA寫入服務收費。

該公司在一份聲明中說:「我們正在與政府機構、產生大量測試數據的主要國際科學項目、石油天然氣、媒體和娛樂、金融和其他行業的主要公司進行討論。」

總部位于波士頓的Catalog擁有自己的設備,可以在DNA中每秒記錄4兆比特的數據。優化的速度應該是當前速度的三倍,讓人們在一天內記錄125千兆字節——大約相當於高端手機可以存儲的容量。

傳統的DNA測序產品已經在生物技術市場上銷售,可以讀取DNA數據。「我們認為這一全新的序列技術用例將有助於(大大)降低成本,」Catalog認為計算業務是一個潛在的巨大市場。

Catalog執行長Hyunjun Park和首席技術創新官Nathaniel Roquet於2016年創立了這家公司。當時,Park是麻省理工學院的博士後,Roquet是哈佛大學的研究生。

Catalog使用尋址系統,這意味著客戶可以使用大型數據集。即使DNA以長序列存儲數據,目錄也可以使用分子探針讀取存儲在任何地方的信息。換句話說,它是一種像硬碟一樣的隨機存取存儲器,而不是像半個世紀前大型計算機鼎盛時期的磁帶盤那樣的順序存取。

儘管DNA數據可能會被宇宙射線破壞,但Catalog認為它是一種比其他方法更穩定的介質。畢竟,我們有幾千年前滅絕動物的DNA。我們打個賭,你抽屜裡的U盤在25年後還會用嗎?

DNA存儲數據的意義何在?

近日,《科學美國人》與世界經濟論壇聯合發布了2019年全球十大新興技術,其中一項就是用DNA儲存數據。那麼,用DNA存儲數據的意義何在呢?

據軟體公司Domo稱,2018年,谷歌每分鐘進行388萬次搜索,人們在YouTube上觀看了433萬個視頻,發送了159362760封電子郵件,推特了47.3萬次,在Instagram上發布了49000張照片。

到2020年,全球人均每秒將產生大約1.7兆字節的數據,假設世界人口為78億,這相當於每年約418個zettabytes。這麼多的數據如果放在容量為1TB的硬碟上,需要4180億個硬碟才能放下!

如果是這樣的話,目前的數據存儲系統通撐不過一個世紀。此外,運行數據中心需要消耗大量的能量。簡而言之,我們將面臨一個嚴重的數據存儲問題,隨著時間的推移,這個問題將變得更加嚴重!

因此,硬碟存儲的一種替代方案——基於DNA的數據存儲才顯得尤為重要。由核苷酸A,T,C和G的長鏈組成的DNA是生命的信息存儲材料。數據可以按照這些字母的順序存儲,從而將DNA轉變為一種新的信息技術形式。

它已經過常規排序(讀取),合成(寫入)並且可以輕鬆準確地複製。DNA也是非常穩定的,正如生活在50多萬年前的化石馬的完整基因組測序所證明的那樣,存儲它不需要太多能量。

但是,DNA的存儲容量是讓人驚訝的。DNA可以以遠超過電子設備的密度精確存儲大量數據。例如,根據哈佛大學George Church及其同事於2016年發表在「Nature Materials」雜誌上的計算,簡單的大腸桿菌的存儲密度約為每立方釐米1019比特。

在這樣的密度下,一個邊長約一米的DNA立方體可以很好地滿足全世界一年的數據儲存需求,換個維度講,1kg DNA就能儲存全球數據。

全球數據只需1kg DNA就能儲存

DNA數據存儲的前景不僅僅是理論上的。例如,2017年,哈佛大學的Church小組採用CRISPR DNA編輯技術,將人手的圖像記錄到大腸桿菌的基因組中,並以高於90%的準確率讀出。華盛頓大學和微軟研究院的研究人員已經開發出一個完全自動化的系統,用於編寫、存儲和讀取DNA編碼的數據。包括微軟和Twist Bioscience在內的一些公司正在致力於推進DNA存儲技術。

與此同時,DNA已經被研究人員用來以不同的方式管理數據,這些研究人員努力處理海量的數據。新一代測序技術的最新進展使得數十億個DNA序列可以輕鬆同時讀取。有了這種能力,研究人員可以使用DNA序列的條形碼作為分子識別「標籤」,以跟蹤實驗結果。DNA條形碼正被用於大大加快化學工程、材料科學和納米技術等領域的研究步伐。例如,在喬治亞理工學院,James E. Dahlman的實驗室正在迅速確定更安全的基因療法;其他人正在研究如何對抗耐藥性和防止癌症轉移。

使DNA數據存儲變得通用的挑戰之一是讀取和寫入DNA的成本和速度,如果要與電子存儲競爭,則需要進一步降低這些成本和速度。即使DNA沒有成為一種無所不在的存儲材料,它幾乎肯定會被用來以全新的方式生成信息,並長期保存某些類型的數據。

DNA能夠存儲數據,是否也可遺傳?

前不久,新智元報導了一篇文章——頂級學術期刊《CELL》同日連續發表兩篇重磅文章,研究人員在對線蟲的研究中發現,記憶可以被遺傳,甚至持續3-4代!

在2016年的SXSW大會上,南加州大學教授Theodore Berger宣布了一個轟動整個科技界的消息:

在對猴子、老鼠的實驗中,通過人造海馬體完成了短時記憶向長期儲存記憶「幾乎完美」的轉換,這項技術可以完成對人腦記憶的備份,並複製到其他人的大腦中。

這就意味著記憶有可能「遺傳」給後代。

而近日,愛思維爾(Elsevier)出版公司旗下的細胞出版社(Cell Press)雜誌《CELL》同日發表了兩篇重磅文章——記憶居然真的可以遺傳!

文章地址:

https://www.cell.com/cell/fulltext/S0092-8674(19)30448-9

文章地址:

https://www.cell.com/cell/fulltext/S0092-8674(19)30552-5

這兩項重磅的研究結果表明:至少在線蟲(C.elegans)這樣的生物中,記憶可以被遺傳,且可以維持3-4代。堪稱顛覆認知!

記憶的遺傳,或是另一種「永生」?

縱觀歷史,有無數人在尋找著永生不死的方式——他們或修煉自己的精神世界,或求助於丹藥、或修建宏偉的寢陵,想以此實現精神的延續和永存,但無一成真。

今天,我們藉助科學發現,人們對「永生」的研究也不斷在持續著。

新智元此前報導過《Nature重磅封面:復活死亡大腦!》——耶魯大學的最新研究表明,豬大腦在死亡4小時後成功復活,並維持了至少6小時。

這項研究掀起了一波道德倫理的輿論浪潮,有人擔心這是否就會是殭屍啟示錄的開始;但同時還有人認為,讓一些偉人的大腦復活,實現意識和記憶的「永生」,將具有重大的意義。

而這次科學家們的發現可謂是顛覆了我們的認知。

原來信息竟然可以通過神經代代相傳,加之這次DNA可以存儲海量數據,不知道這是不是另一種「永生」的方式呢?

附:16歲高中將《古蘭經》和《聖經》注入體內

去年年底,法國一位16歲高中生Locatelli將《古蘭經》和《聖經》中的部分內容注入到了自己體內。他將文本轉換成了DNA,並注射到了自己的大腿上。

12月3日,他還將這項實驗的文章發表到了Open Science Framwork(OSF)上。

論文地址:

https://osf.io/yj8xw/

從邏輯上來講,這項壯舉並不難。Locatelli首先用一個基本的系統將文本翻譯為構成DNA的核酸。

在聖經《創世紀》中,他將22個希伯來字母轉換成四種可能的核酸:胞嘧啶、胸腺嘧啶、鳥嘌呤或腺嘌呤。胞嘧啶和胸腺嘧啶分別代表五個字母,鳥嘌呤和腺嘌呤分別代表六個字母。

這張表是從《古蘭經》的獨立(isolated)字母中汲取靈感而開發的

在阿拉伯語文本中,Locatelli去掉了28個字母中的5個,並給了其中3個獨特的核酸,允許Ra和Sad共享胸腺嘧啶。在這兩種情況下,Locatelli都忽略空格、標點符號和變音符號。

這張表的靈感來自希伯來字母和DNA密碼錶

然後,他分別從VectorBuilder和ProteoGenix公司購買了定製的DNA鏈,以及用於將新DNA插入細胞的良性病毒。他買了一些生理鹽水和注射器就出發去參加了比賽。注射後,他只出現了輕微的過敏反應。

Locatelli說:「我做這個實驗是為了宗教和科學之間和平的象徵。」

但是,加州大學洛杉磯分校的生物化學家Sriram Kosuri表示,他不能確定Locatelli的方法是否真的有效;無法評估病毒載體是否成功地將合成的DNA導入了Locatelli細胞。

這位少年的研究確實表明,在DNA中存儲任何類型的信息並不是一件很難的事情。這是一種非常高效的存儲方式,這就是為什麼科學家們一直把它看作是在緊湊空間中安全存儲大量數據的一種方式。

到目前為止,儘管生物技術公司正在競相尋找更便宜的方法,但製造用於數據存儲的合成DNA的成本高得令人望而卻步。

當然,商業存儲的目標是能夠將其轉換回可用的信息。從理論上講,如果新的DNA被正確地植入Locatelli的細胞中,細胞會像他自己的DNA一樣複製,也就是說他自己進行了基因編輯,那麼基於文本的DNA就可以被翻譯成文本。

然而,這可能並沒有發生。最先進的醫學研究剛剛開始開發基因療法。即使人工合成的DNA被保存下來,最初的文本轉換也非常不精確,很難重現真實的文本。

參考連結:

[1]https://www.cnet.com/news/startup-packs-all-16gb-wikipedia-onto-dna-strands-demonstrate-new-storage-tech/

[2]https://qz.com/1508028/a-teen-injected-dna-coded-with-the-bible-and-quran-into-his-leg/

[3]https://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room

[4]https://www.vice.com/en_us/article/wj3yy9/this-teen-translated-a-bible-verse-into-dna-and-injected-it-into-himself

[5]https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496

相關焦點

  • 1公斤DNA就能存儲全球數據!未來人體就是行走的超級「硬碟」
    未來一定是一個數據爆炸的時代!5G、物聯網和人工智慧等信息技術的快速發展,使得信息量呈指數級增長。根據國際機構IDC預測,全球數據產生量將從2018年的33ZB快速增長至2025年的175ZB,1ZB約相當於10億TB(太字節)的數據量存儲。這有多恐怖呢?
  • 以國家級標準銷毀儲存媒體數據
    NISPOM這份手冊涵蓋的範圍很廣,數據清除與銷毀只佔舊版手冊(95年1月發布,97年7月修正)第8章第3節的一部分,其中提供了一個清除與銷毀數據方法的參考矩陣表。舉例來說,所有內部存儲器、緩衝區或其他可重複使用的內存,都必須執行清除,以有效杜絕讀取先前儲存的數據。 ● 銷毀(Sanitization):在重新使用媒體之前,徹底刪除媒體中數據的程序,且在銷毀媒體中數據之前,作業環境無法提供可接受的保護等級。例如,當信息系統資源從保密信息管制下釋出、或釋出到較低的保密層級使用前,都必須執行數據銷毀。
  • DNA存儲,拯救人類數據危機的良方?
    DAN本身的物理體積極小且又是立體結構,單位空間的數據密度非常高。舉個簡單的例子,1克DNA不到指尖上一滴露珠大小,卻能夠儲存700TB的數據,相當於1.4萬張50GB容量的藍光光碟,或233個3TB的硬碟(差不多151KG重)。再則,非常節能。現有存儲方式,比如說一個數據中心,要消耗大量的單晶矽,還要消耗大量的電。
  • 應對全球變暖,數據分析是不可或缺的工具
    全球變暖是指地球長期平均氣溫上升,二氧化碳、甲烷和一氧化二氮等氣體的擴散引發了實質性的轉變。自1990年以來,溫室氣體排放量的增加導致全球氣溫急劇上升。與100年前相比,地球的平均氣溫上升了1攝氏度。氣候科學家擔心在未來的200年內,全球平均氣溫會上升近6攝氏度。 為應對全球變暖,各國需要一項有效的行動計劃。
  • NASA著急了:希望向全球分享數據
    當然更多的就是後者,無論是我國在月表自動採樣、樣品的封裝與保存、月面動力上升、採樣返回軌道設計、地球大氣高速再入、月球軌道交會對接、多目標高精度測控通信、月球樣品儲存和地面實驗室分析等關鍵技術,都是首次實施。
  • Datum達騰數據CEORoger Haenni:讓數據權利回歸用戶
    無論是中國企業還是外企必然要求基於此調整企業信息系統的架構,Datum(達騰數據)團隊期望可以藉助自身的技術協助相關企業建立一套可持續的、完整的個人信息保護管理框架。據Datum達騰數據CEO Roger Haenni(羅傑翰尼)介紹,1個月前Datum軟體開發工具包(SDK)被公開,目前已處於激活狀態,可供獨立開發者測試。
  • 全球及中國水果行業數據簡析
    1.1 全球與中國圖1.1(數據來源:農小蜂;圖表繪製:唯恆農業)我們選取了2008~2016年全球水果產業產量與種植面積,發現不管是產量還是種植面積都在逐年穩步增長,水果產業並未像很多其他產業一樣,在經歷2008年金融危機後一蹶不振,說明水果是人們日常生活的剛需,是一個值得長期投資的優良產業。
  • 寫得數據,存得DNA,可植入...
    在生物技術和半導體的深入融合下,生物儲存的新興技術應用也日益廣泛。除了我們熟知的數據儲存,它竟然還能存儲DNA、疫苗等繁雜的生物信息,甚至可以植入生物體使用?蠶絲硬碟一平方英寸(約6.45平方釐米)的面積上可儲存64GB數據,一顆3.5英寸蠶絲硬碟需要的蠶絲連0.1克都不到,未來存儲器成本極大降低,硬碟價格低至白菜價也不是沒可能。到目前為止,團隊已經實現家蠶食葉圖、空谷鳥鳴圖等圖像和音頻文件準確記錄、存儲和「閱讀」原理驗證。相關成果以長文形式發表在國家知名期刊《自然》子刊上,相關技術已申請專利。
  • 空客製造用於收集冰雪數據的CryoSat-2衛星十歲了
    這顆由空中巴士製造重達720公斤的衛星,各項實際指標非常健康,因此獲得了追加項目資金,使其可持續運營到2021年底。在過去的十年裡,此衛星的使用可用度接近99%並提供了約350TB的數據,相當於1400公裡長的書架所存放的內容。
  • 數據 25個令人大開眼界的大數據現象及有趣事實
    2016 年的網絡流量將會到達 1.3 ZB(Zettabyte = 10^21 bytes)。  根據 IDC 跟 EMC 的研究分析,估計了 2020 年時,數碼數據量將會從 3.2 ZB 成長到 40 ZB。  企業所獲取且儲存的數據量每 1.2 年就雙倍成長。
  • 寫得數據,存得DNA,可植入人體
    在生物技術和半導體的深入融合下,生物儲存的新興技術應用也日益廣泛。除了我們熟知的數據儲存,它竟然還能存儲DNA、疫苗等繁雜的生物信息,甚至可以植入生物體使用?蠶絲硬碟一平方英寸(約6.45平方釐米)的面積上可儲存64GB數據,一顆3.5英寸蠶絲硬碟需要的蠶絲連0.1克都不到,未來存儲器成本極大降低,硬碟價格低至白菜價也不是沒可能。到目前為止,團隊已經實現家蠶食葉圖、空谷鳥鳴圖等圖像和音頻文件準確記錄、存儲和「閱讀」原理驗證。相關成果以長文形式發表在國家知名期刊《自然》子刊上,相關技術已申請專利。
  • 建築藝術與數據科技完美融合 全球最美的十大數據中心
    以下行業媒體所推薦的全球十大最美的數據中心,以下數據中心排名不分先後:(1)巔峰體驗:Switch公司在密西根州的金字塔形數據中心Switch公司所有數據中心都具有基於專利電源和冷卻系統的商標外觀和內部風格
  • 全球還有多少石油可開採?2019最新權威數據出爐了
    原文標題《全球還有多少石油可開採?2019最新權威數據出爐了》。2019年12月,美國《油氣雜誌》(Oil & Gas Journal)發布了2019年全球石油產量和油氣儲量報告。讓我們看看全球石油行業還有多少家底,各大石油生產國如何攪動行業風波,以及行業未來走向如何。1、全球石油行業家底依然「富足」年年開採,年年有。
  • 什麼是大數據?大數據正在吃掉你的隱私?
    近幾年來,網際網路行業發展風起雲湧,而移動網際網路、電子商務、物聯網以及社交媒體的快速發展更促使我們快速進入了大數據時代。但你真的了解大數據嗎?什麼是大數據大數據。他是數據的集合,簡單來說就是體量巨大的數據。
  • 我是一名數據科學家,但我對大數據持懷疑態度
    編者按:都說未來是數據時代。數據說明一切,數據不會騙人。數據是羅塞塔之石,可破譯一切人類代碼。現實果真如此嗎?紐約大學數據科學教授Andrea Jones-RooyJuly不同意這種說法。因為數據並不是客觀的現實,它也是由人來定義的,會存在各種偏差。所以我們需要仔細甄別,周全考慮。
  • 阿里雲發布大數據產品ODPS 6小時處理100PB數據
    ODPS可在6小時內處理100PB數據,相當於1億部高清電影。此前,全球掌握這種能力的公司僅有Google、亞馬遜等少數幾家。 阿里雲ODPS團隊在一封公開信《人人都可以成為BAT》中表示:工業革命後的200多年裡,人類對物理資源的利用登峰造極,對數據資源的利用卻仍處於起步階段。Google、Facebook、阿里巴巴(滾動資訊)等網際網路公司先行一步,觸碰到了大數據的魅力。
  • 大數據儲存能耗驚人,上理工院士提出「光存儲」解決方案
    上海理工大學校長丁曉東在論壇上表示,上理工去年成為上海市「高水平地方大學」建設試點單位後,以未來光學、智能製造、醫療器械與康復工程三大國際實驗室和系統管理一個特色平臺為載體,推進建設光學工程、系統科學、動力工程及工程熱物理、機械工程、生物醫學工程五大一流學科。
  • 三代測序數據簡單分析
    今天給大家介紹一下之前所做的mtDNA三代測序數據組裝。因為也是初次接觸數據組裝操作,有不全面的地方請讀者見諒,也可在留言區留言指正。1,數據比對首先拿到測序數據,如果已經有標準的參考基因組(例如mtDNA現在使用的是早期組裝的英國人的一條序列rCRS作為參考),我們可以使用李恆編寫的三代測序數據比對軟體minimap2將原始數據GZ.fq比對到參考基因組reference.fa上。
  • 竊取全球數據幾十年,「數據偷窺狂」美國靠這「七種武器」
    這兩個情報部門對Crypto裝置動手腳,讓裝置可輕易被破解,進而解讀數據。 伴隨大數據技術迅猛發展,數據在全球範圍內都成為一項全新的生產資料——數據是資源,是資本,是資產,是新時代的石油。圍繞數據,一場新的爭奪較量雖然剛剛興起,但須臾間已呈白熱化之勢。是誰在攪動風雲?是誰在覬覦全球數據?
  • 全球數據資源
    http://www.noaa.gov/ * 美國國家海洋和大氣局http://www.gispart.com/ *GIS公園-很多GIS知識和信息http://glcfapp.umiacs.umd.edu *可以下很多的免費數據http://www.vgt.vito.be/ *用法國SPOT衛星生產的植被數據解析度1Kmhttp