MIT新研究:用AI把胺基酸序列編碼成曲子,還能「創造」新蛋白質

2020-11-29 大數據文摘

大數據文摘出品

編譯:武帥、蔣寶尚

想要創造一些具有有用特性的全新蛋白質?

沒問題。只要哼上幾個小調就可以了。

在科學和藝術的有機結合下,麻省理工學院(MIT)的研究者開發出了一套系統,用於將蛋白質的分子結構(所有生物體的基本構成物質)轉化為一小段音樂片段。

然後,將這個過程反轉過來,如果你改變幾個音符,還能「創造出」一些自然界中從未見過的全新蛋白質。

此項研究已經發表在了ACS Nano上面。研究下載地址:

https://pubs.acs.org/doi/pdf/10.1021/acsnano.9b02180

它提供了一種將蛋白質的胺基酸序列「翻譯」成音樂序列的系統方法,並且能通過分子的物理特性來確定所屬的聲音。

雖然這些聲音都是為了能使人耳聽到而經過了一定的變換,但是這些變換是基於每個胺基酸分子的實際振動頻率的,這些頻率又是經過量子化學理論計算得來,因此它們和原始的聲音一一對應。

先來聽聽由蛋白質生成的神奇樂曲吧

將蛋白質的胺基酸序列翻譯成這種打擊和節奏聲音的序列

讓AI學習蛋白質的語言,並「翻譯」成樂曲

胺基酸是蛋白質鏈的組成部分,因此,胺基酸所構成的蛋白質長序列被轉化為一系列的音符。

雖然對於那些習慣了傳統音樂的人來說,這樣的音階聽起來並不熟悉,但是聽眾在熟悉之後就能輕鬆地意識到其中的聯繫和差異。Buehler說,在聽完這些胺基酸所產生的旋律之後,他現在能夠分辨出那些具有特定結構功能的蛋白質所對應的胺基酸序列。他會說:「這是一個 beta sheet」,或者「那是一個 「alpha helix」。

Buehler解釋說,整個概念是為了更好地了解蛋白質及其各種變異。蛋白質是構成皮膚、骨骼和肌肉的結構材料,同時也是酶、化學信號物質,以及構成所有生物機器的大量其他功能材料。

但是它們的結構,包括它們將自身轉換成通常決定其功能的形狀所用到的方法,都是極其複雜的。「它們有著自己的語言,並且我們也不知道它是如何運作的,」他說。「我們不知道是什麼使絲蛋白成為絲蛋白,也不知道是什麼模式反映了酶中所發現的功能。我們不知道它編碼方式。」

將蛋白質的語言翻譯成一種人們易於理解的形式,並允許不同方面的信息能夠在不同維度—音高,音量和持續時間上進行編碼。

Buehler 和他的團隊希望收集到關於不同的蛋白質家族之間的關係和差異以及其變異的新見解,並以此探索許多可以用來調整和修改蛋白質結構和功能的方法。和音樂一樣,蛋白質的結構也是分層的,在不同的結構層次上有著不同的長度或時間。

能夠將20種胺基酸轉換成20種音階

研究團隊之後採用了人工智慧系統來研究由多種不同的蛋白質所生成的旋律目錄。他們讓人工智慧系統在音樂序列中引入微小的變化,或者生成全新的序列,然後翻譯回與修改後的序列或新設計的序列所對應的蛋白質。

藉助這個過程,他們可以創造出現有蛋白質的變體。例如,藉助於在自然界中強度最高的材料之一—蜘蛛絲中所發現的蛋白質,製造出與自然進化所產生的蛋白質不同的新品種。

雖然這些研究者可能並不了解這些潛在的規則,「但是人工智慧已經學會了蛋白質的設計語言,」並且它可以對其編碼,創造出現有品種的變體,或全新設計的蛋白質,Buehler如是說。鑑於存在著成千上萬億的潛在組合,當涉及到創造新的蛋白質時,「你不可能從頭開始,但是AI可以。」

「雖然我們不知道模型內部發生了什麼,但是它很有用」

通過使用這樣一個系統,用一組特定種類的蛋白質的數據來訓練人工智慧系統可能需要幾天的時間,但是它之後可以在幾微秒的時間內設計出一種新的變體。

Buehler表示:「沒有其他方法能與之媲美,缺點就是我們並不知道這個模型內部發生了什麼。我們只知道它管用。」

這種將結構編碼為音樂的方式確實反映了更深層次的現實。

「當你在教科書中看到一個分子時,它是靜態的,」Buehler說到,「但它根本不是靜止的。它正在移動和振蕩。每一個物質都是一組振動。我們可以用這個概念來描述物質。」

這個方法尚不允許任何類型的定向修改—諸如機械強度,彈性,或者化學反應性等性質的任何變化基本上是隨機的。「你仍然需要做實驗,」他說,當一種新的蛋白質變體產生時,「沒有方法去預測它會發生什麼。」

該團隊還創造了由胺基酸的聲音開發的音樂作品,這些胺基酸定義了20個新音階。他們創作的藝術品完全由胺基酸的聲音組成。

「它沒有使用任何人造的或天然的樂器,這展示了這種新的聲音源是如何被用作創意平臺的,」Buehler說到。從自然存在的蛋白質和人工智慧生成的蛋白質中提取出來的音樂主題貫穿於整個示例,所有的聲音,包括一些類似於男低音或小軍鼓的聲音,也都來自於胺基酸的聲音。

研究人員還開發了一款名為Amino Acid Synthesizer的免費的Android智慧型手機應用程式,用於播放胺基酸的聲音,並將蛋白質序列記錄為音樂作品。

「Markus Buehler擁有最具創造力的靈魂,他對生物分子內部運作的探索正在以一種最重要的方式促進我們對生物材料的機械響應的理解。」Marc Meyers說到。他是加州大學聖地牙哥分校的一名材料科學的教授,並沒有參與這項工作。

Meyers補充道,「這種將其設想為音樂的方式是一個新穎而有趣的方向。這是最好的實驗音樂。生命的韻律,包括我們心臟的搏動,是重複聲音的最初來源,而這些聲音構成了美妙的音樂世界。Markus已經進入了納米空間,去提取構成生命體的胺基酸的獨特韻律。」

澳大利亞雪梨大學的生物化學和分子生物技術教授Anthony Weiss說到:「蛋白質序列是複雜的,正如蛋白質序列之間的比較一樣。

他表示:麻省理工學院的團隊「提供了一種令人印象深刻,有趣和不尋常的方法來訪問並解釋這種複雜性。……這種方法得益於我們與生俱來的能夠聽到複雜音樂的能力。通過音樂的和諧與不和諧,我們現在有了一個有趣並且有用的工具來比較和對比胺基酸序列。」

相關焦點

  • 把蛋白質序列編碼成樂譜,會奏出怎樣的音樂?
    如何創造出全新的蛋白質?麻省理工學院(MIT)的研究人員可能會告訴你:哼首小曲兒就能行!在將科學與藝術完美結合的道路上,MIT的研究人員開發出了一套非常厲害的系統,它能將所有生物的基本組成——蛋白質的分子結構,轉換成類似於音樂段落的聲音。然後,他們可以讓音樂發生一些變化,再逆轉這一過程,就將音樂轉化成了自然界中從未見過的新蛋白質。
  • ...界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質...
    如何預測蛋白質功能 研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。 他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。
  • 比「生物界AlphaGo」更厲害,MIT:給我一個胺基酸序列,就能告訴你蛋白質功能
    △AlphaFold預測蛋白質結構現在MIT把AI的預測能力又推進了一步,直接通過胺基酸序列預測蛋白質分子的生物學功能,跳過AlphaFold預測蛋白質立體結構的步驟。如何預測蛋白質功能研究人員先讓模型學習一些特定蛋白質的功能,將蛋白質結構編碼成表示,用不同蛋白質結構相似性來監督模型。他們根據蛋白質結構分類資料庫(SCOP),對數千各類別、大約22,000種蛋白質進行模型訓練。然後,將蛋白質結構與胺基酸序列編碼成嵌入(embedding)這種數字表示,隨機組對送入模型中。
  • 你想聽什麼曲子?新冠病毒、上帝粒子,還是宇宙?
    這首曲子的作者是馬庫斯·布勒(Markus Buehler)教授,來自美國麻省理工學院,主業是研究蛋白質的結構設計。病毒的本質很簡單,由遺傳物質和蛋白質外殼組成。不同的病毒,蛋白質外殼的樣子也不同。新冠病毒之所以得名如此,就是因為其外殼如同一頂中世紀的皇冠。
  • 將分子結構轉換成聲音,可深入了解蛋白質結構,並創造出新變化!
    想要創造一種全新蛋白質,有用的性質?沒有問題!麻省理工學院研究人員將科學與藝術驚人地結合起來,開發出一套系統,可以將蛋白質的分子結構(所有生物基本組成部分)轉換成類似於音樂段落的可聽聲音。然後,通過逆轉這一過程,可以在音樂中引入一些變化,並將其轉化為自然界中從未見過的新蛋白質,雖然這並不像哼唱一種新蛋白質存在那麼簡單,但這個新系統已經很接近了。
  • 哼唱一段旋律,AI就能創造一種「全新」蛋白質
    當地時間 3 月 17 日,麻省理工學院科學家們帶來了一個新成果,他們將蛋白質的複雜結構轉化成樂譜,隨後給予電腦一個種子序列,人工智慧系統就能設計出一種自然界中從未見過的 「全新」 蛋白質。他們發現這個 「全新」 蛋白質不僅具有摺疊結構,而且比較穩定。
  • 哼唱一段旋律,AI就能創造一種 「全新」 蛋白質
    當地時間 3 月 17 日,麻省理工學院科學家們給帶來了一個新成果,他們通過將蛋白質的複雜結構轉化成樂譜,隨後給予電腦一個種子序列,人工智慧系統就能設計出一種自然界中從未見過的 「全新」 蛋白質。比如人們在自然界中發現了一種蛋白酶,就可以通過這種方法改進催化效率或產生新的蛋白變異。眾所周知,胺基酸是構成蛋白質的基本單位,要想人工製造出蛋白質,要麼模仿現有的蛋白質,要麼手工編輯組成蛋白質的胺基酸序列,但是這兩個過程都十分耗時,而且改變胺基酸序列後對整個蛋白質結構和功能會產生什麼影響,也很難預測。
  • MIT最新研究:從胺基酸鏈片段直接預測蛋白質功能
    而近日,來自MIT的研究人員開發了一個新的研究模型,能夠直接預測胺基酸鏈片段是如何決定蛋白質功能的。這一發現可以幫助研究人員設計和測試新的蛋白質,從而用於藥物研發和生物學研究。我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。蛋白質具體能完成什麼樣的功能,主要取決於它獨特的三維結構。因此了解蛋白質的結構,對於預測其對某些藥物的反應來說,是一個非常重要的環節。
  • 新的深度學習方法從胺基酸序列預測蛋白質結構
    由於蛋白質的形狀決定了它的功能及其在疾病中的功能障礙程度,因此闡明蛋白質結構的努力是所有分子生物學的核心 - 特別是治療科學以及拯救生命和改變生命的藥物的發展。近年來,計算方法在基於其胺基酸序列的知識預測蛋白質如何摺疊方面取得了重大進展。如果完全實現,這些方法有可能改變生物醫學研究的幾乎所有方面。然而,目前的方法在可以確定的蛋白質的規模和範圍方面受到限制。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    由胺基酸和蛋白質組成的長鏈,將它們自己摺疊成精準3D結構,可以管理分子間活動的複雜問題。因為,蛋白質外形決定了它的功能和疾病中產生的功能紊亂,並影響蛋白質在分子生物學的中心地位,特別是用於治療科學和治病保健等藥物的發展。近些年,蛋白質通過自身的胺基酸序列可以實現被預測,在計算方法上有了巨大進步。
  • 谷歌DeepMind 開發新 AI 工具:利用基因序列預測蛋白質結構
    北京時間12月4日早間消息,據美國《麻省理工科技評論》(MIT Technology Review)報導,谷歌旗下DeepMind開發一個新AI工具,它可以利用基因序列預測蛋白質結構。
  • MIT利用AI把新冠病毒蛋白質結構轉換成一段音樂 具有鎮靜和冥想效果
    MIT利用AI把新冠病毒蛋白質結構轉換成一段音樂 具有鎮靜和冥想效果  Emma Chou • 2020-04-10 11
  • 除了下圍棋 AI還能預測"難纏"的蛋白質結構
    還有在被稱為「基因魔剪」的CRISPR-Cas9基因編輯技術中,Cas9蛋白質利用CRISPR基因序列作為嚮導,像剪刀一樣靈巧地剪切和粘貼DNA片段。然而,確定蛋白質的空間結構一直是生物學中的巨大挑戰。1972年,也就是將近50年前,諾貝爾化學獎得主克裡斯蒂安·安芬森就猜測,蛋白質的胺基酸序列應該可以完全決定其空間結構。可是要如何根據蛋白質的胺基酸序列來確定它的空間結構呢?
  • 科學家將蛋白質序列轉化為曲譜,寫首歌就能創造蛋白質
    而胺基酸的屬性,以及最終形成的蛋白質摺疊成的複雜形狀,決定了蛋白質分子如何在生物體內起作用。,並可能設計出具有人們期待的屬性的新的蛋白質,Marcus Beuhler和同事們想到可不可以將蛋白質的胺基酸序列和音樂聯繫起來呢?
  • 藏在蛋白質、上帝粒子和宇宙中的樂曲,竟然還很動聽?
    這首曲子的作者是馬庫斯·布勒(Markus Buehler)教授,來自美國麻省理工學院,主業是研究蛋白質的結構設計。 病毒的本質很簡單,由遺傳物質和蛋白質外殼組成。不同的病毒,蛋白質外殼的樣子也不同。新冠病毒之所以得名如此,就是因為其外殼如同一頂中世紀的皇冠。
  • 除了下圍棋 AI還能預測「難纏」的蛋白質結構 它是怎麼做到的?
    這就是困擾科學家們近50年的「蛋白質摺疊問題」。   2 蛋白質如何將自己摺疊起來   蛋白質就像是一臺精心組裝的機器,它的零件是我們身體內的20種胺基酸。在基因編碼合成胺基酸序列的過程中,一個個胺基酸分子遵照基因序列中蘊含的遺傳信息指令,像珠子一樣有序綴連起來,形成多肽鏈,構成蛋白質的一級結構。
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    這就是困擾科學家們近50年的「蛋白質摺疊問題」。2 蛋白質如何將自己摺疊起來蛋白質就像是一臺精心組裝的機器,它的零件是我們身體內的20種胺基酸。在基因編碼合成胺基酸序列的過程中,一個個胺基酸分子遵照基因序列中蘊含的遺傳信息指令,像珠子一樣有序綴連起來,形成多肽鏈,構成蛋白質的一級結構。
  • MDPI Life|蛋白質從頭設計研究進展
    在自然界中,存在著許多沒有進化的序列集合,通過研究序列空間中未知的區域,科學家們發現可以有許多不同的方法來生產新型蛋白質。近年來,人們已經在計算蛋白質設計方面,以及選擇隨機序列的龐大組合庫方面都取得了驚人的進展。那麼,我們可以設計維持生命的人工蛋白質嗎?
  • AI醫療新進展,谷歌DeepMind基於基因序列預測蛋白質的三維結構
    蛋白質結構是指蛋白質分子的空間結構。蛋白質主要由碳、氫、氧、氮等化學元素組成,是一類重要的生物大分子。 了解蛋白質結構在疾病診斷和治療中非常重要,它可以提高科學家對人體的認識,並有助於支持蛋白質設計和其它生物工程研究。
  • 除了下圍棋,AI還能預測「難纏「的蛋白質結構,它是怎麼做到的?
    這就是困擾科學家們近50年的「蛋白質摺疊問題」。2 蛋白質如何將自己摺疊起來蛋白質就像是一臺精心組裝的機器,它的零件是我們身體內的20種胺基酸。在基因編碼合成胺基酸序列的過程中,一個個胺基酸分子遵照基因序列中蘊含的遺傳信息指令,像珠子一樣有序綴連起來,形成多肽鏈,構成蛋白質的一級結構。