機器學習遇見生物學:詳解蛋白質摺疊預測中的算法

2020-11-30 手機鳳凰網

機器之心原創

作者:王子嘉編輯:H4O



蛋白質摺疊問題耗費巨大,而使用機器學習或許能夠更為高效、準確地解決這一難題。本文介紹了目前這一領域遇到的問題,以及機器學習怎樣幫助解決的具體算法。

蛋白質摺疊問題一直是一個耗費巨大的難題,但是這個難題的解決又對人類具有巨大的意義。於是各個研究機構都開始尋找蛋白質摺疊問題的不同解,希望找到一種高效、準確的方式來解決這一難題。

幸運的是,在今年的 CASP(Critical Assessment of Techniques for Protein Structure Prediction)上,DeepMind 在今年找到了這個問題的其中一個「機器學習解」——AlphaFold,AlphaFold 的提出很好的解決了這一難題(在今年的 CASP 中獲得了第一名),同時又將 AI 所涉及的領域擴展到了生物科學。今天這篇文章就主要介紹機器學習是如何在生物科學中大放異彩的。本文首先介紹了蛋白質以及蛋白質領域目前面對的難題,然後介紹了機器學習能在這一領域做出什麼貢獻,最後對這一領域的問題及未來進行了展望。

什麼是蛋白質

蛋白質在我們的生命活動中扮演了極其重要的角色。幾乎我們身體的各項動作——收縮肌肉,感應光線或將食物轉化為能量,都可以歸功於一種或多種蛋白質的配合。當你正在讀這篇文章的時候,你血液裡的血紅蛋白正在將氧氣運送到肌肉中,轉運蛋白正在為神經元運送鈉以產生動作電位,而你之所以能讀懂這句話,眼睛裡的感光蛋白功不可沒。

不止這些「土生土長」的蛋白質在發揮作用,人工開發的蛋白質也已經被拼接到細菌基因組中以產生胰島素,或是分解塑料廢物來生產洗衣粉。所以,了解如何開發合適的人工蛋白質可以幫助我們提高生產效率,並開發具有全新功能的蛋白質。中學時期,我們其實已經對蛋白質有過不深的了解了。但是可能對很多人來說,高中已經很久遠了,為了方便大家更好的理解本文,本節就對本文所需的蛋白質知識進行簡要介紹。

一般來說,總共有 20 種胺基酸,而蛋白質則是一條胺基酸鏈,它通過共價鍵將胺基酸連在一起。我們可以把胺基酸看作英文中的字母,而這個「字母」使我們可以將蛋白質表示為一系列離散的標記,就像我們英語句子一樣。這種離散的順序表示形式被稱為蛋白質的一級結構(Primary structure)。

然而,在細胞中,蛋白質是以三維結構存在的。由於蛋白質的功能與這個結構息息相關,因此了解這種 3D 結構極其重要。蛋白質的局部幾何結構稱為二級結構(Secondary structure),這個結構也相應的決定了這一部分的特徵。最後,蛋白質的整體幾何結構稱為三級結構(Tertiary structure),它決定了蛋白質的整體特徵。這些結構都是由 DNA 中的信息編碼的。

圖 1: 蛋白質的三種表達形式(圖源:https://bair.berkeley.edu/blog/2019/11/04/proteins/)

蛋白質摺疊問題

如上文所說,各種蛋白質的作用都取決於其獨特的 3D 結構。例如,構成我們免疫系統的抗體蛋白為「Y 形」,類似於獨特的鉤子,通過鎖定病毒和細菌,這種蛋白能夠檢測並標記致病微生物以對這些病毒進行消滅。而膠原蛋白的形狀像繩索,可以在軟骨、韌帶、骨頭和皮膚之間傳遞張力。

其他類型的蛋白質也有很多,比如 Cas9,它以 CRISPR 序列為指導,作用類似於見到,可以剪切和粘貼 DNA 片段;抗凍蛋白,其 3D 結構使它們能夠與冰晶結合併防止生物凍結;核糖體的功能則類似於程序化的裝配線,可幫助自身構建蛋白質。

因此,確定蛋白質的 3D 結構是非常重要的。如前文所述,3D 結構的確定,可以讓人們對蛋白質在體內的作用有更深入的了解,這樣科學家就能更有針對性地設計出有效的新療法。同時,對於一些由於蛋白質錯誤摺疊而引起的疾病(例如阿爾茨海默氏症,帕金森氏症,亨廷頓氏症和囊性纖維化等),了解了蛋白質正確的 3D 結構可以大大方便醫生對這些疾病的診斷和治療。

不僅如此,隨著越來越多的 3D 結構被確定,它也成為藥品開發的隱藏力量。除了醫學外,蛋白質還可以有更大的貢獻,譬如幫助我們用對環境更友好的方式分解廢物的可生物降解酶就是通過蛋白質設計實現的,這種酶可以分解塑料和石油等汙染物。雖然 3D 結構的確定可以給我們帶來這麼多好處,但是蛋白質越大,建模越複雜和困難,因為要考慮的胺基酸之間存在更多的相互作用。正如列文塔爾悖論中指出的那樣,枚舉典型蛋白質的所有可能構型所花費的時間要比宇宙的年齡長,才能達到正確的 3D 結構。

而且,僅從蛋白質的基因序列(一級結構)中找出蛋白質的 3D 形狀(二、三級結構)是一項極其複雜的任務。不幸的是,經過數十年的研究,科學家們也都發現了這個難題是無法被繞開的——DNA 僅包含蛋白質的一級結構信息,卻並不能探測到這些蛋白質是如何摺疊的(3D 結構是如何的)。

這時問題也就提出來了,即所謂的「蛋白質摺疊問題」——預測這些鏈(一級結構)是如何摺疊成複雜的 3D 結構的。為了促進研究和衡量最新方法以提高預測的準確性,1994 年成立了兩年一度的全球競賽,名為「Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction」(CASP),這一競賽現已成為用於評估技術的通用標準。

為什麼要引入機器學習?

在過去的五十年中,科學家們已經能夠使用諸如冷凍電子顯微鏡(cryo-electron microscopy)、核磁共振(nuclear magnetic resonance)、X 射線晶體學(X-ray crystallography)之類的實驗技術確定蛋白質的形狀,但是每種方法都需要大量的時間和精力來做實驗。為了發現一個結構,可能需要數年的時間以及數萬美元的投資。這就是為什麼生物學家開始將目光轉向 AI,希望 AI 能找到合適的方法來替代這一漫長而費力的工作。

幸運的是,由於基因測序成本的快速降低,基因組學領域的數據非常豐富,對應的序列的數量也在呈指數增長。

圖 2:蛋白質序列數目變化(圖源:https://bair.berkeley.edu/blog/2019/11/04/proteins/)

因此,在最近幾年中,依賴於基因組數據的用於預測問題的深度學習方法變得越來越流行。DeepMind 也開始介入這個困難的問題,並基於此研發出了 AlphaFold,並被 CASP 組織者誇讚為「前所未有的進步」。

現有數據中的寶藏

既然要引入機器學習,首先要確定的問題就是該用什麼機器學習技術呢。如果要對這個問題進行監督學習,就需要標籤。在這個問題中,我們就需要標記蛋白質中每個原子的三維坐標。給蛋白質貼標籤是一個勞動密集型、資源密集型且耗時巨大的過程,而且這個過程只能由專家來完成,具體來說,只能由使用價值 1 萬美元/小時的顯微鏡的專家來完成。因此監督學習這條路目前來說是走不通的。

如前文所說,雖然有標記的數據很少,但是沒有標記的基因組數據(蛋白質序列)是很多的,如果要更快更好的完成任務,顯然第一個要做的就是學會使用這些數據。事實證明,這些數據中包含的有用信息是很多的,進化關係(evolutionary relationship)就是其中一個。進化關係的本質就是同源性,同一個祖先(家族)的兄弟應該具有相似的特性。為了更好的理解什麼是進化關係,下面先對當下科學家們提取這一關係的主要方式——序列對齊法——進行簡要介紹。

在這個方法中,我們將要查詢序列放到整個資料庫中,尋找其「兄弟」序列(即同祖先的後代)。圖 3 就是一個簡單的匹配例子(這裡的 A, T(或 U), C, G 是指核酸,蛋白質匹配的情況更加複雜,後面會講)。這個例子中,我們可以用點(.)來代表少量的不匹配,用破折號(-)表示缺失值。

圖 3:序列匹配實例(圖源:https://en.wikipedia.org/wiki/Sequence_alignment)

在對序列匹配有了大概的了解後,再來看一下蛋白質的匹配是怎麼做的。除了要將核酸變成胺基酸外,還要注意其生物特性。下圖就是 GFP 蛋白家族的部分序列比對,這些蛋白質都是螢光蛋白,也就是可以發光。圖中的顏色代表不同的胺基酸組,同一個組內的胺基酸有相同的生物物理特性,也就被標成了相同的顏色。

具體來說,紫色代表疏水性(C,A,V,L,I,M,F,W),紅色代表帶電(D,E,R,K),綠色代表正極不帶電(S,T,N,Q)。如果兩個序列的顏色一致,也就表示這些位置的特性在進化過程中被保留了。

圖 4:蛋白質序列匹配實例(圖源:https://bair.berkeley.edu/blog/2019/11/04/proteins/)

所以我們到底想從進化關係中得到什麼呢?就如上圖的例子所示,這些蛋白質具有類似的功能(發光),但是有些位置是被保留的,有些位置卻不一樣了——進化是不確定的,並不是完全的繼承(顏色一模一樣)。有的時候這些顏色(胺基酸)的改變並不會引起蛋白質結構的改變,相應的,這個蛋白質的功能也不會改變。

因此,我們希望從資料庫中提取這樣的信息——進化在什麼位置是自由的,在什麼地方是有迴旋餘地的,在什麼地方是完全受束縛的。而這些信息,正是在做結構預測時的重要輸入。舉個簡單的例子,三維空間中臨近的位置一般會共同進化,即一個位置的突變通常也會引起相鄰位置的突變,如果突變沒有共同發生,那這兩個胺基酸應該不在相鄰的位置。

NLP 與蛋白質摺疊問題

大語料庫、難以獲得的標籤、序列對齊、嵌入、token 序列,再加上前文說過的要從中提取出的信息(嵌入),學習過自然語言處理的同學可能會感覺自己回到了自然語言處理(NLP)的課堂上,對那些 NLP 的研究者們來說,這種聯繫更是昭然若是。因此,研究者們開始將目光轉向 NLP 最近的重大突破之一——自監督學習,即從未標記數據中獲取有用信息的方法。這之中較為傑出的代表就是 BERT 了,這裡先對 BERT 做簡單的介紹。

如下圖所示,在 BERT 訓練時,先遮住部分單詞,然後通過其他單詞來預測這個被擋住的單詞。這樣我們就可以得到一個關於可能成為的單詞的分布,然後通過交叉熵損失來訓練這個模型。學習後的模型可以從序列中學習到該序列的特性,並且這些特性(嵌入)可以很容易的被遷移到下遊任務中去。

圖 5:BERT 流程圖(圖源:https://jalammar.github.io/illustrated-bert/)

那如果我們把句子變成胺基酸序列,下遊任務變成蛋白質結構預測,是不是就變成了蛋白質摺疊問題的模型了?

這樣任務就變成了:輸入胺基酸序列,通過 BERT 獲得蛋白質嵌入,通過蛋白質嵌入預測蛋白質結構。

圖 6:蛋白質模型流程圖(圖源:https://bair.berkeley.edu/blog/2019/11/04/proteins/)

TAPE(Tasks Assessing Protein Embeddings)

理論已經說了很多了,那麼具體應該怎麼實施呢,這樣做到底效果如何呢?在《Evaluating Protein Transfer Learning with TAPE》中,就像 NLP 任務中有 GLUE 作為 Benchmark 一樣,作者基於 NLP 任務中的 GLUE 提出了蛋白質嵌入的 benchmark——TAPE(Tasks Assessing Protein Embeddings),並使用多個深度學習模型在包括結構預測在內的多類下遊任務(同源檢測,蛋白質工程)上進行了測試。

首先簡要介紹一下三個下遊任務的意義。這三個下遊任務中,結構預測已經在前面提到過了;因為改變其胺基酸組成 (即改變序列的一個字母) 會改變蛋白質的性質,大多修改都會破壞其性質,而且跟原序列相差越大,就越不可能維持一個蛋白質的功能,因此蛋白質工程問題解決的則是如何對蛋白質進行何種修改以優化特定的功能的問題(比如讓一種螢光蛋白發出的光更亮);而同源檢測任務則是發現兩個蛋白質是否是同源的(前面提到的用序列對齊解決的問題)。這些任務都有各自的作用,比如蛋白質工程可以用於優化流感抗體的效力以製造更好的疫苗,或增加用於材料合成的生化催化劑的產量。

在 TAPE 中,作者使用了兩個 NLP 自監督任務中常見的損失函數。第一個 next-token 預測任務中的損失函數,它評測了 p(x_i |x_1,…,x_i - 1)。但是很多蛋白質任務是 seq2seq 的,需要雙向的上下文信息,因此作者加入了反向模型,即 p(x_i |x_i+1,…,x_L),這個每個位置都有雙向上下文信息了。第二個是 Masked-token 預測任務中的損失函數,它評測了 p(x| x_unmask)。同時,作者還使用了一種專門應用於蛋白質任務的損失函數,即有監督預訓練任務損失。

在模型的選擇上,作者使用了 Transformer,LSTM 和 Dilated ResNet。Transformer 有 12 層,每一層有 512 個隱藏單元和 8 個注意頭,這樣這個模型就有 3800 萬個參數。LSTM 則由兩個三層 LSTM 組成,與 ELMO 類似,對應於正向和反向語言模型,它有 1024 個隱藏單元,這些輸出會在最後一層被連在一起。ResNet 中由 35 個 Res 塊,每個塊包含兩個卷積層和 256 個過濾器,內核大小為 9,擴展率(dilation rate)為 2。三個模型的超參數量都基本相同。

TAPE 使用 Pfam(3100 萬數據)作為預訓練的訓練集,這裡面的數據根據進化關係被聚類成不同的家族。同時,在下遊任務中,作者使用了 5 個數據集(對應前面說的 3 類下遊任務),數據集大小如下表所示。

表 1:數據集大小(圖源:https://www.biorxiv.org/content/10.1101/676825v1.full)

在分訓練集和測試集時使用兩種方式——隨機分組(Random Families)和根據家族進行分組(家族分組,Heldout Families)。作者使用準確性(Accuracy)、複雜性(Perplexity)和指數交叉熵 (ECE) 作為評價指標,在語言模型訓練任務中,對使用自學習訓練的 3 個模型(前三個)進行了評測,並與過去提出的有監督模型以及一個隨機的 baseline 模型進行了對比,結果如下表所示。

表 2:預訓練評測結果(圖源:https://www.biorxiv.org/content/10.1101/676825v1.full)

從表中可以看出,通過自學習訓練出的模型的精度(越高越好)和 ECE(越低越好)都優於其他模型,而家族分組精度始終低於隨機分割精度,顯示出其泛化能力的下降。要注意的是,儘管一些模型在隨機分割集和輔助集上的 perplexity 都比其他模型低,但這種較低的 perplexity 並不一定對應於下遊任務的更好性能。

同時,作者也對這些模型在 5 項任務上的表現進行了評測。這 5 項任務分別是:

二級結構預測(Secondary Structure (SS) Prediction -Structure Prediction Task ):屬於結構預測任務,顧名思義,預測蛋白質的二級結構,是一個 seq2seq 任務,每一個胺基酸會獲得一個 label(螺旋或是鏈裝)。評價標準是準確率。

圖 7:結構預測、關聯預測、遠程同源預測(圖源:https://www.biorxiv.org/content/10.1101/676825v1.full)

關聯預測(Contact Prediction - Structure Prediction Task):屬於結構預測任務,對輸入的胺基酸進行配對(根據一定原則),如果兩個胺基酸被判斷為關聯(in contact),則其關係標記為 1,反之標記為 0。評價時採用結果中前 5 的精確率。

遠程同源檢測(Remote Homology Detection - Evolutionary Understanding Task):屬於同源檢測任務,將輸入的蛋白質序列映射到特定的摺疊結構上去。本質上是序列分類任務,最終採取準確率作為測量標準。

螢光度預測(Fluorescence Landscape Prediction - Protein Engineering Task):屬於蛋白質工程,本質上是回歸任務。如圖 (a) 所示,將每個蛋白質映射到一個螢光度上。測試時,使用 Spearman 提出的ρ係數(評價相關度)作為指標。

穩定度預測(Stability Landscape Prediction - Protein Engineering Task):也屬於蛋白質工程,跟螢光度預測類似,預測內容為某個胺基酸為了保持穩定所需要保持的最大範圍。

圖 8:螢光度預測、穩定度預測(圖源:https://www.biorxiv.org/content/10.1101/676825v1.full)

下表記錄了各項任務中各個方案的表現,表中的數據根據任務不同,有可能是準確率(accuracy)、精確度(precision)或是 Spearman』s ρ,但是都是越大越好。可以看到預訓練對大部分任務的提升是很明顯的。

表 3:預訓練與其他方法對比(圖源:https://www.biorxiv.org/content/10.1101/676825v1.full)

AlphaFold

最後再回到將我們視線聚焦到蛋白質領域的 AlphaFold,DeepMind 具體做了什麼呢?AlphaFold 其實是深度學習方法與傳統方法的結合,具體來說就是 CNN+Rosette,本文主要介紹深度學習相關的部分(CNN),對傳統方法(Rosette,也是一個很優秀的算法,在 AlphaFold 奪冠的過程中功不可沒)就不做詳細介紹了,有興趣可以自己了解一下。

在 AlphaFold 中,他們一共設計了三個不同的方法:首先是最傳統的方法,跟從前的專家系統極其相似——先從一維的胺基酸序列生成一個二維的接觸距離矩陣(contact matrix)以記錄兩個胺基酸之間的距離。然後把蛋白質分割成幾個結構域(domain)——一個 domain 內的的相互接觸很強,但是 domain 內的分子和其之外的接觸則相對較弱。然後預測蛋白質骨架的摺疊角度,根據蛋白質骨架的摺疊角度,把結構切割成一系列有重疊的 9 個胺基酸殘基為單位的短肽,分別預測,再組裝到一起,預測整個結構域的結構。最後,把摺疊好的結構組裝到一起。

這個方法就是簡單的從頭預測(ab initio)方法的框架,在每一步都有一個評分系統,從而保留好結果,刪除差結果——沒有深度學習的時候也是這麼做的。方法 2 則在方法 1 的基礎上,不再「切割成小的短鏈分別預測」,而是直接預測整個結構域。方法 3 在方法 2 的基礎上,又去掉了結構域分割這一步,這個時候步驟就變成了——從一維的胺基酸序列生成一個 2 維的接觸距離矩陣,預測蛋白質骨架的摺疊角度,最後梯度下降出結果。

這裡用到深度學習的地方主要有三個:第一個用到深度學習的地方是 contact matrix 預測。這裡使用了一個卷積網絡 CNN 把一維的胺基酸序列,展成 contact matrix。訓練這個 contact matrix 網絡時首先進行了 BLAST 序列比對,然後通過序列比對得到的特徵進行預測。這個網絡深度應該非常高,但其實今年早些時候的 DNCON2 這種淺層的也可以做。網絡中會用 likelihood 作為估分方式,先進行一次篩選。

第二個用到深度學習的地方是在預測蛋白質骨架結構的時候,這裡要描繪每個鍵平面之問的二面角 torsion angle,這一步直接調了以前的一個圖像生成的方法——A Recurrent Neural Network For Image Generation。第三個就是每一步的評估網絡,這個評估網絡也是一個 CNN。輸入評估網絡的是第一個 CNN 生成的 contact malrix,序列比對產生的特徵,還有結構的幾何結構之類的。

展望及挑戰

如前文所示,深度學習本身並不能很好的解決蛋白質預測問題,而且預訓練也沒有讓所有任務上的表現都變得更好,可以看到,在那些非監督學習的下遊任務(如 Contact prediction 任務)中預訓練就表現得差了些。而在 CASP 中奪冠的 AlphaFold 雖然在一定程度上緩解了人工的壓力,但是卻對硬體有極高的要求,所以在一定程度上 AlphaFold 的勝利也可以說是 DeepMind 硬體的勝利,並沒有從根本上找到「機器學習」解。

但是 CASP 中,前 5 名都使用了深度學習技術,其他一些使用了深度學習技術的隊伍也取得了不錯的成績。因此,綜合 CASP 以及 TAPE 的結果來看,機器學習和自學習都是蛋白質預測未來的大方向。而且在自學習快速發展的當口,蛋白質也為其提供了一個巨大的試驗場(擁有巨大的序列庫),因此我相信蛋白質任務和自學習會在相互促進的過程中發展越來越好。

作者介紹:本文作者為王子嘉,目前在帝國理工學院人工智慧碩士在讀。

參考文獻

AlphaFold: Using AI for scientific discovery. Accessed at: https://deepmind.com/blog/article/alphafold

Can We Learn the Language of Proteins? Accessed at: https://bair.berkeley.edu/blog/2019/11/04/proteins/

Illustrated Bert. Accessed at: https://jalammar.github.io/illustrated-bert/

如何看待 AlphaFold 在蛋白質預測領域的成功?Accessed at: https://www.zhihu.com/question/304484648

相關焦點

  • AI解決生物學50年來重大難題:破解蛋白質摺疊,顛覆結構生物學
    11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智慧技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子摺疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
  • 除了下圍棋 AI還能預測"難纏"的蛋白質結構
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。2020年,他們通過一款人工智慧程序,實現了這一目標。那麼,這個工作的意義是什麼?人工智慧又是如何做到這一點的?
  • 困擾科學家近半個世紀的蛋白質摺疊難題破了!這回又是AI揭的秘
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。今年,他們通過一款人工智慧程序,實現了這一目標。那麼,這個工作的意義是什麼?人工智慧又是如何做到這一點的?
  • 「阿爾法摺疊」精準預測蛋白質三維結構|胺基酸|x射線|生物學|蛋白...
    人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。
  • 生物學界最大的謎團之一,蛋白質摺疊問題被 AI 破解了.
    破解了出現五十年之久的蛋白質分子摺疊問題。最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 摺疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學雜誌爭相報導,新成果也立刻獲得了桑達爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。
  • AI數小時內解決困擾生物學50年的高精度蛋白質摺疊預測問題
    據《紐約時報》報導,這家與谷歌同屬一家母公司的公司DeepMind創造了一個人工智慧系統,它可以快速準確地預測蛋白質如何摺疊以獲得其3D形狀,這是一個令人驚訝的複雜問題,幾十年來一直困擾著研究人員。摸清蛋白質的結構可能需要數年甚至數十年的艱苦實驗,而目前的計算機模擬蛋白質摺疊的準確度還不夠。但據《泰晤士報》報導,DeepMind的系統,即AlphaFold,只需要幾個小時就能準確預測出蛋白質的結構。蛋白質是生命所必需的大分子。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    傳統上,蛋白質結構預測可以分成基於模板和從頭預 測,但是AlphaFold2隻用同一種方法--機器學習,對幾乎所有的蛋白質都預測出了 正確的拓撲學的結構,其中有大約2/3的蛋白質精度達到了結構生物學實驗的測量 精度。說他們接近解決了這個問題,這個說法沒錯,至少是在單結構域的蛋白結構 來講是這樣的。谷歌這次為什麼能夠取得如此大的成功?這個首先是與它們擁有強大的人力和計算 資源有關。
  • DeepMind開發一款軟體可準確預測蛋白質在幾天時間裡會摺疊成什麼...
    DeepMind開發一款軟體可準確預測蛋白質在幾天時間裡會摺疊成什麼樣的結構 來源:TechWeb • 2020-12-01 10:18:01
  • 機器學習在合成生物學:一種新的生物工程算法
    合成生物學目前,合成生物學已在多個領域得到應用,例如農業、能源、製造業、醫學,包括合成生命:試圖探索生命的起源,研究生命的機理,甚至從非生命物質中創造生命。如果你吃過味道極像肉的味道而又健康的人造肉(如人造牛肉漢堡),或在美容中使用合成膠原蛋白,以提高皮膚再生速度,縮短創傷癒合時間,恢復皮膚屏障功能,那麼你已經從合成生物學中受益。
  • 除了下圍棋 AI還能預測「難纏」的蛋白質結構 它是怎麼做到的?
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。2020年,他們通過一款人工智慧程序,實現了這一目標。那麼,這個工作的意義是什麼?
  • 除了下圍棋,AI還能預測「難纏「的蛋白質結構,它是怎麼做到的?
    在2020年各種重大科學新聞評選中,「人工智慧預測蛋白質三維結構」是上榜率很高的一項內容。50年來,科學家們一直在努力解決生物學最大的挑戰之一——預測一串胺基酸在變成工作蛋白質時摺疊成的精確三維形狀。2020年,他們通過一款人工智慧程序,實現了這一目標。那麼,這個工作的意義是什麼?人工智慧又是如何做到這一點的?
  • AI破解蛋白質摺疊難題,這意味著什麼?
    去年年底,谷歌DeepMind推出了一種名為AlphaFold的算法。今天,在有「蛋白質奧林匹克競賽」稱呼的國際蛋白質結構預測競賽上,AlphaFold擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    繼圍棋、西洋棋等競技項目之後,近日谷歌旗下DeepMind開發的人工智慧程序AlphaFold在兩年一次的蛋白質結構預測挑戰賽CASP中再次大幅勝出。該程序在根據蛋白質胺基酸序列確定蛋白質三維結構方面取得巨大飛躍,準確性可與冷凍電子顯微術(亦稱冷凍電鏡)(Cryo-EM)和X-射線晶體學等實驗技術相媲美。
  • 谷歌Deepmind稱解決蛋白質摺疊難題
    來源:新浪科技據報導,Alphabet旗下人工智慧公司DeepMind開發了一款軟體,可以準確預測蛋白質在幾天時間裡會摺疊成什麼樣的結構,從而解決了過去50年的一項「重大挑戰」。這可能為更好地了解疾病和藥物研發鋪平道路。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    由胺基酸和蛋白質組成的長鏈,將它們自己摺疊成精準3D結構,可以管理分子間活動的複雜問題。因為,蛋白質外形決定了它的功能和疾病中產生的功能紊亂,並影響蛋白質在分子生物學的中心地位,特別是用於治療科學和治病保健等藥物的發展。近些年,蛋白質通過自身的胺基酸序列可以實現被預測,在計算方法上有了巨大進步。
  • DeepMind破解蛋白質摺疊難題
    去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。1980年代和1990年代,儘管早期計算機科學家已經取得了進展,但是從蛋白質的組成中推斷結構仍非易事。為什麼預測蛋白質的形狀非常困難?在自然界中,蛋白質是胺基酸鏈,可以自發摺疊成無數令人難以想像的形狀,有些甚至在幾毫秒之內完成。