AlphaGo顛覆生物圈,精準預測蛋白質結構

2020-12-05 騰訊網

近日,谷歌AI團隊DeepMind所研究的 AlphaFold 算法在生物學領域取得了重要突破:通過蛋白質的胺基酸序列高精度地確定其3D結構。

具體而言,是DeepMind的第二代AlphaFold 在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。

其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。

前基因泰克(Genentech)執行長Arthur D. Levinson博士稱這一成就為「劃時代的進步」(once in a generation advance)。

從CASP14,這項權威的蛋白質結構預測競賽結果中,可以看到AlphaFold2排名第一(總分遠高於第二)。

排名前六位的分別是David Barke lab的兩個工具(第二、第三位)、密西根州立大學的 Michael Feig和密西根大學Yang Zhang排名在第四位、第五位,而騰訊AI lab 的tFold_human 排名第六。

這說明,在某種程度上,在對蛋白質結構和摺疊的預測這件事情上,人類已非望塵莫及。

1

第二代AlphaFold做了什麼?

在CASP這項比賽中,DeepMind開發AlphaFold2用的數據是:資料庫裡的超過17萬種蛋白序列與結構,以及其他一些大型資料庫裡的數據。

評估蛋白結構預測準確度的指標叫做GDT,也就是評估預測結構裡的胺基酸位置,和實際的胺基酸位置差多少。差得越少,得分越高。

GDT的分值在0-100之間。2006-2016年間,這個數字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。

而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4

不僅僅遠超今年的競爭對手,相比於2018年版的AlphaFold第一代,AlphaFold2的表現也如脫胎換骨一般。

更直觀一些。拿它預測的結構與實際結構對比,可以看到基本完全吻合(下圖,綠色是實驗得到的實際結構,藍色是計算預測結構)。

在兩年一次的蛋白質結構預測關鍵評估(CASP)競賽中,AlphaFold今年擊敗了所有其他小組,並在準確率方面與實驗結果相匹配。隨著預測難度增加,AlphaFold的準確率保持在穩定的高水平,表現遠超其它團隊以及往屆競賽的水平。

但是對此結果,也有不少人存在疑問,主要在準確性。首先,17萬的數據應該遠遠不夠,準確性存疑;再者,蛋白質結構摺疊問題太過高深,如果真能夠破解,DeepMind很快就能獲得諾貝爾獎。

因此,在驚嘆AlphaFold取得成果的同時,我們還需要冷靜等待生物學家的實驗驗證。

除了解決的問題值得我們關注,其實研究方法也更有思考價值。

畢竟,AlphaFold的結構預測與X射線晶體學或低溫電子顯微鏡(cryo-EM)等標準實驗方法來預測並無區別,只是後者更加費力、更加昂貴。

科學家表示,AlphaFold的出現也許並不會完全替代這些實驗方法,但確實為人們提供了研究生物的新方式。

02

蛋白質結構:生物學五十年來的挑戰

蛋白質是生命的基礎,與細胞組成內容緊密相關。而蛋白質的功能取決於其3D結構。

一直以來,生物學家投入實驗,致力於尋找生命的奧秘,即:胺基酸序列(蛋白質的組成部分)是如何繪製出最終的形狀。

在過去,人們一直是通過實驗室來了解蛋白質的結構。比如,使用X射線束照射結晶的蛋白質,並將衍射光轉化為蛋白質原子坐標,由此掌握蛋白質的第一個完整結構。

蛋白質三維結構的三種顯示方式

圖源:wikipedia

除了實驗,隨著計算機的發展,該項技術在上世紀末便已用於預測蛋白質的結構,但效果並不理想。

計算機技術用於蛋白質結構預測的困境,直到AlphaFold在2018年現身於CASP,才讓科學家重新燃起了信心與希望。

AlphaFold的第一次迭代將深度學習應用於結構和遺傳數據,以預測蛋白質中胺基酸對之間的距離

根據AlphaFold的主要負責人之一John Jumper介紹,在第二個步驟中,雖然沒有使用AI技術,但AlphaFold使用結構與遺傳數據得出了蛋白質的外觀模型,與之前的研究達成一致。

但第一次迭代存在缺陷。因此,該團隊開發了一個AI網絡。該網絡結合了有關確定蛋白質如何摺疊的物理和幾何約束的信息。

他們設立了一項艱巨的目標:該網絡能夠預測目標蛋白質序列的最終結構,而不僅是預測胺基酸之間的關係。

03

驚人的準確性

CASP的進行歷時數月。

1994年,Moult及其同事發起了CASP,每兩年召開一次。比賽團隊獲得約100種蛋白質的胺基酸序列,其結構未知。一些小組計算每個序列的結構,而另一些小組則通過實驗確定它。

然後,組織者將計算預測結果與實驗室結果進行比較,並為預測結果提供全球距離測試(GDT)分數。

研究小組有數周的時間來提交其結構預測。然後,一組獨立的科學家使用度量標準來評估預測的蛋白質與實驗確定的結構的相似程度,以此評估各個研究小組的預測結果。研究小組的名稱為匿名。

在今年的比賽中,AlphaFold的稱號是「427組」。其預測的許多條目具有驚人的準確性,將近三分之二的預測與實驗所得的結構相當。

針對各種目標蛋白,AlphaFold的GDT中位數得分為92.4。在難度中等的蛋白質上,其他團隊的最佳表現通常在預測準確度上得分75(滿分100),而在AlphaFold則得分大約90,中位數為87,比下一個最佳預測高25分。

AlphaFold甚至擅長解決楔入細胞膜中的蛋白質結構,這是許多人類疾病的核心,但眾所周知,這個問題用X射線晶體學都很難解決。

醫學研究理事會分子生物學實驗室的結構生物學家Venki Ramakrishnan稱該結果「在蛋白質摺疊問題上取得了驚人的進步。」

Moult介紹,90分以上得分的預測結果與實驗方法相當。

不過,AlphaFold並非完美勝任所有的預測。在一種由52個小重複片段組成、組裝時會扭曲彼此位置的蛋白質上,AlphaFold的預測與實驗結果之間存在部分差異。

CASP的負責人Moult介紹,無法確定是因為AlphaFold的預測誤差,還是因為實驗的偽像。

此外,AlphaFold的預測與通過核磁共振成像技術確定的實驗結構的匹配度差,可能是因為AlphaFold將原始數據轉換為模型的方法需要改進。

再如,AlphaFold的網絡嘗試為蛋白質複合物或組中的單個結構建模,因此,與其他蛋白質的相互作用扭曲了它們的形狀。

04

應用

AlphaFold的預測有助於確定Lupas實驗室多年來試圖破解的細菌蛋白質的結構。

Lupas的研究小組以前曾收集過原始的X射線衍射數據,但要將這些類似Rorschach的圖案轉換為結構,則需要了解蛋白質的結構信息。

Lupas介紹:「在我們花了十年時間嘗試一切之後,427組的模型在半小時內為我們提供了結構。」

DeepMind的聯合創始人兼執行長Demis Hassabis介紹,AlphaFold可能需要幾天的時間才能預測出蛋白質的結構,包括對蛋白質不同區域的可靠性估計。但AlphaFold將開放給科學家使用。

DeepMind聯合創始人兼執行長Demis Hassabis

圖源:Bloomberg Businessweek

Hassabis認為,AlphaFold有望應用於藥物發現蛋白質設計

藉助AlphaFold,藥物設計人員能夠快速確定危險的新病原體(如SARS-CoV-2)中各種蛋白質的結構,這是尋找分子以阻止疾病產生的關鍵步驟。

加州大學伯克利分校的分子神經生物學家Stephen Brohawn說,DeepMind對一種叫做Orf3a的蛋白質的預測最終與後來通過cryo-EM確定的蛋白質非常相似。

AlphaFold的出現,可能意味著獲得良好的蛋白質結構,不再局限於實驗室,而只需要低質量的、易於收集的實驗數據。比方說,類似蛋白質的進化分析等方向之所以能蓬勃發展,便是因為有大量的基因組數據能夠被轉化為結構。

科學家評論,AlphaFold能夠幫助人類了解生命基因組中數千種未溶解蛋白質的功能,了解人與人之間因為疾病而產生的基因變異。

AlphaFold的出現也改寫了外界對DeepMind的印象。此前,大家知道DeepMind,一般是因為該團隊使用AI來玩遊戲,比如AlphaGo。

但如今,AlphaFold涉足生物學領域,例如進行蛋白質結構預測,DeepMind也因此向外界傳達了自己的另一種聲音:

不僅能玩圍棋,還能使用AI幫助生命科學的長遠發展。

參考連結:

2.https://www.sciencemag.org/news/2020/11/game-has-changed-ai-triumphs-solving-protein-structures

3.https://www.newscientist.com/article/2261156-deepminds-ai-biologist-can-decipher-secrets-of-the-machinery-of-life/

4.https://www.deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

5.https://predictioncenter.org/casp14/doc/CASP14_press_release.html

6.https://predictioncenter.org/casp14/zscores_final.cgi

7.https://m.weibo.cn/1907380525/4577229730744076

版面 | 顧天紅

互動話題:感謝你的在看、轉發、評論,你還想知道關於哪個領域的最新消息?請留言告訴我們吧~

每周評論區,被zan最多的評論者,將獲得造就送出的書籍一本。

相關焦點

  • 生物界AlphaGo精準預測蛋白質結構
    今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    生物界「AlphaGo」精準預測蛋白質結構》)這一消息引發了全球媒體關注,前Genentech執行長Arthur D. Levinson博士盛讚這一成就是「劃時代的進步」。人工智慧的「進擊」對生物學、對其他學科會有什麼影響?
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    原創 顏寧、張陽等 返樸12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智慧系統在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,精確預測了蛋白質的三維結構,準確性可與冷凍電子顯微鏡(cryo-EM)、核磁共振或 X 射線晶體學等實驗技術相媲美
  • 生物界「AlphaGo」精準預測蛋白質結構
    今日,DeepMind宣布,其新一代AlphaFold人工智慧系統,在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。這一突破被多家媒體稱為「變革生物科學和生物醫學」的突破。
  • 顛覆生物學!AlphaFold成功預測蛋白質結構
    比賽中會定期給出目標蛋白質或蛋白質結構域——總共100個左右,讓團隊有幾周的時間來提交他們預測的結構。隨後,一支由獨立科學家組成的團隊利用各類指標對預測結果進行評估,這些指標主要判斷團隊預測的蛋白質與實驗解析的結構有多相似。評審專家並不知道預測是誰做的。 AlphaFold的預測用被稱為「427組」,多個預測達到了驚人的準確性,讓它們脫穎而出,Lupas說。
  • AI精準預測蛋白質結構,結構生物學何去何從? | 返樸
    龔新奇(中國人民大學數學科學研究院教授,清華大學北京結構生物學高精尖中心合作研究員)2020年第14屆國際蛋白質結構預測競賽(CASP14)共有84個常規(Regular)題目,其中有14個題目因為生物實驗沒給出確定結構等原因被取消或延緩,其他70個題目的單體和複合物蛋白質所含有的胺基酸個數從
  • 【AlphaFold精準預測蛋白結構】|蛋白質|胺基酸|生物學|複合物...
    繼圍棋、西洋棋等競技項目之後,近日谷歌旗下DeepMind開發的人工智慧程序AlphaFold在兩年一次的蛋白質結構預測挑戰賽CASP中再次大幅勝出。該程序在根據蛋白質胺基酸序列確定蛋白質三維結構方面取得巨大飛躍,準確性可與冷凍電子顯微術(亦稱冷凍電鏡)(Cryo-EM)和X-射線晶體學等實驗技術相媲美。
  • 「阿爾法摺疊」精準預測蛋白質三維結構
    人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。了解這些三維形狀有助於研究人員設計出能在蛋白質縫隙內滯留的藥物。此外,合成出擁有所需結構的蛋白質,還可以加快酶的研製進程,讓生物燃料領域受益。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    具體而言,是DeepMind的第二代AlphaFold 在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,能夠精確地基於胺基酸序列,預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美。
  • 攻克生物學半世紀難題,「阿爾法摺疊」精準預測蛋白質三維結構
    了解這些三維形狀有助於研究人員設計出能在蛋白質縫隙內滯留的藥物。此外,合成出擁有所需結構的蛋白質,還可以加快酶的研製進程,讓生物燃料領域受益。幾十年來,研究人員利用X射線晶體學或低溫電子顯微鏡(cryo-EM)等實驗技術來破譯蛋白質的三維結構,但這種方法可能需要數月甚至數年,且未必見效。目前,在生命體內發現的2億多個蛋白質中,只有17萬個蛋白質的結構被破解。
  • 「阿爾法摺疊」精準預測蛋白質三維結構|胺基酸|x射線|生物學|蛋白...
    人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。了解這些三維形狀有助於研究人員設計出能在蛋白質縫隙內滯留的藥物。此外,合成出擁有所需結構的蛋白質,還可以加快酶的研製進程,讓生物燃料領域受益。
  • 「阿爾法狗」轉行預測蛋白質結構,交大教授建議布局AI+生物醫藥|新...
    美國《科學》雜誌近日評選出了2020年十大科學突破,「人工智慧首次精準預測蛋白質三維結構」榜上有名。上海交通大學生物醫學工程學院特聘教授殷衛海認為,這一成果的科學原理並不新鮮,但確實是一個重大技術突破,有望大幅加快藥物研發速度。上海可加強對「人工智慧+生物醫藥」這個交叉領域的布局,搶佔科技前沿制高點。 人工智慧讓蛋白質結構預測成為可能 蛋白質具有三維結構,由一系列胺基酸摺疊而成。
  • 「阿爾法摺疊」精準預測蛋白質三維結構
    據美國《科學》雜誌網站11月30日報導,「蛋白質結構預測關鍵評估」(CASP)競賽傳來喜訊:英國「深度學習」(DeepMind)稱其AI實現了上述成就,他們的方法將極大加快新藥研發進程。人體擁有成千上萬種不同的蛋白質,每一種蛋白質都包含幾十到幾百種胺基酸,這些胺基酸的順序決定了它們之間的作用,賦予蛋白質複雜的三維形狀,進而決定了蛋白質的功能。
  • Deepmind實現蛋白質3D結構精準預測,或將改變生命科學研究範式|...
    「科研圈日報」主要關注科研圈與研究者個體、科研圈與更廣闊的社會環境之間的重要互動。點擊這裡可以查看往期內容。 · 人工智慧 DeepMind 實現精準預測蛋白質 3D 結構,突破蛋白質摺疊預測難題
  • 繼圍棋戰勝人類之後,AlphaGo所屬團隊又瞄準了蛋白質結構預測
    這一次,Deep Mind 團隊將目光放到了生物學的蛋白質結構領域,其中的細分領域在於蛋白質摺疊,也就是蛋白質的二級結構預測,能夠測出蛋白質的3D形狀。根據英國《衛報》的報導,在墨西哥坎昆舉辦的一場國際會議中,DeepMind 的最新AI—— AlphaFold 成功地根據基因序列預測出蛋白質的 3D 形狀。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    「蛋白質摺疊」是一種令人難以置信的分子摺疊形式,科學界以外很少有人討論,但卻是一個非常重要的問題。生物由蛋白質構成,生物體功能由蛋白質形狀決定。理解蛋白質的摺疊方式可以幫助研究人員走進科學和醫學研究的新紀元。
  • 蛋白質結構預測:生命科學的又一場競爭
    年12月7日訊  中國學者張陽最近在第七屆蛋白質結構預測技術評估大賽中獲得第一名的好成績。據歐陽鍾燦介紹,由生物大分子的基因序列預測其結構,是當前生物學研究面臨的最重要挑戰之一,如果能夠實現,將在生物技術與藥物設計領域產生巨大影響。     2006年11月26~30日,第七屆CASP總結大會在美國加州阿薩爾默會議中心舉行,在大會公布的測評排列名單上,美國堪薩斯大學的助理教授張陽位居第一。
  • 精準預測蛋白結構的Al,會砸了結構生物學家的飯碗嗎?
    對於超大分子量的單一蛋白,體外表達上就存在困難,更別提更大的複合物,所以在獲得高質量的樣品用於結構解析是具有挑戰性,以及費時費力費錢。能夠利用準確預測的結構進行分析,對於相應的研究意義非凡。」 對於AlphaFold的成績,清華大學生命科學學院研究員李賽不吝讚美。結構生物學家李賽的研究方向是用冷凍電鏡解析生物樣本,而清華大學擁有國際一流的冷凍電鏡平臺。
  • 精準預測蛋白結構的AlphaFold,會砸了結構生物學家的飯碗嗎?
    對於超大分子量的單一蛋白,體外表達上就存在困難,更別提更大的複合物,所以在獲得高質量的樣品用於結構解析是具有挑戰性,以及費時費力費錢。能夠利用準確預測的結構進行分析,對於相應的研究意義非凡。」 對於AlphaFold的成績,清華大學生命科學學院研究員李賽不吝讚美。結構生物學家李賽的研究方向是用冷凍電鏡解析生物樣本,而清華大學擁有國際一流的冷凍電鏡平臺。
  • 摺疊革命,深度學習通過胺基酸序列預測蛋白質結構
    通過它們構造並保持每個細胞和組織的外觀結構;構建那些維持生命化學反應的催化酶;成為分子的加工廠、轉換器和驅動機;擔當信號器並接收蜂窩信號等等。由胺基酸和蛋白質組成的長鏈,將它們自己摺疊成精準3D結構,可以管理分子間活動的複雜問題。