AI再發力,解決困擾生物學家近50年的一個基本問題

2021-01-17 科學闢謠
蛋白質的摺疊,好似摺紙,不同結構決定

作者|陸修遠

我們的生命離不開蛋白質。蛋白質是一切生命活動的基礎物質,它是運輸氧氣的載體,是幫助抵禦病毒的抗體,也是消化食物的酶。蛋白質之所以能夠承擔多種多樣的功能,很大程度上是因為它們具有豐富而複雜的空間結構。

可是,蛋白質如何摺疊成這些獨特的形狀呢?這是生物學領域的一個重大挑戰,已經困擾科學家們近50年時間。而就在最近,谷歌開發的人工智慧系統 AlphaFold 將蛋白質結構預測的準確度提高到了原子水平,可以說基本解決了這個「蛋白質摺疊問題」。 這比許多科學家的預期還要早幾十年,顯示出 AI 對解決重大科學問題的潛力。

 01.

困擾科學家近50年的難題

蛋白質佔據我們每個人體重的大約20%,是除水分(60%)以外第二多的物質種類,其它的脂質、碳水化合物、核酸以及各種無機物加起來,也僅僅佔到20%。蛋白質在人體中含量如此之高並不奇怪,因為蛋白質是生命活動的主要承擔者,沒有蛋白質就沒有生命。

人類的生命活動須臾都離不開蛋白質的參與。無論是身體收縮肌肉、眼睛感知光亮,還是消化系統將將食物轉化為能量,我們身體的每一項功能之所以能夠正常行使,幾乎都依賴於蛋白質。

生命的每一項活動都依賴於蛋白質。左下為紅細胞,右下為抗體蛋白。|圖蟲創意

目前地球上已知的蛋白質大約有兩億種,每一種蛋白質都有獨特的空間結構。蛋白質在生物體中能夠發揮多種多樣的功能,很大程度上取決於它們的三維結構。

例如,我們免疫系統中的抗體蛋白是「Y形」的,並且會形成獨特的鉤狀,這使得它們能夠附著在病毒和細菌上,檢測和標記致病微生物,將其徹底消滅。膠原蛋白的形狀像擰起來的繩索,因而能夠在軟骨、韌帶、骨骼和皮膚之間傳遞張力。還有在被稱為「基因魔剪」的 CRISPR-Cas9 基因編輯技術中,Cas9 蛋白質利用 CRISPR 基因序列作為嚮導,像剪刀一樣靈巧地剪切和粘貼 DNA 片段。

然而,確定蛋白質的空間結構一直是生物學中的巨大挑戰。1972年,也就是將近50年前,諾貝爾化學學獎得主 Christian Anfinsen 就猜測,蛋白質的胺基酸序列應該可以完全決定其空間結構。可是要如何根據蛋白質的胺基酸序列來確定它的空間結構呢?這就是困擾科學家們近50年的「蛋白質摺疊問題」。

02.

蛋白質如何將自己摺疊起來?

蛋白質就像是一臺精心組裝的機器,它的零件是我們身體內的20種胺基酸。在基因編碼合成胺基酸序列的過程中,一個個胺基酸分子遵照基因序列中蘊含的遺傳信息指令,像珠子一樣有序綴連起來,形成多肽鏈,構成蛋白質的一級結構。

然而,通常的機器只要按照設計圖將零件組裝起來就可以運轉,而胺基酸分子連接成多肽鏈後,蛋白質分子的建造還沒有結束,它還需要進一步摺疊出空間結構才能發揮功能。可是基因序列只決定胺基酸序列的合成,並不包含更多信息指導它如何摺疊成獨特的三維結構。

事實上,胺基酸序列的摺疊方式蘊含在自身之中,它們自己設計自己如何摺疊。一維多肽鏈中的胺基酸分子像是懂得彼此溝通一樣,它們有些相互排斥,有些彼此吸引,形成螺旋、摺疊成褶皺,構成蛋白質的二級結構。接著,它還會進一步摺疊成獨特的空間結構,像一根毛線繞成線團那樣,構成蛋白質的三級結構。

胺基酸連接形成一維的多肽鏈,然後進一步摺疊形成具有獨特三維結構的蛋白質。有些時候,還會形成更複雜的四級結構。|DeepMind

整個蛋白質摺疊的過程看似隨機,卻又仿佛遵循著一張設計藍圖,一旦組成蛋白質的胺基酸序列確定下來,它的摺疊方式也就完全確定了。這實際上很符合直覺,我們可以想像,如果同樣的胺基酸序列可以摺疊成不同結構的蛋白質,發揮不同的功能,我們的身體內部會陷入怎樣的混亂狀態。

自然界經過漫長的生命進化過程,蛋白質分子在一眨眼之間就能夠自發地完成整個摺疊過程。但科學家們發現,如果想要通過計算胺基酸分子間的相互作用來預測它們如何摺疊,那麼要窮盡所有可能的蛋白質構型,需要的時間將比整個宇宙年齡還要長。

這個問題困擾了科學家們很長時間。但是在人工智慧進入這個領域後,預測蛋白質摺疊的準確性很快獲得提升。

03.

AI出手!精確預測蛋白質結構

人工智慧(AI)的一種實現手段是時下流行的機器學習。2016年打敗人類圍棋冠軍的AlphaGo和此次預測蛋白質結構的AlphaFold,利用的都是機器學習算法。它的大致思路是,先將大量已有的數據——包括結果(比如圍棋棋譜、貓狗圖片等)輸入計算機,然後計算機對這些數據進行分析,利用它驚人的計算能力從這些數據中尋找特徵或規律 。這樣,對於以後輸入的新數據,它就能作出「富有經驗」的高明反應了。

2016年,人工智慧阿爾法狗(AlphaGo)打敗圍棋九段李世石。2017年,進化的阿爾法狗又讓天才圍棋少年柯潔碰了壁。圖為李世石。|來自網絡

更為先進的人工智慧算法甚至允許只輸入很少量的學習樣本,就能掌握相關技能。比如AlphaGo的升級版本根本不需要輸入棋譜,只要知道圍棋的規則,就能根據算法對規則進行自我摸索和訓練,通過自己跟自己對弈,最終獲得超越人類頂級圍棋高手的能力。

AlphaFold解決蛋白質摺疊問題的過程與AlphaGo學習下圍棋的過程類似,只不過輸入的是大量蛋白質的序列和結構數據——這些數據來自實驗室中實際測得的數據。AlphaFold從中找尋胺基酸分子之間的相互作用、蛋白質片段之間的演化關係,從而獲得了預測蛋白質結構的強大能力。最終,只要知道蛋白質的胺基酸序列,就能迅速而準確地預測出它的結構,相當於通過精妙的算法,將蛋白質的一級結構和三級結構準確地聯繫了起來。

AI 通過精妙的算法,由胺基酸序列(最左)即可預測出蛋白質結構(最右)。|thenewstack

在2018年的蛋白質結構預測競賽 (CASP)中,AlphaFold 在所有參賽團隊中排名第一,準確地從43種蛋白質中預測出了24種蛋白質的結構,取得了前所未有的進步。

到了2020年,AlphaFold的升級版本從生物學、物理學和機器學習領域的最新進展中汲取靈感,升級算法,再次以壓倒性的優異成績奪冠。這一次,AlphaFold預測的多種蛋白質結構與實驗結果僅僅存在原子尺度的細微差異,達到了與傳統的試驗方法相媲美的程度,可以說AlphaFold基本解決了蛋白質摺疊問題。

 04.

生物學家要失業了嗎?並未!

AlphaFold取得裡程碑性質的進展,讓人類有望在諸多領域得到來自AI的切實助力。例如在醫藥領域,阿爾茨海默症、帕金森症候群、亨廷頓症候群等神經系統病變都與蛋白質的錯誤摺疊有關,這直接導致蛋白質結構和功能出現異常。而AI的介入將讓人類更有效地了解這些錯誤摺疊背後的機理,從而提出更加有效的治療方案。

還有這次疫情。新冠病毒大約由 30 種蛋白質組成,在 CASP14 競賽中,AlphaFold 精確預測了其中一種蛋白質(ORF8)的結構。|Fusion Medical Animation

工業領域同樣會受到這一成就的積極影響。以酶化工為例,多種蛋白酶已經作為反應催化劑獲得了廣泛應用。其中很多種都是人類近年才發現的新型蛋白質,它們個個身懷絕技,有些能夠分解原油、有些能夠降解塑料。對於這些蛋白質的結構和催化機理,我們目前都只有非常初步的認識,AI無疑將大大加速相關研究的進展。

有趣的是,在聽聞AlphaFold解決了蛋白質摺疊問題的消息後,很多人調侃說,結構生物學家以後要失業了。不過事實上,AlphaFold只是為結構生物學家們提供了獲得蛋白質結構的一種手段,正如傳統的核磁共振、X射線衍射和冷凍電鏡方法一樣。這些特定結構在生命體中如何發揮功能,才是更需要結構生物學家們回答的問題。

如著名結構生物學家顏寧所言,結構只是用來做出生物學發現的手段。比如弄清楚剪切體這個龐然大物的結構之後,由此揭示出「幾百個蛋白質如眾星捧月般簇擁著RNA,一剪子一鉤針地剪接 DNA 序列中的內含子和外顯子」,這個過程才是真正的神奇。

除了預測蛋白質結構,AlphaFold 也將促進蛋白質設計的發展。在未來,AI或許可以幫助人類根據自身獨特需要,創造出自然界中原本不存在的蛋白質。屆時,必將是生命科學的一次飛躍。

作者|陸修遠 大阪大學免疫前沿中心

審稿|李劍南 大阪大學蛋白質研究所

編輯 | 陳天真

責編 | 高佩雯

參考連結:

https://www.deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

https://www.deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery

相關焦點

  • 一個困擾生物學家50年的問題,被AI突破了
    就算是天天研究蛋白質的科學家們,也被這個問題困擾了50年。如今有隻AI,能以前所未有的準確率預測蛋白結構。CASP挑戰賽兩年一屆,從1994年開始至今已經舉辦了14屆,大致相當於蛋白結構預測界的奧林匹克。比賽創辦人之一、馬裡蘭大學教授John Moult毫不吝惜對這隻AI的讚美。他說,從某種程度上看,(蛋白結構預測)問題已經解決了。
  • 一個困擾生物學家50年的問題,被AI突破了
    就算是天天研究蛋白質的科學家們,也被這個問題困擾了50年。 如今有隻AI,能以前所未有的準確率預測蛋白結構。Nature把馬普所生物學家Andrei Lupas的一句評論當做了新聞標題:它會改變一切。 怎樣的一場比賽 拿到一個胺基酸序列,每隻AI都會給出自己預測的三維結構。 那麼,擁有近100位參賽選手的CASP挑戰賽,是依靠什麼來衡量各位選手的得分?
  • AI數小時內解決困擾生物學50年的高精度蛋白質摺疊預測問題
    據《紐約時報》報導,這家與谷歌同屬一家母公司的公司DeepMind創造了一個人工智慧系統,它可以快速準確地預測蛋白質如何摺疊以獲得其3D形狀,這是一個令人驚訝的複雜問題,幾十年來一直困擾著研究人員。近50年前,科學家們假設,你可以只知道一個蛋白質的胺基酸序列就能預測它的結構。但事實證明,解決這個 "蛋白質摺疊問題 "具有巨大的挑戰性,因為根據DeepMind公司的聲明,理論上同一蛋白質有很多方式可以摺疊成3D結構,令人匪夷所思。
  • 沒錯,戰勝柯潔的AI系統,已經開始解決困擾科學家50年的生物難題
    如今,這家總部位於英國的公司,又開始進軍生物醫學領域,甚至攻克了科學家們認為人力還需要幾十年才能拿下的難題,那就是蛋白質摺疊的問題。大約在50年前,科學家們就開始思考蛋白質如何構建其複雜的三維結構的。我們知道,胺基酸是蛋白質的最基本單元,它們之間的結合會形成肽鏈,而肽鏈本身或者通過結合就能形成蛋白質。
  • 困擾科學家近半個世紀的蛋白質摺疊難題破了!這回又是AI揭的秘
    蛋白質摺疊示意圖困擾科學家近50年的難題我們的生命離不開蛋白質。蛋白質是一切生命活動的基礎物質,它是運輸氧氣的載體,是幫助抵禦病毒的抗體,也是消化食物的酶。蛋白質之所以能夠承擔多種多樣的功能,很大程度上是因為它們具有豐富而複雜的空間結構。可是,蛋白質如何摺疊成這些獨特的形狀呢?這是生物學領域的一個重大挑戰,已經困擾科學家們近50年時間。
  • 谷歌人工智慧解決蛋白質摺疊問題,結束人類50年困擾
    DeepMind於12月初宣布了一項重大突破,他們的AI系統AlphaFold已經解決了「蛋白質摺疊問題」,這是生物學中已經困擾了科學家50年的巨大難題。蛋白質摺疊問題的突破可以幫助我們了解疾病並發現新的藥物。生物學家安德烈·盧帕斯(Andrei Lupas)告訴《自然》(Nature),這是在 「改變遊戲規則」。
  • 這個天才青年還解決了困擾數學界近80年的「簡單問題」
    而就在拿下柯爾獎前不久,這位來自牛津大學的青年數學家James Maynard,又和另一位數學家合作,攻下了一個困擾數學家們將近80年的難題——Duffin-Schaeffer猜想。這一用有理數逼近無理數的問題,對於丟番圖逼近領域的數學家來說,幾乎可以說是最基礎、最關鍵的問題之一。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    弄清蛋白質摺疊成何種形狀被稱為「蛋白質摺疊問題」。在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。用哥倫比亞大學計算生物學家 Mohammed AlQuraishi 在 Nature 文章中的話來說,「可以說這將對蛋白質結構預測領域造成極大影響。我懷疑許多人會離開該領域,因為核心問題已經解決。這是一流的科學突破,是我一生中最重要的科學成果之一。」
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    CASP14 組織者、年近七旬的 UC Davis 科學家 Andriy Kryshtafovych 在大會上感嘆道,I wasn't sure that I would live long enough to see this(我活久見了)[1]。
  • AI破解困擾了50年的難題,這可能改變一切
    公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。 剛剛,一個困擾生物學家50年的難題,被AI解決了。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子摺疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
  • 生物學的一個基本大問題迎來重大突破
    」一直是生物學中的一個重大挑戰,並且已經困擾生物學家50多年。1994年,一些科學家組建了一個社群論壇,名為CASP(預測蛋白質結構的關鍵評估),讓從事蛋白質摺疊研究的科學家可以分享最新的進展。AlphaFold先是通過深度學習的方法,學習大量已知蛋白質的序列和結構,然後利用這些信息對蛋白質應該是什麼樣子生成一個模型,在「習得」之後再預測蛋白質中的胺基酸對之間的距離。
  • 生物學的一個基本大問題迎來重大突破!
    然而一直以來,「蛋白質摺疊問題」一直是生物學中的一個重大挑戰,並且已經困擾生物學家50多年。直到現在,終於有佳訊傳來:由DeepMind開發的人工智慧系統AlphaFold,在根據胺基酸序列確定蛋白質的三維形狀方面取得了重大突破。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    原來是結構生物學,迎來了一個「革命性」的突破。11月30日,DeepMind宣布:AlphaFold 2,這個AI已經成功解決蛋白質摺疊的問題。這一次,AlphaFold的「準確性」均分,直接從原本的60+/100,提升至了92.4/100。而過去十幾年,其他方法只能在40分左右徘徊。
  • AI攻破50年生物學難題!《自然》:「這將會改變一切」
    50年難題,正在人工智慧的幫助下迅速拉上帷幕。將近20年的時間跨度,凸顯了半個世紀以來一直困擾著生物學家的計算難題:已知一個蛋白的胺基酸序列,要怎樣才能求出其三維結構?對於現代生物學來說,測出一個蛋白的胺基酸序列相對簡單(可用蛋白質譜法),但確定蛋白的三維結構則非常難(需要用到X射線晶體學和冷凍電鏡)。如何從胺基酸序列跨到蛋白的三維結構,難倒了一代代的生物學家。若能解決蛋白摺疊問題,科學家就不必浪費大量時間和資金確定蛋白的結構,而是可以將精力放在更重要的問題上,甚至還能針對性地設計具有獨特功能的蛋白。
  • 最近,人工智慧解決了長達50年的生物學難題,一個巨大的突破
    50年來,研究人員一直在努力預測蛋白質是如何實現它們的三維結構的,但這並不是一個容易解決的問題。事實上,所有可能的分子結構的數量大得令人難以置信,研究人員推測,要對所有可能的分子結構進行採樣,需要比宇宙年齡更長的時間。
  • 解決生物學50年來重大挑戰 生物界"AlphaGo"精準預測蛋白質結構
    2018年,上一代的 AlphaFold得分一下子突破了50。而這次的新一代 AlphaFold,在蛋白結構預測大賽裡的中位得分超過了92.4。拿它預測的結構與實際結構對比,可以看到基本完全吻合(下圖,綠色是實驗得到的實際結構,藍色是計算預測結構)。
  • 最新消息,人工智慧解決了長達50年的生物學難題,一個巨大的突破
    50年來,研究人員一直在努力預測蛋白質是如何實現它們的三維結構的,但這並不是一個容易解決的問題。事實上,所有可能的分子結構的數量大得令人難以置信,研究人員推測,要對所有可能的分子結構進行採樣,需要比宇宙年齡更長的時間。
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    11月30日,DeepMind宣布:AlphaFold 2,這個AI已經成功解決蛋白質摺疊的問題從某種意義上說,蛋白質摺疊的問題已經解決了。解決50年的挑戰克裡斯蒂安·安芬森在1972年諾貝爾化學獎的獲獎感言中,提出了一個著名的假設,即理論上,蛋白質的胺基酸序列應該完全決定其結構
  • 困擾數學界80年的問題被天才青年「簡單」解決了
    這兩天數學界出現了一爆炸性新聞,困擾數學界80年的問題終於被攻下了,同時摘下了「數論界最高獎」柯爾獎,他就是來自牛津大學的青年數學家James Maynard。在1900年的國際數學家大會上,數學家希爾伯特提出了23個有待解決的重要數學難題和猜想,他把黎曼猜想、孿生素數猜想與哥德巴赫猜想等一起列入了這23個數學問題中的第八問題。160年裡,數學家在這一方面幾乎沒能取得任何進展。但在過去十年間,數學家取得了突飛猛進的進展。比如既然證明有無窮多個差值為2的素數如此困難,那麼是否可以證明差值為7000萬的素數有無窮多個?