AI攻破50年生物學難題!《自然》:「這將會改變一切」

2020-12-17 騰訊網

AlphaFold預測的新冠病毒ORF8蛋白結構;該結構已獲實驗證實。

1972年諾貝爾獎得主克裡斯蒂安·安芬森(Christian Anfinsen)在諾獎頒獎典禮上提出猜想:一個蛋白的胺基酸序列應該能完全決定這個蛋白的結構;而蛋白作為生命的基本構件,其結構與生命的各種功能息息相關。因此,半個世紀以來,科學家努力嘗試著利用胺基酸序列預測蛋白結構。然而,迄今為止的大多數嘗試皆為徒勞。

現在,一個來自DeepMind的人工智慧算法,終於一舉解決了這個問題。

喜訊在昨晚傳來:困擾了生物學家半個世紀的蛋白摺疊問題(protein folding problem),被一個人工智慧算法解決了。這個算法名為「AlphaFold」,由DeepMind公司開發。DeepMind發布於6年前的圍棋算法AlphaGo,至今已無人能敵。

DeepMind這次的新突破,其重要程度或許更甚於AlphaGo的誕生。在宣布AlphaFold解決了蛋白摺疊問題後,《自然》《科學》等著名雜誌相繼發文,在祝賀DeepMind之餘,也強調了這是人工智慧的又一次重大勝利。DeepMind母公司Alphabet和其姐妹公司Google的CEO桑達·皮採(Sundar Pichai)在推特上表示,這項新突破能讓我們更好地理解生命的基本構件之一,並「幫助研究人員攻克新難題,不論是抗擊疾病,還是保護環境。」

桑達·皮採的祝賀推特。

生物學的一個50年難題,正在人工智慧的幫助下迅速拉上帷幕。

蛋白難題

人類已知的所有生命都由蛋白構成,這些有機分子構成了我們與世界交互的基本元件。以視覺為例:我們眼中的感光細胞(photoreceptor)都擁有感光蛋白(opsin),感測光子,並將光信號轉化為大腦能理解的電化學信號。與任何蛋白一樣,人類視杆細胞中的感光蛋白視紫紅質(rhodopsin)是由胺基酸(amino acid)組成的;視紫紅質由348個胺基酸連接而成,在三維空間內的形狀與下圖大致相符:

牛視紫紅質(與人類視紫紅質結構相近)的三維結構。

然而,儘管視紫紅質的胺基酸序列在上世紀80年代就已測出,其結構卻直到2000年才被首次揭開。將近20年的時間跨度,凸顯了半個世紀以來一直困擾著生物學家的計算難題:已知一個蛋白的胺基酸序列,要怎樣才能求出其三維結構?

這可不是一個小問題:蛋白的功能取決於其三維結構,而在自然環境中,蛋白通常能自發地在數秒內摺疊成具有功能性的特定三維形狀。對於現代生物學來說,測出一個蛋白的胺基酸序列相對簡單(可用蛋白質譜法),但確定蛋白的三維結構則非常難(需要用到X射線晶體學和冷凍電鏡)。如何從胺基酸序列跨到蛋白的三維結構,難倒了一代代的生物學家。若能解決蛋白摺疊問題,科學家就不必浪費大量時間和資金確定蛋白的結構,而是可以將精力放在更重要的問題上,甚至還能針對性地設計具有獨特功能的蛋白。

於是,從上世紀60年代開始,生物學家對這個難題展開了強勁攻勢。八九十年代見證了蛋白摺疊問題「答案」的泉湧,科學家們一度以為很快就能從胺基酸序列預測蛋白的三維結構了;然而,當大家將眾多論文中提出的預測方法應用到自己感興趣的蛋白上時,卻發現我們離解答蛋白摺疊問題還差得太遠。

1994年,在生物學界的悲觀氛圍中,馬裡蘭大學學院市分校的計算生物學家約翰·莫爾特(John Moult)等人創立了兩年一度的CASP(Critical Assessment of protein Structure Prediction,即蛋白結構預測關鍵評估)比賽。在CASP上,不同隊伍需要利用已知的胺基酸序列預測蛋白的三維結構。這些結構都已被實驗證實,但未被公開。最後,評審會將各個隊伍的預測結果與實驗結果作比較,從而給出一個GDT分數。GDT意為「全局距離測試」(Global Distance Test),可理解為「有多大比例胺基酸的預測位置,與實驗測定的實際位置相差無幾」,因此分數越高,代表著預測越準。

GDT測試的滿分為100。一個預測方法必須要取得90分以上的成績,才能算作「解決了蛋白摺疊問題」。

截至2016年,12屆CASP的歷史最高分約為40。

AI相助

AlphaFold的第一次亮相在2018年。在第13屆CASP上,AlphaFold獲得了將近60分的GDT分數,比第二名高出了15%。在今年的CASP上,AlphaFold更是一舉獲得了將近90分的成績。

在中等難度的蛋白結構預測中,AlphaFold連續兩年奪冠,今年更是取得了將近90分的GDT成績。

AlphaFold的工作原理分為兩步。第一步是多序列校準(multiple sequence alignment),與一同參賽的其它算法沒有區別,意在將已知的胺基酸序列與資料庫內的序列對比,找出那些「喜歡待在一起」的胺基酸,再通過進一步分析模擬出每個胺基酸之間的距離,從而得出初步預測。但知道胺基酸之間的距離還不夠——畢竟不是每一種三維結構都符合物理規則。於是在第二步中,AlphaFold會基於胺基酸序列,創造出一個符合物理規則的隨機三維結構,然後用深度學習中常用的梯度下降法(gradient descent)改進第一步中得出的預測。

至此,AlphaFold已經能超越前12屆CASP中冠軍所用的預測方法了。但在今年的CASP上,第二代的AlphaFold還用上了基於注意力機制的神經網絡(attention-based neural network)架構。簡單來說,在考慮蛋白三維結構時,這種旨在模仿大腦的神經網絡架構不僅會考慮到胺基酸序列中的每個胺基酸,還能預估一個胺基酸的位置受哪些胺基酸的影響、影響程度有多大,等等。就如同大腦在決策時會將注意力集中在重要信息上一樣,升級版AlphaFold在預測結構時也會將「注意力」集中在重要的胺基酸上。

與其它深度學習算法一樣,AlphaFold也需要利用大量數據進行訓練。今年參加CASP的AlphaFold,訓練數據集囊括了大約17萬個已知的蛋白三維結構,加上包括Uniprot在內的大型蛋白序列庫中的蛋白胺基酸序列。利用128個TPUv3核心,AlphaFold在訓練了幾周後就達到了參賽水平。

有了先進的神經網絡架構、算法和數據的支持,AlphaFold能在幾天內預測出一個蛋白的三維結構,甚至還能計算預測結構中每個部分的可靠性(即AlphaFold對這部分預測結構的「信心」)。在CASP的盲審中,當評委們看到一個隊伍的算法擁有極高的預測準確率時,他們「就已經猜到這是AlphaFold了,」評審之一,安德烈·魯帕斯(Andrei Lupas)說。比賽結果顯示,AlphaFold將近三分之二的預測都與實驗結果相近。

AlphaFold對兩個蛋白(左:RNA聚合酶的一個域;右:黏附素尖端)的結構預測(藍色)和實驗測定結構(綠色)的對比。

撼動學界

AlphaFold的參賽結果,讓哥倫比亞大學的計算生物學家穆罕默德·庫雷希(Mohammed AlQuraishi)感覺會有很多人因此離開蛋白結構預測領域。他說:「這是最高級別的突破,絕對是我人生中最重要的科學成果之一。」AlphaFold的出現,意味著今後要對蛋白結構進行高效、簡便且精準的預測,僅需初步的試驗數據即可。擁有這些蛋白結構的助力,疾病、演化等領域的研究將得到強大的推動。

以疾病研究為例,利用給定胺基酸序列預測蛋白結構至關重要。例如,鐮刀形貧血症(sickle-cell anaemia)是由單個胺基酸的變動(從穀氨酸到纈氨酸)引起的。這個變動足以使血細胞從正常運作的球狀,變成具有嚴重缺陷的鐮刀狀。類似的遺傳疾病比比皆是。有了AlphaFold的幫助,我們就能快速利用發生變動的胺基酸序列,預測疾病中異常蛋白的結構,從而有針對性地進行下一步研究。

除此之外,AlphaFold也標誌著DeepMind公司的轉型。在今年年初,《自然》刊發了一篇DeepMind的科研文章,利用從人工智慧領域中獲得的洞見,改變了許多神經科學家對大腦中重要的神經調質多巴胺(dopamine)的看法。AlphaFold的此次成功,更堅定了DeepMind利用人工智慧助力生物領域研究的角色。

DeepMind公司的CEO德米斯·哈薩比斯(Demis Hassabis)表示:「在實際影響力上,我真的覺得這是(DeepMind)至今最重要的成就。」這個50年難題的解決,意味著生物學家終於從預測蛋白結構的苦勞中被解放出來,能夠著手應對更新、更需要創造力的任務。

相關焦點

  • 「它將改變一切」,DeepMind AI解決生物學50年來重大挑戰,破解蛋白...
    在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。在今年的國際蛋白質結構預測競賽 CASP 中,DeepMind 開發的 AlphaFold 最新版本擊敗了其他選手,在準確性方面比肩人類實驗結果,被認為是蛋白質摺疊問題的解決方案。
  • 清華女教授「棄國歸美」,為美又立新功,國際50年難題被攻破
    為何顏寧的選擇會引發巨大爭議?顏寧從小就是「別人家的孩子」,19歲那年以優異的成績進入清華大學,就讀於生物學專業,她在生物學研究領域有極高的天賦,在清華畢業後,她又進入普林斯頓大學繼續深造,獲得了生物學博士學位。當時的她在結束學業後第一時間就回到了祖國,懷抱滿身的熱情希望能為祖國的建設添磚加瓦。
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    啊這,怎麼回事?原來是結構生物學,迎來了一個「革命性」的突破。11月30日,DeepMind宣布:AlphaFold 2,這個AI已經成功解決蛋白質摺疊的問題。這一次,AlphaFold的「準確性」均分,直接從原本的60+/100,提升至了92.4/100。而過去十幾年,其他方法只能在40分左右徘徊。
  • DeepMind AI系統攻破生物學界50多年重大難題
    美國時間 11 月 30 日,谷歌母公司 Alphabet 旗下人工智慧公司 DeepMind 公開宣布,生物學界 50 年來的重大難題——蛋白質摺疊預測,已被其成功攻克。Alphabet 旗下人工智慧公司 DeepMind 在預測蛋白質結構方面邁出了一大步。
  • AI破解蛋白質摺疊難題,這意味著什麼?-虎嗅網
    剛剛,一個困擾生物學家50年的難題,被AI解決了。去年年底,谷歌DeepMind推出了一種名為AlphaFold的算法。     《自然》雜誌更是評論其為「這將改變一切」。        蛋白質摺疊50年來重大突破,AI破解預測難題蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。世界上許多重大的挑戰,比如發展疾病的治療方法或者找到分解工業廢物的酶,從根本上來說都與蛋白質及其所扮演的角色有關。
  • 50年難遇AI「諾獎級」裡程碑!DeepMind破解蛋白質摺疊難題
    剛剛,一個困擾生物學家50年的難題,被AI解決了。 去年年底,谷歌DeepMind推出了一種名為AlphaFold(一個用人工智慧加速科學發現的系統,它基於蛋白質的基因序列,就能預測蛋白質的3D結構)的算法。
  • 從分子生物學到系統生物學——記DNA雙螺旋結構發現50周年
    50年後的2003年也成為全世界科學界慶祝「DNA雙螺旋結構」50周年的國際年:兩位科學家當時所在的劍橋大學將主辦各種活動;《自然》雜誌也將在4月份專門發表祝賀的文章;我國科學家也將在4月25日舉辦紀念雙螺旋結構建立50周年的學術會議,9月份沃森還將應邀來到中國演講…… 克裡克現在身體狀況不是很好,在家休養。
  • 解決生物學50年來的重大挑戰,AI能根據...
    Lupas說:「這將使新一代的分子生物學家能夠提出更高級的問題。」「這將需要更多的思考和更少的移液操作。」由Google AI開發的人工智慧(AI)網絡使DeepMind脫穎而出,在解決生物學最嚴峻的挑戰之一方面取得了巨大飛躍-從蛋白質的胺基酸序列確定蛋白質的3D形狀。
  • 視覺模型核心難點攻破!AI開發進階系列公開課邀你加入
    其中物體檢測和圖像分割被廣泛應用在瑕疵檢測、安全生產隱患檢測、衛星遙感監測、無人機航拍等場景中,這些場景裡往往需要對大圖像數據中的小目標進行檢測,如何藉助AI能力在大圖小目標的場景裡降低漏檢率和誤檢率是行業一大難題,困擾著無數開發者。
  • 清華女教授棄國歸美,為美又立新功,困擾國際50年難題被攻克
    為何顏寧的選擇會引發巨大爭議?顏寧從小就是「別人家的孩子」,19歲那年以優異的成績進入清華大學,就讀於生物學專業,她在生物學研究領域有極高的天賦,在清華畢業後,她又進入普林斯頓大學繼續深造,獲得了生物學博士學位。當時的她在結束學業後第一時間就回到了祖國,懷抱滿身的熱情希望能為祖國的建設添磚加瓦。
  • 初中學歷「土專家」 攻破世界級建橋難題
    他出生在重慶,只有初中文化,卻憑藉肯鑽研、敢創新,攻破了建橋世界級難題。他叫孫家林,是中交二航局的一名「土專家」。昨日,孫家林向重慶晨報記者講述了他一步一步攻克世界級難題的歷程。  自主設計節省成本近400萬元  「我只有初中學歷,但是這並不妨礙我鑽研啊!」
  • 人工智慧在生物學上的重大突破,比肩DNA的發現,或徹底改變醫學
    這是一個讓生物學家困惑了50年的難題,以至於基於計算機的蛋白質結構預測已經變成了眾包遊戲,全球競賽。我們正處在拐點上。AlphaFold在一項名為「結構預測關鍵評估(CASP)」的長期挑戰中,以驚人的表現擊敗了約100個其他團隊。CASP聯合創始人、馬裡蘭大學的約翰·莫爾特博士對《自然》雜誌說:「在某種意義上,這個問題已經解決了。」
  • 清華女教授重回美國,為美又立新功,學術界50年難題被攻破
    考上清華北大的學生,一般情況下會選擇出國留學,為將來的社會競爭提供更多的砝碼其中清華女教授顏寧就是一個例子,此人在2017年因為「重回美國」的消息轟動了學術界,引起了大家的熱議。天才女子顏寧,清華大學畢業後出國深造顏寧出身於山東省,從小就學習優秀,成了鄰居阿姨家羨慕的孩子。
  • DeepMind的蛋白質摺疊AI解決了50年來的生物學重大挑戰
    編·譯作者 | 王建民科學家們表示,谷歌用於預測蛋白質3D形狀的深度學習計劃有望改變生物學。前言蛋白質是生命的基石,負責細胞內發生的大部分事情。蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶的蛋白質,並將衍射光轉化為蛋白質的原子坐標的技術,首次確定了蛋白質的完整結構。X射線晶體學產生了絕大部分的蛋白質結構。
  • 解決生物學50年來的重大挑戰,AI能根據胺基酸序列精確預測蛋白結構?
    Lupas 說:「這將使新一代的分子生物學家能夠提出更高級的問題。」 「這將需要更多的思考和更少的移液操作。」由 Google AI 開發的人工智慧(AI)網絡使 DeepMind 脫穎而出,在解決生物學最嚴峻的挑戰之一方面取得了巨大飛躍-從蛋白質的胺基酸序列確定蛋白質的 3D 形狀。
  • 攻克生物學難題,「阿爾法摺疊」精準預測蛋白質三維結構
    科技日報北京12月1日電人工智慧(AI)再度發威,攻克了生物學領域一項重大難題:預測蛋白質如何從線性胺基酸鏈捲曲成3D形狀以執行任務。幾十年來,研究人員利用X射線晶體學或低溫電子顯微鏡(cryo-EM)等實驗技術來破譯蛋白質的三維結構,但這種方法可能需要數月甚至數年,且未必見效。目前,在生命體內發現的2億多個蛋白質中,只有17萬個蛋白質的結構被破解。1994年,為更好預測和破解蛋白質三維結構,馬裡蘭大學結構生物學家約翰·穆爾特等人發起了CASP競賽,每兩年舉行一次。
  • 數學界傳出重大消息,黎曼猜想或將被證明,最重要的難題被攻破?
    這門學科從幼兒園就伴隨著我們,並且數學的運用非常廣泛。可謂是必須的知識之一。要說數學中最難的問題是什麼?相信大家會有不同的答案,對於大傢伙,感覺不會的就是難的,要說最難的數學難題,莫過於數學猜想了。目前在數學界有七大數學難題,期待著人們的解答。
  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌兩家「攻破」
    曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI自然語言理解(NLU)迎來新的裡程碑。在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。關於SuperGLUESuperGLUE是由Facebook、紐約大學、華盛頓大學和DeepMind四家機構於2019年8月提出的新NLU測試基準,以取代過去的GLUE。
  • AI解決生物學50年大挑戰,破解蛋白質分子摺疊問題
    在過去 50 年裡,蛋白質摺疊一直是生物學領域的重大挑戰。DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。在今年的國際蛋白質結構預測競賽 CASP 中,DeepMind 開發的 AlphaFold 最新版本擊敗了其他選手,在準確性方面比肩人類實驗結果,被認為是蛋白質摺疊問題的解決方案。
  • 解決生物學50年來重大挑戰!人工智慧預測蛋白結構能力堪比實驗室水平
    它將改變研究。它將改變生物工程。它將改變一切。」馬克斯-普朗克發育生物學研究所的進化生物學家Andrei Lupas說[2]。 「我之前認為這個問題在我有生之年不會得到解決。」歐洲分子生物學實驗室的結構生物學家Janet Thornton說[3]。