生化版阿爾法狗出手蛋白質結構預測,生命密碼的馬奇諾防線崩了

2020-12-04 全現在

2009年諾貝爾化學獎得主拉馬克裡希南表示:「這是蛋白質摺疊的驚人進展,它解決了已經困擾生物學家50多年的問題,比大家預期的要早幾十年。它將以多種方式從根本上改變生物學研究。」

阿爾法狗「生化版」來了,這次它出手的是蛋白質結構預測領域。這個版本名為「阿爾法摺疊」(AlphaFold),同樣來自谷歌旗下的「深度思維」(DeepMind)團隊。

在剛剛結束的國際蛋白質結構預測競賽(CASP)中,AlphaFold取得了革命性突破。在CASP的一系列測試中,AlphaFold獲得了92.4分,在最具挑戰的自由建模蛋白質測試中也獲得87分。

CASP的打分機制是全局距離測試(GDT),以0到100分來衡量,其意思是,設定閾值內,預測結果正確的百分比。按照業內觀點,如果競賽成績達到90分,其預測結果就可以媲美實驗室結果了。

全局距離測試。圖片:DeepMind網站視頻截圖

2005年,《科學》雜誌在創刊125周年之際,將預測蛋白質結構列為125個最具挑戰性的科學問題之一。

多年來,科學家只能通過核磁共振、X射線和冷凍電鏡技術來確定蛋白質結構。他們需要反覆試驗,經過持續數年的艱辛工作才能得到結果。同時這些實驗設備極為昂貴,造價高達數百萬美元。

德國普朗克發展生物學研究所科學家安德烈·盧帕斯(Andrei Lupas)花了10年來破解一種細菌膜蛋白,窮盡已有工具均無果,而AlphaFold僅花了半個小時就得到了結果。

《科學》雜誌引述盧帕斯看法稱:「他們不可能對此作弊,我不知道他們是怎麼做到的。」

DeepMind博客上的一則讚譽來自拉馬克裡希南(Venki Ramakrishnan,他是皇家學會會長、2009年諾貝爾化學獎得主)。拉馬克裡希南表示:「這是蛋白質摺疊的驚人進展,它解決了已經困擾生物學家50多年的問題,比大家預期的要早幾十年。它將以多種方式從根本上改變生物學研究。」

預測結構有多難

經過數億年進化,蛋白質成為已知結構最為複雜、功能最為強大的化學分子。這個複雜的大分子由胺基酸鏈構成,就像珠子一樣排列成長鏈。這條長鏈會發生摺疊,指的是胺基酸串打結、捲曲成三維結構,使其發揮功能的過程。在每條蛋白質的長鏈上,每個胺基酸的位置決定了精確的三維結構。

1972年,諾貝爾化學獎得主克裡斯蒂安·安芬森(Christian B. Anfinsen)在獲獎感言中提出一個假設:理論上,胺基酸序列應該完全決定蛋白質的結構。此後近半個世紀,科學家們一直希望基於胺基酸序列來計算蛋白質的三維結構。

蛋白質結構示意圖。圖片:DeepMind

識別蛋白質的結構極為困難,每個蛋白質理論上存在的可能構象都是天文數字。1969年,美國分子生物學家利文索爾(Cyrus Levinthal)指出,未摺疊的多肽鏈有天文數量的自由度,比如一個由100個胺基酸殘基組成的多肽,其理論上的錯誤構象多達3的198次方。而最大的蛋白質,其胺基酸數量可多達上萬個。

然而每個蛋白質一般只形成一種穩定構象,通常是處於最低能量狀態的構象。

對於人工智慧而言,相比於其他機器讀片或圖案識別的工作,預測蛋白質三維結構的難度要高出多個等級。

從事蛋白質結構與功能預測的南開大學教授楊建益介紹,機器讀片處理的基本上都是二維圖像,但結構預測要解決的是從胺基酸一維序列到三維原子水平結構的構建問題。

預測蛋白質結構的複雜度與蛋白質大小有關。從事蛋白質設計研究的西湖大學研究員盧培龍說,蛋白質分子越大,複雜度越大,計算機預測的難度也就越大。

每屆國際蛋白質結構預測競賽中的最佳團隊成績曲線。圖片:DeepMind

為何是AlphaFold

AlphaFold的成績建立在全球數百名研究人員工作基礎上。DeepMind組建了一個由生物學家、物理學家和計算機科學家共同協作的團隊。關於它如何工作的細節將會在本周的CASP會議上公布。

今年的國際蛋白質結構預測競賽是第14屆。大多數參賽者來自學術機構,不過微軟和騰訊均有參加,其中有一半的參賽團隊採用了深度學習技術。

參賽AI做蛋白質結構預測的前提是需要在17萬種已知結構的蛋白質資料庫中進行訓練。如今已有1.8億種蛋白質得到了胺基酸序列。

相較2018年的第13屆競賽,Deepmind這次花了數周時間就得到了預測結果。根據往屆經驗,這一過程往往要花好幾個月。

DeepMind辦公室。圖片:DeepMind網站視頻截圖

他們很重要的一個策略是,研究人員將蛋白質結構看作空間圖,殘基是節點,接近的殘基以邊連接。

楊建益介紹,此次AlphaFold引入了注意力機制的深度學習,基於超強的硬體條件,相當於100-200個GPU(計算機圖形處理器),並以蛋白質結構資料庫中的所有結構數據來訓練模型。其他實驗室基本不具備這樣優越的硬體條件。

此次AlphaFold充分利用了宏基因組數據,通過端到端直接預測結構模型,同時對模型的質量進行預測,以選出最優的結構模型。與2018年的AlphaFold相比,最新的AlphaFold還在預測過程中加入了同源模板的信息。

兩年前的AlphaFold採用能量最小化的方式直接構建結構,後期也有不少團隊開發了類似的方法,例如楊建益課題組和華盛頓大學計算生物學教授大衛·貝克(David Baker)實驗室合作開發的trRosetta。然而最新的AlphaFold放棄了這類方法,而是把結構作為圖直接預測(殘基是圖的頂點,距離近的殘基通過邊連接)。

《經濟學人》雜誌引述該項目負責人約翰·姜普(John Jumper)的看法稱,2018年的AlphaFold已經達到了能力的極限。

盧培龍說,AlphaFold的突破是基於各方面綜合的進展而得到的,包括之前領域內科學家們的成果,也包括軟體、硬體的革新。

DeepMind團隊的首席科學家John Jumper。圖片:DeepMind

全球競賽

國際蛋白質結構預測競賽(CASP)誕生於1994年,每兩年舉行一屆。

每屆CASP會歷時數月。初始會發布共約100個目標蛋白或結構域,各參賽團隊有幾周時間提交結果。之後,一個獨立的科學家團隊會使用打分機制來評估這些預測。

評估人員對參賽團隊是不知情的。盧帕斯說,AlphaFold是以「427組」的名義參賽的,但其成績驚人,很多評估人員猜測該組是Deepmind團隊。

CASP發起人、馬裡蘭大學計算生物學家約翰·莫爾特(John Moult)表示,與上屆CASP相比,今年各團隊預測結構更加準確,但大部分進步都可以歸功於AlphaFold。

如今這個競賽成了蛋白質結構預測的金標準。最為重要的一點是,他們選擇正在實驗室進行解構的蛋白質作為試題,從而保證參賽者一直處於盲測中。

AlphaFold系統在本屆競賽中的平均成績是92.4分,也就是說,其誤差在1.6埃,大約是0.1納米,即1個原子大小。在最具有挑戰性的自由建模預測類別中,其成績是87分。

同樣的試題,其他團隊最好成績是75分,而AlphaFold系統能拿到90分。

AlphaFold自由建模類別中的兩個例子。左為RNA聚合酶,右為粘附蛋白,兩者成績均超過了90分。

意義與待解問題

DeepMind是一家英國公司,位於倫敦,成立於2010年。2015年,它被谷歌收購。

過去10年,DeepMind是在學術界、科技行業和醫療界蔓延的一場大變革中的關鍵角色之一。除了眾所周知的阿爾法狗(AlphaGo),DeepMind還涉足健康AI領域。AlphaFold的問世也是DeepMind發展的重要節點。

對於實驗室解構難度大的蛋白質而言,計算機預測就顯得尤為重要。比如膜蛋白對於理解信號跨膜傳導尤為重要,但因其難以結晶而多年來未得破解。

預測蛋白質結構還有助於一些疾病的理解。如鑑定失活蛋白質並推斷其相互作用方式。

這項工作還可推進藥物開發,使其更加精確。不過,專家們還是提醒說,這項技術只會影響科學家們識別新藥和分析疾病的漫長過程中的一小部分。目前尚不清楚DeepMind何時或如何與其他研究人員分享其技術。

原北京協和醫學院教授、腫瘤藥物開發者王晨光的觀點是,目前有些「讚譽」是Alphafold尚難以承受的。蛋白質是一類大分子,承擔細胞的多種功能,其三維結構並非單一結構,很多蛋白質「身段柔軟」,「隨遇而安」。

預測T1008蛋白質結構的動畫截圖。圖片:DeepMind

此外,蛋白質之間在細胞內形成複雜的網絡,也和外界保持著密切的溝通,而這些都是通過蛋白質的修飾和相互作用實現的,那麼這些對蛋白質動態三維結構預測的挑戰就更大。

Deepmind在其博客中坦言,其預測的結果並非都是完美的,還有諸多問題待解。如多種蛋白質如何形成複合物,蛋白質與DNA、RNA和其他小分子的相互作用,以及如何確定所有胺基酸殘基和側鏈的精確位置。

在接受《經濟學人》採訪時,約翰·姜普博士說,目前的AlphaFold版本還有更大的發展空間,該軟體的準確性還有待進一步提升。

楊建益對全現在說,這個工作只是技術上的進步,而非理論上的突破。不過使結構預測的準確率達到如此高的程度,確實是很大的進步,雖然不能說完全替代實驗,但可以大大加速結構解析過程,可喜可賀。

————

請微信搜索關注公眾號「全現在」,朋友圈的世界也會不一樣。

相關焦點

  • 「生化版」阿爾法狗來了,生命密碼的馬奇諾防線崩了
    2009年諾貝爾化學獎得主拉馬克裡希南表示:「這是蛋白質摺疊的驚人進展,它解決了已經困擾生物學家50多年的問題,比大家預期的要早幾十年。它將以多種方式從根本上改變生物學研究。」 阿爾法狗「生化版」來了,這次它出手的是蛋白質結構預測領域。
  • 川普的馬奇諾防線
    川普抗疫慘敗,唯一拿得出手的是1月31日起限制中國人來美旅行。「中國禁行令」 其實並非亮點,而是抗疫失敗的起點。這麼說並非聳人聽聞,川普試圖用「中國禁行令」 打造讓美國高枕無憂的 「馬奇諾防線 」,而「馬奇諾防線」 是個什麼下場,很多人都知道。
  • 蛋白質結構預測:生命科學的又一場競爭
    對此,中國科學院院士歐陽鍾燦評價說:「CASP被譽為蛋白質結構預測領域的奧林匹克競賽,張陽獲得第一名,表明他已經走在這個領域的最前沿,這個成就令人興奮。」     蛋白質結構預測技術評估(CASP)大賽是一個世界性的蛋白質結構預測技術評比活動。
  • 馬奇諾防線,是一個笑話,或是二戰時期最牛的防線
    回顧二戰的歷史,法國耗時耗力建造的馬奇諾防線一直被大家認為是個天大的笑話,本以為固若金湯的防線卻絲毫沒有起到任何作用,德國士兵輕易地繞過了這道豪華防線,接著用了不到100天的時間,就佔領了法國,由此看來,這道防線的確是一個重大的失誤,但真相真的是這樣嗎?
  • 盤點全球沒用的軍事防線:馬奇諾防線成代表,長城也上榜
    畢竟防線一旦被建造出來,它的屬性就被限制死了,人是具有主觀能動性的,最無法預測的,永遠都是人。馬奇諾防線在世界各防線中,以徒負虛名著稱,它是第一次世界大戰後的產物,一戰結束後,法國為了把德軍可能會再次發起的入侵阻擋在外,在德法邊境線上修築的防禦工事,總共花了12年的時間才建成,全長約390公裡。有著堅不可破的美譽。
  • 二戰堅如磐石的馬奇諾防線一夜間土崩瓦解,難道是馬奇諾坑了法國
    馬奇諾防線實景圖 為了戰火不再次燒到法國的國土上,也為了能避免更多年輕男人的死亡法國人絞盡腦汁,1930年一月馬奇諾就任德國的國防部長他上任後多次要求沿著德法邊界線修築一條阻止德國重新發動進攻的防線
  • 法國人經營多年的馬奇諾防線是怎樣的存在?
    馬奇諾防線 於是就有了著名的馬奇諾防線,這條防禦戰線1929年開工,1940 馬奇諾防線 390公裡的防線,縱深長達8公裡,每公裡都有15個堅固的工事,坦克壕溝
  • 二戰中法國的馬奇諾防線真的一無用處,完全是個擺設嗎?
    李三萬 摘要:二戰期間,法國在與德國接壤的邊境修築了一條著名的馬奇諾防線。但在德軍的閃擊戰進攻下,基本沒有發揮作用,那麼馬奇諾防線真的一無用處,完全是個擺設嗎?
  • 聞名於世的馬奇諾防線為什麼沒有擋住德國的鐵甲集團?
    ,但是沒想到馬奇諾防線表面看起來堅固無比實際上沒有多大的作用,馬奇諾防線的失敗的原因是什麼呢?  馬奇諾防線是什麼?  馬奇諾防線是法國在第一次世界大戰後,為防德軍入侵而在其東北邊境地區構築的築壘配系。
  • 「金玉其外,敗絮其中」的馬奇諾防線,消極防禦的產物
    一戰結束之後,為防禦德國的復仇,法國根據一戰的經驗修築了一條號稱歐洲最堅固的要塞防線一馬奇諾防線。 然而在1940年,當納粹德國的鐵蹄再次踏上法蘭西的國土之時,馬奇諾防線並沒有發揮法國人預想中的作用,原因在於德軍主力突破阿登高地,遷迴繞過了馬奇諾防線,使其失去了作用。從此,「馬奇諾防線」就成了「金玉其外,敗絮其中」的代名詞。
  • 二戰期間比「馬奇諾防線」耗資更大的「史達林防線」,結局十分悽慘
    耗資50億法郎建造的「馬奇諾防線」是二戰前世界上最堅固的大型防禦工事之一。可是,由於德軍主力從阿登山脈突破到「馬奇諾防線」後方,導致該防線沒有起到應有的作用,甚至還成為法軍作戰思想落後的體現。 其實,在蘇聯境內,也有一條類似「馬奇諾防線」的築壘地域。
  • 阿爾法狗團隊公布6種新冠病毒蛋白質結構預測,助力疫苗研發
    這一結果可能對新冠病毒疫苗研發等工作起到推動AlphaFold預測的一種蛋白結構說到AlphaFold,可能大家都不陌生,它由曾開發出阿爾法狗的研究團隊研發,是Alpha家族的新成員。在2018年12月一問世就引起科學界關注。它可以僅根據基因代碼預測蛋白質的3D結構。
  • 馬奇諾防線究竟有多強?5800個工事密密麻麻,難怪號稱無法攻破
    有人說馬奇諾防線能和中國長城相比,是長城的加強版,可以用來阻擋敵軍的大型機械化部隊及大型武器意料之外的是德軍根本就沒有攻打馬奇諾,而是直接繞過攻打比利時,兩個月後法國滅亡,隨後進行了敦刻爾克大撤退,撤走了33.6萬人,為後來反攻留下了有生力量,隨後轉入蘇德戰場。馬奇諾防線有多厲害會讓法國人如此自信呢?
  • 二戰的真相:修建馬奇諾防線的法國到底圖啥?
    根據記載,馬奇諾防線整個工程耗資50億法郎,全長390公裡,整個工程構建了5800個用備工事,平均沒公裡就有15個軍事工事。整個工事都由堅固的鋼筋混凝土澆灌而成,牆壁和頂蓋的厚度更是達到了3.5米。普通的炮彈根本就打不透。
  • 2700點不過是馬奇諾防線
    聯想到A股市場,當前的2700點恰如當初的馬奇諾防線。   我們承認,2700點從以下幾點來看確有一定程度的支撐。首先,從市場自身運行的結構來看,2700點是2010年7月份到9月份的高點。從這個方面出發,2700點從去年三季度的強壓力將轉化為當前的支撐力,這個也是為什麼每次跌破2700點之後,都能被拉起的原因。
  • 二戰時期,德軍如果硬剛一波,能否擊破馬奇諾防線?
    在條令和訓練大綱的引領下,法國人將"完全防禦"思想與現代技術結合後,就造出了「固若金湯」的馬奇諾防線。 馬奇諾防線上遍布各式堡壘,其中混凝土堡壘的厚度可達3.5米,而裝甲堡壘的裝甲厚度則超過了300毫米,可以抵禦各式炮火的轟擊。除此之外,法軍還在防線上裝備了各種類型的火炮,再加上可以阻擋坦克的壕溝、斷崖和混凝土樁、防步兵的金屬樁和通電鐵絲網以及遍布的雷場,馬奇諾防線的確可以稱得上堅如磐石。
  • 話說二戰:馬奇諾防線很強大,卻有「巨大漏洞」,實際沒有修完
    【話說二戰】在第次世界大戰中,許多投入非常高昂代價而研發出來的武器裝備被證明,實際上是想多了,面對真正改變戰爭形式的武器和戰術,並沒有什麼實際意義,馬奇諾防線就是這樣的存在,不過實際上這條防線有著「巨大漏洞」,而且實際上也並沒有修完。
  • 法國:耗資50億建馬奇諾防線!德國:你以為我會從防線上攻打你?
    馬奇諾防線,是世界上都舉世聞名的一道防線,其耗資之巨,修建規模之大,耗費人力之多,也是首屈一指的。這麼一個看似堅不可摧的防禦陣地,卻因為一場偷襲而化為泡影,怎麼看它都是一個擺設了。為什麼這麼重要的一個防線會在短短幾天就被攻克了呢?
  • 「阿爾法狗」轉行預測蛋白質結構,交大教授建議布局AI+生物醫藥|新...
    人工智慧讓蛋白質結構預測成為可能 蛋白質具有三維結構,由一系列胺基酸摺疊而成。對科學家來說,胺基酸測序是比較容易完成的工作,蛋白質三維結構解析的難度卻很大,耗時費力。1972年,美國科學家克裡斯蒂安·安芬森因提出「蛋白質的高級空間結構由其胺基酸序列決定」而獲得諾貝爾化學獎。
  • 法國不相信馬奇諾防線有弱點,堅信不會被德軍攻破,結果悲劇了
    馬奇諾防線是一條全長390千米,法國為抵抗德國進攻耗資50億法郎建立的巨大防線,這個號稱全世界最堅固的軍事防線,卻有個致命的破綻,曾有能人志士向法國政府提過,但是卻被法國政府無視了,因為他們不相信馬奇諾防線有什麼弱點,結果呢,當然悲劇了,德軍繞過馬奇諾防線直逼巴黎,並很快攻佔巴黎,法國投降。固若金湯的馬奇諾防線究竟有什麼弱點?