向李昌鈺學破案,這是Deepmind預測蛋白質結構的秘密研究方法嗎?

2020-11-29 親愛的數據

原創:譚婧、ZARD

現在的人工智慧活躍在下圍棋,打遊戲等地方,出現了打遍天下無敵手的盛況。可是世界正在水深火熱之中,人工智慧怎麼能光顧著玩。可能在社會責任感的感召下,人工智慧公司想在人類急需前沿科技的領域創造一些有價值、有意義的事情,比如生命科學。

眾所周知,全世界頂級的圍棋選手人工智慧阿法狗之父,Deepmind公司最近又因為在生命科學領域的成就,上了科技界的熱搜榜。這個小成就就是,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。

可惜,公司並沒有公布這個算法的論文。我們就這樣放棄嘛?

不,我們要向李昌鈺博士學習破案手段,絕不放過任何蛛絲馬跡,靠豐富的想像力,進行推理,看能否找到Deepmind預測蛋白質結構的秘密研究方法。

第一步,理解蛋白質摺疊這個應用場景

生物由蛋白質構成,生物體功能由蛋白質形狀決定。蛋白質在人體中至關重要,其幾何形狀又對生物功能非常重要。借力基因組序列的發展,使我們得到了大量的蛋白質序列,結構信息的獲得對於揭示蛋白質的生物學功能是十分重要的。

蛋白質的錯誤摺疊,導致糖尿病,帕金森氏症和阿爾茨海默病等疾病。如果能破解蛋白質的摺疊規律,可以深入了解蛋白質摺疊與錯誤摺疊的關係,對於某些疾病的致病機制的闡明以及治療方法的尋找將大有幫助。如果能破解蛋白質的摺疊規律,人類就有望改造、設計蛋白質的功能。總之,蛋白質摺疊規律的破解能讓生命科學向前一大步。

然而,要弄清一種蛋白質的結構,非常困難,有數百個胺基酸的蛋白質有可能呈現出數量驚人的不同結構,也就是說不同結構的有n中可能,n等於1後面300個零(around a googol cubed, or 1 followed by 300 zeroes.)。人算不過來,就讓計算機算唄,可以通過輸入胺基酸序列來讓計算機預測蛋白質可能的摺疊方式,很可惜,之前的算法仍不夠準確。但是人工智慧的算法提高了預測的準確率,所以由上文提到到的,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。

當有了足夠多的胺基酸序列,有了新的算法,大數據和人工智慧就好比倚天劍加上了屠龍刀。讓算法預測出正確結果的可能性就會大大提高。

第二步、新算法從哪裡成名?

這種新算法在一次知名大賽中斬頭露角,這裡有必要介紹一下這個大賽,大賽也是為了促進提高預測準確性的最新方法的研究和測量進展而設立的。結構預測評估競賽(CASP)是蛋白質摺疊領域的奧運會,一年兩次的吸引了來自世界各地的研究團體,已成為評估技術的黃金標準。人工智慧程序AlphaFold在這次比賽中贏得了第一。為了不助長人工智慧無腦宣傳的熱潮,這裡需要強調一下,只是贏得了比賽,不是應用到了醫學研究機構以及醫院和臨床中。但是目前這種算法還不能用來治病,那種動不動就高呼人工智慧戰勝人類的患者,可以稍微克制一下。

第三步、分析現有的線索

思路一、翻查競賽官網

因為是知名大賽,肯定會有相關的參賽團隊和參賽作品的介紹。根據衛報報導,AlphaFold在首次參賽時,在98名參賽選手中拔得頭籌,這些選手來自世界各地的優秀研究團隊,他們所採用的研究方法賽事官網說不定會有介紹。帶著這個思路,《親愛的數據》翻查了競賽官網。結構預測評估競賽(CASP)是第十三次舉辦的意思。

官網介紹:結構預測評估競賽(CASP)13為評估蛋白質結構建模方法提供了獨立的制度。從2018年5月到7月,CASP組織者一直在這個網站上發布未知蛋白質結構的序列進行建模。從5月到8月中旬收集蛋白質模型,並在實驗坐標可用時進行評估。在夏季和秋季,全球大約100個研究小組提交的數以萬計的模型得到了處理和評估。此過程中,每個評估員都會帶來具有客觀性、平衡性和獨立性的評估。此網站提供了可以用來查看、比較和分析現在已經提交了的模型的工具與方法。大賽實驗的結果首先在即將於2018年12月舉行的大賽會議之前公布。結果將由評估員在會議上公布,隨後發表在科學期刊Proteins上。

請注意,亮點已經出現,此網站提供了用於查看、比較和分析已提交模型的工具。那麼這裡可能會有我們要找的東西——根據基因預測生成蛋白質的三維形狀的新算法,AlphaFold。

思路二、找到關鍵文件

找到分析方法性文件,就在網站首頁看到《摘要》就點開。文件太明顯了,讓這個過程缺少了破案的刺激感。《蛋白質結構預測技術的關鍵評估》映入眼帘英文名是《CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE PREDICTION》(如下圖)

思路三、名字裡的線索

仔細閱讀關鍵文件,文件名自己也說了,自己叫做《關鍵評估》那就好好看看。文件介紹了大量的蛋白質結構預測技術,預計有100個左右。我們在其中發現了唯一有一篇論文是來自Deepmind的:Equal contribution, 1- DeepMind, London, UK; 2 UCL, London, UK. andrewsenior@google.com。來自谷歌的郵箱,英國倫敦DeepMind團隊,這篇論文叫做《新方法預測基於深度學習算法的評分方法》,英文名《De novo structure prediction with deep-learning based scoring》。

思路四、分析論文

de novo是拉丁語,字面意思是新與英語單詞「new」相同,在英語中用來表示「從一開始」正好對應算法的名字——AlphaFold一詞中的Alpha也就是希臘字母表的第一個字母α。在英語中,名詞「alpha」是「開頭」或「第一」的同義詞。

也請專業的人工智慧從業者來判斷一下,我們是否找到了Deepmind預測蛋白質結構的秘密研究方法。

第四步、大家一起分析一下《方法》

部分內容如下:

1.簡介:

方法含有三種變量的、自動的、自由建模結構的預測系統,依賴分值的計算與深度神經網絡。分值依賴於兩個神經網絡其中的一個:殘差間的距離(inter-residue distances)的預測器和直接評分(direct-scoring)網絡。利用生成神經網絡是最基本的辦法,使用了模擬退火算法,進行片段的生成和組合。第三種方法採用梯度下降法進行全鏈分數最小化。

2.評分的方法:

採用兩個神經網絡進行評分。首先,利用基於多序列校正(multiple sequence alignments)的特徵,對從蛋白資料庫(PDB)中選擇非冗餘蛋白資料庫進行深度卷積神經網絡訓練,預測不同C-beta原子和冗餘之間的距離。利用這些預測和參考分布,根據實現的距離計算候選結構的似然得分。訓練第二個深度殘差卷積神經網絡,直接輸出分數作為結構幾何、基於多序列校正的特徵和第一個網絡的接觸預測(contact predictions)的函數。

3.域分割(Domain segmentation)

通過對殘差間距離預測的全連結觸矩陣預測進行自動分析,得到兩個或三個域的域分割假設。每個域分割假設(以及沒有分割的全鏈)被獨立摺疊多達8次,每個假設中的域是被獨立地摺疊。

好了《親愛的數據》的破案過程結束了,再強調一下,我們毫不放過任何蛛絲馬跡和運用豐富的想像力,來進行推理。不過香港電影《盲探》說:查案呢,要靠想像力的。(完)

親愛的數據

出品:譚婧

美編:陳泓宇

攝影:陳翔宇

相關焦點

  • DeepMind推出蛋白質結構預測算法,大勝人類傳統模型!
    而如今,DeepMind又向推動和加速新科學發現上邁出了重要的一步。前幾天,DeepMind宣布推出全新的AlphaFold系統,能夠預測並生成蛋白質的3D結構。這一系統在周日進行的國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手。 我們都知道,蛋白質是維持我們生命所必需的龐大而複雜的物質。
  • DeepMind開源AlphaFold,蛋白質預測模型登上《Nature》
    2018年的11月2日,在第13屆全球蛋白質結構預測競賽(CASP)上,AlphaFold獲得了預測43種蛋白中的25種蛋白結構的最高分,在98名參賽者中排名第一。對於DeepMind的預測方法,由於當時沒有具體論文發布,眾多學者認為是計算能力突出使得AlphaFold獲得冠軍。
  • AlphaFold抗疫,DeepMind公布六種新冠病毒蛋白質結構預測結果
    DeepMind 開放的新冠病毒蛋白質結構預測結果下載連結:https://storage.googleapis.com/deepmind-com-v3-datasets/alphafold-covid19/structures_4_3_2020.zip為什麼要用深度學習預測新冠病毒蛋白結構?
  • 生物學50年難題被DeepMind解決了,蛋白質版「阿法狗」預測結構準確...
    鄭集楊 發自 凹非寺量子位 報導 | 公眾號 QbitAI一早醒來,發現搞蛋白質結構研究的朋友都在紛紛自嘲:要失業了。啊這,怎麼回事?原來是結構生物學,迎來了一個「革命性」的突破。
  • AlphaGo之後,DeepMind重磅推出AlphaFold:基因序列預測蛋白質結構
    正因為蛋白質的結構如此重要,在過去的五十年中,科學家已經能使用低溫電子顯微鏡和核磁共振等實驗技術確定蛋白質的形狀,但是每一種方法都依賴大量的試驗與誤差反饋,每種結構可能需要花費數萬美元、歷時數年進行研究。因此生物學家轉攻 AI 方法,以完成這一困難且單調的過程。
  • DeepMind破解蛋白質摺疊難題
    蛋白質摺疊50年來重大突破,AI破解預測難題蛋白質的形狀與其功能密切相關,預測蛋白質結構的能力可以幫助我們更好地理解蛋白質的功能和工作原理。世界上許多重大的挑戰,比如發展疾病的治療方法或者找到分解工業廢物的酶,從根本上來說都與蛋白質及其所扮演的角色有關。
  • DeepMind宣布解決蛋白質摺疊問題,獲92.4準確性得分
    鄭集楊 發自 凹非寺量子位 報導 | 公眾號 QbitAI一早醒來,發現搞蛋白質結構研究的朋友都在紛紛自嘲:要失業了。通過重複這一過程,該系統對蛋白質的潛在物理結構進行了強有力的預測,並能夠在幾天內確定高度準確的結構。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    但是 DeepMind 團隊的最終目的並不是做遊戲,他們希望用人工智慧方法能幫助人類推動基本科學的進步。近日,團隊發現了僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構的方法。雷鋒網 AI 科技評論編譯如下。 今天,我們非常興奮地與大家分享 DeepMind 在展示人工智慧研究如何推動和加速新的科學發現方面的第一個重要裡程碑。
  • DeepMind 模型實現蛋白質3D結構預測
    但蛋白質是一長串胺基酸鏈,可以扭曲並彎曲成令人難以置信的各種形狀,組合的種類可以達到googol的立方(1後跟300個零),因此如何預測蛋白質的3D形狀成為了研究人員的難題。目前的方法是使用核磁共振、X射線晶體學或低溫電子顯微鏡來確定蛋白質的結構,但這些方法需要昂貴的設備,並且可能需要數年的廣泛試驗,研究某個蛋白質結構的成本高達數萬或數十萬美元。
  • DeepMind抗疫:預測新冠病毒相關蛋白結構
    DeepMind利用其最新版本的AlphaFold系統,發現幾種與新冠病毒(SARS-CoV-2)相關的蛋白質的結構預測,並在今天對所有人公開。他們表示,這些蛋白質結構還尚未被專家研究,希望能夠對抗疫科研作出貢獻。
  • DeepMind劃時代傑作!AlphaFold蛋白結構預測擊敗人類奪冠
    最新研究就揭示這個過程中許多未知的狀態,這一研究成果公布在3月3日的Science雜誌上。AI如何成功預測蛋白質3D結構?此次讓DeepMind再一次嶄露頭角的CASP, 被認為是蛋白質結構領域「奧林匹克競賽」。
  • DeepMind破解蛋白質摺疊難題
    CASP 是評估預測技術的標準。更重要的是,CASP 選擇那些最近才經過實驗確定的蛋白質結構(有些在評估時仍在等待確定)作為研究小組測試其結構預測方法的目標; 而這些結構的預測方法並沒有提前公布。參與者必須直接預測蛋白質的結構,這些預測隨後會在可用時與實驗數據進行比較。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年...
    那麼這場驚動科技圈、生物學界和科學界的重大突破,到底是一項怎樣的研究?AlphaFold:精確度高達92.4GDT首先要了解為什麼要預測蛋白質摺疊結構?眾多周知,蛋白質對於生命至關重要。幾乎所有疾病,包括癌症、痴呆症都與蛋白質的功能有關。而蛋白質的功能由它的3D結構決定。
  • 從AlphaGo到蛋白質摺疊,Deepmind在不斷捅破AI領域的天花板!
    #近日,又一世紀級難題被AI迎刃而解:谷歌旗下子公司Deepmind通過AI建立的算法模型,成功精準預測了蛋白質的摺疊方式,這將對人類了解重要的生物學過程和治療新冠等疾病起到十分關鍵的作用。Deepmind最初由三名科學家聯合創辦,就像其創始人兼CEO哈薩比斯(Demis Hassabis)所說的,它的性質更像一個科技研究院而不是創業公司,因為公司一開始並沒有任何產品,而是一直在通過遊戲來研究人工智慧算法。在被谷歌收購前,Deepmind通過人工智慧的無監督學習算法打爆了57個atari遊戲,即八九十年代國內也很流行的小霸王卡帶遊戲。
  • DeepMind破解蛋白質摺疊難題
    【新智元導讀】近日,DeepMind在預測蛋白質結構方面邁出了一大步!公司表示,其已經解決了關鍵的「蛋白質摺疊問題」,這個問題在生物圈已被研究50年之久。馬斯克、李飛飛等大佬紛紛點讚!DeepMind這一歷史性進展有助於加快藥物發現速度,對理解人類生命形成機制至關重要。剛剛,一個困擾生物學家50年的難題,被AI解決了。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    這一飛躍證明了計算方法將轉變生物學研究,並為加速藥物發現過程具有廣闊的前景。AlphaFold背後的AI機制摺疊的蛋白質可以看作是一個「空間圖形」,其中殘基是節點和邊緊密連接在一起。DeepMind開發團隊表示,AlphaFold之能夠達到前所未有的精確度,其研究方法是受到了來自生物學、物理學和機器學習領域的啟發,另外過去半個多世紀有關蛋白質摺疊的研究成果野發揮了重要作用。作為科學界的AI工具,AlphaFold的應用場景和價值已經得以顯現。
  • DeepMind AI破解「蛋白質摺疊」難題,攻克生物學50年巨大挑戰
    那麼這場驚動科技圈、生物學界和科學界的重大突破,到底是一項怎樣的研究?首先要了解為什麼要預測蛋白質摺疊結構?眾多周知,蛋白質對於生命至關重要。幾乎所有疾病,包括癌症、痴呆症都與蛋白質的功能有關。而蛋白質的功能由它的3D結構決定。
  • AI醫療新進展,谷歌DeepMind基於基因序列預測蛋白質的三維結構
    蛋白質結構是指蛋白質分子的空間結構。蛋白質主要由碳、氫、氧、氮等化學元素組成,是一類重要的生物大分子。 了解蛋白質結構在疾病診斷和治療中非常重要,它可以提高科學家對人體的認識,並有助於支持蛋白質設計和其它生物工程研究。
  • ...DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子摺疊問題
    多年以來,蛋白質結構一直是熱門的研究話題,研究者使用核磁共振、X 射線、冷凍電鏡等一系列實驗技術來檢測和確定蛋白質結構。但這些方法往往依賴大量試錯和昂貴的設備,每種結構的研究都要花數年時間。  1972 年,美國科學家 Christian Anfinsen 因「對核糖核酸酶的研究,特別是對其胺基酸序列與生物活性構象之間聯繫的研究」獲得諾貝爾化學獎。
  • DeepMind精準預測蛋白質結構
    每兩年,CASP都會以實驗室最新研究出的蛋白質結構為目標,開展一次蛋白質結構預測比賽。各參賽團隊在不知道該目標蛋白質的情況下,以功能需求為導向,設計該蛋白質結構,CASP會將各團隊的預測結果與目標蛋白質的真實實驗數據相比對,進行評分。