原創:譚婧、ZARD
現在的人工智慧活躍在下圍棋,打遊戲等地方,出現了打遍天下無敵手的盛況。可是世界正在水深火熱之中,人工智慧怎麼能光顧著玩。可能在社會責任感的感召下,人工智慧公司想在人類急需前沿科技的領域創造一些有價值、有意義的事情,比如生命科學。
眾所周知,全世界頂級的圍棋選手人工智慧阿法狗之父,Deepmind公司最近又因為在生命科學領域的成就,上了科技界的熱搜榜。這個小成就就是,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。
可惜,公司並沒有公布這個算法的論文。我們就這樣放棄嘛?
不,我們要向李昌鈺博士學習破案手段,絕不放過任何蛛絲馬跡,靠豐富的想像力,進行推理,看能否找到Deepmind預測蛋白質結構的秘密研究方法。
第一步,理解蛋白質摺疊這個應用場景
生物由蛋白質構成,生物體功能由蛋白質形狀決定。蛋白質在人體中至關重要,其幾何形狀又對生物功能非常重要。借力基因組序列的發展,使我們得到了大量的蛋白質序列,結構信息的獲得對於揭示蛋白質的生物學功能是十分重要的。
蛋白質的錯誤摺疊,導致糖尿病,帕金森氏症和阿爾茨海默病等疾病。如果能破解蛋白質的摺疊規律,可以深入了解蛋白質摺疊與錯誤摺疊的關係,對於某些疾病的致病機制的闡明以及治療方法的尋找將大有幫助。如果能破解蛋白質的摺疊規律,人類就有望改造、設計蛋白質的功能。總之,蛋白質摺疊規律的破解能讓生命科學向前一大步。
然而,要弄清一種蛋白質的結構,非常困難,有數百個胺基酸的蛋白質有可能呈現出數量驚人的不同結構,也就是說不同結構的有n中可能,n等於1後面300個零(around a googol cubed, or 1 followed by 300 zeroes.)。人算不過來,就讓計算機算唄,可以通過輸入胺基酸序列來讓計算機預測蛋白質可能的摺疊方式,很可惜,之前的算法仍不夠準確。但是人工智慧的算法提高了預測的準確率,所以由上文提到到的,新的算法AlphaFold 可以僅根據基因預測生成蛋白質的三維形狀。
當有了足夠多的胺基酸序列,有了新的算法,大數據和人工智慧就好比倚天劍加上了屠龍刀。讓算法預測出正確結果的可能性就會大大提高。
第二步、新算法從哪裡成名?
這種新算法在一次知名大賽中斬頭露角,這裡有必要介紹一下這個大賽,大賽也是為了促進提高預測準確性的最新方法的研究和測量進展而設立的。結構預測評估競賽(CASP)是蛋白質摺疊領域的奧運會,一年兩次的吸引了來自世界各地的研究團體,已成為評估技術的黃金標準。人工智慧程序AlphaFold在這次比賽中贏得了第一。為了不助長人工智慧無腦宣傳的熱潮,這裡需要強調一下,只是贏得了比賽,不是應用到了醫學研究機構以及醫院和臨床中。但是目前這種算法還不能用來治病,那種動不動就高呼人工智慧戰勝人類的患者,可以稍微克制一下。
第三步、分析現有的線索
思路一、翻查競賽官網
因為是知名大賽,肯定會有相關的參賽團隊和參賽作品的介紹。根據衛報報導,AlphaFold在首次參賽時,在98名參賽選手中拔得頭籌,這些選手來自世界各地的優秀研究團隊,他們所採用的研究方法賽事官網說不定會有介紹。帶著這個思路,《親愛的數據》翻查了競賽官網。結構預測評估競賽(CASP)是第十三次舉辦的意思。
官網介紹:結構預測評估競賽(CASP)13為評估蛋白質結構建模方法提供了獨立的制度。從2018年5月到7月,CASP組織者一直在這個網站上發布未知蛋白質結構的序列進行建模。從5月到8月中旬收集蛋白質模型,並在實驗坐標可用時進行評估。在夏季和秋季,全球大約100個研究小組提交的數以萬計的模型得到了處理和評估。此過程中,每個評估員都會帶來具有客觀性、平衡性和獨立性的評估。此網站提供了可以用來查看、比較和分析現在已經提交了的模型的工具與方法。大賽實驗的結果首先在即將於2018年12月舉行的大賽會議之前公布。結果將由評估員在會議上公布,隨後發表在科學期刊Proteins上。
請注意,亮點已經出現,此網站提供了用於查看、比較和分析已提交模型的工具。那麼這裡可能會有我們要找的東西——根據基因預測生成蛋白質的三維形狀的新算法,AlphaFold。
思路二、找到關鍵文件
找到分析方法性文件,就在網站首頁看到《摘要》就點開。文件太明顯了,讓這個過程缺少了破案的刺激感。《蛋白質結構預測技術的關鍵評估》映入眼帘英文名是《CRITICAL ASSESSMENT OF TECHNIQUES FOR PROTEIN STRUCTURE PREDICTION》(如下圖)
思路三、名字裡的線索
仔細閱讀關鍵文件,文件名自己也說了,自己叫做《關鍵評估》那就好好看看。文件介紹了大量的蛋白質結構預測技術,預計有100個左右。我們在其中發現了唯一有一篇論文是來自Deepmind的:Equal contribution, 1- DeepMind, London, UK; 2 UCL, London, UK. andrewsenior@google.com。來自谷歌的郵箱,英國倫敦DeepMind團隊,這篇論文叫做《新方法預測基於深度學習算法的評分方法》,英文名《De novo structure prediction with deep-learning based scoring》。
思路四、分析論文
de novo是拉丁語,字面意思是新與英語單詞「new」相同,在英語中用來表示「從一開始」正好對應算法的名字——AlphaFold一詞中的Alpha也就是希臘字母表的第一個字母α。在英語中,名詞「alpha」是「開頭」或「第一」的同義詞。
也請專業的人工智慧從業者來判斷一下,我們是否找到了Deepmind預測蛋白質結構的秘密研究方法。
第四步、大家一起分析一下《方法》
部分內容如下:
1.簡介:
方法含有三種變量的、自動的、自由建模結構的預測系統,依賴分值的計算與深度神經網絡。分值依賴於兩個神經網絡其中的一個:殘差間的距離(inter-residue distances)的預測器和直接評分(direct-scoring)網絡。利用生成神經網絡是最基本的辦法,使用了模擬退火算法,進行片段的生成和組合。第三種方法採用梯度下降法進行全鏈分數最小化。
2.評分的方法:
採用兩個神經網絡進行評分。首先,利用基於多序列校正(multiple sequence alignments)的特徵,對從蛋白資料庫(PDB)中選擇非冗餘蛋白資料庫進行深度卷積神經網絡訓練,預測不同C-beta原子和冗餘之間的距離。利用這些預測和參考分布,根據實現的距離計算候選結構的似然得分。訓練第二個深度殘差卷積神經網絡,直接輸出分數作為結構幾何、基於多序列校正的特徵和第一個網絡的接觸預測(contact predictions)的函數。
3.域分割(Domain segmentation)
通過對殘差間距離預測的全連結觸矩陣預測進行自動分析,得到兩個或三個域的域分割假設。每個域分割假設(以及沒有分割的全鏈)被獨立摺疊多達8次,每個假設中的域是被獨立地摺疊。
好了《親愛的數據》的破案過程結束了,再強調一下,我們毫不放過任何蛛絲馬跡和運用豐富的想像力,來進行推理。不過香港電影《盲探》說:查案呢,要靠想像力的。(完)
親愛的數據
出品:譚婧
美編:陳泓宇
攝影:陳翔宇