​進軍生物計算!百度發布飛槳螺旋槳PaddleHelix

2021-01-14 手機鳳凰網

百度正式發布基於飛槳的生物計算平臺 - 螺旋槳 PaddleHelix,進軍生物計算領域。

在本月 20 號召開的 WAVE SUMMIT+2020 深度學習開發者峰會上,百度正式發布了基於飛槳的生物計算平臺 - 螺旋槳 PaddleHelix,進軍生物計算領域。本次發布的螺旋槳 PaddleHelix 生物計算開源工具集,提供了包括 RNA 二級結構預測、大規模的分子預訓練、藥物 - 靶點親和力預測、以及 ADMET 成藥性預測等一系列算法和模型,重點滿足生物醫藥,疫苗設計和精準醫療方面的 AI 需求。

生物醫藥

在生物醫藥領域,小分子化合物的篩選是非常關鍵的環節。為了設計出某種疾病的特效藥,一方面要找到能夠和疾病靶點結合、具有足夠活性的小分子藥物;另一方面又要保證藥物在人體內能夠正常發生作用,以及滿足一系列額外性質(藥物的吸收,分布,代謝,排洩,毒性,統稱 ADMET)。

靶蛋白(Protein)- 藥物配體(Ligand)複合物 (來源:PDBBind-cn.org)

傳統的藥物發現方法包括基於靶點結構的藥物設計(Structure Based Drug Design, SBDD),基於碎片的藥物設計(Fragment Based Drug Design, FBDD),老藥新用 (Repurposing),以及計算機虛擬藥物設計(Computational-Aided Drug Design, CADD)等等。這些方法均存在依賴體內(in vivo)體外 (in vitro) 實驗驗證,或者消耗大量計算資源等問題。因此近年來,基於分子的結構和知識來直接預測親和性的 AI 藥物設計(AIDD)逐漸被廣泛認可和應用。相比於 CADD,AIDD 展現出了性能上的巨大優勢,但其效果同時受到生物計算領域數據量的限制。下面的表格(表 1)展示生物計算一些重要問題的典型數據量,其中綠色的是有標註數據。我們看到,儘管這個領域有大量的無標註數據(僅有分子結構或者序列,沒有性質,或者次級結構),有標註數據卻非常少,難以支撐高質量的深度模型。

表 1

在 AI 的其他領域也存在類似問題。以自然語言處理為例,這個領域存在 NER,邏輯推斷,閱讀理解,文本生成等等非常多的子問題。這些問題中的有標註數據量都非常少。但是人類文明中累積了大量的無標註語言文字,這些無標註語料給自然語言處理提供了表示學習(Representation Learning)的機會。在這樣的背景下,BERT, ERNIE 等一系列基於自監督(Self-Supervised)學習的方法被提出。

正是基於此,螺旋槳 PaddleHelix 提出基於表示學習,多任務學習(Multi-Task Learning, MTL)和元學習(Meta Learning)來降低深度學習在生物計算中的技術和數據門檻,提升其效果。包括生物大分子(蛋白質,DNA,RNA)或者藥物小分子都由原子或者亞基組成,都可以通過序列,圖,或者三維結構表示。一種自然的想法,是像在自然語言處理領域一樣,利用無標註數據上的自監督學習來優化分子的表示,再將其應用到下遊任務。同時,生物計算領域存在大量的零散的任務,以 ADMET 為例,有 30~50 個指標需要考慮。這樣的問題中,百度的生物計算團隊也認為多任務學習和元學習將會發揮重要作用。

螺旋槳 PaddleHelix 復現並內置了業界主流的分子預訓練模型(如表 2),以及常用的很多組網工具(CNN, Transformer, LSTM, ResNet,GNN 等等),開發者基於預訓練模型實現自己的模型只需要短短幾行代碼。螺旋槳 PaddleHelix 也提供了一些通過了驗證的,可以有效應用於下遊任務的模型,效果如表 2 所示。

表 2:使用預訓練在分子性質預測中帶來顯著提升

疫苗設計

疫苗是通過把病毒或病菌相關的抗原(通常是蛋白)預先輸入人體,引起人體免疫反應的物質。傳統的疫苗需要體外製備抗原蛋白,通常效率低,難於快速大規模生產,因此可在人體自身內生產抗原蛋白的 mRNA 疫苗受到越來越多的關注。mRNA 疫苗製備速度快、無感染風險,但有一個天然劣勢就是 mRNA 非常不穩定,這與 mRNA 的二級結構相關。mRNA 疫苗設計的關鍵就在於,在不改變翻譯出的抗原蛋白的前提下,設計 mRNA 序列使其二級結構儘可能更穩定。

mRNA 疫苗示意圖(來源:https://translate.bio/)

百度研究院生物計算團隊從 2018 年開始就開展了 RNA 結構預測和序列設計相關研究,並在 2019 年 7 月和 2020 年 7 月分別發表了 LinearFold 和 LinearPartition 算法, 將 RNA 結構預測和分析的速度大大提升。其中 LinearFold 能夠在 27 秒內完成新冠病毒全基因組結構分析,比傳統算法速度提升 120 倍。正是有了之前的積累,百度研究院在短短兩個月就完成了 LinearDesign 的研發, 在 mRNA 疫苗設計上提出了革命性的方法。LinearDesign 能夠在 11 分鐘內完成新冠 mRNA 疫苗序列的設計,設計序列的穩定性和有效性大大提升。如圖所示,左邊是能翻譯新冠 S 蛋白的野生型 mRNA 二級結構,其中存在大量易斷裂的單鏈環。右邊是 LinearDesign 設計序列的結構,斷裂點更少,與野生型序列相比穩定性大大提升。百度研究院 RNA 結構預測與序列設計相關成果在美國 MIT 科技評論,以及美國消費者新聞與商業頻道(CNBC)得到了高度評價,並在 2020 年全球人工智慧峰會(AI Summit)上獲得了 AI For Good(AI 向善)獎。

在螺旋槳 PaddleHelix 中,百度也完整開源了 LinearRNA 系列算法,目前主要包括 LinearFold 和 LinearPartition,開發者想要調用這些強大的工具僅僅需要一行代碼。

新冠 S 蛋白的野生型 mRNA 結構和 LinearDesign 結構

精準醫療

精準醫療(precision medicine)的概念是指,根據患者特徵(patient characteristics)實現準確的疾病診斷和分類,從而進行個性化匹配用藥和跟蹤治療。相較於傳統的 one-size-fits-all 治療方案,精準醫療致力於通過臨床數據、生活環境、特別是分子組學數據精確刻畫個體特徵,通過挖掘和探究隱含在多模態數據層面的信息進行綜合分析和判斷,最終提供更好更適配的藥物選擇和治療方案從而提升患者的治療效果最終提高個體的生存時間和生存質量。

部分圖片素材來自網絡

螺旋槳 PaddleHelix 也將提供基於多維數據(臨床隨訪數據、蛋白組數據、基因組數據、轉錄組數據、甲基化組數據、小 RNA 數據、單細胞組數據)的表示學習算法模型、藥物響應模型、疾病預後模型等,旨在幫助行業內的醫療專家、研究人員和從業者更好的利用組學數據和分子特徵更精確的刻畫個體表示做組群區分,從而在精準醫療的三個維度預防、預測、治療(Prevention、Prediction、Treatment)構建更好更準確的醫療模型,幫助到更多的患者得到最好最適配的治療。

結語

在 WAVE SUMMIT+2020 深度學習開發者峰會上,百度集團副總裁、深度學習技術及應用國家工程實驗室副主任,吳甜女士對螺旋槳 PaddleHelix 的發展做了簡短的概述,希望未來與合作夥伴共建,逐步形成一套完整的面向行業的生物計算生態和服務。

我們也期待,螺旋槳 PaddleHelix 的發布能帶來更多的跨界驚喜,在生物醫藥、精準醫療、疫苗設計等領域發揮出更大的價值。

相關焦點

  • 23個系列分類網絡,10萬分類預訓練模型,這是飛槳PaddleClas百寶箱
    因此百度自研了一個有語義體系的、粒度有粗有細的 10W 級別的 Tag 體系。通過使用人工或半監督方式,至今收集到 5500w+ 圖片訓練數據;該系統是國內甚至世界範圍內最大規模的圖片分類體系和訓練集合。
  • 百度吳甜解讀飛槳成長之路:與時代發展脈搏同頻共振
    百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜這樣總結道。12月20日,由深度學習技術及應用國家工程實驗室與百度聯合主辦的WAVE SUMMIT+2020深度學習開發者峰會在北京舉行。吳甜從開發生態、產業應用、人才培養方面分享飛槳最新的發展成果及洞察,並全新發布了基於飛槳的PaddleHelix螺旋槳生物計算平臺。
  • 推理引擎Paddle Inference改造三要點,ERNIE時延降低81.3%
    近年來對於NLP的研究也在日新月異的變化,有趣的任務和算法更是層出不窮,百度提出知識增強的語義表示模型 ERNIE就是其中的佼佼者。 -it hub.baidubce.com/paddlepaddle/paddle:1.8.0-gpu-cuda10.0-cudnn7-trt6 /bin/bash# 下載Ernie預測模型wget https://paddle-inference-dist.bj.bcebos.com/inference_demo/Ernie_inference_model.gz
  • 百度PaddlePaddle聯手Kubernetes,助力開發者高效訓練深度學習模型
    據百度研究官網介紹,這種兼容性將使得開發者可以很方便地在全球所有主要的雲服務提供商(包括百度雲和企業內部的集群(on-premise clusters))上訓練大型的模型。該項目是由百度和 CoreOS 聯合開發的;CoreOS 是 Kubernetes 的主要貢獻者之一。
  • 百度飛槳發布工業級圖像分割利器PaddleSeg
    PaddleSeg 重磅發布飛槳的新產品 PaddleSeg 全新上線,重點針對圖像分割領域,面向開發者提供了完備且易用的工業級分割模型庫。是的,你沒有看錯,真正經得起考驗的【真. 工業級】的分割模型庫。
  • 科普|垂直起降固定翼無人機螺旋槳簡介
    通常用無量綱量拉力係數和功率係數來表示拉力和功率,計算方法如下:其中,T為拉力、P為螺旋槳吸收功率、ρ為空氣密度、n為螺旋槳轉速、D為螺旋槳直徑、J為螺旋槳前進比、V為來流速度。典型的螺旋槳氣動性能曲線如圖所示:獲得螺旋槳氣動性能數據的方法有三個,分別是理論計算、試驗測量和CFD計算。
  • PaddlePaddle 2.0.0 Beta 發布,API 體系升級,命令式編程完善
    PaddlePaddle 2.0.0 Beta 已經發布,這是飛槳框架v2.0的測試版,最重要的變化為API體系的全面升級以及命令式編程(動態圖)能力的全面完善。
  • 螺旋槳
    螺距太大而飛行速度不夠快,則攻角太大而失速,這種情形在這裡叫螺旋槳打滑,螺距太小而飛行速度太快,則攻角太小,效率則很差,所以結論是高速飛機用小槳大螺距,低速飛機用大槳小螺距。當螺旋槳旋轉時槳上的點因距離軸心的不同,行走的距離也不同(=2 x 3.1416 x r),現在的螺旋槳都是定螺距槳,就是旋轉一圈槳上每一點的螺距都一樣,所以越靠近軸心,槳葉角越大,槳尖部分角度就比較小。
  • 為什麼說百度能順利進軍生命科學領域?
    天時地利人和齊聚,百度進軍生命科學領域水到渠成現實來說,百度進軍生命科學領域,其實並不令人意外。事實上百度對生命科學領域的興趣由來已久,這其中既有創始人情懷驅動,也有現實需求激發,並且在百度AI實力與投資布局支撐下,百度進軍生命科學領域,可以說是坐擁了天時地利人和。
  • 百度開源業內首個口罩人臉檢測及分類模型
    2月13日,百度宣布免費開源業內首個口罩人臉檢測及分類模型。該模型可以有效檢測在密集人流區域中攜帶和未攜戴口罩的所有人臉,同時判斷該者是否佩戴口罩。目前已通過飛槳PaddleHub開源出來,廣大開發者用幾行代碼即可快速上手,免費調用。
  • 關於飛機的小知識:螺旋槳式客機與噴氣式客機的區別
    螺旋槳式客機優點:螺旋槳式飛機性能好,與噴氣式飛機相比更加經濟環保,同時維修費用較低,適用性廣泛。螺旋槳推進低速效率高,一般無法超音速飛行,且靠近螺旋槳的位置噪音較大。圖片來源:百度圖庫​噴氣式客機優點:現如今的主流客機,與螺旋槳飛機不同,噴氣式飛機可以在高空飛行,載客量大,速度也比螺旋槳飛機快,大型噴氣式客機的時速約為900km/h左右。
  • 生物計算平臺破殼而出,百度為生命科技發展提供新動能
    文/楊劍勇本月早些時候,有消息指出百度將尋求20億美元進軍生物計算領域,消息一出備受矚目,福布斯專欄作家楊劍勇曾在福布斯發表評論稱:「憑藉算力、算法上的優勢,將開創生物科技智能計算新時代,以此助力藥物研發、攻克醫療難題等,從而推進精準醫療發展,以及利用AI技術踐行企業社會責任並造福社會。」
  • 百度ERNIE語義理解開源套件重磅升級 零基礎也能秒變NLP達人
    通俗來說,前者稱為「靜態圖」,是指用戶需要事先把神經網絡計算流程定義好,再通過執行器執行;而後者則稱為「動態圖」,是指用戶可以在Python解釋器中逐行輸入計算指令,而框架在後臺同步完成運算。兩種方式各有優勢,動態圖「所見即所得」的特性可以快速實現最新的idea;而靜態化的運算流程可以在脫離Python的生產環境中部署上線。
  • 無人機螺旋槳的類型與參數含義解析
    我們來了解一下幾種材料在制槳後的優缺點。木槳木槳:木製槳是航空器發明問世以來一直使用的制槳材料,不管是無人機還是載人飛機,其使用一直未曾間斷過,木製螺旋槳的的優點是重量輕,易加工,成本低,其缺點則是製作工藝繁瑣,成品精度低。
  • 基於複數神經網絡首發量子機器學習開發工具 「量槳」,飛槳布局...
    5月20日,「WAVE SUMMIT 2020」深度學習開發者峰會在線召開,作為中國深度學習技術極客的年度盛宴,該峰會由深度學習技術及應用國家工程實驗室與百度聯合主辦,而百度飛槳作為中國首個開源開放、功能完備的產業級深度學習平臺又一次迎來全平臺重磅升級。
  • 百度發布 Paddle Fluid v1.3 版本,帶來多項重要更新
    雷鋒網 AI 科技評論按:日INTEL FP32 計算相關優化優化 density_prior_box operator,單 op 四線程提速 3 倍。優化 Stack operator,單 op 提速 16 倍。開發 Transpose,Concat 和 Conv3d 三個基於 MKLDNN 的 kernel。
  • 漲姿勢 螺旋槳的妙用
    受輪船依靠螺旋槳的轉動在水中航行機理的啟發,飛機是否也可以依靠螺旋槳在空氣中前進呢?從道理上來講,在空氣中或水中,螺旋槳所起的作用應該是相同的。螺旋槳飛機能夠較好地適應這些要求。觀察螺旋槳的橫切面,發現它和機翼是相似的,完全可以用分析機翼如何產生升力的方法去分析螺旋槳。機翼穿過空氣向前運動時能產生升力;一旦螺旋槳在與飛機前進方向垂直的平面上運動,它也會產生一個力,只不過運動的方向差了90度,因此這個力的方向也差90度,機翼產生的是向上的升力,那麼螺旋槳產生的力就是向前的推力了。
  • 打破量子計算"玄學"印象 百度加速量子科技實踐應用
    值得注意的是,今年八月InvestorPlace評選的全球未來十年值得買入的七大量子計算股票,百度同樣位列其中,可見全球資本與行業對百度量子計算市場前景十分看好,尤其在量子計算進入國家政策視野的特殊時期,百度無疑是重要的一枚"先手棋"。InvestorPlace也強調稱,百度在量子計算領域扮演著重要角色,是量子計算應用商業化的先驅企業。
  • 螺旋槳的伴流係數和推力減額
    所有這一切都會使船體後側的螺旋槳在伴流場中工作。                           因此,主要由於摩擦伴流的存在,而使螺旋槳位置的水流產生了有效伴流速度Vw,其方向與船速 V 相同,這意味著螺旋槳位置的水流流速VA(等於螺旋槳進速,以螺旋槳盤面平均流速來表示)Vw 低於船速 V。