Rosetta AbPredict: 模擬VDJ片段重組過程預測抗體結構

2021-02-13 ROSETTA研習社

參考1: High-accuracy modeling of antibody structures by a search for minimum-energy recombination of backbone fragments

參考2: High-accuracy modeling of antibody structures by a search for minimum-energy recombination of backbone fragments

一、前言&計算原理

AbPredict是Sarel J. Fleishman實驗室繼承AbDesign的思路而開發的用於傳統抗體結構預測的方法,該方法不像傳統建模方案那樣需要對序列的同源性以及專家知識有一定的要求,AbPredict模擬了抗體的VDJ重組過程。AbPredict將1300餘個Fv結構的分割為若干個片段(VH、H3、VL、L3),利用這些片段的骨架二面角信息和VH-VL的朝向角度信息生成預計算的資料庫。通過多輪隨機替換和組合這些骨架信息來生成新的抗體結構模型,並對側鏈優化以及能量最小化,最後利用Rosetta的能量函數對模型結構進行評判,找到給定序列能量的極小值點,該方法考慮了CDR模板之間的匹配性,因此得出的模型化學立體構象更加合理。

使用AMA-II比賽中的測試組對AbPredict進行測試,結果發現AbPredict能夠更好地匹配到低序列同源性的模板(序列同源性僅10%),並且不需要專家知識就可以提升抗體建模的精度。反觀如果只依靠序列同源性進行的模板選擇時,模型的誤差較大。與AMA-II其他的參賽者成績結果相比,AbPredict能達到同等、或更佳的成績。

但是該方法也存在它的限制和不足:

沒有完全利用同源模板的信息的一些優勢;

如果VH、VL的序列較為特殊,不存在正則結構時,依然不能獲得高質量模型;

CDRH3的預測完全依賴於資料庫模板,當資料庫中不存在對應結構時,模型誤差可能會更大;

因此AbPredict比較適用於傳統抗體模型的初步建模,後續依然可對CDR-H3和VH-VL朝向角度進一步優化的。

二、AbPredict2的使用

AbPredict2本地運行的方法並不複雜,以下將進行簡單用法介紹:

此處可以下載經過本人處理完善後和處理錯誤之後的AbPredict2運行包:

github: https://github.com/guyujun/AbPredict2

本文件中包含了所有運行所需要的文件:

1 準備輸入的序列文件

AbPredict2的Fab序列處理有一定的規則性,輸入的序列格式必須滿足以下4點,否則程序將錯誤地處理了骨架二面角以及序列信息的數據:

先寫輕鏈,再寫重鏈序列。

輕鏈的N端起始必須是第一個二硫鍵往前數21個胺基酸的長度算起。

輕鏈的C端末尾為L3 Loop(Chothia編碼L98位)往後的7個胺基酸納入序列範圍;

重鏈的N端起始必須是第一個二硫鍵往前數20個胺基酸的長度算起。

重鏈的C端末尾為H3 Loop(Chothia編碼H103位),往後的9個胺基酸納入序列範

此處以1F11抗體AB鏈為例進行說明;

# 原始序列:
>1F11:A|PDBID|CHAIN|SEQUENCE(輕鏈)
DMVLTQSPASLAVSLGQRATISCKASQSVDYDGDSYMNWYQQKPGQPPKLLIYVASNLKSGIPARFSGSGSGTDFTLNIHPVEEEDAATYYCQQSNEDPFTFGSGTKLEIKRADAAPTVSIFPPSSEQLTSGGASVVCFLNNFYPKDINVKWKIDGSERQNGVLNSWTDQDSKDSTYSMSSTLTLTKDEYERHNSYTCEATHKTSTSPIVKSFNRNEC

>1F11:B|PDBID|CHAIN|SEQUENCE(重鏈)
EVQLQQSGPELVKPGASVKMSCKASGYTFTDYYMKWVKQSHGKSLEWIGDINPNNGGTGYNQKFKGKATLTVDKSSSTAYMQLNSLTSEDSAVYYCANDYGSTYGFAYWGQGTLVTVSAAKTTPPSVYPLAPGSAAQTNSMVTLGCLVKGYFPEPVTVTWNSGSLSSGVHTFPAVLQSDLYTLSSSVTVPSSPRPSETVTCNVAHPASSTKVDKKIVPRDC

經過規則處理後的序列應該是:

# A chain:
MVLTQSPASLAVSLGQRATIS|C|KASQSVDYDGDSYMNWYQQKPGQPPKLLIYVASNLKSGIPARFSGSGSGTDFTLNIHPVEEEDAATYY|C|QQSNEDPFTF|GSGTKLE

# B chain:
VQLQQSGPELVKPGASVKMS|C|KASGYTFTDYYMKWVKQSHGKSLEWIGDINPNNGGTGYNQKFKGKATLTVDKSSSTAYMQLNSLTSEDSAVYY|C|ANDYGSTYGFAYW|GQGTLVTVS

輸入AbPredict的序列應該是如下狀態:

MVLTQSPASLAVSLGQRATISCKASQSVDYDGDSYMNWYQQKPGQPPKLLIYVASNLKSGIPARFSGSGSGTDFTLNIHPVEEEDAATYYCQQSNEDPFTFGSGTKLEVQLQQSGPELVKPGASVKMSCKASGYTFTDYYMKWVKQSHGKSLEWIGDINPNNGGTGYNQKFKGKATLTVDKSSSTAYMQLNSLTSEDSAVYYCANDYGSTYGFAYWGQGTLVTVS

2 運行建模預測

AbPredict2中的資料庫是包含了所有抗體的數據,我們需要從中分離出與我們目的序列CDRs長度一致的模板信息,此處直接利用作者的create_run.sh即可分離所需的數據。

首先我們要統計每個Fragment的長度,以實例進行說明:

# L chain:
MVLTQSPASLAVSLGQRATIS|C|KASQSVDYDGDSYMNWYQQKPGQPPKLLIYVASNLKSGIPARFSGSGSGTDFTLNIHPVEEEDAATYY|C|QQSNEDPFTF|GSGTKLE
VL_length = 68 (兩個C之間的序列數量)
L3_length = 10 (L3的序列長度:QQSNEDPFTF)

# H chain:
VQLQQSGPELVKPGASVKMS|C|KASGYTFTDYYMKWVKQSHGKSLEWIGDINPNNGGTGYNQKFKGKATLTVDKSSSTAYMQLNSLTSEDSAVYY|C|ANDYGSTYGFAYW|GQGTLVTVS
VH_length = 73 (兩個C之間的序列數量)
H3_length = 13 (H3的序列長度:ANDYGSTYGFAY)

運行經過我修改和測試的腳本:

#create_run.sh <VL length> <L3 length> <HL length> <H3 length>
sh create_run.sh 68 10 73 13

運行完畢後輸出500條隨機組合的model方案均存儲在segment_lengths_script_vars文件當中,其中的每行代表每條軌跡初始化使用的模板信息。

# segment_lengths_script_vars內容實例:
-parser:script_vars entry_H1_H2=4D9QH entry_L1_L2=1EGJL entry_H3=3PP4H entry_L3=1REIB
-parser:script_vars entry_H1_H2=1GAFH entry_L1_L2=1MOEB entry_H3=3HAEO entry_L3=4NRYB
-parser:script_vars entry_H1_H2=3QEHA entry_L1_L2=3J2XA entry_H3=2V7ND entry_L3=4P3CL
.

通常500條軌跡已經就採樣較為充分,如果想進一步擴大採樣,就需要修改create_run.sh中第24行,將500修改為更大的數即可。

運行單條退火軌跡的命令:

rosetta_scripts.mpi.macosclangrelease @flags -parser:script_vars entry_H1_H2=4D9QH entry_L1_L2=1EGJL entry_H3=3PP4H entry_L3=1REIB sequence=MVLTQSPASLAVSLGQRATISCKASQSVDYDGDSYMNWYQQKPGQPPKLLIYVASNLKSGIPARFSGSGSGTDFTLNIHPVEEEDAATYYCQQSNEDPFTFGSGTKLEVQLQQSGPELVKPGASVKMSCKASGYTFTDYYMKWVKQSHGKSLEWIGDINPNNGGTGYNQKFKGKATLTVDKSSSTAYMQLNSLTSEDSAVYYCANDYGSTYGFAYWGQGTLVTVS

如果需要運行其他的軌跡只需要將-parser:script_vars欄位的模板信息根據上一步的輸出文件segment_lengths_script_vars中的內容進行修改即可。

注意: 本地版的AbPredict2不再需要區分L鏈的kappa和lambda型序列。因此kappa鏈L3的採集效率可能會比較低。

3. 結果分析

根據能量打分排名大小進行排序, 選取排名前三的打分結構模型作為輸出。


三、使用AbPredict2在線伺服器

AbPredict的在線服務已經升級到了2.0版本,相對於1.0版本,輸出的模型質量更佳,並且提升了20倍的計算速度,通常在幾個小時以內就能完成抗體結構的建模。推薦無經驗的新手朋友使用,完全無需額外處理,只需要把序列按照輕鏈、重鏈的順序輸入即可。

AbPredict2 Web Server:http://abpredict.weizmann.ac.il

界面操作起來也十分的簡單和方便,還不用佔用本地計算資源,就是界面醜了點,需要有學術郵箱,沒有運行進度或排隊信息可以查看,只能默默等待結果返回。。當收到第一封郵件通知後,你就發現居然404了,不要著急。

只需要繼續等待第二封郵件即可,其中還有分析好的圖表。(此處大概耗時12小時左右)

相關焦點

  • 阿爾法狗再下一城 | 蛋白結構預測AlphaFold大勝傳統人類模型
    演化流的核心概念是尋找演化歷史上同源或者近似同源的序列,從他們的結構出發預測新的目標蛋白;比對流的核心概念是說,不一定要演化上同源,直接將目標序列中的片段和曾經解析出來的三維結構進行匹配和比對,就可以用來預測新的蛋白;而最難卻也最關鍵的,就是ab initio流,目的是從零開始預測那些完全找不到相似性的蛋白序列,這是拉丁語裡從最初開始的意思。
  • 用於重組抗體生產的細胞構建技術研究進展
    通過對已上市抗體的臨床研究發現,宿主細胞對重組抗體的"翻譯後修飾",直接影響到抗體藥物的臨床療效和免疫原性[3] [4]。在常用的異源蛋白表達系統中:大腸桿菌不適合表達全抗體分子,只能表達單鏈抗體或者抗體片段;酵母細胞、昆蟲細胞、轉基因植物等由於缺乏翻譯後修飾能力,其所表達的重組抗體與人天然抗體存在著顯著的質量差異。只有哺乳動物細胞適宜人源抗體的表達。
  • 在線預測蛋白質三級結構,讓文章提升逼格的策略!(附攻略)
    而要更好地從空間結構的觀點來理解蛋白質相應的生物機制,就需要解析蛋白的具體分子結構,因此,採用計算機模擬( in silico) 的方法進行蛋白的結構預測就顯得十分必要。目前,計算機模擬來預測蛋白質結構主要是基於兩種思想:1)  同源模建(homology modelling)目前,已解析的蛋白結構都保存於PDB( http://www.rcsb.org/ ) 資料庫中。基於序列決定結構的基本思想,通過對預模擬的蛋白序列與PDB資料庫中的序列進行相似性搜索,根據相似序列的結構來測序。
  • 雙特異性抗體歷史及分子結構設計格式
    雙特異性抗體分子結構設計格式在天然二價抗體中,兩個抗原結合位點是相同的,由來自重(H)和輕(L)鏈可變區組成。因此,bsAb開發的初始挑戰之一:通過共表達兩個不同的H鏈和兩個不同L鏈,形成H2L2共有18可能性,通常稱為鏈交聯問題(chain-association issue.)。
  • 科學網—蛋白質結構解析:生物學的「聖杯」
    Anfinsen)提出「蛋白質的高級空間結構由蛋白質的胺基酸序列決定」後(他也因此獲得1972年諾貝爾化學獎),人們開始尋找一種能夠預測蛋白質結構的算法,可以精確地從蛋白質的胺基酸序列,利用計算機預測出其複雜的空間結構,甚至其由結構決定的功能。
  • DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構
    通過強有力的跨學科方法,DeepMind 匯集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。我們的系統,AlphaFold,在過去的兩年裡我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。
  • 治療多種疾病的抗體療法研究新進展!
    三輪篩選產生了21個獨特的結合SpikeS2P的納米抗體,而且ACE2胞外結構域(ACE2-Fc)的二聚體構造體可降低這種結合。這些納米抗體分為兩類。第I類納米抗體結合RBD並直接與ACE2-Fc競爭(圖1B)。這一類的典型例子是納米抗體Nb6,它可與SpikeS2P和RBD單獨結合,結合常數KD分別為210nM和41nM。
  • 顛覆傳統預測市場,Predict預測鏈APP正式上線
    讓我們一起來回顧Predict預測鏈的火爆之路:Predict項目是基於區塊鏈預測市場下誕生。預測市場,又被稱為"信息市場"、"觀點市場"和"事件市場",通過參與者交易特定事件發生概率的合約,形成一個市場預期來預測未來。同時,預測市場與區塊鏈天然公開、透明的特性完美結合。Predict預測鏈是由DragonEx龍網研究院孵化的第三期生態項目。PT是Predic平臺基於首創PoC算法發行的通證,基於以太坊ERC20發行,總量恆定10億個,永不增發。用戶通過參與預測挖礦獲得PT。
  • 如何區分內參&標籤抗體?
    【β-Tubulin小鼠單克隆抗體(3G6),#A01030】 作為內參抗體,beta Tubulin 表達通常不會發生改變,因此被廣泛用於 Western Blot 內參,也常被用於免疫染色觀察細胞的微管結構。
  • Predict預測鏈「被質疑」?高級社區經理為用戶答疑解惑、加持信心
    其中,predict預測鏈項目的快閃最為精彩。Predict是一個關於區塊鏈預測的項目。PT是Predict平臺基於首創的PoC算法發行的通證,總量恆定10億個,永不增發。用戶通過參與預測挖礦獲得PT。PT持有者可選擇將PT投入不同的生態獎池,開獎並獲得對應獎金後,投入的PT將被銷毀。
  • COVID19中和抗體可預測疾病的嚴重程度和存活率
    COVID19中和抗體可預測疾病的嚴重程度和存活率 作者:小柯機器人 發布時間:2020/12/16 15:26:35 美國拉根研究所Alejandro B.
  • 除了下圍棋,AI還能預測「難纏」的蛋白質結構,它是怎麼做到的?
    這實際上很符合直覺,我們可以想像,如果同樣的胺基酸序列可以摺疊成不同結構的蛋白質,發揮不同的功能,我們的身體內部會陷入怎樣的混亂狀態。自然界經過漫長的生命進化過程,蛋白質分子在眨眼之間就能夠自發地完成整個摺疊過程。但科學家們發現,如果想要通過計算胺基酸分子間的相互作用來預測它們如何摺疊,那麼要窮盡所有可能的蛋白質構型,需要的時間將比整個宇宙年齡還要長。
  • Science:美洲駝納米抗體有望成為對抗新冠病毒的強大武器
    2020年11月11日訊/生物谷BIOON/---在一項新的研究中,來自美國匹茲堡大學的研究人員描述了一種從美洲駝(llama)身上提取小型的但極其強大的SARS-CoV-2抗體片段的新方法,這種抗體片段可以被製成可吸入的治療劑,具有預防和治療COVID-19的潛力。
  • 獼猴中HIV-1EV抗體共進化導致中和寬度的研究
    我們報導了恆河猴HIV-1包膜蛋白在猿類人類免疫缺陷病毒表達時,所引起的Env抗體協同進化模式與人類相似。這包括保守免疫遺傳學、結構和化學解決方案的表位識別和精確的環境胺基酸替代、插入和刪除所導致病毒持久性。
  • ab離開來自拉丁語前綴ab,一起來學習有關前綴詞義吧
    ab-離開來自拉丁語前綴ab-,從,來自;從……離開,離開。在拼寫演變上,該前綴在字母v前由ab-變為a-;在字母c和t前加字母s擴展為abs-。在詞義演變上,該前綴由「離開」引申為「不,非」,表否定,表相反。
  • 每日一詞 predict
    單詞剖析predict [prdkt]v.預言,預測; 預告前綴 pre 和 pro 都是「積極分子」,含義都有「前」的意思,但 pre 只表示「前面,預先的」,而 pro 是「向前」的意思,predict 就表示在事情發生之前,一般指人根據事實或公認的自然法則進行推理預測,預言時一般具有科學的準確性。
  • 又一AI工具在全球賽事中擊敗人類 成功預測蛋白質結構
    蛋白質--由胺基酸組成的大分子,是組織、肌肉、頭髮、酶、抗體和生物體其他重要部分的基本組成部分--以DNA編碼。 正是這些基因定義限制了它們的三維結構,這又決定了它們的能力。例如,抗體蛋白的形狀像「Y」,使它們能夠鎖定病毒和細菌,並且膠原蛋白的形狀像繩索,其在軟骨,骨骼,皮膚和韌帶之間傳遞張力。 蛋白質摺疊是什麼?蛋白質的基本單位為胺基酸,而蛋白質的一級結構指的就是其胺基酸序列,蛋白質會由所含胺基酸殘基的親水性、疏水性、帶正電、帶負電等特性通過殘基間的相互作用而摺疊成一立體的三級結構。
  • ...生物成功表達重組「S-三聚體」疫苗,並證實多例康復病人抗體陽性!
    近日,該公司宣布在哺乳動物細胞內成功表達 「S-三聚體」 新型冠狀肺炎病毒(2019-nCoV)重組蛋白疫苗,並在成都高新區政府和成都市公共衛生臨床醫療中心的大力協助下,用新獲得的 「S-三聚體」 抗原在多例病毒感染患者康復後血清中檢測到病毒特異性抗體。
  • 金賽增,超 2000 例抗體零檢出!
    01 聚乙二醇重組人生長激素的免疫原性極低 聚乙二醇重組人生長激素治療 GHD 患者的 IV 期臨床試驗中,2158 例患者治療 26 周過程中生長激素抗體檢出率為零[1],說明聚乙二醇重組人生長激素免疫原性極低。