現有的大多數資料庫及軟體對蛋白質的預測都將重點放在胺基酸(AA)級描述符的特定類別上,例如PSIPRED、SCRATCH和MULTICOM資料庫主要關注蛋白質結構描述符,而DEPICTER數據裡既覆蓋結構和功能特性,又覆蓋無序區域。D2P2和MobiDB資料庫通過預先計算AA級提供了另一種解決方案,它們提供對多個謂詞生成的結果的快速便捷訪問。然而,D2P2的最新更新時間是2012年,兩個存儲庫都涵蓋的假定結構和功能特徵集較為狹窄,主要側重於疾病預測(表1)。更具體地說,D2P2僅涵蓋三個描述符(一個結構和兩個功能),包括通過九種不同方法預測的內在障礙描述符。同樣,當使用十種內在障礙的預測因子時,MobiDB包括四個推定描述符(兩個結構描述符和兩個功能描述符)。
表1.預測的AA級描述符的資料庫摘要
描述符分為三類:結構描述符(Str),功能描述符(Fun)和序列描述符(Seq)
1. 順序
參考UniProt資料庫的2019年08月發布的UniProt參考蛋白質組列表,AA級預測是根據選擇的83個完整蛋白質組的序列庫進行處理的。UniProt資料庫選擇的研究目標包括人、小鼠、大鼠、斑馬魚、獼猴、果蠅、酵母、秀麗隱杆線蟲、擬南芥、大腸桿菌以及包括皰疹、伊波拉病毒在內的流行病毒、HIV1、麻疹和腮腺炎。資料庫中的83個蛋白質組包含136萬個蛋白質和接近6億個胺基酸,覆蓋了四個生物分類王國,包括真核生物(具有多個動物界、植物界、真菌和原生動物、細菌、古細菌和病毒的蛋白質組)(表2)。圖1總結了DescribePROT資料庫中包含的蛋白質和蛋白質組的分類學分布,圖1B中67%的蛋白質組來自真核生物,其中39%的動物蛋白質組佔最大比例,而其餘的33%由16%的病毒、10%的細菌和7%的古細菌蛋白質組組成。圖1A顯示DescribePROT資料庫包含約2.3%細菌蛋白、1.0%古細菌蛋白、0.1%病毒蛋白和96.6%真核蛋白,後者是由於與非常小的病毒蛋白質組相比,真核蛋白質組相對較大。
表2. DescribePROT資料庫中包含的蛋白質數據和預測的摘要和分類學分類
圖1. DescribePROT資料庫中蛋白質(A)和蛋白質組(B)的分類分布
2. 預測
DescribePROT資料庫中包含的預測方法滿足三個關鍵特徵:(i)DescribePROT資料庫的範圍很大,但是運行速度快,時間短;(ii)全面涵蓋AA級描述符的完整覆蓋範圍;以及(iii)強大的預測性能。因此,當前版本的DescribePROT(v1.1)資料庫包含了十個預測變量(按字母順序)生成的結果,包括ASAquick的溶劑可及性,DFLpred的無序連接子, DisoRDPbind的蛋白質、RNA和DNA結合胺基酸,DRNApred的結構衍生的DNA和RNA結合胺基酸,MMseqs2的多個序列比對譜,短時間無序蛋白結合區域MoRFchibi,PSIPRED的二級結構,SCRRIBER的結構衍生蛋白結合胺基酸,SignalP的信號肽和VSL2B的內在無序AA,表3總結了這些方法,顯示了使用DescribePROT資料庫包含的蛋白質對運行時進行的經驗性測量,結果表明這些預測器的確非常快,僅需0.07 s(對於VSL2B)至11 s(對於DRNApred的預測)即可。對單個蛋白質序列進行預測時,每個預測因子產生不同的描述子,它們共同涵蓋四個結構描述符(溶劑可及性、二級結構、內在幹擾和無序連接子)、三個功能描述符(蛋白質結合、RNA結合和DNA結合AA)、兩個序列描述符(序列保守和信號肽),接下來,我們簡要介紹每種工具的主要功能。
表3.用於導出DescribePROT資料庫的十個預測變量的概述
運行時間使用Intel i7 CPU上的五個批次(每個批次包含100種蛋白質)進行測量,我們報告了五次運行的平均值和標準差。
PSIPRED可以說是最流行的二級結構謂詞,會生成二級結構的精確三態預測,包括對螺旋(H)、鏈(E)和線圈(C)構象的數字傾向以及與具有最高假定傾向的二級結構相對應的預測標記,被評為多項比較研究中最準確的預測因素之一。我們運行的PSIPRED單序列版本可以擴展到DescribePROT的大小。
ASAquick是AA級可及表面積(ASA)的非常快速的預測指標,快速運行的時間源於ASAquick不利用耗時的多序列比對的事實,但是,它的預測性能與其它由於使用比對而慢得多的方法相比具有明顯競爭力。我們通過從中得到的AA特有因子對推定的ASA值進行歸一化,從而將該工具產生的輸出轉換為相對溶劑可及性(RSA)。我們還根據所述的方法,使用RSA值對掩埋殘基進行注釋,即假定RSA <0.16的AA被掩埋了。
SignalP是最常用的信號肽預測因子。對於給定的蛋白質鏈中的前70個AA,SignalP可生成信號肽和相應二進位標記。我們使用SignalP的最新版本5.0,該版本具有非常準確的預測功能,可在所有生物分類王國中工作,並區分多種類型的原核信號肽。我們將SignalP的生物群參數設置為與查詢序列的種類兼容。
MMseqs2是一種非常快速的同源性搜索工具,可以從搜索結果中產生多個序列比對和特定位置的評分矩陣。我們利用此工具使用2019年08版的UniProt發布的參考蛋白質組作為背景序列集來生成PSSM,我們使用基於相對熵的方法從PSSM計算序列保守評分,其中背景胺基酸頻率來自BLOSUM-62。此外,我們將保守度得分分為十分位間隔,並提供屬於最高十分位的高度保守AA的二進位注釋。MMseqs2比流行的PSI-BLAST快兩個數量級,同時保持相似或更好的靈敏度水平。
VSL2B是內在障礙的快速且流行的預測因子,會生成內在疾病的數字傾向,並為蛋白質序列中的每個AA生成一個二進位標記,結合了較短的運行時間和較高的預測性能。VSL2B被評為CASP6中最佳的疾病預測指標,隨後在多項其他評估中被評為最好的方法之一。
DFLpred是目前唯一預測disordered接頭區域的方法,為本質上無序的區域,可充當多域蛋白中各域之間以及域內結構化組成部分之間的接頭或間隔子。DFLpred輸出輸入序列的每個AA的接頭數字傾向和相應的二元標記。結果表明,該方法可在不到一秒鐘的時間內對單個蛋白質產生準確的預測。
DescribePROT資料庫中包含的功能描述符著重於與蛋白質、DNA和RNA相互作用的注釋,相應的預測模型已經開發了十多年了。DescribePROT資料庫中包含的四個功能預測變量的選擇來自於兩個觀察結果。首先,這些預測因子的兩大類為使用結合蛋白質/ DNA/RNA的內在無序AA進行訓練的序列,以及使用結構化蛋白質-蛋白質、蛋白質-DNA和蛋白質-RNA複合體訓練的序列的預測因子被證明可以提供互補的結果;其次,最近的多項研究表明,這些方法中的許多交叉預測了相互作用的AA的三種類型,例如,蛋白質結合胺基酸的預測因子也會錯誤地將DNA和RNA結合胺基酸預測為蛋白質結合,而DNA結合殘基的預測因子也會將蛋白質和RNA結合殘基預測為DNA結合。相應地,我們包括兩類預測器確保將其設計為最大程度地減少交叉預測的數量。
DisoRDPbind是目前唯一可與DNA和RNA相互作用的內在無序AA的預測因子,該工具還可以預測無序的蛋白質結合胺基酸,為無序AA生成蛋白質、DNA和RNA結合的三種數字傾向、輸入蛋白質鏈的每個AA產生了相應的三個二進位標記。DisoRDPbind在較短的運行時間內表現出色(三種蛋白質的相互作用在一秒鐘內就可以預測出一種蛋白質),在無序的蛋白質結合AA的預測因子中排名最高,並且產生的交叉預測數量很少。
我們還涵蓋了對無序的蛋白質結合性胺基酸的豐富亞類的預測,稱為MoRF(分子識別特徵)。MoRF是短的無序蛋白區域(長度在5至25 AA之間),在結合蛋白伴侶後會發生無序的有序轉移。解決無序AA的功能性謂詞的絕大部分都集中在這種類型的交互作用上,我們使用快速準確的預測因子MoRFchibi,該預測因子輸出MoRF和二進位標籤的數字傾向(MoRF與非MoRF)。目前,該方法被列為最準確的MoRF預測指標之一。
DRNApred可以準確預測基於結構化蛋白質-核酸複合物的DNA和蛋白質–RNA結合胺基酸。對於輸入序列的每個AA,產生DNA結合的傾向、RNA結合的傾向以及兩個相應的二元標記(RNA結合對非RNA結合和DNA結合對非DNA結合)。該方法是核酸相互作用AA的唯一預測因子,已被訓練用於特異性降低交叉預測。
SCRIBER是基於結構化複合物標註的蛋白質結合胺基酸的準確預測指標,輸出蛋白質結合的數字傾向以及輸入蛋白質序列中每個AA的相應二進位標記。和與核酸相互作用的DRNApred相似,是專門設計用於成功最小化蛋白質結合殘基的交叉預測的唯一方法。
結果表明,我們採用的方法可以在相應基準數據集上提供準確率預測,這些數據集通常廣泛涵蓋分類空間。但是,僅比較了其中兩種方法DisoRDPbind和SignalP在不同物種或生命域中的比較性,以探究其預測的準確性。DisoRDP結合證明了人類、小鼠、果蠅和秀麗隱杆線蟲蛋白質組中預測性能的穩定水平。同樣,SignalP在古細菌,革蘭氏陰性細菌,革蘭氏陽性細菌和真核生物之間提供可比的預測質量。DescribePROT的可用性將有助於將來的研究,從而為其它方法提供綜合的比較分析。
3. 資料庫
該資料庫網址為http://biomine.cs.vcu.edu/servers/DESCRIBEPROT/。DescribePROT資料庫的後端是通過MariaDB關係資料庫實現的,我們使用php和JavaScript來交付用戶界面,並使用python來訪問資料庫、解析數據並生成可下載的文件。接下來,我們解釋存儲在DescribePROT中的數據,如何訪問這些數據,如何搜索資料庫以及如何使用和理解界面中的圖形。
4.數據
DescribePROT資料庫中的數據包括蛋白質名稱、UniProt條目名稱、序列、用於連結到UniProt記錄的登錄號,以及作為原始數字傾向和傾向衍生標籤提供的12個預測。DescribePROT資料庫存儲溶劑可及性的數字傾向、三態二級結構狀態中的每一種、信號肽、固有無序、無序連接子、Morfs、無序蛋白質、DNA和RNA結合以及結構注釋的蛋白質、DNA和RNA結合。我們還存儲了埋藏的胺基酸、信號肽、固有無序的胺基酸、無序連接子、Morfs、無序的蛋白質、DNA和RNA結合的AAs以及結構注釋的蛋白質、DNA和RNA結合的AAs的三態二級結構標記和二元標記。最後,我們包括每個AA的PSSM、數值守恆分數和10個狀態(基於十進位)的守恆等級標籤。
這些數據以多種方便和互補的方式提供給最終用戶。我們以JSON格式為83個蛋白質組中的每個蛋白質組以及整個資料庫提供源數據,此選項位於資料庫主頁上的「下載」連結下;我們還提供通過交互式圖形界面和可下載的PNG文件訪問每個單獨蛋白質的數據、以及CSV格式的文件和帶有原始預測和二進位結果的可解析的JSON格式的文件。我們將在「結果頁面」部分解釋如何訪問此信息。
5. 搜索類型
用戶可以通過三種方式搜索DescribePROT資料庫,通過UniProt登錄號、UniProt條目名稱和AA序列。AA序列搜索生成DescribePROT資料庫中包含的蛋白質集合,這些蛋白質根據它們與輸入蛋白鏈的相似性進行排序。這些蛋白質可以通過BLAST產生的E值(默認情況下)、比對覆蓋範圍和同一性值來分類,該信息附有相應的登錄號,連結到UniProt記錄和分類ID,以便為選擇最相關的蛋白質提供依據,說明PROT還提供使用UniProt登錄號直接訪問特定蛋白質的數據,例如,用戶可以使用以下直接連結獲取P04637(p53蛋白質)的結果:http://biomine.cs.vcu.edu/servers/DESCRIBEPROT/Result.php?UniProt=P04637,允許與其他資料庫直接交聯。
6. 結果頁面
給定蛋白質的推定結構、功能和序列描述子以交互式圖形格式提供,該格式利用「功能查看器」軟體(DOI:10.5281 / zenodo.345324)和結果的可解析結構格式頁(圖2),頁面頂部包括登錄號(連結到相應的UniProt記錄)、蛋白質名稱、分類ID和序列長度。圖2中的紅色標記1指向連結到幫助和教程視頻的問題標記圖標,可以分別單擊由紅色標記2和3指示的箭頭圖標來下載JSON和CSV格式的假定注釋;通過單擊紅色標記4標識的箭頭圖標,可以將圖2底部所示的圖形視圖下載為PNG格式的圖像,結果分為三部分:(a)推定的結構描述符,包括來自VSL2B(內在疾病)、ASAquick(溶劑可及性)和PSIPRED(二級結構)的預測;(b)推定的功能描述符,包括來自DisoRDPbind(無序的蛋白質、DNA和RNA結合的結合)、MoRFchibi(MoRF區域)、DRNApred(結構衍生的DNA和RNA結合)和SCRIBER(結構);(c)帶有MMseqs2(PSSM和序列保守)的結果以及DFLpred(無序接頭)和SignalP(信號肽)的預測的其他描述符。預測是使用圖形報告顯示的,該報告總結了數字傾向和注釋。圖2頂部的紅色橢圓形標記標識複選框,該複選框打開用於特定預測的圖形報告,圖形報告可以縮放(放大和縮小),並提供功能以突出顯示預測標籤的區域,並在滑鼠上方顯示這些區域的邊界以及潛在的傾向;後一種功能的示例使用圖2中部的紅色橢圓形標記顯示。
圖2.由DescribePROT資料庫為人類p53蛋白(UniProt ID:P04637)生成的示例結果頁面
我們使用圖2所示的人類p53蛋白的示例分析來說明如何解釋結果頁中的數據。p53蛋白參與了幾個關鍵的細胞過程,例如凋亡和DNA修復。研究表明,p53是一種內在幹擾的蛋白質,通過與大量蛋白質和DNA伴侶相互作用而發揮其功能。根據圖2中淺綠色顯示的VSL2B的結果,DescribePROT資料庫表明p53序列的56%有序序列,在N端(位置1-101)和C端有兩個長的無序區域(位置277–393),這與位於N端(1-92位置)和C端(293-393 AAs位置)的實驗注釋的無序區域非常吻合。而且,DescribePROT資料庫顯示出20%的AA結合蛋白部分(圖2中藍色突出顯示)。該預測使用聯合運算將由DisoRDPbind、MoRFchibi和SCRIBER等相關方法產生的結果組合在一起。詳細的分析表明,在這種情況下,相互作用是由DisoRDPbind(區域1–32、41–70和283–287)和MoRFchibi(區域378–387)預測的,他們的預測與實驗數據一致,例如,顯示p53通過反轉錄domain(區域1-61)與幾種蛋白伴侶(例如p300和CBP)相互作用,並與374–388區域中的另一組蛋白(包括CBP)相互作用。此外,研究表明p53的中央結構化主體是高度保守的,而在進化過程中側翼無序區域已經多樣化。相應地,圖2中的灰色結果表明,高度保守的殘基(較暗的灰色)主要位於結構域中。本示例說明了可以從DescribePROT資料庫報告的結果中收集的信息的豐富性。
7. 假定描述符的全局分析
圖3可視化了由9種預測工具產生的14種AA級推定傾向中的每對之間的Spearman相關係數(SCC)。我們將SignalP排除在分析之外,因為它的預測僅涉及蛋白質鏈N端的70個AA,並且大多數傾向之間沒有相關性(SCC<0.2),這表明它們表徵了AA的不同描述詞。少數相關的描述符包括PSIPRED預測的二級結構,其中螺旋構象的傾向與線和線圈的傾向負相關(SCC<–0.6),而線和線圈的傾向弱相關(SCC = 0.2)。DRNApred產生的DNA結合和RNA結合傾向呈負相關(SCC = 0.54),這源於DRNApred旨在最小化DNA和RNA結合AA之間的交叉預測。DisoRDPbind資料庫對蛋白質結合和RNA結合的預測也有輕微的負相關(SCC =–0.24),類似的觀察也是如此。最後,SCRIBER和MoRFchibi(SCC = 0.25)的適度相關預測可以通過以下兩種事實進行解釋,兩種方法都可以預測蛋白質結合AA。SCRIBER預測形成結構化複合物的蛋白質結合殘基,而MoRFchibi專注於MoRF(結合後摺疊的較短的雜散蛋白結合區域)。
圖3.由蛋白質結構和功能的14個AA級預測產生的每對數字傾向之間的Spearman相關係數(SCC)
顏色編碼的SCC通過DescribePROT資料庫中包含的AA計算得出。結構預測包括ASAquick的RSA、DFLpred的無序接頭、PSIPRED的螺旋、鏈和線圈構象以及VSL2B的內在無序;功能預測包括DisorRDPbind的disordered RNA結合、DNA結合和蛋白質結合、MoRFchibi的MoRF、DRNApred的結構注釋的DNA結合和RNA結合以及SCRIBER的結構注釋的蛋白質結合。我們還包括根據MMSeqs2生成的配置文件計算的序列保守性。
圖4顯示了由十種方法預測的AA級標籤匯總的蛋白質水平含量值的分布。含量定義為蛋白質序列中具有給定標記的AA的比例,例如掩埋AA的分數計算為掩埋AA的數量除以序列長度。我們涵蓋了高度保守的殘基(在整個資料庫範圍內得分最高的AA中)、螺旋(H)、鏈(E)和線圈(C)構象的含量、掩埋AA的含量(RSA<0.16)以及無序AA、無序接頭以及蛋白質結合、RNA結合和DNA結合AA的含量。從這些數據中可以收集到一些有趣的發現,例如,高度保守的AA的含量在0.03至0.24之間,這表明序列級保守可以相差一個數量級;螺旋AA的中值含量約為0.4,略低於卷材的中值含量0.45,並且遠高於絞線的中值含量〜0.15;掩埋AA的中位數含量為0.3,但是掩埋殘基的比例可以在幾乎零到一半的序列之間變化很大;內在障礙的中位數含量約為0.1,而約35%的蛋白質的大部分AA處於障礙狀態,有些蛋白質完全失調。這些觀察結果與過去關於內在疾病豐富性的研究一致。
圖4. DescribePROT資料庫中包含的結構,功能和序列衍生描述符的推定蛋白質水平含量的分布
方框圖表示以下12個間隔,其中連續的矩形分別對應於5–12.5、12.5–20、20–27.5、27.5–35、35–42.5、42.5–50、50–57.5、57.5–65、65–72.5,72.5–80、80–87.5、87.5–95個百分點範圍;黑色水平線代表中位數。
DescribePROT資料庫可以快速地訪問蛋白質結構和功能的各種AA級描述符,以收集涵蓋多種生物的完整蛋白質組,包括內在疾病、二級結構、溶劑可及性、RNA、DNA和蛋白質結合、MoRF、無序接頭和信號肽的預測;還提供對預先計算的PSSM和序列保留值的訪問。該資源是對AA級預測的當前資料庫D2P2和MobiDB的補充,這些資料庫主要關注內在性疾病,DescriPROT包含的推定注釋可用於廣泛的研究,從蛋白質功能的基礎研究到通過針對疾病和治療方法的應用項目,再到設計和測試預測新方法的項目蛋白質序列的其他特徵,例如:最近才使用VSL2B表徵EZH2蛋白的功能和結構;使用DisoRDPbind分析SARS-CoV-2蛋白質組;並使用PSIPRED和ASAquick進行設計;caspase和基質金屬蛋白酶切割位點的深度學習預測因子。
DescribePROT資料庫提供了多種訪問數據的方式,具有交互式圖形界面,提供了同時瀏覽多個結構和功能描述符的功能,還提供了蛋白質、蛋白質組和整個資料庫規模的源數據的可下載功能。此外,DescriPROT資料庫還提供幫助和教程視頻,這些視頻說明了如何搜索資料庫以及如何使用和理解界面圖形。
我們未來的工作將主要集中在擴大資料庫的覆蓋範圍上,最終目標是覆蓋UniProt的全部內容,我們的高度優先短期目標是包括一些相關參考資料庫(例如PDB和DisProt)中可用的實驗注釋。我們打算添加其他和互補的功能和結構描述符,例如推定的域邊界、翻譯後修飾以及與小分子配體的相互作用。我們計劃通過API以編程方式提供對基礎數據的訪問,以補充當前可用的眾多可下載文件格式。總體而言,我們的目標是每季度更新一次DescribePROT資料庫的資源。我們也期待聽到並考慮用戶對未來發展的建議。