蛋白質結構分析系列(二)

2021-02-08 universebiologygirl
蛋白質結構分析系列(二):同源建模

寫在前面的
一直在反覆思考,是否要把同源建模放在第二次推文裡面寫。因為從知識邏輯順序及結構體系來說,這部分放在後面講是最合適的。但是考慮到受眾面及需求,或許教會大家如何進行簡單同源建模效益更大。所以這一節就先講利用本地軟體進行同源建模分析。

同源建模理論

        預測未知蛋白的結構有三種計算方法:1.同源建模;2.摺疊模式識別和從頭預測結構。這之中,同源建模基於一級結構決定高級結構,相似的一級結構較大可能具有相同或相似的高級結構這一基本假設或原理是目前蛋白質結構分析中準確率最高的方法。相對的,基於同源建模的理論,對一個未知蛋白質結構的預測建模需要一條已經具有已解析空間結構且在一級序列水平具有一定程度相似性(通常大於60%)的模板蛋白。上一次推文提到的PDB資料庫儲存了大量具有已知空間結構的蛋白質數據。

同源建模步驟

選擇模板和比對序列:選擇已知晶體結構的模板蛋白質並進行序列比對,根據比對結果確定該已知晶體結構蛋白是否可以作為模板蛋白(一般來說一級結構相似度大於30%即可,通常認為相似度大於60%建模後的預測結構已經非常接近真實結構);

構建主鏈結構:將模板蛋白的原子坐標應用於目標中,生成基本的預測蛋白的主鏈骨架再適當(以符合立體化學原則為基準)調整主鏈原子位置;

構建環區:根據模板蛋白已知的環區結構,或者根據量子化學原理從頭構建預測蛋白的環區;

側鏈的建模和優化:根據能量最小化原則,搜索相關旋光異構體資料庫或優化蛋白質空間取向尋找能量最低點,即穩定構象;

優化整體結構:經上述過程得到的三維模型內原子間通常會有不合理接觸,需要使用模擬退火和分子動力學等方法消除;

結構評估:最普遍的評價標準是RMSD,它代表著目標蛋白與模板蛋白間對應原子的均方根偏差。也可以提交到SAVES伺服器進行檢驗。(本人一般做的比較少,因為我並不是專門做結構生物學的,通常在上一步我選擇模擬退火算法解析出最穩定的粗糙結構即可)

以SARS的S蛋白為模板使用modeller進行同源建模

        上面的建模步驟看起來似乎很多超過了常規生命科學的知識範疇。說實話,我自學這些理論的時候也看的雲裡霧裡。不過好在已經有專業科學家團隊造好了本地分析的輪子。使得我們可以更靈活地進行分析。modeller就是其中較好的軟體之一。該軟體建議在Unix系統上運行,通過幾個python腳本運行軟體。下面我們以SARS病毒的S蛋白為模板,建立SARS-CoV-2的S蛋白模型(雖然SARS-CoV-2的S蛋白已經有了空間結構)。

        在PDB資料庫中搜索SARS病毒的S蛋白晶體結構(序列號2AJF)文件並下載。


比對模板鏈和目標鏈

from modeller import *

env = environ()
aln = alignment(env)
#模板序列文件名稱,比對的模板序列鏈,可以從PDB資料庫中獲取信息,本次比對A鏈
mdl = model(env, file='6ajf', model_segment=('FIRST:A','LAST:A')) 
aln.append_model(mdl, align_codes='6ajfA', atom_files='6ajf.pdb')
#輸出要進行比對的序列文件名及序列名,COV2是本人存放新冠S蛋白FASTA序列的文件名
aln.append(file='COV2.ali', align_codes='COV2')
aln.align2d()
aln.write(file='COV2-6ajf.ali', alignment_format='PIR')
aln.write(file='COV2-6ajf.pap', alignment_format='PAP')

建立模型

from modeller import *
from modeller.automodel import *
#from modeller import soap_protein_od

env = environ()
#比對好的序列文件就是上一個腳本輸出的.ali文件
#選擇自動建模的方式,這是適合初學者的傻瓜式操作。效果也較好
a = automodel(env, alnfile='比對好的序列文件.ali',
##6ajf是指模板蛋白名,A是指A鏈
              knowns='6ajfA', sequence='目標序列名', 
              assess_methods=(assess.DOPE,
                              #soap_protein_od.Scorer(),
                              assess.GA341))
#ending_model是輸出多少次建模結果,一般是5次,本人設置10次
a.starting_model = 1
a.ending_model = 10
a.make()

結果選擇

        一般情況下以上兩步進行完成後會輸出一個叫model-single.log的文件和多個建模好的pdb文件,選擇DOPE score值最小的pdb文件作為同源建模結果文件即可,這個模型就是對應的能量最小化的模型。當然也可以繼續使用腳本進行模型評價。也可以直接跳過模型評價進行loop優化。如果這裡不需要特別預測精細的結構,選擇當前的結構作為粗糙結構即可。

寫在後面
因為考慮到太多相關知識點還沒有鋪展好,所以此次推文並沒有打算把同源建模講深入。使用當前的方法可以得到一個較好的粗糙模型。如果想要更精細的模型可以等待後面持續更新的如何進行環結構優化。如果使用個人筆記本電腦運行上面程序,大概需要12小時。


相關焦點

  • 蛋白質結構分析系列(一)
    蛋白質結構分析系列(一):初步認識寫在前面的從上次推文到現在過了很長一段時間。
  • 《蛋白質結構與功能分析》課件分享
    啦啦啦~又到了周末啦~同樣,今天給大家準備了一份課件資料,內容主要是關於蛋白質結構與功能分析
  • 蛋白質的結構與功能
    俗話說:「生理生化,必有一掛」,如果能拿下其中一門科目,大二的學習生涯也就成功了一半。    在班主任和學委的策劃下,我們公眾號再次推出了生化學習資料整理系列,將生物化學(人衛版)前十章精心整理成10篇推送,每周不定時為大家奉送,希望能對大家有所幫助!
  • 2.蛋白質的結構
    二個或三個具有二級結構的肽段,在空間上相互接近,形成一個有規則的二級結構組合,被稱為超二級結構。二個或三個具有二級結構的肽段,在空間上相互接近,形成一個特殊的空間構象,稱為模體,模體是具有特殊功能的超二級結構。
  • 蛋白質結構解析六十年
    隨著這個理論被證偽,真正的遺傳物質DNA的結構被給予了很大關注。然而,蛋白質作為生命體的重要大分子,其重要性也從未被忽視,而且在1950年代開始,科學家一直在探尋DNA序列和蛋白質序列的相關性。與此同時,蛋白質測序和結構解析蛋白質結構的努力開始慢慢獲得回報。更多的生化研究揭示了蛋白質的功能重要性,因此蛋白質的三維結構的解析對於深入理解蛋白質功能和生理現象起著決定性作用。
  • 圖文並茂講解不同的蛋白質結構
    A. α-螺旋,是蛋白質的一種二級結構,其肽鏈主鏈繞中心軸盤繞成螺旋狀,為右手螺旋結構,A 錯。B. 無規捲曲,是沒有確定規律性的肽鏈結構,也屬於蛋白質的二級結構,B 錯。C. 結構域,是指分子量較大的蛋白質常可摺疊形成多個結構較為緊密且穩定的區域,並可行使其特定的功能。結構域是蛋白質三級結構層次上的獨立功能區,C 對。D.
  • 蛋白質分子的結構與功能
    蛋白質的分子結構有4個層次,即一級、二級、三級和四級結構。一級結構一級結構是指蛋白質肽鏈中的胺基酸共價結合的排列順序,是最基本的結構。二級結構二級結構是指肽鏈骨架原子即氨基氮和碳原子的相對空間位置,主要包括α-螺旋、β-摺疊、β-轉角和無規則捲曲,並不涉及側鏈基團的構象。
  • 顏寧等點評:AI 精準預測蛋白質結構,結構生物學何去何從?
    傳統上,蛋白質結構預測可以分成基於模板和從頭預測,但是 AlphaFold2 只用同一種方法 —— 機器學習,對幾乎所有的蛋白質都預測出了正確的拓撲學的結構,其中有大約 2/3 的蛋白質預測精度達到了結構生物學實驗的測量精度。這說明,至少是在單結構域的蛋白結構,他們接近解決了這個問題。谷歌這次為什麼能夠取得如此大的成功?
  • 顏寧等點評:AI精準預測蛋白質結構,結構生物學何去何從?
    12月1日,谷歌旗下的DeepMind公司宣布,其新一代AlphaFold人工智慧系統在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,精確預測了蛋白質的三維結構,準確性可與冷凍電子顯微鏡(cryo-EM)、核磁共振或 X 射線晶體學等實驗技術相媲美。(詳見《解決生物學50年來的重大挑戰!
  • 【生物化學】蛋白質的結構與功能
    α—螺旋特點:以肽鍵平面為單位,α—C為轉軸,形成右手螺旋,每3.6個胺基酸殘基螺旋上升一圈,螺徑為0.54nm,維持α-螺旋的主要作用力是氫鍵15.舉例說明蛋白質結構與功能的關係①蛋白質的一級結構決定它的高級結構②以血紅蛋白為例說明蛋白質結構與功能的關係:鐮狀紅細胞性貧血患者血紅蛋白中有一個胺基酸殘基發生了改變。
  • AI精準預測蛋白質結構,結構生物學何去何從?|返樸
    CASP組織者John Moult指出,計算下一步還有更困難的問題要解決:超大複合物結構、動態構象變化、蛋白質設計、藥物設計等等。 除了我們蛋白質結構預測小同行對AlphaFold2的成功很欣喜之外,社會上還有多個不同方向的學術界、產業界和新聞界對它寄予了厚望。
  • 高中教師招聘考試《蛋白質的結構和功能》說課稿
    一、說教材《蛋白質的結構和功能》是必修1第2章第2節的內容,屬於「課程標準」必修部分——生物1:分子與細胞的相關內容。《蛋白質的結構和功能》一課的內容主要包括了蛋白質的元素組成,基本組成單位胺基酸、胺基酸的結構通式、脫水縮合方式、蛋白質的功能等內容。在本節課之前,學習了糖類和脂質,以及元素的相關知識,為本節課的學習打下了基礎。
  • Science|遺傳相互作用圖譜可確定蛋白質複合物的整合結構
    確定蛋白質複合物的結構對於理解細胞功能至關重要。然而無論是對於實驗手段還是計算預測,蛋白質複合物結構的確定都是一件困難的任務。在本篇文章中,作者描述了一種依賴於遺傳相互作用的體內定量檢測的整合結構確定的方法。
  • 漫談蛋白質結構預測問題
    蛋白質的功能在很大程度上被其三維結構所決定。在人工智慧助力下,更快捷準確地卻太快蛋白質結構,對於生理病理研究、藥物研發等都有重要意義。 12月10日(周四)晚,生命複雜性讀書會發起人傅渥成,將進行第五期分享,介紹蛋白質摺疊結構的特點及蛋白質結構預測的難點,解析AlphaFold的技術框架及其對結構生物學的未來影響。
  • 蛋白質複合物結構解析
    因此解析生物大分子複合物的結構,了解成份之間的組裝方式/相互作用/識別和穩定機制等等,對增進生理或病理等過程的認識非常必要和關鍵。很多時候,一種蛋白質可以和多種蛋白質相互作用和結合。而蛋白質和蛋白質的相互作用界面(PPI)成為藥物靶標區域,越來越受到重視,學術界和藥企都關注活性位點的選擇性和特異性不夠帶來的問題,而深入研究活性位點之外的為蛋白質活性所需的重要的PPI區域,將對開發新型藥物具有很大促進作用。解析複合物的結構,闡釋和深刻認識PPI,開發阻斷PPI的化合物作為藥物也是一種新的思路。
  • 綜述 | DescribePROT:胺基酸水平蛋白質結構和功能預測資料庫
    VSL2B是內在障礙的快速且流行的預測因子,會生成內在疾病的數字傾向,並為蛋白質序列中的每個AA生成一個二進位標記,結合了較短的運行時間和較高的預測性能。VSL2B被評為CASP6中最佳的疾病預測指標,隨後在多項其他評估中被評為最好的方法之一。
  • 【生物化學筆記】蛋白質的結構與功能
    α—螺旋特點:以肽鍵平面為單位,α—C為轉軸,形成右手螺旋,每3.6個胺基酸殘基螺旋上升一圈,螺徑為0.54nm,維持α-螺旋的主要作用力是氫鍵15.舉例說明蛋白質結構與功能的關係①蛋白質的一級結構決定它的高級結構②以血紅蛋白為例說明蛋白質結構與功能的關係:鐮狀紅細胞性貧血患者血紅蛋白中有一個胺基酸殘基發生了改變。
  • 同步輻射中的蛋白質結構和功能研究
    蛋白質是生命活動主要的執行者,只有形成了正確的結構,蛋白質才能具有正確的功能。因此蛋白質的結構研究,不僅可以讓我們得以深入了解生物體內諸多生命過程的細節,更有助於重大疾病的預防和治療、新型高效藥物和疫苗的研發等。正是由於蛋白質結構研究在基礎科學和醫藥、疫苗研發中的重要作用,結構生物學獲得了蓬勃的發展。
  • 一文解決蛋白質家族分析及進化樹構建
    背 景  基因家族的分類是以其編碼的蛋白質結構、
  • 蛋白質的二級結構、超二級結構與模體(motif)
    蛋白質的二級結構是指肽鏈主鏈的空間走向(摺疊和盤繞方式),是有規則重複的構象。最常見的二級結構單元就是α-螺旋和β-摺疊,它們的各種組合決定了蛋白質的主體結構。β-轉角是一種小巧的二級結構單元,它使肽鏈形成大約180°的迴轉。