簡介
目前,一個上市的藥物平均需要花費20-30億美元,並且需要10年左右的研發時間。大部分經費都花費在了昂貴且耗時的溼實驗部分,初始Hits陽性率太低以及(臨床前)階段的高損耗率。使用基於結構的虛擬篩選,Hits質量隨著篩選化合物的數量而提高。儘管存在大量的化合物資料庫,但是缺乏有效的靈活的方式使用計算機集群進行大規模的SBDD的手段。本文介紹VirtualFlow,這是一個高度自動化的開源平臺,可以有效的準備化合物庫並進行超大規模的虛擬篩選。VirtualFlow能夠使用各種強大對接程序。本文準備了目前已知的最大的免費使用的配體庫,配體庫包含了超過14億個可商業購買的分子。VirtualFlow可以探索廣闊的化學空間,並可以準確的識別與目標蛋白具有高親和力的分子。
VirtualFlow的特徵
VirtualFlow可以在任何資源管理器上使用,例如:SLURM(https://slurm.schedmd.com),Moab / TORQUE(http://www.adaptivecomputing.com),PBS(http:// www.pbspro.org),LSF(https://www.ibm.com/us-zh/marketplace/hpc-workload-management)和SGE(http://gridscheduler.sourceforge.net)。VirtualFlow還可以理想地配置用於雲計算平臺,例如亞馬遜的Web服務(AWS),微軟的Azure和Google的雲平臺(GCP)。VirtualFlow能夠在流程中自主計算配體庫中的所有分子,該功能可通過自動提交批處理系統作業來實現,可以在運行時監視和控制流程。VirtualFlow程序包由兩個可無縫協作的應用程式組成:VFLP(用於配體準備的模塊)和VFVS(用於虛擬篩選的模塊)。配體準備和虛擬篩選的過程是分離的。
VirtualFlow在藥物發現過程中的應用
圖片來源 Nature
VFLP 模塊
VFLP通過將配體資料庫從SMILES格式轉換為任何所需的目標格式(例如,基於AutoDock的對接程序所需的PDBQT格式)。VFLP使用ChemAxon的JChem軟體包以及Open Babel來將處理配體分子,可以將配體分子進行脫鹽處理,中和處理,生成互變異構體,計算特定pH狀態下的配體質子化狀態,計算其三維坐標並將分子轉換成所需的格式。
市售化合物是化學領域中最令人感興趣的空間,因為這些化合物很容易購買。目前可用的最大供應商庫之一是Enamine的REAL庫,其中包含約14億個按需定製化合物。我們使用VFLP將REAL庫中約14億種化合物轉換為PDBQT格式,並使該庫可在VirtualFlow主頁上免費使用,可通過圖形界面進行訪問。整個資料庫具有六維屬性,每個維對應於化合物的物理化學性質(分子量,分配係數,氫鍵供體,受體的數量,可旋轉鍵的數量以及拓撲極性表面積)。
VFVS模塊
使用VFVS進行虛擬篩選,用戶需要指定一組對接方案。通過選擇對接程序,受體結構和對接參數(包括受體上的預定義對接表面,受體上柔性殘基)的嚴格性來定義對接方案對接例程。當前,VirtualFlow支持以下對接程序:AutoDock Vina,QuickVina ,Smina,AutoDockFR,QuickVina-W,VinaXB和Vina-Carb。由於VFVS支持各種不同的對接程序,可以重逢利用每個程序的獨特優勢。VFVS可以對每個配體執行多種對接方案,從而實現共對接以及集成對接。VirtualFlow還可以集成其他對接程序。VFVS還可以用於進行多階段的虛擬篩選,以用於提高篩選的質量。在多階段方案中,連續執行幾個虛擬篩選。從前一個階段前進到下一個階段中的化合物數量將依次減少。隨之而來的是對接精度和計算成本的增加。
多階段虛擬篩選的示意以及超大規模虛擬篩選的優勢
圖片來源 Nature
案例:VFVS 從13億個分子中虛擬篩選
為了驗證VFVS的性能,本文針對KEAP1靶點篩選了13億種市售化合物的虛擬文庫(ZINC 15資料庫中約3.3億種化合物11和Enamine REAL庫中的約10億種化合物)。這兩個庫之間存在一些重疊的化合物。這項工作使用異構Linux群集上的8,000個核,大約在4周內完成。
為了闡明超量規模虛擬篩選的優勢,本文從REAL庫的約10億個化合物篩選中隨機選擇了不同規模的配體子集(0.1、1、10和1億個化合物)。隨著虛擬篩選規模的增加,對接後的平均得分也在增加,從而提高了篩選出具有更高結合親和力的分子的機率。這會導致更高的真實命中率和實驗結合親和力,這是由本文計算出的概率模型所預測所得,並且已經通過實驗證明了這一點。
為了演示多階段虛擬篩選,本文將初次篩選中獲得的排名前300萬化合物進行rescore。在第2階段,允許KEAP1與NRF2相互作用界面的的13個殘基具有柔性。這種柔性設置可以解釋胺基酸在蛋白結合界面上的動力學。在rescoring過程中,本文使用了兩個不同的對接程序(Smina Vinardo和AutoDock Vina),並進行了兩次重複,以進一步增加對接過程中採樣的構象空間。多階段篩選取決於選定的靶標和可用的計算資源。
兩個Hits(iKeap1和iKeap2)的對接Pose和實驗驗證
圖片來源 Nature
手把手教您搭建virtual-flow
復現步驟
官網:https://virtual-flow.org/
1. 下載VFVS的算例
算例地址:https://virtual-flow.org/sites/virtual-flow.org/files/tutorials/VFVS_GK.tar
百度雲地址:連結: https://pan.baidu.com/s/1X0Ge3pcM3K_rYN-0h9Dqyw 密碼: s6q5
解壓:tar -xvf VFVS_GK.tar
解壓之後的文件
2. 進入input
README.md
Readme
smina_rigid_receptor1:配置文件信息
ligand-library 配體文件庫
receptor 受體文件:內部為pdbqt格式
qvina02_rigid_receptor1 :配置文件信息
receptors
3. 進入tools文件
進入templates文件夾
配置文件信息都儲存在all.crtl , todo.all中
todo.all中主要儲存的是配體信息,按照下面的提示,等於cellections.txt中信息
如果你想要自己下載
a:下載配體文件庫:
網站:https://virtual-flow.org/real-library
打開網站後,可以選擇部分配體,也可以選擇整個庫下載,拖動圖中紫色小球進行選擇,本文選擇的配體庫如下圖,點擊Download,兩個全部點擊下載,本次選擇wget
b:下載後的文件:
兩個文件tranches.sh(第一個download),collections.txt(第二個download)
c:在終端下運行tranches,會下載一系列的文件
指令:sh tranches.sh/source tranches.sh
配體文件
collections.txt
信息:
4. all.crtl中修改配置信息
其中信息配置信息很多
這裡挑幾個重點講:
文件中有標註,我這裡就直接按照思維導圖的方式標記出來了
備註:選擇集群調度指令,對接軟體可以使用多個中間要以『:』號分割
5. 運行全部設置好了之後運行
進入tools文件夾
運行:./vf_start_jobline.sh 1 12 templates/template1.slurm.sh submit 1
其中12代表著12個節點
6. 運行完成之後可以使用以下指令查看前10化合物
./vf_report.sh -c vs -d qvina02_rigid_receptor1 -n 10
7. 運行完成之後進行的分析
7.1從github上下載VFtools
下載:wget https://github.com/VirtualFlow/VFTools/archive/master.tar.gz
解壓:tar -xvzf master.tar.gz
重命名:mv VFTools-master VFTools
VFTools中的文件:
將bin文件夾加入到環境路徑中:
命令:export PATH=&34;
註:這只是一個臨時變量,儘可能修改bashrc文件,並加入上面的命令
7.2安裝openbabel
提供兩種安裝方式
a:使用conda
conda install openbabel -c conda-forge
b:直接從原網下載並進行安裝
http://openbabel.org/wiki/Main_Page
7.3 首先將篩選完成的化合物進行排名
cd <VFVS root directory>
新建pp/ranking
cd pp/ranking
排序
輸出文件/文件夾:
直接查看clean為後綴的文件:
head -10 *.clean
7.4 提取排名前列的化合物pose
在pp文件夾中新建docking_poses文件夾
mkdir -p docking_poses/qvina02_rigid_receptor1
cd docking_poses/qvina02_rigid_receptor1
查看前100化合物,重定向為compounds
head -n 100 ../../ranking/qvina02_rigid_receptor1/firstposes.all.minindex.sorted.clean > compounds
然後,提取前100個化合物的結構
vfvs_pp_prepare_dockingposes.sh ../../../output-files/complete/qvina02_rigid_receptor1/results/ meta_collection compounds dockingsposes overwrite
docking_poses中的文件以及文件夾:
直接進入dockingsposes.plain文件夾中
cd dockingsposes.plain
文件夾內容裡面就是每個ligand排名第一的pose:
Pymol打開:
將pdb文件作為文本文件打開:
pdbqt格式,排名第一的model,對接得分為-8.3.有smiles格式以及一些標註,後續還有坐標格式
參考文獻
Gorgulla, C., Boeszoermenyi, A., Wang, Z. et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature 580, 663–668 (2020).
中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載