其實妨礙大家進行生物信息學學習的一個比較關鍵的地方就是編程了。生物信息學是大數據科學,這就要求必須具備一定的編程思想,會採用電腦程式從龐大數據中挖掘有效信息。這就要求我們會基礎編程,並且更重要的需要我們精通的是會安裝和使用生物信息學軟體。
首先計算機編程這一塊有時候也是比較重要,畢竟不能手工進行處理龐大的數據吧。其實編程這一塊主要是為了結果過濾,畢竟軟體出來的往往並不能滿足自己想要的結果,這就需要對軟體出來數據進一步深挖過濾,拿到真正對自己有用的數據。
編程這一塊有人推薦學perl,有人推薦Python,無所謂了,關鍵看你周圍的人用什麼編程,方便在遇到問題時能夠及時的解決。
編程雖重要,但小編認為對於初學者軟體使用更重要。
大家都是生物狗,軟體一些參數用法結合一下生物學意義相對來說容易理解,但是可能對大家比較困難的是軟體用之前的工作--軟體安裝。
由於不同的軟體需要的依賴(包括種類和版本)不同或者使用的是公用計算機集群你根本無權限安裝,導致軟體安裝不成功。
稀奇古怪的報錯信息,對於生物狗們真好似一頭霧水!好不容易有個好軟體但是不能用!所以大家需要掌握一些軟體安裝的技巧與方法。
本處主要講你沒有權限安裝方法,即安裝到自己目錄下面方法(有權限安裝通用)
我們運行一些Perl程序時經常出現找不到某個module。對於這種報錯,缺哪一個就下載哪一個或者看看軟體包有沒有此模塊直接給路徑添加即可。
首先下載所需要的模塊,像本處為Keith module,這樣我們谷歌或者CPAN((http://search.cpan.org/))上下載Keith.pm即可。
運行命令:
perl Bin/trf_wrapper.pl
報錯信息:
Can't locate Keith.pm in @INC (you may need to install the Keith module)
(@INCcontains: /share/nas2/genome/biosoft/perl/current/lib//5.20.0/x86_64-linux-thread-multi/share/nas2/genome/biosoft/perl/current/lib//5.20.0/share/nas2/genome/biosoft/perl/current/lib/)
at Bin/trf_wrapper.pl line 13.
BEGIN failed--compilation aborted at Bin/trf_wrapper.pl line 13.
解決方案:
只需要在trf_wrapper.pl中調用的Keith模塊(use Keith;)之前加入下面黃色部分即可,其中PATH為模塊Keith.pm所在的目錄。
BEGIN{
push (@INC,"PATH/");
}
use Keith;
我們運行一些R語言程序時經常出現找不到某個package。對於這種報錯,缺哪一個就下載哪一個。
首先下載所需要的package,像本處為ggplot2,這樣我們谷歌或者bioconductor(http://www.bioconductor.org/)或者CRAN(https://cran.r-project.org/)上下載ggplot2即可。
運行命令:
Rscript heatmapV2.R
報錯信息:
Error in library(ggplot2) : there is no package called 'ggplot2'
解決方案:
下載到ggplot2_2.2.1.tar.gz,然後用下面命令(針對無管理員權限,安裝自己目錄下)安裝即可。
R CMD INSTALL ggplot2_2.2.1.tar.gz
注意安裝log:
installing to /home/xxx/R/x86_64-unknown-linux-gnu-library/3.1/ggplot2_2.2.1 /libs
安裝完成後添加環境變量:
export LD_LIBRARY_PATH=/share/nas2/genome/biosoft/hdf5/1.8.9/lib/:$LD_LIBRARY_PATH
注意使用的python版本,Python2與Python3差別較大,因此安裝時注意python版本。
運行命令:
/Python/3.5.2/bin/python suppa.py
報錯信息:
Traceback (most recent call last):
File "suppa.py", line 9, in <module>
import fileMerger as joinFiles
File "/share/nas1/SUPPA-master/fileMerger.py", line 11, in <module>
import pandas as pd
ImportError: No module named 'pandas'
解決方案:
找到對應版本的pandas下載即可,文件格式一般為後綴名為.tar.gz:
pandas-0.20.1.tar.gz
安裝步驟:
tar zxvf pandas-0.20.1.tar.gz
cd pandas-0.20.1
python setup.py install --user
安裝完成後注意在.bashrc中添加環境變量,
PYTHON_PATH=/home/xxx/.local/lib/python3.5/site-packages/:$PYTHON_PATH
無root權限的linux系統上安裝軟體時候遇到的lib××× not found的問題.
1. 安裝軟體到自己的軟體目錄。
缺乏的lib×××庫大多都能在網上下載到源碼,可自己下載安裝。下圖是我在伺服器上的目錄結構,軟體都安裝在~/local/app裡面,在~/local/bin裡面分別建立軟連結指向所安裝軟體的可執行文件;如果該軟體裡面的可執行文件太多,方便的做法是講其所在目錄加入到環境變量$PATH中。
2. 設置環境變量
有的軟體安裝後只生成可執行文件,有的則產生一些庫文件和頭文件,則需要將其添加到相應環境變量中;share目錄等可忽略。如下所示
注意:等號前面不要有空格。本例中,~/local/app/libevent/lib中包含了動態和靜態連結庫,不確定編譯器類型,故加入到gcc和g++頭文件搜索目錄中。
參考:環境變量部分參考自:
http://hi.baidu.com/irainfish/item/35b054d8a3faa61dd78ed090
2017-06-25 生物信息學之初學者(一)
2017-07-10 生物信息學之初學者(二)
2017-07-29 如何不做實驗發IF 5分的文章
2017-08-08 生物信息學之初學者(三)
作者簡介:生信人團隊:成立於14年6月份。主要業務為生信技術服務和分析,軟體開發,平臺構建,目前已與幾十家單位建立合作關係。團隊主創人員均為一線科研工作者,策劃的生信人網站集結了一批有著生信經驗的技術人員,致力於打造新型的科研服務模式,以技術服務為基礎,以技術培訓和資料庫平臺開發為優勢,專注服務醫學科研用戶,為科研工作保駕護航。微信公眾號: 生信人。
來源 | 生信人團隊授權發布
供稿 | 學術咖編輯部
編輯 | 小咖咖