原始碼 從GeneCards資料庫批量抓取基因組織特異性信息

2020-12-04 生信小羅羅

對於基因的研究現在已經如火如荼的進行中,很多資料庫都涉及到豐富的基因相關注釋信息,例如基因功能,基因互作,基因相關疾病,基因相關的藥物,基因序列,結構信息等等。

然而設計到基因組織分布的信息卻非常缺乏。基因的組織特異性信息雖然用途不如上述信息廣泛,但是在特定情況下可以發揮重要的作用。

例如我們預測某一基因為藥物靶點,儘管預測模型中基因和藥物有很強的相關性,也確實可以證明基因參與了某一疾病的發生或治療過程,但是如果基因的分布組織是藥物無法到達的。

如腦組織血腦屏障。因此識別基因的組織特異性信息是對於基因,藥物等研究非常有價值的信息。

GeneCards是為數不多的記錄了基因組織分布的資料庫,但是由於GeneCards同時還是收錄了其他信息,導致信息檢索過程繁瑣冗長,因此今天我們介紹給大家一種基於Python網頁抓取的方法,從GeneCards資料庫抓取基因的組織特異性信息。

GeneCards主頁

http://www.genecards.org/

上圖為GeneCards主頁,我們以TP53為例,在檢索詞中輸入TP53,點擊search,進入下面界面。

如圖上面紅框位置為URL地址,地址後面有一個字符串為TP53,說明我們只要將檢索詞加在後面就可以跳轉到這個頁面。下面紅框內為匹配的基因。我們點擊第一個檢索到的匹配項TP53.

之後進入上面的頁面,也是我們最終想要得到的target目標頁面。看上面的地址欄,有一串藍色選中的字符串,我們似乎沒有見過。

但是和上一級類似的情況,只要我們找到這個字符串,就可以跳轉到target URL頁面,那麼問題來了,我們如何獲得這個字符串呢?那麼我們就到上一級的原始碼中找找看。

如圖,我們找到了這個字符串,原來它是一個變量,真實值是originalQueryHash。

接下來我們就可以在target頁面找我們的終極目標了,就是組織特異性信息,如上面紅框所示。

同樣的,對於上面每一個組織名稱,我們都到原始碼中尋找對應的位置,發現他們的結構比較統一,可以用正則表達式抓取。

所以從主界面一步一步進入最後的target頁面,獲得組織信息,整個過程還是比較順利的,那麼下面我們就介紹一下如何通過Python腳本自動化實現上面的全過程。

Python下實現上述過程全自動化的網頁抓取代碼如下

運行結果

通過簡單的文本處理,在代碼中加一個循環就可以實現批量檢索的目的了。

1、RCT的Meta分析:文獻檢索-質量評價-統計分析-RevMan/Stata/R

https://ke.qq.com/course/89244#term_id=100088703

2、RCT的Meta分析(文獻檢索-質量評價-統計分析-Stata)

https://ke.qq.com/course/89362#term_id=100088872

3、RCT的Meta分析(文獻檢索-質量評價-統計分析-R)

https://ke.qq.com/course/89364#term_id=100088874

4、RCT的Meta分析(文獻檢索-質量評價-統計分析-RevMan)

https://ke.qq.com/course/89360#term_id=100088870

相關焦點

  • Genecards 資料庫你不為人知的一面
    對於每天暢遊在基因海洋中的碩博來說,genecards資料庫一定再熟悉不過了,但再熟悉的人,也有其不為人知的一面。
  • 包教包會,表觀必備技能之Genecards查看基因信息
    這時候可以從基因的信息著手,通過基因的定位、功能、參與的通路等信息判斷是否關鍵基因。今天給大家介紹可以查看基因信息的資料庫-Genecards。Genecards(https://www.genecards.org/)是一個人類基因的綜合型資料庫,匯總了網絡上約150個相關的基因資料庫資源(包括基因組,轉錄組學,蛋白質組學,遺傳學,臨床和功能信息等)。
  • 傻瓜式圖文教程:Genecards基因信息檢索與分析、基因結構圖繪製......
    要研究基因功能,首當其衝的就是要全方位了解基因信息,如基因與表型間的聯繫、基因互作蛋白分子、信號通路、臨床意義等。
  • TiED:人類組織特異性增強子資料庫
    對於增強子區域,提供了以下幾種注釋信息SNP位點注釋提供了增強子區域內存在的SNP位點的注釋轉錄因子注釋對潛在的調控增強子的轉錄因子進行注釋靶基因注釋將增強子上下遊100kb範圍內的蛋白基因定義為該增強子可能的靶基因靶基因組織特異性注釋根據GTEx項目提供的基因表達量信息,分析增強子的靶基因在下圖所示的
  • 除了Genecards,還有哪些網站可以讓你深入了解一個基因?
    ,需要深入了解一下它的功能、定位、調節機制等等,但是即便是最為全面的Genecards網站,也不能覆蓋到方方面面,這就需要我們綜合多個網站的結果進行了解。2、Genehopper網址:http://genehopper.ifis.cs.tu-bs.de/
  • 如何快速了解一個人體基因的所有信息 (一)
    在進行基因相關研究的時候,我們經常需要查詢了解基因的相關功能,才能知道我們要往哪裡進行下一步研究。對於基因功能的查詢,我們介紹過ncbi的gene資料庫,同樣的之前的gene id轉換的時候我們也提到過,關於基因信息的匯總除了gene資料庫還有ensembl、uniprot等等很多資料庫,各個資料庫都提供了不同的基因信息。我們在查詢的時候,總不能說把各個資料庫都查詢一遍吧?
  • 單細胞轉錄組得到的基因集如何看生存效果呢?(不妨試試看GSVA)
    使用單細胞多組學探索TNBC病人的新輔助化療療效根據作者的單細胞研究,找到了化療耐藥相關通路, The gene signatures associated with chemore- sistance included EMT, CDH1 targets, AKT1 signaling, hypoxia, angiogenesis, and ECM degradation
  • 使用BioNumerics軟體批量下載NCBI中基因序列
    使用BioNumerics軟體批量下載NCBI中基因序列大家可能曾經都被如何批量下載NCBI中的數據所困擾,在NCBI的網站上苦苦搜尋,但是無從下手。本文將介紹如何通過BioNumerics軟體實現基因序列的批量下載。
  • 常用生物資料庫大合集
    /UCSC:http://genome.ucsc.edu/ (基因組瀏覽器)Ensembl : http://asia.ensembl.org/index.htmlGenecards : https://www.genecards.org/BioGPS : http://biogps.org/#goto=welcome 大型綜合資料庫
  • Development cell:應用CRISPR-Cas9實現斑馬魚組織特異性基因敲除
    2015年3月26日訊 /生物谷BIOON/ --近日,來自美國哈佛大學的研究人員在國際學術期刊Development cell發表了他們的最新研究進展,他們利用基於CRISPR-Cas9技術開發的載體系統在斑馬魚上實現了組織特異性基因敲除
  • 【收藏】生物資料庫大合集
    /UCSC:http://genome.ucsc.edu/ (基因組瀏覽器)Ensembl : http://asia.ensembl.org/index.htmlGenecards : https://www.genecards.org/BioGPS : http://biogps.org/#goto=welcome 大型綜合資料庫
  • R批量下載B細胞和T細胞受體VDJ序列文件
    今天給大家介紹一個做免疫組庫數據分析很實用的資料庫IMGT,以及如何使用R從IMGT批量下載B細胞和T細胞受體VDJ序列文件。一、IMGT簡介    IMGT (http://www.imgt.org/)是免疫遺傳學(ImMunoGeneTics)的縮寫,專注於所有脊椎動物物種的免疫球蛋白、T細胞受體(T-cell Receptors,TCR)和主要組織相容性複合體(major histocompatibility complex,MHC)的整合資料庫。
  • 為什麼一個基因可以既是lncRNA又是protein_coding
    \"/;print "$3\t$2\t$1\t$F[0]\t$F[3]\t$F[4]"}' \> ENSEMBL_v36_human_gene_info得到了兩個基因信息文件, 簡單的shell命令串起來統計一下,就知道 HAVANA和 ENSEMB 的區別了:
  • 生物資料庫大合集還不趕快收藏起來!!!!
    /UCSC:http://genome.ucsc.edu/ (基因組瀏覽器)Ensembl : http://asia.ensembl.org/index.htmlGenecards : https://www.genecards.org/BioGPS : http://biogps.org/#goto=welcome 大型綜合資料庫
  • 基因信息查詢網址,一個就夠!
    如果我們要了解一個基因的基本信息要去看什麼呢?如果要看基因的序列,我們可以去NCBI,UCSC和ENsembl,如果要看這個基因的蛋白功能,那可以去uniprot,那麼有沒有一個網站把這些其他好的網站的信息匯總到一起的呢?
  • Science:揭示人體組織中細胞類型特異性QTL
    2020年9月20日訊/生物谷BIOON/---GTEx聯盟和其他研究機構在人類組織中繪製數量性狀基因座(QTL)的工作已經確定了大多數基因的表達QTL(eQTL)和剪接QTL(sQTL)。然而,這些研究主要是通過測量大塊組織(bulk tissue)樣本的基因表達來進行的,從而掩蓋了基因調控效應的細胞特異性,進而限制了它們的功能解釋。
  • 研究揭示不同人體組織中基因表達的細胞類型特異性遺傳調控
    研究揭示不同人體組織中基因表達的細胞類型特異性遺傳調控 作者:小柯機器人 發布時間:2020/9/14 13:42:31 美國哥倫比亞大學Tuuli Lappalainen、Sarah Kim-Hellmuth等研究人員合作揭示不同人體組織中基因表達的細胞類型特異性遺傳調控
  • EAN-13商品條碼的申請與批量生成
    EAN-13商品條碼是全球通用,商品條碼一般由前綴碼,廠商識別代碼以及產品項目代碼和校驗位組成。前綴碼是由國際物品編碼協會分配,我國商品條碼的前綴碼為690-699;製造廠商代碼由所在國家或地區編碼組織分配;產品項目代碼由企業自行分配;校驗位有標準算法計算得出。
  • 關於基因ID的二三事
    對於很多對基因進行記錄的資料庫而言,為了他們自己資料庫記錄的方便,對於每個基因都會進行自己資料庫的唯一編號,這樣就導致了一個基因形成了很多不同的編號(ID)。例如下圖就是一個基因多個資料庫的不同ID號。
  • 融合基因資料庫大全
    在進行融合基因的分析時,我們會想要知道哪些融合基因是別人已經發現並證實過的,對應的疾病等信息,藉助已有的融合基因的資料庫可以實現,常用的資料庫有以下幾個1.