文獻解讀︱單靠數據挖掘做生信分析也能發6分SCI(免費領取軟體大...

2021-01-10 網易

  大家好!今天小編分享一篇2020年12月發表在《Computational and Structural Biotechnology Journal》(IF=6.018,中科院二區期刊)上的一篇文章,題為「Transcriptomicsignatures and repurposing drugs for COVID-19 patients: findings ofbioinformatics analyses」。作者基於GEO資料庫,採用轉錄組分析系統地解析了SARS-CoV-2對人肺組織和血液相關基因表達地影響和COVID-19感染地致病機制,並結合藥物再利用技術識別可藥性靶標,從而指導COVID-19治療藥物的開發。

  

  https://doi.org/10.1016/j.csbj.2020.11.056

  研究背景

  新型冠狀病毒肺炎COVID-19,現已證實是由2019新型冠狀病毒SARS-CoV-2感染引起的急性呼吸道傳染病。SARS-CoV-2的傳播力和感染力很強,目前仍未開發有效的治療藥物。

  

  全球製藥業都在面臨多方面挑戰,一些臨床領域將新藥推出市場的時間成本增加以及監管要求的變化,這項都在無形中增加了成本。以往的舊藥新用,多數靠醫生在臨床實踐的偶然發現,隨著更多新技術和新方法的應用,舊藥新用逐漸告別「靠天吃飯」的尷尬處境。幸運地,隨之生命科學高通量技術、生物信息學技術、計算機的數據分析和處理能力的飛速發展,研究人員對人體各個系統的分析和認識能力達到了前所未有的高精度,現代系統分析方法又進一步細分到計算方法和實驗方法,這使之成為藥物再利用指導下的高效工具,因為藥物再利用涉及使用」去風險「化合物,這可能降低總體開發成本和縮短開發時間。

  研究目的和意義

  雖然當今全球醫學界都在開展大型臨床試驗,評估現有藥物是否有效地治療COVID-19住院病人,但是目前學術界缺乏一套基於大數據分析針對藥物再利用(drug repurposing)的系統分析方法,所以這篇文章旨在系統地評估SARS-CoV-2對COVID-19患者肺組織和外周血單核細胞(PBMC)樣本基因表達的影響,通過差異表達基因分析確定與新冠病毒感染相關的重要通路,再應用WGCNA分析方法進一步確定與新冠肺炎患者的臨床特徵呈高相關性的基因模塊,最後採取三種先進手段預測潛在治療藥物。總而言之,這篇文章利用生信分析方法結合藥物再利用技術,發現出一些潛在可行的COVID-19治療藥物。

  研究思路

  

  

  

  研究結果

  

  

  01

  COVID-19患者肺組織的基因特徵

  作者首先基於GEO資料庫的RNAseq的轉錄組分析數據篩選差異表達基因DEGs。為了提高研究的效率,在這些候選的DEGs裡,作者共分析了1052個基因,其中537個上調DEGs和515個下調DEGs(FDR<0.05和|Log2 (FC) | > 1)。隨後作者對COVID-19感染的差異表達基因進行了通路富集分析結果。為了進一步確定受COVID-19感染影響的基因,作者用GSEA方法和MSigDB資料庫的數據集分析其基因表達譜。

  

  

  02

  COVID-19 外周血單核細胞樣本的基因特徵

  為了避免中間出現的數據偏差,作者從健康供體和新冠患者的PBMC樣本中的RNA測序數據進行分析,作者鑑定出了2145個DEGs,其中1111個DEGs為表達上調和1034個DEGs為表達下調。接著作者對這些DEGs進行了富集分析結果,從而揭示感染COVID-19後的發病機理。

  

  

  03

  WGCNA鑑定與COVID-19相關的基因模塊

  WGCNA方法至今已在臨床醫學上被廣泛採用,以識別出患者出現的臨床特徵相關的基因模塊。在鑑定基因模塊前,作者對健康供體和COVID-19患者的全血RNA轉錄組數據用GSEA進行質量評估。隨後,作者應用WGCNA方法用病人的臨床特徵轉錄組分析。為了提高研究的效率,作者通過加權係數矩陣的聚類分析方法將基因分配到5個模塊中,將未分配的基因歸為灰色模塊。然後將模塊的特徵基因與相關聯的患者臨床特徵進行計算模塊-特徵關係。再通過加權分析對每個模塊中的Hub基因進行分析,熱圖分別顯示了健康供體和患者兩個模塊中Hub基因的表達情況。之後作者對這兩個模塊的30個hub基因構建PPI網絡。

  

  04

  GSEA方法預測COVID-19潛在治療藥物

  由於目前尚無有效藥物治療COVID-19,所以作者利用drugBank中5825種藥物的靶向基因集,分析藥物靶向基因與COVID-19基因特徵的相似性,預測潛在治療藥物。以藥物靶點作為內參基因集,在WebGestalt webserver使用GSEA方法對GSE147507、CRA002390和E-MTAB-8871的三個基因特徵進行處理和分析。

  

  05

  用CREEDS識別出可誘導COVID-19基因特徵相互改變的藥物

  因為WebGestalt網絡伺服器只能分析到藥物靶點和COVID-19標記基因的相似結果,但是並不能知道這些藥物是否逆轉COVID-19標記基因。所以他們再用CREEDS網絡伺服器從6100種藥物中鑑定出了可誘使COVID-19標記基因相互改變的藥物。作者自主構建了一條公式評價藥物對COVID-19基因特徵的逆轉效果,隨後把識別出來的藥物用一個帶有整數的雅卡爾係數進行排列,係數低表明藥物跟COVID-19基因特徵具有良好的逆轉效果。

  關於計算逆轉效果的公式如下:

  其中,NESdn和Pdn代表了COVID-19基因特徵裡的表達下調基因的NES和P值,而NESup和Pup代表COVID-19基因特徵裡表達上調基因的NES值和P值。

  

  06

  驗證潛在藥物對COVID-19基因特徵的作用

  為了進一步確認潛在藥物的逆轉效果,作者分析了藥物的轉錄組分析數據,並用GSEA方法進行驗證。GSEA結果的兩張圖顯示了與COVID-19基因特徵相關的每種藥物的NES值和P值。然後也用了通路富集分析方法驗證了潛在藥物對COVID-19影響的信號通路的作用。

  

  總結四點作者的研究思路

  1、系統地評估SARS-CoV-2對COVID-19患者肺和PBMC樣本裡基因表達的影響。

  2、通過基因差異表達分析發現了一些與感染COVID-19有關的關鍵通路。

  3、通過WGCNA分析和聚類分析方法明確了與COVID-19患者臨床特徵相關聯的基因模塊。

  4、通過GSEA分析方法,利用WebGestalt和CREEDS這兩個webservers預測潛在治療藥物。

  這篇文章為什麼最終能發表在6分期刊呢?

  我們先看看這本期刊《Computational and Structural Biotechnology Journal》的錄稿原則,這本期刊著重刊登那種通過基因組學、代謝組學、生信的算法等方法研究生物過程中分子功能機制的文章。這篇文章是基因轉錄組學和生信方向的,所以適合投稿在這本期刊。

  我們再看看摘要,作者首先開門見山,簡明扼要地陳述了本文的研究目的和意義,即採用轉錄組分析系統地解析了SARS-CoV-2對人肺組織和血液相關基因表達的影響和COVID-19感染的致病機制,並結合藥物再利用技術識別可藥性靶標,從而指導COVID-19的藥物療法開發。而且列出了文章最具代表性的結果:1、差異表達基因分析方法COVID-19感染後能引發一系列IFN因子的釋放及關鍵信號通路;2、WGCNA方法揭示與COVID-19病人臨床特徵相關的2個基因模塊,進一步了解COVID-19的發病機制;3、藥物再利用方法對成千上萬現存藥物進行分析,發現了有兩種藥物對COVID-19的基因特徵具有明顯的逆轉反應。在引言部分,這篇文章的作者首先以COVID-19的流行病學作為背景知識,說出治療藥物研發的迫切性,然後作者指出了目前研究存在的不足(仍缺乏基於大數據分析針對藥物再利用的系統分析方法),然後作者自己針對這個短板設計出一套全新研究方法,以解決當今遇到的問題。最後就帶出作者自己的研究問題、研究目的。在方法部分,作者很全面地詳細闡述了數據挖掘、DEG鑑定、PPI構建等方法,並清晰地描述了涉及研究的所有數據來源、數據分析所使用的軟體或工具,包括火山圖在內的數據圖用ggplot2包和pheatmap包繪製。比如作者用GSEA方法分析藥物多大程度受COVID-19感染影響,之後為了評價藥物的作用,自主構建了一條數學公式。

  這篇文章的選題較為新穎,有臨床意義的,圍繞全球爆發且肆虐中的新冠病毒開展研究,作者了解到目前仍缺乏有效的治療藥物,而且循主流藥物研發程序的確需要耗上幾年甚至十幾年時間。所以作者利用轉錄組分析數據和生信分析結合藥物再利用的技術從現有藥物名列中找出潛在可治療藥物。

  寫在最後

  這篇文章在不加任何實驗的情況下,只靠數據挖掘、R包,從差異表達基因篩選和鑑定、構建PPI到最後的預測分子藥物都運用了多個資料庫,公共資料庫的運用是貫穿全文的,更加體現出在生物信息學上數據挖掘在探索疾病發病分子機制和藥物篩選上的重要性。

  希望我們分享的文章能幫助你發表更多SCI論文。如果你有疑問,歡迎在下面評論區留言。

  以上資料圖片素材均來自文獻

  

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • SEER數據挖掘4.8分SCI發文思路
    或者不做生信數據挖掘的,可以嘗試一下別的發文思路,例如挖掘SEER資料庫的臨床數據進行發表SCI。本次分享的範文發表在FRONT ONCOL上,影響因子:4.848,中科院分區:2區。研究方法:從2010年到2015年,從SEER資料庫中分析了6,860名被診斷患有初始骨轉移的乳腺癌患者。採用單因素Cox和多因素Cox分析來確定預後因素。根據從Cox回歸結果中選擇的因素進行列線圖。根據不同的亞型,轉移負擔和通過列線圖區分的風險組繪製生存曲線。
  • 單細胞數據挖掘與課題設計實戰課程
    零基礎如何介入單細胞測序領域並快速發文章; 首先,單細胞測序高昂的實驗成本及分析成本阻礙了大部分課題組的步伐。一例樣本的實驗加測序成本約3萬,測6例樣本加分析、驗證、投稿等費用基本超過25萬,然而靠堆積樣本量發高分文章的路子已經不適用,巧妙的課題設計,成熟的數據分析將成為決定文章上限的主要門檻。
  • 【科研工具】免費論文查重軟體——附下載地址
    ,點右鍵「修改選中」,在雲修改的4種方式中自由選擇一種)6,主要是,全部功能完全免費!!!使用方法:1、粘貼文章或者點擊讀WORD文檔,或者直接拖動WORD文檔到軟體窗口中,會自動解析;點擊「分析文檔」,將文章按照語句進行切割,方便搜索;點擊「進行對比」,將切割的語句用百度進行搜索,然後返回搜索結果進行分析。
  • 文獻精讀:結合生信數據,挖掘外泌體研究套路
    今天跟大家解讀一篇外泌體相關的文獻,這篇文章同樣綜合了多個熱點,包括幹細胞、外泌體、小分子 RNA 和生信分析,是一篇非常適合學習的參考文獻。生信數據挖掘發現 ADAM9 是 miR-126-3p 的靶基因  主要是分析了 GEO 資料庫中的胰腺癌基因表達譜,做了韋恩圖,用 R 軟體 limma 包分析得到了 GEO 樣本共有的差異表達基因 ADAM9, 然後通過 5 個 miRNA 靶基因預測網站(TargetScan , miRSearch, miRTarBase, miRWalk ,mirDIP;這幾個網站的網址文中都作了註明
  • 為什麼有的人SCI論文比別人多?
    論文大數據專題和美國基金專題,找到最有影響力學者、最重要研究,和美國資助熱點;助您找到好導師/合作夥伴,選好課題及保持創新。基金申請專題,分享如何申請和完成基金,助您形成良性循環。、TCGA/GEO數據分析,擴增子/宏基因組,批次校正/WGCNA/GSEA等特色分析。
  • 利用這個套路,環狀RNA輕鬆發4.5分SCI
    購買VIP會員可以免費學習所有課程,一次性付費,永久有效~SCI狂人團隊VIP會員看完這篇文章,
  • (1210)全網最全中文protocol免費領取,實驗一網打盡!
    所以,我們今天給同學們免費分享實驗外包公司的:「全網最全中文protocol」。原價899元的,現在免費哦,免費領取在文末↓↓↓↓。【DNA技術】(1111免費)文獻閱讀一鍵免費翻譯神器,趕快領取!(1110免費)最新全套生信挖掘實操視頻課程(11091免費)手把手教你精讀文獻全套視頻課程!
  • 免費領取 | 單細胞轉錄組測序,市面罕見的單細胞技術書籍
    文章的主要內容只有這些:細胞培養、單細胞製備、單細胞測序、質量控制、技術驗證,而且只獲得了單細胞測序數據就結束了沒錯,這篇只提交了實驗數據的文章,竟然還發了5分?!!據統計,單細胞測序相關文章的單月平均影響因子達到了20.4!由此可見其影響之大,而單細胞轉錄組測序的文章已經發表很多了,現在再不應用就趕不上熱度了! 為響應熱潮,滿足同學們的需求,解螺旋和聯川生物一起給大家送出這本《單細胞轉錄組測序》實體書。
  • 「oncomine」——如何在大數據時代挖掘腫瘤數據
    「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。起始level 1 指的是原始數據;level 2指的是處理過的數據:經過標準化後的單樣本數據或對存在或者不存在特定分子異常的解釋;level 3指的是經過分割、解釋的數據:來自單個樣本的經過處理的數據的匯集;level 4 指的是感興趣的區域:基於兩個或多個數據的關聯,包含分子異常,樣本特徵,臨床變量。換句話說,也就是數據的權限,level 越高,數據可及性越低。
  • 值得關注的12大開源大數據分析應用軟體
    對於許多大企業來說,開源大數據分析已經成為日常業務中一個必不可少的組成部分。據New Vantage Partners公司對《財富》1000強公司的高層主管開展的調查顯示,如今62.5%的企業在生產環境中至少運行一種大數據工具或應用軟體。
  • 2020畢業論文查重大禮包送給你。(內含無限次免費查重、降重軟體)
    除了8000到20000的字數要求完成一篇畢業論文,要依次經歷確定論文選題,提交開題報告查閱行業文獻,篩選可用數據羅列論文大綱,填充論文內容在線查重修改,規範論文排版開題報告文獻數據規範排版降低重複率答辯PPT模板我們根據同學們的在網絡上的呼聲,在經過細緻篩選後整理出來一套畢業論文大禮包,隨便打開一份都乾貨滿滿從開頭到結束
  • 數據分析基礎內容介紹 — 模型、工具、統計、挖掘與展現
    第四層是Data Mining數據挖掘層,數據挖掘與數據分析(統計分析)有什麼區別呢,數據分析往往是統計量和算法比較清楚,數據挖掘往往是目標不是很清楚,在實現目標的過程中採用什麼方法不能確定,所以數據挖掘比數據分析難度要高很多。
  • 知雲文獻3.0版本新增了中譯英引擎,翻譯質量也相當了得,它不止能打開pdf,還能打開word文檔,真是太好用了,不敢獨享
    首先看一張圖吧,下圖就是軟體界面,軟體叫知雲文獻翻譯。最開始我以為是知網出品的。後來我發現不是。但是咱們作為用戶,管它誰出品的,只要好用我們就買帳,而且還是免費的,沒有理由拒絕的。這也是軟體的一個很實用的功能,同一篇文獻拆分出兩個視圖閱讀,因為有時候文字中出現某個圖介紹的文字是在比如第3頁,而圖片卻在第4頁,如果每次跳轉過去查看不如擺在一起對照著閱讀那麼好的效果。在臺式機上閱讀時(由於臺式機屏幕大),我習慣將一篇文獻縱向拆分成兩個視圖閱讀文獻(下圖是水平拆分)。
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • 數據不夠?生信分析幫你湊!學會深度挖掘快速發文章
    這個時候需要的是生信分析——深度的數據挖掘和分析處理,可以幫助臨床醫生不耗費大量的時間通過實驗攢數據,而是通過數據處理得到自己想要的信息,更快速地發文章。 學習哪種生信分析的工具?
  • 一招教你如何快速免費閱讀SCI文獻
    當我們在日常的研究實驗和論文寫作中,要大量閱讀相關文獻,而其中最有價值的當屬SCI期刊,然而知網中很少收錄外文文獻,要想獲取SCI文獻,一般我們是使用學校的網絡或者帳號登錄web of science這個網站去查詢,但是當我們想免費獲取整個文章的PDF時,有部分文章可以直接點擊【出版商處的免費全文
  • 創世紀圖書館(Library Genesis)——免費下載SCI文獻和書籍
    詳細了解後,竟然發現創世紀圖書館(LibraryGenesis)與sci-hub可謂是一對難兄難弟,它們有許多共同特點:(1)皆出自戰鬥民族之手;(2)免費;(3)資源多,更新快;(4)被起訴(比如Elsevier)。不得不為戰鬥民族點讚。
  • SCI論文多久能發出來-英輯編輯
    sci論文的價值是不言而喻的,我們先來說說sci論文的類型,sci論文一把可以分為綜述性文章、實驗型文章、報告型文章和信件形式的文章幾個類型,作者可以根據自己的實際情況選擇適合自己的文章類型進行寫作,sci論文的價值想必大家一定有所耳聞,sci論文是被sci檢索的頂尖學術論文,sci論文通常代表著最先進的科學技術成果與發展方向
  • GEO數據挖掘篩選關鍵基因,然後實驗驗證的發文思路
    沒有科研經費的人會比較喜歡純生信數據挖掘這種模式;有科研經費的人可能更喜歡生信+實驗這種模式。之前純生信數據挖掘的發文思路已經分享了很多,所以這次我們分享一下GEO數據挖掘篩選關鍵基因,然後實驗驗證的發文思路。本次的參考範文發表在Thoracic Cancer上,影響因子:2.61,中科研分區:3區。