網頁工具可以搞定的結論你非要花十幾萬科研經費復現一遍

2021-02-08 生信菜鳥團

最近安排學員做了一下:Endothelial(單細胞研究調研),見:https://share.mubu.com/doc/6capdKnSkBv

明明Endothelial Cell Marker是 (CD31, CD34, ICAM1, CD45),但是有一個研究卻關注了CD105 (Endoglin) ,我就去bing搜索了CD105 (Endoglin) ,發現一個有意思的研究。

發表在Sci Rep. 2019;的文章,標題是:《CD105 (Endoglin) as negative prognostic factor in AML》,本來以為是一個單基因數據挖掘文章, 結果分析他們是自己的 a cohort of 62 AML patients,看CD105的蛋白水平在AML疾病的生存意義

而且為了拿到統計學顯著的生存分析結果,研究者們根據CD105的蛋白水平的quartiles (Q1-4) 分成4組後,主要是看Q1和Q4組的差異。

To correlate CD105 expression in quartiles with OS, Kaplan-Meier analysis was performed and revealed that patients with low or absent CD105 expression (Q1) showed superior survival and did not reach median OS in the observation time, whereas for patients in the highest quartile (Q4) median OS was 284 days (p = 0.0098) (Fig. 3B).

 

這個生存分析結果很容易解釋,如果按照 CD105表達量高低對病人分組呢,沒有統計學顯著的結果,但是呢,如果把表達量四等分後,再次把病人也對應的分成4個組,針對性的比較表達量最高和最低的兩個組,然後就有統計學顯著的結果啦!

Next we established a cut-off specific fluorescence level of 5.22 using receiver-operating characteristics, which allowed to group patients in cases with CD105lo and CD105hi surface expression and revealed that high CD105 expression correlated significantly with poor overall and progression free survival.

第一眼看到研究者的這個結論呢,我就想起來了很明顯的生存分析網頁工具,就可以看TCGA的AML病人隊列的該基因的生存預後意義。同樣的,在bing搜索了一些TCGA的AML病人隊列文章,發表的比較早:

TCGA在N Engl J Med 2013; 的文章,納入了200 patients,連結:https://www.nejm.org/doi/full/10.1056/NEJMoa1301689

RNA-expression profiling on the Affymetrix U133 Plus 2 platform for 197 samples,RNA sequencing for 179 samples,  (一般來說,大家會挖掘這個數據,RNA-seq and mutation data from 176 AML patients from the Cancer Genome Atlas (TCGA) database )microRNA (miRNA) sequencing for 194 samples,Illumina Infinium HumanMethylation450 BeadChip profiling for 192 samples,Affymetrix SNP Array 6.0 for both tumor and normal skin sampleswhole-genome sequencing (50 cases)whole-exome sequencing (150 cases)

實際上晶片拿到的表達矩陣和RNA-seq拿到的,是可以都分析一下,相呼應。

OncoLnc是最簡單的TCGA生存分析網頁工具

如果我們按照默認參數來進行網頁工具查詢,可以看到, CD105表達量高低對病人分組呢,沒有統計學顯著的結果:

http://www.oncolnc.org/kaplan/?lower=50&upper=50&cancer=LAML&gene_id=2022&raw=ENG&species=mRNA

按照高低分組,生存分析不顯著

同樣的,我們按照文章的分成4個組,針對性的比較表達量最高和最低的兩個組:

http://www.oncolnc.org/kaplan/?lower=25&upper=25&cancer=LAML&gene_id=2022&raw=ENG&species=mRNA

四分位數的最高和最低的兩個組別生存分析顯著

確實達到了統計學顯著!

也就是說,這個研究,其實就網頁工具同樣的結果!

公共資料庫挖掘這個技能的重要性大家認識不夠,其實是能極大程度的避免大家重複浪費科研經費去做一些明明可以通過分析公共資料庫拿到的結論!

比如你研究的癌症裡面哪些基因高表達,哪些低表達,你通過數據挖掘拿到了感興趣基因,後續自己設計基礎實驗來探索它們,完善你的生物學故事。假如你並不知道可以分析公共資料庫,那麼你就不得不自己去做一次癌症病人隊列的轉錄組,耗費幾萬塊錢來拿到一個本來就可以通過公共資料庫分析拿到的上下調基因。或者說,你已經有了比較完整的生物學故事,定位到了具體的通路或者基因,如果想設計病人隊列來說明你感興趣的基因或者通路的臨床意義,就是一個大工程,從病人招募信息整理,到ngs組學數據採集,分析,統計可視化等等。但是大概率上你感興趣的疾病都會有現成的公共數據,你完全可以選擇從你感興趣的角度來對它進行分析。

數據挖掘的核心是縮小目標基因

各種數據挖掘文章本質上都是要把目標基因集縮小,比如表達量矩陣通常是2萬多個蛋白編碼基因,不管是表達晶片還是RNA-seq測序的,採用何種程度的差異分析,最後都還有成百上千個目標基因。如果是臨床隊列,通常是會跟生存分析進行交集,或者多個數據集差異結果的交集,比如:多個數據集整合神器-RobustRankAggreg包 ,這樣的基因集就是100個以內的數量了,但是仍然有縮小的空間,比如lasso等統計學算法,最後搞成10個左右的基因組成signature即可順利發表。

其實還有另外一個策略方向,有點類似於人工選擇啦,通常是可以往熱點靠,比如腫瘤免疫,相當於你不需要全部的兩萬多個基因的表達量矩陣進行後續分析,僅僅是拿著幾千個免疫相關基因的表達矩陣即可

最近比較熱門的有:自噬基因,鐵死亡,EMT基因,核受體基因家族,代謝基因。還有一個最搞笑的是m6a基因,完全是無釐頭的基因集搞小,純粹是為了搞小而搞小。

相關焦點

  • 科研人員:年度總結要兩個月 為報銷經費幾成會計
    此外,他還要填寫科技部各個下屬事業單位發來的「成果調查統計表」——他們要用來調查科技成果的投資效益和作統計分析。「這種表格特別多,內容與項目總結通常重疊,但格式很不一樣,每次都得重填一遍。」  「填表」並非只是簡單地動動筆或敲敲鍵盤,首先要準備詳實具體的資料。「如果項目涉及多個單位,還要提前告知對方整理、上報數據。他們通常要花幾周時間準備,這期間我要反覆催促、耐心等待。」
  • 看看你在steam上花了多少?steam網頁輔助工具推薦
    油猴腳本不僅僅能實現看看你在steam上花了多少這樣鬧著玩的功能,還能實現批量激活steam遊戲激活碼,自動換算貨幣金額等一系列有用的功能,是steam玩家不可或缺的實用輔助工具。油猴腳本我們可以簡單把他看做一個載體,在這個載體上,開發者可以再二次開發出來很多功能強大的實用插件,與iPhone越獄之後的cydia類似。
  • 網頁禁止複製粘貼怎麼弄?教你五招輕鬆搞定
    經常在網上遇到一些無法複製的文章,有什麼辦法可以繞開這種限制,將網頁內容輕鬆下載下來呢?其實網頁上文本複製下來不是問題,只要用對方法,都可以輕鬆搞定,將相關文本複製下來,一起來看看要怎麼做吧。方法一、截圖識別這個辦法手機和電腦都可以使用,現在手機都自帶文字識別功能,如果你是用手機瀏覽,發現不能複製,可以截圖,然後對圖片進行「識別文字」就可以把文字提取出來,也就可以複製了。如果用電腦瀏覽想要複製,可以利用QQ截圖功能(快捷鍵:Ctrl+Alt+A),打開QQ截圖截完後,下面有個工具叫屏幕識圖,就能直接生成文字使用了。
  • 百度推出AI音頻轉錄工具SwiftScribe,讓你20分鐘搞定1小時的錄音 |...
    原標題:百度推出AI音頻轉錄工具SwiftScribe,讓你20分鐘搞定1小時的錄音 | 鈦快訊 鈦媒體快訊 | ,一個利用人工智慧,讓用戶能快速將音頻快速轉成文字的免費網頁工具。
  • CVPR論文經不起復現推敲?是學術會議水了還是我飄了
    機器之心報導機器之心編輯部很多人工智慧學者都在抱怨目前的 AI 頂級會議接收論文數量大幅膨脹,論文質量也顯著下降,其中有一部分經不起復現的推敲。最近,在 Reddit 上一個「較真」的網友就對 CVPR2018 的一篇大會接收論文進行復現,發現了其中的問題。
  • 這款免費的網頁版工具,輕鬆搞定你的 qPCR 數據統計分析
    小心翼翼的提 RNA,寶貝一樣的呵護起來;兢兢業業的摸索最佳溫度梯度,生怕引物探針一言不合就「罷工」;好不容易跋山涉水來到最後一關,拿到了一大堆 Cq 值,可大神級的 SPSS、R 語言聽起來就頭大,更惶論輕鬆掌握了,不擅長統計分析的你是不是欲哭無淚?
  • 頂會論文審稿人帶你復現論文,還有獎學金可拿
    毫無疑問,當然是啃 Paper、復現 Paper呀!對於本科生,論文復現可以幫你快速奠定理論基石並徹底搞懂,為課題研究打好基礎;對於碩博生,如果你要發AI論文,就必須要快速大量的閱讀特定方向的重要論文,並且理解創新點,進行復現,這才有利於找到自己的研究方向;對於在職開發者,可以探索最前沿的先進技術,解鎖算法優化的新思路。
  • 發生非瘟的豬場還能繼續養豬嗎?復產需要注意哪些問題?
    非洲豬瘟進入我國已經有2年多的時間了,與前兩年相比,現在豬場發生非瘟的概率大降低,環境中病毒載量也相應減少。豬場得過非洲豬瘟,附近完全可以養豬,只要做好生物安全就可以。在工作期間,就曾幫助很多豬場復產,讓我印象最深刻的是幫助成功復產兩次,第一次復產後半年沒有任何問題,後來當地出現二次疫情爆發,感染後清場,後期又復產成本。
  • 20款適合初學者的網頁設計工具
    因此,網頁設計也成為了企業在網站建設過程中非常關注的要素,畢竟好的網頁作用在於吸引用戶、留住用戶和提升轉化率。 那如何設計出優秀的網頁呢?今天我們就給大家分享20款好用的網頁設計工具(上篇),讓企業的網站在無形中對用戶產生巨大的吸引力。
  • 因經費大幅縮減,天津大學暫停訂購大量論文資料庫:科研汪太難了
    SCOPUS  Scopus 作為文獻摘要和引文資料庫,覆蓋面廣,內容詳盡,收錄的文獻均經同行評議,包括:科學期刊、圖書和會議論文集,提供科學、技術、醫藥、社會科學、藝術和人文領域的世界科研成果全面概覽,是可以追蹤、分析和可視化研究成果的智能工具。
  • pdf保存為網頁可以嗎?pdf格式文件要怎麼轉換成網頁文件?
    pdf格式文件要怎麼轉換成網頁文件?說到html,很多小夥伴似懂非懂。其實,這是一種超文本標記語言,頁面內包含有圖片、音樂、連結等很多非文本元素。有時候,特別是網際網路程式設計師,工作中要將其他格式文件(例如pdf)轉html格式網頁。
  • 複平面與非歐幾何
    這個非歐幾何的規定,沒有點想像力,的確很難理解。我們先嘗試用複平面來理解。如封面的圖,從北極連接到球面上的一點總是可以投影到複平面上的一點。當這個球體比較小時,可以發現,球面投影到平面上後有一個點是無法在平面上得到體現,就是北極這個點,北極在複平面上的投影表現為任意方向的無窮遠。
  • 致年輕科學家的信 | 成功申請科研經費的技巧
    但這些建議背後的一個假設是,您有足夠的經費來完成這些工作。在這期分享中,我們將著手於幫助您解決實驗室中的另外一頭「大象」——科研經費不足問題。申請項目經費時,您需要解釋清楚申請項目的投資價值。例如:現階段您對這項研究所具有的優勢、該研究項目的前景…… 有些經費審批人員可能不是您所研究領域內的專家,他們可能不會立即理解該項目的長遠意義。但是,如果他們不清楚該研究的重要性,可能會對申請人成功獲得經費產生影響。同時,您也要清楚地表明,您對未來實驗中可能出現的問題的應對方法。
  • 來看看這個小哥的復現細節吧
    我發現,比起使用 jupyter notebook,將實驗代碼融合到這樣的工具中,可以更容易地在不同的設定下重複實驗。有些思想只有通過重複的實驗才能越來越明朗,所以如果沒有這個工具,我覺得我可能會遺漏博客中提到的一些見解。如果你只是對示例的動漫圖像感興趣而並不關注技術細節,你可以直接跳到本文的「實驗結果:動漫人物」這一章。
  • 律師:從李寧院士貪汙案看科研經費使用的法律風險及防控
    2.科研經費屬於公共財物。貪汙罪等職務犯罪中侵吞、竊取和騙取的行為對象是認定罪與非罪的第一道門檻。科研經費,分為橫向和縱向科研經費。縱向科研經費,系國家財政對科研人員申報的上級科技主管部門或機構立項的項目撥付的經費,屬國有資產;橫向科研經費,一般來自企業、社會團體、國際組織等,可以通過籤訂合作協議的方式獲得。
  • 全球科研經費第一的國家,拿下最多諾貝爾獎,比歐盟加起來還多
    然而科學技術的進步離不開人才,人才的發展同樣也需要花費大量的精力去培養,在科學界有一項我們所熟知的殿堂級獎項,就是諾貝爾獎,能拿下諾貝爾獎的都是科學界的頂尖人才,作為世界上含金量最高影響力最高的獎項,是無數科研人為之奮鬥一生的目標,不過在全球範圍有個每年科研經費投入最多的國家,也拿下了最多諾貝爾獎,獲獎人數比歐盟加起來還要多。
  • 從模擬到復現 中國將建「超級風洞」
    風洞技術決定飛行器水平    風洞是推動航空航天飛行器發展的國家重器,一代風洞技術決定一代飛行器的研製水平,代表著一個國家的科研實力。    此次央視報導的「復現高超聲速飛行條件激波風洞實驗技術」(以下簡稱「JF12復現風洞」),有近300米長,是世界上最大的激波風洞,被國際同行稱為「超級巨龍」(Hyper-Dragon),是國際首座可復現高超聲速飛行條件的超大型高超聲速風洞。姜宗林告訴記者,JF12復現風洞是地面氣動試驗這頂皇冠上的明珠,也是氣體動力學研究領域科研人員心中的珠穆朗瑪峰。
  • 網頁插入仿360天氣預報 插件代碼--1分鐘搞定
    在網頁中怎麼插入天氣預報插件,不需要註冊帳號,不需要填寫申請,不用讀懂API文檔……只需簡單幾步就可以完成,天氣插件1分鐘搞定。(個人比較喜歡默認經典樣式)圖文樣式有多種顏色可以選擇;要選擇某種樣式,請在樣式名稱有下拉框,直接選取即可1.選擇模板樣式,有8中可供選擇;2.設置字體顏色,默認為黑色;3.選擇圖標樣式,默認為經典;4.選擇城市,不選則時系統自動判斷訪問者IP所在地並顯示該地區天氣。
  • 科技部部長:科研經費"包幹制"不是什麼都包
    原標題:科技部部長王志剛:「不是什麼都包」   現在做的『包幹制』試點,是根據科研人員的經費管理、科研成果、科學操守、素養及科研團隊的穩定性等前提條件決定的。如果都包幹了,光講錢和投入,之後什麼都不管,這不可能。」
  • 騙科研經費等公款341萬 山東大學一教授獲刑13年
    記者 王富曉 攝  記者16日從教育部官方微信「微言教育」獲悉,在近期召開的直屬高校科研經費管理情況第二批專項檢查動員部署會上,教育部通報了4起科研經費使用違規違紀典型案件,並對即將開展的專項檢查工作進行部署。