導語
理解細胞差異、為細胞分類,對生命科學具有重要意義,一系列基於基因轉錄數據和深度學習的分類方法正在興起,但方法可解釋性往往不足。近日由北京師範大學張江組、中科研基因所蔡軍組合作發表的論文中,利用改進後的膠囊網絡深度架構,應用於轉錄組分析和細胞分類,取得良好效果並具有較強的可解釋性。
我們邀請論文第一作者王力飛博士,在周四(12月17日)的生命複雜性讀書會中做線上分享,解讀這項研究。分享將在B站和騰訊會議同步進行,參與方式見文末。
趙雨亭| 作者
王力飛| 審校
鄧一雪| 編輯
論文題目:
An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data
論文地址:
https://www.nature.com/articles/s42256-020-00244-4
生物學領域中,不同類型的細胞具有獨特的轉錄組。單細胞轉錄組作為單個細胞的特徵,能更加精確地定義細胞的類型。單細胞 RNA 測序(Single-cell RNA sequencing, scRNA-seq)技術可測量單個細胞的轉錄組,並可進一步應用到細胞類型的劃分、細胞發育軌跡的推斷以及細胞空間位置的定位等各方面。
目前已有一些用於單細胞轉錄組分析的生物信息學算法(如 Seurat、Moana 等)被開發出來。但可解釋性不好,不能將基因與細胞類型聯繫起來,用於下遊的分析。因此,科研工作者們需要設計出可解釋高的方法,從而將基因與細胞類型聯繫起來。
近日,北京師範大學張江研究組、中國科學院北京基因組研究所(國家生物信息中心)蔡軍研究組合作在 Nature Machine Intelligence 期刊發表論文,構建了決策過程可解釋的深度學習網絡模型:單細胞膠囊網絡(single cell Capsule Network, scCapsNet),並將其應用到單細胞轉錄組分析中。
圖1:以hPBMCs細胞系和mRBCs細胞系的scRNA-seq數據集進行測試,scCapsNet在分類任務上表現優異
1. 從膠囊網絡到單細胞膠囊網絡
深度學習已經廣泛地應用到圖像識別,自然語言處理中,極大地推動了這些領域的發展。同時,隨著生物學數據的積累,不同的深度學習構架也被用來處理不同類型的生物學數據。但深度學習模型的運行缺乏透明度,可解釋性不高,限制了這種方法的應用範圍。
而在 Geoffrey Hinton 等提出的膠囊網絡中,膠囊代表多個神經元組成的向量,作為基本的運算單位。每個向量(膠囊)代表特定對象的一種屬性。所以,膠囊網絡具有模塊化的架構,適用於同樣具有模塊化特徵的生物學數據。
最初版本的膠囊網絡模型使用卷積神經網絡作為特徵提取器,用於圖像分類任務。在這篇論文中,作者將其改造成為「單細胞膠囊網絡」(scCapsNet ),以多個並聯的神經網絡替換原有卷積神經網絡,作為特徵提取器,用於單細胞表達譜的分類。
之所以叫單細胞膠囊網絡,是因為其輸入數據來自單個細胞的mRNA測序結果。網絡結構分為兩部分三層:
第一層為輸入層,輸入為單個細胞樣本的基因表達譜;
第二層:初級膠囊,表示從表達譜中提取到的特徵;
第三層:類型膠囊,用於最終的分類;
其中第一層和第二層為特徵提取部分,第二層和第三層為膠囊網絡部分。
圖2:單細胞膠囊網絡的構架,包括兩部分:特徵提取\膠囊網絡
2. 單細胞膠囊網絡模型增加可解釋性
單細胞膠囊網絡從多個層面彌補了傳統機器學習透明度低及缺乏可解釋性的問題。模型的可解釋性可包括計算模型層面以及生物學意義兩方面:
在計算模型層面,單細胞膠囊網絡由兩部分共三層組成:耦合係數將第三層的細胞類型與第二層的初級膠囊聯繫起來,進而確定了細胞類型相關的初級膠囊。
圖3:膠囊網絡的耦合係數矩陣,聯繫其第二層與第三層間的可解釋性
來自連接第一層輸入層和第二層初級膠囊的神經網絡權重矩陣則可以將模型的第一層與第二層聯繫起來。這樣就在模型內部實現了細胞類型到基因的可解釋性。
圖4:模型可解釋性:從細胞類型推斷出特定的基因集合
該模型還具有生物學意義的可解釋性,具體分為兩個角度。從單個基因角度,單細胞膠囊網絡找到的細胞類型相關基因中包含許多細胞標誌物與細胞功能相關基因。從多個基因角度,對模型找到的細胞類型相關基因做整體的基因本體分析(GO 分析)與細胞通路(reactome)分析,發現這些基因執行相應的功能。
圖5:根據本文模型,分析出對不同細胞亞型功能至關重要的基因
3. 小 結
綜上,這篇文章的作者們設計了一種可解釋的膠囊網絡深度學習架構(scCapsNet),通過分析膠囊結構之間的內部權重參數,使決策黑盒子透明化。相對於其他單細胞轉錄組自動分析工具,單細胞膠囊網絡能更穩定更高效地分辨出屬於新細胞類型的細胞,且單細胞膠囊網絡能通過模型的內部參數找出細胞類型相關基因。
通過細胞類型相關基因,單細胞膠囊網絡能將基因與細胞類型直接聯繫起來,極大地提高了深度學習模型的可解釋性。本質上,單細胞膠囊網絡將基因的表達特徵和細胞類型特徵進行低維編碼,這樣的編碼富含生物學意義。
生命複雜性讀書會第六期直播預告
集智俱樂部策劃「生命複雜性」系列讀書會,從信息和物理等跨學科視角討論生命複雜系統問題,研讀硬核論文書籍,分享學界前沿成果,激發科研合作靈感,目前已進行五期。
第六期讀書會,我們邀請到中科院基因所王力飛博士,在周四(12月17日)19:00-20:30分享關於單細胞膠囊網絡與細胞亞型分類的最新研究。王力飛也是上述論文的第一作者。如果你對這篇論文感興趣,或者在做相關的研究工作,歡迎報名參加本次直播交流。
直播時間:12月17日(周四)19:00-20:30
參與方式1:集智俱樂部B站直播
掃描下方二維碼,直達B站直播間地址:
關注B站主播「集智俱樂部」
不錯過每一場集智重磅直播
直播地址:
https://live.bilibili.com/8091531
參與方式2:騰訊會議(可與主講人互動交流,需報名讀書會)
生命複雜性讀書會的付費報名成員,可參與騰訊會議語音互動提問,並加入微信群交流。
時間:讀書會自11月5日起,每周四晚19:00-21:00,持續約2-3個月
模式:線上讀書會;收費-退款的保證金模式;讀書會成員認領解讀論文
費用:399元/人(可看錄播)
了解讀書會規則詳情請點擊下方連結:
生命複雜性系列讀書會:從信息和物理視角探索生命的內在邏輯
推薦閱讀
Cell 長文綜述:機器學習如何助力網絡生物學
Cell 最新:科學家成功繪製出完整的果蠅大腦神經網絡!
加入集智,一起複雜!
點擊「閱讀原文」,來看直播!