AI不再黑箱:利用可解釋的膠囊網絡算法識別細胞亞型

2020-12-18 騰訊網

導語

理解細胞差異、為細胞分類,對生命科學具有重要意義,一系列基於基因轉錄數據和深度學習的分類方法正在興起,但方法可解釋性往往不足。近日由北京師範大學張江組、中科研基因所蔡軍組合作發表的論文中,利用改進後的膠囊網絡深度架構,應用於轉錄組分析和細胞分類,取得良好效果並具有較強的可解釋性。

我們邀請論文第一作者王力飛博士,在周四(12月17日)的生命複雜性讀書會中做線上分享,解讀這項研究。分享將在B站和騰訊會議同步進行,參與方式見文末。

趙雨亭| 作者

王力飛| 審校

鄧一雪| 編輯

論文題目:

An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data

論文地址:

https://www.nature.com/articles/s42256-020-00244-4

生物學領域中,不同類型的細胞具有獨特的轉錄組。單細胞轉錄組作為單個細胞的特徵,能更加精確地定義細胞的類型。單細胞 RNA 測序(Single-cell RNA sequencing, scRNA-seq)技術可測量單個細胞的轉錄組,並可進一步應用到細胞類型的劃分、細胞發育軌跡的推斷以及細胞空間位置的定位等各方面。

目前已有一些用於單細胞轉錄組分析的生物信息學算法(如 Seurat、Moana 等)被開發出來。但可解釋性不好,不能將基因與細胞類型聯繫起來,用於下遊的分析。因此,科研工作者們需要設計出可解釋高的方法,從而將基因與細胞類型聯繫起來。

近日,北京師範大學張江研究組、中國科學院北京基因組研究所(國家生物信息中心)蔡軍研究組合作在 Nature Machine Intelligence 期刊發表論文,構建了決策過程可解釋的深度學習網絡模型:單細胞膠囊網絡(single cell Capsule Network, scCapsNet),並將其應用到單細胞轉錄組分析中。

圖1:以hPBMCs細胞系和mRBCs細胞系的scRNA-seq數據集進行測試,scCapsNet在分類任務上表現優異

1. 從膠囊網絡到單細胞膠囊網絡

深度學習已經廣泛地應用到圖像識別,自然語言處理中,極大地推動了這些領域的發展。同時,隨著生物學數據的積累,不同的深度學習構架也被用來處理不同類型的生物學數據。但深度學習模型的運行缺乏透明度,可解釋性不高,限制了這種方法的應用範圍。

而在 Geoffrey Hinton 等提出的膠囊網絡中,膠囊代表多個神經元組成的向量,作為基本的運算單位。每個向量(膠囊)代表特定對象的一種屬性。所以,膠囊網絡具有模塊化的架構,適用於同樣具有模塊化特徵的生物學數據。

最初版本的膠囊網絡模型使用卷積神經網絡作為特徵提取器,用於圖像分類任務。在這篇論文中,作者將其改造成為「單細胞膠囊網絡」(scCapsNet ),以多個並聯的神經網絡替換原有卷積神經網絡,作為特徵提取器,用於單細胞表達譜的分類。

之所以叫單細胞膠囊網絡,是因為其輸入數據來自單個細胞的mRNA測序結果。網絡結構分為兩部分三層:

第一層為輸入層,輸入為單個細胞樣本的基因表達譜;

第二層:初級膠囊,表示從表達譜中提取到的特徵

第三層:類型膠囊,用於最終的分類;

其中第一層和第二層為特徵提取部分,第二層和第三層為膠囊網絡部分。

圖2:單細胞膠囊網絡的構架,包括兩部分:特徵提取\膠囊網絡

2. 單細胞膠囊網絡模型增加可解釋性

單細胞膠囊網絡從多個層面彌補了傳統機器學習透明度低及缺乏可解釋性的問題。模型的可解釋性可包括計算模型層面以及生物學意義兩方面:

在計算模型層面,單細胞膠囊網絡由兩部分共三層組成:耦合係數將第三層的細胞類型與第二層的初級膠囊聯繫起來,進而確定了細胞類型相關的初級膠囊。

圖3:膠囊網絡的耦合係數矩陣,聯繫其第二層與第三層間的可解釋性

來自連接第一層輸入層和第二層初級膠囊的神經網絡權重矩陣則可以將模型的第一層與第二層聯繫起來。這樣就在模型內部實現了細胞類型到基因的可解釋性。

圖4:模型可解釋性:從細胞類型推斷出特定的基因集合

該模型還具有生物學意義的可解釋性,具體分為兩個角度。從單個基因角度,單細胞膠囊網絡找到的細胞類型相關基因中包含許多細胞標誌物與細胞功能相關基因。從多個基因角度,對模型找到的細胞類型相關基因做整體的基因本體分析(GO 分析)與細胞通路(reactome)分析,發現這些基因執行相應的功能。

圖5:根據本文模型,分析出對不同細胞亞型功能至關重要的基因

3. 小 結

綜上,這篇文章的作者們設計了一種可解釋的膠囊網絡深度學習架構(scCapsNet),通過分析膠囊結構之間的內部權重參數,使決策黑盒子透明化。相對於其他單細胞轉錄組自動分析工具,單細胞膠囊網絡能更穩定更高效地分辨出屬於新細胞類型的細胞,且單細胞膠囊網絡能通過模型的內部參數找出細胞類型相關基因。

通過細胞類型相關基因,單細胞膠囊網絡能將基因與細胞類型直接聯繫起來,極大地提高了深度學習模型的可解釋性。本質上,單細胞膠囊網絡將基因的表達特徵和細胞類型特徵進行低維編碼,這樣的編碼富含生物學意義。

生命複雜性讀書會第六期直播預告

集智俱樂部策劃「生命複雜性」系列讀書會,從信息和物理等跨學科視角討論生命複雜系統問題,研讀硬核論文書籍,分享學界前沿成果,激發科研合作靈感,目前已進行五期。

第六期讀書會,我們邀請到中科院基因所王力飛博士,在周四(12月17日)19:00-20:30分享關於單細胞膠囊網絡與細胞亞型分類的最新研究。王力飛也是上述論文的第一作者。如果你對這篇論文感興趣,或者在做相關的研究工作,歡迎報名參加本次直播交流。

直播時間:12月17日(周四)19:00-20:30

參與方式1:集智俱樂部B站直播

掃描下方二維碼,直達B站直播間地址:

關注B站主播「集智俱樂部」

不錯過每一場集智重磅直播

直播地址:

https://live.bilibili.com/8091531

參與方式2:騰訊會議(可與主講人互動交流,需報名讀書會)

生命複雜性讀書會的付費報名成員,可參與騰訊會議語音互動提問,並加入微信群交流。

時間:讀書會自11月5日起,每周四晚19:00-21:00,持續約2-3個月

模式:線上讀書會;收費-退款的保證金模式;讀書會成員認領解讀論文

費用:399元/人(可看錄播)

了解讀書會規則詳情請點擊下方連結:

生命複雜性系列讀書會:從信息和物理視角探索生命的內在邏輯

推薦閱讀

Cell 長文綜述:機器學習如何助力網絡生物學

Cell 最新:科學家成功繪製出完整的果蠅大腦神經網絡!

加入集智,一起複雜!

點擊「閱讀原文」,來看直播!

相關焦點

  • AI偵探敲碎深度學習黑箱
    很多AI將改變人類現代生活,例如優步的無人駕駛汽車,Yosinski的程序是一個深度神經網絡,其架構或多或少受到了大腦的啟發。正如人類大腦一樣,這個程序很難從外部理解:它是一個黑箱。這一特殊的AI能通過大量的標註圖像被訓練,從而識別像斑馬線、消防車、安全帶等物體。但它可以識別Yosinski和攝像頭前面的記者嗎?
  • Hinton:膠囊網絡的專利是我的了!
    接著說網絡,以上所述的神經網絡包括順序排列的多個網絡層、包括多個膠囊網絡層被配置為接收各個輸入和輸出: 1、由序列中特定膠囊網絡層之前的先前膠囊網絡層的膠囊生成的輸出
  • 為何要打開算法「黑箱」:數據並不正義,算法也難中立
    在人工智慧深度學習輸入的數據和其輸出的答案之間,存在著我們無法洞悉的「隱層」,它被稱為「黑箱」。這裡的「黑箱」並不只意味著不能觀察,還意味著即使計算機試圖向我們解釋,我們也無法理解。
  • 數據風險、算法黑箱怎麼破?這家創企用AI化解安全難題
    基於對抗樣本技術,黑客可繞過整個網絡和系統安全防禦機制,僅通過簡單偽裝,就從AI算法引起的新漏洞讓應用出錯。比如戴上一副「對抗樣本」眼鏡,就能破解手機或智能門鎖的人臉識別解鎖,或是偽裝成他人完成銀行和政務系統的身份認證,竊取財產。穿著「對抗樣本」T恤,亦可逃開監控,在目標檢測算法下宛如來去自如、不被知曉的「隱形人」。
  • 苗智超等發展識別人體細胞類型新算法
    自從大約400年前羅伯特·胡克(Robert Hooke)發現細胞以來,識別多細胞生物中的細胞類型並了解它們之間的關係一直是生物學研究的一個主要目標【1】。當相同類型的細胞被聚類算法分成了多個簇(cluster),機器學習因為學習不到區分這些細胞簇的特徵,而在區分這些簇的時候發生「混淆」,機器學習的準確率就會比較低。那麼,就可以認為這些計算機也無法區分的細胞簇應該屬於「相同細胞類型」。如何利用機器學習在很少的人工幹預的情況下將每種細胞類型聚類到一起呢?
  • 能否打開人工智慧的「黑箱」?
    「我論文的部分內容就是打開黑箱,搞清楚電腦在想什麼。」他解釋道。但該怎麼做?他將計算機功能編程為「神經網絡」—— 一種以大腦為原型的人工智慧(AI),它有望比常規算法更適合應對複雜的現實情況。不幸的是,神經網絡和大腦一樣是不透明的。它也沒有將學到的東西條理清晰地儲存在數字記憶中,而是以一種極難解的方式散布信息。
  • 打開外賣經濟的「算法黑箱」
    來源:澎湃新聞原標題:打開外賣經濟的「算法黑箱」隨著社會數位化和信息化進程的不斷加快,人們自覺或不自覺地被捲入到算法所組織起來的社會秩序中。隨著電子計算機的發明,算法開始與編碼、指令、程式發生關聯,並成為邏輯和規則的代言詞。塔爾頓·吉萊斯皮將算法定義為依據特定的計算模型將數據轉化為可預期結果的編碼程序。算法進入我們日常生活的視野,或者說進入社會科學的視野,還是近現代才發生的事情。
  • 谷歌推出基於AI的開源手勢識別算法,可識別單手21個骨骼點
    而為了訓練識別手勢的機器學習算法,谷歌採用了一個由3個模型組成的框架,包括:手掌識別模型BlazePalm(用於識別手的整體框架和方向)、Landmark模型(識別立體手部節點)、手勢識別模型(將識別到的節點分類成一系列手勢)。其中BlazePalm可為Landmark模型提供準確建材的手掌圖像,這大大降低了對旋轉、轉化和縮放等數據增強方式的依賴,讓算法將更多計算能力用在提高預測準確性上。
  • 只需幾百行代碼,利用Ray實現算法解釋模型Alibi線性擴展
    它允許用戶在他們的數據上運行流行的模型解釋算法,如 Kernel SHAP。不過,儘管 Alibi 有許多算法,但用戶往往尋求更好的性能和可擴展性。Seldon 團隊開始接觸 Ray ,這是一個開源框架,為構建分布式應用程式提供了一個簡單的通用 API,為了尋找擴展 Alibi 的解決方案,我們希望使用 Kernel SHAP 算法測試下 Ray 的表現。
  • 戴瓊海:深度學習遭遇瓶頸,全腦觀測啟發下一代AI算法
    作者 | 青暮、陳彩嫻編輯 | 陳彩嫻目前我們還無法精細到神經元級別的觀測,只能從功能層面理解大腦,但這些成果也啟發了很多經典的人工智慧算法,例如卷積神經網絡啟發自貓腦視覺感受野研究,膠囊網絡啟發自腦皮層微柱結構研究。在未來,我們能不能深入到神經元的層面研究大腦,是非常重要的一步。
  • 論算法的法律規制
    在這個意義上,要求所有算法都必須滿足可解釋性的要求,實際上是要求相關主體完成一項不可能的任務,因為基於大數據的算法與可解釋性所要求的因果關係闡釋具有完全不同的邏輯。2.算法公開的可欲性在有些情形中,算法的透明性與可解釋性可以實現或部分實現,但算法的透明性與可解釋性仍可能存在可欲性問題。
  • 乳腺癌AI算法登上《自然》!識別準確率達92%,要搶醫生飯碗?
    人類善於通過觀察細胞的模式來發現癌症。但一種新的人工智慧工具——ReceptorNet,則可以通過識別這些模式的細微差異來補充醫生的「漏診」,從而提供更好的治療決策。
  • 對於老年痴呆最初表現,3種不同的亞型解釋
    我們為你總結了的「8種最初表現」,幫助你識別。 老年痴呆最初表現(8種最初表現): 利用HICIBI糖盾可阻斷糖和穀物的吸收,保護腦內組織健康,原恢復胰島素敏感性,胰島素分子完成它們降低葡萄糖的工作後,身體必須溶解胰島素以防止血糖降得太低,這要通過稱為「胰島素降解酶」(IDE)的作用。HICIBI糖盾關鍵是還能降解β澱粉樣蛋白,避免損傷突觸以引起阿爾茨海默病的黏性斑塊中的蛋白質片段。
  • ——算法合規在平臺經濟反壟斷中的應用
    尤其是在與算法技術相結合的情形下,如果具有市場支配地位的商業性平臺使用不透明、不可解釋的算法,那麼更容易受到利用算法黑箱掩蓋大數據殺熟、差別待遇行為的質疑,也更容易造成嚴重的後果。所以,具有市場支配地位的商業性平臺更需要關注算法合規,以避免反壟斷執法的風險。
  • 大數據揭示無論癌症的來源如何,癌症可分為112種亞型...
    2021年1月16日訊/生物谷BIOON/---數千種不同的基因突變與癌症有關,但一項針對近萬名患者的新研究發現,無論癌症的來源如何,腫瘤都只能分類為112種亞型,而且在每種亞型中,控制癌症轉錄狀態的主調節蛋白幾乎完全相同,與每個患者的特定基因突變無關。
  • 每周AI應用方案精選:唇語識別技術;阿茨海默症預測技術
    系統使用了複雜端到端深度神經網絡技術進行中文唇語序列建模,並通過數千小時的真實唇語數據訓練而成。作為人機互動的形式之一,未來唇語識別技術可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個領域實現廣泛應用。
  • Hinton AAAI2020現場演講:這次終於把膠囊網絡做對了
    今天我不打算講哲學話題,也不會解釋我為什麼很久都不參加 AAAI 會議之類的(觀眾笑),我就給大家講講這項研究。依舊從批評 CNN 開始對象識別這個任務主要有兩大類方法,一類是老式的基於部件的模型,它們會使用模塊化、可感知的表徵,但通常也需要很多的人工特徵工程,所以它們通常也不具備學習得到的部件的層次結構。另一類方法就是卷積神經網絡,它們完全是通過端到端學習得到的。
  • 遊戲設計與理論化研究(2)——黑箱方法論的運用
    那麼我們就有充分的理由去否定V0.1的模型,找到另一個改進的模型(V0.2),這一步實際就是上圖中的:利用實踐結果和理論結果的目標差來修改理論模型。而新的V0.2理論模型則至少可以解釋「按下綠色按鈕,僅一盞燈亮」這個客觀的實踐結果。
  • 清華、協和等單位開發乳腺癌AI診斷工具,可準確識別惡性腫瘤,並...
    近年來,隨著人工智慧技術的發展,越來越多的人工智慧算法應用於醫學圖像領域,並深刻地改變了醫學影像的發展,從一開始僅僅提供診斷信息,到引領個性化精準醫療的實現。在 6 月 21 日舉辦的 2020 北京智源大會開幕上,智源研究院院長黃鐵軍介紹到,清華大學、北京智源人工智慧研究院、協和醫學院和首都醫科大學的研究團隊近日推出一項名為 SonoBreast 的研究成果,提出了一個經過監督學習預訓練的、基於圖像塊的卷積神經網絡分類器,可以利用超聲波圖像進行乳腺癌診斷篩查。
  • 每周AI應用方案精選:癌症細胞模擬與藥物發掘;視覺搜尋引擎
    在非工作時間內,NAVii 利用了計算機視覺技術,通過高解析度相機和 LED 光源處理圖像,使用基於深度學習的分類器識別物品種類,幫助存儲員工跟蹤耗盡或缺失的庫存,使用 NVIDIA GPU 來加速並行處理。