苗智超等發展識別人體細胞類型新算法

2020-12-11 中國生物技術網

自從大約400年前羅伯特·胡克(Robert Hooke)發現細胞以來,識別多細胞生物中的細胞類型並了解它們之間的關係一直是生物學研究的一個主要目標【1】。歷史上,用來定義、發現細胞類型的方法有:通過顯微鏡觀察來定義、根據細胞在生物體內的位置定義、根據細胞在體內或體外的功能定義、根據細胞發育和進化史來定義,以及根據表達在細胞表面少量分子標記物來定義。

單細胞RNA轉錄組測序(scRNA-seq)已經產生了豐富的測序數據,是一個用於發現和推定新細胞類型並完善現有細胞分類的高維度信息來源。儘管已有許多可用的計算分析工具,但根據scRNA-seq數據對細胞類型(或細胞狀態)的注釋在很大程度上仍然取決於人工識別細胞聚類中的標記基因。而人工對於單細胞數據的注釋既費力又費時,已經成為以人類細胞圖譜計劃(The Human Cell Atlas)【2】為代表的高通量單細胞測序項目的一個主要瓶頸。

能否讓計算機來幫助定義細胞類型並且注釋數據?如果一個機器學習模型可以學習細胞類型在單細胞測序數據中的生物學特徵(例如,標記基因),機器學習是不是能夠比人工分析在定義大規模數據集的細胞類型方面做得更好?如果是這樣,機器學習模型應該要學到在轉錄組層面區分不同細胞類型的本質特徵。當相同類型的細胞被聚類算法分成了多個簇(cluster),機器學習因為學習不到區分這些細胞簇的特徵,而在區分這些簇的時候發生「混淆」,機器學習的準確率就會比較低。那麼,就可以認為這些計算機也無法區分的細胞簇應該屬於「相同細胞類型」。

如何利用機器學習在很少的人工幹預的情況下將每種細胞類型聚類到一起呢?可以從一個過度聚類的狀態(任意一個細胞簇都只屬於一個細胞類型,但兩個細胞簇可能屬於同一個細胞類型)開始,利用機器學習的」混淆」來合併屬於相同細胞類型的細胞簇。

2020年5月18日,英國威康桑格研究所(Wellcome Sanger Institute)Sarah Teichman(英國科學院院士、英國醫學科學院院士)課題組和歐洲生物信息研究所(EMBL-EBI)Alvis Brazma課題組合作在Nature Methods上發表「Putative cell type discovery from single-cell gene expression data」(本文第一作者為歐洲生物信息研究所苗智超博士)。文章提出了一種自動計算方法用於單細胞測序數據的細胞聚類,該方法(稱為單細胞聚類評估框架(Single Cell Clustering Assessment Framework,SCCAF))可以實現對不同細胞類型的自動聚類,並且可能發現新的細胞類型(或者細胞狀態)

SCCAF基於機器學習和自映射對聚類的迭代,先從一個「過度聚類」的細胞聚類開始,逐步合併被機器學習認為是相同細胞的細胞簇。最終,得到一個能被機器學習很好區分的聚類結果,機器學習學到的每種細胞中的特徵基因就是用於識別該細胞類型的特徵,機器學習模型也可以作為一種新的定義細胞類型的方式。文章測試了許多已經發表的人工注釋的數據集,發現SCCAF算法在絕大多數情況下都可以得到與手人工注釋相似的結果。

SCCAF能自動將單細胞測序數據聚類成具有生物學意義的細胞類型,並且可以給出機器學習模型來區分這些細胞類型。該方法還可以與一系列基於參考數據的細胞注釋方法(例如scClassify,Moana和singleCellNet)結合使用:首先利用SCCAF確定有意義的細胞分類,然後利用基於參考數據的計算方法進行注釋(例如,根據較早的發表的數據集的細胞命名進行注釋)。SCCAF是一個開源軟體,也是人類細胞圖譜Galaxy工具套件中高通量數據分析流程的一部分,也是歐洲生物信息研究所的單細胞表達圖譜Single Cell Expression Atlas的一部分。

原文連結:

https://www.nature.com/articles/s41592-020-0825-9

作者:bioart

參考文獻

1. Hooke, R. & Jo Martyn And. Micrographia, or, Some physiologicaldescriptions of minute bodies made by magnifying glasses :with observations andinquiries thereupon /by R. Hooke . (1665) doi:10.5962/bhl.title.904.

2. Rozenblatt-Rosen, O., Stubbington, M. J. T., Regev, A. & Teichmann, S. A. The Human Cell Atlas: from vision to reality.Nature550, 451–453 (2017).

相關焦點

  • 美國研究人員發明了人體運動風格識別算法
    智能穿戴設備研發中,美國研究人員發明了人體運動風格識別算法,可以給一個人體打分,除了能測量人體的運動強度,還能實時定位一個人的運動狀態。當人體做不同的運動時,不同的人體風格基本會一致。美國機器人公司declit運用這種風格識別技術,可以基於運動識別算法,給不同的人打出不同的分數。
  • AI不再黑箱:利用可解釋的膠囊網絡算法識別細胞亞型
    單細胞轉錄組作為單個細胞的特徵,能更加精確地定義細胞的類型。單細胞 RNA 測序(Single-cell RNA sequencing, scRNA-seq)技術可測量單個細胞的轉錄組,並可進一步應用到細胞類型的劃分、細胞發育軌跡的推斷以及細胞空間位置的定位等各方面。
  • 阿里行人重識別(ReID)算法刷新業內新紀錄
    近日,機器智能技術實驗室在行人重識別(Person Re-identification)算法上獲得突破性成果。一方面,通過人體得到具有強語義信息的部件,並利用在其中尋找最具有區分性的區域。另一方面,使用了基於金字塔的水平分塊策略,得到行人固定區域的可辨識信息。在訓練中,同時採用兩種策略相結合的方式,達到行人圖片的對齊,從而實現更精準的匹配識別。通過技術上的改進,該方法在三個公開上的效果均優於之前最好方法,特別是mAP指標,分別提升了2%,1.87%,3.39%。
  • 騰訊行人重識別算法突破成世界第一
    該研究團隊通過最新算法,在三個行人重識別主流資料庫均取得第一的成績。 近日,騰訊優圖在行人重識別(Person Re-ID)算法上獲得突破性成果。
  • NK細胞,人體強大的抗癌前鋒!
    但是人體內NK細胞數量較少,在外周血中約佔淋巴細胞總數的15%,在脾內約有3%~4%,也可出現在肺臟、肝臟和腸黏膜,但在胸腺、淋巴結和胸導管中罕見。 它不僅與免疫調節、抗腫瘤和抗病毒感染有關,而且在某些情況下能夠識別靶細胞、殺傷介質。它主要分布於骨髓、肝、脾、肺和淋巴結。與T、B細胞不同的是,其效應功能受NK細胞表面活化型和抑制型受體的調節,它無需預先致敏就能非特異性殺傷腫瘤細胞和病毒感染細胞。
  • 研究揭示不同人體組織中基因表達的細胞類型特異性遺傳調控
    研究揭示不同人體組織中基因表達的細胞類型特異性遺傳調控 作者:小柯機器人 發布時間:2020/9/14 13:42:31 美國哥倫比亞大學Tuuli Lappalainen、Sarah Kim-Hellmuth等研究人員合作揭示不同人體組織中基因表達的細胞類型特異性遺傳調控
  • 研究開發一種通用的細胞分離算法
    研究開發一種通用的細胞分離算法 作者:小柯機器人 發布時間:2020/12/15 16:20:36 2020年12月14日,美國霍華德.休斯醫學院Marius Pachitariu課題組在《
  • 乳腺癌AI算法登上《自然》!識別準確率達92%,要搶醫生飯碗?
    人類善於通過觀察細胞的模式來發現癌症。但一種新的人工智慧工具——ReceptorNet,則可以通過識別這些模式的細微差異來補充醫生的「漏診」,從而提供更好的治療決策。
  • 虹軟推出最新人臉識別算法:戴上口罩也能精準識別
    在人工智慧技術迅猛發展的當下,人臉識別應用已日趨成熟,但在此次疫情中卻也面臨了全新挑戰——口罩下的人臉該如何完成識別?基於原有的人臉識別算法,佩戴口罩會大大影響人臉識別準確率,如果為了刷臉脫掉口罩,則又會增加感染風險。
  • 基於3D攝像頭的AI人體行為模式識別系統SmartSp:進軍行為模式識別...
    文|蔡曉純 編輯|江倩君 2020年「創客中國」廣東省中小企業創新創業大賽暨第四屆「創客廣東」大賽省複賽完賽,盧大偉團隊的「基於3D攝像頭的AI人體行為模式識別系統SmartSp」創新項目,拿下新一代信息技術領域創客組別複賽最高分。
  • 首張人類骨骼肌「發育路線圖」,推動幹細胞製造肌肉細胞
    近日,發表在同行評議期刊《Cell Stem Cell》上的一項新研究中,來自美國加州大學洛杉磯分校(UCLA)再生醫學和幹細胞研究中心的一個跨學科研究團隊開發了關於人類骨骼肌如何發育(包括肌肉乾細胞形成)的首個路線圖,鑑定了骨骼肌組織中存在的各種細胞類型,從早期胚胎發育一直到成年
  • NK細胞免疫療法給癌症患者帶來新希望
    今天,我們就來介紹預防、抗擊癌症的新希望——NK細胞免疫療法。什麼是NK細胞?NK細胞,即人體內的自然殺傷細胞(natural killer cell),是人體固有的免疫細胞,在腫瘤的發生發展中起到了免疫監視的作用。多種研究結果證實,在人類和其它哺乳動物體內,NK細胞均可有效地識別殺傷由正常細胞突變轉化形成的癌細胞,抑制癌細胞的生長和轉移,進而有效的清除腫瘤。
  • 人體免疫細胞是如何一步步消滅癌細胞呢?
    免疫系統是我們身體的防衛軍,其中的免疫細胞是抵禦「叛變者」腫瘤細胞的核心力量。那麼,免疫細胞是如何攻擊並消滅癌細胞的? 國際著名期刊《Nature》製作了一部精美視頻,以黑色素瘤為例,從腫瘤免疫角度為大家講述人體內免疫細胞是如何一步步消滅腫瘤細胞。
  • 《Science》揭示人體免疫新細節:殺傷性T細胞的蛋白質「炸彈」
    當人體遇到外敵入侵時,先天性免疫細胞首當其衝,它們會迅速作出殺敵反應。如果出師不利,作為人體免疫最後一道防線的細胞毒性T淋巴細胞(殺傷性T細胞,CTL)會被召集,它們憑藉多種生物學功能去殺死感染的細胞和癌細胞。這一過程已被我們所熟知。
  • 谷歌推出基於AI的開源手勢識別算法,可識別單手21個骨骼點
    8月20日消息,谷歌發布全新的手勢識別技術,該技術集成於開源跨平臺框架MediaPipe(可為多種類型的感知數據構建處理流程),特點是採用機器學習技術,支持高準確性手勢和五指追蹤,可根據一幀圖像推斷出單手的21個立體節點。
  • 深度學習資訊|用於人體動作識別的26層卷積神經網絡
    諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。
  • 美媒:新技術可讓人體細胞重返年輕
    新華社北京4月1日新媒體專電 美媒稱,美國史丹福大學的研究人員報告說,他們可以改寫人體細胞的程序,使之重返年輕狀態,從而讓它們煥發活力。他們希望這項技術會有助於治療組織細胞老化引起的骨關節炎和肌肉萎縮等疾病。
  • PNAS:科學家首次識別視神經幹細胞,為治療失明帶來希望
    正文   科學家首次識別出視神經幹細胞,或者治療視力喪失。   目前,大約有300萬美國人患有青光眼,並因此導致12萬患者失明。青光眼是由視神經受損引起的疾病,這種神經損傷通常與眼內房水無法正常排出,導致眼內壓力升高有關。隨著時間的推移,患者的視覺盲點會逐漸擴大。
  • 全民戴口罩,人臉識別算法抓瞎:多種算法出錯,最高錯誤率達50%
    全球新冠疫情仍在蔓延,前幾日,美國總統川普也終於改口,提倡民眾佩戴口罩,並稱這是愛國行為。圖|川普(來源:推特)然而如今,美國政府發現,除了預防疾病之外,佩戴口罩還有另一個意想不到的影響:阻礙面部識別算法。