細胞分類是理解生物系統的關鍵問題。高通量流式的發展增加了分類過程的複雜性,需要新的工具來組織細胞分類結果。
巴黎南部大學的Antonio Cosma提出了基於質數和算術運算的分類方法,叫做」質數分類系統「(prime population system,PPS),有什麼好處咱們在最後再提,先看看他們這個分類方法的原理。
首先通過CD分子排序,給每個CD分子按順序分配一個質數(Prime),所謂的質數,又稱素數,是除了1和自身之外,沒有其它因數,所以會使得最後產生的密碼能夠成功反推抗原表達情況:
接著,根據抗原表達情況,規則為陽性=質數本身,陰性=質數的平方,弱表達或中等表達=質數的立方。舉兩個例子:
上圖是輔助T細胞,使用的標記是CD45、CD3、CD4,根據輔助T細胞的特點CD45+CD3+CD4+,CD45對應的質數是277,CD3對應的質數是19,CD4對應的質數是23,那麼輔助T細胞對應的編碼就是277×19×23=121049。大家看到這裡,肯定混亂了,這麼長的數字,我怎麼記的下來,到時候如何知道這代表著什麼信息啊,沒關係,質數的分解有專門的程序,分解後,各個CD分子對應的質數就會列出來,根據質數的排列,就知道表達特徵了。以Treg的特徵編碼17662215891311為例,只需訪問https://www.alpertron.com.ar/ECM.HTM,將17662215891311輸入到文本框,點擊」Factor「,底下就會顯示:
十分簡單,然後根據編碼表,找到每個質數對應的CD分子,就知道這代表的是CD3+CD4+CD25+CD45+CD127-信息,這以後可通過程序快速實現。
PPS系統有什麼好處呢?
1、確保每類細胞命名的唯一性,不需要命名和文字描述,只需簡單地用一串數字就可概括細胞特徵,能夠準確反推其CD分子表達特點。
2、文獻中包括這串數字,不僅代表了細胞種類,而且代表了細胞表達抗原的信息,非常有利於準確的檢索。比如ILC3/1,有些地方叫ex-ILC,命名不統一,造成文獻檢索困難,如果Pubmed MESH關鍵詞用這串數字,就可避免此類問題。還有抗原的表達,有的地方用dim,有點地方用low,但是轉換成PPS表示法,都是該抗原對應的質數立方,實現了表達方式的統一。
3、有利於信息存儲和處理,以最簡單的方式存儲了細胞所有表達特點,使得數據存儲、大數據運算、機器性描述成為可能。
由人白細胞分化抗原研討會建立的CD命名法,其實也是數字,但命名的時候只考慮到按順序命名,沒有考慮到日後的描述和數據存儲、處理需要,PPS系統我倒是覺得很好的解決了這個困境。不過,替代的困難還是很大,首先這類信息只能用在機器處理和存儲上,雖然對於數據處理十分有利,但用來交流還不是特別適合,這可能是人們對其接受程度的唯一限制因素;其次,要代表同一種細胞,需要採用的是同一種組合,才能等同,不過日後可以將不同組合的計算結果指向同一種細胞,還是可以解決此問題的。
怎麼樣,這個思路腦洞大開吧,非常信息化的思路,期待有一天能普及開來。
參考文獻:Cosma A. Universal cell type identifier based on number theory. Cytometry A. 2018 Feb 23. doi: 10.1002/cyto.a.23346.