對於生命科學領域的年輕研究者們來說,最習以為常、見怪不怪的一件事,除了隔壁實驗室某整天排位上分的博士師弟又發了CNS、某不是自己在談戀愛就是在看電視裡的人談戀愛的碩士師妹又掛上一篇review成功畢業之外;恐怕就屬教科書裡、文獻紙上處處存在的各種基因的大寫、小寫、正體、斜體的,或有意義或沒意義的的名字了。它們就像你家門口的那塊不知從何時起就立著的指示牌,雖然上面標著「濟南路」,但你很清楚它的盡頭站著的不是大明湖畔的夏雨荷,而是一塊錢可以買到四個窩窩頭的早餐店。
畢竟,在人類基因組計劃完成二十年後、各類物種的功能基因組學圖譜日臻完善的今天,想要在基因組中找到一個新的功能元件,並證明它夠得上稱之為「基因」的格,從而為基因字典加入一個新的標籤,簡直比登天還難。
不過,還是有一些做起科研來如同坐火箭一般的牛人,憑藉高超的太空捕撈技術,能夠一飛沖天、直入充滿基因暗物質的茫茫宇宙,摘下某顆未曾被人欣賞過的新星。
此時,一個科學家的自我修養要求他們必須把搞清楚這個新基因的功能作為首要任務,但大部分人卻往往忍不住先幹起了一件特「俗」的事——給基因取名!那種衝動,讓人不禁懷疑這些科學家們是否是在彌補給自己孩子取名時沒有話語權的遺憾。
然而,令他們沒有想到的是,在給基因取名這件事上,因為一個位於英格蘭劍橋郡的低調卻高貴的委員會的存在,他們實現自己的惡趣味的想法從一開始就註定失敗。
這個掌控著生命科學的門面行業——基因命名的委員會,即國際人類基因組組織基因命名委員會(Human Genome Organization Gene Nomenclature Committee, H(UGO)GNC)。2020年8月3日,HGNC再一次現身,用一篇發表在Nature Genetics上的評論文章Guidelines for human gene nomenclature,重申了自己對於基因命名這件事的嚴肅性的執著,向一切和自己對著幹的人和物(包括經常把自己批准的標準基因名無端轉變成日期標籤的微軟Excel軟體)發出了最嚴正的勸誡(和最無奈的妥協,見後文)。
要理解HGNC存在的意義,就不得不提到,在基因命名史前的漫漫長夜中,有多少無辜的基因嬰兒曾經「慘遭毒手」,一出生就被冠上一個註定命運多舛的姓名。
如果說像TP53這樣因為認知偏差導致「錯誤」命名的(對應蛋白名為p53,來源於SDS-PAGE蛋白電泳結果,表觀分子量為53 kDa,實際分子量為43.7 kDa)【1】,或者BRCA1這樣因為和某種疾病直接掛鈎而簡單化命名【2】的尚可接受;那麼像Sonic hedgehog(正式基因名縮寫為SHH)【3】或Pokemon(基因名後確定為ZBTB7A)【4】這樣被二次元愛好者強行霸佔,或者像Son of sevenless(基因名縮寫為SOS1)【5】這樣由於處於果蠅基因sevenless調控下遊就被安排了一個爸爸,像fruitless(基因名後確定為ZBTB22)【6】這樣因為具有改變果蠅性取向能力就自帶嘲諷氣質的,則無疑是突破了人類和基因和平共存的「底線」。
令人安慰的是,上述「令人髮指」的花式命名行為中,有的在被科學共同體糾正之前就已經遭受了「出圈」被懟的待遇:跟世嘉公司放過音速索尼克商標被瘋狂科學家挪用的結局不同,任天堂在自己名下的精靈寶可夢商標被斯隆·凱特琳癌症中心的科學家使用之後的一年內,即公開威脅要控告對方,理由是「不希望寶可夢的形象因與癌症產生聯繫而受損」【7】。
在這種秩序崩壞的情況下,HGNC和它所制定的基因命名準則的出現,無疑讓那些出於各種人為因素曾經「誤入歧途」的基因名重獲了新生。
早在上個世紀六、七十年代,生命科學家們就意識到了給基因規範化命名的重要性。在1979年於蘇格蘭愛丁堡召開的人類基因組大會上,基因命名委員會首次被正式賦予批准和制定基因名稱的權力,同時發布了歷史上首個基因命名準則【8】。這一準則在經歷了多代更迭後,形成了一個完整、多樣化且適應性強的體系,它的主要內容包括:
1. 基因符號必須唯一;
2. 基因符號應是對應基因名稱的縮寫;
3. 基因符號應只包含拉丁字母和阿拉伯數字;
4. 基因符號不應包含任何標點符號;
5. 基因符號不應以字母G指代「gene」;
6. 基因符號不應包含物種指代,如用「H/h」指代人類。
基於這一嚴格的標準,HGNC如今已為超過四萬個人類基因組位點命名,其中有近一半為非蛋白編碼基因,包括RNA基因、lncRNA基因和假基因等。與蛋白編碼基因命名過程的直截、清晰相比,非編碼基因的命名往往具有不少困難,主要集中在是否具有功能性證據、物種同源程度高低、與已注釋區域存在重疊等關鍵問題上。例如HGNC專門針對近年來受到廣泛關注的在生物功能上存有爭議的lncRNA的命名流程進行了設計:
HGNC所制定的基因命名規則的生命力不僅來自於其基於的科學原則和共同體共識,也來源於與時俱進的靈活性。例如,基因DROSHA曾經被命名為RNASEN,但由於相應研究領域的強烈呼籲,最終被修改為DROSHA。又如,微軟公司開發的便民高科技人工智慧表格處理軟體Excel一直因其強行轉化某些基因名稱為日期標籤而廣受業內詬病(如MARCH1->1-Mar,SEPT1->1-Sep);一篇發表於2016的研究甚至發現有接近五分之一之多的基因組學研究論文存在因為被Excel「誤解」而導致的命名錯誤【9】;作為回應,HGNC將存在這一問題的27個基因的名稱全部進行了修改,例如將MARCH1改為MATCHF1,將SEPT1改為SEPTIN1等。
值得一提的是,HGNC並不是一切廣義上與人類基因的「名稱」相關的事務的最終決定者。例如,HGNC不負責批准和制定基因編碼之蛋白的符號與名稱、不負責注釋啟動子、增強子之類的基因調控元件等。當然這並不意味著花式命名狂熱者們就可以在這些領域中「胡作非為」了:以增強子為例,包括FANTOM和Ensembl在內的多個國際組織或機構都具有根據各自確定的功能性證據準則進行增強子注釋和命名的權力,只不過在一致性和穩定性上略遜於HGNC罷了。
話說回來,HGNC作為一個非營利性、非政府的科學公益組織,對基因命名這項事務的「管理」,很大程度上只是一種基於學術共同體意願的無償服務,而並不象徵著中心化的統一控制。這就意味著HGNC在批准和制定基因符號與名稱時,仍要最大限度地尊重作為基因發現者的科學家們的理念和「創意」。畢竟,不負責任的無釐頭式命名只是極少數,絕大部分科學家在給基因命名時還是能夠做到既簡潔明晰,又富含意義。
在這方面,一個經典的例子是,芝加哥大學分子進化生物學家龍漫遠教授在上個世紀九十年代對果蠅嵌合基因「精衛」(Jingwei, jgw)及其祖先基因進行命名時,受到中國古代神話傳說《山海經》的啟發,將黃帝基因(yellow-emperor, ymp)經複製/倍增(duplication)形成炎帝基因(yande, ynd),隨後又經由乙醛脫氫酶基因(Alcohol dehydrogenas, Adh)的反轉錄轉座(retroposition)插入而形成精衛基因的奇妙過程,以神話中的人物關係代稱,創造性地刻畫了精衛基因的分子起源過程,以及它從一個被認為是無功能的假基因(pseudogene)轉變為確證有功能的蛋白編碼基因的「死而復生」的跌宕經歷【10】。
原文連結:
https://www.nature.com/articles/s41588-020-0669-3
製版人:十一
參考文獻
1. Levine, Arnold J., and Moshe Oren. &34; Nature reviews cancer 9.10 (2009): 749-758.
2. Miki, Yoshio, et al. &34; Science 266.5182 (1994): 66-71.
3. Roessler, Erich, et al. &34; Nature genetics 14.3 (1996): 357-360.
4. Maeda, Takahiro, et al. &34; Nature 433.7023 (2005): 278-285.
5. Rogge, Ronald D., Chris A. Karlovich, and Utpal Banerjee. &34; Cell 64.1 (1991): 39-48.
6. Demir, Ebru, and Barry J. Dickson. &34; Cell 121.5 (2005): 785-794.
7. Simonite, Tom. &34; (2005): 897.
8. Shows, T. B., et al. &34; Birth defects original article series 15.11 (1980): 96.
9. Ziemann, Mark, Yotam Eren, and Assam El-Osta. &34; Genome biology 17.1 (2016): 1-3.
10. Long, Manyuan, et al. &34; Nature Reviews Genetics 4.11 (2003): 865-875.