給基因取一個溫暖的名字,HGNC教你給基因取名

2020-10-21 貴州生命大數據研究院

❑ 導 讀

融合基因用"/"還是用"-"?SEPT/MARCH系列名稱使用EXCEL處理時還需要人工檢查嗎?你除了使用 NCBI Entrez GeneID外是否還使用過HGNC ID嗎?接下來,本文帶你聊聊基因命名的過程。


本文系貴州生命大數據研究院原創編譯,歡迎分享,轉載須授權


1 基因命名的歷史與貢獻


人類基因命名委員會(Human Gene Nomenclature Committee) 在1979年開始致力於基因命名標準化,他們審批研究人員對人類基因命名和重命名,並將審批通過的基因名稱和符號記錄到各個資料庫。


1989年人類基因組組織(Human Genome Organization ,簡稱:HUGO)正式成立並接管人類基因命名委員會,改名為人類基因組組織-基因命名委員會(HUGO Gene Nomenclature Committee,簡稱:HGNC),並對人類基因命名法則進行了密集的修訂。


迄今為止,HGNC已經命名了超過40000個人類基因座,其中大約有一半是編碼蛋白質的基因。除了蛋白質編碼基因的命名外,不同類別的RNA基因和偽基因的命名法則也取得了重大進展。所有批准通過的人類基因符號均可在HGNC在線資料庫中檢索到(https://www.genena


2 HGNC基因命名的原則及應用


HGNC遵循人類基因命名發展變化的原則,跟隨生命科學領域的新技術和新發現進而對基因的命名進行修訂和完善。但隨著基因組學在臨床上的應用日益廣泛,讓所有臨床醫生、患者、慈善機構和科研人員接受新的基因命名是具有很大難度的。所以基因命名的穩定性,特別是與疾病相關的基因命名的穩定性至關重要。


HGNC要求研究人員命名或者重命名基因的時候聯繫他們,通過他們審批該命名是否成立。對於審批通過的命名,HGNC會將該命名將記錄進入生物資料庫。對於審批不通過的命名申請,HGNC會為研究人員提供其他指導名稱。HGNC進一步鼓勵期刊編輯和審稿人檢查所審文章是否使用了經過批准的基因命名,並要求作者在發表任何新的基因符號之前應聯繫他們。


下圖為IncRNAs命名申申請的HGNC審核流程示例:



3 怎麼為你的新發現起個名


序列變異命名法。這屬於人類基因組變異學會(Human Genome Variation Society,簡稱:HGVS)的職責範圍,該學會為解析DNA、RNA和蛋白質序列的變異的命名提供建議。


基因易位或融合的產物的命名。使用」/「啟用」-「將兩個或多個基因進行連接命名。例如:SYMBOL1-SYMBOL2被廣泛使用,但HGNC建議使用SYMBOL1/SYMBOL2格式。


關於使用蛋白質命名法。HGNC與酶委員會(Enzyme Commission)密切合作編寫了《國際蛋白質命名法指南》(https://www.ncbi.nlm.nih.gov/genome/doc/internatprot_nomenguide/)。根據其中的準則,建議蛋白質和基因符號應該使用相同的縮寫。


調控基因組元件的命名法。調控元件包括啟動子、增強子和轉錄因子結合位點。該類元件根據Mayer et al.的標準來命名。


與臨床表型和複雜性狀相關的人類基因座的命名法。雖然HGNC以前曾為這些基因座命名,但這一工作已被在線人類孟德爾遺傳資料庫(Online Mendelian Inheritance in Man ,簡稱:OMIM)接管。



4 HGNC人類基因命名規則


HGNC將基因定義為「具有特定功能的DNA片段,在功能不明確的情況下,基因具有序列特徵、轉錄特徵或同源性特徵「。理想情況下,對基因命名的符號要簡短、容易記憶和發音,而且大多數基因名稱應是對基因符號的具體描述。


基因名稱應該簡短而具體,應該傳達基因產物的特徵或功能,但不求能描述關於該基因的一切特徵。每個基因只有一個符號,對基因的不同轉錄本不進行命名(轉錄本包括ncRNA 亞型、ncRNA選擇性轉錄本等)。特殊情況下,在複雜的複合位點中,基因片段使用獨特的基因符號。例如:假定的雙順反子基因座可以使用不同的符號來表示不同的基因產物。


通常情況下基因命名遵從如下規則:

1. 每一個基因被命名為唯一符號,包括HGNC ID和描述性名稱。

2. 基因符號只包含大寫拉丁字母和阿拉伯數字。

3. 基因符號不應與常用的縮寫相同。

4. 命名法不應包含任何物種名稱或使用「G」表示基因。

5.命名法不應帶有冒犯或貶損的情感色彩。



5 根據生物特性命名編碼基因


對於編碼蛋白質的基因,HGNC根據該基因編碼的產物來命名該基因。當一個基因編碼多個蛋白時,以其中最關鍵的、功能最普遍的蛋白質來命名該編碼基因。通常是基於序列的同源性,功能的相似性或在蛋白質複合體中的成員關係來確定相關基因。


相關基因使用一個共同的根符號來命名,以實現分組。基因家族成員使用根符號後面的阿拉伯數據進行區分(例如,KLF1, KLF2和KLF3),偶爾也在根符號後面添加單字母後綴(例如,LDHA、LDHB和LDHC)。對於參與特異性免疫過程的基因,或編碼酶、受體或離子通道的基因,HGNC會諮詢專業命名小組。


對於編碼的蛋白功能不清楚的情況下,蛋白質編碼基因可以用以下方式命名。

1. 基於該編碼基因公認的結構域和基序命名(如:ABHD1,abhydrolase domain containing1);

2. 基於人類基因組內的同源基因命名(每個同源家族都有一個唯一的家族編號(如:FAM3);

3. 基於另一物種的同源基因命名(如:CDC45,cell division cycle45,它是基於釀酒酵母CDC45命名);

4. 基於開放命名框架的命名,該框架預設為:染色體編號+orf+序數(如:C3orf18)。


6 根據生物特性命名假基因


假基因是與功能基因具有高度同源性的序列但不能產生功能性蛋白的基因。針對假基因(Pseudogenes)的命名規則如下:如果假基因被經過處理,則根據其同源親本基因進行命名(如DPP3P1,DPP3 pseudogene 1)。如果假基因沒有被經過處理,則在其同源親本基因後添加後綴「 P」形成新家族成員(如CBWD4P,COBW domain containing 4,pseudogene)。


參考基因組中有少數基因是假基因,但在群體中存在編碼等位基因。這些基因座被賦予「蛋白質編碼」的基因型,通過在基因名末端的「(gene/pseudogene)」表示(如:CASP12,「caspase12(gene/pseudogene)」)。


7 根據生物特性命名其他基因


對於非蛋白編碼RNA基因的命名(Non-coding RNA genes),根據非蛋白編碼RNA基因的RNA類型來命名(如MIR32,MicroRNA-32)。


針對功能或特徵已知的長鏈非編碼RNA,可根據其功能或特徵來命名。


由相鄰基因座產生的基因,包含兩個(或多個)基因的編碼和/或非編碼區域稱為通讀轉錄本(Readthrough transcripts),使用親本來源的兩個(或多個)基因相連命名(如INS-IGF2 readthrough)。


對於基因片段(Gene segments),對於特定的複雜基因座,按照學術需求單獨命名。


基因組區域(Genomic regions),HGNC不再為基因組區域命名,但保留以往已發表的基因組區域命名。


8 群體亞群和脊椎動物基因命名


HGNC只批准了人類參考基因組中的基因符號。在群體亞群中發現的基因由基因組參考協會(Genome Reference Consortium,簡稱:GRC)統一命名(如HLA和KIR基因家族中的結構變異)。此外,具有複雜進化史的基因家族最好在該領域專家的幫助下命名。


脊椎動物(Naming across vertebrates) 基因的名命由脊椎動物基因命名委員會命名(Vertebrate Gene Nomenclature Committee,簡稱:VGNC),現已建立五個脊椎動物命名委員會,脊椎動物基因命名委員會負責對目前未命名的椎骨物種基因進行標準化命名。


9 基因術語更新方向


1、佔位符的符號更新,例如FAMs, C#orfs 和 KIAAs被視為佔位符,並儘可能使用基於結構的、函數的名稱進行更新。


2、描述不充分或有問題術語的更新:

i. 採用更合適或更常用的別名,例如:RNASEN更新到DROSHA(drosha ribonuclease III),因為行業裡面更多人使用DROSHA;

ii. 基於結構域或基序的命名,例如:TMEM206(transmembrane protein 206)現在更新為PACC1(proton activated chloride channel 1);

iii. 基於疾病或表型的命名,例如:CASC4(cancer sensitivity candidate 4)被重新命名為GOLM2 (golgi membrane protein 2),去掉了對表型的參考,並與其同源GOLM1保持一致;

iv. 基於基因組位置的命名,例如:TWISTNB (TWIST neighbor) 更名為POLR1F (RNA polymerase I subunit F);

v. 具有歧義符號,例如:DOPEY1更名為DOP1A (DOP1 leucine zipper like protein A);

vi. 誤導性或不正確的術語,例如:OTX3最初被錯誤地認為是OTX家族成員,現在已經被重新命名DMBX1(diencephalon/mesencephalon homeobox 1);

vii. 影響數據處理和檢索的術語,例如:所有在Excel中會自動轉換成日期的符號,SEPT1現在更改為SEPTIN1、MARCH1更改為MARCHF1。同樣常見的tRNA合成酶符號已經被改變,WARS更改為 WARS1; CARS 更改為 CARS1。


3、基因符號使用形式更新:使用斜體來表示基因,等位基因和RNA;使用正體表示蛋白質。


參考資料:

Bruford, E.A., Braschi, B., Denny, P. et al. Guidelines for human gene nomenclature. Nat Genet 52, 754–758 (2020). https://doi.org/10.1038/s41588-020-0669-3

原文連接:https://www.nature.com/articles/s41588-020-0669-3

相關焦點

  • 勇蜜科學家給基因取名波波維奇:以後還可能有鄧肯基因
    北京時間11月14日,據《聖安東尼奧快報》報導,一名是勇士球迷的女科學家,和她的合作夥伴發現了一種特性和馬刺主教練格雷格-波波維奇類似的基因,然後給這種基因取名波波維奇;這位女科學家還表示,她們還可能用一些馬刺球員的名字來給其他基因命名。
  • 如何給公司取一個好名字?7個公司取名方法快速取名!
    公司名字是企業的第一張名片,代表著企業的自我形象;一個好的名字,可以瞬間印刻在聽者的腦海裡,簡單好記而不失內涵,不但易於傳播,還能大大降低推廣成本,快速打開市場。比如「百度」這個名字就取得非常好!
  • 男孩名字怎麼取才能瀟灑大氣?教爸爸媽媽們做個取名奇才!
    因此在孩子出生會賜予他第一個禮物,那就是名字,許多父母會在名字上下功夫,怎麼取一個瀟灑大氣的男孩名字成了難題。那麼今天小編就給大家帶來一些這樣瀟灑大氣的好名字,教爸爸媽媽們做個取名奇才!承羽「承羽」兩字讀起來是平仄和仄聲,符合名字所需要的音律感,好聽又大氣。
  • 男孩起名,男孩取名,男孩取名字大全最新版
    一個男孩名字不光要音形好,更重要的是名字要有內涵,要有深意。怎樣為男孩起名,男孩取名?如何給男孩取名字?這需要我們了解起名的必要知識和技巧。一個有內涵男孩名字,才符合當今時代的發展。怎麼讓名字充滿寓意呢?我們可以根據古詩名句給男孩起名字。
  • 爸爸姓林,為五胞胎取名發愁,奶奶靈光一閃,取的名字全家稱絕了
    不過接踵而來的就是一項非常讓人頭疼的問題,那就是如何給五胞胎取名字呢?一個寶寶取名字還好說一些,同時給五胞胎取名確實存在一定難度,畢竟不能那麼草率,隨隨便便給寶寶起一些簡單的名字。不僅要有一定寓意,而且還要聽著好聽,總不能像曾經的一位姓王的爸爸,給兒子取名王者榮耀吧!林先生和妻子是大學同學,兩個人經過五年的戀愛長跑,最終如願以償走入婚姻殿堂。
  • 妤字取名很有寓意,用妤字給女孩取個洋氣的名字
    相信作為家長的你,也希望自己的女兒如「婕妤」一樣才華出眾,知書達理,受人喜歡,還等什麼呢?「妤」字就有聰明美麗的含義,趕快給您的女孩起一個帶妤字的洋氣名字吧。妤字取名洋氣女孩名字妤字不僅寓意美好,而且還是一個女字旁的字,極具女性色彩
  • 如何取一個好聽又有個性的淘寶店鋪名字?
    為了能夠在淘寶店鋪中突出重圍,關於名字的起法也是花樣百出,今天起名網就教大家一些取淘寶個性店鋪名稱的技巧吧。突出店鋪主題淘寶店鋪名一定要突出自己的店鋪經營主題,如果名字不鮮明,是很難打響自己的品牌的,更不用說到達更大範圍內的受眾。
  • 特別關注 | 想給基因取個名兒?也要按照基本法
    對於生命科學領域的年輕研究者們來說,最習以為常、見怪不怪的一件事,除了隔壁實驗室某整天排位上分的博士師弟又發了CNS、某不是自己在談戀愛就是在看電視裡的人談戀愛的碩士師妹又掛上一篇review成功畢業之外;恐怕就屬教科書裡、文獻紙上處處存在的各種基因的大寫、小寫、正體、斜體的,或有意義或沒意義的的名字了。
  • 取個好名字有多難?二胎爸爸瘋狂下載20多個取名app
    原標題:取個好名字有多難?二胎爸爸瘋狂下載20多個取名app這段時間,全國各地公安部門陸續公布了2018年新生兒「爆款名字」。其中,杭州伢兒中,1萬名女寶有44個叫「一諾」,1萬名男寶有22個叫「浩然」和「宇澤」。
  • 給孩子取名Candy、Lucky?你確定是美好寓意?取英文名有些坑誤入
    現如今,給孩子取一個英文名已經不是什麼新奇的事情了。更有家長為了讓孩子學好外語,從幼兒園開始就把孩子送到了雙語學校,因此給孩子取一個特別的英文名顯得十分重要。如果你還認為給孩子起英文名屬於崇洋媚外,那你有點太落後了。
  • 想做基因檢測領域的「百度」,你靠譜嗎?
    不知道你是否還記得,之前雷科技( ID:leitech )介紹過的 23andMe ,這家國外的基因測試公司憑藉著口水來測基因,已經在國外火了好幾年。不得不吐槽,單是名字就感覺很山寨。為什麼取了一個這麼雷同的名字呢,他們那邊是這麼解釋的:「23 魔方取名於人體擁有 23 對染色體。這些染色體千變萬化,猶如魔方一樣,組成每個人獨一無二的特徵。」
  • 微信號可以修改了 怎麼取一個好聽的微信名
    然後就有小夥伴後臺私信我,問我如何取一個好聽的微信名。那麼今天的主題就教大家取一個好聽的微信名吧。要取名,首先要知道取名範圍。給一個中國人取一個阿拉伯名字,估計民政部門估計直接懵了,怎麼切換輸入法都不知道。微信名官方提醒,微信號必須以字母開頭,可以使用6-20位數字、字母、下劃線、減號或它們的組合。
  • 寶寶無釐頭名字逗笑外教,三招教你給娃取英文名
    鏘寶出生時,我和鏘爸就因為給娃起名字絞盡了腦汁,還免不了被家人奚落:兩個文學碩士,取不出一個名字,大學都幹了啥?萬沒想到過了中文關,還有英文關,只能向英語專八的Kiki求助。Kiki給了一連串選擇,什麼Cole、 Juan、Miles、Blake、Chase之類,最後我們選了感覺很敏捷時髦的Chase。等到上課那天,小朋友們一字排開,開始用英文名介紹自己。
  • 2020鼠年寶寶取名起名字大全:小孩取名男孩名字姓劉
    漢朝的國姓即為劉姓,由此可說劉姓是一個含有著歷史文化的姓氏,內附有深厚的文學底蘊。若男孩的姓氏為劉姓,其內表有著大富大貴、平步青雲的內涵,其外由於其語音的溫柔,加上其姓氏的古典性,會給人一種哲學的印象。下面分享了小孩取名男孩名字姓劉,有興趣的可隨我一起來看看。
  • 新生兒取名國學底蘊的名字大全
    說到新生兒取名,為新生兒取個國學底蘊的名字是所有父母的心願。那麼新生兒取名有些什麼樣的技巧?一個國學有底蘊的新生兒名字不僅在音形等方面要有美感,也需要能表達出名字的寓意內涵,體現男孩的氣質。大家都知道名字給男孩帶來的影響是巨大的,一個有國學底蘊的新生兒名字不管顯得非常的有內涵,而且給人的第一印象也是好的。接下來天賜佳名小編就新生兒取名,分享一些有國學底蘊的名字大全,其中有一些精選的國學名字和取名小技巧,感興趣的不妨來這裡參考下。
  • 怎麼給泰迪取名字,泰迪最火名字大全,快來取這些時尚的名字
    主人們也需要給自己的好夥伴取一個好聽的名字,那麼肯定有人疑惑並且猶豫要給自己的狗狗起一個怎樣的名字才配得上它,所以今天我們來看看那些適合泰迪狗的名字有哪些。其實取名字很簡單也有一些小技巧,可以根據狗狗的性格、性別來命名,也可以根據狗狗的毛色、品種來取名。
  • 寶寶取名字生辰八字五行起名鼠寶寶取名字大全男孩
    名字是人生的一個代號,但又不僅僅是一個代號,或許代表著一個氏族血脈的傳承,或許蘊含著父母對孩子的殷切期望。對中國人而言,給孩子取名是很重要的事,鼠年出生的男孩眾多,父母可以參考鼠寶寶取名字大全男孩為孩子取名,將那份愛意藏在名字裡,希望這份愛能伴隨孩子一生。
  • 新生兒起名字取名字生辰八字五行起名:帶火字旁的女孩名字
    因火焰能夠給人帶來明亮,所以帶火字旁的漢字一般都含有光明的意思,寓意美好吉祥,這就讓很多父母都想要使用帶火字旁的漢字給女孩取名。那麼對於屬鼠的女孩來說,要怎麼使用帶火字旁的字給她取一個好名字呢?為了幫助各位解答這個問題,下面卜廣鑑老師就為大家盤點一起女孩名字大全。
  • 王力宏給孩子取小名,被調侃史上最直的名字,沒有一個筆畫是彎的
    文章原創,版權歸本作者所有,歡迎個人轉發分享偶然在網上看到王力宏給孩子取名「王一」,這個名字一聽夠特別又省事。去搜索了才知道,原來「王一」是王力宏給孩子取的小名,而非大名。王力宏有3個子女,兩個女兒分別取名王嘉莉、王嘉娜。在第三個兒子出生之前,王力宏還在網上給兒子徵集名字,最後決定叫做王嘉耀。孩子的大名很正常,但是小名卻並不簡單。在第一個孩子出生之前,王力宏就給孩子取了小名叫「王一」,並表示:「無論生的是男孩還是女孩,都可以叫這個小名。」
  • 電視劇取名關乎成敗?這些劇名的含義你get到了嗎?
    電視劇取名越來越變成一個技術活,如果不帶點詩意或者小清新,都不好意思播出。最近,新播出的電視劇,無論是《溫暖的弦》還是《真愛的謊言之破冰者》,以及《海上嫁女記》等電視劇,光看電視劇名真讓人摸不著頭腦。《溫暖的弦》給人的印象以為是一部與音樂相關的電視劇,結果看了一集才讓人明白,溫暖是女主角的名字,弦是男主角名字裡的一個字,真是讓人出乎意料。