❑ 導 讀
融合基因用"/"還是用"-"?SEPT/MARCH系列名稱使用EXCEL處理時還需要人工檢查嗎?你除了使用 NCBI Entrez GeneID外是否還使用過HGNC ID嗎?接下來,本文帶你聊聊基因命名的過程。
本文系貴州生命大數據研究院原創編譯,歡迎分享,轉載須授權
人類基因命名委員會(Human Gene Nomenclature Committee) 在1979年開始致力於基因命名標準化,他們審批研究人員對人類基因命名和重命名,並將審批通過的基因名稱和符號記錄到各個資料庫。
1989年人類基因組組織(Human Genome Organization ,簡稱:HUGO)正式成立並接管人類基因命名委員會,改名為人類基因組組織-基因命名委員會(HUGO Gene Nomenclature Committee,簡稱:HGNC),並對人類基因命名法則進行了密集的修訂。
迄今為止,HGNC已經命名了超過40000個人類基因座,其中大約有一半是編碼蛋白質的基因。除了蛋白質編碼基因的命名外,不同類別的RNA基因和偽基因的命名法則也取得了重大進展。所有批准通過的人類基因符號均可在HGNC在線資料庫中檢索到(https://www.genena
HGNC遵循人類基因命名發展變化的原則,跟隨生命科學領域的新技術和新發現進而對基因的命名進行修訂和完善。但隨著基因組學在臨床上的應用日益廣泛,讓所有臨床醫生、患者、慈善機構和科研人員接受新的基因命名是具有很大難度的。所以基因命名的穩定性,特別是與疾病相關的基因命名的穩定性至關重要。
HGNC要求研究人員命名或者重命名基因的時候聯繫他們,通過他們審批該命名是否成立。對於審批通過的命名,HGNC會將該命名將記錄進入生物資料庫。對於審批不通過的命名申請,HGNC會為研究人員提供其他指導名稱。HGNC進一步鼓勵期刊編輯和審稿人檢查所審文章是否使用了經過批准的基因命名,並要求作者在發表任何新的基因符號之前應聯繫他們。
下圖為IncRNAs命名申申請的HGNC審核流程示例:
序列變異命名法。這屬於人類基因組變異學會(Human Genome Variation Society,簡稱:HGVS)的職責範圍,該學會為解析DNA、RNA和蛋白質序列的變異的命名提供建議。
基因易位或融合的產物的命名。使用」/「啟用」-「將兩個或多個基因進行連接命名。例如:SYMBOL1-SYMBOL2被廣泛使用,但HGNC建議使用SYMBOL1/SYMBOL2格式。
關於使用蛋白質命名法。HGNC與酶委員會(Enzyme Commission)密切合作編寫了《國際蛋白質命名法指南》(https://www.ncbi.nlm.nih.gov/genome/doc/internatprot_nomenguide/)。根據其中的準則,建議蛋白質和基因符號應該使用相同的縮寫。
調控基因組元件的命名法。調控元件包括啟動子、增強子和轉錄因子結合位點。該類元件根據Mayer et al.的標準來命名。
與臨床表型和複雜性狀相關的人類基因座的命名法。雖然HGNC以前曾為這些基因座命名,但這一工作已被在線人類孟德爾遺傳資料庫(Online Mendelian Inheritance in Man ,簡稱:OMIM)接管。
HGNC將基因定義為「具有特定功能的DNA片段,在功能不明確的情況下,基因具有序列特徵、轉錄特徵或同源性特徵「。理想情況下,對基因命名的符號要簡短、容易記憶和發音,而且大多數基因名稱應是對基因符號的具體描述。
基因名稱應該簡短而具體,應該傳達基因產物的特徵或功能,但不求能描述關於該基因的一切特徵。每個基因只有一個符號,對基因的不同轉錄本不進行命名(轉錄本包括ncRNA 亞型、ncRNA選擇性轉錄本等)。特殊情況下,在複雜的複合位點中,基因片段使用獨特的基因符號。例如:假定的雙順反子基因座可以使用不同的符號來表示不同的基因產物。
通常情況下基因命名遵從如下規則:
1. 每一個基因被命名為唯一符號,包括HGNC ID和描述性名稱。
2. 基因符號只包含大寫拉丁字母和阿拉伯數字。
3. 基因符號不應與常用的縮寫相同。
4. 命名法不應包含任何物種名稱或使用「G」表示基因。
5.命名法不應帶有冒犯或貶損的情感色彩。
對於編碼蛋白質的基因,HGNC根據該基因編碼的產物來命名該基因。當一個基因編碼多個蛋白時,以其中最關鍵的、功能最普遍的蛋白質來命名該編碼基因。通常是基於序列的同源性,功能的相似性或在蛋白質複合體中的成員關係來確定相關基因。
相關基因使用一個共同的根符號來命名,以實現分組。基因家族成員使用根符號後面的阿拉伯數據進行區分(例如,KLF1, KLF2和KLF3),偶爾也在根符號後面添加單字母後綴(例如,LDHA、LDHB和LDHC)。對於參與特異性免疫過程的基因,或編碼酶、受體或離子通道的基因,HGNC會諮詢專業命名小組。
對於編碼的蛋白功能不清楚的情況下,蛋白質編碼基因可以用以下方式命名。
1. 基於該編碼基因公認的結構域和基序命名(如:ABHD1,abhydrolase domain containing1);
2. 基於人類基因組內的同源基因命名(每個同源家族都有一個唯一的家族編號(如:FAM3);
3. 基於另一物種的同源基因命名(如:CDC45,cell division cycle45,它是基於釀酒酵母CDC45命名);
4. 基於開放命名框架的命名,該框架預設為:染色體編號+orf+序數(如:C3orf18)。
假基因是與功能基因具有高度同源性的序列但不能產生功能性蛋白的基因。針對假基因(Pseudogenes)的命名規則如下:如果假基因被經過處理,則根據其同源親本基因進行命名(如DPP3P1,DPP3 pseudogene 1)。如果假基因沒有被經過處理,則在其同源親本基因後添加後綴「 P」形成新家族成員(如CBWD4P,COBW domain containing 4,pseudogene)。
參考基因組中有少數基因是假基因,但在群體中存在編碼等位基因。這些基因座被賦予「蛋白質編碼」的基因型,通過在基因名末端的「(gene/pseudogene)」表示(如:CASP12,「caspase12(gene/pseudogene)」)。
對於非蛋白編碼RNA基因的命名(Non-coding RNA genes),根據非蛋白編碼RNA基因的RNA類型來命名(如MIR32,MicroRNA-32)。
針對功能或特徵已知的長鏈非編碼RNA,可根據其功能或特徵來命名。
由相鄰基因座產生的基因,包含兩個(或多個)基因的編碼和/或非編碼區域稱為通讀轉錄本(Readthrough transcripts),使用親本來源的兩個(或多個)基因相連命名(如INS-IGF2 readthrough)。
對於基因片段(Gene segments),對於特定的複雜基因座,按照學術需求單獨命名。
基因組區域(Genomic regions),HGNC不再為基因組區域命名,但保留以往已發表的基因組區域命名。
HGNC只批准了人類參考基因組中的基因符號。在群體亞群中發現的基因由基因組參考協會(Genome Reference Consortium,簡稱:GRC)統一命名(如HLA和KIR基因家族中的結構變異)。此外,具有複雜進化史的基因家族最好在該領域專家的幫助下命名。
脊椎動物(Naming across vertebrates) 基因的名命由脊椎動物基因命名委員會命名(Vertebrate Gene Nomenclature Committee,簡稱:VGNC),現已建立五個脊椎動物命名委員會,脊椎動物基因命名委員會負責對目前未命名的椎骨物種基因進行標準化命名。
1、佔位符的符號更新,例如FAMs, C#orfs 和 KIAAs被視為佔位符,並儘可能使用基於結構的、函數的名稱進行更新。
2、描述不充分或有問題術語的更新:
i. 採用更合適或更常用的別名,例如:RNASEN更新到DROSHA(drosha ribonuclease III),因為行業裡面更多人使用DROSHA;
ii. 基於結構域或基序的命名,例如:TMEM206(transmembrane protein 206)現在更新為PACC1(proton activated chloride channel 1);
iii. 基於疾病或表型的命名,例如:CASC4(cancer sensitivity candidate 4)被重新命名為GOLM2 (golgi membrane protein 2),去掉了對表型的參考,並與其同源GOLM1保持一致;
iv. 基於基因組位置的命名,例如:TWISTNB (TWIST neighbor) 更名為POLR1F (RNA polymerase I subunit F);
v. 具有歧義符號,例如:DOPEY1更名為DOP1A (DOP1 leucine zipper like protein A);
vi. 誤導性或不正確的術語,例如:OTX3最初被錯誤地認為是OTX家族成員,現在已經被重新命名DMBX1(diencephalon/mesencephalon homeobox 1);
vii. 影響數據處理和檢索的術語,例如:所有在Excel中會自動轉換成日期的符號,SEPT1現在更改為SEPTIN1、MARCH1更改為MARCHF1。同樣常見的tRNA合成酶符號已經被改變,WARS更改為 WARS1; CARS 更改為 CARS1。
3、基因符號使用形式更新:使用斜體來表示基因,等位基因和RNA;使用正體表示蛋白質。
參考資料:
Bruford, E.A., Braschi, B., Denny, P. et al. Guidelines for human gene nomenclature. Nat Genet 52, 754–758 (2020). https://doi.org/10.1038/s41588-020-0669-3
原文連接:https://www.nature.com/articles/s41588-020-0669-3