有時重寫遺傳基因比更新Excel更容易。
人類基因組中有成千上萬的基因:DNA和RNA的微小扭曲結合在一起,表達了使我們每個人都獨一無二的所有特徵和特性。每個基因都有一個名稱和字母數字代碼(稱為符號),科學家可以用來協調研究。但是在過去的一年左右的時間裡,約有27種人類基因被重命名,這都是因為Microsoft Excel不斷誤讀其符號作為日期。
這個問題並不像第一次聽起來那樣令人意外。Excel是電子表格世界中的龐然大物,科學家經常使用它來跟蹤他們的工作,甚至進行臨床試驗。但是,它的默認設置是設計時考慮更現實的應用,讓用戶輸入一個基因的字母數字符號到電子表格中,像MARCH1時-短期的「膜相關環CH-手指類型1」 - Excel中轉換到這一個日期:3月1日。
研究發現論文中有五分之一的遺傳數據受到EXCEL錯誤的影響
這是極其令人沮喪的,甚至是危險的,破壞性的數據,科學家必須手工對其進行分類以恢復。它也令人驚訝地廣泛傳播,甚至影響到同行評審的科學工作。2016年的一項研究檢查了與3597篇已發表論文共享的遺傳數據,發現大約五分之一受到了Excel錯誤的影響。
在Microsoft Excel中將基因符號渲染為日期的示例。GIF:邊緣
也沒有簡單的解決方法。Excel不提供關閉此自動格式設置的選項,避免這種情況的唯一方法是更改單個列的數據類型。即使這樣,科學家也可能會修復自己的數據,但是一旦其他人在Excel中打開同一電子表格而沒有思考,錯誤將再次被引入。
但是,已經以負責標準化基因名稱的科學機構,HUGO基因命名委員會或HGNC的形式獲得了幫助。本周,HGNC發布了有關基因命名的新指南,包括「影響數據處理和檢索的符號」。他們說,從現在起,人類基因及其表達的蛋白質將用Excel的自動格式命名。這意味著符號MARCH1現在已變為MARCHF1,而SEPT1已變為SEPTIN1,依此類推。HGNC將存儲舊符號和名稱的記錄,以避免將來造成混亂。
HGNC的協調員Elspeth Bruford告訴The Verge,到目前為止,到目前為止,大約27個基因的名稱已像這樣進行了更改,但直到本周才正式宣布了指南本身。布魯福德說:「我們諮詢了各自的研究社區,討論了擬議的更新,並且還通知了已經在這些基因上發表這些變化的研究人員,特別是當這些變化生效時。」
正如Bruford所言,基因的命名很大程度上取決於共識。就像負責更新詞典的詞典編纂者一樣,基因命名委員會必須對那些受其工作影響最大的個人的需求保持敏感。
不過,現在,HGNC已將事情牢牢地掌握在手中,並且當前的指導方針並沒有太多地讓人們產生異想天開或自我。重點是實際問題:我們如何最大程度地減少混亂?由於這個原因,基因符號應該是唯一的,基因名稱應該簡短而具體。他們不能使用下標或上標;只能包含拉丁字母和阿拉伯數字;並且不應該拼寫姓名或單詞,尤其是令人反感的單詞(該規則應「在理想情況下以任何語言顯示」都是正確的)。
基因名稱應避免「理想情況下以任何語言出現」
布魯福德說,儘管對基因重命名的決定並不容易,但這並不罕見。例如,許多可以理解為名詞的基因符號已被重命名以避免在搜索過程中出現誤報。過去,CARS變為CARS1,WARS更改為WARS1,而MARS調整為MARS1。為了避免侮辱,還進行了其他更改。
「我們總是想像臨床醫生必須向父母解釋,他們的孩子的特定基因有突變,」布魯福德說。「例如,HECA曾以果蠅中的同等基因命名,命名為'headcase homolog(Drosophila)',但為了避免潛在的攻擊,我們將其更改為'hdc homolog,細胞周期調節劑'。」
布魯福德說,這是第一次專門針對該軟體引起的問題而重新編寫了該指南。到目前為止,這些反應似乎是非常積極的-有些人甚至說很高興。
微軟為什麼在與人類遺傳學的鬥爭中獲勝?
布魯福德(Bruford)指出,這一決定存在一些異議,但似乎主要集中在一個問題上:為什麼重命名人類基因比改變Excel的工作方式更容易?到底為什麼在Microsoft與整個遺傳學界之間的鬥爭中,是科學家們不得不退縮?
微軟沒有回應置評請求,但是布魯福德的理論是,改變毫無意義。她說:「這是Excel軟體的有限用例,」。「微軟幾乎沒有動力對其他龐大的Excel用戶社區廣泛使用的功能進行重大更改。」
不過,布魯福德似乎對這種情況並不痛苦。她說,畢竟,當科學家自己可以提出長期解決方案時,不必等待假設的Excel更新來解決這些問題。Microsoft Excel可能正在轉瞬即逝,但是人類基因的存在時間將與我們一樣長。最好給他們起名字。
獲取更多科技新資訊,歡迎關注「科技全頻」。