科學家重命名人類基因,以防止Excel將其誤讀為日期

2020-11-23 騰訊網

有時重寫遺傳基因比更新Excel更容易。

人類基因組中有成千上萬的基因:DNA和RNA的微小扭曲結合在一起,表達了使我們每個人都獨一無二的所有特徵和特性。每個基因都有一個名稱和字母數字代碼(稱為符號),科學家可以用來協調研究。但是在過去的一年左右的時間裡,約有27種人類基因被重命名,這都是因為Microsoft Excel不斷誤讀其符號作為日期。

這個問題並不像第一次聽起來那樣令人意外。Excel是電子表格世界中的龐然大物,科學家經常使用它來跟蹤他們的工作,甚至進行臨床試驗。但是,它的默認設置是設計時考慮更現實的應用,讓用戶輸入一個基因的字母數字符號到電子表格中,像MARCH1時-短期的「膜相關環CH-手指類型1」 - Excel中轉換到這一個日期:3月1日。

研究發現論文中有五分之一的遺傳數據受到EXCEL錯誤的影響

這是極其令人沮喪的,甚至是危險的,破壞性的數據,科學家必須手工對其進行分類以恢復。它也令人驚訝地廣泛傳播,甚至影響到同行評審的科學工作。2016年的一項研究檢查了與3597篇已發表論文共享的遺傳數據,發現大約五分之一受到了Excel錯誤的影響。

在Microsoft Excel中將基因符號渲染為日期的示例。GIF:邊緣

也沒有簡單的解決方法。Excel不提供關閉此自動格式設置的選項,避免這種情況的唯一方法是更改單個列的數據類型。即使這樣,科學家也可能會修復自己的數據,但是一旦其他人在Excel中打開同一電子表格而沒有思考,錯誤將再次被引入。

但是,已經以負責標準化基因名稱的科學機構,HUGO基因命名委員會或HGNC的形式獲得了幫助。本周,HGNC發布了有關基因命名的新指南,包括「影響數據處理和檢索的符號」。他們說,從現在起,人類基因及其表達的蛋白質將用Excel的自動格式命名。這意味著符號MARCH1現在已變為MARCHF1,而SEPT1已變為SEPTIN1,依此類推。HGNC將存儲舊符號和名稱的記錄,以避免將來造成混亂。

HGNC的協調員Elspeth Bruford告訴The Verge,到目前為止,到目前為止,大約27個基因的名稱已像這樣進行了更改,但直到本周才正式宣布了指南本身。布魯福德說:「我們諮詢了各自的研究社區,討論了擬議的更新,並且還通知了已經在這些基因上發表這些變化的研究人員,特別是當這些變化生效時。」

正如Bruford所言,基因的命名很大程度上取決於共識。就像負責更新詞典的詞典編纂者一樣,基因命名委員會必須對那些受其工作影響最大的個人的需求保持敏感。

不過,現在,HGNC已將事情牢牢地掌握在手中,並且當前的指導方針並沒有太多地讓人們產生異想天開或自我。重點是實際問題:我們如何最大程度地減少混亂?由於這個原因,基因符號應該是唯一的,基因名稱應該簡短而具體。他們不能使用下標或上標;只能包含拉丁字母和阿拉伯數字;並且不應該拼寫姓名或單詞,尤其是令人反感的單詞(該規則應「在理想情況下以任何語言顯示」都是正確的)。

基因名稱應避免「理想情況下以任何語言出現」

布魯福德說,儘管對基因重命名的決定並不容易,但這並不罕見。例如,許多可以理解為名詞的基因符號已被重命名以避免在搜索過程中出現誤報。過去,CARS變為CARS1,WARS更改為WARS1,而MARS調整為MARS1。為了避免侮辱,還進行了其他更改。

「我們總是想像臨床醫生必須向父母解釋,他們的孩子的特定基因有突變,」布魯福德說。「例如,HECA曾以果蠅中的同等基因命名,命名為'headcase homolog(Drosophila)',但為了避免潛在的攻擊,我們將其更改為'hdc homolog,細胞周期調節劑'。」

布魯福德說,這是第一次專門針對該軟體引起的問題而重新編寫了該指南。到目前為止,這些反應似乎是非常積極的-有些人甚至說很高興。

微軟為什麼在與人類遺傳學的鬥爭中獲勝?

布魯福德(Bruford)指出,這一決定存在一些異議,但似乎主要集中在一個問題上:為什麼重命名人類基因比改變Excel的工作方式更容易?到底為什麼在Microsoft與整個遺傳學界之間的鬥爭中,是科學家們不得不退縮?

微軟沒有回應置評請求,但是布魯福德的理論是,改變毫無意義。她說:「這是Excel軟體的有限用例,」。「微軟幾乎沒有動力對其他龐大的Excel用戶社區廣泛使用的功能進行重大更改。」

不過,布魯福德似乎對這種情況並不痛苦。她說,畢竟,當科學家自己可以提出長期解決方案時,不必等待假設的Excel更新來解決這些問題。Microsoft Excel可能正在轉瞬即逝,但是人類基因的存在時間將與我們一樣長。最好給他們起名字。

獲取更多科技新資訊,歡迎關注「科技全頻」。

相關焦點

  • 科學家重新命名人類基因 防止微軟Excel將其誤讀為日期
    人類基因組中有數以萬計的基因:DNA和RNA的微不足道的扭曲,它們結合在一起,表達了使我們每個人獨一無二的所有特徵和特性。每個基因都有一個名稱和字母數字代碼,即所謂的符號,科學家用它來協調研究。但在過去的一年多時間裡,大約有27個人類基因被重新命名,這都是因為微軟Excel一直把它們的符號誤讀為日期。這個問題並不像最初聽起來那麼意外。
  • 27個人類基因被重新命名,只因Excel總把它們自動糾正成日期
    讓人萬萬沒想到的是,Excel類似這樣的功能,竟然在過去一年裡,導致27種人類基因被重新命名。因為這些基因符號,總被Excel誤讀為日期。比如一個名為MARCH1(Membrane Associated Ring-CH Type Finger 1)的基因,當你將其輸入到Excel中……2016年的一項研究就指出,由於Excel在默認設置狀態下,會將基因名稱轉換為日期和浮點數,大約有五分之一的公開遺傳數據都存在錯誤的基因名稱轉換。
  • 27個人類基因被重新命名,只因Excel總把它們自動糾正成日期
    因為這些基因符號,總被Excel誤讀為日期。比如一個名為MARCH1(Membrane Associated Ring-CH Type Finger 1)的基因,當你將其輸入到Excel中……2016年的一項研究就指出,由於Excel在默認設置狀態下,會將基因名稱轉換為日期和浮點數,大約有五分之一的公開遺傳數據都存在錯誤的基因名稱轉換。
  • 因為Excel的「bug」,科學家們不得不給27種基因改了名
    在科學研究中,學者需要為每個基因起一個特定的名稱以便快速定位,這些名稱一般由字母加數字的形式組成。 但是在最近一年左右的時間裡,有約 27 種人類基因被重新命名,Excel 正是這一系列行為的「肇事者」,它會將這些基因名稱誤讀為日期格式,並直接修改成了默認格式。 這種事情並不新鮮,我們每個人或多或少都遇到過類似情況。
  • 因為Excel,科學家們修改了27種人類基因的名稱
    但最近它的某些功能卻給一些科學家們帶來了困擾。藏在基因名稱中的「隱患」人類基因組,有 23 對染色體,包含約 30 億個 DNA 鹼基對,部分鹼基對組成了大約 20000 到 25000 個基因。在科學研究中,學者需要為每個基因起一個特定的名稱以便快速定位,這些名稱一般由字母加數字的形式組成。
  • 因為Excel,科學家們修改了27種人類基因的名稱
    在科學研究中,學者需要為每個基因起一個特定的名稱以便快速定位,這些名稱一般由字母加數字的形式組成。但是在最近一年左右的時間裡,有約 27 種人類基因被重新命名,Excel 正是這一系列行為的「肇事者」,它會將這些基因名稱誤讀為日期格式,並直接修改成了默認格式。
  • 為了避免Excel誤轉換,科學家修改了人體基因名稱
    還有很多時候數字被識別為日期等等,當然這可以通過設置單元格為文本來解決,但是畢竟要手動設置非常麻煩,一般用途還好,如果面對成千上萬數據可能會讓你抓狂。當然這也不是普通人的煩惱,研究人體基因的科學家也為這個問題而頭疼。人體基因組中有成千上萬的基因:螺旋的雙鏈DNA和RNA一起表達了每個人都獨一無二的所有特徵和特性。
  • 微軟Excel 改寫了人類基因的……
    Excel 不斷把基因代碼誤判為日期。這種低級的錯誤並沒有超越你的想像,你不會感到很驚訝,但是確實發生了;舉例來說,「MARCH1」是「Membrane Associated Ring-CH-Type Finger 1」的縮寫, 但是Excel 將其判讀成日期-3月1日(1-Mar)。
  • 基因的命名
    最近科學家對重命名了多個人類基因,以避免被 Excel 自動糾正。這的確是將好事,我以前就受到過困擾,比如這次被改的SEPT1基因,我就遇到過好幾次,由於處理數據過程中一般都會vcf文件,結果只要用excel打開,就自動變更成了9月1號,這不是玩我嗎,現在改為 SEPTIN1,很合適。
  • 為了避免基因名被Excel自動糾正,遺傳學界更改了命名規則
    人類的遺傳物質中存在大量的基因片段。為了研究它們,就需要先區分它們。所以科學家編制了一整套基因命名規則。每個基因都有一個名稱和字母數字代碼。
  • 廣東發現人類新基因 世衛組織正式為其命名
    昨天(9月10日)記者從廣東省廣州市南方醫院獲悉,該院組織配型實驗中心從兩位健康廣東人的血液中,發現一個人類新基因。該基因位於第九號常染色體的短臂上,長度約為900多個鹼基對。
  • excel數字結構解析:日期和時間的自動識別規則
    3.輸入的日期如果只有「年月」,而沒有「日」,excel會自動以此月的1日作為其日期。如在單元格中輸入「2020/1」,則顯示「2020/1/1」。4.如果只輸入兩個短日期數據,excel無法直接判斷輸入的日期是「年月」還是「月日」,則會根據以下幾個原則自動轉換。
  • excel根據出生日期自動計算(年齡、星座、生肖)的方法
    在工作辦公中,我們基本都會使用到excel軟體編輯表格,excel軟體中的函數公式可以快速的對表格裡的內容進行計算,從而大大的減輕了我們的工作量。這次小編給大家分享下,根據excel表格裡的出生日期,自動計算年齡、生肖和星座的方法。
  • 人類基因改造的時代將在兩年內到來-科學家
    科學家們確定,基因改造的時代將在兩年內到來。據美國有線電視新聞網報導,蘇格蘭阿伯塔大學生物倫理學科學家凱文·史密斯認為,如今的基因工程風險極低,甚至可以用於人類胚胎以防止遺傳疾病的傳播。科學家說,未來,人們的基因改造將大大增加一個人的預期壽命。但是,生物倫理學建議暫時推遲人類基因工程計劃,因為社會尚未為這種科學進步做好準備,並且對此持消極態度。但是,凱文相信情況會在未來兩年內發生變化。現在,科學家們認為,這項技術在道德上是合理的。使用它,你可以糾正人類DNA中的某些遺傳缺陷。
  • 日本科學家發一新物種恐龍化石,為其命名為「神威龍」
    日本科學家發現一種新恐龍的化石,命名為「神威龍」。恐龍的骸骨近乎完整,約有8米長,是日本境內發現的最大的恐龍骸骨。▲日本科學家發現一種新恐龍「神威龍」化石,研究人員表示,這意味著日本或東亞地區曾經有過一個獨立的恐龍世界以及一段獨立演化過程。
  • excel日期函數技巧:到期時間提醒的幾種設置方法
    關於這些何時到期的自動提醒,我們可以使用excel中的到期提醒功能實現。今天將給大家提供5種製作到期提醒的方法,第一種最簡單,最後一種最人性化並且能實現篩選控制。學習更多技巧,請收藏關注部落窩教育excel圖文教程。
  • 人類基因被插入猴子胚胎,導致其大腦快速進化,實驗讓科學家擔心
    人類能夠在地球上享有絕對的生存空間、資源,以及站在食物鏈的頂端,成為地球繼恐龍之後的新一任霸主,靠的不是蠻力,不是體型的絕對優勢,而是一顆重量約為1.4千克的大腦。雖說我們的大腦在自然界不是最重的,但是我們大腦皮層的表面積絕對是最大的,而更大的大腦皮層表面積就能容納更多的腦細胞、以及神經元。
  • 人類基因被插入猴子胚胎,導致其大腦快速進化,實驗讓科學家不安
    人類能夠在地球上享有絕對的生存空間、資源,以及站在食物鏈的頂端,成為地球繼恐龍之後的新一任霸主,靠的不是蠻力,不是體型的絕對優勢,而是一顆重量約為1.4千克的大腦。雖說我們的大腦在自然界不是最重的,但是我們大腦皮層的表面積絕對是最大的,而更大的大腦皮層表面積就能容納更多的腦細胞、以及神經元。
  • excel表格,如何計算日期的天數或時間差
    在excel中如何單獨計算日期的天數或時間差。對於日期和時間,之間的差,例如:日期時間差的公式,結果要小時(如134.5小時),比如2016年2月10日 13:26到2016年3月6日 10:40相距多少個小時,怎麼實現呢?首先,單獨計算兩個日期之間的天數。
  • 「Excel技巧」Excel快速輸入當前日期時間的快捷法及函數法
    常年接觸excel,肯定會跟日期時間打交道。掌握一些關於日期和時間的輸入方法和技巧,可以幫助你快速完成工作。現在就來看看關於日期時間的輸入技巧及函數輸入法。一、快速獲取當前日期時間1、返回當前日期和時間函數法:在目標單元格裡輸入公式:=now()。快捷鍵法:在鍵盤上先按下【Ctrl+;】,然後再按下【Ctrl+Shift+;】,即插入了當前的日期和時間。