因為Excel的「bug」,科學家們不得不給27種基因改了名

2020-11-23 騰訊網

作者 王建韜

電子表格類軟體,已經深度參與到我們日常工作的各個環節。

而其中的翹楚無疑是微軟的 Excel,不管是 WPS 或是 Numbers,都無法撼動這款已經擁有 35 年歷史的軟體。但最近它的某些功能卻給一些科學家們帶來了困擾。

藏在基因名稱中的「隱患」

人類基因組,有 23 對染色體,包含約 30 億個 DNA 鹼基對,部分鹼基對組成了大約 20000 到 25000 個基因。在科學研究中,學者需要為每個基因起一個特定的名稱以便快速定位,這些名稱一般由字母加數字的形式組成。

但是在最近一年左右的時間裡,有約 27 種人類基因被重新命名,Excel 正是這一系列行為的「肇事者」,它會將這些基因名稱誤讀為日期格式,並直接修改成了默認格式。

這種事情並不新鮮,我們每個人或多或少都遇到過類似情況。

但是,當 Excel 將一些關鍵數據誤讀,而科學家們恰好使用這些數據來分析,甚至臨床試驗的時候,就可能產生不可挽回的嚴重後果。

當遇到類似情況時,科學家們必須手工設置單元格格式以還原數據,但難免也會產生遺漏的情況。據一項 2016 年的調查表明,這類 「Bug」 非常普遍,以至於在 3597 篇樣本論文中,約五分之一都受到了影響。

圖 | 微軟 Excel 將基因名稱誤讀作日期

「這真的非常非常煩人」,英國 Quadram 研究所的系統生物學家 Dezs Módos 在報導中這樣描述。他的工作會涉及到分析新近測序的遺傳數據,他說這類 Excel 「錯誤」非常常見,而恰好 Excel 是科學家們分析數據時的首選。「在解決計算問題的時候,它真的很方便」。

並沒有一種簡單的解決方法能夠修復這類「Bug」,Excel 沒有關閉自動修改格式的開關,為了避免自動「轉型」,只能重設整列單元格數據類型。但是這種修復是一次性的,一旦其他人引用了相關數據,問題會再次出現。

改名,是為了徹底解決問題

國際人類基因組組織(HUGO)下轄的 HGNC(基因命名委員會),近期發布了包含 「影響數據處理和索引的符號」 的關於基因命名格式的新指南。從今往後,人類的基因命名將避開 Excel 的「Bug」。例如:MARCH1 將變為 MARCHF1;SEPT1 變為 SEPTIN1。

這並不是一個輕易作出的決定,HGNC 的權威性來自科學家群體的共識。HGNC 必須及時通知受到改名影響較大的群體,從改名到日常使用將是一個緩慢的過程。

圖 | 美國國家生物技術信息中心(NCBI)已經更新

此前,在遺傳學早期,基因的命名一度非常隨意,往往體現了科學家的強烈個人偏好,例如 「大名鼎鼎」 的「音速刺蝟索尼克」、INDY(I’m not dead yet)等等。

圖 | 左邊是索尼克,右邊也是索尼克

不過現在,HGNC 已經將命名規則制定權牢牢掌握在手中,在他們的規則下,基因的命名不再能夠讓科學家們自由發揮,基因名稱不得使用上標或下標,只能包含字母和數字,不能由姓名或單詞組成,尤其是一些令人反感的詞彙。

為了避免在搜索時產生歧義,他們曾經將 CARS 基因更名為 CARS1、WARS 更名為 WARS1 等等。

HGNC 的協調員 Bruford 說道,這是第一次該組織針對軟體問題而對基因名稱及命名規則進行修改,截止目前,收到的反饋總體上是積極的。

圖 | 生物學家的回應

但 Bruford 也提到,他們聽到了一些爭議的聲音:為什麼選擇重新命名人類基因,而不是修復 Excel 的「Bug」?為什麼整個遺傳學界會輸給一家商業公司?

微軟並未對此置評。

但 Bruford 這樣解釋道,Excel 並不值得因此而改變所有的產品功能,我們在微軟龐大的用戶群中只佔很小的一部分。如果微軟就此做出修改,反而將對更多的人造成影響。

最後她說,同永恆的人類基因相比,Excel 不過滄海一粟。

參考:

https://www.theverge.com/2020/8/6/21355674/human-genes-rename-microsoft-excel-misreading-dates

https://en.wikipedia.org/wiki/Human_genome

(ID:deeptechchina)

點個「在看」分享給更多的小夥伴

相關焦點

  • 因為Excel,科學家們修改了27種人類基因的名稱
    但最近它的某些功能卻給一些科學家們帶來了困擾。藏在基因名稱中的「隱患」人類基因組,有 23 對染色體,包含約 30 億個 DNA 鹼基對,部分鹼基對組成了大約 20000 到 25000 個基因。在科學研究中,學者需要為每個基因起一個特定的名稱以便快速定位,這些名稱一般由字母加數字的形式組成。
  • 因為Excel,科學家們修改了27種人類基因的名稱
    但最近它的某些功能卻給一些科學家們帶來了困擾。藏在基因名稱中的「隱患」人類基因組,有 23 對染色體,包含約 30 億個 DNA 鹼基對,部分鹼基對組成了大約 20000 到 25000 個基因。在科學研究中,學者需要為每個基因起一個特定的名稱以便快速定位,這些名稱一般由字母加數字的形式組成。但是在最近一年左右的時間裡,有約 27 種人類基因被重新命名,Excel 正是這一系列行為的「肇事者」,它會將這些基因名稱誤讀為日期格式,並直接修改成了默認格式。
  • 27個人類基因被重新命名,只因Excel總把它們自動糾正成日期
    讓人萬萬沒想到的是,Excel類似這樣的功能,竟然在過去一年裡,導致27種人類基因被重新命名。因為這些基因符號,總被Excel誤讀為日期。27種人類基因已因Excel被重新命名比起等待Excel的更新,要改變這惱人的現狀,科學家們覺得還是重命名基因簡單一些。人類基因的命名主要包括基因名稱和基因符號等內容,絕大多數基因的命名,由國際人類基因命名委員會(HGNC)完成。本周,HGNC發布了有關基因命名的新指南,其中包括「影響數據處理和檢索的符號」。
  • 27個人類基因被重新命名,只因Excel總把它們自動糾正成日期
    種人類基因被重新命名。因為這些基因符號,總被Excel誤讀為日期。27種人類基因已因Excel被重新命名比起等待Excel的更新,要改變這惱人的現狀,科學家們覺得還是重命名基因簡單一些。人類基因的命名主要包括基因名稱和基因符號等內容,絕大多數基因的命名,由國際人類基因命名委員會(HGNC)完成。
  • 微軟Excel 改寫了人類基因的……
    人類基因組中有成千上萬的基因:DNA和RNA扭曲結合在一起,使我們每個人都具有獨一無二的特徵和特性。每個基因都有一個名稱和字母數字代碼。根據The Verge報導,在過去一年左右的時間裡,約有27種人類基因被重新命名,而原因也許你會覺得荒唐,因為Microsoft
  • 為了避免Excel誤轉換,科學家修改了人體基因名稱
    當然這也不是普通人的煩惱,研究人體基因的科學家也為這個問題而頭疼。人體基因組中有成千上萬的基因:螺旋的雙鏈DNA和RNA一起表達了每個人都獨一無二的所有特徵和特性。為了方便研究,每個基因都有一個名稱和字母數字代碼(稱為符號,比如ATCG)。由於Microsoft Excel誤識,在過去的一年左右的時間裡,約有27種人類基因被重命名。
  • 科學家重命名人類基因,以防止Excel將其誤讀為日期
    有時重寫遺傳基因比更新Excel更容易。 人類基因組中有成千上萬的基因:DNA和RNA的微小扭曲結合在一起,表達了使我們每個人都獨一無二的所有特徵和特性。每個基因都有一個名稱和字母數字代碼(稱為符號),科學家可以用來協調研究。
  • 基因的命名
    最近科學家對重命名了多個人類基因,以避免被 Excel 自動糾正。這的確是將好事,我以前就受到過困擾,比如這次被改的SEPT1基因,我就遇到過好幾次,由於處理數據過程中一般都會vcf文件,結果只要用excel打開,就自動變更成了9月1號,這不是玩我嗎,現在改為 SEPTIN1,很合適。
  • 被迫的進化:因為人類的影響,而不得不發生進化的5種動物
    一些生物因為人類而滅絕,還有一些生物則為了能夠在人類的影響下生存下去,而不得不進行自我進化。在今天的文中,我們就要和你談談,因為人類的影響,而不得不發生進化的5種動物。因為它們為了應對人類的殺害而發生了進化。美國麻薩諸塞大學的研究發現,紐約的臭蟲數量增加了250倍,它比佛羅裡達州的臭蟲更能夠抵抗農藥。這是因為它們控制神經細胞彈性的基因發生了變化,這意味著它們會產生較高水平的酶從而清除毒素。
  • 聽說Excel表格動了你的基因名?
    下意識的看了看數據結構,然後順手按照基因名排序了一下,哈哈哈~這是一個大坑。就因為這個還有兩篇文章;也有人在論壇上面發問,高達2K的閱讀量: https://www.biostars.org/p/211861/Some gene names start with APR/MARC/SEPT* etc default converted into date format.
  • bug什麼意思,網絡語言bug什麼意思,什麼是bug一起來看看
    大家在日常工作或者生活中經常會聽到bug這詞,例如遊戲bug,軟體bug以及程序bug,那麼bug究竟是什麼意思那,我們一起來看看吧。bug英文的意思是昆蟲蟲子,竊聽使人惱怒意思,但是網絡上經常說的遊戲或者軟體bug並不是這意思,這裡bug指電腦系統或程序故障,遊戲中的漏洞,軟體以及遊戲中的缺陷,很多程序在製作過程中就會出現很多漏洞bug,因為遊戲是電腦程式設計的,所以很多遊戲也會出現很多bug,尤其是新開發遊戲會有很多漏洞,破壞遊戲內的平衡,嚴重的程序漏洞,對我們電腦安全以及財富安全造成很大的影響
  • 為了避免基因名被Excel自動糾正,遺傳學界更改了命名規則
    人類的遺傳物質中存在大量的基因片段。為了研究它們,就需要先區分它們。所以科學家編制了一整套基因命名規則。每個基因都有一個名稱和字母數字代碼。
  • 科學家將人類的「高智慧基因」傳給了猴子,最後不得不終止了實驗
    從表面上來看,人類的高級智慧來自於高度發達的大腦,它能夠讓人類具備超強的空間感知能力、邏輯思考能力、語言溝通能力……等等等等,正是因為如此,人類才懂得了如何製作工具、如何使用火、如何團隊協作,並一步一步地在地球上創造了輝煌的文明。
  • 科學家將人類的「高智慧基因」轉給了猴子,最後不得不終止了實驗
    這是因為所有地球上已知的生物都擁有非常相似的遺傳代碼,並且所有已知的生命形式都有相同的基本生化組織。要知道同樣的胺基酸可以由不同的遺傳代碼來形成,而同樣的蛋白質功能也可以通過不同的胺基酸來保持,也就是說,生命的產生明明可以有多種模式,但地球上所有已知的生物所採用的卻是同一種,因此我們完全有理由相信,地球上所有的生物都有一個共同的祖先。
  • 人類會生病,這算不算人類基因中的一個bug?
    對此,我也談一下我的觀點,首先,我承認我對人類基因工程一竅不通,對此事無法從技術層面進行任何的評價,而作為一個偽碼農,我嘗試從編程的角度去理解這件事情。對一個碼農而言,bug是一件司空見慣的事情,碼農每天做的兩件主要工作,一件是敲代碼,另一件是找bug。找到bug怎麼辦?
  • 數據科學養成記 之 R語言基礎(3)——excel數據導入
    經過昨天對包的學習,今天我們利用前兩節課學習的知識來對excel數據進行導入。我們常見的excel導入方法為以下3種:1.將Excel轉存為csv格式文件,讀csv文件。a <- read.csv('exercise1.csv', header = T)2.利用RODBDC包讀取excelb <- odbcConnectExcel2007
  • php 導出 Excel
    $data = $orderList->orderIds($map,'*','created desc'); foreach ($data as $k => $v) { $arrMid[] = $v['mid']; } $arrMid = array_unique($arrMid); //查詢會員名,
  • 科學家重新命名人類基因 防止微軟Excel將其誤讀為日期
    人類基因組中有數以萬計的基因:DNA和RNA的微不足道的扭曲,它們結合在一起,表達了使我們每個人獨一無二的所有特徵和特性。每個基因都有一個名稱和字母數字代碼,即所謂的符號,科學家用它來協調研究。但在過去的一年多時間裡,大約有27個人類基因被重新命名,這都是因為微軟Excel一直把它們的符號誤讀為日期。這個問題並不像最初聽起來那麼意外。
  • 科學家們如何利用基因療法治療多種人類疾病?
    本文中,小編整理了近期科學家們發表的多篇研究報告,共同聚焦基因療法治療多種人類疾病的研究新進展,分享給大家!近日,一項刊登在國際雜誌Brain上題為「Global CNS correction in a large brain model of human alpha-mannosidosis by intravascular gene therapy」的研究報告中,來自賓夕法尼亞大學等機構的科學家們成功應用基因療法平臺,糾正了人類遺傳性疾病大型動物模型大腦的缺陷。研究者John H.
  • 能發出237種聲音交流,天生的?科學家不得不承認海豚是天才
    趣味探索訊 英文字母只有26個,讀音也只有26種,26個字母自由組合生成了世界第一大語言English,在這一點上,美國人和英國人可能比較自豪。然而,最近科學家們發現海洋中一種常見動物,能發出數百種不同聲音來進行交流,發音數量遠遠超過26種。以至於科學家不得不承認它們是天才。