電子表格類軟體,已經深度參與到我們日常工作的各個環節。
而其中的翹楚無疑是微軟的 Excel,不管是 WPS 或是 Numbers,都無法撼動這款已經擁有 35 年歷史的軟體。但最近它的某些功能卻給一些科學家們帶來了困擾。
藏在基因名稱中的「隱患」
人類基因組,有 23 對染色體,包含約 30 億個 DNA 鹼基對,部分鹼基對組成了大約 20000 到 25000 個基因。在科學研究中,學者需要為每個基因起一個特定的名稱以便快速定位,這些名稱一般由字母加數字的形式組成。
但是在最近一年左右的時間裡,有約 27 種人類基因被重新命名,Excel 正是這一系列行為的「肇事者」,它會將這些基因名稱誤讀為日期格式,並直接修改成了默認格式。
這種事情並不新鮮,我們每個人或多或少都遇到過類似情況。
但是,當 Excel 將一些關鍵數據誤讀,而科學家們恰好使用這些數據來分析,甚至臨床試驗的時候,就可能產生不可挽回的嚴重後果。
當遇到類似情況時,科學家們必須手工設置單元格格式以還原數據,但難免也會產生遺漏的情況。據一項 2016 年的調查表明,這類 「Bug」 非常普遍,以至於在 3597 篇樣本論文中,約五分之一都受到了影響。
圖 | 微軟 Excel 將基因名稱誤讀作日期
「這真的非常非常煩人」,英國 Quadram 研究所的系統生物學家 Dezs Módos 在報導中這樣描述。他的工作會涉及到分析新近測序的遺傳數據,他說這類 Excel 「錯誤」非常常見,而恰好 Excel 是科學家們分析數據時的首選。「在解決計算問題的時候,它真的很方便」。
並沒有一種簡單的解決方法能夠修復這類「Bug」,Excel 沒有關閉自動修改格式的開關,為了避免自動「轉型」,只能重設整列單元格數據類型。但是這種修復是一次性的,一旦其他人引用了相關數據,問題會再次出現。
改名,是為了徹底解決問題
國際人類基因組組織(HUGO)下轄的 HGNC(基因命名委員會),近期發布了包含 「影響數據處理和索引的符號」 的關於基因命名格式的新指南。從今往後,人類的基因命名將避開 Excel 的「Bug」。例如:MARCH1 將變為 MARCHF1;SEPT1 變為 SEPTIN1。
這並不是一個輕易作出的決定,HGNC 的權威性來自科學家群體的共識。HGNC 必須及時通知受到改名影響較大的群體,從改名到日常使用將是一個緩慢的過程。
圖 | 美國國家生物技術信息中心(NCBI)已經更新
此前,在遺傳學早期,基因的命名一度非常隨意,往往體現了科學家的強烈個人偏好,例如 「臭名昭著」 的「音速刺蝟索尼克」、INDY(I’m not dead yet)等等。
圖 | 左邊是索尼克,右邊也是索尼克
不過現在,HGNC 已經將命名規則制定權牢牢掌握在手中,在他們的規則下,基因的命名不再能夠讓科學家們自由發揮,基因名稱不得使用上標或下標,只能包含字母和數字,不能由姓名或單詞組成,尤其是一些令人反感的詞彙。
為了避免在搜索時產生歧義,他們曾經將 CARS 基因更名為 CARS1、WARS 更名為 WARS1 等等。
HGNC 的協調員 Bruford 說道,這是第一次該組織針對軟體問題而對基因名稱及命名規則進行修改,截止目前,收到的反饋總體上是積極的。
圖 | 生物學家的回應
但 Bruford 也提到,他們聽到了一些爭議的聲音:為什麼選擇重新命名人類基因,而不是修復 Excel 的「Bug」?為什麼整個遺傳學界會輸給一家商業公司?
微軟並未對此置評。
但 Bruford 這樣解釋道,Excel 並不值得因此而改變所有的產品功能,我們在微軟龐大的用戶群中只佔很小的一部分。如果微軟就此做出修改,反而將對更多的人造成影響。
最後她說,同永恆的人類基因相比,Excel 不過滄海一粟。