本文系貴州生命大數據研究院原創編譯,歡迎分享,轉載須授權
■ 基因數據
隨著生命科學在21世紀的飛速發展,數以ZB級的基因數據被測序出來,關於這些數據的科學研究和應用價值挖掘顯得越來越有必要。基因數據包括組學數據和元數據。組學數據是生物樣本通過數位化後的信息,包括DNA、RNA、蛋白質組、代謝組等,按生命周期分為原始數據、中間數據、結果數據以及使用基因數據訓練的模型。元數據是描述組學數據的數據,分為樣本元數據和處理元數據,可結構化也可非結構化,如編碼標識符、提取生物標記的組織、處理生物標記的信息、從描述提取生物標記的個人的電子健康記錄中提取的信息等。
■ 基因數據共享的價值
基因組學研究具有良好的數據共享文化,從人類基因組計劃向全世界開放第一例人類基因組數據開始,到多國合作的千人基因組計劃都為生命科學研究提供了重要價值的參考數據。生命科學研究人員強烈期望全基因組數據、轉錄組數據和相關元數據的共享,這些豐富的數據可以用於他們感興趣的研究方向以及應用開發。基因數據共享的價值主要體現在減少重複研究、提高科研實用性、挖掘研究內容、提升科研透明性以及與其他鄰域的交叉研究。
■ 基因數據共享的風險
共享數據的隱私風險是根據參與者在數據集中被重新識別出的機率和被識別後產生的後果來衡量。基因組學數據和元數據根據隱私風險可以分為高風險數據和低風險數據。對於不同安全等級的數據制定相應的分享管理方式,包括公共的數據共享、受控訪問的數據共享、分組的和按請求的數據共享等。個人的基因變異和中等數量的變異,可以準確的長時間的描述一個人,故基因組數據具有很強的重識別風險且具有嚴重風險後果。元數據包含受試者大量的個人隱私數據,具有重識別風險。
圖1 數據共享方式
■ 基因數據共享的原則
現有已經有很多理想的基因組數據專用儲存資料庫庫,例如NCBI、CNGBdb、EMBL等。不同的資料庫根據自己的理解制定數據管理方案,形成具有共識的基因數據共享原則很重要。對於風險性較低的數據(如生物模型或不涉及人類實驗的數據),應以最大程度地共享,充分發揮數據的價值。而對於高風險數據則應通過設置訪問權限進行數據共享,在利用數據價值時需要降低數據共享的風險。此外,也可以對元數據進行處理來降低共享風險,處理方法包括僅開放匯總數據、開放有噪聲的匯總數據、對數據進行二次編輯、生成保留某些統計屬性的合成數據。如果沒有儲存該數據類型的標準存儲庫,研究人員可以考慮使用帶有訪問權限的通用存儲庫,但所有通用存儲庫都在一定程度上阻礙了數據的二次使用。
圖2 降低數據共享風險的策略
■ 基因數據共享治理
形成基因數據共享生態,需要監管機構、出版方、科研資助機構、數據運營商、數據貢獻者、數據使用者等多方共同成立管理辦法並有效維護。
圖3 基因數據共享治理
■ 我們認為
為了推進基因數據共享生態的建立,研究者必須平衡數據貢獻者的願望和為此承擔的已知風險,可以通過技術手段、商業手段等解決數據來源的問題。圍繞基因數據的數據資產產業化將在價值利用和安全保護達到平衡時形成,基因數據的大規模應用和相關法律法規將加速這一過程。短期內無法從技術上完全保證數據的安全,需要相關法律條款輔助管理的情況下,關於遺傳資源信息的共享與保護必將納入法律保護範疇。當前眾多以消費級基因檢測、區塊鏈基因數據平臺收集基因數據和元數據,再將數據以資產方式交易的方式將不可持續。在基因數據價值得到更廣泛應用,安全保護技術和法律法規更加完善的時候,將形成在權威機構領導下科研、商業、公益、個人等多方共同參與的統一、規範、負責、有效的基因數據共享平臺。
參考資料:
Byrd,J.B.,Greene,A.C.,Prasad,D.V.et al.Responsible,practical genomic data sharing that accelerates research. Nat Rev Genet (2020). https://doi.org/10.1038/s41576-020-0257-5
原文連接:https://www.nature.com/articles/s41576-020-0257-5