如何負責任的共享基因數據?Nature 帶你破局

2020-10-21 貴州生命大數據研究院

​本文系貴州生命大數據研究院原創編譯,歡迎分享,轉載須授權

基因數據

隨著生命科學在21世紀的飛速發展,數以ZB級的基因數據被測序出來,關於這些數據的科學研究和應用價值挖掘顯得越來越有必要。基因數據包括組學數據和元數據。組學數據是生物樣本通過數位化後的信息,包括DNA、RNA、蛋白質組、代謝組等,按生命周期分為原始數據、中間數據、結果數據以及使用基因數據訓練的模型。元數據是描述組學數據的數據,分為樣本元數據和處理元數據,可結構化也可非結構化,如編碼標識符、提取生物標記的組織、處理生物標記的信息、從描述提取生物標記的個人的電子健康記錄中提取的信息等。


基因數據共享的價值

基因組學研究具有良好的數據共享文化,從人類基因組計劃向全世界開放第一例人類基因組數據開始,到多國合作的千人基因組計劃都為生命科學研究提供了重要價值的參考數據。生命科學研究人員強烈期望全基因組數據、轉錄組數據和相關元數據的共享,這些豐富的數據可以用於他們感興趣的研究方向以及應用開發。基因數據共享的價值主要體現在減少重複研究、提高科研實用性、挖掘研究內容、提升科研透明性以及與其他鄰域的交叉研究。


基因數據共享的風險

共享數據的隱私風險是根據參與者在數據集中被重新識別出的機率和被識別後產生的後果來衡量。基因組學數據和元數據根據隱私風險可以分為高風險數據和低風險數據。對於不同安全等級的數據制定相應的分享管理方式,包括公共的數據共享、受控訪問的數據共享、分組的和按請求的數據共享等。個人的基因變異和中等數量的變異,可以準確的長時間的描述一個人,故基因組數據具有很強的重識別風險且具有嚴重風險後果。元數據包含受試者大量的個人隱私數據,具有重識別風險。


圖1 數據共享方式


基因數據共享的原則

現有已經有很多理想的基因組數據專用儲存資料庫庫,例如NCBI、CNGBdb、EMBL等。不同的資料庫根據自己的理解制定數據管理方案,形成具有共識的基因數據共享原則很重要。對於風險性較低的數據(如生物模型或不涉及人類實驗的數據),應以最大程度地共享,充分發揮數據的價值。而對於高風險數據則應通過設置訪問權限進行數據共享,在利用數據價值時需要降低數據共享的風險。此外,也可以對元數據進行處理來降低共享風險,處理方法包括僅開放匯總數據、開放有噪聲的匯總數據、對數據進行二次編輯、生成保留某些統計屬性的合成數據。如果沒有儲存該數據類型的標準存儲庫,研究人員可以考慮使用帶有訪問權限的通用存儲庫,但所有通用存儲庫都在一定程度上阻礙了數據的二次使用。


圖2 降低數據共享風險的策略


基因數據共享治理

形成基因數據共享生態,需要監管機構、出版方、科研資助機構、數據運營商、數據貢獻者、數據使用者等多方共同成立管理辦法並有效維護


  • 數據運營商應該建設安全的基礎設施,保證共享數據安全,使用的技術包括數據加密、區塊鏈、網絡安全、防篡改等。對數據進行分級管理,根據數據重識別和被識別後的後果將數據分級,對於不同安全等級的數據制定相應的分享管理方式。管理上將共享的數據脫敏、數據生命周期監控等,降低重識別和被複製風險。


  • 監管機構制定相應的制度激勵科研工作者分享數據,激勵辦法有:1、建立權威的數據共享平臺,在技術上標準化,管理上規範化,以打消分享者的顧慮;2、共享數據產生的科研發現成果應該合理的分配給數據貢獻者;3、建立數據貢獻記錄並對外公布,基金及政策優先為數據貢獻記錄良好者提供資助;4、共享數據的使用方應合理的分攤數據的成本(採集、存儲等成本),以確保遵守共享策略;5、科研資助機構可以依託大學、科研機構作為開發和實施數據共享計劃的資源,並加軟實力建設,確保基礎設施的維護和共享計劃的開展。


  • 出版方作為科研成果呈現端,應保障科研數據的主權審查。要求發表文章的數據需公開並保證數據的可用性對數據的開放特別重要;出版方應拒絕發表數據來源描述不一致的文章。


圖3 基因數據共享治理


我們認為

為了推進基因數據共享生態的建立,研究者必須平衡數據貢獻者的願望和為此承擔的已知風險,可以通過技術手段、商業手段等解決數據來源的問題。圍繞基因數據的數據資產產業化將在價值利用和安全保護達到平衡時形成,基因數據的大規模應用和相關法律法規將加速這一過程。短期內無法從技術上完全保證數據的安全,需要相關法律條款輔助管理的情況下,關於遺傳資源信息的共享與保護必將納入法律保護範疇。當前眾多以消費級基因檢測、區塊鏈基因數據平臺收集基因數據和元數據,再將數據以資產方式交易的方式將不可持續。在基因數據價值得到更廣泛應用,安全保護技術和法律法規更加完善的時候,將形成在權威機構領導下科研、商業、公益、個人等多方共同參與的統一、規範、負責、有效的基因數據共享平臺。

參考資料:

Byrd,J.B.,Greene,A.C.,Prasad,D.V.et al.Responsible,practical genomic data sharing that accelerates research. Nat Rev Genet (2020). https://doi.org/10.1038/s41576-020-0257-5

原文連接:https://www.nature.com/articles/s41576-020-0257-5

相關焦點

  • 基因科學:數據共享和跨領域合作是趨勢
    主持人:恐怕不僅在中國吧,整個行業的話都是在私人手裡,不願意分享,可能我們需要心態上的改變,思維上的改變,你的數據給別人了,別人也可以看到你的數據,也可以看到別人的數據,這需要整個行業的推動。陸思嘉:是的,我非常同意您的見解,因為我們現在可以說不斷的看到一些患者過來,他們有自己的需求,我們希望能夠有解決方案給他們,這是一個責任的問題。
  • 雙子星破局 太極雙星1.3億被沒收恐負法律責任
    東南網2月22日訊 據臺灣媒體報導,雙子星開發案確定破局!臺北市捷運局長陳椿亮今(22)日證實,捷運局至上午9點前,都未收到太極雙星的履約保障金,陳椿亮也在現場宣布太極雙星在此開發案中「失格」,除了沒收1億3000萬(新臺幣,下同)投標保證金,太極雙星還可能要負上法律責任。
  • 負責任,才是成年人最大的體面
    在眾聲質疑中,這家公司的CEO如此回應:「絕不跑路,絕不推卸責任,問題不解決不宣布破產。」為解決員工問題,他向同行發出呼籲,接手手底下上千員工,墊付12月拖欠的工資;為解決客戶的問題,他表示願意將公司開發的產品無償贈送,希望有機構伸出援手接納學生。目前尚不清楚這件事情最終如何解決。但是,在信譽逐漸成為一種稀缺品的今天,負責任,才是一個成年人最大的體面。
  • Nature:20萬人基因數據揭露長壽大秘密!
    Nature:20萬人基因數據揭露長壽大秘密!一項巨大的基因研究正在試圖弄清楚人類的基因突變如何演變,以此來如何擺脫那些會縮減人類壽命的有害基因突變。為了確定人類的基因組哪些會發生變化,研究人員們調用了英國和美國的大型遺傳資料庫的數據來進行基因突變的研究,以此來確定突變在不同年齡組之間的流行度。科學家們通過測試等位基因的頻率是否隨年齡而變化,並在實實際過程中將考遺傳過程中的變異情況也納入到影響因素中來。
  • 大數據時代如何破局停車難
    官方數據顯示,截至今年6月底,全國機動車保有量達3.04億輛,其中汽車2.05億輛。   伴隨著機動車保有量的一路飆漲,車位缺口不斷加大、公共停車場建設滯後、亂停車現象屢禁不止等問題日益凸顯,「停車難」成為城市「成長的煩惱」。在此情況下,長沙提出利用大數據緩解城市停車難問題,提升城市交通治理水平。   停車難,到底難在哪?該如何破局?
  • Nature告訴你基因如何決定身高!
    然而,具體哪些基因影響到人的身高? 2017年, 國際人類學遺傳調查聯盟(GIANT)發現了83個新的會影響人類身高的基因變異。這些變異非常罕見,但它們對身高的影響卻很大,甚至可以超過2釐米。研究成果發表在權威期刊Nature雜誌上。
  • 區塊鏈技術如何實現健康數據安全共享訪問
    區塊鏈技術如何實現健康數據安全共享訪問 工程師周亮 發表於 2018-09-03 11:49:58 Ledger Insight就區塊鏈和質量評分方面的健康數據與
  • AHBA|帶你了解如何採集全腦基因表達數據
    Allen Human Brain Atlas (AHBA) 是一個整合了大腦基因表達的多模態人腦圖集,為研究者提供了免費的可視化和數據挖掘資源
  • 國家基因庫成GISAID中國首個授權機構,助病毒數據共享
    澎湃新聞記者從國內基因測序龍頭華大集團處獲悉,3月16日,深圳國家基因庫(下稱「國家基因庫」)與全球共享流感數據倡議組織(GISAID)達成戰略性合作,國家基因庫生命大數據平臺(CNGBdb)成為GISAID的中國首個正式授權平臺。
  • 沈向洋續聘清華雙聘教授報告實錄:如何設計和構建負責任的 AI
    會後,沈向洋發表了主題為 「如何設計和構建負責任的 AI」 的全英文演講,InfoQ 對重點內容進行了整理。沈向洋是氪信CEO朱明傑在微軟亞洲研究員博士期間的老師,對氪信在人工智慧領域的發展長期關注並給予肯定和支持。
  • 破局思維:如何找到直擊問題的本質?
    比如你很忙天天加班,狀態不佳,情緒紊亂,變得更忙更亂,這就很典型。  這時破局的核心是「打破循環」,怎麼做呢?  原本你很忙沒時間思考,現在每天給自己設定一個固定時間,來優化本周工作的情況,方向和可以改進的地方,下周的核心計劃等,這樣你就會慢慢進入正向的狀態。
  • 國家基因庫獲正式授權 與國際組織共促流感數據共享
    醫療界科技日報訊(記者劉傳書)3月16日,深圳國家基因庫與全球共享流感數據倡議組織(GISAID)達成戰略性合作。國家基因庫生命大數據平臺成為GISAID的中國首個正式授權平臺。2008年建立的GISAID是目前全球最大的流感及新型冠狀病毒數據平臺。
  • ...瀕危野生動物基因資源庫共享平臺 - 中華人民共和國教育部政府...
    教育部科技基礎資源數據平臺建設計劃系列介紹之六 瀕危野生動物基因資源庫共享平臺   所屬領域: 自然科技資源共享  牽頭單位: 浙江大學  項目負責人:方盛國教授  參加單位:
  • 你了解國家基因庫嗎?本文將帶你近距離接觸!
    你了解國家基因庫嗎?本文將帶你近距離接觸! 工程師青青 發表於 2018-07-28 09:58:00 對絕大多數人來說,國家基因庫一直都非常神秘。
  • 深圳國家基因庫成為全球共享流感數據倡議組織(GISAID)的中國首個...
    3月16日,深圳國家基因庫(以下簡稱為國家基因庫)與全球共享流感數據倡議組織(GISAID)達成戰略性合作。國家基因庫生命大數據平臺(CNGBdb)成為GISAID的中國首個正式授權平臺。2008年建立的GISAID是目前全球最大的流感及新型冠狀病毒數據平臺。中國在抗擊嚴重急性呼吸症候群(SARS)、甲型HIN1流感、人感染H7N9禽流感、COVID-19等疫情中發揮了重要作用。
  • Nature Communications | 英國約翰英納斯研究中心揭示植物代謝基因簇分子進化的新機制!
    近年來,在植物中也發現了類似細菌中操縱子的代謝基因簇。這些基因簇由多個來源於不同酶家族的基因在染色體上緊密連鎖構成。和操縱子不同,植物基因簇的基因有自己獨立的啟動子,協同表達編碼共同的特異代謝通路。過去十年來,越來越多決定重要農藝性狀或者有重要醫用價值的植物特生代謝小分子(specialized/secondary metabolites)被發現是由基因簇編碼的。
  • DNA研究缺數據 你願意把你的基因信息"賣"了嗎
    5月21日消息,據外媒Telegraph報導,你是否曾經擔心過那些科技巨頭會利用你的個人信息來賺錢?是否猜測過這些「幕後黑手」的身份?在Facebook數據洩露事件愈演愈烈的背景下,設想一下,如果數據洩露所包含的範圍超越了「個人喜好」和所謂的問卷調查結果,而進一步觸及到了你最私密的生物特徵——你個人基因組的細節——那會是一幅怎樣的情景呢?
  • 《Nature》石墨烯納米帶突破性進展或因數據處理問題被撤稿
    研究者們研發了一種活性成環共軛延展聚合(APEX)反應,通過改變引發劑與單體濃度比、引發劑結構、反應條件實現了合成結構和長度均可控的石墨烯納米帶。相關工作已發表在《自然》期刊上。(相關報導:《Nature》從稠環芳烴到石墨烯納米帶:聚合反應的可控合成)本文首次報導了一種合成結構、寬度及長度均可控的石墨烯納米帶聚合方法
  • Nature:FB和推特的數據是如何革新社會科學,改變世界的?
    大數據文摘出品來源:nature編譯:張睿毅2007年,一群有野心的科學家召集了一次會議,討論新興的社會科學數據處理的藝術。對於費城賓夕法尼亞大學的社會學家鄧肯·瓦茨(Duncan Watts)而言,社會科學的變化讓人想起1990年代生物學的變化,當時高通量技術開始產生大量有關DNA序列和基因表達的數據。他說:「新數據中出現了雪崩式增長,需要以非常不同的方式來考慮數據。」
  • 《Nature》重磅:十年後基因組學會給人類健康帶來什麼樣的改變?
    回過頭來看,過去十年時間,基因醫學已經逐漸成為現實,科學研究的成果已經被轉化為醫療保健強有力的工具。比如癌症精準用藥診斷、癌症早篩早診、針對孕婦的無創產前篩查以及兒科和罕見病方面的各種新興檢測方法。 下一個十年,基因組學將會如何發展?有哪些需要重點突破的研究課題?基因組學前沿技術將會有哪些應用機會?