【綜述文章】大數據點亮生命「美好時代」—新聞—科學網

2020-12-19 科學網

 

2019年對於吳雙(化名)而言是最難熬的一年。年初,本以為是一場普通感冒引起的咳嗽,卻未曾料想到在3個月後,竟被診斷為中央型肺腺癌第四期,縱隔淋巴轉移,伴遠端腎上腺轉移。

「拿到診斷報告的那一刻,我沒有掉一滴眼淚。」說這句話的時候,吳雙轉頭看向窗外,故意將視線避開了記者的目光,但眼角卻滲透出晶瑩的淚水。

吳雙,41歲,是一位都市職業女性。她告訴《科學新聞》,患病後,她和家人跑遍了北京多家知名的三甲醫院,嘗試過靶向藥物、化療、中藥等辦法,但病情都沒有得到緩解。「我還特地花了一萬多塊錢做了腫瘤基因檢測,很遺憾,報告顯示是沒有可用藥的基因突變。」

沒有相應的「可用藥」,又不能通過手術和放療進行積極幹預,這在臨床上就意味著只能「盲」用藥,即只能嘗試使用臨床上常用的一些藥物進行治療,再定期評價治療效果。但通常盲用藥物治療的效果只能「聽天由命」,而在醫院,像吳雙這樣的患者是大多數。

「即便能檢測到相應的基因突變,靶向藥物對不同患者的療效也並不相同。」中國工程院院士、中國醫學科學院腫瘤醫院主任醫師孫燕表示,腫瘤的發生是多基因聯合「發力」的結果,雖然通過基因檢測等手段可以得到海量的數據,但現有的認識仍集中在個別基因與治療腫瘤的關係,比如攜帶了致病性突變的BRCA1/2基因與乳腺癌、卵巢癌的關係,突變的EGFR基因與肺癌的關係等。「但是否還會有其他基因的參與,每個基因發揮的作用如何,我們不得而知。」

其實,孫燕的這種困惑,也正是目前腫瘤領域最讓人「頭疼」的難題。對此,中國科學院計算技術研究所高性能計算機研究中心主任譚光明在接受《科學新聞》採訪時表示,當前,生物醫學大數據的規模和產生速度遠遠超出了普通規模計算機的處理能力,亟需超算助力科學家從多維、立體、融合的數據中摸索出規律,從而更精確地輔助疾病的診斷和治療。

大數據是基礎戰略資源

事實上,自人類基因組計劃啟動以來,以下一代測序技術(NGS)和質譜技術(MS)為代表的各類組學技術得到了飛速發展,再加上傳統的顯微鏡技術、生化方法、免疫組織化學方法、生理體徵檢測和臨床影像拍攝技術等數據源的聚集,使得海量生物醫學數據正呈現指數級增長態勢。

「這些生物醫學大數據是國家基礎戰略資源也是重要資產。」中國醫學科學院醫學信息研究所副所長錢慶告訴《科學新聞》,生物醫學大數據主要包含以下特徵:一是數量大、複雜性高。例如,目前單個樣本的人類基因組和轉錄組測序數據量分別超過了100GB和30GB。二是內容與類型豐富。不僅包括臨床數據、生物組學數據,還包括醫藥研發與管理數據、醫療保險數據、行為與情緒數據等。三是存儲分散。醫學數據與信息往往存儲在不同機構所創建的資料庫中,具有異地、異構的特點。四是時效性強。比如醫學檢測時間、影像數據的時間函數、醫學文獻的半衰期等,均是反映相關數據時效特徵的重要指標。五是私密性。生物醫學數據不可避免地會涉及有關病人的姓名、年齡、病情等隱私內容。

也就是說,國家級樣本庫與數據中心應當承擔起大數據基礎建設的重要任務,建立百萬級中國人群基礎表型的基因組多樣性數據,作為臨床基因組學研究的基線。因此,對樣本和數據的管理、生產、調度、處理、使用都需要相關部門的投入和規劃,以保證數據的質量控制、使用效率和安全性。從長遠來看,這也為未來臨床研究提供了標準和對照數據,不僅能大大節省研究經費,同時也能提高研究質量。也就是說,工業化的獲取、生產與管理,才能保證生物醫學大數據能夠作為國家基礎戰略資源。

生物醫學大數據已經賦能臨床

不可否認,即便尚未引入信息科學的大型工具,這些大數據也賦予了醫生和臨床科研人員更多、更細緻的維度去了解疾病發生發展過程,大大拓展了醫學研究的深度和廣度。

截至2014年3月,美國人類基因組研究中心(NHGRI)基因組測序和全基因組關聯性分析(GWAS)目錄有3961條人類疾病相關的單核苷酸多態性(SNP)信息記錄在案,涉及571種疾病。而到2016年9月,NHGRI-GWAS目錄中的疾病相關SNP信息已經增長至24218條。

「可以說,目前對一些明確的、單基因突變引起的疾病,基因組測序已經能實現精準診斷,幫助臨床更好地區分不同疾病、施以更恰當治療。」北京大學第三醫院病理科分子病理實驗室武睿博士向《科學新聞》表示,21-三體症候群、新生兒遺傳耳聾基因篩查等都是測序技術在臨床的良好應用。

「我們還可以通過與檢測藥物濃度高低、效應強弱有關的藥物代謝酶、轉運體和受體的突變基因,調整給藥劑量或治療方案。」山東大學齊魯醫院臨床藥理研究所教授郭瑞臣在接受《科學新聞》採訪時說。

此外,生物醫學大數據目前也在腫瘤精準診療、優生優育、病原微生物檢測、疾病易感人群預防等方面發揮著作用。

亟需從數據中挖掘規律

「但是,對於複雜的、多基因改變引起的疾病,我們尚不能有效地解讀患者的生命數據信息,更談不上對這些疾病進行精準診斷、個體化治療和療效檢測。」武睿表示,除部分服從於孟德爾遺傳定律的單基因遺傳病外,多數疾病的發病往往涉及多重的分子生物學機制,並同時受到環境或個體行為等外部因素的影響。

以癌症患者為例,絕大多數突變都具有「個體特異性」,除了個別基因(例如EGFR等),同一個基因內,在不同患者中能找到相同突變的可能性微乎其微。不過,若從數據呈現的網絡調控模型來看,特定信號通路上的關鍵節點基因,儘管發生了不同突變,但驅動的下遊細胞內事件可能是相同的。

而現在生物醫學專家習慣性地將基因組數據與已有的知識體系進行「查對」(俗稱「查字典」),雖然這種方式在一定程度上解決了相應問題,但是並沒有將多維數據進行系統整合與分析,自然也無法從數據裡挖掘出更底層的知識和規律。

「這就需要我們有將生物學、醫學相關學科的知識轉化為數學模型的能力。」中國科學院計算技術研究所副研究員、中國科學院計算機研究所西部高等技術研究院常務副院長張春明向《科學新聞》表示,應充分利用現有的生物醫學數據,引入系統科學理論和視角,通過設計新的算法挖掘數據之間的相關關係,為解決現有的問題尋找新的路徑。最終,以生物醫學大數據推動生物醫學研究由原來的假設驅動向數據驅動的方式轉變。

這也是全球範圍內亟待解決的難題。

「畢竟,由於科學研究越來越專業化,學科門檻也越來越高,因此各個學科之間的壁壘事實上是越來越森嚴,並且現有的科研評價體系也不利於開展交叉研究。」華中科技大學生命科學與技術學院教授薛宇對《科學新聞》直言,目前我們對生物醫學大數據的應用還處於非常初級的階段。

高質量數據才能成就「算法」

不過,要想從紛繁複雜的數據中摸索出規律,並非易事。數據質量首當其衝。 遺憾的是,我國生物醫學大數據的現狀並不樂觀。數據的存儲分散、碎片化,標準多樣化,資料庫建設低水平重複,數據質量參差不齊、匯交共享機制不完善等問題,使得各種數據很難有效融合。

「並且,不同檢測機構從業人員的專業,儀器型號和配置、質控體系的設置等都會影響數據的質量及可比性。」神州醫療高級副總裁、SNOMED International全球管理委員會董事弓孟春接受《科學新聞》採訪時表示,國內外現行的檢測平臺缺乏相互質控驗證,參比文庫不完整,測序技術缺乏測序分析準確性的統一標準,這就很難準確地建立基因數據與臨床信息相對應的資料庫。

這一點也得到零氪科技首席數據科學家阮耀平的認同。他告訴《科學新聞》,目前,每家基因檢測公司雖各有特色,但參考的基因組資料庫和醫學資料庫主要來自國外,並且測序方法與解讀標準都不一樣,這勢必會影響結果的可靠性與可通用性。

採訪中,多位受訪專家也向記者表示,數據安全性更是他們關心的話題。

「生物醫學大數據蘊含了極其豐富的信息和知識,是關乎國家持續發展、人類生存與健康的重要戰略資源。」中南大學計算機學院院長王建新表示,使用生物醫學大數據一定要保護個體的隱私,對數據進行清洗。

但同時,王建新也強調,不要因為安全問題而把數據鎖死,而應加大基因組數據加密和共享技術的開發力度,以便在保證研究協同的情況下,避免患者隱私的洩露。

「我國也在逐步完善各方面的體系和機制建設,但還需加快法律法規的建設腳步。」錢慶建議還要健全倫理監管和審查機制,切實做到事前審批、事中監督和事後跟蹤,規範生物醫學研究和應用活動,從而推動科學技術的良性發展。

此外,數據的規範採集和標準化也是掣肘數據融合的關鍵因素。

「只有在不同信息系統之間的互操作性得以保證,信息共享才具有實際意義。而要實現互操作性就需要對數據結構、文件格式、傳輸標準、接口協議及語義控制等進行統一。」弓孟春表示,如果沒有統一,談生物醫學數據的共享及利用,則純屬「空中樓閣」。

這一點,錢慶也非常贊同。他表示,生物醫學大數據的應用發展,標準是前提,質量是保障。「我們有必要引入適宜的國際標準,並結合我國具體情況進行改進和優化以實現標準的本地化。在政策部門的牽頭下,推動建設一批國家標準、行業標準與團體標準,並配有相應的執行與監督管理。」

弓孟春提醒,讓數據大規模脫離產生這些數據並負有監管責任的醫療機構顯然是有巨大風險的。「但現有的醫學信息學技術體系可以保證在每家醫療機構的內部對數據進行治理,而各家機構甚至各個國家之間執行通用的數據模型、語義控制及質量控制標準,這將進一步支持真實世界研究,為臨床診療及政策決策提供真實世界證據。」

從假設驅動到數據驅動離不開「算力」

那麼,即便有了高質量的生物醫學大數據,有了相應的算法,就一定能摸索出疾病的發生發展規律麼?

譚光明給出的答案是否定的。他表示,光有數據和算法還遠遠不夠,必須要有強有力的算力支持。他舉例到,過去單一零散的數據,只需要在普通伺服器上用簡單程序處理和統計就可以;現在是多維海量的大數據,為了解決複雜生物醫學問題,要用多維海量的PB級(1PB=106GB)大數據對生命進行建模,那就要設計複雜的算法,而算法的複雜度和計算量遠遠超過了普通伺服器所能處理的規模,亟需高性能的算力資源支撐。

採訪中,記者了解到,中國科學院計算技術研究所高性能計算機研究中心(原國家智能計算機研究開發中心)一直以來都將生命科學數據處理作為研製高性能計算機的關鍵應用牽引之一。

「大數據的核心是利用數據的價值,而機器學習是利用數據價值的關鍵技術,對於大數據而言,機器學習是不可或缺的。相反,對於機器學習而言,數據越多越可能提升模型的精確性。」中國科學院院士、中國科學院合成生物學重點實驗室主任趙國屏說。

這在譚光明看來,勢必會產生一門新型交叉學科——計算醫學。「它致力於發展定量方法,通過應用數學、工程學和計算科學來智能化理解人類疾病的機理,並基於工業化的數據、算法、算力及生物醫學技術體系為醫學服務提供新洞見。」

文章開頭提到的吳雙,最後選擇藉助中國科學院計算技術研究所—哲源圖靈達爾文實驗室的數據分析方法,該分析結果建議醫生採用一種可能的治療方案。目前,經過這一方案的治療,吳雙體內已經沒有影像可見的腫瘤,血液腫瘤指標也回落至正常水平,生活逐步恢復平靜。

「未來,在計算醫學的引領下,臨床醫務工作者除了精確引導治療方案的實施,更要集中力量在全程臨床管理上,包括個性化藥物副作用管理、術後管理、康複方案管理、突發事件管理、預後管理、隨訪、準確定義個體化康復指標等。」圖靈達爾文實驗室主任牛鋼表示,未來誰能處理大數據,誰就能在臨床醫學的發展方向上「扛大旗」。

相關焦點

  • 科學網:大數據,新希望——點亮生命「美好時代」
    「這些生物醫學大數據是國家基礎戰略資源也是重要資產。」中國醫學科學院醫學信息研究所副所長錢慶告訴《科學新聞》,生物醫學大數據主要包含以下特徵:一是數量大、複雜性高。例如,目前單個樣本的人類基因組和轉錄組測序數據量分別超過了100GB和30GB。二是內容與類型豐富。不僅包括臨床數據、生物組學數據,還包括醫藥研發與管理數據、醫療保險數據、行為與情緒數據等。
  • 我國學者在《物理報導》發表綜述論文—新聞—科學網
    )及他們與瑞士弗裡堡大學、英國阿斯頓大學同事合作撰寫的題為「推薦系統」(Recommender Systems)的長篇綜述論文。該期刊每年僅發表三十餘篇學術論文,一般不接受自由投稿,而是邀請在各領域有相當國際影響力的研究小組執筆,旨在對相關重大研究成果進行歷史總結和文獻綜述,或針對當前研究熱點進行評述並探討尚未解決的重大科學問題。 信息技術特別是網際網路的發展推動我們進入了「大數據」的時代,在動態增長的海量數據中尋找有價值信息的難度不斷增加。
  • 「大科學」時代,論文「質控」有解嗎?—新聞—科學網
    近年來,論文造假事件屢屢曝出,涉及人物不乏重量級學術大咖。這讓人們質疑「大科學」時代的論文品控是否越來越難?在動輒數十人乃至上百人的大團隊裡,經常以通訊作者身份出現的學術帶頭人如何做到為每一篇論文負責?有人說「我們的圖片放錯了,但結論是對的」,他們的自我辯護成立嗎?
  • 探尋新媒體時代傳統科普期刊走向—新聞—科學網
    10月22日,由中國科協科普部支持,科普時報社和中國科普網主辦的「科普期刊融合發展交流沙龍」第三期活動在京召開,圍繞「新媒體時代傳統科學期刊的科普經驗分享」主題,在京相關科普期刊負責人、科普專家進行了交流探討,分享了新媒體時代傳統科普期刊發展壯大的成功經驗和有益探索。 內容是媒體融合的核心。
  • 中國新聞媒體的數據新聞報導實踐研究
    摘要:隨著大數據時代的到來,數據新聞成為學界和業界研究的熱門領域,本文釐清數據新聞的來源和概念,對學界的數據新聞研究成果做了文獻綜述,然後通過內容分析的量化分析方法,觀察中國新聞媒體對數據新聞的實際運用情況,主要是分析數據新聞在平面媒體中的運用情況,並對現狀進行思考和總結
  • 大數據時代人民網可視化數據新聞研究
    【摘要】大數據時代,數據新聞通過可視化設計將單調的文字和海量數據變得豐富多彩的信息呈現方式受到大眾的追捧和熱愛。國內媒體也紛紛成立數據新聞欄目,人民網於2013年成立數據新聞團隊,組建「圖解新聞」欄目。本文以人民網的「圖解新聞」的數據新聞為研究對象,對2017-2018年100條數據新聞進行研究。
  • 1400餘篇論文引用數據免費獲取—新聞—科學網
    所以,「開放引文計劃」(I4OC)應運而生,這一計劃旨在讓引文數據對所有人免費獲取,包括維基媒體基金會、公共科學圖書館出版商以及開放獲取期刊eLife在內的6家組織4月6日正式宣布啟動該計劃。到目前為止,該計劃已經與29家期刊出版商合作,讓任何人可獲取Crossref檢索庫中約1400萬篇論文的引文數據,Crossref是促進學術信息共享的一家非盈利合作機構。
  • 中國科學家分析有機電極材料應用前景—新聞—科學網
    近日,中國科學院院士、南開大學教授陳軍團隊受《自然綜述—化學》編委會邀請,發表題為《有機電極材料在鋰電池中的實際應用前景分析》的綜述論文,對有機電極材料的結構特徵
  • 雜誌好不好,就看最好的文章是不是發表在這裡—新聞—科學網
    雜誌好不好,就看最好的文章是不是發表在這裡
  • 聚焦組學「三國」 演義一流期刊—新聞—科學網
    正如他們所期待的那樣,這個聚焦生物學三個「小王國」的期刊吸引了包括諾貝爾獎得主、院士、業內先鋒人物在內的領域「大咖」投稿或擔任編委,成為推進我國相關領域內國際學術交流的重要平臺。從2003年應對非典型肺炎到2020年迅速對新冠肺炎做出反應,它記錄和反映了中國生物技術研究的成長曆程。 它還見證了近20年來「基因組時代」的大踏步前進。
  • 我國衛星導航領域首本英文期刊上線—新聞—科學網
    作為中國北鬥衛星導航系統的國際學術交流平臺,期刊聚焦衛星導航領域最新理論發展和技術應用,主要發表原創論文、綜述及評論,涵蓋衛星導航信號及信號處理、信號接收器、抗幹擾與反欺騙、衛星定軌與時間同步、多傳感器與組合導航、GNSS增強技術、自主導航、時空基準建立與維持、時空基準的傳遞、高精度時鐘技術、地球應用、智能應用等不同技術領域。
  • 探討大數據時代思政教育新形勢
    來源:中國社會科學網-中國社會科學報中國社會科學報成都8月6日電(記者曾江 通訊員唐登蕓)近日,國家社科基金重大項目「大數據時代思想政治教育理論、方法和實踐的創新研究」開題論證會在電子科技大學召開。大數據有利於實現思政教育的不斷創新。
  • Nature分享:如何寫好綜述論文?
    綜述類論文是科學家的重要資源。它們可以提供一個領域的歷史背景,以及關於該領域未來發展的個人看法。同時,撰寫這類文章可以為自己的研究提供靈感,還可以做一些寫作練習。不過,很少有科學家接受過如何寫綜述類論文的訓練,或者不知道一篇優秀的綜述文章是怎樣構成的。
  • 《自然》:中國的薈萃分析文章太多了!
    Ioannidis教授的文章剛剛發表在The Milbank Quarterly,文章對這種問題進行量化分析。他說,文獻的重要性越大,發生錯誤的危害性越大,這種重要文獻大量存在錯誤需要引起重視。這樣的數據讓我們尷尬萬分,是我們寫這類文章的能力高?是我們寫這種文章的動力大?還是我們寫這種文章的市場操作機制優勢?布朗大學生物統計學家Christopher Schmid負責處理《美國腎臟病雜誌》的薈萃分析類稿件。Schmid教授認為,這種文章的增加的原因是學者論文發表壓力的越來越大。大約10年前,他就注意到來自亞洲的這類稿件越來越多。
  • 大數據時代應如何培養財經新聞人才
    本文轉自【中國新聞出版廣電報】;隨著雲計算、物聯網、移動互聯、社交媒體和人工智慧等新型信息技術和應用模式的不斷發展,數據正以前所未有的方式推動著人類社會進入大數據時代。在全球進入大數據時代的背景下,大數據對各個行業的影響也逐漸顯現,不知不覺地改變著人們生活的各個方面。
  • 科學網—我學者在《物理報導》發表綜述論文
    本報訊(見習記者邱銳)近日,國際物理類綜述性期刊《物理報導》發表了由杭州師範大學信息經濟研究所教授呂琳媛、張子柯和電子科技大學網際網路科學中心教授周濤等撰寫的題為《推薦系統》的長篇綜述論文 據悉,隨著信息技術特別是網際網路技術的發展,在動態增長的海量數據中尋找有價值信息的難度不斷增加。推薦系統被認為是最有希望解決「信息過載」問題的「武器」之一。其通過分析用戶的歷史記錄,挖掘用戶實時喜好和需求,並基於此向用戶推薦感興趣的諮詢和商品。推薦引擎在電子商務、網絡媒體、社交網絡、金融保險等行業已獲得大量應用,產生了重大的社會經濟價值。
  • 大數據時代新聞價值判斷的「四個轉向」
    【關鍵詞】大數據  新聞價值  價值判斷    【中圖分類號】G210    【文獻標識碼】A如今,我們正在進入一個大規模生產、分享和應用數據的時代,大數據及新的技術手段帶來的信息風暴席捲了整個社會,使人們的工作、生活、學習及理解世界的方式發生巨大改變。
  • 大數據時代可視化新聞的特點及發展趨勢
    摘要:大數據時代對新聞生產的改變,不但是讓報導擁有了海量的數據,關鍵在於數據的「廣度」和「深度」,讓新聞報導的方式也發生了深刻的改變。可視化新聞就是隨著數據在新聞中的廣泛運用出現並發展起來的。從最初英美主流媒體率先實踐,到如今全球各國媒體重視發展讓其擁有廣闊應用前景,本文總結歸納了可視化新聞一路走來的發展特點和發展趨勢。這將有利於探索大數據時代對新聞報導的影響,以及未來新聞生產方式變革的合適途徑。
  • 深圳先進院自然指數位列廣東省科研機構第一—新聞—科學網
    12月17日,記者從中科院深圳先進技術研究院(以下簡稱深圳先進院)獲悉,最新數據顯示(統計時間範圍為2019年9月1日至2020年8月30日),按照自然指數排名,深圳先進院指數從去年同期的23.45提升至29.92,再創歷史新高,在廣東省科研機構中的排名由原來的第二躍居第一,在中科院體系內排名17,全國高校排名85。
  • 當「讀圖」遇上「大數據」——新聞報導中的數據可視化分析
    【摘要】高速發展的網絡媒體為大數據的傳播和發展提供了絕佳的傳播平臺。新聞採寫在面對數據龐大、內容繁多的大數據時代,需要跟隨時代特徵不斷轉變。數據可視化的誕生有助於新聞信息的到達度,更新傳遞信息的模式,拉近與受眾之間的距離,從而更便捷地完成新聞內容的傳播。