用大數據預測疾病趨勢 小心踩到雷區

2020-11-30 健康界

編者按:

在大數據被熱炒的今天,你一定從哪裡聽說過,谷歌用搜索和大數據技術來預測流感發生。大數據粉絲們對此捧紅得不得了,這就是著名的「谷歌流感趨勢」(Google Flu Trends)項目。粉絲們認為,利用大數據預測疾病發生,是公眾健康的福祉。

不過,身在美國的衛生經濟學家陳茁向健康界介紹,這一始於2008年的項目如今在美國遭遇到了很大質疑。

他介紹,儘管「谷歌流感趨勢」在2009年的成功表現讓人大吃一驚,但接下來,項目高估了類流感的發病率,有時甚至比美國疾控中心的數據高出一倍以上。

不過,熟悉統計學的陳茁結合他過去的一些研究,對「谷歌流感趨勢」與美國疾控中心數據偏差產生的原因進行了分析,並對谷歌項目提出了改進建議。

他的觀點很明確,類似項目應該在數據準確方面有所改進,不切實際的過高期望有可能會「捧殺」大數據。但他相信,如果方法得當,大數據對疾病預測依舊有巨大的潛能,還可以在疾病監測防控之外發揮難以比擬的作用。

中國衛生領域對大數據的支持者最近大概是喜憂參半。一方面,中國國家疾病預防控制中心與百度合作,進行疾病預測防控;另一方面,美國「谷歌流感趨勢」項目的準確性遭受到質疑。

「谷歌流感趨勢」是谷歌公司2008年上馬的一個項目。它的想法是,根據美國各州和主要城市對流感短語的搜索,來預測流感的暴發。

項目背後的原理也很簡單:如果某地流感開始流行,那麼相關疾病的谷歌搜索就會增多。谷歌研究團隊2009年在《自然》上發表的文章引起很大反響。他們準確預測了2009年流感流行,讓人大吃一驚。

其實,對於利用搜尋引擎及相關數據預測衛生領域指標,業內早有相關研究。哈佛大學陳怡玲和合作者利用Yahoo的搜索數據,曾預測過肺炎和流感相關死亡數,相關研究於2008年發表在《Clinical Infectious Disease》上。

「谷歌流感趨勢」為何受質疑

2009年以後,「谷歌流感趨勢」項目的表現一直不盡如人意。2011年~2013年間,項目多數高估了類流感發病率,有時候甚至比美國疾控中心的數據超出一倍以上。原因到底是什麼?

我個人認為,其中一個原因就是大家被「谷歌流感趨勢」2009年的成功迷惑了,寄予了它過高的期望值。

現實要遠比原理複雜。谷歌搜索的結果和使用者人群「自我估計」的流感發病率相關。「自我估計」實際上很有問題。這是因為,普通感冒在不同個體身上的嚴重程度上會有差別,有些患者因為擔心,便搜索了相關信息。這些搜索構成了類流感「自我估計」中的「噪聲」。所以,「谷歌流感趨勢」模型中的「噪聲」需要謹慎對待。

另外,美國疾控中心的數據來自各地實驗室或醫療服務提供商,反映的是就診發病率。由於不是每個類流感患者都會去看病,美國疾控中心的數據跟真實發病率也會有差別。

某種意義上說,谷歌流感趨勢的預測和美國疾控中心數據是兩個不同的指標,兩者不一樣並不奇怪。相對於就診發病率,我認為「谷歌流感趨勢」結合傳播動力學來預測流感暴發概率,可能會更好一些。

當然,如果只用「谷歌流感趨勢」,還想準確地預測流感發病率,無疑是歧路亡羊。

「谷歌流感趨勢」項目失誤的另外一個原因是在數據分析方面存在欠缺。哈佛大學GaryKing和搭檔的研究就指出了谷歌項目在分析上的不足。

首先,這個項目沒有儘可能利用傳統的統計分析手段來剔除系統誤差,比如殘差的自相關性和季節性。

其次,「谷歌流感趨勢」忽略了其他數據的作用。如果結合美國疾控中心的數據,谷歌的預測其實有可能被大大改善。我曾在明尼蘇達大學楊宇宏教授的指導下做過「預測合併」的研究,「預測合併」可以改善預測精度,這或許是一個可行的改進方向。

另外,有推測認為,隨著項目開始廣為人知,很多人開始跟進研究。大家都搜索流感相關短語,也增加了不少「噪聲」。這個問題相對來說比較容易解決,因為谷歌可以確定搜索是否源於研究機構子網中,然後進行排除。

而且,Gary King等也委婉地對谷歌研究團隊提出了批評,認為其數據分析不夠透明,沒有將完全的「搜索短語集」公布出來。

中國CDC與百度合作要避免雷區

儘管谷歌的項目遭遇質疑,但我個人認為這種質疑不足以否定大數據對國民健康的潛在貢獻。我也相信,大數據還可以在疾病監測防控之外發揮難以比擬的作用。

根據美國2010平價醫療法案(ACA)建立的循患果效研究所(Patient-centered Outcome Research Institute)曾經資助了一個大數據項目。該項目旨在利用11個不同醫療服務網絡的數據,來找出醫學幹預有可能產生的不同效果,並為找到合適的隨機臨床試驗受試者提供線索。

此外,隨著信息技術的發展和相關軟硬體性價比的提高,相當多的數據服務商和地區醫療服務網絡已開始利用大數據,尋找最有效和最具成本效益的醫學、預防和幹預手段。老牌MarketScan等數據服務機構受到新興機構的挑戰,如醫療成本研究所等。

我相信,中國國家疾病預防控制中心與百度的合作前景可期。百度的數據結合中國國家疾病預防控制中心觀測點的數據,可提供更多更全面的原始信息。如果配合嚴謹的分析,這有可能開闢疾病監測防控的新天地。

對於上述合作,期許之外,我也有一些建議:

一個是應該更加重視分析方法,不能因為有了大數據就放棄對分析方法的重視和探索。沒有合適的方法,大數據也可能導致錯誤的結論。比如,百度的使用人群會有不同的特徵,利用百度數據進行推測疾病,就需要考慮這些特定人群與一般人群之間的差異。

另外,也需要考慮個人隱私和流行病監測之間的平衡。

最後,對標準化的重視會減少大數據應用過程中的錯誤。這一點對醫院和各地疾控機構信息化建設尤為重要。

(本文作者為芝加哥大學衛生促進研究中心博士後學者,資深衛生經濟學者,主要研究領域為衛生經濟學、健康不均等的分析,及政策和項目評估。《中國衛生評論》創刊主任編輯,現任《家庭和經濟問題雜誌》編輯委員會委員。本文僅代表作者個人觀點。)

相關焦點

  • 雙子座的雷區,不小心踩到後果很嚴重
    雙子座反應靈敏,又擅長溝通,無拘無束,特別喜歡和朋友相處,是個非常有趣的星座,不過,如果你踩了以下的雷區,那情況又會很不一樣:一、背叛雙子座對於感情很專一,尤其是愛情,一旦愛上一個人便是一心一意,一生一世
  • 一隻狗,越養越瘦,往往踩到了這5個「雷區」!
    現在生活中飼養狗狗的人越來越多了,相信不少寵主在飼養狗狗的過程中,都踩過不少的雷區吧,今天小編要和大家說說,一隻狗,越養越瘦,其實是踩到了下面這5個雷區!而且這時的狗狗還特別的能吃,所以主人一定要注意了,千萬別踩這個雷區!2、餵食沒有規律飼養狗狗的過程中,主人一定要餵食有規律,千萬不要給狗狗餓一餐飽一餐的做法,這樣也只會讓狗狗身體偏瘦的,所以主人一定要注意了。
  • CAD繪圖3大雷區,你踩中過嗎?
    大家不妨回憶一下,作為曾經CAD新手,有沒有注意到自己繪圖的時候,總是要改來改去,其中最明顯的就是,經常畫了一些圖形之後,標註時才發現,箭頭以及標註數字都太小了,在修改標註樣式和重新畫之間反覆橫跳。為了避免新手夥伴出現這種搖擺不定的情況,今天還是有必要分享CAD繪圖的5大雷區,希望大家不要再踩了。
  • 快來看看你有沒有踩到這18個雷區
    因為對於大部分百家號的作者來說,之所以會出現推薦少、閱讀差、收入低的原因,就在於他們踩到了一些常見的雷區,尤其是對還未成長起來的萌新來說,踩到雷區而不自知,更是致命。所以,本篇專欄文章將從「常規雷區」、「選題雷區」、「標題雷區」、「內容雷區」、「圖片雷區」五個方向的18個雷區進行排雷!可是我們為什麼要排雷?
  • 女人無論哪個年齡段,都不要踩到這5種搭配雷區,廉價又很醜
    特別是穿衣打扮上,有自己獨特的風格,展現最美的一面,那麼在搭配上最好不要踩到這5種雷區,真的很難看又俗氣。雷區一、漁網牛仔褲簡單的基本款牛仔褲有點單調,有些女人要想著嘗試一些個性另類的風格,而去選擇潮流街頭風的破洞牛仔褲搭配漁網襪,現在時尚圈是很流行混搭風,可這樣的混搭不管是潮流女星還是時尚達人都不敢去嘗試的雷區,真的俗氣又難看。
  • 非瘟防控十大雷區不要踩
    道勤生物周應培:豬場防非失敗,很可能踩到了這十大雷區!《農財寶典》新牧網記者 文/王文強圖/遊耀君‍‍非瘟防控雷區眾多,稍有不慎便前功盡棄,如何才能不踩雷或者少踩雷做到成功防非呢?湖南道勤生物科技有限公司董事長、長沙道勤生物科技有限公司董事長周應培防非操作有十大雷區周應培把養豬人比喻為芭蕾舞者,但非瘟肆虐導致舞臺發生變化,養豬人無疑是在一塊塊地雷陣上跳芭蕾。很多豬場防非失敗,很有可能踩到這些雷區,養豬人要想養好豬,首先要做到大掃雷,目的在於更經濟、少花錢、能落地、少幹活、更實效地防控住非瘟。
  • 白色T恤的幾個雷區,很多男士都踩中,真的很難看
    不過很多男士卻不知道其實白T恤有幾個雷區,非常容易踩中,而且踩中之後不但穿不出清爽感,還會穿出油膩感。那到底有哪些雷區要注意呢?雷區一:面料太薄在夏天的時候,很多男士為了貪圖涼快而選擇薄款的T恤,但是我們知道白色其實是比較透的一種顏色,它的遮光率比較低,如果面料再薄一點的話,那麼整件T恤就會顯得特別的通透。如果是在秀場上也到無妨,但是日常生活中就會給人一種不雅的感覺。
  • Excel數據分析兩大利器,趨勢預測與規劃求解
    數據分析工具千千萬,怎麼又能少得了Excel~ 01 預測工作表 預測工作表是Excel2016版添加的一個新功能,預測使用基於現有時間的數據和指數平滑
  • 2021高考想要逆襲,一輪複習時這「六大雷區」不要踩!
    >」不要踩!第一大雷區:沒有明確的學習計劃俗話說,萬事開頭難,有的同學到了高三階段,知道該努力學習了,一時間鬥志滿滿,但是由於缺少學習規劃,不會均衡安排各科的複習時間,導致效率低,長時間沒有達到學習效果,就會讓自己喪失信心,難以堅持。
  • 大數據新寵!百度大數據分析疾病分布情況
    【PConline 資訊】大數據又有了新功能!近日據悉,百度公司結合大數據整合和大數據分析等技術推出了在線的「疾病預測」功能,這項技術通過對用戶的搜索和位置數據進行統計和分析,從而得出人們關於搜索「流感」「肝炎」等疾病關鍵詞信息的時間和地點分布。
  • 大數據趨勢預測靠譜嗎?德國研究者用1.7萬篇arXiv論文預測機器學習...
    近日,來自德國達姆施塔特工業大學和法蘭克福金融管理學院的研究者在 arXiv 上發表論文,試圖基於兩個 arXiv 論文數據集預測相關領域的研究趨勢。研究者使用的數據集來自 arXiv 上機器學習 (cs.LG) 和自然語言生成問題,cs.LG 領域的主導研究方向是強化學習和對抗學習。
  • 《中國疾病保險知識圖譜》發布 用大數據「透視」疾病險
    原標題:《中國疾病保險知識圖譜》發布 用大數據「透視」疾病險   復旦大學中國保險科技實驗室近日發布了《中國疾病保險知識圖譜》(下稱《圖譜》)。《圖譜》顯示,中國疾病保險發展迅猛,但市場秩序混亂、信息不對稱的問題也凸顯,一方面是疾病保險產品種類多、條款設計複雜,消費者甄選難度大,另一方面是中小險企的重疾險產品容易陷入價格戰的困境。
  • 科研攻關跑贏疾病!鍾南山團隊用大數據、人工智慧預測疫情走勢
    會上,廣州醫科大學呼吸疾病國家重點實驗室PI楊子峰表示,疫情發生後,作為鍾南山院士團隊的一員,他也第一時間投入到應急工作中來。廣州醫科大學呼吸疾病國家重點實驗室PI楊子峰。「每一次新發的重大呼吸道傳染性疾病對我們來說都是從零開始的認識過程。」
  • 用基因預測疾病治療疾病 離成為現實還有多遠?
    用基因預測疾病,離現實還有多遠?  每個人都需要擁有一張含有個人遺傳信息的「生命說明書」,這些年來,科學家們一直致力於關於基因檢測的研究,利用獲取的基因研究數據,來評估人類身體的健康走向和疾病發生率,希望因此而使人類規避病痛,更加健康。我們真正做到了嗎?
  • 中國疾病保險知識圖譜發布 用大數據「透視」重疾險
    新民晚報訊(首席記者 談瓔)10年間3146份疾病保險的「秘密」,在大數據的捕捉透視之下無所遁形。昨天,由復旦大學中國保險科技實驗室主辦的中國疾病保險知識圖譜發布會舉行。醫學疾病數據方面,知識圖譜用世界衛生組織(WHO)、美國華盛頓大學健康指標與評估研究所(IHME)的相關發病率致死率等調研數據以及《中國衛生健康統計年鑑》、ICD10疾病編碼等標準和數據源對保障疾病進行系統分類與補充描述。
  • Nature Genetics:大數據分析可預測常見致命疾病風險
    雖然這項研究數據源自英國,但它表明,僅根據基因變異,美國就有高達2500萬人患冠狀動脈疾病的風險可能比正常人高出3倍以上。此外,還有數百萬人患其他疾病的風險也可能類似。基因組信息可以讓醫生將注意力特別集中在這些個體上,或能通過早期幹預實現疾病的預防。
  • 謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
    有感於 「搞人工智慧技術的人不知道醫療裡重要又可解的問題是什麼,搞醫療的人不知道技術究竟能幫到什麼程度」,前 IBM 認知醫療研究總監、平安醫療科技研究院副院長謝國彤博士針對疾病預測技術的核心概念、主要方法和發展趨勢,帶來詳細解讀。去年在新智元上寫了《我看到的靠譜醫療 AI 應用場景和關鍵技術》,原本計劃要寫個 「連續劇」 的,後來諸多事情就耽誤了。
  • 歷史動力學:如何用歷史大數據預測未來?(上)
    不過有兩位學者打算用數學方法去尋找歷史中存在的模式。並且希望利用這一模型去預測未來。這個大數據版的以史為鑑能成功地預測未來嗎?時間會證明的。而且說不定就在這幾年的時間內。《衛報》的Laura Spinney用一篇長文介紹了Peter Turchin的歷史動力學。
  • 移動醫療大數據的幾個偽命題:大數據的陷阱與小數據的重要性
    從大數據中得到規律,用小數據去驗證,在小數據中發現問題,再觀察相關大數據的變化,交互印證是非常重要的,但是目前很多的商業行為充斥著我們的移動醫療圈,過分強調大數據的背後,是有利益驅動的故事在的!接下來,我就來跟大家說一說大數據的陷阱!1.數據採集帶有傾向性。
  • 統計模型可以預測未來的疾病爆發
    「我們認為需要改進測量疾病控制程度的方法,這在一個非常複雜的系統中很難做到,特別是當我們觀察到真實病例數的一小部分時,」Eamon說。 O'Dea,德雷克實驗室的博士後研究員,專注於疾病生態學。研究小組發現,他們的預測與英國流行病學家羅伊·安德森和羅伯特·梅的著名調查結果一致,後者比較了19世紀80年代麻疹,風疹,腮腺炎,天花,水痘,猩紅熱,白喉和百日咳的流行周期。