這兩天,哈佛大學的研究又「火」了。
哈佛大學醫學院和波士頓大學公共衛生學院的研究團隊,通過分析2019年夏末秋初,武漢醫院停車場的衛星圖像和百度相關疾病術語的搜索數據,提出病毒在新冠疫情爆發前就已開始傳播的可能性。
論文標題截圖
論文一經媒體報導,便引起軒然大波。尤其是一些不專業的轉載,把標題直接改成「哈佛大學論文稱新冠病毒去年秋在武漢傳播」,極具誤導性。
認真讀完了這篇7頁長的論文(加上封面和參考文獻總共10頁),也看到了「數字」和「事實」擺在眼前。即便如此,這篇論文被質疑完全不冤。
首先,這不是一篇被學術期刊認證的文章。
文章被預發布在哈佛社區成員的開放訪問研究資料庫(DASH平臺)上。這是哈佛大學用於哈佛及其附屬機構的數據存儲庫,收錄的內容不僅包括論文、學位論文和書籍章節,甚至還有案例研究、會議記錄和工作文件。這個平臺並不是一個學術期刊,該文章更沒有經過嚴格的同行評議。
哈佛大學DASH平臺
其次,文章中使用到的「利用網絡搜索數據和衛星圖像進行流行病學調查」的研究方法,也確實存在。
例如,2010年海地地震後,科學家使用Twitter數據追蹤霍亂的蔓延;2013年,約翰霍普金斯大學的研究團隊同樣使用Twitter,監測流感病毒的流行變化。
這些新興的數據來源和分析方式,由於時效性更強、覆蓋範圍更廣,逐漸獲得研究人員的青睞。
即便如此,以上的「冤」並不能掩蓋論文中不嚴謹的實驗設計與分析這一事實。
更何況,頂著哈佛大學的光環,無論初衷如何,被別有用心的人利用起來也不足為奇。自然應該更加謹慎。
哈佛大學|約翰·哈佛塑像
從研究設計的角度,這篇論文至少存在三方面問題值得深究:
俗話說:garbage in, garbage out(垃圾進,垃圾出)。如果用錯誤的或無意義的數據進行分析,最終也只能得到錯誤、無意義的結果。
有關停車場車流量的分析,該研究選擇了武漢中南醫院、湖北婦幼保健院、武漢天佑醫院、武漢同濟醫院、武漢中心醫院和武漢協和醫院這6所醫院。其中,湖北婦幼保健院尤其顯眼。
在論文「研究方法」一節中提到:對於醫院的選擇,首先剔除了專科醫院(如武漢亞洲心臟病醫院)。但實際卻保留了湖北婦幼保健院,這一專攻婦產兒科,而非呼吸系統疾病的醫院。
武漢的大型綜合醫院和社區醫院總數不少於300家,而對於研究的最終選擇,不得不質疑讓人樣本的代表性。
同樣,百度搜尋引擎的數據採集,並不排除存在「採櫻桃謬誤」的可能,即有針對性的選擇數據。
一個臭名昭著的「採櫻桃謬誤」例子,就是20世紀60年代一項關於「糖和脂肪,哪個對人體危害更大」的研究。製糖業的資本買通了研究人員,將不符合「脂肪是元兇」的研究對象踢掉,研究結果自然也是脂肪影響人類健康,而糖卻得以「逃脫」。
這樣有失偏頗的數據採集,不是通過數據挖掘得到結論,而是把數據「牽引」至結論。
「因為A,所以B」,這個因果分析的建立,是需要嚴格證明的。既要有明確的數據支持兩者之間存在關聯,也要考慮到其它未明確因素C, D, E, F...是不是才真正是背後的原因。
比如疫情期間,有組織統計了美國兩黨所主導的紅州與藍州各自的確診和死亡病例。數據顯示,藍州的確認病例數和死亡人數均高於紅州。難道我們單憑這一個數據就說民主黨對於疫情的控制更弱嗎?
當然不能!
不同州的人口密度、人員流動性、人口年齡構成、醫療和社會資源等等等等,各有不同,自然也可能對最終結果產生影響。因此,如果歸因於政黨差異,顯然是存在漏洞。
放回到哈佛團隊的這項研究中,也有同樣的問題。
一方面,新冠病例與這幾家醫院停車場汽車數量和關鍵詞搜索的變化是否相關,需要進一步的數據檢驗;另一方面,這兩個現象背後,同樣可能存在其它影響因素(如軍運會)和其他常規疾病(如普通流感)的可能。至少跳躍了這兩方面的驗證步驟,將地理空間信息和搜尋引擎內容與疫情相聯繫,並不具有說服力。
其實在這篇論文中,研究人員自己都提到了以上幾點研究局限性。
原文是這樣的——
We are unable to know the intention of a search and not all symptom searches are necessarily linked to disease morbidity.
(譯:我們無法知道搜索的意圖,並非所有症狀搜索都必然與疾病發病率相關。)
These data are also vulnerable to fluctuations related to events we might not be aware of and individual search behavior changes over time, which may result in spurious signals
(譯:這些數據還容易受到我們或許不知道的事件相關波動,以及個體搜索行為改變所造成的影響)
Our retrospective analysis cannot verify if increased hospital and search engine volume is related to the SARS-CoV-2 virus.
(譯:我們的回顧性分析無法驗證醫院和搜尋引擎數量的增加是否與SARS-CoV-2病毒有關。)
但是這些內容並沒有在論文的題目和摘要中體現出來。相反,論文的題目和摘要傾向性很明顯。
對於一些只憑標題轉載文章的人來說,誤導性就尤其突出了。
參考文獻:
Bates, M. (2017). Tracking disease: Digital epidemiology offers new promise in predicting outbreaks. IEEE Pulse, 8(1), 18-22.
St Louis, C., & Zorlu, G. (2012). Can Twitter predict disease outbreaks?. BMJ, 344, e2353.
Broniatowski DA, Paul MJ, Dredze M. National and local influenza surveillance through Twitter: an analysis of the 2012-2013 influenza epidemic. PloS one. 2013 ;8(12):e83672. DOI: 10.1371/journal.pone.0083672.
Sithiprasasna, R., J Linthicum, K., Lerdthusnee, K., & G Brewer, T. (1997). Use of Geographical Information System to Study the Epidemiology of Dengue Haemorrhagic Fever in Thailand.
James Palmer: Why Not to Trust That Early Wuhan Study Harvard research cited by Trump suggests the coronavirus was spreading as early as last August. (https://foreignpolicy.com/, 2020-06-10)
Drew Altman, Kaiser Family Foundation: Reopening is a risk for Republican governors (2020-05-04)
https://www.axios.com/coronavirus-reopening-republican-governors-cases-deaths-c0233fd4-8f92-448e-a11c-ec5bded1def1.html