哈佛大學論文「翻車」背後：我們是如何被數據和文字利用的？

2020-08-28 公共衛生張滷蛋

這兩天，哈佛大學的研究又「火」了。

哈佛大學醫學院和波士頓大學公共衛生學院的研究團隊，通過分析2019年夏末秋初，武漢醫院停車場的衛星圖像和百度相關疾病術語的搜索數據，提出病毒在新冠疫情爆發前就已開始傳播的可能性。

論文標題截圖

論文一經媒體報導，便引起軒然大波。尤其是一些不專業的轉載，把標題直接改成「哈佛大學論文稱新冠病毒去年秋在武漢傳播」，極具誤導性。

認真讀完了這篇7頁長的論文（加上封面和參考文獻總共10頁），也看到了「數字」和「事實」擺在眼前。即便如此，這篇論文被質疑完全不冤。

首先，這不是一篇被學術期刊認證的文章。

文章被預發布在哈佛社區成員的開放訪問研究資料庫（DASH平臺）上。這是哈佛大學用於哈佛及其附屬機構的數據存儲庫，收錄的內容不僅包括論文、學位論文和書籍章節，甚至還有案例研究、會議記錄和工作文件。這個平臺並不是一個學術期刊，該文章更沒有經過嚴格的同行評議。

哈佛大學DASH平臺

其次，文章中使用到的「利用網絡搜索數據和衛星圖像進行流行病學調查」的研究方法，也確實存在。

例如，2010年海地地震後，科學家使用Twitter數據追蹤霍亂的蔓延；2013年，約翰霍普金斯大學的研究團隊同樣使用Twitter，監測流感病毒的流行變化。

這些新興的數據來源和分析方式，由於時效性更強、覆蓋範圍更廣，逐漸獲得研究人員的青睞。

即便如此，以上的「冤」並不能掩蓋論文中不嚴謹的實驗設計與分析這一事實。

更何況，頂著哈佛大學的光環，無論初衷如何，被別有用心的人利用起來也不足為奇。自然應該更加謹慎。

哈佛大學｜約翰·哈佛塑像

從研究設計的角度，這篇論文至少存在三方面問題值得深究：

樣本不具代表性，數據選擇存在偏差
沒有實質的相關性驗證
語言使用不一致

樣本/數據選擇偏差

俗話說：garbage in, garbage out（垃圾進，垃圾出）。如果用錯誤的或無意義的數據進行分析，最終也只能得到錯誤、無意義的結果。

有關停車場車流量的分析，該研究選擇了武漢中南醫院、湖北婦幼保健院、武漢天佑醫院、武漢同濟醫院、武漢中心醫院和武漢協和醫院這6所醫院。其中，湖北婦幼保健院尤其顯眼。

在論文「研究方法」一節中提到：對於醫院的選擇，首先剔除了專科醫院（如武漢亞洲心臟病醫院）。但實際卻保留了湖北婦幼保健院，這一專攻婦產兒科，而非呼吸系統疾病的醫院。

武漢的大型綜合醫院和社區醫院總數不少於300家，而對於研究的最終選擇，不得不質疑讓人樣本的代表性。

同樣，百度搜尋引擎的數據採集，並不排除存在「採櫻桃謬誤」的可能，即有針對性的選擇數據。

一個臭名昭著的「採櫻桃謬誤」例子，就是20世紀60年代一項關於「糖和脂肪，哪個對人體危害更大」的研究。製糖業的資本買通了研究人員，將不符合「脂肪是元兇」的研究對象踢掉，研究結果自然也是脂肪影響人類健康，而糖卻得以「逃脫」。

這樣有失偏頗的數據採集，不是通過數據挖掘得到結論，而是把數據「牽引」至結論。

沒有實質的相關性分析

「因為A，所以B」，這個因果分析的建立，是需要嚴格證明的。既要有明確的數據支持兩者之間存在關聯，也要考慮到其它未明確因素C, D, E, F...是不是才真正是背後的原因。

比如疫情期間，有組織統計了美國兩黨所主導的紅州與藍州各自的確診和死亡病例。數據顯示，藍州的確認病例數和死亡人數均高於紅州。難道我們單憑這一個數據就說民主黨對於疫情的控制更弱嗎？

當然不能！

不同州的人口密度、人員流動性、人口年齡構成、醫療和社會資源等等等等，各有不同，自然也可能對最終結果產生影響。因此，如果歸因於政黨差異，顯然是存在漏洞。

放回到哈佛團隊的這項研究中，也有同樣的問題。

一方面，新冠病例與這幾家醫院停車場汽車數量和關鍵詞搜索的變化是否相關，需要進一步的數據檢驗；另一方面，這兩個現象背後，同樣可能存在其它影響因素（如軍運會）和其他常規疾病（如普通流感）的可能。至少跳躍了這兩方面的驗證步驟，將地理空間信息和搜尋引擎內容與疫情相聯繫，並不具有說服力。

語言使用不一致

其實在這篇論文中，研究人員自己都提到了以上幾點研究局限性。

原文是這樣的——

We are unable to know the intention of a search and not all symptom searches are necessarily linked to disease morbidity.

（譯：我們無法知道搜索的意圖，並非所有症狀搜索都必然與疾病發病率相關。）

These data are also vulnerable to fluctuations related to events we might not be aware of and individual search behavior changes over time, which may result in spurious signals
（譯：這些數據還容易受到我們或許不知道的事件相關波動，以及個體搜索行為改變所造成的影響）

Our retrospective analysis cannot verify if increased hospital and search engine volume is related to the SARS-CoV-2 virus.

（譯：我們的回顧性分析無法驗證醫院和搜尋引擎數量的增加是否與SARS-CoV-2病毒有關。）

但是這些內容並沒有在論文的題目和摘要中體現出來。相反，論文的題目和摘要傾向性很明顯。

對於一些只憑標題轉載文章的人來說，誤導性就尤其突出了。

參考文獻：

Bates, M. (2017). Tracking disease: Digital epidemiology offers new promise in predicting outbreaks. IEEE Pulse, 8(1), 18-22.

St Louis, C., & Zorlu, G. (2012). Can Twitter predict disease outbreaks?. BMJ, 344, e2353.

Broniatowski DA, Paul MJ, Dredze M. National and local influenza surveillance through Twitter: an analysis of the 2012-2013 influenza epidemic. PloS one. 2013 ;8(12):e83672. DOI: 10.1371/journal.pone.0083672.

Sithiprasasna, R., J Linthicum, K., Lerdthusnee, K., & G Brewer, T. (1997). Use of Geographical Information System to Study the Epidemiology of Dengue Haemorrhagic Fever in Thailand.

James Palmer: Why Not to Trust That Early Wuhan Study Harvard research cited by Trump suggests the coronavirus was spreading as early as last August. (https://foreignpolicy.com/, 2020-06-10)

Drew Altman, Kaiser Family Foundation: Reopening is a risk for Republican governors (2020-05-04)

https://www.axios.com/coronavirus-reopening-republican-governors-cases-deaths-c0233fd4-8f92-448e-a11c-ec5bded1def1.html

相關焦點

哈佛大學論文指疫情始於8月武漢,被發現數據造假

美國哈佛大學的一個團隊在6月份發表了一篇論文，稱他們通過分析後認為武漢在2019年8月份的時候就開始了新冠疫情。他們的分析在邏輯上是不通的，已經被大量的學者及媒體所批判，甚至哈佛大學也已經把這篇文章撤稿。
頂刊論文「翻車」世衛也被誤導滿身漏洞的數據公司如何「騙」過了...

▲兩大權威期刊撤回兩篇「具有重要意義」的新冠研究論文。圖據《衛報》據悉，這兩項研究皆由哈佛大學心臟病學「大牛」曼迪普·梅赫拉教授（Dr. Mandeep Mehra）主導，其中一項研究認為，引人注目的抗瘧藥物氯喹和羥氯喹會對新冠患者造成更大危險；另一研究則是證明某些降壓藥並不會增加新冠治療風險，甚至可能起到保護作用。
哈佛論文竟捏造數據造謠疫情始於武漢,中國研究人員重新分析...

當時被爆造假後，哈佛這幾十年來在中國人民心裡的地位也「險些」跌落神壇，名校擁有深厚的底蘊和資源不假，但名校在關鍵時候的論文數據也會造假。這篇論文雖然看似可笑但已經發表並造成了嚴重的反面影響，如何徹底駁斥哈佛大學的這篇論文非常重要。於是一幫中國研究人員聚在一起，稱中國武漢8月就有新冠疫情的哈佛論文中的數據進行了重新分析。
哈佛「真」校訓背後的教育理念

但是，如果仔細看看這些在網絡上流傳的哈佛「校訓」，如「此刻打盹，你將做夢；而此刻學習，你將圓夢」、「學習這件事，不是缺乏時間，而是缺乏努力」、「我荒廢的今日，正是昨日殞身之人祈求的明日」，我們不難發現，它們不過都是在勸誡人們要珍惜時間、刻苦努力的現實做法而已。而這，與美國頂尖大學的真校訓背後所透露出來的教育理念，差距甚大。　　美國有八大常春藤盟校。
哈佛幹細胞專家論文造假導致行業倒退十年?!

來源:中國紀檢監察報哈佛大學醫學院皮耶羅·安韋薩隨著安韋薩的更多實驗數據被推翻，已經啟動的一系列試驗療法和商業項目也面臨危機。（均為資料圖片）美國哈佛大學醫學院近期發布一項調查結果，在醫學領域，尤其是幹細胞研究領域掀起軒然大波。
哈佛大學終身講席教授、美國院士帶你做健康大數據分析項目!

京領藤校科研不僅邀請到了來自哈佛大學生物統計學終身講席教授而且是哈佛大學數據科學項目聯合負責人—— 項目導師
給美國遞刀——哈佛黑論文背後的中國作者

這樣的論文，無非先有結論、後湊數據，可以說是美帝給中國量身定做的大黑鍋。而哈佛不幸成為了鍋底灰。這樣的論文，究竟出自何方妖孽之手呢？目前還是波士頓大學公共衛生學院全球衛生系的助理教授。主要研究方向就是用計算機技術（大數據分析）實現慢性病和傳染病監測。看似非常高大上，又是交叉學科，又是大數據分析，誰知道是手動清點衛星地圖上地面車輛，以及用百度關鍵詞檢索記錄。
哈佛幹細胞專家論文造假影響有多大

哈佛幹細胞專家論文造假導致行業倒退十年？！　　美國哈佛大學醫學院近期發布一項調查結果，在醫學領域，尤其是幹細胞研究領域掀起軒然大波。調查稱，作為心肌再生領域開創者和頂尖人物的皮耶羅·安韋薩教授有31篇學術論文存在數據造假，應予撤稿。
哈佛醫學院用停車場照片＋百度搜索炮製「論文

最近，哈佛醫學院未經審查的「論文」分析了武漢醫院停車場的衛星照片和中國搜尋引擎的搜索數據，試圖得出結論，武漢可能在去年8月底發生了新的新冠肺炎。「論文」中引用的材料牽強，而且漏洞太多，讓人感到驚訝。哈佛醫學院未經審查的「論文」充滿漏洞該「論文」發表在哈佛開放獲取機構圖書館的DASH（哈佛大學數字獲取獎學金）學術平臺上，尚未經過同行評審。
中國科學院外籍院士毛河光質疑哈佛大學的「金屬氫」:壓力數據經不...

據科技日報3月23日報導，哈佛大學物理學家造出地球上首塊金屬氫一事再遭質疑。「哈佛大學稱其將壓力做到495GPa，幾乎是海平面大氣壓的500萬倍，從而得到世界上首塊金屬氫。他們量壓力的方法，經不起考驗。照他們的數據看，應該沒有超過300GPa的壓力。」
BBC對哈佛大學論文作調查認為論文的結論站不住腳

據央視新聞客戶端消息，6月14日，BBC網站發表對哈佛大學論文進行事實核查的文章，認為論文的結論——去年8月就有新冠病毒在武漢傳播——是缺乏足夠證據的。質疑主要來自三個方面：質疑一：搜索詞不準確哈佛論文的主要作者Benjamin Rader告訴BBC，"選擇'腹瀉'這個搜索詞，是因為它與新冠肺炎確診病例的匹配度最高，所以被建議作為與症狀相關的搜索詞"。但BBC介紹了百度公司認為搜索詞並不準確的澄清。
DeepMind聯手哈佛大學,研究神經科學,不同尋常的思路令人興奮

那麼我們可以像研究大鼠一樣研究 AI 嗎？DeepMind 和哈佛大學的研究人員認為這一思路是可行的。他們創造了一個由 AI 驅動的虛擬大鼠，可以在模擬的 3D 環境中執行多項複雜任務。在研究所謂的「AI 大腦」如何控制大鼠運動的過程中，神經科學技術便可以派上用場。
諾獎得主30 多篇論文涉嫌造假、學術不端，是真的翻車了嗎？

每次大佬出了問題，我們這些吃瓜群眾都很是興奮。是不是真的翻車了呢？我們先看下事件經過：格雷格·塞門扎（Gregg L. Semenza），M.D., Ph.D.（賓夕法尼亞大學，雙學位）, 來自於美國的約翰霍普金斯大學醫學院，為兒科醫生、醫生科學家。在2019年因「在理解細胞感知和適應氧氣變化機制中的貢獻」獲獎。
哈佛大學利用細胞療法+CRISPR技術成功對抗肥胖

近年來，細胞和基因療法已成為肥胖症研究的熱門課題。近日，哈佛大學的研究人員利用細胞療法與CRISPR基因編輯技術結合成功對抗肥胖。這是肥胖症治療的一項重大突破。肥胖是導致2型糖尿病和相關慢性疾病的主要原因，據統計，肥胖今年在全球死亡人數將超過COVID-19。
【女神來了】哈佛大學劉小樂教授訪問天津大學

7月30日上午，哈佛大學與 Dana-Farber 癌症研究所統計、生物統計與計算生物學終身教授，Dana-Farber 功能性癌症表觀遺傳學中心主任劉小樂訪問天津大學
中山大學翻車?博士舉報博導索賄失敗阻撓自己發論文,慘遭退學

而近日以來頻有大學翻車，比如成都大學，天津大學，或許與這碎銀幾兩不無關係。而近日中山大學被爆疑似翻車，博士生舉報博導索賄失敗，阻礙自己發論文，最終致其慘遭退學。你來我往的辯論賽1.舉報人陳兵舉報導師索賄，阻撓自己發論文近日中山大學數據科學與計算機學院2012級博士生陳兵（化名）在網絡上發布舉報帖，稱博導因索賄失敗，阻攔自己發論文致自己無法畢業，慘遭退學。
5華人青年學者回懟哈佛醫學院「新冠論文」

科學網微信公號7月14日消息，今年6月，美國哈佛醫學院一篇發表在該校開放獲取資源庫DASH上的論文，通過分析武漢醫院停車場照片和百度搜索數據，斷定新冠疫情可能去年8月底就在武漢傳播。（相關閱讀：深度：哈佛醫學院這篇「新冠水文」，算是徹底砸牌子了！）論文上線後遭到多方譴責，被指所引用材料牽強之至，漏洞百出。
哈佛大學地理系的滅亡與地理學的重生

美國華人地理學家馬潤潮先生也指出，Schaefer和他的這篇論文引發的計量革命「最主要的意義並不在於它將計量方法帶進了地理學，而在於它是一場大型、猛烈及影響深遠的思想革命」【葉超、蔡運龍，2009】。第三節我們將哈佛大學的景觀設計學傳統，第四節我們將介紹根植於哈佛景觀設計學傳統之上的Geodesign，第五節我們將介紹哈佛大學在GIS技術上的發展特別是LCGSA的傑出成就。
BBC認為結論哈佛大學"新冠起源"論文站不住腳

BBC對哈佛大學「新冠起源」論文作調查認為結論站不住腳6月14日，BBC網站發表對哈佛大學論文進行事實核查的文章，認為論文的結論——去年8月就有新冠病毒在武漢傳播——是缺乏足夠證據的。文章報導了中國政府對於該論文的批駁，也提出一些獨立科學家對該論文的質疑。
學霸故事:她放棄哈佛大學,卻選擇了加州大學聖地牙哥分校!

，把我們培養成技能全面走向世界的人，同時還給我們足夠的機會去遊歷世界。2016年7月，我和學校的十幾位同學一起參加了芝加哥大學的暑期交流項目，認識了很多志同道合的朋友。我們在上課之餘也有機會遊覽芝加哥和周邊城市，其中有繁華的鬧市區，也有特色鮮明的居民區，還參觀了博物館。這讓我第一次切身感受到了中美之間文化和教育上的差異。

哈佛大學論文「翻車」背後：我們是如何被數據和文字利用的？

樣本/數據選擇偏差

沒有實質的相關性分析

語言使用不一致

相關焦點

哈佛大學論文指疫情始於8月武漢,被發現數據造假

頂刊論文「翻車」世衛也被誤導 滿身漏洞的數據公司如何「騙」過了...

哈佛論文竟捏造數據造謠疫情始於武漢,中國研究人員重新分析...

哈佛「真」校訓背後的教育理念

哈佛幹細胞專家論文造假導致行業倒退十年?!

哈佛大學終身講席教授、美國院士帶你做健康大數據分析項目!

給美國遞刀——哈佛黑論文背後的中國作者

哈佛幹細胞專家論文造假影響有多大

哈佛醫學院用停車場照片＋百度搜索炮製「論文

中國科學院外籍院士毛河光質疑哈佛大學的「金屬氫」:壓力數據經不...

BBC對哈佛大學論文作調查 認為論文的結論站不住腳

DeepMind聯手哈佛大學,研究神經科學,不同尋常的思路令人興奮

諾獎得主30 多篇論文涉嫌造假、學術不端，是真的翻車了嗎？

哈佛大學利用細胞療法+CRISPR技術成功對抗肥胖

【女神來了】哈佛大學劉小樂教授訪問天津大學

中山大學翻車?博士舉報博導索賄失敗阻撓自己發論文,慘遭退學

5華人青年學者回懟哈佛醫學院「新冠論文」

哈佛大學地理系的滅亡與地理學的重生

BBC認為結論哈佛大學"新冠起源"論文站不住腳

學霸故事:她放棄哈佛大學,卻選擇了加州大學聖地牙哥分校!

頂刊論文「翻車」世衛也被誤導滿身漏洞的數據公司如何「騙」過了...

BBC對哈佛大學論文作調查認為論文的結論站不住腳