4月13日周一,很多同學在中英文媒體上都看到了「全美確診單日暴增10萬,確診68萬多」這個錯誤的信息。微博也有一個熱搜 #美國疫情統計出現烏龍#
一畝三分地一直在維護北美疫情數據實時更新網站,網站由一畝三分地的工程師們開發和維護,數據由志願者們整理。
有同學昨天發現了網站數據異常,在地裡發帖問:《一畝三分地疫情數據,佛羅裡達狂增10w?》
一畝三分地站長Warald在帖子裡做了初步回復,後來有同學追問:
所以說美國疫情數據的傳播鏈是這樣的?
一畝三分地 -> JHU -> 權威新聞媒體 -> 各路轉載的新聞媒體 -> 國內公眾號 -> 國內的家長們 -> 北美留學生從父母那裡得知 -> 留學生來一畝三分地問
真這樣的話,地裡是疫情數據源頭啊
本著客觀、全面的原則,就此事做一個回復。
首先,我們需要道歉,在整理疫情數據的過程中,我們犯了錯誤。
其次,我們的錯誤,被中美媒體複製到全世界了。
事件回顧
4月13日周一下午(美國西海岸時間)
16:00 | 我們一個志願者統計佛羅裡達州 Okaloosa County 數據時,本來應該把102改成103,但輸成了102103 - 這是美國4月13日單日暴增10萬+確診的來源。 |
16:01 | 該錯誤被部署到一畝三分地北美疫情網站生效。 |
16:10 | 我們陸續發現有人提醒數據出錯了。 |
16:12 | 我們發現了出錯的地方並進行修復。 |
16:13 | 修復上線生效。 |
整個事故,從西海岸下午14:01發生,到14:13修復,持續了12分鐘。 |
兩次部署的網站鏡像如下:
16:01PM 出錯 https://pneumonia-pisn3h0lz.now.sh/
16:13PM 修復 https://pneumonia-n94an8igr.now.sh/
修復之後,我們才意識到,在這短短的12分鐘,中國和美國媒體都報導了美國確診數目暴增的消息 - 單日漲10萬是很嚇人的。後來,微博上了熱搜,國內群眾認為是約翰霍普金斯大學(JHU)出了錯,因為它家是很多權威媒體引用的數據源。
隨後,國內陸續澄清:《約翰霍普金斯大學談「全球確診200萬」數據烏龍》。新聞裡基本都說下面這段話:
中新社國是直通車第一時間聯繫了約翰霍普金斯大學疫情可視化數據圖的核心成員。
該成員回應,數據上的波動變化是由於美國佛羅裡達州的數據源在人工輸入的時候出現了問題。
該成員稱,已經在Dashboard和GitHub上做了更正。現在系統已經恢復正常。
一畝三分地和JHU數據的關係
JHU的網站裡列舉了數據源,其中一個是1Point3Acres,一畝三分地網站域名。
JHU疫情網站有該校教授Lauren Gardner和她的一個博士生(也是中國人)創辦的。Gardner教授在4月份接受 Science Magazine採訪時,說:
There is a media aggregation site for the United States called 1point3Acres that we follow really closely. We take U.S. data from them, and they pull global data from us.
我們很感謝Gardner教授對我們認可,尤其是在接受Science採訪時,給我們credits。
Science 文章:『Every day is a new surprise.』 Inside the effort to produce the world’s most popular coronavirus tracker
Science 連結:
https://www.sciencemag.org/news/2020/04/every-day-new-surprise-inside-effort-produce-world-s-most-popular-coronavirus-tracker
一畝三分地和JHU是並行團隊
一畝三分地團隊之前發現過有大型網站(包括某世界各類統計網站和某新聞app),均曾經爬取一畝三分地數據,做為它們疫情tracker的部分數據來源。
但JHU情況不同。Warald跟Gardner教授通過電話,並且多次郵件聯繫。我們交流過雙方團隊運作心得,感覺兩個團隊模式很接近。一畝三分地專注美國和加拿大,JHU面臨的是全球數據,Gardner教授團隊面臨的問題更大。
在整理數據的過程中,我們經常遇到棘手的難題,非常希望能有其他獨立運行的團隊,其數據是認真推敲的,可以作為參考。所以,有JHU團隊的存在,我們很高興。
Gardner教授告訴Warald,她的團隊會參考多個數據源,會對數據做QC。此外,她們有開發Anomaly Detection System來檢測數據異常。
但我們並不清楚此次的錯誤是如何繞過JHU團隊QC和Anomaly Detection的。
除了JHU,我們知道還有各種網站爬取我們的數據,昨天也跟著「中招」,但維護網站本身已經很累了,實在沒精力去挨個聯繫。
總之,這個錯誤實在太明顯、太獨特了。我們認為:凡是4月13日,說美國確診總數超過68萬,佛羅裡達超過10萬的,都是在複製我們的錯誤。
但凡有人工加以認真檢查的,就不應該跟我們在短短的12分鐘內,犯同樣的錯誤。畢竟,單日確診超過10萬,又是佛羅裡達一個州,明顯違反常識。
我們很重視數據的準確性
弄錯佛羅裡達數據的這位同學對於錯誤被傳播開,感覺非常抱歉。我們對這位同學,只有理解,沒有任何指責。
因為數據越來越大了,更新花的時間越來越久,很容易出錯,而且,即使是美國政府部門的官網,也會有各種錯誤,增加我們的工作難度。
舉個例子,下面這張表格,很多人會以為 total death = 4
一畝三分地有數據收集流程上的管理制度,來減少錯誤,志願者們也非常小心。但我們作為一個民間組織,身後沒有約翰霍普金斯(JHU)這種全球一流大學的全力支持,一畝三分地疫情網站每下點擊得Warald自掏腰包(非常感謝在疫情網站請我們喝奶茶、捐款支持我們的同學),我們之前沒有人力來開發Anomaly Detection System。目前,我們在做這方面的開發,來儘量避免人工錯誤。
最後想說,當我們遇到很難解決的問題時,舉目四望,真的很希望有其他的信息源,可以作為參考、用來double check。也很希望別人能及時告訴我們什麼地方有錯誤。工程師熬夜維護網站、數據團隊志願者花大量時間核查每條信息,我們希望能把準確的數據帶給大家。
謝謝大家的理解。