剛剛美國確診超200萬!CDC、JHU用的疫情資料庫,來自這個華人團隊

2021-01-09 騰訊網

大數據文摘出品

作者:劉俊寰

剛剛,根據CovidNet網站數據,新冠肺炎導致的美國確診病例累計突破200萬全球累計確診病例數突破700萬,除了美國,巴西、俄羅斯、西班牙、英國、印度和義大利6個國家累計確診數已經超過20萬。

「身為武漢人,雖然我無法在武漢為他們做些什麼,但我真的想以某種方式提供幫助。」這是現居住於美國舊金山的華人郭昱在接受採訪時說的話,她和團隊想要做的,就是深入疫情數據,挖掘出有那些溫度的信息,幫助到全世界的人。

數字無法取代每一個鮮活的生命,但從這些看似冰冷的數字中,我們仍然可以得出一些有溫度的信息,將這些信息分享給更多的人。

基於「一畝三分地」這個北美華人論壇的新型冠狀病毒世界疫情動態追蹤平臺CovidNet,就是郭昱和團隊正在著手經營的項目,這是一個實時追蹤新冠疫情數據的網站,在1月初美國還沒有其他實時的疫情追蹤網站時,郭昱就已經開始和4位全職數據工程師著手打造這個網站了。

如今各國都建立起了實時疫情追蹤網站,其中最知名的或許要屬約翰霍普金斯大學(JHU)新冠追蹤網站,但其實,該網站的美國數據完全引用於CovidNet的數據。3月26日,美國疾病控制與預防中心(CDC)正式採用CovidNet的數據,這也是美國官方對民間數據網站的重要肯定。

CovidNet提供了全方位的交互式數據可視化工具,以供公眾參考。它有著比CDC更為細緻的地理分布數據,交互式地圖連通了各個省、州和郡、市的病例分布,數據表格可供讀者按照不同的統計量對各個國家和地區進行篩選和排序。

讀者還可以進行跨區域的疫情橫向比較,比如當選中國家後可以用滑鼠滑過不同地區查看相應地區的疫情數據,除此之外,CovidNet還提供了各種動態圖進行展示。

時間趨勢的呈現上,CovidNet同樣綜合了每天的疫情數據,讀者對疫情可以有更宏觀的分析和掌握。

網站連結:https://coronavirus.1point3acres.com/zh/world

不僅如此,為了讓更多人從中受益,5月14日,郭昱團隊將CovidNet的建立過程和技術細節以預印本形式進行了分享,並且向資料庫與數據挖掘領域的相關會議進行了投遞。

預印本連結:https://arxiv.org/abs/2005.10948?from=timeline&isappinstalled=0

截止到預印本發表時刻,CovidNet已經覆蓋了英語、中文、法語、日語、西班牙語5種語言,共覆蓋國家或地區188個,其中有州或省份級別數據的國家有25個,覆蓋州、省份974個,覆蓋北美郡、市3169個,CovidNet的數據信息源總數達到了2038條,用戶提交的新聞線索報告數量達到16240條

截止至本文發表,CovidNet已經覆蓋39個國家的分省/州數據,網站訪問量更是超過了2.25億

由於數據發布的及時準確,CovidNet已經引起了海內外不少媒體的興趣,包括《星島日報》、CGTN、鳳凰衛視在內的多家媒體都已對郭昱以及CovidNet進行了跟蹤報導。

美國CDC、JHU引用的全球疫情實時資料庫

4月,美國著名學術期刊Science對約翰霍普金斯新冠追蹤網站創始人Lauren Gardner進行了一次專訪,根據Gardner的說法,她和實驗室6名學生共同撐起了整個網站的運作,她們的數據來源除了地方衛生局和各地媒體,美國國內3149個郡、市的實時疫情數據完全來源於CovidNet

即使Gardner說得比較克制,但從她的介紹中,我們仍然能夠想像要建立實時更新的新冠疫情追蹤網站是有多麼不易。相比於約翰霍普金斯新冠追蹤網站,郭昱團隊最初只有4位全職工程師,如今CovidNet還擁有了超過50位志願者。他們共同面對當下最具挑戰性的全球性的數據追蹤問題,這不僅包括數據收集,還要進行實時的數據核實和深入調查

最重要的是,在全世界的監督之下,這裡的數據容不得一點差錯

首先,數據收集就是一個難關。郭昱表示,在公開數據上,CovidNet主要通過以下兩種方式獲取,一個是國家官方系統提供的開源數據,另一個是官方統計的當天最新數據

這其中根據每個國家報導的範式不同,上述兩種方式還需要細分。 對於第一種情況,有的國家以病例為單位進行報導,比如菲律賓或哥倫比亞,有的國家以行政區為單位進行報導,比如義大利或西班牙。針對此,郭昱團隊採取的做法是將前者聚合成後者的數據範式,這樣不僅能保持數據一致性,還能為全面準確地更新疫情數據提供良好的數據來源。

對於第二種情況,鑑於歷史數據大都以各種格式保存在歷史檔案或新聞存檔中,他們對能夠從官方存檔中獲取到所有的歷史數據進行匯總,並且僅更新當日官方報導的最新數據

除此之外,根據全球各異的數據發布方式,郭昱團隊設計了不同的數據處理機制

很多時候,國家/地區-省/州-郡/縣各級衛生機構發布數據的時間節點不同步,如果以不同級別的信息源各為參照源,就會導致數據總和出現差異,例如,在某一時刻,各個郡/市的統計數據之和與省/州總數並不相等,他們會優先選擇參照更基層的數據來源,同時在網站上公開解釋和高一級官方數據源不一致的原因

除了數據上的整合之外,各國的診斷標準不同,從時間上看將出現病例匯報的渠道和方式的前後差異,比如,疫情初期通常是個例報導,每例都會提供詳細信息,但隨著確診人數的增加,個例報導逐漸演變成確診數字統計,從空間上看每個國家處於疫情的不同階段,根據確診定義的發展數據標準也在同步變化。

這不只表現在不同國家之間,在其他級不同區域之間同樣存在類似情況,比如某些區域的數據增長過快,或者同一份報告中的數據不一致,在總趨勢中出現了累計統計總數下降等,都是需要考慮的地方。

針對上述種種變化,郭昱表示,為確保質量控制和數據的準確,他們結合自動搜集和人工更改、查驗的方式,同時也會按照當地衛生機構統計的方法,隨時針對數據獲取和統計方式進行修正,包括以人工核查的方式過濾掉媒體或者衛生部門報告中的噪聲,在根據原始信息進行更新的基礎上密切關注後續發展,對歷史數據進行回查等。

這時候,就需要這支50多人組成的去中心化志願者團隊登場了。

根據郭昱介紹,CovidNet的工程師團隊成員都屬於「一畝三分地」的全職工作人員;負責數據核查的50多位志願者們則是通過網絡招募加入,主要是華人群體或北美留學生,他們中有數據科學家、工程師,也有各專業學生、學者、教授。儘管有著不同的職業或專業背景,每個人都能在團隊統籌下完成數據統計和核實工作,不少志願者還對流程的制定和迭代優化也做出了不小貢獻。

團隊是在並行異步地更新數據,為了保證減少時滯,同時避免數據多重更新等難題,團隊設計了相應的流程和分級處理,在規範統籌數據更新模式和流程之後,對於不同地區的數據整理和校對,也設有專人對應地進行負責。

郭昱表示,團隊每兩個小時就會查看並檢查是否有最新數據,如果有,便會把相關數據實時更新到資料庫中。

「我們秉承從所能獲取的最原始數據出發的原則,每次更新都對歷史數據進行全面的核查校對,因此需要用戶在使用我們資料庫的時候需要及時更新全部的資料庫而僅非當天數據。」郭昱說道。

事在人為,CovidNet的北美成長史

以北美為例,我們來看看CovidNet的成長史。

在CovidNet之前,全球範圍內除了中國丁香園,絕大多數主流COVID-19追蹤平臺提供的是國家層級的數據,比如國際衛生組織(WHO)和歐洲疾病預防控制中心(ECDC)等國際組織,但這些數據往往滯後於快速發展的疫情,難以為身處混亂信息中的各地民眾帶來迫切需要的透明、及時的信息。

也正是在這個背景下,3月,北美確診病例數直線上升,成為世界疫情中心,但想要提供實時更新的數據,除了要保證在全球層級上的更新、可靠和全面外,還面臨著美國公共衛生系統的分級匯報機制帶來的挑戰

事在人為。為了彌補官方公共衛生渠道在實時性和一致性方面的不足,從1月21日開始,CovidNet數據團隊展開了對北美確診、死亡、治癒(recover)三項統計數據的追蹤,也逐步引入了一系列查證、核實方式,綜合應對當地分級匯報系統帶來的額外挑戰

同時,CovidNet團隊也與COVID Tracking Project團隊展開合作,將檢測數量和病床佔有數等統計指標納入到數據展示中,構建了對區域疫情更為完整清晰的刻畫。

比如在疫情爆發的不同階段,用戶對數據的關注點會有所變化,CovidNet在疫情爆發的不同階段採用了不同模式的數據整合方法,同時把使用不同模式的時期劃分成了疫情的三個階段:

主動搜索模式階段:疫情浮現初期和中期,確診數目較低。在這一模式下,志願者團隊主動搜索相關媒體新聞和官方報導,進行多來源比對以保證不出現重複計算;

用戶匯報模式階段:疫情擴展期,確診數目增加、地理擴散加速。在這一時期,團隊利用早期建立的用戶群基礎,開闢用戶匯報通道。主動搜索仍然發揮著重要角色,而用戶匯報通道模式的開闢也在很大程度上保證了CovidNet數據平臺的實時性;

自動收集模式階段:疫情爆發期後,每日新增確診數目激增、地理覆蓋廣泛。在這一模式下,工程師團隊建立了一套完整的自動化更新系統,實時追蹤可靠數據源的數據更新(包括各地官網和可信的主流媒體平臺),並及時反饋給志願者團隊。志願者團隊則主要負責進一步查證,以確保數據歷史的一致性,完成最終數據錄入。

針對不同階段,基於數據源所提供信息的詳略程度,工程師團隊對後端數據的存儲格式也持續進行著相應調整、更新,後端數據的儲存格式也會有相應的變化:

信息細化型格式:不同的案例被分別單獨記錄。每一條記錄中包含以下信息:案例數目,確診/死亡日期,確診/居住地區,性別,年齡,感染原因,數據來源,病例概述等。在疫情初期和中期,此格式作為主要格式被長期使用;

信息密集型格式:數據記錄只保留了時間和地點兩大信息。疫情大規模爆發後,各大數據源逐漸取消了對詳細案例信息的報導,這使得密集型格式成為更加合理和高效的選擇。這一格式從4月底成為CovidNet資料庫主要格式,一直沿用至今。

輔助統計表格:輔助統計表格不作為直接數據的記錄方式,用來存儲區域性數據的衍生統計信息。具體實例包括:州、郡數據的當前案例數統計。

除了在數據整合和呈現上所做的貢獻外,CovidNet還開闢了美國醫護人員防護物資需求整合及發布板塊、疫情新聞板塊,希望能給更多收到疫情影響的人提供幫助。

提供真實數據,是整個團隊的初心

作為CovidNet的創建人和一畝三分地的聯合創始人,郭昱曾獲得哈佛大學生物統計學博士學位,目前在Uber自動駕駛機器學習平臺任高級主管一職

郭昱介紹道,目前她的主要工作是領導整個疫情地圖的開發,決定收取怎樣的數據,如何用不同的信息源進行查證,怎樣做到真實可信,以及自動化的實現等。

「除了吃飯睡覺和上班,我其餘時間每一分鐘都用在這上面了。」郭昱說道。

她在領英中寫道:「由於新冠疫情,我的家庭成員和很多幼年朋友仍居家隔離中,2月我的叔叔感染病毒過世。雖然我無法在武漢為他們做些什麼,但我真的想以某種方式提供幫助。」

如今美國疫情依舊肆虐,這對CovidNet來說,工作量也逐漸加強,這就需要24小時有人維護和核實數據,即使有50多位志願者的加入和分擔,這依然是不小的工作量。

說到志願者團隊,郭昱介紹道,他們來自不同的地方,參加項目的原因各不相同。儘管如此,大家有一個共同的目標,就是希望通過疫情網站給用戶提供最接近真實的疫情發展信息。無論是好是壞,真實數據的傳達不僅可以幫助大家減少恐慌,也可以能幫助大家在疫情期間合理做決策。

這些人平時散落在各個角落,分布在街頭巷尾,就像每天上班途中地鐵上看到的每個普通人一樣,各自為生活努力著。他們和你我一樣,都會受到疫情影響,也會為疫情感到焦慮。

如今,CovidNet的網站訪問量已經超過了2.25億,就產品角度而言這可以說是一次巨大的成功,郭昱也表示,「不可避免地會進行產品層面上的關心,但更關心的是疫情得到控制。實際上,訪問量下降反而是一件好事,這表示疫情過去了」。

「我們做這件事得到了很多人的認可,我們也覺得做的事情是很有價值的,希望能把更多信息的透明度帶給大家,在這個基礎上,群眾有什麼其他的需求是我們能幫助滿足的,這些我們可以再想一想。如果你做的這個事情對於大多數人是有用的,那麼會有很多人願意參與進來幫助你,也可以做出更大的事情來,對更多的人有更正面的影響。」郭昱說道。

相關焦點

  • 數讀11月20日全球疫情:全球日增確診超68萬例 累計逾5783萬例 美國...
    與前一日相比,全球單日新增確診病例684897例,新增死亡病例12220例。中國以外新增確診病例逾68萬例,累計確診病例逾5775萬例,累計死亡病例逾137萬例。 美國單日新增確診病例超21萬例 累計確診超1223萬例 根據Worldometer實時統計數據,截至北京時間11月21日6時30分左右,美國累計確診新冠肺炎病例12238334例,累計死亡259943例。與前一日6時30分數據相比,美國新增確診病例213778例,新增死亡病例2174例。
  • 數讀8月2日全球疫情:全球日增確診超23萬 累計1821萬 美國新增超5...
    與前一日相比,單日新增確診病例232562例,新增死亡病例4768例。中國以外新增確診病例逾23萬例,新增死亡病例逾4700例,累計死亡病例逾68.7萬例。 美國新增確診病例超5.3萬例 累計逾481萬例根據Worldometer實時統計數據,截至北京時間8月3日6時30分左右,美國累計確診新冠肺炎病例4811829例,累計死亡158320例。
  • 12月26日全球疫情觀察:至少34國日增確診超千例 美國華人區療養院...
    美國發生疫情的療養院(《世界日報》)海外網12月26日電據Worldometer實時數據,截至北京時間12月26日19時30分,全球新冠肺炎確診病例達80288455例,死亡病例1759351例。包括美國、巴西、印度、俄羅斯等國在內的至少34個國家單日新增確診病例數均超過千例,其中美國新增119772例,英國新增32725例,印度新增22273例。
  • 數讀8月23日全球疫情:全球日增確診超23萬例 累計逾2356萬例 美國...
    中國以外新增確診病例逾23.3萬例,累計確診病例超2348萬例,累計死亡病例逾80.7萬例。美國單日新增確診病例逾3萬例 累計超587萬例根據Worldometer實時統計數據,截至北京時間8月24日6時30分左右,美國累計確診新冠肺炎病例5872017例,累計死亡180558例。與前一日6時30分數據相比,美國新增確診病例30589例,新增死亡病例384例。
  • 7月23日美國疫情最新消息情況:美國新冠肺炎確診超394萬
    【美國新冠肺炎確診超394萬,美國檢測陽性率較6月初幾乎翻番】據美國約翰斯·霍普金斯大學發布的全球新冠肺炎數據實時統計系統,截至美國東部時間7月22日晚6時,全美共報告新冠肺炎確診3941741例,死亡142756例。過去24小時,美國新增確診56753例,新增死亡1330例。
  • 數讀9月6日全球疫情:全球日增確診超24.3萬例 累計超2726萬例 美國...
    美國單日新增確診逾2.8萬例(圖源:Getty)海外網9月7日電Worldometer網站實時統計數據顯示,截至北京時間9月7日6時30分左右,全球累計確診新冠肺炎病例27265144例,累計死亡病例886969例,與前一日相比,單日新增確診病例243963例,新增死亡病例4208
  • 11月21日全球疫情觀察:至少27國日增確診超千例 美國改造停車場...
    美國新增確診病例超21.3萬例 床位不夠改造停車場接納病患根據Worldometer實時統計數據,截至北京時間11月21日6時30分左右,美國累計確診新冠肺炎病例12238334例,累計死亡259943例。與前一日6時30分數據相比,美國新增確診病例213778例,新增死亡病例2174例。
  • 【美國最新疫情動態:美國累計確診病例超過1276萬例、死亡人數超26...
    2020-11-24 08:56:39來源:FX168 【美國最新疫情動態:美國累計確診病例超過1276萬例、死亡人數超26.3萬】Worldometers世界實時統計數據顯示,截至香港時間11月24日8時53分,美國累計新冠肺炎確診病例超過1276萬例,達到 12,763,329例;累計死亡病例超過26.3萬例,達到263,630例。
  • 數讀11月21日全球疫情:全球日增確診超60萬例 累計逾5844萬例 美國...
    中國以外新增確診病例逾60萬例,累計確診病例近5836萬例,累計死亡病例逾138萬例。美國單日新增確診病例超18萬例 累計確診超1242萬例根據Worldometer實時統計數據,截至北京時間11月22日6時30分左右,美國累計確診新冠肺炎病例12422574例,累計死亡261654例。
  • 新年第一天,美國確診破2000萬
    澎湃新聞記者 南博一 實習生 金悅琦 美國約翰斯•霍普金斯大學實時疫情數據顯示,截至當地時間2021年1月1日,美國累計報告的新冠肺炎確診病例超2000萬例。當地時間2020年1月21日,美國報告首例新冠肺炎確診患者;2月6日,美國出現第一例新冠肺炎死亡病例;3月19日,美國新冠肺炎確診病例過1萬例,此時距報告首例確診病例過去了58天。 此後,美國疫情的發展勢頭迅猛。僅僅5天後的3月24日美國累計確診病例達5萬例。
  • 數讀12月13日全球疫情:全球日增確診超55萬例 累計逾7258萬例 美國...
    中國以外新增確診病例逾55萬例,累計確診病例逾7249萬例,累計死亡病例逾161萬例。美國單日新增確診病例超19萬例 累計確診逾1669萬例根據Worldometer實時統計數據,截至北京時間12月14日6時30分左右,美國累計確診新冠肺炎病例16698892例,累計死亡306153例。
  • 數讀11月16日全球疫情:全球日增確診超50萬例 累計逾5528萬例 美國...
    中國以外新增確診病例逾50萬例,累計確診病例逾5519萬例,累計死亡病例逾132.6萬例。 美國單日新增確診病例逾16萬例 累計確診超1150萬例 根據Worldometer實時統計數據,截至北京時間11月17日6時30分左右,美國累計確診新冠肺炎病例11507150例,累計死亡252462例。
  • 2021第一天美國新冠確診超2000萬 專家:更黑暗的日子還在後面
    當地時間2021年1月1日,2021年的第一天剛剛開始數小時,約翰斯·霍普金斯大學數據顯示,美國新冠肺炎確診病例超過2000萬例。 據美國有線電視新聞網1日的報導,多名美國專家認為最壞的情況「還在後面」。
  • 11月26日全球疫情觀察:至少28國日增確診超千例 美國每40秒就有一...
    美國新增確診病例超17萬例 平均每40秒就有一人死於新冠肺炎  根據Worldometer實時統計數據,截至北京時間11月26日6時30分左右,美國累計確診新冠肺炎病例13104637例,累計死亡病例267924例。與前一日6時30分數據相比,美國新增確診病例177504例,新增死亡病例2281例。
  • 單日確診超40萬 7天死亡1.8萬 這會是美國疫情最糟糕的一周嗎?
    美國新冠肺炎疫情持續蔓延,據美國疾控中心當地時間12月19日公布的疫情數據,18日全美報告新增新冠肺炎確診病例超40萬例,以近一倍的增幅再次刷新全球範圍內一國單日新增確診病例數最高紀錄。美國約翰斯·霍普金斯大學當地時間19日公布的數據顯示,截至美東時間當天16時27分,累計確診病例超過1760萬例。累計死亡病例31.5萬例。
  • 數讀9月23日全球疫情:全球日增確診超31萬例 累計逾3205萬例 美國...
    中國以外新增確診病例31.2萬例,累計確診病例逾3196萬例,累計死亡病例逾97.5萬例。美國單日新增確診病例逾3.8萬例 累計超713萬例根據Worldometer實時統計數據,截至北京時間9月24日6時30分左右,美國累計確診新冠肺炎病例7132382例,累計死亡206348例。與前一日6時30分數據相比,美國新增確診病例38928例,新增死亡病例980例。
  • 1月4日全球疫情觀察:至少27國日增確診超千例 福奇稱未來幾周美國...
    全球至少27國日增確診超千例。(圖源:美聯社)海外網1月4日電據Worldometer實時數據,截至北京時間1月4日19時30分,全球新冠肺炎確診病例達85574402例,死亡病例1852264例。包括美國、法國、俄羅斯等國在內的至少27個國家單日新增確診病例數均超過千例,其中美國新增228109例,英國新增54990例,俄羅斯新增23351例。
  • 數讀12月10日全球疫情:全球日增確診超62萬例 累計逾7064萬例 美國...
    中國以外新增確診病例逾62萬例,累計確診病例逾7056萬例,累計死亡病例逾158萬例。美國單日新增確診病例超18萬例 累計確診逾1600萬例根據Worldometer實時統計數據,截至北京時間12月11日6時30分左右,美國累計確診新冠肺炎病例16002868例,累計死亡299298例。
  • 破紀錄了……這個國家日增確診超12萬例!法國全國「封城...
    1美國單日新增新冠肺炎確診病例再創新高根據美國約翰斯·霍普金斯大學的統計數據,截至美國東部時間7日15時30分(北京時間8日4時30分),美國單日新增新冠肺炎確診病例超12.6萬例,創下疫情暴發以來單日新增的紀錄;累計確診已超過981萬,達到9810609例;死亡病例超過23.6萬,達到236642例。
  • 數讀11月7日全球疫情:全球日增確診超51萬例 累計逾5000萬例 美國...
    海外網11月8日電 Worldometer網站實時統計數據顯示,截至北京時間11月8日6時30分左右,全球累計確診新冠肺炎病例50094064例,累計死亡病例1254759例,54個國家累計確診均超10萬例。