大數據文摘出品
作者:劉俊寰
剛剛,根據CovidNet網站數據,新冠肺炎導致的美國確診病例累計突破200萬,全球累計確診病例數突破700萬,除了美國,巴西、俄羅斯、西班牙、英國、印度和義大利6個國家累計確診數已經超過20萬。
「身為武漢人,雖然我無法在武漢為他們做些什麼,但我真的想以某種方式提供幫助。」這是現居住於美國舊金山的華人郭昱在接受採訪時說的話,她和團隊想要做的,就是深入疫情數據,挖掘出有那些溫度的信息,幫助到全世界的人。
數字無法取代每一個鮮活的生命,但從這些看似冰冷的數字中,我們仍然可以得出一些有溫度的信息,將這些信息分享給更多的人。
基於「一畝三分地」這個北美華人論壇的新型冠狀病毒世界疫情動態追蹤平臺CovidNet,就是郭昱和團隊正在著手經營的項目,這是一個實時追蹤新冠疫情數據的網站,在1月初美國還沒有其他實時的疫情追蹤網站時,郭昱就已經開始和4位全職數據工程師著手打造這個網站了。
如今各國都建立起了實時疫情追蹤網站,其中最知名的或許要屬約翰霍普金斯大學(JHU)新冠追蹤網站,但其實,該網站的美國數據完全引用於CovidNet的數據。3月26日,美國疾病控制與預防中心(CDC)正式採用CovidNet的數據,這也是美國官方對民間數據網站的重要肯定。
CovidNet提供了全方位的交互式數據可視化工具,以供公眾參考。它有著比CDC更為細緻的地理分布數據,交互式地圖連通了各個省、州和郡、市的病例分布,數據表格可供讀者按照不同的統計量對各個國家和地區進行篩選和排序。
讀者還可以進行跨區域的疫情橫向比較,比如當選中國家後可以用滑鼠滑過不同地區查看相應地區的疫情數據,除此之外,CovidNet還提供了各種動態圖進行展示。
在時間趨勢的呈現上,CovidNet同樣綜合了每天的疫情數據,讀者對疫情可以有更宏觀的分析和掌握。
網站連結:https://coronavirus.1point3acres.com/zh/world
不僅如此,為了讓更多人從中受益,5月14日,郭昱團隊將CovidNet的建立過程和技術細節以預印本形式進行了分享,並且向資料庫與數據挖掘領域的相關會議進行了投遞。
預印本連結:https://arxiv.org/abs/2005.10948?from=timeline&isappinstalled=0
截止到預印本發表時刻,CovidNet已經覆蓋了英語、中文、法語、日語、西班牙語5種語言,共覆蓋國家或地區188個,其中有州或省份級別數據的國家有25個,覆蓋州、省份974個,覆蓋北美郡、市3169個,CovidNet的數據信息源總數達到了2038條,用戶提交的新聞線索報告數量達到16240條。
截止至本文發表,CovidNet已經覆蓋39個國家的分省/州數據,網站訪問量更是超過了2.25億。
由於數據發布的及時準確,CovidNet已經引起了海內外不少媒體的興趣,包括《星島日報》、CGTN、鳳凰衛視在內的多家媒體都已對郭昱以及CovidNet進行了跟蹤報導。
美國CDC、JHU引用的全球疫情實時資料庫
4月,美國著名學術期刊Science對約翰霍普金斯新冠追蹤網站創始人Lauren Gardner進行了一次專訪,根據Gardner的說法,她和實驗室6名學生共同撐起了整個網站的運作,她們的數據來源除了地方衛生局和各地媒體,美國國內3149個郡、市的實時疫情數據完全來源於CovidNet。
即使Gardner說得比較克制,但從她的介紹中,我們仍然能夠想像要建立實時更新的新冠疫情追蹤網站是有多麼不易。相比於約翰霍普金斯新冠追蹤網站,郭昱團隊最初只有4位全職工程師,如今CovidNet還擁有了超過50位志願者。他們共同面對當下最具挑戰性的全球性的數據追蹤問題,這不僅包括數據收集,還要進行實時的數據核實和深入調查。
最重要的是,在全世界的監督之下,這裡的數據容不得一點差錯。
首先,數據收集就是一個難關。郭昱表示,在公開數據上,CovidNet主要通過以下兩種方式獲取,一個是國家官方系統提供的開源數據,另一個是官方統計的當天最新數據。
這其中根據每個國家報導的範式不同,上述兩種方式還需要細分。 對於第一種情況,有的國家以病例為單位進行報導,比如菲律賓或哥倫比亞,有的國家以行政區為單位進行報導,比如義大利或西班牙。針對此,郭昱團隊採取的做法是將前者聚合成後者的數據範式,這樣不僅能保持數據一致性,還能為全面準確地更新疫情數據提供良好的數據來源。
對於第二種情況,鑑於歷史數據大都以各種格式保存在歷史檔案或新聞存檔中,他們對能夠從官方存檔中獲取到所有的歷史數據進行匯總,並且僅更新當日官方報導的最新數據。
除此之外,根據全球各異的數據發布方式,郭昱團隊設計了不同的數據處理機制。
很多時候,國家/地區-省/州-郡/縣各級衛生機構發布數據的時間節點不同步,如果以不同級別的信息源各為參照源,就會導致數據總和出現差異,例如,在某一時刻,各個郡/市的統計數據之和與省/州總數並不相等,他們會優先選擇參照更基層的數據來源,同時在網站上公開解釋和高一級官方數據源不一致的原因。
除了數據上的整合之外,各國的診斷標準不同,從時間上看將出現病例匯報的渠道和方式的前後差異,比如,疫情初期通常是個例報導,每例都會提供詳細信息,但隨著確診人數的增加,個例報導逐漸演變成確診數字統計,從空間上看每個國家處於疫情的不同階段,根據確診定義的發展數據標準也在同步變化。
這不只表現在不同國家之間,在其他級不同區域之間同樣存在類似情況,比如某些區域的數據增長過快,或者同一份報告中的數據不一致,在總趨勢中出現了累計統計總數下降等,都是需要考慮的地方。
針對上述種種變化,郭昱表示,為確保質量控制和數據的準確,他們結合自動搜集和人工更改、查驗的方式,同時也會按照當地衛生機構統計的方法,隨時針對數據獲取和統計方式進行修正,包括以人工核查的方式過濾掉媒體或者衛生部門報告中的噪聲,在根據原始信息進行更新的基礎上密切關注後續發展,對歷史數據進行回查等。
這時候,就需要這支50多人組成的去中心化志願者團隊登場了。
根據郭昱介紹,CovidNet的工程師團隊成員都屬於「一畝三分地」的全職工作人員;負責數據核查的50多位志願者們則是通過網絡招募加入,主要是華人群體或北美留學生,他們中有數據科學家、工程師,也有各專業學生、學者、教授。儘管有著不同的職業或專業背景,每個人都能在團隊統籌下完成數據統計和核實工作,不少志願者還對流程的制定和迭代優化也做出了不小貢獻。
團隊是在並行異步地更新數據,為了保證減少時滯,同時避免數據多重更新等難題,團隊設計了相應的流程和分級處理,在規範統籌數據更新模式和流程之後,對於不同地區的數據整理和校對,也設有專人對應地進行負責。
郭昱表示,團隊每兩個小時就會查看並檢查是否有最新數據,如果有,便會把相關數據實時更新到資料庫中。
「我們秉承從所能獲取的最原始數據出發的原則,每次更新都對歷史數據進行全面的核查校對,因此需要用戶在使用我們資料庫的時候需要及時更新全部的資料庫而僅非當天數據。」郭昱說道。
事在人為,CovidNet的北美成長史
以北美為例,我們來看看CovidNet的成長史。
在CovidNet之前,全球範圍內除了中國丁香園,絕大多數主流COVID-19追蹤平臺提供的是國家層級的數據,比如國際衛生組織(WHO)和歐洲疾病預防控制中心(ECDC)等國際組織,但這些數據往往滯後於快速發展的疫情,難以為身處混亂信息中的各地民眾帶來迫切需要的透明、及時的信息。
也正是在這個背景下,3月,北美確診病例數直線上升,成為世界疫情中心,但想要提供實時更新的數據,除了要保證在全球層級上的更新、可靠和全面外,還面臨著美國公共衛生系統的分級匯報機制帶來的挑戰。
事在人為。為了彌補官方公共衛生渠道在實時性和一致性方面的不足,從1月21日開始,CovidNet數據團隊展開了對北美確診、死亡、治癒(recover)三項統計數據的追蹤,也逐步引入了一系列查證、核實方式,綜合應對當地分級匯報系統帶來的額外挑戰。
同時,CovidNet團隊也與COVID Tracking Project團隊展開合作,將檢測數量和病床佔有數等統計指標納入到數據展示中,構建了對區域疫情更為完整清晰的刻畫。
比如在疫情爆發的不同階段,用戶對數據的關注點會有所變化,CovidNet在疫情爆發的不同階段採用了不同模式的數據整合方法,同時把使用不同模式的時期劃分成了疫情的三個階段:
主動搜索模式階段:疫情浮現初期和中期,確診數目較低。在這一模式下,志願者團隊主動搜索相關媒體新聞和官方報導,進行多來源比對以保證不出現重複計算;
用戶匯報模式階段:疫情擴展期,確診數目增加、地理擴散加速。在這一時期,團隊利用早期建立的用戶群基礎,開闢用戶匯報通道。主動搜索仍然發揮著重要角色,而用戶匯報通道模式的開闢也在很大程度上保證了CovidNet數據平臺的實時性;
自動收集模式階段:疫情爆發期後,每日新增確診數目激增、地理覆蓋廣泛。在這一模式下,工程師團隊建立了一套完整的自動化更新系統,實時追蹤可靠數據源的數據更新(包括各地官網和可信的主流媒體平臺),並及時反饋給志願者團隊。志願者團隊則主要負責進一步查證,以確保數據歷史的一致性,完成最終數據錄入。
針對不同階段,基於數據源所提供信息的詳略程度,工程師團隊對後端數據的存儲格式也持續進行著相應調整、更新,後端數據的儲存格式也會有相應的變化:
信息細化型格式:不同的案例被分別單獨記錄。每一條記錄中包含以下信息:案例數目,確診/死亡日期,確診/居住地區,性別,年齡,感染原因,數據來源,病例概述等。在疫情初期和中期,此格式作為主要格式被長期使用;
信息密集型格式:數據記錄只保留了時間和地點兩大信息。疫情大規模爆發後,各大數據源逐漸取消了對詳細案例信息的報導,這使得密集型格式成為更加合理和高效的選擇。這一格式從4月底成為CovidNet資料庫主要格式,一直沿用至今。
輔助統計表格:輔助統計表格不作為直接數據的記錄方式,用來存儲區域性數據的衍生統計信息。具體實例包括:州、郡數據的當前案例數統計。
除了在數據整合和呈現上所做的貢獻外,CovidNet還開闢了美國醫護人員防護物資需求整合及發布板塊、疫情新聞板塊,希望能給更多收到疫情影響的人提供幫助。
提供真實數據,是整個團隊的初心
作為CovidNet的創建人和一畝三分地的聯合創始人,郭昱曾獲得哈佛大學生物統計學博士學位,目前在Uber自動駕駛機器學習平臺任高級主管一職。
郭昱介紹道,目前她的主要工作是領導整個疫情地圖的開發,決定收取怎樣的數據,如何用不同的信息源進行查證,怎樣做到真實可信,以及自動化的實現等。
「除了吃飯睡覺和上班,我其餘時間每一分鐘都用在這上面了。」郭昱說道。
她在領英中寫道:「由於新冠疫情,我的家庭成員和很多幼年朋友仍居家隔離中,2月我的叔叔感染病毒過世。雖然我無法在武漢為他們做些什麼,但我真的想以某種方式提供幫助。」
如今美國疫情依舊肆虐,這對CovidNet來說,工作量也逐漸加強,這就需要24小時有人維護和核實數據,即使有50多位志願者的加入和分擔,這依然是不小的工作量。
說到志願者團隊,郭昱介紹道,他們來自不同的地方,參加項目的原因各不相同。儘管如此,大家有一個共同的目標,就是希望通過疫情網站給用戶提供最接近真實的疫情發展信息。無論是好是壞,真實數據的傳達不僅可以幫助大家減少恐慌,也可以能幫助大家在疫情期間合理做決策。
這些人平時散落在各個角落,分布在街頭巷尾,就像每天上班途中地鐵上看到的每個普通人一樣,各自為生活努力著。他們和你我一樣,都會受到疫情影響,也會為疫情感到焦慮。
如今,CovidNet的網站訪問量已經超過了2.25億,就產品角度而言這可以說是一次巨大的成功,郭昱也表示,「不可避免地會進行產品層面上的關心,但更關心的是疫情得到控制。實際上,訪問量下降反而是一件好事,這表示疫情過去了」。
「我們做這件事得到了很多人的認可,我們也覺得做的事情是很有價值的,希望能把更多信息的透明度帶給大家,在這個基礎上,群眾有什麼其他的需求是我們能幫助滿足的,這些我們可以再想一想。如果你做的這個事情對於大多數人是有用的,那麼會有很多人願意參與進來幫助你,也可以做出更大的事情來,對更多的人有更正面的影響。」郭昱說道。