神機妙算!清華校友預測美國疫情發展,準確率達 96%,網友:病毒都聽...

2021-01-09 雷鋒網

近來,一個關於美國和歐洲疫情數據的 "神預測" 的日更博客,在網上火了。

到底有多神呢?略舉二三,如下: 

3 月 27 日起的連續 10 天裡,該博客對美國感染人數的預測準確率都在 90% 以上,其中在 4 月 4 日,準確率接近 100%(預測為 276727,實際為 276931)。

3 月 31 日,該博客預測美國疫情將在 8-10 天內當檢測人數超過 200 萬的時候出現斷崖式下跌;7 天之後,也就是 4 月 6 日,美國疫情數據出現斷崖式下跌,增幅從 12.43% 降為 8.13%——這篇文章引起了巨大反響,閱讀量超過 134 萬。

自 3 月 27 日以來,該博客對歐洲感染人數的每日預測平均準確率達到 97%,其中在 4 月份的前五天,預測準確率接近 100%。 

李志斌對美國感染人數的預測(樂觀),準確率高達 90%

對此,有網友評論稱:大神,病毒都聽你的,絕了。

要知道,新冠肺炎疫情的爆發是一個涉及到政治、經濟、地理等諸多複雜因素的全球性重大公共事件,對具體人數的預測聽起來就像是天方夜譚,準確率更是一門玄學——所以,能夠實現上述的預測成績,這個博客背後的博主堪稱是當代 "神算子" 了。 

那麼,這位 "神算子" 是怎麼煉成的? 

清華大學畢業 + 8 年市場預測經驗 

這個博客背後的博主,也就是 "神算子" 本人,名為李志斌。

李志斌,1980 到 1985 年就讀於清華大學計算機系,1985 到 1994年,他就讀並就職於中科院,三十歲擔任副研究員、產品部主任、所長助理,1994 年移居紐西蘭,後定居香港至今,現任香港致佳物流軟體有限公司、香港易經科技有限公司總經理。

李志斌博客截圖

在李志斌所在的這兩家公司中,前者的主營業務是物流系統開發(Logistics Systems);後者有香港中文大學背景,主要業務是市場需求預測(Market Demand Forecast),也就是為企業提供在未來 3 到 6 個月內特定區域的產品需求、價格波動等方面的數據分析和預測。

在接受雷鋒網(公眾號:雷鋒網)專訪時,李志斌表示,他從 2012 年開始進入數據分析和預測領域,由於易經公司的香港中文大學背景,李志斌也從教授們那裡耳濡目染學了不少東西。

另外,從技術層面來說,李志斌在清華大學計算機系的學習經歷,也讓他在軟體建模、大數據分析等方面已經形成一個完備的知識體系;同時,清華大學的理工科學風和背景,也讓他更加重數據、重證據、重例舉,而不是重結論。

所有這些加起來,讓李志斌對 "數據" 非常敏感。

去年底今年初,武漢開始報告病例,香港也出現疑似新冠病毒患者,這讓長期身在香港的李志斌頗為警惕;到了 2020 年 1 月 7 日,香港特別行政區政府宣布新冠肺炎為法定傳染病,並開始向公眾通報疫情數據,由此,李志斌開始了對新冠肺炎相關數據的追蹤。

從那時開始,李志斌每天早上起來進行集中數據採集,一開始只是武漢、湖北、香港的數據,後來是內地其他地區數據,到了 1 月下旬,開始收集海外數據,並整理成 Excel 表,同時開始利用自己的專業知識進行數據建模,並結合新聞中的數據對官方通報數據進行分析和判斷。

最初,李志斌只是在清華的同學群裡分享數據和觀點,後來也每天花出 30 分鐘的時間來博文,並發表在新浪博客上。如今,這已經形成了每天的習慣。

當然,對於李志斌而言,除了對常規的數據進行收集、整理和分析之外,他也在不斷結合自己的專業知識來構建一個數據模型,並且不斷對這個模型進行參數補充和驗證,使之達到預期中的效果。

到了 3 月 27 日,李志斌在數據模型已經趨於穩定的基礎上,第一次給出了針對美國感染情況的預測數據;3 月 28 日,他又給出了針對歐洲感染情況的預測數據。

李志斌對歐洲感染人數的預測,平均準確率高達 97%

在他的預測中,不僅僅包含感染病例數量,還包括感染增速、峰值時間、總感染人數、總死亡人數、死亡率等數據——當然,感染人數是他用來衡量預測準確率的最為重要的指標。

就連李志斌自己都沒有想到,自己的預測數據會那麼準。

但是李志斌強調,沒有人可以 100% 準確預測未來,一定要滾動預測。他表示: 

預測是一個動態過程,因為好多即時措施、事件等突發因素,是無法預測的,這個時候需要把這些突發事件和決定等因素變成對參數的調整,反饋到預測模型中,使之運行更加準確。我的預測模型、預測參數也在不斷完善過程中。

再好的軟體也不能 100% 預測準確

李志斌的預測,離不開兩個核心要素:數據,和預測模型。 

首先是數據的可信度問題。在採訪中,李志斌表示,自己從 1 月份開始每天收集數據,一開始只有武漢和香港有數據,一直到現在,每天收集上百個國家和地區的數據。

李志斌強調,在數據收集和分析的過程中,一定需要甄別數據衝突(Data Conflicting)的出現;尤其是在官方通報的數據量比較大的情況下,會用好多方法包括新聞數據去檢查不同地區的數據之間可能存在的數據衝突,數據衝突點越多,數據的可信度越低。

同時,在判斷數據真實性的過程中,要看數據發布的速度;數據發布頻率越高,那麼可信度就會更高一些——而南亞、東南亞地區發布的數據比較少、比較慢,可信度就會打折扣。

來自美國 CDC 官網的疫情情況

另外,在對數據的可信度進行判斷時,還可以借用新聞數據來做對比。李志斌告訴雷鋒網,比如說,醫生和病人之間的比例是比較穩定的,那就可以用新聞中報導的醫療人員數量,來反推病人數量。

他表示,其實,所有的數據都可能存在一些人為的誤差或者統計誤差,沒有任何地區的可信度是百分之百;但是相對來說,美國的數據衝突比較少,在可信度上高一些,歐洲的數據可信度次於美國,因為西歐與東歐之間的不平衡,所以會取平均值。但印度、東南亞、日本等地區的數據就似乎存在一些問題,數據發布慢、數據衝突點較多,影響了數據可信度的設置。

到二月底,在之前以國內數據為基礎建模、驗證的基礎上,李志斌開始對美國、歐洲兩個地區進行疫情數據預測。於是,在數據的基礎之上,李志斌打造了一個預測模型——實際上,這是一個極為複雜的模型,加起來有上百個參數,其中重要的參數有二三十個,分為以下三類: 

第一類是疫情參數——不同地區/國家/城市確診人數、人口、每日新增確診人數、疑似人數、每日檢測人數、死亡人數、治癒人數(含自愈人數)、在診人數、入院人數(重症人數)。

第二類參數與地區/城市/國家特徵相關——城市類型(古城、現代城市、鄉村)、人口密度、氣溫、天氣(大雨、陰雨、有霧、天晴等)、城市 60 歲以上老年人口比例、城市平均年齡、城市建設情況(主要是下水道的狀況)。

第三類參數是關於資源和管治能力——醫療資源、病床數量、社會組織能力、信息透明度、管理方式等等。 

李志斌表示,在實際的操作過程中,一般是先用 Excel 收集數據,然後導入到後臺資料庫中,在用自己開發的軟體模型(裡面包含了算法)來得出三個結論,最後自己會再人為地就結果進行判斷——他強調,有很多參數是不能量化的,比如說社會情緒;所以需要人為參與。

他還表示:再好的軟體也不能百分之百預測準確。

當大船和小船同時遇見冰山

在採訪中,雷鋒網發現,畢業於清華大學的李志斌,有著超越數據分析之外的超前洞見和思維。

比如說,在建模過程中,李志斌是從國內的數據開始的,這些數據不僅對李志斌的建模過程產生了重要影響,也讓他得出了一些觀察。於是,武漢封城前一天,他就在自己所在的 "清華 80 同學群" 裡和同學們分享了兩個想法: 

這些想法在同學群裡引起了很多討論,當然也有質疑和反對,但更多的是同學們的積極參與,並提出了好多更好的想法和建議,獲益良多。後來的事實證明,這些想法都是中肯的,並且也被官方後續採取的措施所印證——其中關於野戰醫院等想法更是超前了兩周。

除了上述建議,李志斌還在數據分析和模型構建的過程中發現,成為疫情爆發點的城市往往具備幾個特徵:

老城區;

氣候潮溼;

氣溫 5-15 度;

下水系統老化;

老年人比例高。

值得一提的是,在不同國家的疫情爆發城市,如中國武漢、韓國大邱、義大利米蘭、伊朗德黑蘭、美國紐約等,都大致符合這些特徵。

對於這些特徵的歸因,李志斌強調,其中夾雜了個人的主觀合理猜測,但也經過一系列的結果驗證,最終才體現在預測結果中。他還表示,實際上,在參數中,還涉及到社會組織方式、管理模式、社會信息透明度等問題,所以他在預測中也會把結果設定為悲觀或樂觀。

雷鋒網注意到,如果按照李志斌在在 4 月 4 日給出的悲觀預測結果,他對美國感染人數的總體預測準確率高達 96%。

李志斌對美國感染人數的預測(悲觀),準確率高達 96%

不過,在專訪中,儘管有人為參與,但李志斌還是強調了數據在決策中的絕對地位。他表示,即使是拋開疫情不談,在一個日常的決策過程中,數據的重要性可以說是百分之百的;這些數據不僅僅要真實,而且要全面,還要透明,即使在後續過程中有人的參與,也是要基於這些數據判斷而來的——數據,正是決策的基礎。

那麼,基於數據的決策,有多大的覆蓋面呢?

李志斌認為,即使是新冠肺炎疫情這樣的頗具偶然性、又包含政治、經濟等複雜社會因素的群體性公共事件,也是可以預測的。 

他表示,類似於傳染病的情況,它的發展存在著一種特定的模式(Pattern),偶然之中有規律在,我們也許無法掌握 100% 準確的規律,但是在一定的規律佔比下,我們依然可以做出一些判斷和決策——當然前提是巨大的有效數據量。

由此,李志斌還談到了一個有趣的比喻:

一隻大船和一隻小船,在突然遇到冰山時,它們勢必要拐彎;但相對來說,大船的結局顯然更具有可預測性。小船一下子就改過來了,但大船的體量太大,有一個慣性,因此它有更大的可能性撞上冰山——這個慣性就是規律,而船的體量本身,就是數據量。

數據量越大、數據越準確、相關信息越透明,這種群體性事件發生的時候就越容易預測、且預測越準確——李志斌最後如是說。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 清華經管學院校友金融協會捐贈「春風基金」助力清華科研抗疫 |...
    未來的路上,期待與您攜手同行,實現更好的清華。春風化雨樂未央,點點滴滴聚江河。時值清華大學109周年校慶、清華經管學院建院36周年之際,清華經管學院校友金融協會(以下簡稱「金融協會」)於今年3月正式開啟公益直播,並創新性地將歷次直播自願打賞收到的資金捐贈清華大學教育基金會(以下簡稱「基金會」)設立的科研抗疫「春風基金」。
  • 阿里雲向全球免費開放新冠AI診斷技術診斷準確率超96%
    達摩院CT影像AI可在20秒內完成一次診斷(最短僅2秒),且準確率高達96%以上,可幫助海外疫情嚴重地區大幅節省醫療資源。達摩院根據豐富的CT影像樣本訓練了全新的AI模型,可精準識別CT影像病灶位置並算出病灶佔比的變化數值,由此可捕捉患者治療全程病情變化的蛛絲馬跡,AI診斷將覆蓋新冠患者入院到出院全過程,幫助醫生及時調整診療方案,降低重症轉化率。
  • 高榕再度春風,「清華大學春風基金」獲校友企業捐贈100萬美元支持...
    3月10日,高榕資本向清華大學教育基金會捐贈100萬美元支持「清華大學春風基金」,以響應國家的號召,助力清華大學公共衛生及應急體系相關領域的研究。高榕資本合伙人、清華校友張震一直關心支持母校發展,此次捐贈也是「春風基金」獲得的首筆校友捐贈,張震校友的捐贈在廣大校友之中起到模範帶頭作用。張震校友曾捐贈支持「清華大學新百年發展基金」並擔任新百年基金理事,為母校發展建言獻策。
  • 預測:美國確診病例兩個月內將達2000萬例!白銀期貨前景轉為看空!
    11月25日訊 在新冠疫苗真正到來之前,美國將面臨疫情最為「黑暗」的時刻。目前,美國累計確診病例為1293萬例,然而一項預測顯示,美國在未來不到兩個月的時間裡,新冠確診病例可能將會達到2000萬例。
  • 4月25日美國疫情消息:89萬例!驅逐艦變公主號!6個工人有1人失業
    4月25日,美國最新重磅疫情消息!截止北京時間4月25日,美國新增確診26109例,累計確診超89萬例,達890524例。死亡人數已破5.1萬人,高達51017人!回顧美國疫情發展趨勢,可以看到美國現在已以進入了一個穩步上升期,現在還看不到一點拐點的跡象。
  • 華科大傑出校友被捕,饒毅拍案而起,不料網友評論很是尖酸刻薄
    華科大傑出校友被捕,饒毅拍案而起,不料網友評論很是尖酸刻薄。陳剛是「華中科技大學傑出校友」榮譽獎項獲得者,是一位著名的科學家,是世界公認的國際傳熱、能源轉換及納米科技領域的知名學者。陳剛不僅拓展了人們對基礎物理的認識,也為光熱光電、半導體、磁儲存等應用領域作出了傑出貢獻。
  • 三位85後校友要去IPO敲鐘:理工科畢業,做出130億估值
    這是一家由三位85後校友聯手打造的獨角獸企業。2013年,相識於清華和史丹福大學的孫愷、李一帆、向少卿三人,在矽谷最大的城市聖何塞成立了禾賽科技,決心要打造一家「billion dollar company」。2014年,三人決定回國創業。短短7年時間,禾賽科技已迅速成長為估值超130億元的獨角獸企業,其背後則擁有由多家VC/PE組成的投資方陣容。
  • 美網友問,中國憑什麼點評美國疫情,這年頭沒點技能,還真不好混
    不過當權者也知曉,疫苗的注射率怕是達不到百分之百。因為當疫苗需要付費時,並不是所有人都願意注射的,畢竟對於窮苦家庭來說,窮著和逝去沒什麼區別。美國的傳染病專家福奇在接受採訪時表示,只有當百分之九十的美國人接種疫苗或者受到感染產生抗體後,才能達到群體免疫。他這麼做的目的其實是想要讓更多的美國人願意接受疫苗,但是因其前後說法不一致,自以為代表了正義的議員馬克·盧比奧便批評他「哄騙群眾」。
  • 《時代》新封面白宮成「病毒發源地」:總統打噴嚏美國就感冒
    《時代》新封面白宮成「病毒發源地」:總統打噴嚏美國就感冒 2020-10-09 19:38 來源:澎湃新聞·澎湃號·政務
  • 哈佛大學最新預測:疫情或有一輪更嚴重暴發,2025年前仍存復發可能...
    就此問題,哈佛大學 T.H.Chan 公共衛生學院的研究者基於美國數據進行建模研究,探究了未來數年時間裡,保持社交隔離對疫情發展的影響,模型結果顯示,一次性的隔離並不足以讓這場全球疫情大流行得到完全控制,保持社交隔離的措施可能在 2022 年前,都有必要以間歇性的方式持續進行。該論文於 14 日發表在 Science 雜誌。
  • 為什麼「國防七子」被美國列入黑名單,清華北大卻沒有?
    由此可見,這七所學校已經被美國看成了「眼中釘」,但也因此有很多網友表示,這七所學校的確厲害,但和清華、北大相比可能還差一點,那為什麼清華、北大沒有被列入制裁清單,而是這七所學校呢?京譽君也曾有過同樣的困惑,但經過深入了解,我發現了這其中的「秘密」,一起和京譽君了解一下。
  • 做夢都想不到,普京竟變身「病毒專家」,網友:被總統身份給耽誤了
    自今年年初至今,全球依舊籠罩在新冠病毒的陰影當中,全球人民苦不堪言,我國是疫情的首發國,在我國疫情爆發期間,積極主動的與國際各國分享了研究發現以及防疫過程中採取的措施等。而且在疫情爆發初期,我國的物資供給是遠遠不足,因為這場疫情對我國來說是突如其來的,所以根本沒有一點提前準備的時間,一開始就進入作戰狀態。
  • 吳尊友:大連疫情與北京疫情沒有...
    編 輯 導 讀7月29日0—24時,31個省(自治區、直轄市)和新疆生產建設兵團報告新增確診病例105例,其中境外輸入病例3例(廣東1例,雲南1例,陝西1例),本土病例102例(新疆96例,遼寧5例,北京1例)。單日新增確診破百,意味著疫情出現局部反彈。但我們的疫情防控措施越來越成熟,疫情未來大流行的可能性不大。
  • 疫情改變了全世界,病毒卻在加速……_新聞中心...
    美國約翰斯 霍普金斯大學實時統計數據顯示,截至北京時間11月26日,全球新冠確診病例累計達60037735例,死亡1414513人。距離2020年結束僅剩30多天,隨著多國將疫苗接種計劃提上日程,人們能否在新的一年,告別「疫」樣世界,看到未來的希望?
  • 《人類簡史》作者談疫情:最大敵人不是病毒
    曾撰寫《人類簡史》和《未來簡史》等著作的赫拉利表示,新冠病毒疫情蔓延以及由此引發的政治和經濟動蕩,導致人類進入歷史加速發展時期,同時也進入關鍵變化時刻。他認為,各國政府最近的決策將影響人類未來。訪談摘編如下:眼下的抉擇將決定未來《先鋒報》問:新冠病毒疫情過後的世界將是什麼樣子?尤瓦爾·赫拉利答:必須由我們決定。
  • 清華女博士隱居山林11年,靠種地如今已年入800萬,父母已不敢認
    清華博士畢業後能幹什麼?相信大部分第一時間想到的是繼續從事學術研究,或是去海外深造追求更高端的生活。又或是進入某個行業領域,當一位高管或是高端技術大拿,再或者就是自己創業成為企業CEO。不管是哪種結果,都不會有人將清華博士生和服務員、售貨員這種基礎工作匹配到一起。
  • 11月26日全球疫情觀察:至少28國日增確診超千例 美國每40秒就有一...
    隨著疫情的持續惡化,美國新冠肺炎死亡病例逐漸攀升。截至24日,美國至少有7個州的新增死亡病例數創新高,相當於每40秒就有一人死於新冠肺炎。新冠肺炎住院患者人數超過8.8萬人,連續第15天突破紀錄。目前,全美各地的醫院已經爆滿。另據美國媒體25日報導,美國伊利諾州一家退伍軍人療養院暴發聚集性疫情,近200名居民和工作人員受到感染,27名退伍軍人死亡。
  • 多國改寫疫情發展時間線,美國「零號病人」的出現時間被畫上問號
    隨著對新冠疫情的調查研究不斷深入,多個國家的疫情發展時間線被改寫,出現疑似「零號病人」或疫情本地傳播的時間點被大幅前推。法國醫院對先前樣本的重新檢測顯示,有去年12月底的病例樣本新冠病毒檢測結果呈陽性;7日又有消息說法國最早出現新冠疑似病例的時間可能追溯到去年11月16日。
  • 2015年美國科學家曾在實驗室創造了一種冠狀病毒,並能感染人呼吸道...
    但是論文中的這項研究在美國暫停資助前就已經開始,美國國立衛生研究院(NIH)對該研究進行了審核,並允許其繼續進行。這項研究在發表後即引發爭議,法國巴斯德研究所病毒學家 Simon Wain-Hobson 認為:「如果[新]病毒從實驗室逃脫了,那麼誰也無法預測其發展軌跡。」
  • 美國新冠肺炎超666萬例,美疾控中心預測一驚人數字
    美國約翰斯·霍普金斯大學統計數據顯示,截至美國東部時間9月17日17時,美國新冠肺炎確診病例累計超過666萬例,達6662256例,累計死亡197397例。資料圖 新華社供圖美疾控中心:美國新冠肺炎死亡病例到10月10日或將累計達21.8萬例當地時間9月17日,美國疾病控制與預防中心(CDC)公布的一項綜合預測顯示,到10月10日,美國或將有20.7萬至21.8萬人死於新冠病毒。延伸閱讀川普堅稱「新冠病毒最終會消失」「沒有,我認為我們做得很好。」