27歲華裔小夥一戰成名!搞出美國新冠最準預測模型,一人幹翻專業機構

2021-03-02 INSIGHT視界

年僅27歲的他,被彭博評價為「新冠病毒數據超級明星」。

為什麼?

憑一己之力,僅用一周時間打造的新冠預測模型,準確度方面碾壓那些數十億美元、數十年經驗加持的專業機構。

他就是Youyang Gu,擁有 MIT 電氣工程和計算機科學碩士學位,以及數學學位。

但值得注意的是,他在醫學和流行病學等方面卻是一個小白。

他的模型,甚至被著名數據科學家、fast.ai創始人Jeremy Howard高度評價道:

唯一看起來合理的模型。

他是唯一一個真正查看數據,並且做得正確的人。

不僅如此,他的模型還被美國疾控中心採用。


時間點要追溯到去年年初。

當時疫情已然在全球蔓延開來,於是公眾試圖用建模的方式,來預測接下來疫情會帶來的影響。

大多數的目光都將希望投向了2家專業機構打造的預測系統——倫敦帝國理工學院、總部位於西雅圖的健康指標與評估研究所(IHME)

但2家機構給出的預測結果卻是天差地別:

(後來的事實證明,死亡人數是16萬。)

2家專業機構給出的預測數據,差距為何能夠如此之大?

這就讓當時年僅26歲的Youyang Gu引起了注意。

△ Youyang Gu

雖然他沒有任何醫學或流行病方面的經驗,但他堅信,數據預測在此時會派上大用場。

於是,大約在4月中旬,Youyang Gu便在家裡僅花了一周時間,打造出了自己的預測器,以及一個可以顯示相關信息的網站。

△Youyang Gu創建的網站

但Gu在這個過程中所用到的方法,並不是說有多麼的高級,相反,恰恰是比較簡單的那種。

他首先考慮的是新冠病毒檢測數、住院人數和其他因素之間的關係,但在這個過程中,Gu卻發現各個州和聯邦政府所提供的數據是存在不一致的現象。

此時,問題就來了——什麼樣的數據才是靠譜的?

Gu認為,最靠譜的數據,似乎就是每天的死亡人數:

其他的模型用到了很多數據源,但我決定用過去的死亡人數,來預測未來的死亡人數。

至於這樣做的原因,Gu給出的解釋是「將它作為唯一的輸入,有助於在噪音中過濾信號」。

那麼,預測結果如何?

可以說是相當的精準了。

在模型剛剛完成時,他預測在5月9日,美國將有8萬人死亡,當天的實際死亡人數為79926。

而同樣來自IHME的預測數據卻是「2020年一整年的死亡人數將不超過8萬」。

Gu還預測在5月18日,死亡人數將達到9萬;5月27日,死亡人數將達到10萬。

事實證明,他的這兩次預測再次「押中」!

除了精準數字的預測外,Gu基於許多州從封鎖狀態逐步轉變開放狀態,預測將出現第二波大規模感染和死亡。

而在Gu發出這樣的預測當天,川普所發表的言論卻是「IHME所預測的6萬死亡人數表明,疫情很快將結束」……

或許正是因為Gu的模型預測之精準,越來越多人開始關注他的作品。

在Twitter上,Gu不僅@了各路記者,還給流行病學專家發郵件,讓他們核實自己的數據。

去年4月底,華盛頓大學著名生物學家Carl Bergstrom便在Twitter上發布了Gu的模型。

不久之後,美國疾病控制和預防中心,也在其新冠預測網站上發布了Gu的數據。

不僅如此,隨著疫情的發展,身為中國移民的Gu,還參與了由美國專家團隊組織的定期會議,每個人都想更好的改善他的模型。


他的網站訪問量也呈現出爆炸式增長,每天都有數百萬人來看他的數據。

通常情況下,Gu的模型所預測的數據,基本在幾周後便會達到,與實際的死亡人數非常接近。

隨著類似的預測模型逐漸增多,阿默斯特麻薩諸塞大學生物統計學和流行病學系的副教授Nicholas Reich,便統計了50個這樣的模型:

Gu的模型一直位居前列。

但到了去年11月,Gu卻做出了令人意外的一個決定——結束他的預測任務。

對此,Reich這樣評價道:

Youyang Gu是一個非常謙卑的人,他看到其他人的模型也做得很好,便覺得自己的工作已經完成了。

而在Gu決定停止項目的前一個月,他預測11月1日死亡人數將達到231000人,而實際人數為230995人。

但IHME的Chris Murray認為:

Gu使用的機器學習方法,在短期預測方面的效果比較良好,但不太理解「大局中發生了什麼」。

對此,Gu沒有針對模型的評價做出回應,相反,他這樣表態:

我非常感謝 Chris Murray 醫生和他的團隊所做的工作;沒有他們,我就不會有今天的成就。

在休息了一段時間之後,Gu重新投入到了這份事業當中。

這一次,他要做的預測是「美國有多少人感染了新冠病毒」、「疫苗推出的速度有多快」、「美國可能何時(如果可能的話)達到群體免疫」等。

他的預測表明,到今年6月,大約61%的美國人口應該獲得某種形式的免疫力——無論是疫苗還是因過去的感染。

……

Gu一直希望能夠找到一份能對社會產生巨大影響的工作,同時避免政治、偏見以及大型機構有時會帶來的負擔。他認為:

在這個領域,有很多缺點可以通過我這種背景的人來改善。

Youyang Gu出身於美國華裔移民家庭,在伊利諾州和加州長大。

Gu從小喜歡數學和科學,直到高中畢業時,才真正接觸計算機科學。而他能夠進入這個行業得益於他的父親,因為他的父親是一名計算機從業者。

△正在做化學實驗的Gu Youyang(圖片來自2010年克拉克獎學金項目)

Gu本科和碩士都在MIT就讀,在那裡他獲得了計算機科學與數學雙學士學位,以及計算機科學的碩士學位。

畢業後他繼續在MIT著名的CSAIL實驗室的NLP組進行了一年的研究,同年在EMNLP 2016上發表了論文。

這也是他第一次接觸大數據,並由此建立統計模型對數據進行預測。

不過他沒有因此繼續學術研究,而是進入產業界。從MIT離開後,他加入了金融行業,為高頻交易系統編寫算法。

在那裡,他的數據建模能力得到了進一步磨練,因為在金融交易中,數據必須非常定量並儘可能地準確。

之後,他又進入了體育界,繼續進行大數據方面的研究。這也為他提供了豐富的跨學科經驗,使他能夠成功應對新地領域,懂得如何更加準確地建模。

用他自己的話來說,他的專長是使用機器學習來理解數據,將信號與噪聲分離並做出準確的預測。

在建立新冠死亡模型時,他起初考慮了確診數量、住院數量和其他因素之間的關係。然後他發現各州和聯邦政府報告的數據不一致,最可靠的數字是每天的死亡人數。

Gu認為,如果輸入數據質量很低,那麼數據越多,輸出的性能就越差。

在一周的時間裡,他就根據死亡數據便建立了一個簡單模型,並將預測網站上線。

從去年4月以來,Gu已經自願在這個項目中投入了幾千個小時,而且是無償的。

在接受醫學網站Medscape主編Eric Topol採訪時,Gu表示自己現在全職投入到新冠預測網站上,沒有兼職、沒有收入,他靠著過去的積蓄生活。

△ Gu Youyang接受Medscape主編Eric Topol視頻採訪

然而就是這樣一個公益的項目卻遭到了一些Twitter網友非議,但是他還是堅持了下來。

從12月開始,covid19-projections.com接受網友的捐贈幫助,現在已經完成了5萬美元的籌款目標。

除了感染人數外,Gu的新冠網站又有了一個新的功能。從去年12月起,covid19-projections.com開始跟蹤和模擬疫苗接種情況以及群體免疫的途徑。

這個月,Gu又將「群體免疫」改成了「恢復常態」,因為他的模型預測表明,美國不太可能在2021年達到理論上的群體免疫。

未來的路怎麼走?疫情結束後,Gu的職業規劃如何?

他說現在還為時過早,雖然他現在的工作是預測疫情發展,但是他很難預測自己3個月或1年後要做什麼。

因為這項工作,世界各地的高校和企業已經向他拋出了橄欖枝。

參考連結:

https://www.bloomberg.com/news/articles/2021-02-19/covid-pandemic-how-youyang-gu-used-ai-and-data-to-make-most-accurate-prediction
https://youyanggu.com/
https://twitter.com/youyanggu
https://covid19-projections.com/
https://www.medscape.com/viewarticle/944778

本文系授權發布,By 量子位,From 量子位,微信號:QbitAI。歡迎分享到朋友圈,未經許可不得轉載,INSIGHT視界 誠意推薦

相關焦點

  • 27歲華裔小夥一戰成名!搞出最準新冠預測模型,一人幹翻專業機構
    年僅27歲的他,被彭博評價為「新冠病毒數據超級明星」。為什麼?
  • 【機器人頻道|封神榜】27歲華裔小夥一戰成名!搞出美國新冠最準預測模型,一人幹翻專業機構,彭博:Superstar
    年僅27歲的他,被彭博評價為「新冠病毒數據超級明星」。為什麼?憑一己之力,僅用一周時間打造的新冠預測模型,準確度方面碾壓那些數十億美元、數十年經驗加持的專業機構。但2家機構給出的預測結果卻是天差地別:(後來的事實證明,死亡人數是16萬。)2家專業機構給出的預測數據,差距為何能夠如此之大?這就讓當時年僅26歲的Youyang Gu引起了注意。
  • 27歲華裔小夥研發出美國預測新冠精準模型
    27歲時被彭博社評為「SARS-CoV-2數據巨星」。為什麼?
  • 【知名模型顯示美國新冠病毒死亡人數將有所減少】美國一個有影響...
    【知名模型顯示美國新冠病毒死亡人數將有所減少】美國一個有影響力的冠狀病毒模型更新了1月份的預測,預測到明年1月1日,美國「最有可能」出現378321人死亡的情況,比一周前的預測大幅下降。周六,華盛頓大學衛生指標與評估研究所(IHME)發布了新的新冠病毒預測。就在上周,該組織還預測病毒相關死亡人數為415090人。
  • 「這是美國死人最多的一年」!「英國變異新冠病毒可能已在美國傳播」
    英媒:2020年是美國「最致命一年」,上周每33秒就有一人死於新冠「上周,每33秒就有一名美國人死於新冠病毒,預計到(今年)12月底,2020年將成為美國歷史上最致命一年,死亡人數將超過
  • 帝國理工預測新冠死亡病例數,美國鄉村疫情加劇_健康界
    迄今全球已超過350萬例新冠肺炎(COVID-19)病例和近25萬例死亡,近期(5月3日),英國帝國理工學院發表題為:「Short-termforecastsofCOVID-19deathsinmultiplecountries」的預測研究,預測未來一周報告的死亡人數,並分析了51個新冠傳播活躍國家的病例報告趨勢。
  • 幹細胞人肺模型可模擬新冠病毒感染
    幹細胞人肺模型可模擬新冠病毒感染科技日報北京11月29日電 (記者張夢然)英國《自然》雜誌26日發表的一項幹細胞最新研究成果,美國史丹福大學研究人員報告一種人類肺培養系統問世,它可用於模擬肺部感染,包括引起新冠肺炎的新冠病毒感染。
  • 美國預測模型顯示:截至10月1日,美國新冠死亡人數預計將超20萬
    【環球網報導 記者 侯佳欣】據美國有線電視新聞網(CNN)15日報導,美國一項備受關注的預測模型顯示,到今年10月1日,美國新冠死亡人數預計將超過20萬。模型還顯示,預計9月及10月的單日死亡人數將大幅上升。
  • 暴躁華裔小夥怒懟美國人,笑到頭掉!
    自從疫情在美國爆發之後,川普隔三差五就開始頻頻跳腳,他在推特上,多次把「新冠病毒」叫做「中國病毒」。 有記者拍到,川普甚至在白宮新聞發布會上的講稿中,都把「新冠病毒」劃掉,手寫改為「中國病毒」。
  • 黑幕:研究新冠病毒的美華裔科學家被殺疑雲密布,真相或涉美軍!
    作者:十念生1、日前,華人科學家被謀殺新聞同時震驚了中國和美國。美國匹茲堡大學醫學院37歲學者劉彬,一位正在研究新冠病毒並且接近「非常重大發現」的美國華裔科學家,突然被爆在家中遇害身亡!頭部、頸部和身體都有致命槍傷!
  • 疫情拐點何時出現——基於數學模型的新冠病毒傳播預測
    科學客觀地評估新冠肺炎的傳染性強弱以及預測患病人數規模和峰值時間,對決策者實施必要的防控措施、評估對經濟的影響以及投資者如何應對都具有重要的現實意義。  作為數學建模的愛好者,而非流行病學的專業人員,作者通過搜集和學習海內外文獻,對經典的流行病傳播模型(SEIR)有了較準確的理解,通過適當的簡化,較直觀地向讀者介紹模型的原理和各參數的意義。
  • 五名華裔入圍美國布拉瓦尼克國家青年科學家獎
    中新網6月19日電 據美國《世界日報》報導,當地時間18日,紐約科學院(New York Academy of Sciences)和布拉瓦尼克家族基金會(The Blavatnik Family Foundation)公布2020年度布拉瓦尼克國家青年科學家獎(Blavatnik
  • 「一戰成名」FIGHT TO FAME新動向:業界精英強勢加盟
    美國加利福尼亞州洛杉磯2019年8月29日 /美通社/ -- 結合了區塊鏈、體育和電影的「一戰成名」動作明星真人秀,以其獨特的商業模式和強大的團隊陣容,一經面世便受到了全球範圍內的廣大關注。「一戰成名」基於區塊鏈技術,全球首創的區塊鏈+體育+電影商業模式,有望在全球範圍制定賽事標準和電影標準。立志於改變人與賽事,人與電影的關係。 商業模式:區塊鏈+體育+電影「一戰成名」的發起人之一便是銀行重組第一人華贊先生。作為著名的國際社會活動家,華贊一直活躍在國際社會的舞臺。
  • 看Instagram創始人打造的新冠傳播預測模型怎麼說
    昨天,Instagram 聯合創始人 Kevin Systrom 發布了一個新冠病毒的 Rt 預測模型(Rt = R 值加上時間變化)。他還和另一位聯合創始人 Mike Krieger 一起,做了一個網站 Rt.live,能夠實時追蹤美國50個州各自的 Rt 數值。
  • 研究新冠病毒的華裔科學家在美國遇害,該起殺人案背景複雜
    當地時間5月2日,美國賓夕法尼亞州一名華裔醫學研究人員被發現家中遇害,其所就職的高校稱,該男子對新冠病毒的研究工作即將取得「重大發現」。 據美國哥倫比亞廣播公司(CBS)KDKA電視臺報導,死者名為劉冰(Bing Liu,音譯),37歲,他在賓夕法尼亞州羅斯鎮的家中遇害,頭部、頸部和軀體都有明顯槍傷。
  • 【新冠病毒感染預測模型預計到明年2月美國死亡人數將增加近80%...
    2020-10-17 00:20:57來源:FX168 【新冠病毒感染預測模型預計到明年2月美國死亡人數將增加近80%】當地時間10月16日,根據華盛頓大學醫學院衛生計量與評估研究所的模型預測,到2021年2月,美國與新型冠狀病毒相關的死亡人數將增加約171000例,到2月1日,大約有389087人死於新型冠狀病毒的感染。
  • 美國新冠救治原則是什麼?華裔女警察染病後不治身亡!
    提要:美國43歲華裔女警察,感染新冠被拒絕檢測後不治身亡,該如何看待?最近美國一位華裔女警察,在感染新冠病毒之後,兩次請求病毒試劑盒檢測被拒絕之後,最終不治身亡。這位女警察叫劉瑪麗.艾莫爾,在3月份其自己覺得有新冠症狀,因此立刻選擇請假,並前往醫院求醫治療,然而遺憾的是,當時醫生認為其症狀比較輕微,拒絕提供新冠檢測試劑盒為其做相關檢測,然而在3月末,劉女士病情則迅速惡化,最終不治身亡。
  • 好聲音冠軍單依純成名三部曲:厚積薄發,初露鋒芒,一戰成名
    單依純的媽媽單梅芳愛唱越劇,單依純在3歲時,媽媽就教她唱越劇,唱著唱著,單依純就對音樂入了迷。對此,喜歡音樂的媽媽,也是感到非常開心。單依純讀小學三年級時,媽媽送她去學了入門級聲樂課。當時有150多萬人應徵,湖南衛視挑選27位素人參與節目錄製,單依純很幸運地入選了。尚新刷呀刷,終於刷到了單依純與李健同框合唱《傳奇》、《風吹麥浪》、《絨花》的視頻,還有單依純與媽媽單梅芳登上湖南衛視合唱越劇《天上掉下個林妹妹》的精彩畫面。在湖南衛視舞臺上,李健發現了單依純的音樂天賦。
  • 美國20萬人死於新冠 美媒算了筆帳:相當於67天都發生911
    來源:海外網圖為紐約布魯克林街頭一處紀念新冠逝者的地點。(圖:美聯社)海外網9月23日電 截至當地時間22日,美國新冠肺炎死亡病例已經超過20萬。據美聯社報導,約翰斯·霍普金斯大學公共衛生研究人員詹妮弗·納佐(Jennifer Nuzzo)表示,死亡達到20萬完全不可思議,疫情在美國暴發之後已經過去8個月,該國擁有最先進的實驗室、頂尖的科學家和大量醫療用品。發出類似感慨的不僅一人,美國傳染病專家福奇接受美媒採訪時也脫口而出「確實令人震驚」。
  • 俄建預測新冠病毒傳播數學模型
    俄羅斯薩馬拉州科羅廖夫國立研究大學新聞處通報稱,該大學研究人員建立了病毒性疾病暴髮式傳播的數學模型,可預測冠狀病毒傳染病的進一步蔓延。  此前,薩馬拉大學與巴塞隆納自治大學根據多項係數開發出危險病毒性傳染病擴散的數學模型。