27歲時被彭博社評為「SARS-CoV-2數據巨星」。為什麼?新冠肺炎猜測模型的精確性,是一個人在短短一周內自己盡力樹立起來的,粉碎了那些具有數十億美元和數十年經歷的專業組織。他是遊揚谷,具有麻省理工學院電氣工程和計算機科學碩士學位和數學學位。但值得注意的是,他在醫學和流行病學上有點白。
他的模型甚至得到了聞名數據科學家、fast.ai創始人JeremyHoward的高度讚揚:僅有看起來合理的形式。他是僅有一個真實看數據而且做對的人。不只如此,他的形式也被疾控中心採用。
是什麼樣的猜測模型?時間點可以追溯到上一年年初。其時疫情現已在全球蔓延,公眾試圖用建模來猜測下一次疫情的影響。大多數人的目光都集中在兩個專業組織樹立的猜測體系上——倫敦帝國理工學院和位於西雅圖的健康指標與評估研討所(IHME)。
但是,兩個組織給出的猜測成果卻截然不同:倫敦帝國理工學院:到夏日,美國死於SARS-CoV-2的人數將到達200萬。
IHME:據估計,到8月份,逝世人數將到達6萬。(後來證明逝世人數16萬。)為什麼兩個專業組織給出的猜測數據能有這麼大的差距?這讓其時年僅26歲的遊揚古備受矚目。雖然他沒有醫學或流行病學經歷,但他堅信數據猜測在這個時分會有很大用處。
因此,4月中旬左右,酉陽穀只在家裡呆了一個星期,創建了自己的猜測器和一個可以顯示相關信息的網站。可是,顧在這個過程中使用的辦法並不那麼先進,相反,它適當簡單。他首要考慮了SARS-CoV-2檢測次數、住院人數等要素之間的關係,但在這個過程中,顧發現各州和聯邦政府供給的數據並不一致。
至此,問題來了——什麼樣的數據才是牢靠的?顧以為,最牢靠的數據似乎是每天的逝世人數:其他模型使用了許多數據來源,可是我決議用曩昔的逝世人數來猜測未來的逝世人數。關於這樣做的原因,顧解說說「把它作為僅有的輸入有助於濾除噪聲中的信號」。
那麼,猜測成果是什麼呢?可以說是適當精確了。模型剛完成時,他猜測5月9日美國將有8萬人逝世,當天實際逝世人數為79926人。但是,來自IHME的猜測數據是「2020年逝世人數不會超越8萬人」。顧還猜測5月18日逝世人數將到達9萬人;5月27日逝世人數將到達10萬。
事實證明,他的兩個猜測又「贏」了!除了精確的數字之外,顧猜測,在許多國家從封鎖到敞開逐漸轉變的基礎上,將會呈現第二波大規模的感染和逝世。在顧作出這一猜測的當天,川普的言辭是「猜測的6萬人逝世標明疫情即將完畢」...也許正是由於對顧形式的精確猜測,越來越多的人開端重視他的著作。
在推特上,顧不只打電話給各行各業的記者,還發電子郵件給流行病學家核實他們的數據。上一年4月底,華盛頓大學聞名生物學家卡爾伯格斯特羅姆在推特上發布了顧的模型。不久之後,美國疾病控制和防備中心也在其猜測網站上發布了顧的數據。不只如此,跟著疫情的開展,華裔移民顧也定期參加美國專家小組組織的會議,大家都想更好地改善自己的形式。他的網站訪問量也爆破式增加,每天都有數百萬人來看他的數據。一般顧模型猜測的數據會在幾周內到達,與實際逝世人數非常挨近。
跟著相似的猜測模型越來越多,美國麻薩諸塞大學生物計算與流行病學系副教授尼科爾斯萊克計算了50個這樣的模型:顧的形式一向走在前列。但在上一年11月,顧做出了一個出其不意的決議——完畢了他的猜測使命。
對此,賴克評論道:酉陽穀是一個很低微的人。當他看到別人的模型做得很好的時分,他覺得自己的作業現已完成了。在谷決議停止該項意圖前一個月,他估計11月1日的逝世人數將到達23.1萬人,而實際逝世人數為23.0995萬人。可是IHME的克裡斯穆雷以為:顧的機器學習辦法在短期猜測上有很好的效果,但他不太了解大局發生了什麼。
對此,顧沒有回應該形式的點評。相反,他說:我非常感謝克裡斯默雷博士和他的團隊所做的作業。沒有他們,我就不會有今日的成就。通過一段時間的歇息,顧重新回到了職業生涯。這一次,他的猜測是「美國有多少人感染新式冠狀病毒」、「疫苗推出的速度有多快」、「美國何時(如果可能)實現大規模免疫」等等。他的猜測標明,到今年6月,大約61%的美國人口應該取得某種形式的免疫——無論是疫苗還是曩昔的感染。
……顧一向期望找到一份對社會有很大影響的作業,同時避免政治、成見和大組織有時帶來的負擔。他以為:在這個範疇,有許多不足之處,是有我這樣背景的人可以改善的。
酉陽穀是誰?酉陽穀出生於一個華裔美國移民家庭,在伊利諾州和加利福尼亞州長大。顧從小喜愛數學和理科,直到高中結業才真實觸摸到計算機科學。他可以進入這個職業要感謝他的父親,他是一名計算機從業者。顧在麻省理工學院攻讀本科和碩士學位,取得計算機科學和數學雙學士學位以及計算機科學碩士學位。結業後持續在麻省理工聞名CSAIL實驗室NLP組學習一年,同年在EMNLP2016宣布論文。這也是他第一次觸摸大數據,由此他樹立了猜測數據的計算模型。
但是,他沒有持續學術研討,而是進入了這個職業。離開麻省理工後,他加入了金融職業,為高頻交易體系編寫算法。在那裡,他的數據建模才能得到了進一步的鍛鍊,由於在金融交易中,數據有必要儘可能的量化和精確。之後進入體育界,持續研討大數據。這也為他供給了豐厚的跨學科經歷,使他可以成功地處理新的範疇,並知道如何更精確地建模。用他自己的話來說,他的特長便是用機器學習來理解數據,把信號和噪音分開,做出精確的猜測。
在樹立新冠肺炎的逝世模型時,他首要考慮了確診病例數、住院人數和其他要素之間的關係。然後他發現州政府和聯邦政府上報的數據不一致,最牢靠的數字是每天的逝世人數。顧以為,如果輸入數據的質量很低,數據越多,輸出性能就越差。一周內,他依據逝世數據樹立了一個簡單的模型,並推出了猜測網站。
從上一年4月開端,顧自願在這個項目上投入了數千小時,而且是免費的。在承受醫學網站Medscape總編輯EricTopol的採訪時,顧說,他現在在COVID-19的猜測網站全職作業,沒有兼職,也沒有收入。他靠曩昔的積儲日子。
可是,這樣的公益項目遭到了部分Twitter用戶的批評,但他堅持了下來。自上一年12月以來,covid19-projections.com現已收到了網民的捐款,現在現已完成了5萬美元的籌款方針。除了感染人數,顧的網站還有一個新功能。從上一年12月開端,covid19-projections.com開端跟蹤模擬接種情況和集體免疫方式。
本月,顧將「集體免疫」改為「回歸正常」,由於他的模型猜測,2021年美國不太可能實現理論上的集體免疫。今後怎麼走?迸發後,顧的職業規劃是怎樣的?他說太早了。雖然他現在的作業是猜測疫情的開展,但他很難猜測三個月或一年後他會做什麼。由於這項作業,全世界的高校和企業都向他拋出了橄欖枝。