近期,雷鋒網AI掘金志邀請騰訊天衍實驗室主任鄭冶楓,做客雷鋒網公開課,以「騰訊抗疫故事」為題,對騰訊兩個月相繼做出的健康小程序、新冠肺炎CT輔助診斷、肺炎疫情趨勢三個產品做出了技術分享。
後續將有更多課程上線,添加微信公眾號 醫健AI掘金志 報名聽課,或收看本節課程視頻回放
過去兩個月,騰訊作為國內網際網路行業第一梯隊,在抗擊疫情中付出了諸多努力,其中騰訊健康小程序提供實時疫情展示、線上問診AI自查服務,累計有3億用戶使用。
鄭冶楓表示,騰訊健康小程序抗疫專區上線的15個工具中,天衍實驗室參與了5項,包括疫情知識問答、患者同小區、發熱自查、發熱門診、口罩攻略。在疫情問答中,天衍實驗室利用自研LTD-BERT模型識別用戶意圖,把推理速度提高了40倍,滿足上線大流量需求,理解用戶意圖以後做問答匹配,精準地給用戶提供疫情信息。
而在新冠肺炎CT輔助診斷產品的研發上,克服數據量不足、標註力量不夠等問題,天衍實驗室採用魔方自監督學習方式訓練模型,在小數據集上進行微調,就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎做分類。
針對疫情的宏觀防控,天衍實驗室還利用深度學習對「傳統傳染病動力學模型」進行優化,為政府做了國內各省份和海外國家「肺炎趨勢預測」。預測效果上,實際情況跟模型預測非常吻合,在3月3號發布的武漢預測模型中,後續實際證明誤差小於千分之一。
以下為鄭冶楓的演講全文內容,雷鋒網做了不改變原意的編輯。
天衍實驗室是騰訊內部,專注於醫療AI的實驗室, 覆蓋醫療大數據、醫療自然語言理解、醫療影像等等。我們的使命是「全面支持公司醫療線的應用」。2019年我們實驗室提交了將近100個專利,有6個頂會論文發表,參加多項競賽,取得5項醫療AR競賽的冠軍。
過去兩個月對全國人民來說都是不尋常的兩個月。今天我跟大家分享我們的一些工作。
今天公開課,首先介紹天衍實驗室,然後分享實施的三個項目:
1、騰訊健康小程序抗疫專區,這是to C的產品,依託於騰訊微信平臺,目前是給大家做疫情知識科普,加強防疫意識;
2、新冠狀肺炎CT輔助診斷,這是to B的項目,最終是部署到醫院,目標是幫助影像科醫生提高診斷準確率;
3、肺炎趨勢預測,是政府部門合作項目,為下一步疫情防控提供參考,三個項目覆蓋了to C、to B和to G。
騰訊健康小程序
新冠肺炎從2019年12月份爆發以來進展非常迅速,1月20號,鍾南山院士宣布新冠病毒存在人傳人,1月23號武漢開始封城,疫情在全國全面爆發。
中國花了一個多月時間,完全控制疫情的傳播,當時覺得疫情就像當年SARS一樣,過去了,病毒就完全消失了,後來發現情況比我們想像的要嚴重。
新冠肺炎已經在歐洲和美國已經全面爆發,最近幾天確診患者數量上漲非常快。有些專家預言病毒可能會跟流感病毒一樣,每年冬季爆發,會跟人類長期生存。
騰訊作為中國頭部網際網路公司,過去兩個月也積極投身國內抗疫工作。在3月18號,騰訊發布2019年財報和2019年第4個季度財報上,專門有章節介紹抗疫期間的工作,列下來大概有6點,其中兩點是跟天衍實驗室密切相關。比如,騰訊的15億抗疫基金中,捐贈6臺CT掃描儀搭載新冠CT影像診斷算法,部署到武漢抗疫前線;給鍾南山院士團隊捐贈3000萬,用於新冠治療方法研究,建立聯合實驗室,天衍實驗室是騰訊內部專門負責對接的的技術團隊。
另外相關的是騰訊健康。騰訊健康小程序提供實時疫情展示、線上問診AI自查服務,累計有3億用戶使用。
騰訊健康抗疫專區
雷鋒網在3月3號發表了「我們對「騰訊戰疫」實情一無所知」,講述了騰訊健康抗疫專區背後的故事,主要採訪了產品,前臺開發、小程序開發同事,裡面的故事非常感人,有很多細節也是我們讀了文章才知道,因為我們很多人是在家一直加班。
天衍實驗室屬於後臺算法開發,更多是在幕後,用人工智慧技術幫助抗疫專區項目推進,所以今天,我會從天衍實驗室的角度闡述抗疫工具後面的黑科技。
大家讀這份報告的時候可以看到,想法最初是來自1月20號鍾南山院士宣布疫情全面爆發以後,我們醫療線同事就在想我們能做什麼,當時就決定在騰訊健康上開闢抗疫專區,產品的同事花了一天多的時間加班加點,22號凌晨8:00上線了抗疫專區,開發出很多抗疫工具。
天衍實驗室參與更多的是抗疫工具研發。微信同事也非常給力,在「我-支付-騰訊服務」的九宮格裡給我們上線了醫療健康頂級入口,幫助工具做快速傳播。總共15個工具中,天衍實驗室參與了其中5項,包括疫情小助手、患者小區、發熱自查、發熱門診、口罩攻略等。
智能知識問答
這個產品主要目的有兩個,「抑制謠言傳播」,「助力權威信息傳播」,權威信息傳播了,謠言自然就沒有生存空間。
在疫情開始初期,大家都希望能得到權威解答,比如,懷疑自己是否得了新冠肺炎會問新冠肺炎症狀等,但是網上的信息良莠不齊,甚至有些是故意編造的謠言。
我們希望通過一個工具,把權威信息集中起來,有效地給公眾傳播。雖然衛健委以及中國頭部醫療機構會在官網上放出權威信息及問答,但這種官網信息最大的問題是流量小、文件篇幅長、難以檢索。
通過不斷積累,我們工具的數據來源包括衛健委在內23個權威網站,保證信息權威性,庫裡所有問答最後都是通過中華預防醫學會專家校驗,通過多輪迭代以後,我們的問答覆蓋率已經達到超過97%。
這是我們產品的展示,進入這個界面可以看到先推薦幾個最熱點問題,假設用戶感興趣可以直接點擊,如果不感興趣,可以問全新的問題,比如新冠肺炎患者臨床表現,程序會到資料庫匹配,找到最相關答案展示,回答完這一輪問題以後,會預估用戶可能還存在的問題,進行自推薦。
技術總體框架分4層:數據層、技術層、功能層和應用層。
數據層最重要是數據來源,依託網際網路信息,用爬蟲技術爬取,當然我們也有醫療知識庫,對這些信息校對。第一個版本上線,我們覆蓋率並不高,可能只覆蓋到50%的問題,所以我們會每天分析日誌數據,找到裡面高頻、沒有很好回答的問題進行補充;
在技術層,我們用爬蟲技術、資料庫技術、人工智慧技術;在功能層;輔用我們以前做的工作,包括拼寫糾錯、意圖識別等;在應用層,就是展現給用戶能看到的體驗,包括問答系統、個性化推薦系統等。
信息採集模塊主要有兩塊,一是權威信息爬取,用自動爬蟲工具去爬取數據來源,最終達到23個,每個數據來源的問答很大部分是重疊的,所以我們做了一些去重的工作,還有每個網站格式可能不太一樣,我們需要做格式歸一化,最後清洗完將問題入庫。
第一個版本上線,很多熱點問題沒有覆蓋到,後續設置了熱點問題挖掘模塊,發現新問題沒有回答就用搜尋引擎搜索,自動從網上找到答案,這些答案可能來源參差不齊,我們會做一個質量評估區分,是來源於權威網站還是來歷不明網站,只採用權威網站信息,格式可能跟我們不太一樣,需要做人工改寫。所有改寫完的問答,都會找中華預防醫學會專家做人工校對,確保無誤以後入庫。
智能問答
首先對輸入層做了很多工作,比如拼寫糾錯、因為輸入可能是同音字會有拼寫錯誤,還有標準化改寫,因為新冠是新疾病,在統一名稱之前,不同時期有不同叫法。
我們還做了意圖識別,建立三級意圖體系,第一級意圖有九個,包含口罩、新冠知識、發熱門診之類等,接著不斷細分。到第三級有329個意圖,比如,口罩細分層就有購買渠道、價格、口罩配套、口罩是否可以重複使用等。
我們是採用最新BERT模型做意圖識別,把輸入的用戶意圖分類到意圖體系裡,但是BERT模型速度比較慢,我們進行了模型壓縮,最終用自研LTD-BERT模型把推理速度提高了40倍,滿足上線大流量需求,我們理解用戶意圖以後,會做問答匹配,精準給用戶提供答案。
還有個性化問題推薦功能,根據用戶輸入,可以做一些推薦,比如,根據用戶過往問題做相關後續追問,或者推薦一些熱點。
用戶甚至可以制定意圖,比如他想知道所有跟口罩相關的科普知識,我們會通過意圖分析,把資料庫裡信息做分類處理,把口罩相關信息推送給用戶,讓用戶自由閱覽。
秉承開放的態度,除了在騰訊健康上線之外,我們還對外輸出,比如服務了17個省區40個衛計委和疾控中心,還服務了近100家醫院。
甚至還做了一個接入指南,幫助他們去更快速地接入,可以把我們的工具嵌入到他們的小程序裡,做智能問答;也開放給行業合作夥伴,有30多家行業合作夥伴最終接入了我們的系統。
患者小區查詢
嚴格意義上這是患者蹤跡查詢,有些地方會公布患者蹤跡,去過哪些餐館,哪些公開場所,只要這些信息權威來源公布,我們就會納入查詢範圍。
目的是讓信息能夠透明,信息越透明越可以避免民眾恐慌,可以增加政府的公信力,民眾可以更好地理解和配合政府抗疫措施。
因為我們平臺觸及用戶比較多,展現也比較靈活,所以可以更方便把不同來源的信息,包括是官網、微信公眾號、微博信息集成起來,在一個平臺上集中展現。
信息可以展現在地圖上,用戶實時交互,得到比較好的用戶體驗,我們最終覆蓋城市232個,城市覆蓋率超過70%。覆蓋小區數目超過8000個。
這是我們產品的展示效果,可以根據用戶地理位置,可以把周圍小區都覆蓋在地圖上,以確診患者小區,畫三公裡半徑圓,用戶可以很清楚看到患者小區距離,也可切換到列表模式,給出小區名字、地址、距離等信息。
每個信息我們還註明截止日期、從哪公布,也有訂閱功能,如果你周圍小區有情況更改,會自動推送。我們還有一些科普的知識,比如小區出現患者該怎麼辦。
製作工具的難點主要有三個:
第一個難點:信息滯後。最笨的方法是人工直接尋找信息,做一次就上線,可這個方法最大問題是源於信息更新,因為疫情高峰時期,每天都會有新的小區出現,有信息更改,所以希望越自動化越好。
我們是採用自動定時爬取的方法,每天爬取2到3次,對爬取的信息用自然語言理解模型,提取小區名字、信息發布來源、信息發布時間等信息;提取出信息以後,跟資料庫裡已有信息做比對去重,比如小區不同名稱,最後,所有數據都要做人工校驗確保來源準確。
第二個難點:信息來源欠缺權威性。我們的受眾比較廣,能力越大責任就越大,所以當時設計產品的時候,最重要的考慮就是數據來源必須官方渠道。
所以我們就開創性地提出,一種正向反向溯源方法提高數據質量,因為開始冷啟動的時候,沒有權威信息來源列表,最開始的爬蟲方法信息質量沒有保證,所以一旦提取到小區發現確診病例,就會用這個小區名字反向搜索,可能出現幾十個信息來源,最後去定位最權威來源(一般來源於官方的發布)。
找到權威來源之後,我們才把信息放到工具上,沒找到就放在內部資料庫不會上線。發現權威來源以後,不在我們的白名單裡,我們會把這些來源加入到我們白名單。
第三個難點:小區信息未關聯具體地址或地理坐標。一般官方發布都只給小區名字,很難做交互,體驗也不好,所以我們跟騰訊地圖合作,他們開放API給我們,拿小區名字去搜索,然後得到經緯度,名稱也做歸一化。
名稱歸一化很重要,官方發布的小區名字和騰訊地圖直接做匹配,30%小區不能匹配,我們花了很多功夫做人工審核、做數據清洗保證數據準確性。
這裡我只展示一個技術,利用BERT模型做小區信息抽取,抽取的信息包括小區名稱、發布時間、數據來源等。對BERT模型來說,輸入有兩塊,一塊是段落文本,一塊選取信息,假如,想抽取小區信息就輸入患者小區4個字,就會做詞向量的空間embedding,再加上位置信息,模型會自動告訴我們,提取的信息起始位置、終止位置,做到非常自動化,減少人力尋找。
新冠CT輔助診斷
這個項目的初衷是提高診斷準確性。現在新冠診斷有兩條技術路線,一個是核酸檢測,核酸陽性就代表攜帶病毒,只要不是操作失誤,就非常準確,但是有假陰率的情況。核酸檢測還有供應量不足、檢測時間長等其他問題,最終確診需要一天或兩天時間。
另外一種方法是CT檢測,CT普及率高,一般縣級醫院甚至鄉鎮醫院都有CT掃描儀,掃描速度也很快,5分鐘就可以,假如現場有放射科醫生閱片,再需要15分鐘左右,就可以知道肺部CT是否有新冠肺炎症狀,比核酸檢測更快,敏感性也比較高,根據鍾南山的論文中76%的患者肺部CT會出現異常,敏感度超過核酸。
國家衛建委第5版新冠肺炎診斷指南裡,把CT作為一個臨床診斷標準(僅限湖北省份)。以後,2020年2月13日,湖北省確診病例單日增加將近15000例,其中大部分是基於CT影像確診的,意味那批核酸陰性的病人,得到了真正的確診,後續可以更加合理的治療。
CT上可以看到肺炎病人還是有比較明顯的症狀,當然早期、進展期、重症期症狀是有區別的。在早期主要是磨玻璃狀陰影,不是完全實心,可以看到後面的血管,跟正常肺組織差異比較小,到進展期、重症期會慢慢實化,最嚴重時候可能變白肺。
對CT的診斷,無論對醫生、還是AI算法都是非常巨大的挑戰。
首先新冠肺炎是新疾病,對醫生來說,特別是初級醫生,都沒見過這種疾病,準確診斷是很大的挑戰。早期階段表徵是磨玻璃狀,背景對比度不夠強,此外磨玻璃本身就存在同狀異病的情況,診斷準確率會受影響。
對於武漢一線醫生,做CT檢查人特別多,工作量特別大,每天都是超負荷工作,一個薄層CT掃描會產生300張左右的影像,肉眼閱讀可能需要5到15分鐘,對醫生來說確實需要一個能夠幫助提高診斷準確率,加快閱片速度的助手。
對AI算法來說,也是非常巨大的挑戰,因為疫情爆發初期,很難獲得大量數據。我們第一個版本只用一周時間就要開發、迭代,最終落地。還有標註的問題,因為前線醫生都非常忙,我們不想打擾前線醫生抗疫工作,也不可能讓前線醫生給我們標很多數據。
但好在我們團隊過去兩年一直關注小樣本學習問題,最終用自研小樣本學習技術,在數據量不是特別大情況得到比較滿意的準確率。
我們醫學影像團隊過去幾年技術積累還是非常好的,比如通用技術,2019年我們參加的醫學影像競賽,其中拿到5個競賽的冠軍,光在競賽總獎金上就達到35萬,裡面包括檢測、分割和分類,覆蓋醫學影像大部分任務。
當然我們也有很多相關技術積累,比如肺結節篩查,雖然病例可能不是肺炎但可以作為負例去訓練分類器。
還有更相關的項目是,我們跟國內頂尖的傳染病醫院,在免疫抑制人群肺炎(PCP)和普通人群肺炎這兩個分類上做了很多科研工作,這個工作跟現在新冠肺炎的項目非常像,也積累了很多數據。
最後相關的是小樣本學習,我們在小樣本學習上也有很好的技術積累,去年我們開源了一個MedicalNet預訓練模型,通過預訓練,在小樣本上做微調,可以提高分類準確率,同時也研究了很多自監督學習和半監督學習技術,相關工作也發表在去年的一些頂會上。
在落地方面,騰訊走了一套跟別人完全不一樣的落地路線,採用車載CT+AI+遠程篩查整套方案,項目背景是騰訊基金會從15億抗疫基金裡拿出一部分,捐贈了6臺CT掃描儀。
前期主要是捐獻給廣東醫療隊,當他們到需要到武漢去,幫助前線抗疫。所以對這些醫生來說,他們就像個戰士,走的時候必須有武器,沒有CT掃描儀,就沒法做很多檢查,所以我們捐贈了6臺設備。
這是當時發車的照片,可以看到這是貨櫃,裡面裝載了CT掃描儀和AI伺服器。部署到醫院以後把貨櫃放下來,通過一兩天連調就可以上線,開始工作,過程非常快速。
除了捐贈6臺CT掃描儀以外,我們也捐贈了7臺AI伺服器,其中6臺,搭配著車載CT一起部署到醫院。
這是我們產品的迭代的路線,大概分幾個步驟,更新4個版本。
第1個版本時,時間非常緊,只有一周時間,因為第1臺捐贈CT發車時間是2020年2月16號,我們拿到數據已經是2月初,後面還要跟CT廠家聯調,留給算法開發的時間只有一個星期,當時也是頂著壓力讓同事們一起加班加點,最後順利的完成任務。
我們分類任務是進行一個三分類,輸入一個CT圖像以後,首先分析是不是肺炎,因為也可能是肺結節、其他肺部疾病、正常無疾病。確定是肺炎之後,還需要區分是病毒性肺炎(新冠肺炎),還是其他肺炎(細菌引起抗細菌引起感染引起的肺炎)。
第2個版本我們又加了肺炎區域分割,可以統計病灶數目、病灶體積、病灶佔肺部區域的百分比等,後面又加了肺葉定位和隨訪功能。
談到分類任務,因為第1個版本時間非常緊,數據量又非常少,所以我們用自監督學習方法,也就是魔方自監督,這是我們去年在醫療影像AI頂會(MICCAI)上發表的論文。
自監督學習就是給原始圖像額外標籤去設計任務,任務可以從原始圖像中拿到(自己定義)一些標籤來監督我們網絡的訓練。
當時我們設計任務是將三維CT圖像切分成一些模塊,比如2×2×2的8個模塊,拿到這8個模塊以後,我們隨機打亂它順序,每個模塊可以沿著不同的軸做隨機旋轉,就像一個打亂的魔方。我們的神經網絡就是試圖去恢復這個魔方,給每一個模塊找到原來的位置,然後判斷模塊是不是被旋轉過。
神經網絡被訓練出來以後,我們採用遷移學習方法,在特定任務上微調,因為這種預訓練方法不需要標籤,可以在大量甚至幾萬例數據上做預訓練,得到非常穩定的結果。
然後我們在小數據上微調做分類,就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎分類,可以有效放大有限樣本量的效率,大家要感興趣的話可以參考我們那篇論文。
肺炎分割是一個比較難的問題,特別早期肺炎,因為是磨玻璃狀的病變,輪廓並不清晰,即使醫生標註也有很大的方差,可以比較一下肺炎分割和實性腫瘤分割的情況。
這是腦膠質瘤分割,比較規則,形狀近似於橢圓形,當然也有離群點,但是肺炎離群點更多,即使大塊的肺炎區域形狀都特別不規則。
我們用的三維卷積神經網絡,能夠充分利用層與層之間的信息,得到更有效的結果。對於這種三維圖像分割,我們還是比較有經驗的,去年在肝臟分割上拿到了第1名,肺部多器官分割上我們也拿了第1名,所以可以很快就上線功能。
這是我們落地的效果,總體來說靈敏度比較高,自測至少95%以上,假陽率也是可以接受的範圍。
這是部署到前線以後的第1例案例,我們當時也非常緊張,因為我們也不知道系統部署到前線後的實際表現,患者是武漢醫院醫生,在之前患了新冠肺炎,等他痊癒之後,就負責主持我們公司捐贈醫院的感染控制。當時他自告奮勇做第1次掃描,我們AI診斷結果肺部影像是正常的,也符合當時他的情況。
右邊是比較難的案例,已經變大白肺,通常認為大白肺可能就已經是新冠肺炎晚期,初級醫生認為是新冠肺炎而高年資醫生覆核認為是細菌感染引起肺水腫,不是新冠病人,最後檢測結果確實是細菌性肺水腫,和我們AI診斷結果一致。
肺炎疫情趨勢預測
這是和政府合作的項目,疫情防控部門給我們要求,想知道武漢或者湖北放開管控以後,會不會形成反彈,海外輸入風險有多大,哪些國家對我們風險最大等。
針對這些題目,我們又做了專題研究,構造模型,把結果跟他們做定期匯報,為政府決策提供依據。對民眾來說,只要了解中長期趨勢也是有幫助的,因為每天數值都在變,假如他們知道中長趨勢就會保持更平和的心態,更好的規劃工作和生活。
對於肺炎趨勢預測來說,大概有兩種方法:
第一種,傳統傳染病動力學模型,這個方法對參數非常敏感,非常難調,因為參數一改變它結果就出現很大差異,特別是R0參數(病毒基本傳播數),表示平均下來一個病人會傳染多少正常的人;
第二種是機器學習模型,純數據驅動,這種方法的問題是數據訓練量比較少,做複雜的模型很有點難度。
裡面有幾個創新,一個是改造傳統傳染病模型,傳統的SEIR模型中S代表易感人群,E代表潛伏期,I代表你發病了,R代表你在康復。這個模型更多是用於流感病人,比如到醫院確診流感,醫生給你開藥回家了,康復期還在社會上自由活動,就有一定傳染概率。
新冠整個管控方法是不一樣的,一旦發現是確診病人就會被隔離,所以在康復期就不會在社會上自由走動,所以把模型最後狀態改成了Q,變成了SEIQ。
這個模型整個來說就是說不同狀態之間有一個轉化速度,所以有幾個參數:β、γ1、γ2等。第1個改進是我們加我們把R替代成Q;第2個改進就是基本傳播參數。
剛才提到這個參數非常敏感,另外參數還隨時間變化,隨著病例的不斷增加,政府可能會採取更加強力的措施,把R0這數值字降下來。所以我們認為R0是隨時間轉化的數,不是固定值,基本假設是指數下降的,有基本、初始的和最終的參數,中間是指數下降的過程。
模型的參數有些是新引入,有些是原來就有。對於參數,我們不是直接去指定,而是給一個預定範圍,根據參考文獻或其他途徑,知道預定範圍,比如R0,我們認為在2到7之間比較好。
用機器學習的方法把模型擬合到實際觀測數據中,找到最優的一組參數,模型訓練好之後就可以做預測。
這是我們幾個案例,一個是全國(非湖北),實際情況跟我們的模型非常吻合,因為全國大概是1月20號鍾南山院士宣布肺炎人傳人以後,就開始有數據出來。
我們用1月20號到1月27號這8天數據,藍色是我們訓練樣本,黃色是後續實際每天確診人數,紅色是我們的模型預測結果。
可以看到27號就開始很好的預測未來一個月的變化,隨著訓練樣本量越來越多,時間往前推進,可以看到模型越來越準確。
第2個是湖北(非武漢)的數據,更難一些,因為開始湖北的一些數據不符合傳染病規律,在2月4號之後,才能夠比較準確的預測。
這是武漢的數據,2月13號湖北改變了診斷策略,把CT診斷加入標準之後,那天增加了很多病人。所以我們也提出一種方法,把病人往前折算到每天,根據疑似病例和確診病例的比例折算回去,灰色代表折算以後的病例數目,到2月中旬模型就可以得到不錯的結果。
後面下降期我們預算很準確,上升期確實很難,因為出現的數據偏離傳染病特徵,很多病人還在社區沒有被篩查出來,實際數據不夠真實。
2月底,負責項目的孫繼超博士在內部論壇上介紹了我們的算法,回溯性的給了部分結果,他在3月3號發布了一個預測,雖然當時全國很多地方新增變成0,但是武漢每天還在有很多新增數字。
他預測武漢一周以後累積數字,什麼時候降到個位數,什麼時候歸零。我們後來用實際數據驗證來看,預測的準確率還是比較不錯的。
比如,模型預測3月18號到20號之間,武漢的新增最後會歸零,實際確實是3月18號新增數字歸零,還有預測了武漢最終確診病例會是49941,最終是50005,兩者非常接近,只有千分之一的誤差。
R0隨時間的變化曲線,可以看到確實在疫情初期,武漢的傳播係數非常大,遠遠高於全國和湖北非武漢城市,隨著政府管控力度加大,R0的係數也在不斷減少,最終收斂到0.2左右。
海外疫情爆發以後,我們的合作單位也希望對海外的疫情做預測,希望得到接下去半個月之內,哪些國家對我國海外輸入風險最大。
這是還在飛速發展的幾個國家,主要是歐洲的義大利、西班牙和德國,在星期一做的預測,預測之後一個月的變化情況。
預測義大利即將到達拐點,新增病例達到頂峰,之後,新增病例量開始往下走,預計在4月2號、3號左右達到達拐點,一個月以後總確診病例數達到24萬。
模型預測西班牙的拐點比義大利晚3到5天,會在4月6號左右,最終確診數目可能跟義大利差不多。德國會更晚一點,要到4月20號才能夠達到高峰,然後接下去就往下走。
所有模型預測都有很多不確定因素,我們現在放出來,就是想看看,最終實際情況是不是和模型預測一致。
今天又做了美國的預測,還是比較難的,可以看到模型預測美國每天發病的數目和實際有很大偏差,主要是因為美國基本輕症患者,就不做核酸測試,只有滿足重症住院要求,才做核酸測試。
所以看到早期美國數據增長非常慢,然後幾天突然增加,原因可能是疫情爆發,或者是補償性行為。前期被隱藏的病人,開始放開做檢測,確診量開始補償性增加。我們對這個預測的信心不是特別足,根據模型預測,估計在4月17號左右,會達到高峰,接下來緩慢下降。
此外,假如美國不採取更強力的措施,我們估計5月15號,確診病例會超過100萬,希望不要發生這個情況,這需要他們的政府採取更強硬的管控措施。
我們跟合作單位還做了另外的課題,是湖北放開管控以後的反彈情況,這個模型比較受限,參數比較少,最主要是R0參數。
假如用其他模型,比如深度學習,很多參數可以直接輸入,比如確診人數,當地人口密度,當地生活水平,醫院數目,平均活動範圍(代表管控力度),當地氣候溫度等,這些都可以作為參數輸入,所以深度學習模型,就是這裡展示的LSTM模型,會非常靈活,對平均活動範圍非常敏感。
管控最大的體現就在平均範圍,因為管控力度大,待在家裡每天活動範圍就很小,放開到處跑,平均活動範圍就大,所以我們發現模型,對平均活動範圍非常敏感,所以用LSTM模型做了訓練和預測。
這是當時和合作單位匯報的結果,2月17號做的預測,藍線是真實,連續光滑的曲線是我們預測結果,17號做預測,預測2月21日、22日、23號放開後會出現反彈。
放開有兩種模式,一種全面放開,比如武漢1月22號封城前的情況,人的平均活動半徑從1.8公裡增長到22公裡,確實會出現反彈,但是反彈不是特别致命,假如政府保持發現即隔離的管控措施會逐漸下降。
我們又做了不完全放開的預測,用武漢2月24號的數據,人群平均活動範圍,可以看到不會反彈,但是下降速度會稍微慢一點。
對鄂州做預測
我們對鄂州做了一個預測,它是非常小的地級市,緊鄰武漢,人口在100萬左右,在27號做預測的時候,疫情還不夠穩定,剛剛過了拐點,還在上下波動時期。當時是按照完全放開進行預測,出現較大反彈,超過歷史峰值,人數從50多反彈到180,接近三倍,而不完全放開,保持一定管控力度,反彈力度會小一些,不過還是會接著反彈。
最後感謝天衍實驗室大數據組、自然語言理解組和影像組的同事,他們過去兩個月非常辛苦,加班加點,利用人工智慧技術快速上線和落地新的功能,希望我們所做的事情,可以為全國人民的抗疫事業做出應有的貢獻。