做數據挖掘的人,會和醫學期刊扯上什麼關係?
2020年4月,一項關於新冠疫情變化與復工復產的研究登上了《柳葉刀》子刊EClinical Medicine。該研究將不同年齡人群劃為7類,刻畫了他們在家庭、學校、工作場合等情景下的接觸模式,並據此分析出新冠病毒如何傳播,用數量方法給出了疫情期間復工復產的多種模型。
領銜這項研究的作者之一,是中國科學院虛擬經濟與數據科學研究中心(下稱中心)主任石勇。在他看來,「數據模型是有生命力的。數據挖掘的結果是粗糙知識,進一步過濾叫智能知識,智能知識的發現比數據挖掘的結果更重要」。
迅速出成果的秘訣
石勇認為,傳統傳染病模型預測相對固定,將之與大數據結合、演算,就能發現病毒傳播的端倪,並據此預測潛在風險。2020年2月7日完成武漢的城市模型後,團隊又選取了北京、深圳等5個城市,根據各個城市經濟發展的預期值進行實證分析,模擬出不同城市疫情防控強度與復工復產方案間的利弊關係。
結果顯示,利用不同模型,決策者可根據當地防控工作和復工計劃預測出相應疾病傳播風險,得到城市長期經濟發展的基本判斷,為疫情防控與科學決策提供了有力支撐。
回看這項研究,石勇等人之所以能在疫情早期迅速發布相關研究模型,有賴於長期與合作夥伴保持的密切聯絡。
「我們可以把很多學科在短時間內集合到一起。」石勇表示。他所在的中心作為交叉學科單位,招生範圍包括計算機、管理、數學、生物醫學等專業,「只要把這些學生匹配起來,可以發揮很大的科研能動性」。
沉澱自己 也沉澱數據
團隊研究生張林姿告訴《中國科學報》,由於疫情,在無法與國內合作者面對面交流的情況下,石勇每天會專門留出幾小時用於交流工作、推動進展。
「據說牛頓就是在瘟疫封閉期間發現了萬有引力,所以不要焦慮,這是很好的沉澱自己的時間。」石勇對學生如是說。
那段日子裡,石勇也在思考中心的過去和下一個十年。2004年正式成立以來,中心一直在為國家宏觀經濟發展提供決策依據。
2010年,全國個人信用評分系統問世,該項工作由石勇團隊與中國人民銀行徵信局和徵信中心聯合完成,這項系統對中國人的日常商業銀行經濟活動產生了重大影響。最近,石勇正帶領團隊與中國金融期貨交易所合作,對太字節級別體量的交易數據進行分析,預測金融期貨的變化及可能產生的影響。
這些年來,石勇一直強調異構數據、非結構化數據的概念。當下,讓大量「有噪聲」的隨機數據沉澱下來,實現數據挖掘最優化,仍然是他的工作目標:「當針掉到海裡,你要知道針可能掉到哪裡去。」
「只有高質量的數據才能產生更好的結果。」石勇再次強調。因為在這方面的工作,他成為首屆成思危基金會優秀科研成果獎獲得者。
人與算法皆純粹
石勇的團隊每周舉行一次討論,大家圍桌而坐,討論與數據挖掘有關的國際最前沿研究。團隊成員李彪告訴《中國科學報》,討論班的目的很簡單:讓大家一直跟著領域的前沿走。因為討論班的學術氛圍太好,以至於已經畢業甚至畢業多年的學生也願意專門抽出時間參加。
這樣的氛圍與石勇本人的行事風格不無關聯。在李彪等年輕後輩的眼中,石勇始終是一位簡單、純粹的學者。已過耳順之年的他仍在不斷學習,對新鮮事物保持關注,但他永遠衣著樸素——深藍色的夾克和登山鞋穿了多年,公文包磨破了卻想不起來換。
「做科研不為搞多大名堂、創造多大利益。」李彪表示,這樣的言傳身教影響了每一位加入團隊的後輩。石勇尊重每個人的想法,「但你必須踏踏實實地去做」。李彪說。
為了讓學生更早接觸數據科學,石勇面向中國科學院大學的研究生開設了《多元統計分析與機器學習》這門課程,介紹數據科學研究中用到的各種方法。
曾任課程助教的李彪還記得,這堂從不點名的課有40多人選修,但每次都有60多人坐在教室,直到課程結束。「一學期上完,每個人都相當於完成了一個小規模的機器學習項目。」李彪說。
在石勇看來,算法「都是人寫出來的」,「一點都不神秘」。高精度的算法只有配上準確的數據,得到的結果才會更理想。他堅信,「把大數據弄清楚,可以把各個方面的工作往前推進」。
(原載於《中國科學報》 2021-01-05 第4版 綜合)