【中國科學報】數據挖掘好比「大海撈針」

2021-01-08 中國科學院

  做數據挖掘的人,會和醫學期刊扯上什麼關係?

  2020年4月,一項關於新冠疫情變化與復工復產的研究登上了《柳葉刀》子刊EClinical Medicine。該研究將不同年齡人群劃為7類,刻畫了他們在家庭、學校、工作場合等情景下的接觸模式,並據此分析出新冠病毒如何傳播,用數量方法給出了疫情期間復工復產的多種模型。

  領銜這項研究的作者之一,是中國科學院虛擬經濟與數據科學研究中心(下稱中心)主任石勇。在他看來,「數據模型是有生命力的。數據挖掘的結果是粗糙知識,進一步過濾叫智能知識,智能知識的發現比數據挖掘的結果更重要」。

  迅速出成果的秘訣

  石勇認為,傳統傳染病模型預測相對固定,將之與大數據結合、演算,就能發現病毒傳播的端倪,並據此預測潛在風險。2020年2月7日完成武漢的城市模型後,團隊又選取了北京、深圳等5個城市,根據各個城市經濟發展的預期值進行實證分析,模擬出不同城市疫情防控強度與復工復產方案間的利弊關係。

  結果顯示,利用不同模型,決策者可根據當地防控工作和復工計劃預測出相應疾病傳播風險,得到城市長期經濟發展的基本判斷,為疫情防控與科學決策提供了有力支撐。

  回看這項研究,石勇等人之所以能在疫情早期迅速發布相關研究模型,有賴於長期與合作夥伴保持的密切聯絡。

  「我們可以把很多學科在短時間內集合到一起。」石勇表示。他所在的中心作為交叉學科單位,招生範圍包括計算機、管理、數學、生物醫學等專業,「只要把這些學生匹配起來,可以發揮很大的科研能動性」。

  沉澱自己 也沉澱數據

  團隊研究生張林姿告訴《中國科學報》,由於疫情,在無法與國內合作者面對面交流的情況下,石勇每天會專門留出幾小時用於交流工作、推動進展。

  「據說牛頓就是在瘟疫封閉期間發現了萬有引力,所以不要焦慮,這是很好的沉澱自己的時間。」石勇對學生如是說。

  那段日子裡,石勇也在思考中心的過去和下一個十年。2004年正式成立以來,中心一直在為國家宏觀經濟發展提供決策依據。

  2010年,全國個人信用評分系統問世,該項工作由石勇團隊與中國人民銀行徵信局和徵信中心聯合完成,這項系統對中國人的日常商業銀行經濟活動產生了重大影響。最近,石勇正帶領團隊與中國金融期貨交易所合作,對太字節級別體量的交易數據進行分析,預測金融期貨的變化及可能產生的影響。

  這些年來,石勇一直強調異構數據、非結構化數據的概念。當下,讓大量「有噪聲」的隨機數據沉澱下來,實現數據挖掘最優化,仍然是他的工作目標:「當針掉到海裡,你要知道針可能掉到哪裡去。」

  「只有高質量的數據才能產生更好的結果。」石勇再次強調。因為在這方面的工作,他成為首屆成思危基金會優秀科研成果獎獲得者。

  人與算法皆純粹

  石勇的團隊每周舉行一次討論,大家圍桌而坐,討論與數據挖掘有關的國際最前沿研究。團隊成員李彪告訴《中國科學報》,討論班的目的很簡單:讓大家一直跟著領域的前沿走。因為討論班的學術氛圍太好,以至於已經畢業甚至畢業多年的學生也願意專門抽出時間參加。

  這樣的氛圍與石勇本人的行事風格不無關聯。在李彪等年輕後輩的眼中,石勇始終是一位簡單、純粹的學者。已過耳順之年的他仍在不斷學習,對新鮮事物保持關注,但他永遠衣著樸素——深藍色的夾克和登山鞋穿了多年,公文包磨破了卻想不起來換。

  「做科研不為搞多大名堂、創造多大利益。」李彪表示,這樣的言傳身教影響了每一位加入團隊的後輩。石勇尊重每個人的想法,「但你必須踏踏實實地去做」。李彪說。

  為了讓學生更早接觸數據科學,石勇面向中國科學院大學的研究生開設了《多元統計分析與機器學習》這門課程,介紹數據科學研究中用到的各種方法。

  曾任課程助教的李彪還記得,這堂從不點名的課有40多人選修,但每次都有60多人坐在教室,直到課程結束。「一學期上完,每個人都相當於完成了一個小規模的機器學習項目。」李彪說。

  在石勇看來,算法「都是人寫出來的」,「一點都不神秘」。高精度的算法只有配上準確的數據,得到的結果才會更理想。他堅信,「把大數據弄清楚,可以把各個方面的工作往前推進」。

  (原載於《中國科學報》 2021-01-05 第4版 綜合)

相關焦點

  • 科學網—韓家煒:數據挖掘第一人
    「他有『數據挖掘第一人』之稱,是伊利諾伊大學香檳分校具有國際影響力的著名科學家,我們很多學生都選了他的課。」 「我上個月去聽了韓家煒教授的講座,果然是學術大牛,分析問題一針見血,講述道理深入淺出,原先對數據挖掘領域許多一知半解的問題都豁然開朗。」一個園藝設計專業的中國留學生介紹。
  • 「大海撈針」怎麼說?
    大海撈針 表示: 在大海裡撈一根針 >比喻無從尋覓 出自: 明·王錂《春蕪記·定計》: 「覓利如大海撈針,攪禍似乾柴引火。
  • 幫天文學家「大海撈針」人工智慧有了新辦法
    幫天文學家「大海撈針」 人工智慧有了新辦法研究人員利用人工智慧的深度學習方法,發現了38個新的強引力透鏡候選體,為研究本報記者 趙漢斌 通訊員 陳 豔近年來,隨著技術日益進步,天文學研究中產生了海量數據。天文學家要想從郭守敬望遠鏡、「中國天眼」FAST、LSST大型綜合巡天望遠鏡等遍布世界的大型望遠鏡捕獲的海量數據中找出有價值的信息以資研究,無異於大海撈針。如何高效地處理這些數據,已成為現代天文學面臨的一項重要挑戰。
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • 【中國科學報】物候研究期待中國聲音
    其中,在中國春季物候發生機制、植物物候時空變化規律和未來物候變化預測等方面取得的顯著進展,引起了較大關注。  「近幾年,我們在物候研究領域漸入佳境,這有賴於以往的持續觀測,也反映出物候研究更受重視,許多中國物候變化的重要規律正逐步被發現。」中科院地理資源所自然環境變化與格局研究室副主任、「中國物候觀測網」副主任戴君虎對《中國科學報》記者表示。
  • 【中國科學報】科學家繪製出腦前額葉發育單細胞圖譜
    研究人員通過單細胞轉錄組測序發現,動態發育的人類胚胎前額葉皮層主要由神經幹細胞、興奮性神經元、抑制性神經元、星型膠質細胞、少突膠質細胞、小膠質細胞等六大類細胞組成,並進一步把這六大類細胞精確劃分為35個獨立的細胞亞型,深入挖掘了各個細胞類型關鍵基因表達特徵及其重要生物學含義。研究發現,中間前體細胞IPC對神經發生,特別是靈長類動物的神經發生同樣起著重要作用。
  • 【中國科學報】虛擬天文臺 讓天文學飛入尋常百姓家
    中國科學院國家天文臺信息與計算中心主任、國際虛擬天文臺聯盟副主席、中國虛擬天文臺負責人崔辰州告訴《中國科學報》,2000年左右,隨著美國斯隆數字巡天(SDSS)等一批天文觀測項目開始啟動,天文學的觀測方法發生了重大改變,從對單個天體的精細觀測改為大天區巡天觀測。新的觀測方式帶來了海量數據,如何存儲、分析和呈現這些浩如煙海的數據成為了天文學家迫在眉睫的問題。
  • 大海撈針!「中國天眼」搜索脈衝星有多難?
    隨著昔日「射電之王」阿雷西博射電望遠鏡的坍塌,全世界只剩下一隻射向宇宙的「大眼睛」——「中國天眼」500米口徑球面射電望遠鏡FAST。作為世界最大單口徑的射電望遠鏡,FAST自2016年竣工以來,就表現出「極強的靈敏度」,截至目前,基於FAST數據發現的脈衝星超過240顆,在同一時間段位居世界第一。鮮為人知的是,這些脈衝星發現的歷程,如大海撈針一般困難。中科院國家天文臺FAST工程總工程師姜鵬給出這樣一組數據:FAST在2018年觀測時,峰值數據率每秒就可以達到38G。
  • 【中國青年報】大海撈針!「中國天眼」搜索脈衝星有多難?
    「中國天眼」500米口徑球面射電望遠鏡FAST  隨著昔日「射電之王」阿雷西博射電望遠鏡的坍塌,全世界只剩下一隻射向宇宙的「大眼睛」——「中國天眼」500米口徑球面射電望遠鏡FAST  作為世界最大單口徑的射電望遠鏡,FAST自2016年竣工以來,就表現出「極強的靈敏度」,截至目前,基於FAST數據發現的脈衝星超過240顆,在同一時間段位居世界第一。  鮮為人知的是,這些脈衝星發現的歷程,如大海撈針一般困難。中科院國家天文臺FAST工程總工程師姜鵬給出這樣一組數據:FAST在2018年觀測時,峰值數據率每秒就可以達到38G。
  • 大國重器「深海勇士號」擁有最強大腦「大海撈針」成為現實
    大國重器「深海勇士號」擁有最強大腦「大海撈針」成為現實 原標題:   央視網消息:本月30日,中國4500米載人潛水器——深海勇士號將正式驗收交付,預計在今後30年裡為海洋科考服務。
  • 【中國科學報】科學家首次測得水下熱通量數據
    研究人員利用海洋熱通量儀在三亞近海岸和南海北部進行了觀測,在國際上首次測量得到水下熱通量數據,發表的論文分析了風浪區海洋湍流渦旋對熱通量輸運的作用,並研究了垂向湍流通量(熱通量與動量通量)與潮汐的聯繫。
  • 【中國科學報】海洋所海洋大數據中心向全球開放共享資源
    近日,中國科學院海洋研究所海洋大數據中心新版門戶網站正式上線運行,面向國內外用戶開放共享數據資源,提供數據共享、匯交、應用及計算服務。  據介紹,中心通過門戶網站首次發布特色數據產品5套,包括全球海洋溫度格點數據集、全球海洋鹽度數據集、全球海洋層結數據集、全球海洋熱含量數據集、基於廣義回歸神經網絡的全球海洋表層二氧化碳分壓數據集。
  • 幫天文學家「大海撈針」,人工智慧有了新辦法
    近年來,隨著技術日益進步,天文學研究中產生了海量數據。天文學家要想從郭守敬望遠鏡、「中國天眼」FAST、LSST大型綜合巡天望遠鏡等遍布世界的大型望遠鏡捕獲的海量數據中找出有價值的信息以資研究,無異於大海撈針。  如何高效地處理這些數據,已成為現代天文學面臨的一項重要挑戰。由於人工智慧在海量數據分析和處理方面所具有的突出優勢,它也很自然地走入了天文學家的視野。
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 大數據_數據挖掘技術分類及應用
    數據豐富、知識貧乏已經成為一個典型問題。Data Mining(數據挖掘)的目的就是有效地從海量數據中提取出需要的答案,實現「數據-〉信息-〉知識-〉價值」的轉變過程。   (數據挖掘)是指用非平凡的方法從海量的數據中抽取出潛在的、有價值的知識(模型或規則)的過程。
  • 韓家煒Jiawei Han訪談錄(數據挖掘)
    很多數據挖掘問題處理的並不是人類對象。例如,如果你試圖挖掘一些天文圖片(像吉姆·格雷所做的,他參與建設的是天文學資料庫),你仍然需要大量的數據挖掘。你可能從不擔心暴露任何星星的隱私。所以從這方面看來,沒有任何隱私問題。實際上,在世界的任何地方數據都可以是公開的,任何人都可以共享。所以,有很多不需要擔心隱私問題的數據挖掘任務。然而另一方面,數據挖掘中有一些人類研究對象。
  • 數據挖掘與統計分析的區別
    多元統計老師說:「數據挖掘是以統計分析為基礎的,多數在採用統計分析的方法」。我有不同的觀點,就寫點東西出來,大家可以自己評述。
  • 【中國科學報】狙擊「新冠」,中科院微生物所有哪些進展
    就此,《中國科學報》採訪了該所領導和參與此次疫情防控阻擊戰的科學家。  《中國科學報》:微生物所在這次疫情中主要承擔了哪些任務?  微生物所副所長錢韋(法人代表):微生物所是打過「非典」型肺炎(SARS)和流感病毒感染戰役的一個研究所,算是經歷過戰鬥的「老兵」。
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • 乾貨 面向大數據的時空數據挖掘
    面向大數據的時空數據挖掘的重要性  20世紀90年代中後期,數據挖掘領域的一些較成熟的技術,如關聯規則挖掘、分類、預測與聚類等被逐漸用於時間序列數據挖掘和空間結構數據挖掘,以發現與時間或空間相關的有價值的模式,並且得到了快速發展。