李國傑
■本報記者 陳彬
「當前,大數據已成為社會熱潮。這股熱潮的主要驅動力來自網絡服務公司,各地政府投資大數據的主要目的則是增加GDP,但其實發展大數據的意義不僅僅體現在經濟上。」日前,在清華大學舉行的大數據時代高端論壇上,中國工程院院士李國傑表示,發展大數據技術的另一個重要意義是促進社會公平正義,促進國家治理的現代化。「大數據的挖掘分析還能促進科學研究,尤其是基礎科學研究的發展。面對大數據浪潮,我們的科學研究也需要作出一定的調整。」
「大數據就如同蜜蜂,其主要價值是傳播花粉,自己生產的蜂蜜價值並不大。」李國傑介紹說,2013年世界範圍內狹義的大數據產業產值只有186億美元,但廣義的大數據應用幾乎覆蓋所有產業。據麥肯錫公司預測,開放數據僅在教育、保健等7個行業便可釋放3.2萬億~5.4萬億美元的經濟價值。
然而,在李國傑看來,大數據對社會的貢獻並不僅限於經濟領域。「大數據分析是認識客觀世界的新工具,將開拓計算機科學的新領域——數據科學,同時基於大數據分析的科學研究第四範式必將給全球科技發展帶來深刻影響。」
當前,大數據的發展已給傳統計算機科學帶來挑戰。李國傑坦言,計算機科學是關於算法的科學,傳統的圖靈計算把「輸出值」當成「輸入值」的函數,假定輸入的數據是隨意的,並不關心輸入數據之間的相互關係。然而,現在的研究發現,其實輸入數據本身也是值得研究的對象。「這就是數據科學要研究的內容。」
「在某些情況下,小數據條件下好的算法在大數據條件下可能不再適用。反過來,也有一些問題,數據多了反而更容易解決。大數據的興起導致計算機科學的重點從算法研究向數據科學轉移。」李國傑說,目前的大數據技術大多是針對專門應用開發的,其實應研發更加通用的大數據分析和管理技術,發展像關係資料庫這樣的理論指導海量非結構化Web數據的處理。
與此同時,越來越多的研究人員開始在數據不斷湧現的科學領域摸索,數據驅動型發現也將成為科研的主要形式,熟練應付大數據將很快成為必備技能。對此,李國傑表示,伴隨著所有科學都迅速變成「數據科學」,需要在各領域培養既有專業知識又熟悉數據分析的人才,使之擁有分屬於不同領域的「雙腿」支撐前進。
此外,李國傑強調,為順應大數據時代潮流,我們需要重新構建一張以大數據為基礎的「門捷列夫周期表」。
「『門捷列夫周期表』的發現,為化學成為一門獨立科學奠定了重要基礎。而在很多學科中,我們也需要對某些基本元素進行系統分析。」李國傑表示,目前生物領域有基因組學,生理學、病理學、製藥、幹細胞等領域都在研究「基因組」,也有人在討論人類語言的「基因組」,這些基因組其實都是構成學科整體的基本元素。而發現這些「基因組」需要通過計算機對海量數據進行分析,這導致各學科領域紛紛出現「某某信息學」的分支學科,凸顯了大數據在許多學科中的基礎性作用。
「從上世紀70年代開始,圍繞計算複雜性,已形成了以算法研究為中心的計算機科學。但隨著計算機科學與其他科學的交叉融合,其研究重點將逐步轉移到以研究各種基因組學為重點的數據科學。從這個角度來說,現在已經到了發現一張新的『門捷列夫周期表』的時候了。」李國傑說。
《中國科學報》 (2014-05-22 第1版 要聞)