異質性和共性是大數據兩大挑戰

2020-12-06 和訊科技

範劍青

  什麼是大數據?大數據究竟能做什麼?大數據時代的機會與挑戰分別是什麼?

  如今面對無處不在的大數據,卻很少有人可以清楚地回答出以上這三個問題。

  日前,以「大數據時代,統計無處不在」為主題的問學講堂在復旦大學管理學院舉行。在此期間,《國際金融報》記者遇見了美國普林斯頓大學運籌與金融工程系系主任範劍青。由於對統計學重要而廣泛的貢獻,範劍青教授榮獲2000年度的COPSS總統獎,該獎為國際統計學領域的最高獎,於2008年當選國際數理統計學會(IMS)主席,是該會創會以來70多位主席中惟一的中國人。

  在這位統計學大師級的教授眼中,大數據不僅大,而且很複雜,既有結構性的數據,也有非結構性的數據,與生物、工程、自然科學、社會科學等息息相關。

  在接受《國際金融報》記者的採訪中,範劍青指出,大數據有兩方面富有挑戰的問題,異質性和共性。異質性能提供個性化的產品、服務等,共性則存在於不斷的變化之中。「研究大數據,不僅能夠預測未來,更重要的是探索其中的因果聯繫。」

  大數據沒那麼美好

  大數據到底有多大?一組名為「網際網路上一天」的數據告訴我們,一天之中,網際網路產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多;發出的社區帖子達200萬個;賣出的手機為37.8萬臺,高於全球每天出生的嬰兒數量37.1萬……

  更重要的是,數據已經不僅僅是數據本身了,這儼然是一場革命。

  「大數據的影響包括數據獲得、 數據管理、計算基礎建設、計算優化等方面。大數據對統計分析的影響則包括噪聲疊加、假相關、內生性、誤差、異質性等。」範劍青告訴記者,在大數據時代,機會與挑戰並存。

  大規模的數據集很有誘惑力,能促使人們展開積極的分析,而且分析者希望能夠從中獲取有獲獎可能性的科學發現。但有時,利用大數據意味著最終得到的是糟糕數據。要從大數據中得出高見,給計算機科學、統計推斷方法甚至科學方法本身帶來了巨大的挑戰。

  「當然,計算機領域的科學家通過開發出卓越的計算能力和信息存儲技術,讓大數據的積累成為可能。但是收集數據及存儲信息與理解這些內容並不是一回事。」範劍青指出,了解大數據的真正意義並不等同於對小數據進行解讀,就像明白鳥群的行為特徵並不能解釋一隻孤獨的海鷗所發出的叫聲一樣。

  範劍青指出,標準的統計檢驗和計算程序原本是要分析從大的群體中提取的小樣本,從而得出科學推斷。但是大數據提供的樣本極大,有時甚至包括整個群體或者群體的大部分。任務之艱巨會給實施計算過程從而完成統計檢驗帶來問題。

  「統計學的夢想,在於找到有效的統計方法,運用合適的計算手段,預測未來。」範劍青向記者表達出了他的統計學夢想。

  無法取代傳統收集法

  目前,阿里、騰訊、京東由於坐擁電商的交易數據、社交信息數據等,都在「試水」利用大數據來搭建信用評價體系。但事實上,基於社交網絡上的數據來進行信用評分、描繪一個人的畫像,在國際上也沒有成功的先例。那麼,網際網路社交數據究竟靠譜嗎?

  在範劍青在採訪時候表示,「大數據肯定對於信用評估非常有幫助,比如在網上購買了什麼東西、社交網絡上有哪些朋友、你的朋友的違約程度,把這些相關數據整合在一起,顯然可以勾勒出一個人基本的信用情況。但我認為,這也不太可能完全取代傳統的數據收集方法,因為人們在網上的行為跟平時在網下的行為不完全是一樣的。」

  範劍青指出,針對個人信用的評價,美國至少有3家公司在收集相關數據,還有一個獨立的公司把這些數據綜合在一起。其實,非常關鍵的就是數據收集,因為人的行為是很多樣化的。「在這方面,中國可能剛剛開始起步,最重要的還是央行的徵信系統。但我相信,線上與線下的結合可以對於個人信用作出更為合理的評價。」

  「過去10年至15年來,基於網際網路的信息技術革命已給全人類帶來了顛覆性影響,信息科學從某種程度上說,已成為推動經濟發展的一個重要引擎。現在還可以預見的是:在未來的幾十年時間裡,更多與經濟社會發展相關的決策,都會被大數據推著走。」範劍青表示,對大數據的研究固然涉及眾多學科、領域,但按照目前美國學術界的共同看法,數學、統計學和計算機科學的三者結合是構成分析、研究大數據的基礎。

  防範金融系統風險

  金融危機之後,各國都提高了對金融系統性風險的防範意識,其中大數據便是一個非常有效的工具。

  作為大數據領域的專家, 範劍青多次受美國證監會邀請講授大數據金融相關知識。「金融危機之後,美國相繼成立了各種金融研究辦公室,目的就是統籌收集各種公司的信貸數據,以及持有的相關金融產品的數據,就像防範恐怖襲擊一樣,給予金融風險不同等級的社會警示。」

  事實上,大數據為金融行業帶來的變革將首先體現在兩個方面:精準營銷。大數據改變信息結構,金融機構通過對客戶數據的收集和分析,推出更有個體針對性的服務;風險管控。大數據改變風險管理模式,雲計算推進最精確和最低成本的風險測算。這也進一步意味著運營效率和績效的提升。

  2012年,華爾街「德溫特資本市場」公司利用電腦程式分析全球3.4億社交帳戶的留言,進而判斷民眾情緒並決定如何處理手中的股票。判斷便是:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。2012年第一季度,公司因此獲得了7%的收益率。

  然而,對於利用大數據預知市場,範劍青仍然持保留意見。

  「預知市場是很困難的,這其中包括兩方面內容,一是投資,二是投機。在投資方面,一些歷史數據或許可以有所幫助,比如市盈率、利率、市場信貸情況等,這些數據對於市場是否存在泡沫可以有一個大概的指導,但金融市場間的定價體系很多程度上還依賴於投資者行為,而投資者行為中究竟有多少投機成分,至少目前沒有一個模型可以精確地預測。」範劍青如此指出。

  值得注意的是,大數據的發展推動了網際網路金融、移動金融等各種新業態的不斷湧現。不少以技術為主導的網際網路新興企業也將參與到金融行業中來,一起分享大數據帶來的饕餮盛宴。

  「網際網路的盛行,使得很多操作和信息披露變得特別快,買賣交易也變得更迅速,許多過去需要用幾年才能完成的事情,在當今市場中過程便會縮得特別短。」範劍青指出,這也意味著市場的波動性可能會在網際網路時代的影響下變得比前幾年更大。

(責任編輯:李治華 HN026)

相關焦點

  • 中國工程院院士徐宗本:大數據的挑戰和問題
    大數據的挑戰和問題  談論大數據是時代話題,擁有大數據是時代特徵,解讀大數據是時代任務,應用大數據是時代機遇。這四句話概括出大數據時代。從本質上說,數據,就是指資料的信息化、數位化,大數據的複雜性體現在四個方面,第一,海量性;第二,實踐性;第三,異構性;第四,分布性。
  • 研究人員開發出基於微生物組大數據的疾病檢測方法
    中國科學院青島生物能源與過程研究所單細胞中心發明了基於菌群大數據搜索的疾病檢測方法,為此共性問題提供了原創的解決方案。該工作於3月17日在線發表於mSystems(美國微生物學會會刊)。作為與生俱來、無處不在的「小夥伴」,微生物組與人體、環境的健康有著千絲萬縷的關聯。同時,菌群檢測具有非侵入性、可量化、可預警等優勢。
  • 基於菌群大數據搜索的新疾病檢測方法開發成功—新聞—科學網
    中科院青島生物能源與過程研究所單細胞中心發明了基於菌群大數據搜索的疾病檢測方法,為此共性問題提供了原創解決方案。該研究成果近日在線發表於《美國微生物學會會刊》。 微生物組與人體、環境的健康有著千絲萬縷的關聯。同時,菌群檢測具有非侵入性、可量化、可預警等優勢。
  • 2020 CCO | 聽院士講大數據和液體活檢,最新研究熱點全get√
    本次大會集結20餘位院士、2000餘位頂尖腫瘤學專家學者和來自全國各地的腫瘤學領域精英,秉承「腫瘤防治,贏在整合」的主題,共享學術盛宴,共沐智慧藍海,共譜抗癌華章。會議期間,醫脈通邀請南京醫科大學沈洪兵院士和山東省腫瘤醫院於金明院士分別就腫瘤大數據和液體活檢的研究進展進行深入探討。
  • 大數據給統計工作帶來的挑戰
    ■ 鄭寶金     隨著雲計算技術概念的提出和發展,社會經濟正邁入大數據時代。所謂的大數據時代就是人們獲取的信息量劇增,獲取信息的渠道也越來越廣泛,信息趨向於網絡化、廣泛化、公開化。每天數據都在以千變萬化的形式展現在我們面前,這也使人們對統計數據的質量越來越關注,大數據給統計工作帶來了前所未有的壓力和挑戰,但同時也帶來了機遇。        大數據的特徵        大數據不簡單等同於「大」的數據,這一概念最初來源於IT界,是一種數據集合,覆蓋範圍廣泛,由海量數據組成,具有極其重要的戰略資源價值。
  • 大數據可視化技術的挑戰及應對措施
    在大數據時代,數據可視化技術在廣泛應用的同時,也面臨諸多新的挑戰。大數據可視化是一個面向應用的研究領域,本文重點從應用實踐的角度,討論在大數據背景下大數據可視化內涵、研究進展、相關技術與產品以及所面臨的一系列挑戰。
  • 單細胞數據科學的十一個重大挑戰
    這是單細胞數據分析的大框架,要說難點都難,今天我們就來談談目前單細胞數據解讀(挖掘)的一些挑戰。主要參考文章:Eleven grand challenges in single-celldata science ,Lähnemann et al.
  • 空間大數據:機遇與挑戰並存—新聞—科學網
    「空間大數據的崛起,帶來的遠比我們想像的要多得多。」泰伯研究院專家顧問、英國倫敦大學學院教授程濤說,「空間大數據崛起給我們帶來的是時空大數據,不只是告訴位置,也不只是告訴時間,更重要是有了內涵和內容。這為城市智能化和個人的位置服務提供了非常好的機遇。」 數據離不開時空,在李朋德看來,大數據有序的挖掘才能出現價值。
  • 為什麼明明是同一種癌症,治療效果卻大不相同?|異質性|基因組|癌症...
    腫瘤內細胞之間的差異可能會對癌症的診斷和治療產生重要影響。  腫瘤內的細胞對同一治療方法有不同的敏感性或有效性。  什麼是腫瘤異質性?  風雪中,沒有兩片雪花是相同的,同樣的,世界上並沒有兩個相同的腫瘤,即使是原發腫瘤和轉移腫瘤。這就是腫瘤異質性。
  • 昆明動物所開發出適用於高通量異質性數據算法
    挖掘腫瘤大數據有助於識別和總結腫瘤發生、發展過程的分子變化規律。然而,腫瘤組織高度異質性、批次效應等因素是腫瘤數據分析的重要難題,而目前常用的轉錄組數據分析方法對於腫瘤離群值極度敏感,容易產生假陰性結果。
  • 大數據和新經濟時代背景下,新經濟統計學的機遇與挑戰
    本次活動採用線上形式,數十位行業大咖、專家學者雲集雲端,縱論行業大勢,發表真知灼見。次日,本次論壇的部分專家學者再次通過網絡對大數據和新經濟時代背景下,新經濟統計學面臨的機遇與挑戰進行了深入探討,對於中國新經濟統計領域的知識體系如何完善與實踐應用指明了方向,非常及時且富有意義。
  • 專訪百奧智匯王泱洲:我們的獨有優勢是大數據及分析平臺
    傳統測序中,多以數十萬個細胞基因組作為測序對象,所獲得的信息來自於眾多細胞的平均值,這種對平均值的檢測具有局限性,掩蓋了細胞異質性方面的信息,導致無法精確、真實地闡述和理解生物學過程和機制。現在市面上的數據很多,但有效的、整理好的數據並不多,我們有一款單細胞大數據云平臺產品,裡面已經涵蓋了超過 600 個研究的 1300 多個數據集、2000 多萬個單細胞的數據。從數據量和標準化程度數據以及數據質量方面都是國際領先的。從單個細胞水平上廣泛收集和注釋了患病和健康組織的全面科研數據,對未來藥物研究、發現等方面都有至關重要作用。
  • TechFest 2013兩大主題:人機互動和大數據
    本屆技術節主要聚焦兩大主題——「更人性的自然界面」和「大數據時代的到來」,透過來自微軟全球各個研究院的150項最新研究成果,為期三天的活動不僅架起基礎研究與產品工程轉化之間的橋梁,更是與全球用戶分享了微軟公司對於未來科技發展趨勢的願景。作為微軟研究院年度最重要的活動,微軟技術節素有「計算機研究領域的盛宴」之稱。
  • 民生銀行大數據體系架構設計與演進
    數據的獲取並不是目的,如何利用大數據平臺技術,實現數據的管理和信息的加工提煉,並對上遊系統提供各類數據支支持。針對這些問題和挑戰,DC從數據和技術兩個方面著手對平臺進行構建。   數據層次
  • 細菌為何有大有小?中國科學家挑戰兩大法則提出全新「公式」—新聞...
    中國科學家挑戰兩大法則提出全新「公式」 該研究以大腸桿菌為模式生物,揭秘了細菌大小的決定因素,推導出了全新的「個體生長分裂方程」,修正了該領域原有的兩大生長法則,並對合成生物學領域生命體理性設計提供了相關建構基礎原理。細菌,是自然界分布最廣、個體數量最多的單細胞生命體。從負責發酵酸奶的乳酸菌到生產胰島素的大腸桿菌,細菌充斥於人類生活和科學研究的方方面面。
  • Nature提出腫瘤異質性和耐藥性的罪魁禍首
    近日,由Ludwig癌症研究所的Paul Mischel和加州聖地牙哥醫學院的Vineet Bafna共同領導的跨學科的一項新研究發現,在所分析的40%的腫瘤細胞系中,非染色體DNA(ecDNA)表達驅動腫瘤生長和存活相關的致癌基因的多個拷貝,並且可能有助於腫瘤的異質性和進化。文章已發表在Nature雜誌上。
  • 呂雪梅教授:腫瘤內部和之間的異質性演化及其醫學意義
    2016年4月25日訊/生物谷BIOON/--4月23日,腫瘤異質性學術研討會在上海好望角大飯店進入第二天的議程,中國科學院北京基因組研究所研究員呂雪梅博士發表了題為《腫瘤內部和之間異質性的演化及其醫學意義》的演講。
  • Nat Rev:T1DM 的異質性對治療提出挑戰
    3、成年T1DM患者中血糖控制差和心衰風險的增加相關。 4、一些1型糖尿病患者中存在併發症發生較晚的保護因素,這些患者的鑑別有助於幫助對1型糖尿病患者腎病,神經病和心血管疾病併發症的預防。 2011年1型糖尿病的研究進展包括關於β細胞的細胞破壞,早期免疫幹預實驗和晚期的合併症進展的研究。著重提到了這種疾病的異質性。
  • 大數據在反腐上的數據應用
    在大數據時代,各行各業都在發掘和利用大數據的價值,大數據的應用為研究腐敗防治的行為提供了有益的方法論指導,利用大數據方法,總結出有關廉政風險的規律共性,從預防、控制、懲治三個層面入手,管好公職人員的人財物三個方面,更好的助力廉政風險防控。
  • 商湯科技舉辦病理、放療兩大MICCAI國際挑戰賽 推動AI醫療落地
    作為國際頂級醫學影像年會MICCAI的黃金贊助商,商湯科技近日宣布將聯合衡道病理、上海交通大學醫學院附屬瑞金醫院、西京醫院、上海市松江區中心醫院舉辦MICCAI 2019消化道病理圖像檢測與分割國際挑戰賽,聯合醫諾智能科技、浙江省腫瘤醫院舉辦MICCAI 2019放療規劃自動結構勾畫國際挑戰賽,旨在聚焦放療和病理兩大領域的臨床需求,將長期積累的數據資源和專家知識開放給研究領域