數據科學研究的現狀與趨勢全解 - 大數據_CIO時代網 - CIO時代—新...

2021-01-09 CIO時代網

  大數據時代的到來催生了一門新的學科——數據科學。首先,本文探討了數據科學的內涵、發展簡史、學科地位及知識體系等基本問題,並提出了專業數據科學與專業中的數據科學之間的區別與聯繫;其次,分析現階段數據科學的研究特點,並分別提出了專業數據科學、專業中的數據科學及大數據生態系統中的相對熱門話題;接著,探討了數據科學研究中的10個爭議及挑戰:思維模式的轉變(知識範式還是數據範式)、對數據的認識(主動屬性還是被動屬性)、對智能的認識(更好的算法還是更多的數據)、主要瓶頸(數據密集型還是計算密集型)、數據準備(數據預處理還是數據加工)、服務質量(精準度還是用戶體驗)、數據分析(解釋性分析還是預測性分析)、算法評價(複雜度還是擴展性)、研究範式(第三範式還是第四範式)、人才培養(數據工程師還是數據科學家)。再次,提出了數據科學研究的10個發展趨勢:預測模型及相關分析的重視、模型集成及元分析的興起、數據在先,模式在後或無模式的出現、數據一致性及現實主義的回歸、多副本技術及靠近數據原則的廣泛應用、多樣化技術及一體化應用並存、簡單計算及實用主義佔據主導地位、數據產品開發及數據科學的嵌入式應用、專家餘及公眾數據科學的興起、數據科學家與人才培養的探討。最後,結合本文工作,為數據科學研究者給出了幾點建議和注意事項。

  大數據正在改變著人們的工作、生活與思維模式,進而對文化、技術和學術研究產生了深遠影響。一方面,大數據時代給各學科領域帶來了新的機遇——認識論和研究範式的轉變,出現了一種區別於傳統科學研究中沿用至今的「知識範式」的新研究範式——「數據範式」。「數據範式」的廣為應用成為現代科學研究的一個重要轉變。另一方面, 大數據帶來的挑戰在於數據的獲得、存儲、計算不再是瓶頸或難題,各學科領域中的傳統知識與新興數據之間的矛盾日益突出,傳統知識無法解釋和有效利用新興的大數據,進而促使傳統理論與方法的革命性變化。

  目前,大數據已受到各學科領域的高度關注,成為包括計算機科學和統計學在內的多個學科領域的新研究方向,表現出不同專業領域中的數據研究相互高度融合的趨勢,進而即將獨立出一門新興學科——數據科學。同時,大數據研究中仍存在一些誤區或曲解,如片面追求數據規模、過於強調計算架構和算法、過度依賴分析工具、忽視數據重用、混淆數據科學與大數據的概念以及全盤否定大數據等。因此,現代社會需要一門新學科來系統研究大數據時代的新現象、理念、理論、方法、技術、工具和實踐,即「數據科學」。

  本文第1節探討數據科學的內涵、發展簡史、學科地位和知識體系等四個基本問題,並提出了數據科學的兩個基本類型——專業數據科學和專業中的數據科學。第2節提出現階段數據科學研究的特點——本質問題的系統研究較少,反而周邊問題的討論較多,並分別分析了專業數據科學、專業中數據科學以及大數據生態系統中的相對熱門話題。第3節探討數據科學研究中的10個爭議——思維模式的轉變(知識範式還是數據範式)、對數據的認識視角(主動屬性還是被動屬性)、對智能的認識側重點(更好的算法還是更多的數據)、主要瓶頸(數據密集型還是計算密集型)、數據準備(數據預處理還是數據加工)、服務質量(精準度還是用戶體驗)、數據分析(解釋性分析還是預測性分析)、算法評價(複雜度還是擴展性)、研究範式(第三範式還是第四範式)和人才培養(數據工程師還是數據科學家),並分別提出了研究挑戰。第4節分析了數據科學研究的10個發展趨勢——預測模型及相關分析的重視、模型集成及元分析的興起、數據在先,模式在後或無模式的出現、數據一致性及現實主義的回歸、多副本技術及靠近數據原則的應用、多樣化技術及一體化應用並存、簡單計算及實用主義佔據主導地位、數據產品開發及數據科學的嵌入式應用、專家餘及公眾數據科學的興起以及數據科學家與人才培養的探討。最後總結全文,並對數據科學研究者提出了幾點建議。

  數據科學:大數據背後的科學

  「數據科學」與「大數據」是兩個既有區別又有聯繫的術語,可以將數據科學理解為大數據時代一門新科學,即以揭示數據時代,尤其是大數據時代新的挑戰、機會、思維和模式為研究目的,由大數據時代新出現的理論、方法、模型、技術、平臺、工具、應用和最佳實踐組成的一整套知識體系。

  1.  數據科學的內涵及興起

  1974年,著名計算機科學家、圖靈獎獲得者Peter Naur在其著作《計算機方法的簡明調研(Concise Survey of Computer Methods)》的前言中首次明確提出了數據科學(Data Science)的概念,「數據科學是一門基於數據處理的科學」,並提到了數據科學與數據學(Datalogy)的區別——前者是解決數據(問題)的科學(the science of dealing with data),而後者側重於數據處理及其在教育領域中的應用(the science of data and of data processes and its place in education)。

  Peter Naur首次明確提出數據科學的概念之後,數據科學研究經歷了一段漫長的沉默期。直到2001年,當時在貝爾實驗室工作的William S. Cleveland在學術期刊International Statistical Review上發表題為《數據科學——拓展統計學技術領域的行動計劃(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》的論文,主張數據科學是統計學的一個重要研究方向,數據科學再度受到統計學領域的關注。之後,2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美國計算機學會通訊(Communications of the ACM)》 上分別發表題為《計算——數據科學的願景(Computing: A vision for data science)》和《數據科學與預測(Data science and prediction)》論文,從計算機科學與技術視角討論數據科學的內涵,使數據科學納入計算機科學與技術專業的研究範疇。然而,數據科學被更多人關注是因為後來發生了三個標誌性事件:一是Patil DJ和 Davenport T H於2012年在哈佛商業評論上發表題為《數據科學家——21世紀最性感的職業(Data scientist: the sexiest job of the 21st century)》;二是2012年大數據思維首次應用於美國總統大選,成就歐巴馬,擊敗羅姆尼,成功連任;三是美國白宮於2015年首次設立數據科學家的崗位,並聘請Patil DJ作為白宮第一任首席數據科學家。

  Gartner的調研及其新技術成長曲線(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,數據科學的發展於2014年7月已經接近創新與膨脹期的末端,將在2~5年之內開始應用於生產高地期(plateau of Productivity)。同時,Gartner的另一項研究揭示了數據科學本身的成長曲線(Hype Cycle for Data Science),如圖1所示。從圖1可以看出,數據科學的各組成部分的成熟度不同:R的成熟度最高,已廣泛應用於生產活動;其次是模擬與仿真、集成學習、視頻與圖像分析、文本分析等,正在趨於成熟,即將投入實際應用;基於Hadoop的數據發現可能要消失;語音分析、模型管理、自然語言問答等已經渡過了炒作期,正在走向實際應用;公眾數據科學、模型工廠、算法市場(經濟)、規範分析等正處於高速發展之中。

圖1  數據科學的成長曲線(2016)

  2.  數據科學的學科地位

  2010年,Drew Conway 提出了第一張揭示數據科學的學科地位的維恩圖——《數據科學維恩圖(The Data Science Venn Diagram)》(圖2),首次明確探討了數據科學的學科定位問題。在他看來,數據科學處於統計學、機器學習和領域知識的交叉之處。後來,其他學者在此基礎上提出了諸多修正或改進版本,如圖3是Jerry Overton於2016年給出的數據科學維恩圖。但是,後續版本對數據科學的貢獻和影響遠不及Drew Convey首次提出的數據科學維恩圖。

圖2  Drew   Conway的數據科學韋恩圖(2010)

圖3  Jerry   Overton的數據科學韋恩圖(2016)

  從Drew Conway的《數據科學維恩圖》的中心部分可看出,數據科學位於統計學、機器學和某一領域知識的交叉之處,具備較為顯著的交叉型學科的特點,即數據科學是一門以統計學、機器學習和領域知識為理論基礎的新興學科。同時,從該圖的外圍可看出,數據科學家需要具備數學與統計學知識、領域實戰和黑客精神,說明數據科學不僅需要理論知識和實踐經驗,而且還涉及黑客精神,即數據科學具有三個基本要素:理論(數學與統計學)、實踐(領域實務)和精神(黑客精神)。

  3. 數據科學的知識體系

  從知識體系看,數據科學主要以統計學、機器學習、數據可視化以及(某一)領域知識為理論基礎,其主要研究內容包括數據科學基礎理論、數據加工、數據計算、數據管理、數據分析和數據產品開發,如圖4所示。

圖4  數據科學的知識體系

  基礎理論:主要包括數據科學中的新理念、理論、方法、技術及工具以及數據科學的研究目的、理論基礎、研究內容、基本流程、主要原則、典型應用、人才培養、項目管理等。需要特別提醒的是,「基礎理論」與「理論基礎」是兩個不同的概念。數據科學的「基礎理論」在數據科學的研究邊界之內,而其「理論基礎」在數據科學的研究邊界之外,是數據科學的理論依據和來源。

  數據加工(Data Wrangling 或Data Munging):數據科學中關注的新問題之一。為了提升數據質量、降低數據計算的複雜度、減少數據計算量以及提升數據處理的精準度,數據科學項目需要對原始數據進行一定的加工處理工作——數據審計、數據清洗、數據變換、數據集成、數據脫敏、數據歸約和數據標註等。值得一提的是,與傳統數據處理不同的是,數據科學中的數據加工更加強調的是數據處理中的增值過程,即如何將數據科學家的創造性設計、批判性思考和好奇性提問融入數據的加工活動之中。

  數據計算:在數據科學中,計算模式發生了根本性的變化——從集中式計算、分布式計算、網格計算等傳統計算過渡至雲計算。比較有代表性的是Google三大雲計算技術(GFS、BigTable和MapReduce)、Hadoop MapReduce、Spark和YARN。計算模式的變化意味著數據科學中所關注的數據計算的主要瓶頸、主要矛盾和思維模式發生了根本性變化。

  數據管理:在完成「數據加工」和「數據計算」之後,還需要對數據進行管理與維護,以便進行(再次進行)「數據分析」以及數據的再利用和長久存儲。在數據科學中,數據管理方法與技術也發生了重要變革——不僅包括傳統關係型資料庫,而且還出現了一些新興數據管理技術,如NoSQL、NewSQL技術和關係雲等。

  數據分析:數據科學中採用的數據分析方法具有較為明顯的專業性,通常以開源工具為主,與傳統數據分析有著較為顯著的差異。目前,R語言和Python語言已成為數據科學家較為普遍應用的數據分析工具。

  數據產品開發:「數據產品」在數據科學中具有特殊的含義——基於數據開發的產品的統稱。數據產品開發是數據科學的主要研究使命之一,也是數據科學區別於其他科學的重要區別。與傳統產品開發不同的是,數據產品開發具有以數據為中心、多樣性、層次性和增值性等特徵。數據產品開發能力也是數據科學家的主要競爭力之源。因此,數據科學的學習目的之一是提升自己的數據產品開發能力。

  4. 專業數據科學及專業中的數據科學

  數據科學是一門與領域知識和行業實踐高度交融的學科。從目前的研究現狀看,數據科學可以分為兩類:專業數據科學與專業中的數據科學。其中,「專業數據科學」是以獨立學科的形式存在,與其他傳統學科(如計算機科學、統計學、新聞學、社會學等)並列的一門新興科學;「專業中的數據科學」是指依存於某一專業領域中的大數據研究,其特點是與所屬專業的耦合度較高,難以直接移植到另一個專業領域,如數據新聞(Data Journalism)、材料數據科學(Materials Data Science)、大數據金融(Big Data Finance)、大數據社會、大數據倫理(Big Data Ethics)和大數據教育(Big Data Education)等。

  專業數據科學與專業中的數據科學的聯繫如下:專業數據科學聚集了不同專業中的數據科學中的共性理念、理論、方法、術語與工具;相對於專業中的數據科學,專業數據科學更具有共性和可移植性,並為不同專業中的數據科學研究奠定了理論基礎;專業中的數據科學代表的是不同專業中對數據科學的差異性認識和區別化應用。

  數據科學的研究熱點

  目前,數據科學的研究特點是對本質問題的系統研究少,然而對周邊問題的討論較多,可從以下四個方面進行分類分析。

  1. 周邊問題仍為研究熱點

  從文獻分布看,數據科學的研究主題可以分為兩類:核心問題和周邊問題。前者代表的是數據科學的基礎理論——數據科學特有的理念、理論、方法、技術、工具、應用及代表性實踐;後者代表的是數據科學的底層理論(理論基礎,如統計學、機器學習等)、上層應用(應用理論,如數據新聞、大數據金融、大數據社會、大數據生態系統等)以及相關研究(如雲計算、物聯網、移動計算等)。文獻數量和研究深度表明,現階段的數據科學研究熱點仍聚焦在周邊問題的討論之上,而對數據科學的核心問題的研究遠遠不夠。數據科學的周邊問題的研究主要集中在:

  大數據挑戰及數據科學的必要性。在大數據時代,挑戰和機會並存:挑戰不僅來自於數據量(Volume),而且還涉及其多個V特徵,如種類多(Variety)、速度要求高(Velocity)和價值密度低(Value)。因此,社會與科技的發展亟待一門新的學科——數據科學,並對大數據時代的新問題和新思路進行系統研究。

  數據科學對統計學和計算機科學的繼承與創新。一方面數據科學作為新的研究方向,進一步拓展了統計學和計算機科學與技術的研究範疇;另一方面,數據科學不僅繼承了統計學和計算機科學等基礎理論,而且對其進行了創新與發展,逐漸成為一門獨立學科。

  新技術在數據科學中的重要地位。雲計算、物聯網、移動計算等新技術的興起拓展了人的數據獲取、存儲和計算能力,促使大數據時代的到來,成為數據學科誕生的必要條件。同時,數據科學中需要重點引入Spark、Hadoop、NoSQL等新興技術,從而更好地面對大數據挑戰。新技術的應用意味著數據科學對數據及其管理的認識發生了根本性變化——不僅開始接受了數據的複雜性,而且數據管理的理念從傳統的完美主義者轉向現實主義,「數據在先,模式在後或無模式」的數據管理範式、BASE原則以及CAP理論等新理念已成為數據科學的基本共識。

  數據科學對特定領域的影響。大數據及其背後的數據科學在特定領域的應用是近幾年的熱門話題,尤其在生命科學、醫療保健、政府治理、教學教育和業務管理等領域的廣泛應用,出現了量化自我、數據新聞、大數據分析學等新的研究課題。

  數據科學領域的人才培養。與傳統科學領域不同的是,數據科學領域人才培養目的是培養學生的「以數據為中心的思考能力」。目前,相關研究主要涉及四個主題:數據科學課程的建設、相關課程的教學改革、跨學科型人才培養以及女性數據科學家的培養。從總體上看,數據科學的人才培養目的並不是數據工程師,而是數據科學家,尤其培養具有3C精神的數據科學家——原創性(Creative)設計、批判性(Critical)思考和好奇性(Curious)提問。

  2. 專業數據科學研究中相對熱門話題

  從研究視角看,數據科學的研究可以分為兩類:專業數據科學和專業中的數據科學。前者代表的是將數據科學當作一門獨立於傳統科學的新興學科來研究,強調的是其學科基礎性:後者代表的是將數據科學當作傳統學科的新研究方向和思維模式來研究,強調的是數據科學的學科交叉性。從目前的研究現狀看,專業數據科學研究的熱熱門話題有:

  DIKW模型。DIKW模型刻畫的是人類對數據的認識程度的轉變過程。通常認為,數據科學的研究任務是將數據轉換成信息(Information)、知識(Knowledge)或(和)智慧(Wisdom)。從數據到智慧的轉變過程是一種從不可預知到可預知的增值過程,即數據通過還原其真實發生的背景(Context)成為信息,信息賦予其內在含義(Meaning)之後成為知識,而知識通過理解轉變成智慧。

  數據分析學(Data Analytics)。大數據分析研究正在成為一門相對成熟的研究方向——數據分析學。需要注意的是,數據分析(Data Analysis)與數據分析學是兩個不同的概念:前者強調的是數據分析活動本身,而後者更加強調的是數據分析中的方法、技術和工具。目前,大數據分析研究中的熱門話題有兩個:一是大數據分析學,尤其是大數據分析算法和工具的開發;另一個面向特定領域的大數據分析,如面向物流與供應鏈管理、網絡安全以及醫療健康的大數據分析學。論文給出了數據分析的主要類型及常見錯誤。

  數據化(Datafication)。數據化是將客觀世界以及業務活動以數據的形式計量和記錄,形成大數據,以便進行後續的開發利用。除了物聯網和傳感器等公認的研究課題,量化自我(Quantified Self)也在成為數據化的熱門話題。數據化是大數據時代初級階段的主要關注的問題,隨著大數據的積澱,人們的研究焦點將從業務的數據化轉向數據的業務化,即研究重點將放在「基於數據定義和優化業務」之上。

  數據治理(Data Governance)。數據治理是指數據管理的管理。目前,相關研究主要集中在頂層設計、實現方法、參考框架以及如何保證數據管理的可持續性。此外,數據治理作為數據能力成熟度評估模型(Data Maturity Model)的關鍵過程域,重點關注的是如何通過數據治理提升組織數據管理能力的問題。DMM中定義的關鍵過程域「數據治理」包括3個關鍵過程:治理管理(Governance Management)、業務術語表(Business Glossary)和元數據管理(Metadata Management)。

  數據質量。大數據的質量與可用性之間內在聯繫的討論已成為現階段數據科學的熱點問題之一,主要研究議題集中在大數據中的質量問題會不會導致數據科學項目的根本性錯誤以及大數據時代背景下的數據可用性的挑戰及新研究問題。但是,傳統數據管理和數據科學對數據質量的關注點不同。傳統數據管理主要從數據內容視角關注質量問題,強調的是數據是否為乾淨數據(Clean Data)/髒數據(Dirty Data);數據科學主要從數據形態視角關注質量問題,重視的是數據是否為整齊數據(Tidy Data)/混亂數據(Messy Data)。所謂的整齊數據是指數據的形態可以直接支持算法和數據處理的要求。例如,著名的數據科學家Hadley Wickham 提出了整齊數據和數據整齊化處理(Data Tidying)的概念,並主張整齊數據應遵循三個基本原則: 每個觀察佔且僅佔一行、每個變量佔且僅佔一列以及每一類觀察單元構成一個關係表。

  除了上述問題之外,大數據的安全、大數據環境下的個人隱私保護、數據科學的項目管理及團隊建設、公眾數據科學(Citizen Data Science)等是目前在專業數據科學研究中討論較多的問題。

  3. 專業中的數據科學研究的相對熱門話題

  相對於專業數據科學,專業中的數據科學研究具有差異性和隱蔽性。差異性主要表現在各學科領域對數據科學的關注點和視角不同;隱蔽性是指專業中的數據科學研究往往間接地吸收和借鑑數據科學或類似於數據科學的思想,而並不明確採用或直接運用數據科學的規範術語。從目前的研究看,以下幾個專業中的數據科學研究尤為活躍:

  數據新聞(Data Journalism):新聞學領域的新研究方向之一,主要研究的是如何將大數據和數據科學的理念引入新聞領域,實現數據驅動型新聞(Data-driven Journalism)。

  工業大數據:主要研究如何將大數據應用於工業製造領域,進而實現工業製造的創新。比較有代表性的是德國工業4.0(Industrie 4.0)、美國工業網際網路(Industrial internet)和中國製造2025(Made in China)。

  消費大數據:與工業大數據不同的是,消費大數據更加關注的是產品生命周期的末端,即如何將已生產出的產品推銷給更多的用戶,主要包括精準營銷、用戶畫像(User Profiling)以及廣告推送。

  健康大數據:主要關注大數據在健康與醫療領域的廣泛應用,包括生命日誌(Life Logging)、醫療診斷、藥物開發、衛生保健等具體領域的應用。

  生物大數據:將大數據的理念、理論、方法、技術和工具應用於生物學領域,從而生物學從知識範轉向數據範式。

  社會大數據:綜合運用大數據和數據科學的理論,探討如何在大數據時代進行輿情分析、社會網絡分析以及熱點發現。

  機構大數據:如何將大數據和數據科學的思想引入企業、政府以及公益部門的日常業務、戰略規劃與可持續改進。

  智慧類應用:如何將大數據應用於智慧城市、智慧醫療、智慧養老、智慧交通、智慧教育等領域,發揮數據的驅動作用,進而實現更高的智慧。

  敏捷類應用:如何將大數據思維用於軟體開發、項目管理以及組織管理之中,進而實現敏捷軟體開發、敏捷項目管理和敏捷組織,提升其應變能力和可持續發展能力。

  4. 大數據生態系統研究中相對熱門話題

  數據科學生態系統(Big Data Ecosystem)是指包括基礎設施、支撐技術、工具與平臺、項目管理以及其他外部影響因素在內的各種組成要素構成的完整系統。例如,大數據全景圖(Big Data Landscape)較為全面地展示了大數據生態系統中的主要機構及產品。現有相關研究主要從組成要素及其相互關係兩個方面進行。就目前而言,相關研究中的熱門話題集中在:

  基礎設施:主要關注云計算、物聯網、移動計算、社交媒體在內的基礎設施對數據科學的影響以及數據科學中如何充分利用上述基礎設施。

  支撐技術:建立在基礎設施上的關鍵技術,現有研究主要討論機器學習、統計學、批處理、流計算、圖計算、交互計算、NoSQL、NewSQL和關係雲等支撐技術在數據科學的應用;

  工具與平臺:支撐技術的具體實現,目前的主要研究熱點集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具與平臺在數據科學中的應用;

  項目管理:涉及數據科學項目的範圍、時間、成本、質量、風險、人力資源、溝通、採購及系統管理等9個方面的管理;

  環境因素:大數據時代對法律、政策、制度、文化、道德、倫理產生的影響與新需求。其中,大數據權屬立法研究主要討論大數據權屬立法的必要性、可行性以及對策建議。從大數據的重要性的認識看,大數據不再是一種資源,更是一種資產。大數據權屬的立法已經成為大數據時代信息資源開發利用的必要條件。

  數據科學研究的爭議與挑戰

  在不同的學科領域,大數據時代的科學研究所面臨問題、挑戰和關注點不同。從計算機科學視角看,新的數據處理需求已經超出了現有的存儲與計算能力;從統計學視角看,大數據挑戰在於樣本的規模接近總體時,如何直接在總體上進行統計分析;從機器學習角度看,訓練樣本集接近測試樣本集時,如何用簡單模型及模型集成方法實現較高的智能水平;從數據分析角度看,如何從海量數據中快速洞察有價值的數據,並通過試驗設計和模擬仿真,實現數據到智慧的轉變。但是,從數據科學視角看,其研究中的常見爭議及背後的研究挑戰可以歸納為10個方面:

  1. 思維模式——知識範式還是數據範式

  在傳統科學研究中,由於數據的獲得、存儲和計算能力所限,人們往往採取的是知識範式(「數據→知識→問題」的範式),從數據,尤其是樣本數據中提煉出知識之後,用知識去解決現實問題。大數據時代的到來及數據科學出現為人們提供了另一種研究思路,即數據範式(「數據→問題」範式),在尚未從數據中提煉出知識的前提下,用數據直接解決問題。數據範式強調的是在尚未將數據轉換為知識的前提下,直接用數據去解決現實世界中的問題。以機器翻譯為例,傳統機器翻譯方法是基於自然語言理解,準確說是基於語言學和統計學的知識進行,屬於知識範式的範疇。但是,這種傳統機器翻譯效果一直並不理想,且尚無突破性進展。然而,近幾年興起的機器翻譯方法改變了傳統機器翻譯的思維模式,採取的是「數據範式」——直接從歷史跨語言語料庫中快速洞見所需結果。上世紀五十年以來的IBM 機器翻譯的緩慢發展以及2000以後的Google機器翻譯的迅速興起也反映了這種思維模式的變革。

  與傳統認識中的「知識就是力量」類似,在大數據時代,數據也成為一種重要力量。如何組織、挖掘和利用數據成為現代組織的核心競爭力。目前,思維模式變革的主要挑戰在於如何完成以數據為中心的設計、數據驅動型決策和數據密集型應用。

  2. 數據的認識——主動屬性還是被動屬性

  在傳統科學研究中,數據一直被當作是被動的東西,人們主要從被動屬性方面去對待數據。以關係資料庫為例,人們先定義關係模式,然後將數據按照關係模式的要求進行強制轉換後放入資料庫中,完成數據挖掘和分析任務。

  在大數據思維模式的背後,一個根本性的變革在於人們開始意識到數據的主動屬性——不再簡單認為數據是一種死的、被動的東西,而更加重視數據的積極作者用,提出了數據在先、模式在後或無模式、讓數據說話、數據驅動型應用、數據業務化、數據洞察和以數據為中心的思維模式等新術語。

  因此,如何正確認識數據及如何充分發揮數據的主動屬性成為數據科學的重要研究任務。目前,相關研究的主要挑戰在於如何實現數據洞察、以數據為中心的設計、敏捷軟體開發、數據驅動型決策以及智慧類應用研發。

  3. 智能的認識——更好的算法還是更多的數據

  在傳統學術研究中,智能主要來自於算法,尤其是複雜的算法。算法的複雜度隨著智能水平得到提升。例如,KNN算法是機器學習中常用的分類算法,其算法思想非常簡單。人們根據不同應用場景提出多種改進或演化方案,雖然智能水平有所提高,但隨之而來的問題是算法複雜度的提升。但是,數據範式表明,數據也可以直接用於解決問題,引發了一場關於「更多數據還是更好模型(More data or Better Model debate)」的討論,經過這場大討論,人們得出了相對一致的結論——「更多數據+簡單算法=最好的模型(more data+ simple Algorithem= the best model)」。

  因此,如何設計出簡單高效的算法以及算法的集成應用成為數據科學的重要挑戰。目前,關於智能的實現方式的挑戰在於算法設計、算法集成、維度災難和深度學習。

  4. 研發瓶頸——數據密集型還是計算密集型

  傳統的軟體開發與算法設計的重點是解決計算密集型的問題,計算是研究難點和瓶頸。但是,隨著大規模分布式計算,尤其是雲計算的普及,計算不再是人們需要解決的首要瓶頸。因此,軟體開發與算法設計的主要矛盾從計算轉向數據,出現了數據密集型應用。在數據密集型應用中,數據是主要關注點與瓶頸。數據密集型問題的研究將進一步推動以數據為中心的研究範式。

  目前,數據密集型應用的主要挑戰在於副本數據技術、物化視圖、計算的本地化、數據模型的多樣化和數據一致性保障。

  5. 數據準備——數據預處理還是數據加工

  在傳統數據研究中,數據準備主要強調的是將複雜數據轉換為簡單數據,對髒數據進行清洗處理後得到乾淨數據,從而防止「垃圾進垃圾出」現象的出現,主要涉及重複數據的過濾、錯誤數據的識別以及缺失數據的處理。可見,數據預處理主要關注的是數據的質量維度的問題。但是,由於從小數據到大數據之間存在質量湧現現象——個別小數據的質量問題(如缺失數據、錯誤數據或重複數據)不影響整個大數據的可用性,大數據處理中關注的並非為傳統意義上的數據預處理,而其關注點轉向另一個重要課題——數據加工。

  在數據科學中,數據加工是指數據的創造性增值過程,包括兩種表現形式:數據打磨(data wrangling)或數據改寫(data munging)。與數據預處理不同的是,數據加工更加強調的是如何將數據科學家的3C精神融入數據處理工作之中,從而達到數據增值的目的。因此,數據加工並不僅限於技術工作的範疇,而且還涉及到藝術層面的創造,如需要採用數據柔術(Data Jujitsu)和整齊化處理(Data Tidying)的方法進行數據加工處理。

  數據加工概念的提出意味著人們對數據複雜性的認識發生了重要的變革,即開始接受數據的複雜性特徵,認為複雜性是數據本身的固有特徵。與此同時,數據準備的關注點轉向另一個重要問題,即如何發揮人的增值作用。目前,數據加工的研究主要挑戰集中在:

  數據打磨或數據改寫理念的提出:如何在數據科學項目中充分發揮數據科學家的作用,進而實現數據處理活動的增值效果;

  數據打磨或數據改寫技術的實現:基於Python、R以及大數據技術實現數據加工的理念與方法;

  數據柔術:如何有藝術性地將數據轉換為產品;

  整齊化處理:將數據轉換為大數據算法和大數據技術能夠直接處理的形態。

  6. 服務質量——精準度還是用戶體驗

  查全率和查準率是傳統數據研究中評價服務質量的兩個核心指標。但是,當總體為未知、數據量迅速增長、數據種類不斷變化和數據處理速度要求高時,查全率和查準率的追求成為不可能。因此,在大數據環境下,更加重視的是用戶體驗,而不是查全率和查準率。在用戶體驗的評價中,響應速度是最為重要指標之一。Aberdeen Group的調查發現「頁面的顯示速度每延遲1秒,網站訪問量就會降低11%,從而導致營業額減少7%,顧客滿意度下降16%」Google發現「響應時間每延遲0.5秒,查詢數將會減少20%」;Amazon發現「響應時間延遲0.1秒,營業額下降1%。

  目前,用戶體驗研究的主要挑戰在於如何確保較快的響應速度、設計人機互動、實現服務虛擬化以及提供按需服務。

  7. 數據分析——解釋性分析還是預測性分析

  理論完美主義者認為只有掌握了因果關係才能正確認識和有效利用客觀現象。傳統數據分析往往是理論完美主義的指導下完成,試圖通過對歷史數據進行深度分析之後,達到深刻理解自我或解釋客觀現象的目的,側重的是因果分析,即以解釋型分析為主。

  在大數據環境下,數據分析的重點從因果分析轉向相關分析,更加重視的是事物之間的相關關係。然而,在這種變革的背後是數據分析指導思想的根本性變化——從理論完美主義轉向現實實用主義,側重於數據分析的實用性,更加重視對未來的預測,即預測型分析。相對於解釋性分析,預測性分析具有更強的時效性,可以迅速洞見事物之間的內在聯繫以及其商業價值。

  因此,數據科學的一個重要特點是預測性分析和解釋性分析的分離。預測性分析主要由數據科學家完成,一般不需要領域知識;解釋性分析則發生在預測性分析之後,數據科學家將預測性分析中的洞察結果轉交給領域專家,由領域專家負責完成解釋性分析。可見,數據科學家一般不做解釋性分析,或者說,解釋性分析往往超出數據科學家的能力範疇,需要由具體領域的專家完成。預測性分析和解釋性分析的分離也是數據科學家和領域專家之間協同工作的主要實現方式。

  大數據分析的主要挑戰源自於數據的複雜性、噪聲數據的分析、數據的依賴度。提出面向大數據分析的新方法、技術與工具,尤其是大數據分析方法的動態演化、實時計算和彈性計算成為相關研究中亟待解決的問題。

  8. 算法評價——複雜度還是可擴展性

  複雜度,尤其是時間複雜度和空間複雜度,是傳統算法的兩個重要評價指標 ,分別代表的是算法的運行所需的時間成本和內存成本。但是,在大數據環境下,算法設計的一個重要特點是上層需求和底層數據處於動態變化之中,因此,算法應支持按需服務和數據驅動型應用。例如,谷歌於2008年推出預測流感疫情工具——谷歌流感趨勢(Google Flu Trends,GFT),及時準確預測了當時H1N1在全美範圍的傳播,但是,2013年1月的估計比實際數據高兩倍,主要原因之一是缺乏算法動態性(Algorithm Dynamics)和用戶使用行為習慣的變化。

  在大數據時代,算法的可擴展性主要代表的是算法的可伸縮能力。目前,相關研究的主要挑戰在於低維度算法在高維數據中的應用、維度災難、數據規約以及數據密集型應用。  

9. 研究範式——第三範式還是第四範式

  圖靈獎獲得者Jim Gray 曾提出,人類科學研究活動已經歷過三種不同範式的演變過程(原始社會的「實驗科學範式」、以模型和歸納為特徵的「理論科學範式」和以模擬仿真為特徵的「計算科學範式」),目前正在從「計算科學範式」轉向「數據密集型科學發現範式(Data-intensive Scientific Discovery)」。第四範式,即「數據密集型科學發現範式」的主要特點是科學研究人員只需要從大數據中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數據時代,天文學家的研究方式發生了新的變化——其主要研究任務變為從海量資料庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。

  第四範式的提出反映了人們對世界的固有認識發生了根本性的變化——從二元認識(精神世界/物理世界)轉向三元認識(精神世界/數據世界/物理世界),即在原有的「精神世界」和「物理世界」之間出現了一個新的世界——數據世界。因此,科學研究者往往直接面對的是數據世界,通過對數據世界的研究達到認識和改造物理世界的目的。對於科學研究者而言,數據世界中已積累的「歷史數據」往往足以完成一項科研任務,數據科學家不需要親自到物理世界採用問卷和訪談的方法收集數據——「調研數據」。同時,與「調研數據」相比,「歷史數據」更具有客觀性和可信度。目前,相關研究主要挑戰在於第三範式與第四範式的區別、第四範式的內涵、理論深入研究以及領域應用。

  10. 人才培養——數據工程師還是數據科學家

  傳統科學領域中,數據相關的人才培養的目標定位於數據工程師——從事數據的組織、管理、備份、恢復工作的人才。但是,在大數據時代,數據工程師無法勝任數據科學的研究任務,需要的是一類全新的人才——數據科學家。二者的主要區別在於:數據工程師負責的是數據的管理,而數據科學家擅長的是基於數據的管理,如基於數據的決策、產品開發、業務定義等。

  目前,關於數據科學家的研究及人才培養的挑戰在於正確分析崗位職責與用人需求、數據科學家的素質與能力要求、數據科學項目管理以及數據科學家的職業規劃。

  數據科學研究的發展趨勢

  在梳理研究熱點、爭議及挑戰的基礎上,我們需要進一步分析數據科學研究的發展趨勢。從整體上講,數據科學研究的主要發展趨勢可以總結為:

  「思維模式的多樣化和研究範式的變遷」是根本趨勢。其中,思維模式的多樣化主要體現在數據範式的興起以及其與傳統的知識範式並存;研究範式的變遷是指科學研究範式從「計算科學範式」轉向「數據密集型科學發現範式」,進而改變人們對世界的二元認識,相關研究重點將轉變為通過數據世界的研究認識和改造物理世界。思維模式的多樣化和研究範式的變遷對數據科學研究產生深遠影響,將改變人們對數據的認識視角、開發動因和利用方式。

  「專業中的數據科學」是研究熱點。大數據時代,各專業領域面臨的主要挑戰在於如何解決新興數據與傳統知識之間的矛盾,即數據已經變了,但知識沒有更新,各學科中的傳統知識無法解決大數據帶來的新問題。因此,大數據時代的機遇與挑戰即將成為各學科領域研究的新方向,也就是說,專業中的數據科學成為相關研究的熱點問題。

  「專業數據科學」是研究難點。「專業中的數據科學」從不同專業視角解讀數據科學,存在研究興趣點和研究發現(如理論、方法、技術、工具和典型實踐等)的差異性,甚至可能出現相互重疊與衝突的現象。在這種背景下,如何將分散不同學科領域中的共性問題及通用結論提煉成一門新的學科——「專業數據科學」,進而為各個學科領域的研究提供新的理論基礎是未來研究的難點所在。

  「數據生態系統的建設」是終極問題。數據學科是一門實踐性極強的學科,其研究和應用均不能脫離具體領域。數據科學的研究和應用將會超出技術範疇,還涉及到發展戰略、基礎設施、人力資源、政策、法律與文化環境等諸多因素。因此,數據科學需要解決的終極問題是將大數據放在一個完整的生態系統之中去認識與利用,從生態系統層次統籌和規劃,避免片面認識數據問題,進而推動數據、能源和物質之間的相互轉化。

  1. 預測模型及相關分析的重視

  數據科學的研究責任在於預測模型而不在於解釋模型。以預測模型為中心的數據科學更偏向於實用主義,更加關注的是「對未來的預測能力」,而不是「對過去的解釋水平」。因此,數據科學的研究更加重視的是「現在能為未來做什麼?」,而不是「過去對現在的影響是什麼?」

  數據科學中重視預測模型而不是解釋模型的另一個現實基礎在於「人們往往先發現規律,後發現原因」。從方法論層次看,以發現預測模型為目的的研究往往提倡的是假設演繹(Hypothetico-Deductive)研究範式,先提出研究假設,然後採用試驗設計和演繹分析方法論證研究假設成立與否。然而,一個好的研究假設的提出需要研究者,尤其是數據科學家的特有素質——創造力、批判性思考和好奇心。

  與解釋模型不同的是,預測模型更加重視的是模型的簡單性,而不是複雜性,主要原因有兩個,一是預測模型對計算時間的要求較高,甚至需要進行實時分析,然而簡單模型的計算效率往往高於複雜模型;二是經驗證明,正如奧卡姆剃刀定律(Occam's razor)所言,在其他條件相同的情況下,就預測而言,簡單模型比複雜模型更可靠。

  預測模型往往建立在相關關係,而不是因果關係。通常,相關關係可以幫助我們預測未來,而因果關係有助於進一步理解和控制未來。從表面上看,預測模型依賴的是相關關係的分析,但在本質上屬於一種數據驅動型的「數據範式」,與基於知識範式的解釋模型有著本質性的區別。

  2. 模型集成及元分析的興起

  傳統數據分析的通用做法是用一個數據模型即可解決一項數據處理任務。在這種以單一模型為基礎的數據分析中,為了提升數據處理的信度和效度,需要對模型進行優化和調整,導致數據模型複雜度的增長。也就是說,傳統數據分析中的數據模型有兩個基本特徵:單一性和複雜性。

  但是,在大數據背景下,人們很難找到一個能夠處理動態且異構數據的單一模型,因此,開始尋求多個模型的集成應用。與傳統數據分析不同的是,大數據分析中所涉及的模型往往是極其簡單,即大數據分析中的數據模型也有兩個基本特徵:多樣性和簡單性。

  可見,模型集成成為數據科學研究的一個新問題。通常,大數據分析採用多個較為簡單的數據模型,將數據分析任務分解成分散在多個層次,多個活動的小任務,並通過簡單模型及其集成方法達到最終數據處理目的。例如,在深度學習之中,由多處理層組成的計算模型可通過多層抽象來學習數據表徵。

  模型集成的背後是元分析的興起。傳統統計學重視的基於零次或一次數據的基本分析,包括描述性統計、參數估計和假設檢驗。在大數據環境下,二次數據和三次數據的分析顯得更為重要,數據分析工作往往在眾多小模型的分析結果的基礎上進行二次分析,即元分析。

  3. 數據在先,模式在後或無模式的出現

  傳統數據管理,尤其是關係型資料庫中採用的是「模式在先、數據在後(Schema First,Data Later)」的建設模式,即先定義模式,然後嚴格按照模式要求存儲和管理數據;當需要調整模式時,不僅需要重定義數據結構,而且還需要修改上層應用程式。然而,在大數據環境下,無法沿用「模式在先、數據在後(Schema First,Data Later)」的建設模式,主要原因有兩個:一是數據模式可能為不斷變化或根本不存在;二是按照預定模式進行數據的存儲和處理時容易導致信息丟失。

  因此,「數據在先,模式在後或無模式(Data First, Schema Later or Never)」成為數據產品設計的主要趨勢。以NoSQL為例,採用非常簡單的鍵值數據模型,通過模式在後(Schema Later)或無模式(Schemaless)的方式確保數據管理系統的敏捷性。當然,模式在後或無模式也會帶來新問題,如限制數據管理系統的處理能力及加大應用系統的開發難度。

  在「數據在先,模式在後或無模式」的興起背後是信息系統建設模式的歷史性變革——從先行支付(Pay-before-you-go)轉向現收現付(Pay-as-you-go)的建設模式。信息系統建設中的先行支付模式的特點是根據特定時間點的需求定義信息系統,信息系統一旦開發完畢,在一定時間內相對穩定。先行支付模式的缺點在於無法適應底層數據的複雜性和上層應用的動態變化。 

 4. 數據一致性及現實主義的回歸

  在傳統數據管理中,對數據一致性的要求是接近於完美主義——強一致性,即任何時候從任何地方讀出的任何數據均為正確數據。為了保證數據的一致性,在關係資料庫中引入了事務、兩端封鎖協議和兩端提交協議等方法或機制。強一致性的優點在於不僅可以保證數據質量,而且可以降低後續計算的成本。但是,強一致性不符合大數據時代的數據管理要求——高擴展性、高性能、高容錯性、高伸縮性和高經濟性。

  因此,NoSQL等新興數據管理技術從根本上改變了人們對數據一致性的傳統認識,主要表現在提出CAP理論和BASE原則等新興數據管理理念,引入弱一致性、最終一致性等概念,並提供了不同的解決方案,如更新一致性、讀寫一致性和會話一致性等。可見,在數據科學研究中,數據的一致性出現了多樣化趨勢,即根據不同應用場景,有針對性地選擇具體的一致性及其實現方法。

  在數據一致性的多樣化認識的轉變反映了們對數據數據管理目標的根本轉折——從完美主義回歸至現實主義。以CAP理論為例,人們對分布式系統的設計目的發生了改變,不再追求強一致性(Consistency)、可用性(Availability)和分區容錯性(Partition Tolerance)三個指標的同時最優,反而意識到了三者中的任何兩個特徵的保證(或爭取)可能導致另一個特徵的損失(或放棄)。例如,Cassadra和Dynamo 為了爭取可用性和分區容錯性而放棄了一致性。

  5. 多副本技術及靠近數據原則的應用

  傳統關係資料庫更加看重的是數據冗餘的負面影響——冗餘數據導致的數據一致性保障成本較高。與此不同的是,數據科學中更加重視的是冗餘數據的積極作用,即冗餘數據在負載均衡、災難恢復和完整性檢驗中的積極作用。同時,還通過引入多副本技術和物化視圖的方法豐富冗餘數據的存在形式,縮短用戶請求的響應時間,確保了良好用戶體驗。以Google搜索為例,採用緩存和照相(images)技術,重複利用搜索結果。

  同時,在計算和應用系統的部署上,改變傳統的「數據靠近計算的原則」,反而開始採取了「計算靠近數據的原則」。例如,在Spark系統提供了操作getPreferredLocations(),支持RDD的本地化計算;在MapReduce中,儘量將Map任務調度至存放副本數據數據的機器上。可見,多副本技術和靠近數據原則均表明傳統的「以計算為中心」的產品部署模式正向「以數據為中心」的產品部署模式的轉變。

  6. 多樣化技術及一體化應用並存

  傳統關係資料庫類產品雖多,但標準化程度較高,如均採用關係模型和SQL語言。但是,新興的NoSQL資料庫代表的不是一種特定技術,而是包括基於不同數據模型和查詢接口的多種數據管理技術,如Key-Value、Key-Document和Key-Column和圖存儲模型等。可見,在技術實現層次上,新興技術表現出了多樣化發展及高度專業化的趨勢,即一項新技術專注於一個問題、一項功能或一種應用場景。例如,MapReduce、Tez、Storm、Druid等技術的定位相對單一,分別專注於分布式批處理、Map/Reduce過程的拆分與組合、實時處理和面向OLAP的列存儲等較為單一功能的實現。當然,Spark、YARN等較為通用性技術的出現也為技術層次上的高度專業化趨勢提供了一種補充的解決方案。

  同時,在傳統數據計算/管理環境中,不同數據產品的界限是比較清楚的,所依賴的技術也是單一的,要麼關係模型,要麼層次或網狀模型。但是,大數據時代的到來導致不同計算/管理技術的高度融合,出現一些支持多種數據計算/管理技術集成產品,甚至顯現出了軟硬體一體化或嵌入式應用趨勢。例如,Oracle大數據解決方案(Big Data Appliance)集成了HDFS、Oracle NoSQL、Cloudera CDH、數據倉庫、內存計算和分析型應用。

  可見,在數據科學研究中一體化應用和專業化趨勢並存。在產品與服務的實現層次上,一體化趨勢越來越顯著,一種產品的實現往往涉及多種不同技術的集成應用;在技術本身的實現層面,專業化趨勢成為主流,一項新技術專注於解決相對單一問題。  

7.  簡單計算及實用主義佔據主導地位

  「簡單」是數據科學的基本原則之一,代表著採用相對簡單的技術來應對複雜的基礎數據及不斷變化的應用場景。與此不同的是,傳統數據管理中採用的技術實現往往較為複雜。例如,傳統關係資料庫技術採用Join運算實現了多表查詢等複雜操作。但是,這些複雜操作反而成為了關係資料庫在提升數據管理能力的一個重要瓶頸,如Join操作要求被處理數據不能分布在不同節點。為此,NoSQL放棄了Join等複雜處理操作,突出了簡單計算較高的效率和效果。

  從複雜計算到簡單計算的轉變表明人們對數據產品開發的理念從完美主義回歸至實用主義。數據科學是一門實踐性很強的學科,現階段其研究主要關注的是實用性,即解決當前社會亟待解決的實際問題,而不是複雜計算的實現。

  8. 數據產品開發及數據科學的嵌入式應用

  作為數據科學的特有研究內容,數據產品開發將成為未來研究重要課題。在數據科學中,所謂的數據產品(Data Products)並不限於「數據形態」的產品,而泛指「能夠通過數據來幫助用戶實現其某一個(些)目標的產品」。可見,數據產品是指在數據科學項目中形成,能夠被人、計算機以及其他軟硬體系統消費、調用或使用,並滿足他們(它們)某種需求的任何產品,包括數據集、文檔、知識庫、應用系統、硬體系統、服務、洞見、決策及它們的各種組合。以Google眼鏡為例,雖然其產品形態上看似乎是「眼鏡類產品」,但從其主要競爭力之源看,確實屬於「數據產品」。

  數據產品開發主要關注的是如何將數據科學的理論融入傳統產品開發實踐之中,進而實現產品的更新換代和用戶體驗的提升。未來,數據產品開發將嵌入至傳統產品的研發之中,二者的界限越來越模糊。如何將數據科學家的創造性設計、批判性思考和好奇性提問的職業素質融入產品研發之中,從而實現傳統產品的增值和核心競爭力的提升是未來數據產品開發的難點所在。在此背景下,以數據為中心的設計思維將會是數據產品開發的主要思維模式。同時,良好的用戶體驗將成為產品開發的主要評價指標之一。

  數據產品開發的興起將推動數據科學的嵌入式應用。數據科學將作為傳統產品的創新點、增值點和競爭力之源,成為產品開發的必要環節,數據科學與領域實呈現出了高度融合的趨勢。

  9. 專家及公眾數據科學的興起

  在傳統數據分析中,專家,尤其是領域專家是知識的主要來源之一。例如,本體的建設需要由領域專家完成;專家系統中的知識庫建立在專家的知識之上。但是,在大數據時代,專家餘(ProAm)成為數據處理項目的主要貢獻者。與專家不同的是,專家餘是指其能力在專家與業務之間的準專家型人群。近年來,眾包(包括眾創、眾籌等)成為大數據時代的重要數據處理模式,其主要參與者均為專家餘,而並非是嚴格意義上的專家或業餘人群。例如,與傳統意義上的專家編寫的百科全書不同,Wikipedia是由來自各領域的專家餘共同完成的知識庫。

  眾包的廣泛應用為傳統知識庫建設中的數據量與形式化程度之間的矛盾提供了新的解決方案。在傳統知識庫建設中,要麼形式化程度高,但數據量不夠,反之亦然。眾包數據處理模式的出現使位於數據鏈長尾的專家餘成為知識的主要貢獻者和積極參與者。從協同方式看,眾包中大規模協同可以分為機器協同、人機協同和人際協同三種表現形式。其中,人機協同是數據科學研究的重要課題。例如,混合智能——人與機器的互補型智能正成為人工智慧的新課題。再如,語義Web技術的出現為人機協同提供了一種重要的技術支撐。

  公眾數據科學(Citizen Data Science)是專家餘和大規模協同在數據科學領域的應用的主要表現形式之一。所謂的公眾數據科學屬於公眾科學(Citizen Science),是指公眾參與的數據科學,與數據科學(Data Science)的區別在於參與研究者以非職業的興趣愛好者和志願者為主。也就是說,公眾數據科學是一種基於眾包和專家餘的準數據科學,也是在數據科學成為一門廣為接受的正式科學之前的過渡型理論。

  10. 數據科學家與人才培養的探討

  數據科學項目任務往往是富有挑戰性的工作,每一項任務都是獨一無二的,對工作人員的要求超出數據工程師的能力範疇,亟待由一類新型人才——數據科學家來承擔。從Drew Convey的數據科學維恩圖可看出,數據科學具有三個基本要素,即理論(統計學與數學知識)、實踐(領域實戰)和精神(黑客精神)。可見,數據科學與傳統科學的人才需求不同,前者不僅要求傳統科學中的理論與實踐,而且還需要有數據科學家的「精神」素質,即原創性設計、批判性思考和好奇心地提問的能力。

  因此,如何培養「理論、實踐和精神為一體」的綜合性人才是未來研究的重要課題。相關研究主要以下四個層面開展:

  辦學層次,如何培養本科、碩士、博士層次的數據科學人才。目前,國內和國外對數據科學人才培養層次的關注點不同,分別關注的是本科層次和碩士層次人才的培養,但對博士層次的人才的討論相對少;

  專業設置:是否需要設立數據科學專業?例如,國內主要討論的是如何建設「數據科學與大數據技術」專業。

  學科方向的選擇:如何將數據科學與傳統學科向結合,確定數據科學的學科地位;

  課程改革:如何完成傳統課程的改革以及數據科學新課程的創造性設計。 

 結論

  數據科學是一門極其特殊的新興學科,具有與其他學科不同的新特徵,例如思維模式的轉變(從數據範式到知識範式的轉變)、對數據認識的變化(從數據的被動屬性到主動屬性的轉移)、指導思想的變化(實用主義和現實主義的回歸)、以數據產品開發為主要目的(數據成為傳統產品的主要創新點)、專業數據科學與專業中的數據科學的差異性以及數據科學的三要素(不僅涉及理論和實踐,而且還包括精神素質)。因此,數據科學的研究不能簡單照搬傳統學科的經驗,應尊重其特殊使命和屬性。為此,我們對數據科學研究者提出如下幾點建議:

  正確認識數據科學。正確認識數據科學的內涵是有效學習和規範研究數據科學的前提。目前,部分學者誤以為「數據科學=統計學+機器學習」,過於強調統計學和機器學習,而忽略了數據科學本身。其實,統計學和機器學習是數據科學的理論基礎,而並非其核心內容。數據科學具有區別與其他學科的獨特的研究使命、研究視角、思維模式、做事原則和知識體系。如果脫離了這些獨到之處,數據科學的學習和研究將發生方向性的誤讀和本質性的扭曲。

  突出數據的主動屬性。數據科學的一個重要貢獻或價值就在於改變了人們對數據的研究方向,即從被動屬性轉向主動屬性。一直以來,人們習慣性地把數據當做被動或死的東西,關注的是「你能對數據做什麼?」,如模式定義,結構化處理和預處理,都試圖將複雜數據轉換成簡單數據。但是,大數據時代更加關注的是數據的另一個屬性——主動屬性,強調的是「數據能給你帶來什麼?」,如數據驅動型應用、以數據為中心的設計、讓數據說話、數據洞見等,將複雜性認為數據的自然屬性,開始接受數據的複雜性。研究方向從數據的被動屬性到主動屬性的轉變是學習和研究這一門新學科的基本出發點。如果忽略了這一點,容易將數據科學當成數據工程來學習和研究。

  平衡數據科學的三個要素。與其他課程,尤其是技術類課程不同的是,數據科學既包括理論和實踐,更需要精神——原創性設計、批判性思考和好奇性提問的素質。因此,數據科學的學習中不僅要強調理論聯繫實際,而且還不能忽略對數據科學家精神的培養。積極參與數據科學相關的開源項目和競賽類項目是兼顧數據科學的三個基本要素的兩個重要捷徑。

  側重培養信心和興趣,學會跟蹤數據科學的最新動態。一方面,數據科學建立在統計學和機器學習等基礎理論之上,學習門檻較高,因此,培育自己對數據科學的學習信心和興趣尤為重要;另一方面,數據科學仍屬於一門快速發展的新興學科,其理念、理論、方法、技術和工具在不斷變化之中,要求我們必須掌握動態跟蹤數據科學領域的國際頂級會議、重要學術期刊、主要研究機構、代表性人物和標誌性實踐的能力。

  重視試驗設計及假設檢驗。試驗設計是數據科學項目的重要活動之一。數據科學家應根據數據科學項目的研究目的,有創造性地提出研究假設,並設計對應的試驗,最終通過這些試驗達到假設檢驗的目的。以華盛頓大學和加州大學伯克利分校的數據科學專業人才培養方案為例,分別開出了課程《應用統計與試驗設計(Applied Statistics & Experimental Design)和《試驗與因果分析(Experiments and Causality)》,重點培養學生的試驗設計和假設檢驗的能力。

  不要忽視因果分析。在大數據時代,很多人誤以為「因果分析不再重要了」,並把研究重點僅限在相關分析。相關分析只能用於識別事物之間的關聯關係,而無法指導如何優化和幹預這種相關關係。因此,當相關關係發生變化或需要人為幹預相關關係時,必須進一步研究其因果關係。在數據科學項目中,數據科學家的關注重點是發現各種可能的關聯關係,而關聯關係的產生機制和優化方法需要由領域專家完成。加州大學伯克利分校和哥倫比亞大學分別開設《實驗與因果分析(Experiments and Causality)》和《因果推理與數據科學(Causal Inference for Data Science)》,均反映了因果分析在數據科學中的重要地位。

  以數據產品開發為主要抓手。數據產品開發是學習與研究數據科學的主要抓手之一。需要注意的是,數據產品不限於數據形態的產品,任何用數據來幫助目標用戶實現其某一目的的產品都可視為數據產品。數據是未來產品的創新點和增值點。因此,向數據產品的轉變是傳統產品的重要發展趨勢。以Google眼鏡為例,其創新源自數據,而不在於其外觀和選材,以數據為中心的產品設計才是該產品與傳統的眼鏡類產品的根本區別。可見,數據產品開發是數據科學的最為直接且最為普遍的應用。

  準確定位人才培養目的。數據科學的學習和人才培養的目的是培養數據科學家而不是數據工程師。二者的區別在於,數據工程師負責的是「數據本身的管理」,而數據科學家的主要職責是「基於數據的管理」,包括基於數據的分析、決策、流程定義與再造、產品設計和服務提供等。因此,相對於數據工程師,數據科學家對人才的要求更高,不僅要有理論功底和實踐經驗,而且還要求有精神素質,即創造性設計、批判性思考和好奇性提問的能力。

第三十屆CIO班招生 法國布雷斯特商學院碩士班招生 北達軟EXIN網絡空間與IT安全基礎認證培訓 北達軟EXIN DevOps Professional認證培訓

責編:zhangxuefeng

相關焦點

  • 大數據時代:十大最熱門的大數據技術 - 大數據_CIO時代網 - CIO...
    隨著大數據分析市場快速滲透到各行各業,哪些大數據技術是剛需?哪些技術有極大的潛在價值?根據弗雷斯特研究公司發布的指數,這裡給出最熱的十個大數據技術。   1、預測分析   預測分析是一種統計或數據挖掘解決方案,包含可在結構化和非結構化數據中使用以確定未來結果的算法和技術。
  • 12個頂級大數據工具 - 大數據_CIO時代網 - CIO時代—新技術、新...
    在大數據技術作為概念和業務戰略出現的十年中,湧現了執行各種任務和流程的數千種工具。而推出這些工具的提供商都承諾可以為企業節省時間和成本,並發現能夠讓企業獲利的商業洞察力。顯然,大數據分析工具的市場正在不斷增長。  許多大數據分析工具最初像大數據軟體框架Hadoop一樣都是開源項目,但商業實體迅速湧現,為開源產品提供了新工具或商業的支持和開發。
  • 數據科學研究的現狀與趨勢全解
    目前,大數據已受到各學科領域的高度關注,成為包括計算機科學和統計學在內的多個學科領域的新研究方向,表現出不同專業領域中的數據研究相互高度融合的趨勢,進而即將獨立出一門新興學科——數據科學。同時,大數據研究中仍存在一些誤區或曲解,如片面追求數據規模、過於強調計算架構和算法、過度依賴分析工具、忽視數據重用、混淆數據科學與大數據的概念以及全盤否定大數據等。
  • 中傳影視王鑫:大數據在傳媒領域的應用 - 學院活動_CIO時代網...
    搶沙發 2017-05-11 17:11:01  來源:CIO時代網 摘要:中國傳媒大學信息工程學院副教授、兼任中傳影視大數據研究院技術負責人、中國商業聯合會數據分析專業委員會特聘講師王鑫作為本期活動的特邀講師
  • CIO時代APP微講座:青島大學李勁華——大數據與生物信息學的應用...
    2月20日,青島大學數據科學與軟體工程學院教授、博士、副院長李勁華在CIO時代APP微講座欄目作了題為《大數據與生物信息學的應用研究與實踐》的主題分享,他從大數據領域背景和有關科研工作(大數據在生物信息學方面的教學和研究工作)兩大方面展開敘述。
  • 愛分析·中國智能通訊雲行業趨勢報告 - IT業界_CIO時代網 - CIO...
    在營銷側,坐席人員記錄的潛在客戶信息,與企業主數據不連通,信息通過線下方式保存,數據管理和數據分析能力較弱;加之,客戶觸達渠道增多,電銷、在線營銷等方式需求量大,企業坐席人力嚴重不足。在客戶服務側,坐席人員也顯現出能力不足,客戶服務滿意度低的問題;同時,由於坐席人員流動性大,企業培訓成本大,培訓成果也參差不齊,客戶服務反饋並不理想。
  • 大數據時代的社會科學研究新範式
    大數據技術體系為推動社會科學借鑑自然科學成果、形成基於數據驅動的社會科學研究新範式提供有力支撐。   不同於自然科學,社會科學以人類社會現象為研究對象,其傳統研究範式在認知準確性方面飽受爭議。然而,大數據時代的到來為彌補這一缺陷提供了潛在的解決方案。
  • 計算存儲分離之「數據存儲高可用性設計」 - 基礎設施_CIO時代網...
    因此,我們極需一種既高效又省成本的數據存儲以及存儲管理方式。自然地,我們把目光聚焦到了分布式存儲系統上。  從目前行業發展趨勢來看,各大網際網路公司都設計或者維護了自己的分布式存儲系統。如Google的GFS(Colossus 為GFS第二代分布式存儲系統),Facebook和LinkedIn的HDFS等。由此可見,分布式存儲也是大勢所趨。
  • 大數據下的技術運營:數據採集系統設計與實現 - 大數據_CIO時代網...
    定義採集數據   數據結構的選擇   監控數據是標準的時間序列數據,傳統的監控系統中,一條監控數據一般是由監控指標、時間戳和值組成,比如有10臺伺服器的內存使用率需要監控,一個時間周期內映射到系統中可能就是10條mem.userd.percent 時間 值 這種格式的數據,然後分別和對應的主機關聯
  • 對比解讀五種主流大數據架構的數據分析能力 - 大數據_CIO時代網...
    隨著大數據技術的發展,數據挖掘、數據探索等專有名詞的曝光度越來越高,但是在類似於Hadoop系列的大數據分析系統大行其道之前,數據分析工作已經歷了長足的發展,尤其是以BI系統為主的數據分析,已經有了非常成熟和穩定的技術方案和生態系統,對於BI系統來說,大概的架構圖如下:
  • 伊利集團王曉剛:信息化永無止境 - 方案_CIO時代網 - CIO時代—新...
    在「世界品牌實驗室」最新公布的「中國500最具價值品牌」評選結果中,作為第一家同時服務於奧運會和世博會兩大頂級盛會的乳品企業,伊利集團的品牌價值上升至205.45億元,以絕對優勢第6次蟬聯乳品行業首位。這意味著伊利無論在經濟影響力、技術影響力、文化影響力、社會影響力等方面已經展示了行業領導者的絕對優勢。
  • 大數據是什麼?大數據時代四個特點
    大數據是什麼?其實很簡單,大數據其實就是海量資料巨量資料,這些巨量資料來源於世界各地隨時產生的數據,在大數據時代,任何微小的數據都可能產生不可思議的價值。大數據有4個特點,為別為:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值),一般我們稱之為4V。
  • 央視紀錄片大數據時代_央視紀錄片大數據時代觀後感 - CSDN
    《大數據時代的農業》;(視頻連結:http://1t.click/umZ)人類正在迎來大數據新航海時代;》;《大數據時代》27個精彩故事之13:《大數據優化北京城市交通規劃》;《大數據時代》27個精彩故事之14:《大數據賦能海南全域旅遊》;《大數據時代》27個精彩故事之15:《數據多跑路
  • 大數據為青年人興趣社交"畫像"興趣廣泛多元 - 大數據_CIO時代網...
    大數據為青年人興趣社交"畫像"興趣廣泛多元 大數據為青年人興趣社交"畫像"興趣廣泛多元 2018-01-16 09:36:25  來源:人民網關鍵詞: 大數據   21歲以下的泛00後青年們最喜歡的新鮮詞是「打call」、「扎心了老鐵」;這些青年人在社交中近一半是看愛好交友進群或者加入「部落」;二次元少年們最喜歡的是熱血和奇幻類動漫……當前青年社交用戶的特點是興趣廣泛且多元
  • 大數據的力量來自「大成智慧」資訊時代大數據的再認識 | 網際網路...
    大數據已成為媒體與大眾關注的新技術,大數據的應用也預示著資訊時代將進入一個新階段,但人們對大數據的認識有一個不斷加深的過程。首先從「資訊時代新階段」、數據文化和認識論的高度闡述了對大數據的理解;接著通過對驅動效益和大成智慧的解釋,探討了如何正確認識大數據的價值和效益,並從複雜性的角度分析了大數據研究和應用面臨的挑戰;最後對發展大數據應避免的誤區提出幾點看法。
  • 大數據時代!香港數據科學(Data Science)專業院校推薦
    大數據時代的到來,為各個科學領域帶來了新的改革。  在時代高速發發展的今天,大數據時代已經正式來臨,分析大數據可以幫助企業更好的進行產品指定與推廣規劃,從而最大程度的幫助企業盈利,所以各個大公司對於數據科學專業人才可謂是求知若渴。
  • 新數據時代,科研需要什麼樣的創新基礎設施
    一直以來,從腦疾病的研究到大腦功能的解密,科學家從未停止過對大腦探索的步伐。在華中科大蘇州腦空間信息研究院,科學家們正在做一件對於腦科學研究具有裡程碑意義的事情:繪製一張可能是世界上最複雜的「地圖」——靈長類全腦的三維圖譜。
  • 中國大數據行業現狀分析與發展趨勢研究報告(2020年版)
    進入**年以來,大數據受到各界廣泛關注,已滲透到金融、醫療、消費、電力、製造以及幾乎各個行業,大數據的新產品、新技術、新服務也正在不斷地湧現。  我國大數據產業集聚發展效應開始顯現,出現京津冀區域、長三角地區、珠三角地區和中西部4個集聚發展區,各具發展特色。
  • 迎接數據科學ML+和DL+時代的來臨
    從美國回國創辦DataCanvas九章雲極的方磊先生和尚明棟先生專注AI平臺已有7年,成為國內最早一批自動化數據科學平臺供應商。他們研發的DataCanvas自動化數據科學平臺目前已經服務金融、通信、交通、製造、零售等行業中數百家企業及政府單位。  早在清華大學、維吉尼亞理工和美國微軟研究院專注數據科學研究和應用時,方磊先生即看到AI平臺的大片藍海。
  • 大數據時代的大數據技術與應用有哪些.
    從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。  在解決了這些難題的同時,也意味著大數據開始向縱深方向發展。大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。