導 語
如今數字業務蓬勃發展,在無所不在且多樣化的數據源中持續生成海量數據。各行業機構面臨著數字資源挖掘和數據資產變現的新調整,如何通過數據發掘新商機,基於數據解決新問題,破解未查覺的潛在問題,那麼就需要藉助「數據科學」來實現。
1
數據石油
數據無處不在,數據石油卻難以開採
我們生活在數字革命時代。人與人之間的聯繫,不再受限於地理和時間,不再依賴於紙筆傳信,而是通過網際網路時刻聯繫、緊密相連。當下,數字設備、數位技術和各色數位化新業態,已滲入到工作和生活的方方面面。新技術如人工智慧、大數據、區塊鏈、雲計算、物聯網、機器學習、移動應用、納米技術和3D列印等所帶來的影響幾乎是指數型的增長和激變,並將在未來數十年推動我們日常生活的深刻變革,從根本上改變我們的消費、生產和工作方式。
毫無疑問,數據已成為重要的礦藏和資源。「得數據者得天下」,因此,近年來,無論政府機構,企業組織,還是我們每一個體,都十分看重數據的採集與管理、隱私和保護,以及如何在保障數據安全的同時實現共享和流通,並且也在探索多種實現數據交易的機制、模式和方法。
然而,不同於物理資產,數據資源在挖掘與開採上,顯然需要更多的數位化技術手段才能有效合理使用,也需要制定實施數據法律法規與行業標準規範來約束和控制,尤其需要加強對數據權屬、數據安全邊界、數據可信計算和隱私計算方面的重視和研究。如此,由數據資源所形成的汪洋湖泊才會自如流動,在可控範圍內發揮其最大價值。
目前,世界多數國家政府都普遍重視數字經濟的發展和數據資源的開發,而且諸多科研機構、大型科技公司在數據的開發利用上已領先一步,但事實上,我們仍停留在從「重視數據價值」到開始「運用數據驅動價值形成」的階段,還沒有抵達以「數據智慧「和」數據智能」驅動社會治理和全面升級的階段。
要想更好的挖掘和利用數據資源,創造數據服務價值,首先需要去認識什麼是「數據科學」及其關鍵技術和發展趨勢。
02
數據科學
走進數據科學的世界
很多人都知道「數據科學家」這一職業,似乎非常高大上。當然,事實也確實如此。
據了解,免費數據源平臺 Kaggle的註冊用戶數已超過 500萬,Medium平臺上的TowardsData Science每月有 2000萬的瀏覽量,著名人工智慧研究學者吳恩達(Andrew Ng)所開設的Coursera課程上已經有超過 400萬名學員。LinkedIn數據顯示,全世界範圍裡只有 17100名機器學習工程師。全世界當前有 2100個機器學習工程師的職位空缺,其中約有80個職位來自於FAANG(Facebook,Amazon, Apple, Netflix, Google)五巨頭公司。
可見數據科學備受熱捧,那什麼是數據科學呢?
數據科學(Data Science)是一門利用數據學習知識的學科,借用數據去「理解和分析實際現象」。從根本上說,數據科學是一種紮根於強大學術背景的專業,以統計學、數學、計算機三大學科為核心基礎,依賴生物、醫學、環境科學、經濟學、社會學、管理學等學科為應用拓展,對於定量研究學科(比如應用數學、統計學、運籌學、機器學習、信息學、計量經濟學或物理學)以及大數據分析技術、模式識別、數據可視化、數據倉庫以及高性能計算等技術要求都很高。美國大多數院校的Data Science屬於STEM學科。
統計=數據科學?(Statistics= Data Science?)
數據科學家先於數據科學呈現,這個頭銜最早出現在1997年,由吳建福在其報告 "Statistics = Data Science?"中嶄露頭角,他提出數據科學家的概念,認為數據科學家是能夠從大型數據集中提取數據,並進行統計推斷的統計學家。
4年後,William S. Cleveland提議將其設立為一個新的學科,吸收「計算在數據方面獲取的進展」作為統計學的延伸。同時,數據科學領域知名期刊《Data Science Journal》及《The Journal of DataScience》分別於2002年與2003年發行。2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數位化數據之力》報告,受到了廣泛關注。2012年,數據科學家被《哈佛商業評論》稱為《二十一世紀最性感的職業》後,數據科學開始走入大眾視野。
LinkedIn的數據科學家 JonathanGoldman 在設計「你可能認識的人」這一功能時,曾對數據科學家工作方式做過最好的詮釋:首先構建理論、明晰預感,然後尋找模式並印證預測。
數據科學家就是在海量數據中遨遊和探索,他們渴望尋找問題核心,追究問題實質,並把問題提煉為一組非常清晰、可以驗證的假設,這種特質是任何一個領域最有創意的科學家所具備的,很顯然,科學家這個頭銜適合於這一新興角色。他們的價值體現與提升並不是靠做報表或PPT,而是靠在面向客戶和市場的產品優化與流程改進上做出準確的判斷和創新。
03
關鍵特徵
六個關鍵特徵
數據科學家每天都在跟數據打交道,涉及到數據抽樣、預處理、建模以及後續處理(例如敏感性分析,模型部署、測試和驗證)等多項工作,同時還需具備敏銳的商業頭腦,明確企業戰略決策和執行,快速掌握基礎業務流程並了解其運作方式,擁有將業務問題轉化為分析解決方案的專業知識,善於傾聽領域專家的意見,具備企業轉型經驗。具體而言,數據科學家應具備六個關鍵特徵。
1.程序設計能力
儘管目前市場上有很多軟體可以使這些工作自動化。但每個商業問題都具有其特殊性,需要數據科學家進行定製化分析,而編程是完成分析的關鍵。
因此,數據科學家需要能夠熟練掌握R、Python、SAS等程式語言。使用何種程式語言並不重要,重要的是熟悉程序設計的基本概念並且知道如何通過它們來進行數據分析,並將重複性和常規分析工作自動化。
2.定量分析基礎
數據科學家應該在統計學、機器學習和數據挖掘三方面具有堅實的的基礎。這些學科之間的界限十分模糊,它們都提供了一系列的定量技術來幫助分析數據,找出特定商業環境(例如風險管理、欺詐檢測)下的相關模式。
數據科學家應知道何時使用何種技術,能夠確定用於解決各類業務問題的適當分析技術;精通基本和高級的數據挖掘方法,包括回歸分析、聚類分析、決策樹、神經網絡、貝葉斯機器學習方法以及優化、模擬和隨機分析。
深厚的定量分析技術是基礎,但數據科學家不應過多聚焦於數學細節,而更應該側重關注和理解所要分析的問題以及對分析結果的解釋。在商業分析中,應盡力避免出現對數據的有意篡改和歪曲(data massage),驗證分析結果和識別討論虛假數據顯得尤為重要。另外,在選擇最優定量模型時,數據科學家應該充分考慮具體商業問題的特殊要求。
3.可視化分析
商業分析是一項技術性的工作。在模型和用戶之間始終存在著一個巨大的鴻溝。要跨越這個鴻溝,溝通和可視化缺一不可。因此,數據科學家必須能夠將分析模型和相應數據統計結果以一種 「用戶友好」的方式展現出來。其中可以使用traffic light方法、OLAP在線分析處理技術、If-then 規則等等。
數據科學家應恰當好處的傳遞信息量,不因陷入到複雜的具體統計細節中而影響模型的應用。只有這樣用戶才能夠對於數據展現出來的特徵有更好的理解,更容易接納模型分析結果。
4.高級軟體知識
能夠確定要使用的軟體包;具備 SPSS Modeler、SPSS Statistics、SAS、R、Python 等關鍵工具的使用經驗;能夠設計、開發和應用適當的計算方法來解決業務問題;並且能夠創建可重複的自動化流程。
5.數據管理技能
了解關鍵的內部和外部數據源以及如何收集、存儲和檢索數據;擁有處理大量數據(結構化和非結構化、本機和非本機)的經驗;熟悉大規模並行平臺;熟悉 SQL、NoSQL和 Hadoop 等工具;熟悉 HDFS 基礎架構,如 Pig、Hive、Hue、Sqoop 、 Hbase 和 Flume ;熟 悉 加 速 器 ( 如 PureData 或Exadata)和數據分析語言(如 Groovy)。
6.商業理解和創造力
數據科學家的重要作用在於能夠有效地將分析結果融入企業實踐之中,協助管理團隊重新設計業務流程,並創造出獨特且出色的商業價值。數據科學家至少應該在兩個層面上具有創造力。其一是在技術層面,應在特徵選擇、數據轉換和清理方面具有創造力。這些知識發現的基本步驟須要針對具體的應用進行調整。有時候一個正確的「猜測」常常會帶來一個意想不到的結果。其二,數據分析是一個急速變化的領域,新的問題、技術和挑戰層出不窮。
因此,數據科學家還需重視軟技能所帶來的影響,包括好奇心、科學思維、溝通和可視化技能等。
首先要培養專注於問題的科學思維,不同於商業智能 (BI) 分析師,數據科學家作為「開路先鋒」,需要能夠解釋最新的技術和數學概念,並使其成為常規工作的一部分,降低項目在使用的數據、部署的數學方法或所針對的業務問題方面存在巨大風險的可能性;
二是應建立良好的協作溝通關係,與利益相關方合作並進行有效的展示,能夠將數據科學化繁為簡,體現為切實可行的措施和可預測的結果,並通過各種數據動畫和可視化方法、圖表和圖形呈現出來;
三是要以獨特的角度審視業務挑戰,拓寬企業思維和洞察能力,利用專業知識來彌補商業差距。
04
工具包
數據科學工具包
數據科學十大技能
概率和統計
線性代數
Python編程
R語言
SQL編程
Tableau/Power BI
AWS/Azure
Spark
Excel
DevOps
數據科學十大算法
線性回歸算法
邏輯回歸算法
K均值聚類
PCA主成分分析法
支持向量機
決策樹
隨機森林
梯度提升機
貝葉斯分類器
人工神經網絡
數據科學十類角色
數據科學家
決策者
分析師
ETL工程師
機器學習工程師
數據工程師
數據分析經理
Tableau開發者
研究員
BI分析師
用於數據科學的十大Python庫
Pandas
Numpy
Scikit-Learn
Keras
PyTorch
LightGBM
Matplotlib
SciPy
Theano
TensorFlow
05
總結
數據科學不同於數據分析。如果說數據科學是建造房子的一系列方法論,那麼數據分析則是為某一空間結構進行獨特的建築設計。數據科學通常通過提供數據發現的新觀點,建立從「無」到「有」的新連接,幫助商業組織從數據查詢挖掘轉移到商業洞察和新模式;數據分析是數據科學的一個細分領域,聚焦於特定組織目標所需的數據之間的連接,大多是為已知的數據資源價值實現而服務,目前數據分析的自動化已成為重要趨勢。
在數位化時代,數據的重要性不言而喻,如何對數據進行科學管理和智慧分析日益成為緊迫的主題。數據科學建立在數據分析之上,是構築在商業社會與數字世界的橋梁,提供了改進管理流程和運營效率的框架,能夠幫助企業決策者更好地利用數據資源進行智慧洞察和模式創新,成為優化和提升現有技術平臺的重要支撐。
版權聲明
未經「量觀網絡/QVN」授權,不得以任何方式加以使用,違者必究;
如需轉載,需關注本公眾號並留言,請註明公眾號名稱及ID信息。