數據科學二三事

2020-12-06 騰訊網

導 語

如今數字業務蓬勃發展,在無所不在且多樣化的數據源中持續生成海量數據。各行業機構面臨著數字資源挖掘和數據資產變現的新調整,如何通過數據發掘新商機,基於數據解決新問題,破解未查覺的潛在問題,那麼就需要藉助「數據科學」來實現。

1

數據石油

數據無處不在,數據石油卻難以開採

我們生活在數字革命時代。人與人之間的聯繫,不再受限於地理和時間,不再依賴於紙筆傳信,而是通過網際網路時刻聯繫、緊密相連。當下,數字設備、數位技術和各色數位化新業態,已滲入到工作和生活的方方面面。新技術如人工智慧、大數據、區塊鏈、雲計算、物聯網、機器學習、移動應用、納米技術和3D列印等所帶來的影響幾乎是指數型的增長和激變,並將在未來數十年推動我們日常生活的深刻變革,從根本上改變我們的消費、生產和工作方式。

毫無疑問,數據已成為重要的礦藏和資源。「得數據者得天下」,因此,近年來,無論政府機構,企業組織,還是我們每一個體,都十分看重數據的採集與管理、隱私和保護,以及如何在保障數據安全的同時實現共享和流通,並且也在探索多種實現數據交易的機制、模式和方法。

然而,不同於物理資產,數據資源在挖掘與開採上,顯然需要更多的數位化技術手段才能有效合理使用,也需要制定實施數據法律法規與行業標準規範來約束和控制,尤其需要加強對數據權屬、數據安全邊界、數據可信計算和隱私計算方面的重視和研究。如此,由數據資源所形成的汪洋湖泊才會自如流動,在可控範圍內發揮其最大價值。

目前,世界多數國家政府都普遍重視數字經濟的發展和數據資源的開發,而且諸多科研機構、大型科技公司在數據的開發利用上已領先一步,但事實上,我們仍停留在從「重視數據價值」到開始「運用數據驅動價值形成」的階段,還沒有抵達以「數據智慧「和」數據智能」驅動社會治理和全面升級的階段。

要想更好的挖掘和利用數據資源,創造數據服務價值,首先需要去認識什麼是「數據科學」及其關鍵技術和發展趨勢。

02

數據科學

走進數據科學的世界

很多人都知道「數據科學家」這一職業,似乎非常高大上。當然,事實也確實如此。

據了解,免費數據源平臺 Kaggle的註冊用戶數已超過 500萬,Medium平臺上的TowardsData Science每月有 2000萬的瀏覽量,著名人工智慧研究學者吳恩達(Andrew Ng)所開設的Coursera課程上已經有超過 400萬名學員。LinkedIn數據顯示,全世界範圍裡只有 17100名機器學習工程師。全世界當前有 2100個機器學習工程師的職位空缺,其中約有80個職位來自於FAANG(Facebook,Amazon, Apple, Netflix, Google)五巨頭公司。

可見數據科學備受熱捧,那什麼是數據科學呢?

數據科學(Data Science)是一門利用數據學習知識的學科,借用數據去「理解和分析實際現象」。從根本上說,數據科學是一種紮根於強大學術背景的專業,以統計學、數學、計算機三大學科為核心基礎,依賴生物、醫學、環境科學、經濟學、社會學、管理學等學科為應用拓展,對於定量研究學科(比如應用數學、統計學、運籌學、機器學習、信息學、計量經濟學或物理學)以及大數據分析技術、模式識別、數據可視化、數據倉庫以及高性能計算等技術要求都很高。美國大多數院校的Data Science屬於STEM學科。

統計=數據科學?(Statistics= Data Science?)

數據科學家先於數據科學呈現,這個頭銜最早出現在1997年,由吳建福在其報告 "Statistics = Data Science?"中嶄露頭角,他提出數據科學家的概念,認為數據科學家是能夠從大型數據集中提取數據,並進行統計推斷的統計學家。

4年後,William S. Cleveland提議將其設立為一個新的學科,吸收「計算在數據方面獲取的進展」作為統計學的延伸。同時,數據科學領域知名期刊《Data Science Journal》及《The Journal of DataScience》分別於2002年與2003年發行。2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數位化數據之力》報告,受到了廣泛關注。2012年,數據科學家被《哈佛商業評論》稱為《二十一世紀最性感的職業》後,數據科學開始走入大眾視野。

LinkedIn的數據科學家 JonathanGoldman 在設計「你可能認識的人」這一功能時,曾對數據科學家工作方式做過最好的詮釋:首先構建理論、明晰預感,然後尋找模式並印證預測。

數據科學家就是在海量數據中遨遊和探索,他們渴望尋找問題核心,追究問題實質,並把問題提煉為一組非常清晰、可以驗證的假設,這種特質是任何一個領域最有創意的科學家所具備的,很顯然,科學家這個頭銜適合於這一新興角色。他們的價值體現與提升並不是靠做報表或PPT,而是靠在面向客戶和市場的產品優化與流程改進上做出準確的判斷和創新。

03

關鍵特徵

六個關鍵特徵

數據科學家每天都在跟數據打交道,涉及到數據抽樣、預處理、建模以及後續處理(例如敏感性分析,模型部署、測試和驗證)等多項工作,同時還需具備敏銳的商業頭腦,明確企業戰略決策和執行,快速掌握基礎業務流程並了解其運作方式,擁有將業務問題轉化為分析解決方案的專業知識,善於傾聽領域專家的意見,具備企業轉型經驗。具體而言,數據科學家應具備六個關鍵特徵。

1.程序設計能力

儘管目前市場上有很多軟體可以使這些工作自動化。但每個商業問題都具有其特殊性,需要數據科學家進行定製化分析,而編程是完成分析的關鍵。

因此,數據科學家需要能夠熟練掌握R、Python、SAS等程式語言。使用何種程式語言並不重要,重要的是熟悉程序設計的基本概念並且知道如何通過它們來進行數據分析,並將重複性和常規分析工作自動化。

2.定量分析基礎

數據科學家應該在統計學、機器學習和數據挖掘三方面具有堅實的的基礎。這些學科之間的界限十分模糊,它們都提供了一系列的定量技術來幫助分析數據,找出特定商業環境(例如風險管理、欺詐檢測)下的相關模式。

數據科學家應知道何時使用何種技術,能夠確定用於解決各類業務問題的適當分析技術;精通基本和高級的數據挖掘方法,包括回歸分析、聚類分析、決策樹、神經網絡、貝葉斯機器學習方法以及優化、模擬和隨機分析。

深厚的定量分析技術是基礎,但數據科學家不應過多聚焦於數學細節,而更應該側重關注和理解所要分析的問題以及對分析結果的解釋。在商業分析中,應盡力避免出現對數據的有意篡改和歪曲(data massage),驗證分析結果和識別討論虛假數據顯得尤為重要。另外,在選擇最優定量模型時,數據科學家應該充分考慮具體商業問題的特殊要求。

3.可視化分析

商業分析是一項技術性的工作。在模型和用戶之間始終存在著一個巨大的鴻溝。要跨越這個鴻溝,溝通和可視化缺一不可。因此,數據科學家必須能夠將分析模型和相應數據統計結果以一種 「用戶友好」的方式展現出來。其中可以使用traffic light方法、OLAP在線分析處理技術、If-then 規則等等。

數據科學家應恰當好處的傳遞信息量,不因陷入到複雜的具體統計細節中而影響模型的應用。只有這樣用戶才能夠對於數據展現出來的特徵有更好的理解,更容易接納模型分析結果。

4.高級軟體知識

能夠確定要使用的軟體包;具備 SPSS Modeler、SPSS Statistics、SAS、R、Python 等關鍵工具的使用經驗;能夠設計、開發和應用適當的計算方法來解決業務問題;並且能夠創建可重複的自動化流程。

5.數據管理技能

了解關鍵的內部和外部數據源以及如何收集、存儲和檢索數據;擁有處理大量數據(結構化和非結構化、本機和非本機)的經驗;熟悉大規模並行平臺;熟悉 SQL、NoSQL和 Hadoop 等工具;熟悉 HDFS 基礎架構,如 Pig、Hive、Hue、Sqoop 、 Hbase 和 Flume ;熟 悉 加 速 器 ( 如 PureData 或Exadata)和數據分析語言(如 Groovy)。

6.商業理解和創造力

數據科學家的重要作用在於能夠有效地將分析結果融入企業實踐之中,協助管理團隊重新設計業務流程,並創造出獨特且出色的商業價值。數據科學家至少應該在兩個層面上具有創造力。其一是在技術層面,應在特徵選擇、數據轉換和清理方面具有創造力。這些知識發現的基本步驟須要針對具體的應用進行調整。有時候一個正確的「猜測」常常會帶來一個意想不到的結果。其二,數據分析是一個急速變化的領域,新的問題、技術和挑戰層出不窮。

因此,數據科學家還需重視軟技能所帶來的影響,包括好奇心、科學思維、溝通和可視化技能等。

首先要培養專注於問題的科學思維,不同於商業智能 (BI) 分析師,數據科學家作為「開路先鋒」,需要能夠解釋最新的技術和數學概念,並使其成為常規工作的一部分,降低項目在使用的數據、部署的數學方法或所針對的業務問題方面存在巨大風險的可能性;

二是應建立良好的協作溝通關係,與利益相關方合作並進行有效的展示,能夠將數據科學化繁為簡,體現為切實可行的措施和可預測的結果,並通過各種數據動畫和可視化方法、圖表和圖形呈現出來;

三是要以獨特的角度審視業務挑戰,拓寬企業思維和洞察能力,利用專業知識來彌補商業差距。

04

工具包

數據科學工具包

數據科學十大技能

概率和統計

線性代數

Python編程

R語言

SQL編程

Tableau/Power BI

AWS/Azure

Spark

Excel

DevOps

數據科學十大算法

線性回歸算法

邏輯回歸算法

K均值聚類

PCA主成分分析法

支持向量機

決策樹

隨機森林

梯度提升機

貝葉斯分類器

人工神經網絡

數據科學十類角色

數據科學家

決策者

分析師

ETL工程師

機器學習工程師

數據工程師

數據分析經理

Tableau開發者

研究員

BI分析師

用於數據科學的十大Python庫

Pandas

Numpy

Scikit-Learn

Keras

PyTorch

LightGBM

Matplotlib

SciPy

Theano

TensorFlow

05

總結

數據科學不同於數據分析。如果說數據科學是建造房子的一系列方法論,那麼數據分析則是為某一空間結構進行獨特的建築設計。數據科學通常通過提供數據發現的新觀點,建立從「無」到「有」的新連接,幫助商業組織從數據查詢挖掘轉移到商業洞察和新模式;數據分析是數據科學的一個細分領域,聚焦於特定組織目標所需的數據之間的連接,大多是為已知的數據資源價值實現而服務,目前數據分析的自動化已成為重要趨勢。

在數位化時代,數據的重要性不言而喻,如何對數據進行科學管理和智慧分析日益成為緊迫的主題。數據科學建立在數據分析之上,是構築在商業社會與數字世界的橋梁,提供了改進管理流程和運營效率的框架,能夠幫助企業決策者更好地利用數據資源進行智慧洞察和模式創新,成為優化和提升現有技術平臺的重要支撐。

版權聲明

未經「量觀網絡/QVN」授權,不得以任何方式加以使用,違者必究;

如需轉載,需關注本公眾號並留言,請註明公眾號名稱及ID信息。

相關焦點

  • 直播預告 | 科學公益:關於星系的二三事
    9月5日20:00,《科學公益:關於星系的二三事》將通過知領直播平臺與大家見面。掃碼預約會議內容科學公益直播」第35期,中國科學院國家天文臺研究員戴昱帶來分享主題:關於星系的二三事。
  • 戴昱:關於星系的二三事 | 科學公益直播預告
    中國科學院國家天文臺研究員戴昱,與大家共同分享《關於星系的二三事》。添加小助手小吉微信(gmicer),備註「科學直播」,加入科學公益直播交流群。2. 每期「科學公益直播」將篩選出5位VIP用戶,獲得進入直播間,與嘉賓同屏互動的提問機會。對本期內容感興趣的同學,可通過小助手」小吉"報名申請,或閱讀原文獲得報名連結(報名後須通過審核)。
  • Websense分析總結:數據安全之二三事
    隨著企業逐漸對數據安全重視,市場中各種類型的數據安全產品和解決方案也在各自為營,企業安全相關工作人員需要準確判斷自身數據安全需求,並正確認識數據安全解決方案的特點,才能為企業做出最佳的數據安全產品選擇,和最符合成本利益投資。
  • 關於常見貓咪三聯疫苗—妙三多的二三事
    關於常見貓咪三聯疫苗—妙三多的二三事時間:2019-04-22 11:39   來源:今日頭條   責任編輯:青青 川北在線核心提示:原標題:關於常見貓咪三聯疫苗妙三多的二三事 小貓出生時,會從母乳中獲得保護自己的母源抗體,這些抗體使其免受病毒的侵害。不過,在幼貓開始斷奶後,這些抗體會漸漸消失。
  • 梁龍直播教學二手玫瑰 講述搖滾老炮成長二三事
    搖滾老炮線上音樂節講述成長二三事教學之外,梁龍還在直播中分享了幾首歌曲的創作故事和自己的搖滾成長二三事。他說《採花》這首歌對他來說意義重大,在這之前他一直苦於找不到自己的搖滾風格,「覺得是在別人的框架上做東西」。
  • ——記恩師唐子龍二三事
    其樂融融——記恩師唐子龍二三事●材料科學與工程系 姬穎  入選理由:他曾經是材料系的學生,現在是材料系學生的良師益友。
  • 科學家韓春雨二三事 韓氏父子"一門三教授"
    原標題:科學家韓春雨二三事 5 青年學者不容易 記者:很多人評價韓春雨的成功說有幸運的成分。您怎麼看? 韓田鹿:每個人的成功多少都會有幸運之光照到身上的成分。做實驗是有趣的事,我們的思路是對的,一定會找到我們想要的東西。人生是很簡單的。 記者:家裡知道你現在這麼出名嗎? 高峰:我爸看到網上的新聞了,他也很高興。其實,他也不知道我搗鼓的是什麼。 記者:之前家裡有沒有擔心過你?不找工作、做他們不了解的實驗。 高峰:沒有。我很感謝家人,他們沒有給過我壓力。我爸還一直囑咐我說,幹一個事就要成一個事。
  • 王者榮耀:我和紅buff有個約會,關於猩紅石像的二三事
    後來終於有一位英雄衝破重圍,得到了紅buff的青睞,那位英雄的名字就叫做裴擒虎,後來裴擒虎留下了一部絕世秘籍,《我與紅buff有個約會》,接下來小編就給大家帶來關於紅buff的二三事吧。紅色星型標誌代表攜帶紅buff效果好啦,關於裴擒虎和紅buff的二三事,今天就先給大家介紹到這裡,大家都了解了嗎
  • 關於量子的二三事
    隨著量子衛星上天,有關量子的事科普一下:當代科技最前沿發現了什麼?竟然顛覆人類世界觀!下文概括:我們的世界,因為幾個最新的科學,全亂了。攪亂了世界的3項科學成果(一)暗物質1、怎麼發現有暗物質?我們原來認識的宇宙的形態,是星球與星球之間通過萬有引力相互吸引,你繞我轉,我繞他轉,星球們忙亂而有序。
  • 關於油漆的二三事——水性面漆篇
    作者:在每個周三我們的學園會給大家專門來講講油漆,在上周《關於油漆的二三事——底漆篇》中為大家做了一些簡單的底漆介紹。在噴塗底漆後一般的情況下高達模型就會形成灰的效果,當然了除了一些額外的癖好外,這種灰模的作品還是沒有辦法稱之為成品的。畢竟底漆所形成的顏色沒有飽和度也沒有對比度。這時我們就需要使用面漆進行模型的「著色」了。
  • 數據科學入門前需要知道的10件事
    >本文為你介紹在學習數據科學時,需要注意的10件事。他在22歲時開始自學數據科學,目前已經自學成才,編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候&34;概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 數據科學入門前需要知道的10件事
    他在22歲時開始自學數據科學,目前已經自學成才,文摘菌編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候『數據科學』概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 與太空女神戀愛的二三事——《人工性智能》
    從口嫌體正直到感動心動,與太空女神戀愛的二三事。
  • 山花今爛漫,何須繪麟閣——追憶黃祖洽先生二三事
    翻出幾篇舊文,回憶先生生前二三事,算作對先生的追思與致敬。本文原刊載於北京師範大學校報(第442期)論理想信念,先生是模範。先生始終把自己的人生與國家需要和民族興旺緊緊連在一起,把愛國看得高於一切,一切服從國家和社會的需要。
  • 二三裡核實前郭五中高三補課到臘月二十八?校長:現在是正常上課
    1月11日中午,爆料人給二三裡資訊發來了學校學生午休的照片和視頻,視頻中,一名學生稱老師說的「補課不到臘月二十七,二十八放假。」校方回應:高三學生在正常上課,不是補課對此事,1月11日,二三裡資訊聯繫了前郭縣教育局,工作人員表示,教育局是允許高三補課,延長一周放假,但不收費。
  • 天才物理學家愛因斯坦二三事
    有一次他在布拉格科學協會大廳作演講,當主持人宣布:「請我們的老朋友——大科學家愛因斯坦上臺為我們作報告……」在掌聲中,人們發現,講臺上那個頭髮蓬鬆,鼻子粗大,一臉大鬍鬚,一身隨便著衣的人,一點也不像是一個科學家,看起來,倒像是一個搞藝術之類的人物。有人嘲笑他的穿戴打扮,以及在家裡待人接物的舉止,認為沒有一點教授和科學家的樣子。
  • 關於Eco evo devo的二三事 | BMC系列期刊聯合專題徵稿
  • 皂角二三事
    最近有點新感受,女兒問起植物收穫上的事,就說給她聽,她鼓勵我還是該多寫些,便記下幾處。重啟皂角的記憶開關,很巧合,那是因為記錄構樹生長。去年寫《惡名傳千年》,觀察構樹比較多,也查閱到公元761年,杜甫寓居成都草堂,曾作有《惡樹》一詩,發出「常持小斧柯」「惡木剪還多」的感嘆。請教朋友後,知道他寫的「雞棲」,其實就是皂角樹,不是剛開始我想的構樹。
  • 百度王宇:安全事件處理二三事
    烏雲安全峰會現場,來自百度雲安全部安全架構師&技術負責人王宇分享了百度處理安全事件的經驗——《安全事件處理二三事》。  以下是王宇的演講全文:  大家下午好。首先感謝大家來。我今天跟大家分享的是百度在安全響應方面的經驗以及一些事情的處理,這方面之前也沒看到對外進行分享過,但是這個對於大多數企業來說,我個人覺得這個還是蠻有意義的。
  • 農村「對子」二三事
    今天就說一說我們農村老家過大年春聯的那些雜七雜八的瑣事,以事說過大年的老理,以事思念老家的那些人那些事,以事闡述我們老家過年風景這邊獨好,你覺得好多多支持一下。貼春聯的「潛規則」。