從事數據科學,除了遵從維恩圖,還需要……

2020-12-15 讀芯術

儘管與數據科學相關的學科很早就出現了,數據科學還是一個相對較新的領域。為什麼數據科學沒有一個明確的的定義呢?在谷歌上搜索「什麼是數據科學」會得到1.590.000.000條結果,但搜索「什麼是計算科學?」只能得到1.220.000.000條結果。考慮到計算科學要比數據科學出現得早,這樣的結果著實令人驚訝。

如果你曾研究過什麼是數據科學,你可能見過「數據科學維恩圖」。Alluvium公司的執行長兼創始人康威(Drew Conway) 是2010年最早引入這種圖形的人之一。另一篇發表於2009年的文章中,作者是餘銘軒(Nathan Yu),詳細地闡述了這一韋恩圖的各組成部分。下面讓我們來看看「數據科學維恩圖」:

這種圖形的優勢顯而易見。它易於理解,顯示出數據科學其實是多個領域的有機結合。在這個維恩圖中,三個組成部分分別是黑客技能、數學和統計知識,以及紮實的專業知識。現在,這個維恩圖在網上衍生出有很多版本,但本質上都是以這三部分為基礎的。

為什麼數據科學維恩圖具有誤導性?

數據科學維恩圖並沒有錯。它在顯示數據科學重要組成部分的同時也說明了數據科學是這些領域的交叉。因此,如果你對數據科學一無所知,只是想大致了解一下,維恩圖就很適合你。

然而,如果你想深入探究數據科學這個看似無窮無盡的領域,這個維恩圖,最好可以算作一個探索的起點,最差則會誤導人。著名統計學家約翰·圖基(John Tukey)(1962)曾經表示:

對於往往是模糊的正確問題的近似回答,要比對於總是搞得很精確的錯誤問題的準確回答好得多。

許多試圖解釋什麼是數據科學的文章遲早會用上這種韋恩圖。從描述如何成為一名數據科學家的文章數量可推測出有不少讀者可能希望自己成為數據科學家。這正是維恩圖的問題所在。

為什麼軟技能在數據科學中很重要?

維恩圖是一個抽象概念。一個抽象概念必定無法體現複雜的現實情況。不過,將這個維恩圖稱為「數據科學硬技能維恩圖」之類可能會更加合適。

這個維恩圖的組成部分都屬於硬技能——一類易於評估的技能,比如可以通過筆試來衡量。而軟技能,有時又指人際交往能力,通常不能通過筆試來衡量。軟技能包括能夠有效地在團隊中工作、與團隊中的其他人(包括非技術員工)溝通以及能夠領導和管理團隊的能力。

現在,公司聘請數據科學家後,不會讓他們在工作時與其他部門隔離。他們聘請數據科學家是希望數據科學家根據可創造價值的數據中提出實質性的見解。因此,數據科學家首先應熟知其所在公司的商業模式,以及公司的盈利模式。這是為了確保目標一致:即盈利。沒有足夠多的軟技能,再最能幹的數據科學家也很難實現這個目標。

設想一下大多數公司對數據科學的看法:

現今關於數據科學項目的現實情況是,大多數公司的管理層並不關心處在中間環節的數據科學相關細節,這是聘用來的數據科學專家們要操心的事。公司管理層只負責做出有助於公司盈利的決策。因此,掌握做數據科學必需的技術知識與必要的軟技能都至關重要。

成功完成一個數據科學項目需要的三個最為顯著的軟技能包括:

1. 靈活思維

首先從業務問題開始。要想解決某個難題,先要弄清楚問題出在哪裡。在公司,你會遇到一些業務問題——它們得到解決後將為公司創造價值。問題可能各種各樣,比如創建一個儀錶板來簡化和加速管理決策的過程,或使用機器學習來預測銷售額增長趨勢。

沒有技術背景的公司管理人員不一定了解關於數據科學的所有細節(他們也不必了解)。他們遇到問題後就會探索新的解決方法。因此,這些業務問題通常不會被事先明確地提出。

判斷運用數據科學是否能解決問題以及解決哪些方面的問題是數據科學家們的職責。由於大多數數據科學家沒有商業背景,他們在工作過程中可能會遇到一定障礙。能夠在商業和技術兩種思維方式之間切換自如是有效解決業務問題的一項基本技能。

2. 團隊合作

在可視化的第二階段中,數據科學維恩圖中提到的硬技能絕對十分重要。然而,軟技能也是必備技能。最重要的一點是,數據科學家要能在任何類型的團隊中有效工作。

公司的組織結構決定著數據科學家的角色,或是團隊中唯一的數據科學家,或是作為大型分析團隊中的一員和其他數據科學家、數據倉庫專家等一起工作。高效分配任務並使整個團隊朝著共同目標努力是成功的另一要素。

3.有效交流和表達

交流主要是指與團體中沒有技術背景的員工的交流。用通俗的語言對數據科學團隊的工作內容進行解釋填補了數據科學裝飾性和有效性之間的鴻溝。解決了技術方面問題後,數據科學家需要將他們的發現傳達給管理層。匯報要做得有趣且吸引人則需要反覆練習。

然而,技術專業的課程很少涉及到軟技能的培養。一個出色的匯報包括,從有效的幻燈片設計到令人感興趣的文案撰寫等多個元素。

結論

要想成為一名真正的數據科學家,軟、硬技能兼備才是王道。因此,一個人若想成為一名數據科學家,也應多關注自身的軟技能。無論是通過自學還是在大學裡學習交際類課程,提升自身的軟技能總是一項明智的投資。

相關焦點

  • 計算機科學與技術專業畢業生除了程式設計師還可以從事哪些崗位
    首先,計算機科學與技術專業的畢業生具有較為廣泛的就業空間,除了程式設計師崗位之外,還可以從事設計類崗位、產品經理崗位、測試類崗位和運維類崗位。如果是計算機科學與技術專業研究生畢業,還可以從事算法設計、技術方案設計和教育等相關崗位。
  • 學習編程除了IT行業還可以從事哪些行業
    隨著大數據和人工智慧的發展,未來職場人掌握一門程式語言還是比較重要的,一方面可以進行數據分析,另一方面還可以與智能體進行交流。大數據的落地應用必然會進一步提升數據的價值,而數據分析是數據價值的重要體現方式,所以掌握數據分析技術是比較重要的。
  • 為什麼你需要一個數據科學平臺
    另一個好處是,數據科學家不再需要依靠IT來設置或維護他們喜歡的工具和庫。此外,僅靠工具不能解決團隊協作性的需要,以及在IT,業務分析師和開發人員之間存在的更大的數據科學生命周期的需求。有效的數據科學平臺可確保機器學習模型可以在整個企業和數據中持續運行,團隊可以有效的發現,共享和使用來自多個位置(如本地,雲中和混合管理環境)的數據。
  • 想從事數據科學?統計學60分怎麼夠!
    N年後,看到數據科學發展得風生水起,並且跟數學息息相關,我暗自發誓:錯過的青春和數學我都要補回來!於是勾搭了一位數學科學家,想找他開開光。他噗嗤一笑,用飽含同情的目光看著我,鄭重地將《基本數學和數學科學統計教程》交到我手上。看了兩頁後,小編卒……沒想到,除了數學之外,想要入門數據科學,統計學也是一座必須翻過去的大山。
  • 一個數據科學負責人眼中的數據科學:太無聊了!
    在 Dessa 的數據科學負責人 Ian Xiao 看來,或許並非如此。他認為,數據科學家的工作往往是非常「無聊的」,在決定踏上這條道路之前,我們必須對此做好心理準備,建立自己的應對機制。以下是他的全文。
  • 數據科學與計算智能(一):數據科學的內涵
    這樣的數據空間,除了映射物理世界,其本身是否具有獨特的一般性規律?如何用科學的方法來研究數據的一般性規律,揭示其內在機理?這些是數據科學更基本的問題。數據科學的內涵應該既包括本體論內容和方法論內容,還包括其獨特的價值實現目標。
  • 數據科學入門前需要知道的10件事
    他在22歲時開始自學數據科學,目前已經自學成才,文摘菌編譯了這篇文章,希望能把以下需要注意的10件事告訴剛入門的你。我從2004年開始數據科學之旅。那個時候『數據科學』概念才剛被提出,當時廣泛使用的術語是『數據挖掘』。一直到2012年『數據科學』這個概念才引起人們注意,且一篇由Thomas Davenport 和 D.J.
  • 除了Kaggle,這裡還有一些含金量高的數據科學競賽哦
    kaggle,數據科學家可以參加的數據競賽平臺其實還蠻多的。有些比賽平臺不僅提供比賽,還讓你有機會自己創辦比賽。有些比賽由公司贊助,有些由政府機構贊助。參加這些比賽不僅能讓你的能力獲得認可,還可以獲得一些不菲的獎金呢~在聽了上百節慕課(MOOC)、看了上千本書和筆記、聆聽了上百萬人對數據科學的看法後,你會做什麼呢?你要開始應用這些概念啦。應用機器學習概念的唯一方法就是親自動手。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    然而,儘管人們對數據科學的工作越來越感興趣,但並不知道如何從事這個職業。因此應該了解數據科學的職業生涯,這其中包括了解不同數據流程之間的差異。一些行業網站和大學正在提供有關數據科學的學習課程。然而,對於初學者來說,他們對於如何入門以及如何選擇有效的路徑並不總是很清楚。因為數據技術領域中一些相似的領域存在顯著的差異。
  • 想成為真正的數據科學家,除了資歷你還需要這4個技能
    年輕的分析師、數據科學家、經驗不足的員工都過於信任他們的數據源。年輕的、經驗不足的員工一般來說都急於把工作完成。這就不可避免地讓他們更少地理解數據真正的狀況。他們並不會追究「為什麼」,而是花更多時間確保產品的「功能性」。那麼他們就會忽略掉數據中的缺陷。一個數據科學家想要,就要停止「做出一個達到要求的算法或者系統然後署上大名結束」的做法,他還需要負起責任,理解數據、弄清數據中的缺陷。
  • 港中大(深圳)今年新增英語及數據科學與大數據技術兩個本科專業
    英語專業、數據科學與大數據技術專業將於2020年開始招生。臨床醫學專業及藥學專業將和正在建設的香港中文大學(深圳)醫學院統籌規劃,最早將於2021年啟動本科招生。記者了解到,2020年香港中文大學(深圳)的本科招生專業將有17個,分別是經管學院的金融學、市場營銷、國際商務、經濟學、會計學,理工學院的計算機科學與技術、電子信息工程、新能源科學與工程、統計學、數學與應用數學、數據科學與大數據技術,人文社科學院的翻譯專業、應用心理學、英語專業,生命與健康科學學院的生物信息學、生物醫學工程,以及經管學院與理工學院聯合招生的金融工程
  • 計算機科學與技術和軟體工程都能從事哪些工作?
    ,知識維度還不夠深。如果用一句話概括計算機科學與技術專業就是為了研究出更好更快的計算機。主要開設課程有電路原理、模擬電子技術、數字邏輯、微機原理、彙編語言、作業系統原理、編譯原理、算法與數據結構、面向對象方法、C語言/c++語言等。
  • 數據科學,來自業界的誘惑
    因為他已經為了他的博士後工作,帶著妻子和一歲的兒子跨越了1萬6千公裡來到了澳洲,同一年,他和同事出版了一本關於科學編程的手冊。同時他還被一家創業公司聘為學術顧問,這家公司立足於開發幫助合作者合著論文的軟體。巴塞特喜歡創業公司的活力,因此當他聽說在矽谷有支持科學家從事科技工作的助學金時,他毫不猶豫地申請並被接納了。
  • 數據科學與大數據技術專業的大一新生,應該注意哪些問題
    首先,當前選擇數據科學與大數據技術專業是不錯的選擇,隨著工業網際網路的發展和產業結構升級的持續推進,未來產業領域會需要大量的大數據專業人才,所以當前選擇大數據專業也是順應時代發展的選擇。數據科學與大數據技術專業是一個非常典型的交叉學科,涉及到數學、統計學和計算機三大塊主要內容,同時還涉及到經濟學
  • 數據分析學習:入數據科學大坑,我需要什麼樣的數學水平?
    所以,本文作者闡釋了數據科學和機器學習為何離不開數學,並提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。
  • ...大學(深圳)2020年新增兩個本科專業:英語、數據科學與大數據技術
    揚子晚報網3月13日訊(記者 王贇) 日前,教育部公布了2019年度普通高等學校本科專業備案和審批結果,香港中文大學(深圳)申請的英語專業、數據科學與大數據技術專業、臨床醫學專業、藥學專業通過審批。英語專業、數據科學與大數據技術專業將於2020年開始招生。
  • 入數據科學大坑,我需要什麼樣的數學水平?
    所以,本文作者闡釋了數據科學和機器學習為何離不開數學,並提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在於數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。
  • 除了考證,你還需要學點兒什麼?
    很多從事或者計劃從事財務工作的人員,都將考證放在第一位,從初級到中級,從中級到高級,甚至注會、注稅ACCA、CMA等等,學了很多書本上的理論知識,然後憧憬以後財務工作怎麼美好、薪資待遇怎麼好,怎麼快速升職等等。考證在某種程度上可以迅速讓自己升值,但是僅僅靠證書來提升自己價值有限,絕大部分財務人員都在做一些基層財務工作和部分管理工作。
  • Python數據科學實踐 | 初步搭建數據科學工作環境
    ⽆⼈否認,在⽇新⽉異的現代社會,「⼤數據」時代已經悄然降臨。由於其在多個⾏業和學科領域中的⾼度滲透,並且在不同專業領域的數據研究中表現出⾼度融合的趨勢,⼤數據已經成為包含計算機科學和統計學在內的多個學科領域的新研究⽅向。同時,由於在⼤數據⽅⾯的研究尚且存在諸多誤區,⼈們迫切地需要對「⼤數據」時代的新現象、 理論、⽅法、技術、⼯具和實踐進⾏系統的研究。因⽽,「數據科學」應運⽽⽣。
  • 想從事數據分析工作考研應該選擇什麼專業
    當前正處在大數據時代,而數據分析是大數據技術體系中的重要組成部分,也是數據價值化的主要方式之一,所以未來從事數據分析工作是不錯的選擇。具體選擇哪個專業需要根據自身的知識結構來決定,最好能夠結合本科專業進行選擇,這樣在備考的時候會輕鬆一些。如果本科是計算機相關專業,那麼可以選擇的餘地是比較大的,計算機應用、計算機科學與技術、軟體工程等專業都有數據分析的細分方向,當然統計學和數學專業也是如此。