儘管與數據科學相關的學科很早就出現了,數據科學還是一個相對較新的領域。為什麼數據科學沒有一個明確的的定義呢?在谷歌上搜索「什麼是數據科學」會得到1.590.000.000條結果,但搜索「什麼是計算科學?」只能得到1.220.000.000條結果。考慮到計算科學要比數據科學出現得早,這樣的結果著實令人驚訝。
如果你曾研究過什麼是數據科學,你可能見過「數據科學維恩圖」。Alluvium公司的執行長兼創始人康威(Drew Conway) 是2010年最早引入這種圖形的人之一。另一篇發表於2009年的文章中,作者是餘銘軒(Nathan Yu),詳細地闡述了這一韋恩圖的各組成部分。下面讓我們來看看「數據科學維恩圖」:
這種圖形的優勢顯而易見。它易於理解,顯示出數據科學其實是多個領域的有機結合。在這個維恩圖中,三個組成部分分別是黑客技能、數學和統計知識,以及紮實的專業知識。現在,這個維恩圖在網上衍生出有很多版本,但本質上都是以這三部分為基礎的。
為什麼數據科學維恩圖具有誤導性?
數據科學維恩圖並沒有錯。它在顯示數據科學重要組成部分的同時也說明了數據科學是這些領域的交叉。因此,如果你對數據科學一無所知,只是想大致了解一下,維恩圖就很適合你。
然而,如果你想深入探究數據科學這個看似無窮無盡的領域,這個維恩圖,最好可以算作一個探索的起點,最差則會誤導人。著名統計學家約翰·圖基(John Tukey)(1962)曾經表示:
對於往往是模糊的正確問題的近似回答,要比對於總是搞得很精確的錯誤問題的準確回答好得多。
許多試圖解釋什麼是數據科學的文章遲早會用上這種韋恩圖。從描述如何成為一名數據科學家的文章數量可推測出有不少讀者可能希望自己成為數據科學家。這正是維恩圖的問題所在。
為什麼軟技能在數據科學中很重要?
維恩圖是一個抽象概念。一個抽象概念必定無法體現複雜的現實情況。不過,將這個維恩圖稱為「數據科學硬技能維恩圖」之類可能會更加合適。
這個維恩圖的組成部分都屬於硬技能——一類易於評估的技能,比如可以通過筆試來衡量。而軟技能,有時又指人際交往能力,通常不能通過筆試來衡量。軟技能包括能夠有效地在團隊中工作、與團隊中的其他人(包括非技術員工)溝通以及能夠領導和管理團隊的能力。
現在,公司聘請數據科學家後,不會讓他們在工作時與其他部門隔離。他們聘請數據科學家是希望數據科學家根據可創造價值的數據中提出實質性的見解。因此,數據科學家首先應熟知其所在公司的商業模式,以及公司的盈利模式。這是為了確保目標一致:即盈利。沒有足夠多的軟技能,再最能幹的數據科學家也很難實現這個目標。
設想一下大多數公司對數據科學的看法:
現今關於數據科學項目的現實情況是,大多數公司的管理層並不關心處在中間環節的數據科學相關細節,這是聘用來的數據科學專家們要操心的事。公司管理層只負責做出有助於公司盈利的決策。因此,掌握做數據科學必需的技術知識與必要的軟技能都至關重要。
成功完成一個數據科學項目需要的三個最為顯著的軟技能包括:
1. 靈活思維
首先從業務問題開始。要想解決某個難題,先要弄清楚問題出在哪裡。在公司,你會遇到一些業務問題——它們得到解決後將為公司創造價值。問題可能各種各樣,比如創建一個儀錶板來簡化和加速管理決策的過程,或使用機器學習來預測銷售額增長趨勢。
沒有技術背景的公司管理人員不一定了解關於數據科學的所有細節(他們也不必了解)。他們遇到問題後就會探索新的解決方法。因此,這些業務問題通常不會被事先明確地提出。
判斷運用數據科學是否能解決問題以及解決哪些方面的問題是數據科學家們的職責。由於大多數數據科學家沒有商業背景,他們在工作過程中可能會遇到一定障礙。能夠在商業和技術兩種思維方式之間切換自如是有效解決業務問題的一項基本技能。
2. 團隊合作
在可視化的第二階段中,數據科學維恩圖中提到的硬技能絕對十分重要。然而,軟技能也是必備技能。最重要的一點是,數據科學家要能在任何類型的團隊中有效工作。
公司的組織結構決定著數據科學家的角色,或是團隊中唯一的數據科學家,或是作為大型分析團隊中的一員和其他數據科學家、數據倉庫專家等一起工作。高效分配任務並使整個團隊朝著共同目標努力是成功的另一要素。
3.有效交流和表達
交流主要是指與團體中沒有技術背景的員工的交流。用通俗的語言對數據科學團隊的工作內容進行解釋填補了數據科學裝飾性和有效性之間的鴻溝。解決了技術方面問題後,數據科學家需要將他們的發現傳達給管理層。匯報要做得有趣且吸引人則需要反覆練習。
然而,技術專業的課程很少涉及到軟技能的培養。一個出色的匯報包括,從有效的幻燈片設計到令人感興趣的文案撰寫等多個元素。
結論
要想成為一名真正的數據科學家,軟、硬技能兼備才是王道。因此,一個人若想成為一名數據科學家,也應多關注自身的軟技能。無論是通過自學還是在大學裡學習交際類課程,提升自身的軟技能總是一項明智的投資。