2010年起,Drew Conway開始用一張維恩圖(即用不同的圓圈顯示元素集合重疊區域的圖示)表示數據科學,之後,不同的數據科學家也根據自己對數據科學的理解對這一維恩圖進行了不同程度的刪改和調整。
Drew Conway的第一張維恩圖至今依然是很多數據科學家最認可的對數據科學的基本描述,這張圖清楚的顯示了,數據科學最相關知識來自三大基礎領域:數學和統計知識、計算機科學、行業應用知識。
本文用13張經典維恩圖展示了數據科學這個領域,你最喜歡哪一張?你覺得哪張圖最能代表你對數據科學的理解?
數據科學是一個定義相當模糊的詞語。我聽到的一些定義有——
「這是一項需要比大多數統計學家更多的編程技巧,和比程式設計師更多的統計數據技能的工作。」
「是應用統計,但在舊金山卻不是。」
「有人突然決定在自己的名片上印上『數據科學家』這幾字,然後靠著這個漲了工資。」
就我個人而言,我最近決定稱呼自己為數據礦工來避免爭議。(無論如何,數據礦工並不時髦。)
數據科學是一個尋找定義的行業,人們進行著很多不同的嘗試來定義它也不足為奇。
作為一個充滿著數據書呆子而且對可視化情有獨鐘的領域,很多人在嘗試定義時使用維恩圖也是不足為奇。
1. 2010年·Drew Conway版

他的個人博客在2013年因為發表了數據科學維恩圖而火了起來。對於Conway,圖的中心是數據科學。關於下面的那個圈「實質性專業(Substantive Expertise)」的含義(我接下來會進一步解釋)有過一些爭議:我只能說,如果是Conway的意思不是我所說的領域知識(例如物理學)而是其他的東西,那麼他選擇的這個名字確實不怎麼樣。
因此,假如領域知識是他的意思,至少這個想法的一部分是:比如一個物理學家,本來具有物理和數學/統計的專業知識,但缺乏黑客知識(我見過不少物理學家也有黑客知識,故而這個現象現在並不那麼普遍了);機器學習專家有時會在缺乏對要進行分析的事情所在領域知識情況下,對他們要分析的事情應用算法(這和我第一次在一個全新的產業裡起步建立模型時的情況一模一樣,我不得不作了很多知識補充);還有的人可以編程,並且知道自己領域內的知識,但卻沒辦法知道什麼時候是偶然,什麼時候是一個統計上顯著的結果,這樣的人是很危險的;他們給出的解決辦法可能會是非常錯誤的,導致他們公司大量的經濟損失。
2. 2012年 Brendan Tierne版
這個圖……確實看起來有點亂。順便說一句,KDD代表知識發現和數據挖掘(Knowledge Discovery and Data Mining)。儘管如此,數據挖掘也有自己的圈。我欣賞他在這裡的所作所為,這裡為了說明數據科學是個多學科的領域,數據科學的價值在於其所需技能的廣度。顯然,這些技能中有一個是神經計算(Neurocomputing) ,這似乎也有點太…..具體了。

註:
KDD:Knowledge Discovery and Data Mining,知識發現和數據挖掘。
AI:Artificial Intelligence,人工智慧。
3. 2013·Ulrich Matter版
緊跟著Conway的腳步,Ulrich Matter也在2013年同一個月內在博客上發表了自己的版本。
他把Conway的版本沿對角線做了個翻轉,把「實質性專業」指定為社會科學(他的領域),把「 黑客能力(Hacking)」 改成「計算機科學」 (你可以理解為什麼有人會不想被定性為一個黑客,雖然我本人沒意見),由於一些原因,他把「 數學與統計」 改成了「 定量方法(Quantitative Methods)」 。更重要的是,他把在Conway版本中本應該是「機器學習」的地方改成了「數據科學」——這是一個有趣的差別。有些數據科學家專注於一個領域,也有些人是通才(這些人通常在一個領域開始,但一發不可收拾,像我這樣的:我一開始在化學行業而現在我在保險行業)的數據科學家。此外,他顯然對「危險區」這個詞感到不舒服,將其更改為…一個問號。但很顯然,最重要的是圖的中心:數據驅動計算[社會](Data-driven Computational [Social] Science)。

我們可以說它有點…羅嗦?他還在「傳統研究」的前面加上了「實驗性」這個詞。
4.Joel Grus版
愛德華·斯諾登消息傳出後, Joel Grus提供了這個混亂的版本。現在我們進入這種四個圈的維恩圖領域,第四個圈就是很討厭的。

註:
NSA:National Security Agency,國家安全局。
5.2013年·Harlan Harris版
2013年9月,Harlan Harris用了這個圖來處理數據產品,而不是數據科學。
每一個切片不再和Conway的版本相對應,因為我們已經完成從科學到產品的變化,但是類別仍值得關注(他們也跟著真正的維恩的方法,不是獨立的切片本身)。「領域知識」仍然存在,「計算機科學/黑客」仍然作為「 軟體工程」存在。此外,關鍵的是Harris在統計圈上增加了預測分析和可視。統計圈和軟體工程圈的交集是實際應用的工具。

2014年1月,Steven Geringer提供了一個調整,不再像Conway那樣把數據科學放在中間三路交叉口,而是稱整個事情為「數據科學」, 三個圈的交界處為獨角獸(意思是像一個神獸一樣,傳言存在,但從來沒有人在野外親眼看到。)
這是…有點怪異,如果按維恩圖解來說。我想我知道他想要幹嗎。當我第一次聽到有人被稱為數據科學家,我經常聽到還擊,「難道不是所有的科學家,顧名思義,都是數據科學家?」誠然,任何科學都不能沒有數據處理,不過,數據科學,而相當模糊的,不能是一個總稱。
另外,我很抱歉,但你可以看到他的滑鼠箭頭還在截屏圖上呢。

在2014年2月,Michael Malak增加了第四個圈,聲稱Conway在說「實質性專業」時,意思不是領域知識。
根據Malak的說法,當涉及到「實質性專業識:「你繼續用這個詞。我不認為它是你認為的意思。」 Malak把它分成領域專業知識,和……呃,和某一個領域的知識比如社會科學。也許是我想太多,但我不明白他們的區別。我也不知道他想用「整體的傳統研究」表達什麼。科學數據,再次回到了獨角獸的位置,有三個危險區域(其中一個還是雙重危)。看起來每個人都討厭「黑客」這個詞。

我的下一個例子來自Vincent Granville,他於2014年4月轉發了Gartner的作品,但我不知道其原作的具體日期。
這是數據科學解決方案,而不是數據科學本身的維恩圖; 因此,數據科學是其中一個圈,與其他的能力(通常不屬於同一個人,但希望在同一個團隊裡)是IT技能和業務技能。有點困擾我的是,文字標籤指著每個圈裡非常具體的位置,但實際位置卻是任意的。

Shelly Palmer在赫芬頓郵報上客串博客中發表了他自己書裡的這個圖:

在2015年11月,StackExchange數據科學用戶Stephan Kolassa想出了我個人的最愛的圖,其在Conway的版本上加了「交流」,並把「實質性專業」改成了「業務」。
關於他的這個成果,在這個測試版發布論壇上得到了21個「贊」(我就是其中之一)。他的分類都還不錯。我想我可以被歸入「好的顧問」這一類。或可能是「平庸顧問」。或者是個「用力過猛」的顧問?
是的,這才是一個四圈維恩圖該有的樣子,不是之前Malak那種不能包含交叉點的所有組合的四個同心圓。

2016年,Matthew Mayo的博客發表了由Gregory Piatetsky-Shapiro製作的一張圖。
好吧,雖然它聲稱是數據科學的維恩圖:第一,它不是一個維恩圖;第二,數據科學是其中的一個圈。大數據被承認令人欣喜,不過…這個字體是啥情況?

最後(我敢肯定,我沒有收集到所有的。如果你知道有哪張維恩圖我錯過了,請讓我知道),後來在2016年,Gartner在他的博客上重做了他那樣有點繁忙的數據解決方案圖,並使其更漂亮和更加基於數據科學。
我們兜了一圈,又回到Conway,除了「危險區」又一次所取代,這一次被改了「數據工程師」。我喜歡這次文字都指向圈的邊緣,比他們以前的亂標註好多了。

維基百科上關於科學的頁面有以下這個不完全是維恩圖的圖:

說真的,在我看來,這是看待數據科學的方式。也許不是這些具體的技能,但它確實是不同學科的協同作用。不幸的是,在一門學科的技能有時可以掩蓋自己也許在另外一門學科知識的嚴重缺陷,從而破壞數據科學的名聲。(在我虛度年華的青春歲月,我也許也是促成了這一現象的一分子。)
當然,那麼你則需要一個非常複雜的維恩圖。
它們確實存在——
這裡有一個七維級別的:

選文 | Aileen
翻譯 | Aileen
校對 | 黃念
來自大數據文摘