13張圖看6年來數據科學概念之爭

2020-11-23 199IT

2010年起,Drew Conway開始用一張維恩圖(即用不同的圓圈顯示元素集合重疊區域的圖示)表示數據科學,之後,不同的數據科學家也根據自己對數據科學的理解對這一維恩圖進行了不同程度的刪改和調整。

Drew Conway的第一張維恩圖至今依然是很多數據科學家最認可的對數據科學的基本描述,這張圖清楚的顯示了,數據科學最相關知識來自三大基礎領域:數學和統計知識、計算機科學、行業應用知識。

本文用13張經典維恩圖展示了數據科學這個領域,你最喜歡哪一張?你覺得哪張圖最能代表你對數據科學的理解?

數據科學是一個定義相當模糊的詞語。我聽到的一些定義有——

「這是一項需要比大多數統計學家更多的編程技巧,和比程式設計師更多的統計數據技能的工作。」

「是應用統計,但在舊金山卻不是。」

「有人突然決定在自己的名片上印上『數據科學家』這幾字,然後靠著這個漲了工資。」

就我個人而言,我最近決定稱呼自己為數據礦工來避免爭議。(無論如何,數據礦工並不時髦。)

數據科學是一個尋找定義的行業,人們進行著很多不同的嘗試來定義它也不足為奇。

作為一個充滿著數據書呆子而且對可視化情有獨鐘的領域,很多人在嘗試定義時使用維恩圖也是不足為奇。

1. 2010年·Drew Conway版

 
 

他的個人博客在2013年因為發表了數據科學維恩圖而火了起來。對於Conway,圖的中心是數據科學。關於下面的那個圈「實質性專業(Substantive Expertise)」的含義(我接下來會進一步解釋)有過一些爭議:我只能說,如果是Conway的意思不是我所說的領域知識(例如物理學)而是其他的東西,那麼他選擇的這個名字確實不怎麼樣。

因此,假如領域知識是他的意思,至少這個想法的一部分是:比如一個物理學家,本來具有物理和數學/統計的專業知識,但缺乏黑客知識(我見過不少物理學家也有黑客知識,故而這個現象現在並不那麼普遍了);機器學習專家有時會在缺乏對要進行分析的事情所在領域知識情況下,對他們要分析的事情應用算法(這和我第一次在一個全新的產業裡起步建立模型時的情況一模一樣,我不得不作了很多知識補充);還有的人可以編程,並且知道自己領域內的知識,但卻沒辦法知道什麼時候是偶然,什麼時候是一個統計上顯著的結果,這樣的人是很危險的;他們給出的解決辦法可能會是非常錯誤的,導致他們公司大量的經濟損失。

2. 2012年 Brendan Tierne版

這個圖……確實看起來有點亂。順便說一句,KDD代表知識發現和數據挖掘(Knowledge Discovery and Data Mining)。儘管如此,數據挖掘也有自己的圈。我欣賞他在這裡的所作所為,這裡為了說明數據科學是個多學科的領域,數據科學的價值在於其所需技能的廣度。顯然,這些技能中有一個是神經計算(Neurocomputing) ,這似乎也有點太…..具體了。

 

註:

KDD:Knowledge Discovery and Data Mining,知識發現和數據挖掘

AI:Artificial Intelligence,人工智慧。

3. 2013·Ulrich Matter版

緊跟著Conway的腳步,Ulrich Matter也在2013年同一個月內在博客上發表了自己的版本。

他把Conway的版本沿對角線做了個翻轉,把「實質性專業」指定為社會科學(他的領域),把「 黑客能力(Hacking)」 改成「計算機科學」 (你可以理解為什麼有人會不想被定性為一個黑客,雖然我本人沒意見),由於一些原因,他把「 數學與統計」 改成了「 定量方法(Quantitative Methods)」 。更重要的是,他把在Conway版本中本應該是「機器學習」的地方改成了「數據科學」——這是一個有趣的差別。有些數據科學家專注於一個領域,也有些人是通才(這些人通常在一個領域開始,但一發不可收拾,像我這樣的:我一開始在化學行業而現在我在保險行業)的數據科學家。此外,他顯然對「危險區」這個詞感到不舒服,將其更改為…一個問號。但很顯然,最重要的是圖的中心:數據驅動計算[社會](Data-driven Computational [Social] Science)。

 

我們可以說它有點…羅嗦?他還在「傳統研究」的前面加上了「實驗性」這個詞。

4.Joel Grus版

愛德華·斯諾登消息傳出後, Joel Grus提供了這個混亂的版本。現在我們進入這種四個圈的維恩圖領域,第四個圈就是很討厭的。

 

註:

NSA:National Security Agency,國家安全局。

5.2013年·Harlan Harris版

2013年9月,Harlan Harris用了這個圖來處理數據產品,而不是數據科學。

每一個切片不再和Conway的版本相對應,因為我們已經完成從科學到產品的變化,但是類別仍值得關注(他們也跟著真正的維恩的方法,不是獨立的切片本身)。「領域知識」仍然存在,「計算機科學/黑客」仍然作為「 軟體工程」存在。此外,關鍵的是Harris在統計圈上增加了預測分析和可視。統計圈和軟體工程圈的交集是實際應用的工具。

 
6.2014年·Steven Geringer版

2014年1月,Steven Geringer提供了一個調整,不再像Conway那樣把數據科學放在中間三路交叉口,而是稱整個事情為「數據科學」, 三個圈的交界處為獨角獸(意思是像一個神獸一樣,傳言存在,但從來沒有人在野外親眼看到。)

這是…有點怪異,如果按維恩圖解來說。我想我知道他想要幹嗎。當我第一次聽到有人被稱為數據科學家,我經常聽到還擊,「難道不是所有的科學家,顧名思義,都是數據科學家?」誠然,任何科學都不能沒有數據處理,不過,數據科學,而相當模糊的,不能是一個總稱。

另外,我很抱歉,但你可以看到他的滑鼠箭頭還在截屏圖上呢。

 
7.2014年·Michael Malak版

在2014年2月,Michael Malak增加了第四個圈,聲稱Conway在說「實質性專業」時,意思不是領域知識。

根據Malak的說法,當涉及到「實質性專業識:「你繼續用這個詞。我不認為它是你認為的意思。」 Malak把它分成領域專業知識,和……呃,和某一個領域的知識比如社會科學。也許是我想太多,但我不明白他們的區別。我也不知道他想用「整體的傳統研究」表達什麼。科學數據,再次回到了獨角獸的位置,有三個危險區域(其中一個還是雙重危)。看起來每個人都討厭「黑客」這個詞。

 
8.Vincent Granville

我的下一個例子來自Vincent Granville,他於2014年4月轉發了Gartner的作品,但我不知道其原作的具體日期。

這是數據科學解決方案,而不是數據科學本身的維恩圖; 因此,數據科學是其中一個圈,與其他的能力(通常不屬於同一個人,但希望在同一個團隊裡)是IT技能和業務技能。有點困擾我的是,文字標籤指著每個圈裡非常具體的位置,但實際位置卻是任意的。

 
9.Shelly Palmer

Shelly Palmer在赫芬頓郵報上客串博客中發表了他自己書裡的這個圖:

 
10.2015年·Stephan Kolassa版本

在2015年11月,StackExchange數據科學用戶Stephan Kolassa想出了我個人的最愛的圖,其在Conway的版本上加了「交流」,並把「實質性專業」改成了「業務」。

關於他的這個成果,在這個測試版發布論壇上得到了21個「贊」(我就是其中之一)。他的分類都還不錯。我想我可以被歸入「好的顧問」這一類。或可能是「平庸顧問」。或者是個「用力過猛」的顧問?

是的,這才是一個四圈維恩圖該有的樣子,不是之前Malak那種不能包含交叉點的所有組合的四個同心圓。

 
11.2016年·Matthew Mayo與Gregory Piatetsky-Shapiro版

2016年,Matthew Mayo的博客發表了由Gregory Piatetsky-Shapiro製作的一張圖。

好吧,雖然它聲稱是數據科學的維恩圖:第一,它不是一個維恩圖;第二,數據科學是其中的一個圈。大數據被承認令人欣喜,不過…這個字體是啥情況?

 
12.2016年·Gartner版

最後(我敢肯定,我沒有收集到所有的。如果你知道有哪張維恩圖我錯過了,請讓我知道),後來在2016年,Gartner在他的博客上重做了他那樣有點繁忙的數據解決方案圖,並使其更漂亮和更加基於數據科學。

我們兜了一圈,又回到Conway,除了「危險區」又一次所取代,這一次被改了「數據工程師」。我喜歡這次文字都指向圈的邊緣,比他們以前的亂標註好多了。

 
13.未來的數據科學維恩圖:

維基百科上關於科學的頁面有以下這個不完全是維恩圖的圖:

 

說真的,在我看來,這是看待數據科學的方式。也許不是這些具體的技能,但它確實是不同學科的協同作用。不幸的是,在一門學科的技能有時可以掩蓋自己也許在另外一門學科知識的嚴重缺陷,從而破壞數據科學的名聲。(在我虛度年華的青春歲月,我也許也是促成了這一現象的一分子。)

當然,那麼你則需要一個非常複雜的維恩圖。

它們確實存在——

這裡有一個七維級別的:

 
原作者 | David Taylor

選文 | Aileen

翻譯 | Aileen

校對 | 黃念

來自大數據文摘

相關焦點

  • 10張動圖,讓你秒懂這些常見科學的概念
    如何更好的理解這些科學的概念呢?看完這 10 張動圖你就知道了。1、鑽出方孔從你這張動圖可以完美地為你解釋原理,它就像衛士一樣,可以吞噬細菌或是病毒/其他微生物寄生蟲,讓這些病毒無處可逃。3、煙霧裡的易燃物質
  • 從「微積分」發明之爭看科學巨匠,原來牛頓也是個小心眼的人
    在以往的節目中,我們聊了很多歷史和軍事的故事,今天,我們換換口味,來聊一聊科技圈,曾經發生的有趣事——「微積分」發明之爭、我們先來介紹一下
  • 小白學數據28張小抄放送 Python,R,大數據,機器學習
    目錄: 1.數據科學專場: Python小抄表 2.數據科學專場:R的小抄表 3.機器學習小抄表 4.概率小抄表 5.SQL和MySQL小抄表 6.大數據小抄表 我們這一期小白學數據專欄篩選了28份小抄,根據覆蓋面、清晰度和內容實用性,分別涵蓋了機器學習、數據科學、概率、SQL和大數據的領域。裡面包括了你所需要的工具、流程、各種包和語言。 數據科學專場:Python小抄表 小白:我們先來回顧一下之前聊過的Python。幫我們這樣的小白介紹一下有什麼Python方面的小抄吧?
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    有人說數據湖是下一代大數據平臺,各大雲廠商也在紛紛的提出自己的數據湖解決方案,一些雲數倉產品也增加了和數據湖聯動的特性。但是數據倉庫和數據湖的區別到底是什麼,是技術路線之爭?是數據管理方式之爭?二者是水火不容還是其實可以和諧共存,甚至互為補充?
  • 從4710萬論文大數據,看科學概念如何演化和傳播?
    科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分布、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數位化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。
  • 慶承瑞:全球變暖與反變暖之爭和病態科學
    真正有儀表測量而記錄下來的地表氣溫數據大致始自1850年。IPCC-AR4,2007中總結如下:1995~2006年間,有11年進入了有儀表記錄以來最熱的12年之中;1906~2005年的百年溫度升高0.74℃±0.18℃,其中最後50年的每10年溫度上升0.13℃±0.03℃,比百年平均的每10年升高值要高出一倍(見圖一)。
  • 用「宮鬥」解讀楊振寧王貽芳對撞機之爭,是把科學庸俗化
    幾個月後,一篇名為《楊振寧的最後一戰》的熱帖傳遍網絡,作者從科學和時局的角度細緻分析了楊振寧與王貽芳的對撞機之爭,然而細細咂摸,文章通篇通俗、接地氣的熱鬧之下卻隱隱夾雜著一股濃濃的「宮鬥」意味,近乎將一場科學之爭描述成了「保守派」楊振寧的造神論證,而那些支持建對撞機的科學家則被打為「激進派」,更像因私人好惡與名利糾纏去浪費人類資源的「敗家子」。
  • 六張圖片揭示數據背後的科學
    (圖片來源:oldskool photography / Unsplash, CC BY)作為一個在比分子更小尺度上工作的實驗視頻製作者,我置身於各種各樣的科學可視化環境中。在閱讀關於科學發現的媒體報導時,我有時會遇到這樣的說法:一種特定的科學可視化實際上是一張照片,例如:第一張氫原子內部的照片。
  • 「新世紀第一縷曙光」之爭白熱化
    而兩天前,北京天文臺名譽臺長、中科院院士、中國2000年委員會主席王綬琯也在北京宣布:祖國大陸新世紀的第一縷曙光照射點在溫嶺市石塘鎮。  兩家同樣權威的學術機構的不同結論,使本就鬧得沸沸揚揚的「世紀曙光」權屬之爭達到了高潮。  溫嶺、臨海同屬浙江台州市,爭議緣起於台州市氣象局的兩位氣象工作者。去年,第一縷曙光首照溫嶺石塘的消息公布,台州市氣象局鄭金鐘對此提出質疑。
  • 王菲方舟子之爭:是科學的一言堂還是對信仰的呵護
    王菲方舟子之爭:是科學的一言堂還是對信仰的呵護(圖片來源:資料圖)編者按:近日,有「打假鬥士」之稱的方舟子與信奉佛教的娛樂明星王菲近日在網絡上展開了一場「遭遇戰」。兩人就一尊火災中「完好無損」的木製佛像展開了一番關於信仰和科學的辯論,王菲認為方舟子是「科學的不講理」,方舟子則回敬稱王菲「不要信仰地不講理」。那麼,王菲方舟子之爭究竟是出於對科學的迷信而作的捍衛還是對信仰而作的本能呵護?鳳凰網華人佛教將就此事件獨家採訪哲學界、佛學界、科學界等知名學者,由他們為我們解讀王菲方舟子之爭的學術觀點。以下是上海佛教協會金易明先生的觀點。
  • 關鍵概念:每個數據科學家都應了解的5個概念
    圖源:unsplash本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對於你今後的職業生涯大有益處。這一概念之所以引起關注,有以下幾個原因。對於某些建模技術來說,多重共線性可能導致過擬合,最終降低模型性能。冗餘數據時有出現,模型中的所有特徵或屬性並非都是有必要的。因此,可以採用某些方法來找到應該被刪除的特徵,正是它們導致了多重共線性。
  • 12張逼死人的錯覺圖:第一幅就看瘋了
    近日,再由Georg Rüschemeyer編寫的新書《視覺錯覺新解》(The New Book of Optical Illusions)當中對視覺錯覺的形成進行了闡述,同時還分享了150張錯覺圖,界面新聞挑選了其中最具代表性的12張圖,看看有多少圖會讓你產生視錯覺。
  • 回顧2019年20張天文美圖
    下面我們選出了2019年年度天文美圖二十佳,希望這些奇妙的景觀,能有一個在你心上留下永恆的烙印。 1.安第斯山脈的」鑽戒「 天文攝影師RonBrecher利用從澳大利亞新南威爾斯的一個天文臺獲得的數據製作了這個星系的美妙圖片。 圖片來源:RonBrecher 7.三星共晨
  • 遠坂凜「腿玩年」的梗是怎麼來的?看完這12張圖你就知道了
    特別提醒,請務必全部看完,因為只有全部看完才不會錯過最好看的動漫美圖。本期我們為大家帶來的二次元動漫主題為『遠坂凜』,「腿玩年」的梗是怎麼來的?看完這13張圖你就知道了本期導讀:對遠坂凜認識的誤區、腿玩年的梗、遠坂凜是動漫界的偽富婆、下期動漫預告。
  • 盤點6張色盲自測圖,圖五你是不是看不出有什麼?
    那麼下面就來盤點6張色盲自測圖,如果一關都過不了,你可能就與駕照無緣了。圖一、這算是比較基礎入門的一張色盲側視圖了,裡面有多種顏色的大小不一的圓點,其中紅色和橙色的圓點組成了左側上方的一個倒三角以及右側下方的圓形,要是色覺正常的人很快就能看出這兩個圖形。
  • 光既非粒子亦非波,結束光的波粒二象性世紀之爭
    這個問題爭了幾個世紀也沒有定論,到底是為什麼呢?這個問題要從17世紀說起:1655年,格裡馬第發現了光的衍射,這是最早觀察到的光的波動性。1672年,牛頓在解釋光的色散時提出光是一種粒子……從此便開始了光是粒子還是波之爭。
  • 真人版《獅子王》曝光多張概念藝術圖
    真人版《獅子王》曝光多張概念藝術圖 時間:2019.08.05 來源:1905電影網 作者:Serko 分享到:
  • 【p值之爭】史丹福大學陸教授有話說
    在這篇論文中陸老師還特別提出了數據質量的問題:「進入分析的數據是垃圾,所產出的只能是垃圾!」看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。p 值之爭概述:p值是生物醫學研究中使用最廣泛的統計學概念。
  • 6張歐洲南方天文臺拍攝的高清美圖,帶你領略宇宙之美
    本文參加百家號 #科學了不起# 天文航天系列徵文賽。VISTA發現很多星團ESO天文臺VISTA紅外測量望遠鏡的數據,一支國際天文學家團隊發現了96個被銀河系中的塵埃隱藏的新開放星團。這個馬賽克中顯示了其中30個星團。
  • 壯美的33張宇宙圖!服役16年,斯皮策太空望遠鏡退役!
    斯皮策太空望遠鏡於2003年發射升空,任務是研究紅外線中的宇宙。在經歷了16年令人驚嘆的圖像和科學發現之後,美國宇航局(NASA)斯皮策太空望遠鏡任務於2020年1月30日結束(退役)。