機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!

2020-12-11 騰訊網

作者:Vincent Granville,來源:機器之心

在本文中,數據科學家與分析師 Vincent Granville 明晰了數據科學家所具有的不同角色,以及數據科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。

1. 數據科學家具有哪些不同類型?

要更詳細地了解數據科學家的類型,可參閱文章:http://suo.im/28rlX1 和 http://suo.im/3NNUpd。更多有用的信息可參閱:

數據科學家與數據架構師:http://suo.im/4bRkRG

數據科學家與數據工程師:http://suo.im/3mpo6E

數據科學家與統計學家:http://suo.im/2GGtfG

數據科學家與業務分析師:http://suo.im/3h0hkX

而在最近,數據科學家 Ajit Jaokar 則又討論了 A 型數據科學家(分析師)和 B 型數據科學家(建造者)之間的區別:

A 型數據科學家能夠很好地編寫操作數據的代碼,但並不一定是一個專家。A 型數據科學家可能是一個實驗設計、預測、建模、統計推理或統計學方面的事情的專家。然而總體而言,一個數據科學家的工作產品並不是「P 值和置信區間」——就像學術界的統計學有時候建議的那樣(而且這常常是為傳統的製藥等等行業工作的)。在谷歌,A 型數據科學家被稱為統計學家、定量分析師、決策支持工程開發分析師,也有一些被稱為數據科學家。

B 型數據科學家:這裡的 B 是指 Building。B 型數據科學家和 A 型數據科學家具有相同的背景,但他們還是很強的程式設計師、甚至經驗豐富的軟體工程師。B 型數據科學家主要關注在生產環境中使用數據。他們構建能與用戶進行交互的模型,通常是提供推薦(產品、可能認識的人、廣告、電影、搜索結果等)。

而對於業務處理優化,我也有自己的看法,我將其分成了 ABCD 四個方向,其中 A 表示分析科學(analytics science),B 表示業務科學(business science),C 表示計算機科學(computer science),D 則表示數據科學(data science)。數據科學可能會涉及到編程或數學實踐,但也可能不會涉及到。你可以參考 http://suo.im/11bR7o 這篇文章了解高端和低端的數據科學的差異。在一家創業公司,數據科學家通常要做很多類型的工作,其扮演的工作角色可能包括:執行、數據挖掘師、數據工程師或架構師、研究員、統計學家、建模師(做預測建模等等)和開發人員。

雖然數據科學家常常被看作是經驗豐富的 R、Python、SQL、Hadoop 程式設計師,而且精通統計學,但這不只不過是冰山一角而已——人們對於數據科學家的這些看法不過是來自於重在教授數據科學的部分元素的數據培訓項目而已。但正如一位實驗室技術人員也可以稱自己為物理學家一樣,真正的物理學家遠不止於此,而且他們的專業領域也是非常多樣化的:天文學、數學物理、核物理、力學、電氣工程、信號處理(這也是數據科學的一個領域)等等許多。數據科學也是一樣,包含的領域有:生物信息學、信息技術、模擬和量化控制、計算金融、流行病學、工業工程、甚至數論。

對我而言,在過去的十年裡,我專注於機器到機器和設備到設備的通信、開發能自動處理大型數據集的系統、執行自動化交易(比如購買網絡流量或自動生成內容)。這意味著需要開發能夠處理非結構化數據的算法,這也是人工智慧、物聯網和數據科學的交叉領域,也可被稱為深度數據科學(deep data science)。其對數學的需求相對較少,也只涉及到較少的編程(大部分是調用 API),但其卻是相當數據密集型的(包括構建數據系統),並且基於專門為此背景而設計的全新統計技術。

在此之前,我的工作是實時的信用卡欺詐檢測。在我事業的早期階段(大約 1990 年),我開發過圖像遠程感知技術,其中包括識別衛星圖像的模式(形狀和特徵,比如湖泊)和執行圖像分割:那段時間我的研究工作被稱為是計算統計學,但在我的母校,隔壁的計算機科學系也在做著幾乎完全一樣的事情,但他們把自己的工作叫做是人工智慧。

今天,這項工作被稱作數據科學或人工智慧,其子領域包括信號處理、用於物聯網的計算機視覺等。

另外,數據科學家也可以在各種各樣的數據科學項目中出現,比如數據收集階段或數據探索階段一直到統計建模和已有系統維護。

2. 機器學習 vs 深度學習

在深入探討數據學習與機器學習之間的區別前,我們先簡單討論下機器學習與深度學習的區別。機器學習一系列在數據集上進行訓練的算法,來做出預測或採取形同從而對系統進行優化。例如,基於歷史數據,監督分類算法就被用來分類潛在的客戶或貸款意向。根據給定任務的不同(例如,監督式聚類),用到的技術也不同:樸素貝葉斯、支持向量機、神經網絡、ensembles、關聯規則、決策樹、邏輯回歸或多種方法之間的結合。

這些都是數據科學的分支。當這些算法被用於自動化的時候,就像在自動飛行或無人駕駛汽車中,它被稱為人工智慧,更具體的細說,就是深度學習。如果數據收集自傳感器,通過網際網路進行傳輸,那就是機器學習或數據科學或深度學習應用到了 IoT 上。

有些人對深度學習有不同的定義。他們認為深度學習是帶有更多層的神經網絡(神經網絡是一種機器學習技術)。深度學習與機器學習的區別這一問題在 Quora 上也被問到過,下面對此有詳細的解釋:

人工智慧是計算機科學的一個子領域,創造於 20 世紀 60 年代,它涉及到解決對人類而言簡單卻對計算機很難的任務。詳細來說,所謂的強人工智慧系統應該是能做人類所能做的任何事。這是相當通用的,包含所有的任務,比如規劃、到處移動、識別物體與聲音、說話、翻譯、完成社會或商業事務、創造性的工作(繪畫、作詩)等。

自然語言處理只是人工智慧與語言有關的一部分。

機器學習被認為是人工智慧的一方面:給定一些可用離散術語(例如,在一些行為中,那個行為是正確的)描述的人工智慧問題,並給出關於這個世界的大量信息,在沒有程式設計師進行編程的情況下弄清楚「正確」的行為。典型的是,需要一些外部流程判斷行為是否正確。在數學術語中,也就是函數:饋入輸入,產生正確的輸出。所以整個問題就是以自動化的方式建立該數學函數的模型。在二者進行區分時:如果我寫出的程序聰明到表現出人類行為,它就是人工智慧。但如果它的參數不是自動從數據進行學習,它就不是機器學習。

深度學習是如今非常流行的一種機器學習。它涉及到一種特殊類型的數學模型,可認為它是特定類型的簡單模塊的結合(函數結合),這些模塊可被調整從而更好的預測最終輸出。

3.機器學習 vs 統計學

《Machine Learning Vs. Statistics》這篇文章試圖解答這個問題。這篇文章的作者認為統計學是帶有置信區間(confidence intervals)的機器學習,是為了預測或估計數量。

4. 數據科學 vs 機器學習

機器學習和統計學都是數據科學的一部分。機器學習中的學習一詞表示算法依賴於一些數據(被用作訓練集),來調整模型或算法的參數。這包含了許多的技術,比如回歸、樸素貝葉斯或監督聚類。但不是所有的技術都適合機器學習。例如有一種統計和數據科學技術就不適合——無監督聚類,該技術是在沒有任何先驗知識或訓練集的情況下檢測 cluster 和 cluster 結構,從而幫助分類算法。這種情況需要人來標記 cluster。一些技術是混合的,比如半監督分類。一些模式檢測或密度評估技術適合機器學習。

數據科學要比機器學習廣泛。數據科學中的數據可能並非來自機器或機器處理(調查數據可能就是手動收集,臨床試驗涉及到專業類型的小數據),就像我剛才所說的,它可能與「學習」沒有任何關係。但主要的區別在於數據科學覆蓋整個數據處理,並非只是算法的或統計類分支。細說之,數據科學也包括:

數據集成(data integration)

分布式架構(distributed architecture)

自動機器學習(automating machine learning)

數據可視化(data visualization)

dashboards 和 BI

數據工程(data engineering)

產品模式中的部署(deployment in production mode)

自動的、數據驅動的決策(automated, data-driven decisions)

當然,在許多公司內數據科學家只專注這些流程中的一個。

相關焦點

  • 人工智慧,機器學習和深度學習之間的差異是什麼?
    人工智慧,機器學習和深度學習都是屬於一個領域的一個子集。但是人工智慧是機器學習的首要範疇。機器學習是深度學習的首要範疇。深度學習是機器學習的一個子集,機器學習是人工智慧的一個子集這個領域的興起應該歸功於深度學習。人工智慧和機器學習這個領域近年來一直在解決一系列有趣的問題,比如從自動化的雜貨店購買到自動駕駛汽車。
  • 人工智慧、機器學習和深度學習的區別和聯繫
    機器學習:一種實現人工智慧的方法機器學習最基本的做法,是使用算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程序不同,機器學習是用大量的數據來「訓練」,通過各種算法從數據中學習如何完成任務。舉個簡單的例子,當我們瀏覽網上商城時,經常會出現商品推薦的信息。
  • 人工智慧、機器學習和深度學習的區別是什麼?
    你也許最近經常聽到「人工智慧」和另外幾個詞彙同時出現,特別是「機器學習」和「深度學習」。它們經常被互換使用,儘管它們存在關聯,但其實並非同一事物。  這樣說可能會讓人感到困惑。我們通過一個經典的例子來解釋人工智慧、機器學習和深度學習之間的區別:比較蘋果和橙子。---  人工智慧   ---  從廣義上講,人工智慧描述一種機器與周圍世界交互的各種方式。通過先進的、像人類一樣的智能——軟體和硬體結合的結果——一臺人工智慧機器或設備就可以模仿人類的行為或像人一樣執行任務。
  • 人工智慧、機器學習和深度學習的區別?
    如上圖,人工智慧是最早出現的,也是最大、最外側的同心圓;其次是機器學習,稍晚一點;最內側,是深度學習,當今人工智慧大爆炸的核心驅動。五十年代,人工智慧曾一度被極為看好。之後,人工智慧的一些較小的子集發展了起來。先是機器學習,然後是深度學習。深度學習又是機器學習的子集。
  • 人工智慧、機器學習和深度學習之間的區別和聯繫
    在媒體描述DeepMind勝利的時候,將人工智慧(AI)、機器學習(machine learning)和深度學習(deep learning)都用上了。這三者在AlphaGo擊敗李世乭的過程中都起了作用,但它們說的並不是一回事。今天我們就用最簡單的方法——同心圓,可視化地展現出它們三者的關係和應用。
  • 一篇文章讀懂:人工智慧、機器學習和深度學習的區別
    弱人工智慧有希望取得突破,是如何實現的,「智能」又從何而來呢?這主要歸功於一種實現人工智慧的方法——機器學習。 機器學習:一種實現人工智慧的方法 機器學習最基本的做法,是使用算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。
  • 人工智慧、機器學習、深度學習之間究竟是什麼關係
    人工智慧時代已經到來。超多維所布局的智能計算視覺技術體系,對人工智慧領域聚焦於視覺層面的改變和顛覆。隨著人工智慧熱度的不斷提升,人工智慧、機器學習和深度學習頻頻被提及。今天我們就從行業內的主流觀點出發,淺析一下三者的區別與聯繫。人工智慧是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。
  • 人工智慧、機器學習、深度學習的區別在哪?
    人工智慧、機器學習、深度學習的區別在哪?
  • 一篇文章講清楚人工智慧、機器學習和深度學習的區別和聯繫
    其後,人工智慧就一直縈繞於人們的腦海之中,並在科研實驗室中慢慢孵化。之後的幾十年,人工智慧一直在兩極反轉,或被稱作人類文明耀眼未來的預言,或被當成技術瘋子的狂想扔到垃圾堆裡。直到2012年之前,這兩種聲音還在同時存在。2012年以後,得益於數據量的上漲、運算力的提升和機器學習新算法(深度學習)的出現,人工智慧開始大爆發。
  • AI、機器學習和深度學習之間的區別是什麼?
    (原標題:人工智慧、機器學習和深度學習之間的區別和聯繫)
  • 機器學習和深度學習的 5 個關鍵區別
    這類人群就是機器學習工程師。「人工智慧」、「機器學習」和「深度學習」這三個詞經常交替出現,但如果你正在考慮從事人工智慧的職業,了解它們之間的區別是很重要的。讓我們深入討論機器學習和深度學習到底是什麼,以及機器學習和深度學習的區別。什麼是機器學習?通過機器學習,計算機系統通過編程來學習輸入的數據,而不需要重複編程。換言之,他們不斷地提高自己在任務上的表現,例如,在沒有人幫助下玩遊戲。機器學習被廣泛應用於藝術、科學、金融、醫療等領域。
  • 機器喵大作戰 | 解剖人工智慧、機器學習和深度學習
    同時,本書不是割裂講解大數據與機器學習的算法和應用,還講解了其生態環境與關聯內容,讓讀者更全面地知曉淵源與未來,是系統學習大數據與機器學習的不二之選。 推薦語:以降低學習曲線和閱讀難度為宗旨,重點講解了統計學、數據挖掘算法、實際應用案例、數據價值與變現,以及高級拓展技能,清晰勾勒出大數據技術路線與產業藍圖。
  • 機器學習和深度學習的區別
    人工智慧是一類非常廣泛的問題,機器學習是其中一個重要領域和手段,深度學習則是機器學習的一個分支。在很多人工智慧問題上,深度學習的方法突破了傳統機器學習的瓶頸,因而影響力迅速擴大。什麼是機器學習?機器學習擅長做什麼?當然是替代重複的人工勞動,用機器自動從大量數據中識別模式——也就是「套路」啦。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    數據科學和數據挖掘在許多人看來很相似,因此必須了解它們之間的一些主要的區別。如今,數據科學家通常被認為是最有前途和最有利可圖的工作之一。美國勞工統計局預計,到2029年,美國對於數據科學家的市場需求將增加到37700人。
  • 人工智慧、機器學習和深度學習做好準備的數據中心
    人工智慧、機器學習、深度學習應用程式的密集需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是在IT架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。Excelero公司首席技術官Sven Breuner和首席架構師Kirill Shoikhet分享了9個為人工智慧、機器學習和深度學習準備數據中心的最佳實踐。
  • 《Deep Learning with Python》第一章 1.1 人工智慧、機器學習和深度學習
    接著解決這幾個問題:目前深度學習能實現什麼?深度學習的意義如何?人類下一步該如何做?你相信關於人工智慧的宣傳嗎?本章介紹人工智慧、機器學習和深度學習相關知識。1.1 人工智慧、機器學習和深度學習首先,當人們討論AI時要清楚談論的是什麼?
  • 機器學習和深度學習有什麼區別?
    在本文中,我們將研究深度學習和機器學習之間的差異。我們將逐一了解它們,然後討論他們在各個方面的不同之處。
  • 報名|北大光華 「深度學習與統計學理論」研討會
    深度學習作為處理非結構化數據的一種手段,走向大規模產業化應用已成為從政策導向到行業共識的一致方向。為此,建立深度學習平臺助力產業應用,加速支持產業智能化,也已經成為當前學術界和各行業最炙手可熱的研究應用方向。由北京大學光華管理學院商務統計與經濟計量系主辦的「深度學習與統計學理論」研討會將於11月19日在北京大學線上、線下同步進行。
  • 網際網路上20大免費數據科學、機器學習和人工智慧慕課
    機器學習與人工智慧- 機器學習與人工智慧基礎- 深度學習- 自然語言處理- 計算機視覺我沒有實地考察不同課程,也沒有花幾個小時過濾網上的幹擾信息,而是編輯了這個列表,其中包含了我發現在機器學習、人工智慧
  • 為人工智慧、機器學習和深度學習做好準備的數據中心實踐
    人工智慧、機器學習、深度學習應用的強烈需求對數據中心的性能、可靠性和可擴展性提出了挑戰,尤其是當架構師模仿公共雲的設計以簡化向混合雲和內部部署的過渡時。GPU(圖形處理單元)伺服器如今很常見,圍繞GPU計算的生態系統正在迅速發展,以提高GPU工作負載的效率和可擴展性。然而在避免存儲和網絡中潛在的瓶頸的同時,也有一些技巧可以很大限度地提高GPU的利用率。