數據科學專業是否會「被自動化」?

2020-11-22 雷鋒網

譯者:AI研習社(Suen

雙語原文連結:Is The Data Science Profession At Risk of Automation?


前幾天,我讀了一篇關於Uber希望如何賦予其每位員工數據科學力量的文章。以下引文特別引人注意:

「預測平臺的宏偉願景是只需按一下按鈕即可提供預測,完全不需要預測專家。用戶唯一需要的輸入是歷史數據,無論是CSV文件還是查詢連結的形式,以及預測範圍。您想預測多遠?其他一切都完全在引擎蓋下完成。」 — Uber 數據科學總監Franziska Bell

這讓我思考,預測真的可以商業化到這種程度嗎?微軟,谷歌和亞馬遜也一直在努力使他們的機器學習解決方案更加「drag and drop」他們各自的雲客戶,因此Uber絕對不是唯一的雄心壯志。

貝爾的話引出了兩個截然不同的結論-要麼Uber的預測平臺非常出色,要麼他們對預測未來的挑戰過於隨意。為了好玩,讓我們嘗試各種可能性:

Uber的預測平臺非常出色-只需按一下按鈕,Uber就能做些什麼來產生預測,而唯一需要輸入的是目標變量的歷史數據?他們必須能夠:

1. 擁有數據並知道是否要包含任何和所有相關功能。您需要外生變量來構建模型,尤其是當您嘗試預測複雜的事物時。 Uber不僅必須在生成預測之前隨時提供所有可用數據,還必須知道要包括哪些功能以及如何轉換每個功能。

2. 它還必須能夠比較和對比各種預測算法(線性回歸與隨機森林與神經網絡)。並能夠為每種特定算法選擇最優超參數。

3. 預測還必須進行回測(以減輕從模型中取出模型時發生爆炸的風險),Uber需要能夠與用戶溝通模型所基於的假設以及在何種條件下可能會崩潰。

達成這些要付出很多,只要他們能做到,就對他們表示敬意。

但是,如果Uber過於隨意,該怎麼辦–相反的觀點是,該預測平臺只是ARIMA model 或 LSTM,可以根據對目標的以往觀察來預測未來。對於某些應用程式,這是可以的。

但是僅使用目標變量的滯後作為特徵意味著可能會錯過關鍵的外生關係,這將使模型嚴重不適合併易於表現不佳。

對其保留一定態度

我個人對Uber的「預測即服務」目標持懷疑態度。我可以理解,Uber是否允許其員工使用預先構建的模型「按需」預測某些關鍵業務指標,這些模型已經過數據科學團隊的廣泛研究和完善。但是我不認為這就是弗朗茲卡·貝爾(Franziska Bell)的意思。看來她的目標是能夠通過按一下按鈕就幾乎可以預測所有事物。

這是一個非常困難的問題,幾乎是不可能的問題。讓我們逐步完成預測過程的每個步驟,以更好地了解可以輕鬆實現哪些自動化。

明確定義問題-需要預測什麼?

沒有要解決的問題,建立模型並進行預測就沒有多大意義了。因此,第一步是弄清楚我的問題是什麼,我可以預測該問題的哪些方面使問題更加清晰?

這通常不像乍看起來那樣明顯。自從Uber入手以來,讓我們繼續以它為例。假設我們是 Uber的分析師,我們的工作是預測明年舊金山 Uber的需求。我們能否僅將Uber需求的歷史時間序列提供給預測平臺並加以處理?

可能不是。我的意思是我們的老闆所說的需求是什麼意思?可能是以下任何一種:

因此,圍繞我們到底需要預測什麼是不明確的。您是否注意到,在充實需求定義時,我們需要逐步預測更多變量?

甚至車手本身的數量也是許多因素的相互作用:

因此,看似簡單的問題最終變得非常複雜且難以自動化。如上所述,正確的預測模型通常是多個單獨模型和預測的集合。如果我們沒有考慮到足夠多的變量,我們的模型將錯過關鍵的因素。而且,如果我們嘗試在集成中包含太多模型和/或預測,我們將迷失在複雜的迷宮中。

弄清楚要預測的內容並不容易,作為一名負責充實模型各個組成部分的架構師,經驗豐富的數據科學家可能是無價的,因此可以跨越太簡單和太複雜之間的界限。

識別有效的數據(並找到它)

一旦確定了要預測的變量並為我們的模型整體繪製了簡潔的流程圖,我們就準備好了嗎?錯,首先我們需要弄清楚我們是否擁有所需的所有數據。在最樂觀的情況下,我們所有的數據都可以使用,清洗並準備放入資料庫,但是在現實世界中很少有這樣的事情發生。

一旦知道了要預測的內容,就需要確定候選特徵集,以用於生成預測。通常,這些數據並不容易獲取-相反,數據科學家的工作是找出從哪兒、怎樣獲取這些數據。如果不可能直接觀察,那麼如何用實際可用的東西來替代它。

這一步也很難自動化。除非公司的數據湖像Google一樣廣闊和深厚,否則他們將需要數據科學家智能地、創造性地搜尋世界範圍內的有效數據。

建立預測—特徵工程和選擇正確算法

這部分可能更易於自動化。假設我們已成功獲取並清除了所有數據(不容易做到),那麼現在就可以構建模型了。

雖然我認為經驗豐富的數據科學家或統計學家在選擇正確的模型並正確設置其參數方面是非常寶貴的專家,但我也知道,在這裡絕對有可能採用暴力,自動化的方法。

您甚至可能會爭辯說,我們不必為了選擇最佳模型而運行和測試每個模型。相反,我們可以假設使用XGBoostor或神經網絡為我們提供足夠好的結果,前提是它們經過適當的訓練且不會過度擬合。

另外,上述兩種算法都有效地使特徵工程過程自動化。例如,給定足夠的神經元和層數,神經網絡可以輕鬆捕獲特徵與目標之間的任何非線性關係。因此,無需顯式地包含特性的日誌和指數或特性之間的交互作用。

當然,這種自動化需要付出一定的代價。可解釋性低-換句話說,我們不知道是什麼在推動我們的預測。例如,在線性回歸中,β係數A告訴我們特徵A增加1單位將始終對我們的預測產生確切的影響;在神經網絡中,我們不知道特徵A的增加如何影響我們的預測。

在當今的大數據和複雜數據世界中,模型的可解釋性似乎是一種很好的選擇,而不是必須具備的。但我認為,在更簡單,更易解釋的模型不花很多錢的情況下(就預測的準確性而言),保持簡單是明智的。

知道模型何時可能斷裂

賦予每個人預測能力一種被低估的風險是,沒有事先預測經驗的人對無效或過度擬合模型可能造成的破壞,缺乏健康的尊重。

從行為上講,當我們看到定量準確的預測時,就會陷入一種錯誤的安全感(我們對數字和數學的精度感到滿意)。 但是,經驗豐富的數據科學家會知道質疑模型的假設,並認識到模型在什麼條件下可能表現不佳。

這是另一個令人費解的模型的缺點-如果我們看不到推動我們預測的關鍵關係,那麼很難知道我們處於一個這些關係不再有效的環境中。

我認為,這很難自動化。總有一份工作是為那些既了解建立模型和做出預測的好處和風險的人準備的。

結論

一切可以自動化的東西似乎最終都會實現。 因此,當數據科學和機器學習的某些方面在某個時候實現自動化時,我們不應感到驚訝。 相反,我們應該專注於難以自動化的數據科學領域,並將在可預見的未來繼續增加價值:

  • 了解您業務的主要驅動因素,以及影響這些驅動因素的因素。

  • 知道如何適當地確定範圍和設計模型,以使其既不會太簡單,不足或太複雜。

  • 知道如何挖掘有洞察力的數據,這些數據可用於提供數據科學模型。

  • 建立也「足夠好」的可解釋模型。

  • 能夠確定您的模型何時以及在何種情況下可能崩潰並產生不良的預測。

當然,這些只是我的想法。 我也很想聽聽您的聲音。 Cheers!


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 電氣自動化專業與自動化專業,都有「自動化」,它們有什麼區別?
    說起與「自動化」相關的大學專業,很多人都會立馬想到兩個專業,一個是「電氣自動化」專業,另外一個就是真正的「自動化」專業。其中「電氣自動化」的全稱叫做「電氣工程及其自動化」。那麼,這兩個專業看似都與「自動化」相關,他們到底有什麼區別呢?
  • 數據分析專業是否會被人工智慧所取代?
    我可以理解,Uber是否允許其員工使用預先構建的模型「按需」預測某些關鍵業務指標,這些模型已經過數據科學團隊的廣泛研究和完善。但是我不認為這就是弗朗茲卡·貝爾(Franziska Bell)的意思。看來她的目標是能夠通過按一下按鈕就幾乎可以預測所有事物。這是一個非常困難的問題,幾乎是不可能的問題。讓我們逐步完成預測過程的每個步驟,以更好地了解可以輕鬆實現哪些自動化。
  • 數據時代,洞見數據世界!海大教授直播解讀新增專業:數據科學與大...
    數據時代,洞見數據世界!海大教授直播解讀新增專業:數據科學與大數據技術!上海海洋大學信息學院副院長袁紅春教授將為大家帶來2020高校招生季主題直播:數據時代,洞見數據世界,走近數據科學與大數據技術專業。在精彩的直播開始前,先讓我們來了解一下主講老師和數據科學與大數據技術專業吧!
  • 未來自動化科學與技術的發展方向
    因此, 大多數工程技術與工程管理專業都將建模、控制與優化理論和方法作為該專業基礎的必修課. 國外大學一般不設立自動化專業, 從事系統與控制研究的教授主要在其他工程專業講授控制理論課程. 而在我國, 大多數大學設有自動化專業,但從事控制理論研究的學術帶頭人多, 從事自動化系統技術研究的學術帶頭人少, 而且重傳統控制理論, 輕自動化系統技術.
  • 高報專業早知道|自動化
    因此,就業面廣,未來的發展空間較大,學生轉行、轉專業也相對容易,如電子工程、計算機、通信領域都是自動化專業發展的方向。 在以往的調查數據中,自動化是北京市高考生熱選專業,更是工學門類中的報考熱門。
  • 實現AI的自動化:Oracle數據科學雲服務
    圖源:unsplash最近Oracle在雲服務中添加了一項新服務:數據科學。該服務作為一個預安裝了許多庫的平臺提供給用戶。這個平臺提供許多功能,例如原型開發,項目開發,模型管理以及生成生產模型,還增加了許多新功能。
  • 陝西專升本2018-2020年機械設計製造及其自動化專業分析
    專業是以機械設計與製造為基礎,融入計算機科學、信息技術、自動控制技術的交叉學科,主要任務是運用先進設計製造技術的理論與方法,解決現代工程領域中的複雜技術問題,以實現產品智能化的設計與製造。看到這裡,大家就會發現機械設計製造及其自動化專業專升本後,其就業前景方面是很可觀的,那麼,我們是否可以報考機械設計製造及其自動化專業?機械設計製造及其自動化專業又有哪些學校在招生呢?分數線又是多少呢?
  • 自動化類專業:為各行各業構建「智慧大腦」
    自動化專業畢業生,能為各行各業構建「智慧大腦」。正是由於自動化技術具有普遍應用性和廣泛滲透性的特點,它在國家發展、社會進步中具有不可替代的重要地位。可以說,自動化水平的高低是衡量一個國家現代化程度的重要標誌之一,在中國特色社會主義現代化強國建設的偉大進程中將持續發揮關鍵作用。中青報•中青網:這類專業將主要學習哪些方面的內容或技能?對學生會有哪些要求?
  • 迎接數據科學ML+和DL+時代的來臨
    專業的數據科學人才還遠遠無法補足市場,企業對人才的需求就已經升級為既懂業務又懂技術的複合型精英。為了快速提升競爭力獲得市場先機,企業決策者們選擇將目光投向更智能、更高效的AI平臺能力的建設及其應用。  從美國回國創辦DataCanvas九章雲極的方磊先生和尚明棟先生專注AI平臺已有7年,成為國內最早一批自動化數據科學平臺供應商。他們研發的DataCanvas自動化數據科學平臺目前已經服務金融、通信、交通、製造、零售等行業中數百家企業及政府單位。  早在清華大學、維吉尼亞理工和美國微軟研究院專注數據科學研究和應用時,方磊先生即看到AI平臺的大片藍海。
  • 計算機科學與技術專業介紹
    本專業學生主要學習和掌握計算機科學與技術專業領域的基本理論知識,接受從事計算機和嵌入式系統相關的研究與應用的專業訓練,具有研究、開發、應用和集成計算機系統與嵌入式系統的基本能力。二、專業學什麼1、自動化專業屬於工學門類、計算機類下面的專業,本科學制4年,畢業獲得工學學士學位。
  • 溫州大學數據科學與大數據技術專業:數據創造價值
    自2018年3月,溫州大學計算機與人工智慧學院獲批數據科學與大數據技術專業,取得了專業建設的歷史性突破,開創了本科人才培養的新局面。在計算機科學與技術基礎上,通過系統地學習數據科學與大數據技術核心專業知識和應用技術,特別強化學習大數據採集、存儲與管理、分析與應用等核心專業知識和技能,學生能逐漸成長為具有大數據思維、運用大數據思維及將領域知識與計算機技術和大數據技術融合、創新的能力,能夠從事大數據研究和開發應用的高端人才。
  • 將「信息與計算科學」專業,當成了「計算機」專業?
    該專業主要開設課程有: 數學分析、解析幾何、概率統計、高等代數、數學模型、模糊數學、實變函數、複變函數、離散數學、微分方程、物理學、信息處理、信息編碼與信息安全、現代密碼學教程、計算智能、計算機科學基礎、數值計算方法、數據挖掘、最優化理論、運籌學、計算機組成原理、計算機網絡、計算機圖形學、c/
  • 大數據時代!香港數據科學(Data Science)專業院校推薦
    大數據時代的到來,為各個科學領域帶來了新的改革。  在時代高速發發展的今天,大數據時代已經正式來臨,分析大數據可以幫助企業更好的進行產品指定與推廣規劃,從而最大程度的幫助企業盈利,所以各個大公司對於數據科學專業人才可謂是求知若渴。
  • 數據科學二三事
    從根本上說,數據科學是一種紮根於強大學術背景的專業,以統計學、數學、計算機三大學科為核心基礎,依賴生物、醫學、環境科學、經濟學、社會學、管理學等學科為應用拓展,對於定量研究學科(比如應用數學、統計學、運籌學、機器學習、信息學、計量經濟學或物理學)以及大數據分析技術、模式識別、數據可視化、數據倉庫以及高性能計算等技術要求都很高。美國大多數院校的Data Science屬於STEM學科。
  • 人工智慧專業是否會成為下一個天坑專業
    首先,從大的發展趨勢來說,當前人工智慧進入了一個前所未有的發展時期,一方面基礎設施不斷成熟和發展,比如在5G通信和物聯網的支持下,人工智慧技術的支撐場景會越來越成熟,這個過程必然會推動人工智慧技術的落地應用,另一方面當前國內正處在產業結構升級的大背景下,此時產業領域對於人工智慧技術的呼聲也非常高
  • 女生是否適合學習數據科學與大數據技術
    首先,在當前的大數據時代背景下,女生選擇學習數據科學與大數據技術是不錯的選擇,未來也有較多的就業機會。從技術體系結構來看,數據科學與大數據技術涉及到數學、統計學和計算機三大塊內容,總體上的知識量和學習難度都相對比較大,所以女生選擇大數據方向之前,應該首先考慮一下自己的知識結構和學習能力。另外,學習大數據知識還需要進行大量的實踐,而實踐環節還涉及到很多行業領域的知識,包括經濟學、社會學、醫學等等,所以學習大數據技術還是比較辛苦的。
  • 【專業】數據科學(Data Science)知多少?
    數據科學是一門利用數據學習知識的學科,包括用數據的方法來研究科學和用科學的方法來研究數據。前者包括生物信息學、天體信息學、數字地球等領域;後者包括統計學、機器學習、數據挖掘、資料庫等領域。數據科學結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算。
  • 機械設計製造及其自動化:工科中鼎鼎大名的專業,魅力何在?
    機械設計製造及其自動化是高校中普遍開設的工科專業,也是機械類的代表專業之一。該專業最近幾年的報考是比較旺的,臨近報考季,也有不少家長在問小科這個專業怎麼樣,今天小科就匯總給大家一些相關的專業知識。專業名稱:機械設計製造及其自動化門類:工學學科:機械類學歷層次:本科修學年限:四年授予學位:工學學士全國報考碩士較集中的專業:機械工程、機械製造及其自動化、機械設計及理論本專業具體內涵是什麼專業培養目標:培養適應我國實施製造強國戰略需求,具備機械設計製造基礎知識與應用能力,能在工業生產第一線,從事機械製造領域內的設計製造、科技開發、應用研究、運行管理和經營銷售等方面工作的高級工程技術人才
  • 俄專家講述自動化機器人普及是否會導致職業消失
    全俄勞動科研所職業資格制度體系開發經理伊琳娜·沃洛申娜向俄羅斯衛星通訊社表示,自動化機器人普及將導致某些專業的消失,但這個過程需要更長的時間,不會少於10年。沃洛申娜指出:「信息和通信技術與機器人技術和自動化的結合將導致某些職業變得稀少或消失。」
  • 美國大學數據科學Data專業院校推薦
    進入大數據時代,人們對數據的關注可謂前所未有,越來越多的人投身於研究、分析數據,並把數據作為重要的決策參考依據。Data Science 在這樣的時代背景下逐步成為火熱的專業。今天,季老師就為大家帶來美國數據科學(Data Science)專業的學校介紹與案例分享!