數據科學很性感?不,其實它非常枯燥

2020-12-04 澎湃新聞

大數據文摘出品

來源:medium

編譯:睡不著的iris

很多人把數據科學(或者機器學習)工作描繪的令人嚮往,激勵自己和別人加入其行列。大家把數據科學想得非常完美,事實上它容易讓人感到「枯燥」。一旦感到枯燥,你就容易焦慮。如此,導致數據科學工作的離職率非常高。

本文作者將告訴大家自己如何應對「數據科學中那些枯燥的工作」。

希望能夠對你有所幫助,讓你對數據科學有一個正確的認識,讓你在決定走上數據科學的徵途時,好好享受這場漫長的遊戲!

第一課

我的表弟Shawn是個年輕英俊的小夥,最近他來了加拿大攻讀計算機碩士學位。和很多學生一樣,Shawn對機器學習充滿熱情。他希望過2年畢業的時候,可以成為一名數據科學家,或從事其他與機器學習有關的工作。

身為Shawn的表哥,我也關心Shawn是否成功,我決定以自己數據科學生涯的教訓,給他提供最謹慎的建議。《哈佛商業評論》雜誌將數據科學稱為「21世紀最性感的工作」,但它和其他職業一樣會讓人覺得枯燥,甚至使人心力交瘁,你還會屢屢受挫。

即便這些話會讓Shawn感到失望,我還是有義務把事實告訴他。希望他對自己選擇的職業道路有充分的了解。更重要的是,我不希望凌晨3點會接到我媽和叔叔的電話,告訴我作為家庭一員,有義務花耐心去好好指導晚輩。

Shawn十分聰明、積極進取且富有好奇心,他讓我詳細地給他說說,數據科學到底多枯燥。因此,我寫了這篇帖子。

一些背景說明

首先,為了便於理解本文,我先介紹下自己是怎麼進入數據科學行業(具體可以看我的領英)。作為一名數據科學經理,我不僅負責領導團隊為財富100企業部署機器學習系統,還要管理客戶關係,自己也會承擔一部分的技術工作。

更重要的概率是:機器學習系統應是用於解決特定業務領域問題的一整套方案,除去機器學習組件,還要處理其他與人或系統相關事情。

部署系統意味著解決方案對實際業務運營有效。舉例來說,搭建實驗環境用於訓練和驗證機器學習模型稱不上是部署,但如果搭建一個每月郵件發送產品服務的推薦引擎可以算是部署。相比較構建一個好的機器學習模型,部署機器學習系統需要攻克更多的難題。若是感興趣,可以點擊此處詳細了解。

所以,我不會介紹如何在谷歌或其他高科技公司,從一名初級開發人員成長為技術經理。雖然這些公司在機器學習頗有成就,但他們只能代表「前1%」的公司。因為其他財富100企業在技術成熟度、技術採用的速度以及投資工具和工程人才儲備方面都相對滯後。

AI學術讓我們仔細看看

不少年輕數據科學家花費很多時間思考如何構建完美的機器學習模型,或者採用豐富多彩的視化手段向大家展示具有突破性的商業洞察。當然,這些確實算一部分工作。

然而,隨著數據科學被廣泛使用,企業更關注其實際的應用價值。企業想要部署越來越多的機器學習系統,但他們不關注系統使用了多少新的模型或者酷炫的儀錶板。因此,數據科學家需要處理一堆與機器學習無關的工作,從此工作就變得枯燥起來。

數據科學有多枯燥?看看我周一到周五做點什麼就知道了。接下來,我把日常工作進行分類闡述,從期望和現實兩方面對比說明,並分享我的應對策略。

下面列舉的案例都源自過往實驗和團隊項目,我將以「我們」的口吻來敘述。雖然這些案例可能並不詳盡,但也足以論證我的觀點。

設計(佔5-10%時間)

在設計階段,我們發揮各自最「高」智慧來解決問題和提出卓越的想法。這些想法可以包括新的模型體系結構、數據特性和系統設計等。但很快,我們就陷入低谷,受時間因素或受其他重要事情影響,我們只能採用最簡單(通常也是最無聊)的解決方案。

期望:

我們的想法將被收錄於著名的機器學習雜誌,如NIPS、谷歌AI項目(Google AI Research)等,還幻想贏得下一屆諾貝爾獎。

現實:

部署後一切正常運行。不錯的白板繪圖會拍照記錄下來,作為參考框架。

應對策略:

1)不斷與外行朋友談論我們瘋狂的想法,他們會十分誠實(甚至是粗魯)地勸我打消那些瘋狂、愚蠢的念頭;

2)把看似瘋狂的好想法作為附帶項目;

3)結果發現,大部分瘋狂的想法不起作用,或者只是比簡單方法稍微好一點點。

所以,遵循簡單原則(KISS,Keep-It-Simple-Stupid),讓我如釋重負。

編程(佔20-70%時間,取決於你的開發角色)

此處不必多講,想像你戴上耳機,喝一個口咖啡,拉伸你的手指,坐在在電腦屏幕前,敲打出一行行漂亮的代碼後,坐等奇蹟發生。

我們的代碼分為5部分(此處用代碼行數佔比說明):數據管道(50-70%),系統和集成(10-20%),機器學習模型(5-10%),調試和演示支持(5-10%)。其他同行基本也是這麼認為的,這裡有一幅大圖可以說明此:

編寫模型的代碼佔比(圖),此處有一篇來自谷歌團隊論述機器學習的隱性技術債的文章。

如你所見,我們大部分時間在處理與機器學習無關的事務。雖然機器學習組件非常重要,流行框架和程式語言(如Keras、XGBoost、Python的sklearn等)已經幫助我們減輕了許多繁雜的工作。為了達到目的,我們不需要很重的代碼庫,工作流已經是標準化和相對完善。雖說做底層優化不同,但其影響也就1%。

期望:

大部分時間我們在開發和重塑機器學習組件,其他人關注剩餘部分。

現實:

沒人願意

1)做自己不想做的事情;

2)把所有事都留給自己做;

還有3)花費大量不成比例的時間去優化已經足夠完善的工作流程。

應對策略:

我們依據各自的專業特長做設計決策,除了完成自己的開發工作,同時還會支持其他人。(例如,貢獻想法、親手寫代碼或者做質量評估)。我們互相學習,從而提升團隊水平。更重要的是,如此可以緩解這份「性感工作」所帶來的焦慮。

質量評估、調試和修復問題(起碼佔65%時間)

在我看來,這所有技術工作裡最沒勁、最痛苦的部分。部署機器學習系統也不例外。

一個機器學習系統有2類常見的bug:不好的結果和常見軟體問題。不好的結果可能是模型得分太低(例如:準確性和精準度)或難以解釋的預測結果(例如:基於業務經驗的預測概率呈現偏態分布)。代碼沒有問題,只是結果不具有解釋性或者不夠好。常見軟體問題則是諸如代碼無法運行,系統配置等。

期望:

我們用更聰明的方法構建一個優化的模型就可以解決結果不佳的問題。這個過程需要一些智慧,如果想法可以湊效,那還是非常令人欣慰的。

現實:

在質量評估、調試和處理缺陷的過程中,我們有近70-90%時間在處理常見軟體問題。通常,我們構建端到端的訓練和驗證管道後,可以很快得到好結果。然而,實際我們更關注系統問題,模型則次之。

應對策略:

我用GitHub的issue功能建立了一個遊戲化的「獎盃板」。每次關閉問題卡片的時候,我都非常興奮。看到我們「徵服」的問題,我會感到十分驕傲。當然,如果我點擊「啟動」一切都能夠奇蹟般的正常運行,我會更加驕傲。雖然這一幕只在大學提交編程作業的時候出現過。我一生都記得那一刻的感覺。如果現實生活中再次發生,那可能是什麼東西出錯了。

GitHub問題板截圖

救火(佔10-50%時間)

再周全的時間計劃,總會發生一些讓你偏離正軌的意外。不僅是數據科學,對於任何交付團隊經理來說,這就是一場噩夢。具體來說,意外可以分為3類:

a)外部因素,如範圍變更、上遊系統依賴和客戶抱怨;

b)內部團隊問題,如惱人的bug需要更多的時間解決、團隊成員離職但沒有做好交接、人力不足、個人衝突等;

c)以及自己的無知,包含一切五花八門的「其他」事情。

期望:

從頭到尾巡檢一遍,搞定後,迎接客戶、領導、團隊的擊掌慶祝和擁抱。

現實:

意料之外的事情總是在最不合時宜的時候發生。意外會有一些規律可循,但沒有解決問題的萬能良方,這讓人太心煩了。

應對策略:

1)遇到高技術問題或跨團隊協作,最好將時間周期延長至2到2.5倍,預留足夠的空間;

2)在團隊內部設立激進的裡程碑;

3)在心裡大罵來平衡情緒,時兒也口頭說說發洩;

4)深呼吸、保持微笑、學會傾聽;

5)和團隊一起探索所有可能的方案,依據可行性、所需投入、難易程度確定方案優先級;

6)都不能起作用,不要再等待了,尋找幫助!

7)繼續推進。以上都不能算是策略,但是在實踐過程中可以發揮作用。

總結

本文都在論述真實世界中,從事數據科學工作會遇到哪些困難。有志於從事機器學習工作的人需要知道除了構建模型,事實上還有很多其他要做的。與其他工作一樣,你最終都會感到枯燥、受挫。當然,這很正常。但更重要的是,你應該建立一套自己的應對策略,那你就可以長期在這個賽道上,享受沿途的小成就,奔向最終的勝利。

相關報導:

https://towardsdatascience.com/data-science-is-boring-1d43473e353e

實習/全職編輯記者招聘ing

加入我們,親身體驗一家專業科技媒體採寫的每個細節,在最有前景的行業,和一群遍布全球最優秀的人一起成長。坐標北京·清華東門,在大數據文摘主頁對話頁回復「招聘」了解詳情。簡歷請直接發送至zz@bigdatadigest.cn

志願者介紹

原標題:《數據科學很性感?不,其實它非常枯燥!》

閱讀原文

相關焦點

  • 被稱為21世紀最性感的工作,我們要如何學習「數據科學」?
    數據科學是什麼?怎樣才能成為一名數據科學家?數據科學的歷史可以追溯到20世紀60年代,但是在當時並未引起學術界的注意。在這個研究被《哈佛商業評論》評為「21世紀最性感的工作」之後,數據科學激起了廣大公眾的興趣!那麼數據科學到底是什麼?怎樣才能成為一名數據科學家?
  • 最性感的工作?數據科學不一定適合你
    21世紀最性感的工作」。 很多人正尋求找到符合自己的興趣的職業,也有人很多人考慮轉行面對他們來說,成為一名數據科學家很可能是其心嚮往之的一條大道。大部分人可能只聽說過各種關於數據科學的溢美之辭,但本文打算潑潑冷水,筆者將提供4個為什麼你不適合成為數據科學工作的原因。
  • 它為何是「21世紀最性感的工作」?一文讀懂數據科學的發展
    數據科學是一門新興學科,它利用統計方法和計算機科學方面的知識,為廣泛的傳統學術領域提供有影響力的預測和見解(哈佛數據科學計劃)。再換個角度,數據科學家們試圖從豐富的數據中獲取見解,從而可以幫助公司做出更明智的業務決策,我們也可以將數據科學定義為一種可以從數據中得出可行見解的方法。
  • 最性感女明星,大嫂,徐冬冬女神,非常性感,顏值非常高
    今天談一下最性感的女明星,她就是,大嫂,徐冬冬女神,身材非常性感,顏值非常高。深受觀眾們與粉絲的喜愛與支持。因出演《餘罪》電視劇。而迅速走紅網絡,因為其身材非常性感,非常有誘惑力,從而走紅在網絡之上,被更多的人注意到。從而爆紅。開始了她不一樣的精彩人生徐冬冬女神,是一位非常有女人味的女演員,而且身材非常好,人見人愛,長得也非常標誌,簡直就是完美的化身,非常的完美。
  • 在男人眼中,非常性感的女人,具有這些特點
    不要總覺得這樣想,難免有些扎心,其實,人人都很現實,試問:誰不喜歡好看一點的人或物呢?當然了,這裡牽涉到一個問題就是,量力而為。外形漂亮的女人,總能讓男人一眼生情動,再眼生情深,越是漂亮的女人,越容易成為男人心目中情人類型的伴侶,在她們身上,男人永遠可以獲得視覺上的滿足與享受。
  • 21世紀最性感的數據科學家,原來只是一群沮喪的天氣預報員
    《哈佛商業評論》在2012年的一篇文章中,將數據科學家稱為「21世紀最性感的工作」,而性感意味著具有非常需要的稀有品質。通常情況下,招聘這些人既困難又昂貴,而且由於他們服務的市場競爭非常激烈,所以難以保留。截至2019年1月,在線求職網站確實發布了一份報告,顯示數據科學家的需求同比增長29%,自2013年以來增長344%。
  • 白冰其實是健身女神,破洞牛仔秀蛇腰,曲線性感迷人
    白冰其實是健身女神,破洞牛仔秀蛇腰,曲線性感迷人。大部分網友都喜歡看《乘風破浪的姐姐》,沉迷於裡面的女明星有人著迷的氣質。無論是他們有沒有離過婚,生孩子,結婚。等等等等一系列的問題。都不會讓他們對生活喪失樂觀的心態。他們永遠是滿懷希望的,積極向上的。
  • 天文臺的工作枯燥嗎?
    首先非常感謝這位網友的提問!總體來說非常好!有山有水有湖,很安靜的地方,環境空氣都非常好!對於我這樣個人體質差身體不好的人來說,這個地方很適合我。修生養性,適合做事的地方。非常適合鍛鍊自己身體的地方,跑步打球。
  • 衡茂丨空姐著裝為何非常時尚性感
    《空姐著裝為何非常時尚性感》文/衡茂1、這是中國才有的特色。中國的航空公司選擇空姐的條件獨一無二,身高、體重,相貌都要出眾,說是萬裡挑一併不為過。說得高大上一點,是空姐。說的通俗一點,就是一個伺候人的服務員。
  • 性科普 | 透視性魅力-性感科學
    探索頻道透視性魅力《性感科學 The Science of Sex Appeal》深入探索我們最深層的下意識歷程,並詳述其中的驚人細節。性吸引力真的只是個人品味問題嗎?抑或是個有待解答的生物方程式?紀錄片將為你細說人類性吸引力的由來,探討哪些是受到遺傳、賀爾蒙與神經的影響?哪些又是根據視覺、氣味、聲音、動作等微妙因素所造成的結果?
  • 世界上最性感的粉色沙灘海島,還不需要籤證,不需要門票!
    世界上最性感的粉色沙灘海島,還不需要籤證,不需要門票!粉紅色是最女性化的顏色,提到它總會讓人想到秀色可餐的美麗少女,一般不會有人把它和沙灘聯繫在一起。不過,在世外桃源般的海島國家巴哈馬,卻隱藏著一片美得讓人心碎的粉紅沙灘。
  • 數據科學50人·吳明輝:用數學思維,打破數據悖論
    也許接下來你所聽到的觀點,可能與傳統的數據故事有點「不一樣」,但是如果你了解吳明輝,了解了他對數據的看法,我想,你對於數據科學的認知,也會有點「不一樣」的改變。▍流動,才是悖論的最優解「我覺得數據和生意這兩個事從概念上就是矛盾的,數據是解決信息不對稱的,生意本質是什麼?是利用信息的不對稱。」
  • 數據科學家:21世紀「最性感的職業」!
    數據科學家:21世紀「最性感的職業」! 大數據時代的來臨,統計學變得越來越火,不管是機器學習, 人工智慧,還是大數據分析,基本功都是統計學。Google, Facebook,Amazon等國際巨頭,國內蓬勃發展的網際網路企業,對於數據分析師(Data Scientist)的需求都十分火熱。
  • 時代興華留學:美國數據科學留學就業前景怎麼樣?
    但是總的來說,DS是一個非常好轉行的專業,可以說對出身並不看重,企業看中的也是你解決問題的能力。儘管DS專業就業前景很好,我也不鼓勵大家都去申請這個專業,專業選擇應該結合本科專業、職業興趣、就業方向來選擇,如果大家想要諮詢留學專業選擇、留學規劃、選校定位、申請條件、就業數據等問題,可以聯繫時代興華,我會給大家詳細解答。
  • 哈耶克:貌似科學的方法其實是最不科學的
    我曾與之論戰的理論,是一種有關正確的科學方法的錯誤觀念的產物,但是在過去30年裡,它一直指導著貨幣和財政政策。它固執地認為,在總就業與商業及服務的總需求規模之間,有著簡單的正比例關係。這使得人們以為,只要把貨幣支出總量維持在適當水平上,我們就能夠永遠保證充分就業。在為了解決廣泛失業而提出的各種理論中,這或許是可以用強有力的量化數據加以支持的惟一理論。
  • 數據科學(Data Science)自學指南 2020 版(一)
    什麼是數據科學? 呃,這是一個很難回答的問題。事實上,不同的公司對數據科學的定義各不相同,導致這個術語變得模稜兩可,難以捉摸。有人說數據科學是編程,有人說是數學,還有人說數據科學就是要理解數據。事實證明,這些說法都對。在我看來,我最認同的定義是—— 數據科學是利用從數學、計算機科學、領域知識汲取的技術和理論的交叉學科領域。[1]
  • 最新研究發現戴口罩比不戴口罩更性感,更有吸引力
    在最新的天普大學和賓州大學聯合進行的一項研究中,研究人員發現不管男女,戴口罩比不戴口罩都更性感,更有吸引力。在這項研究中,研究人員拍了60張頭像照片,一半戴了口罩,一半沒有,然後找了500個人對這些頭像進行評分。下面是三組照片。
  • 數據科學二三事
    02 數據科學 走進數據科學的世界 很多人都知道「數據科學家」這一職業,似乎非常高大上。當然,事實也確實如此。 可見數據科學備受熱捧,那什麼是數據科學呢?
  • 神經科學家揭示人體最性感部位
    據英國衛報報導,心靈是喚起情慾的地區,大腦以及它是如何組織我們的情慾區一直吸引了科學家幾十年,拉奎爾·韋爾奇(Raquel Welch)這樣說道。為什麼用鼻愛撫頸部非常性感,但很少有人會用鼻愛撫獲得性愉悅?為什麼男人的喚起情慾區比女人更少?一項最新研究測量了我們身體各部分的性慾水平,神經科學家從中發現了不少令人驚訝的結果。
  • 深刻告訴你婚外情、SY的反作用力(科學分析,非常震撼!)
    他講射出來的精液的成分是蛋白質,核糖核酸,碳水化合物。經過分析,然後這些營養成分跟一杯牛奶的營養成分是近似的。於是得出一個結論,說「手淫無害健康」。我們按照這個邏輯來想,好像是沒有問題,但是實際上問題非常多,為什麼?大家注意,西方的這個理念裡面,它只注重分解,分解後的營養成分,它沒有注重合成。