深度 : 數據科學,來自業界的誘惑(譯)

2021-02-26 大數據實驗室

伊萊·巴塞特(Eli Bressert)計劃把自己的學術生涯都放在針對恆星形成的研究上。他在英國埃克塞特大學(University of Exeter)獲得博士學位,又在澳洲雪梨附近完成了針對射電天文學的博士後研究。他發表論文的引用量正處在上升趨勢,他收到的科研合作和學術會儀的邀約也越來越多。他實在沒有理由離開天文學領域的研究。

但在2012年,學術就業市場的嚴峻形勢讓他有些緊張了。「我坐下來計算我的機會,」他回憶道,「還有沒有機會找到一個好的研究機構,而且工作地點能讓家人也滿意的?」因為他已經為了他的博士後工作,帶著妻子和一歲的兒子跨越了1萬6千公裡來到了澳洲,同一年,他和同事出版了一本關於科學編程的手冊。同時他還被一家創業公司聘為學術顧問,這家公司立足於開發幫助合作者合著論文的軟體。巴塞特喜歡創業公司的活力,因此當他聽說在矽谷有支持科學家從事科技工作的助學金時,他毫不猶豫地申請並被接納了。

他及家人再次搬家,這次搬到1萬2千公裡外的加利福尼亞州的帕羅奧圖(Palo Alto)。現在他是舊金山一家時尚創業公司Stitch Fix的數據實驗室主管,負責設計幫助顧客挑選衣服的預測算法。他說他很熱愛這份評估計算方法的工作。因為相對於以往學術界的經歷而言,這份工作提供了更多的知識自由(intellectual freedom)和創造性。

巴塞特並不是個特例,他們公司僱傭了20名博士學位擁有者,專業涵蓋了從天文學、神經學到電子學等各類學科。巴賽特的經理埃裡克·科爾森(Eric Colson)認為,博士們最大的價值在於他們嚴謹的思維。博士期間的訓練意味著學習如何將問題形式化,驗證想法並評估解決方案是否可行。尤其涉及到數據建模時,這些特質讓博士比大多數人更具有懷疑精神。科爾森說,「如果首次嘗試就特別完美,博士們的第一反應會是情況太好而難以讓人信服。博士們有耐心和方法來將問題結構化,而這是MBA們所沒有的。」在美國目前有大量年輕科學家離開學術泥沼而轉向業界的數據科學崗位,Stitch Fix的博士們只是其中的一小部分。

Make the leap
實現飛躍

數學和計算機科學家是數據科學領域的主要表現形式,但是計算的理解性和溝通的技巧性比科學專業本身更重要。想要轉換角色的青年學者們需要證明,他們可以從繁雜的數據中抽取出模式並且將該模式應用於商業目標環境。

有人在紐約和華盛頓特區開設了一門培訓課程叫做「數據孵化器」(The Data Incubator),專門幫助研究生做從事數據科學工作的準備。數據孵化器的聯合創始人麥可·李說:「需要特別記住的是,業界對於想法或見解不在意,他們在意的是具有可行性的分析。」 洞察力數據科學公司(Insight Data Science)在帕格阿爾託市(Palo Alto)也開設了一個類似的培訓項目,其創立者傑克·克拉姆卡(Jake Klamka)說,學者們想抓住就業機會但卻不知道業界的情況。合格的應徵者可能會因為誤用詞語而被視為沒什麼本事,比如學術界喜歡用術語「研究」(study)但業界的行話是「實驗」(experiment)或「A/B測試」(A/B test)。

學員在倫敦參加科學數據科學研討會

克拉姆卡發現闖入業界是件難事。他從加拿大多倫多大學粒子物理學博士課程中退學了,從2010年起就開始在自己的廚房中開發技術工具。儘管他有專業技能,但是他缺乏業界的知識。「我已經擁有99.5%的技能了,」他說,「但我需要指導和引導。」歷經了一年的挫折,隨後他去了矽谷。在那裡,他遇到了將他引導到正確軌道上的軟體工程師和企業家。還有賴於來自於加州山景城的著名創業孵化器公司Y Combinator初創基金的部分支持,他終於創辦了自己的公司——Noteleaf。

克拉姆卡知道有很多物理圈的朋友也對轉向業界數據科學領域充滿興趣,但是依然在為了進入業界而掙扎,就像他曾經歷的那樣。同時,還有技術社區的朋友在抱怨他們已經提供了開放的職位但是沒人夠聰明來勝任。所以克拉姆卡創辦了「洞察力數據科學公司」來為博士們提供面向業界數據科學的職業培訓。目前為止,所有完成7周培訓項目的人都獲得了工作機會。

Box 1: Learn the ropes: Find the data-science course to suit you
學會訣竅:找到適合你的數據科學課程

很多計劃轉向業界的人會利用自己在研究所的時間來提升自己的技能並探尋自己的機會。舊金山Stitch Fix公司的數據實驗室主管伊萊·巴塞特建議,學習更符合業界胃口的編程工具如Python和R語言。而要是需要提升軟體技巧,可以參加諸如「Data Carpentry」或「Software Carpentry」(非營利性的workshop培訓)等培訓項目。這些培訓一般只需要兩天時間,在全世界的校園都可以參加。

格倫·王(Glenn Wong)目前是位於麻薩諸塞州薩默維爾的網絡安全公司Recorded Future的副總裁。當他還在麻薩諸塞州的劍橋讀哈佛大學的物理學博士時就參加了哈佛商學院的培訓。這段經歷隨後幫助他通過了管理諮詢公司的面試。

Joy Tharathorn Rimchala曾經是劍橋麻省理工學院合成生物學的博士後,現在是加利福尼亞山景城的財務軟體公司Intuit的數據科學家。她曾經一直在猶豫是否放棄學術生涯,直到她開始旁聽一門計算科學的課程才下定決心。「那時我意識到,數據科學很酷,至少跟我的博士學位一樣酷。」她說道。

Rimchala和巴塞特都參加過加州帕洛阿爾託的洞察力數據科學公司的培訓項目,並由此成功轉型進入業界。(去年,一個平行培訓項目在紐約推出;今年7月還會在波士頓再推出一個。)課程參與者們組成團隊來開發數據驅動的Web應用程式,並與來自技術公司的數據科學家會面。這些課程還是免費的:成本由科技公司負擔,包括支付僱員工資。

類似的嘗試在倫敦也有,Science to Data Science公司為約85個學生提供5周的培訓,每人支付360英鎊(約合540美元)的食宿費用。經過一周半的課程學習,學生們分成小組與來自當地公司的導師一起針對公司提供的數據構建實用性工具。公司的聯合創始人,天文學博士基姆·尼爾森(Kim Nilsson)說,大部分學員結束去年9月份的初創培訓後都回到他們原來的實驗室,但是如今75%的學員已經在業界從事數據科學工作了。

另外也有免費的選擇,7個禮拜的數據孵化器課程,目前在紐約和華盛頓開課,2015年夏季將在舊金山開課。最後,12周的紐約數據科學研究院項目,將在今年落地,其成本為1萬6美元,包括工具使用課程,如R、Hadoop和Python等。所有這些項目的申請量都超過了可提供的數量。

Job descriptions
工作描述

數據科學家的工作差異性很大。一些需要繁瑣的「數據處理」(data munging),清洗數據並填補空缺,使數據集適宜於簡單的數據分析。有些數據科學家的角色是數據應用顧問,由其他同事製作新的模型和方法。大公司如LinkedIn,谷歌和Facebook,它們擁有龐大的用戶庫和數據集,傾向於採用最精妙的數據建模技術。

格倫·王(Glenn Wong)是麻薩諸塞州薩默維爾市「記錄未來」公司(Recorded Future)的副總,他擁有物理學博士學位。公司業務專注於有效組織Web數據來幫助客戶抵禦網絡攻擊。王說,要成為數據科學家的人需要發散地想下自己的興趣所在,及在哪裡可以做自己感興趣的事。「我的意思並不是『這一小段DNA與那一小段DNA如何交互』,」王解釋道,「『我喜歡解決來自複雜二維世界的難題』,或者說『我喜歡跟那些有瘋狂想法且沒有地位觀念的人在一起』。」

艾米·海尼根選擇將她的計算社會學博士課程暫時休學,轉而加入加州舊金山的一家初創技術公司。公司業務是為早起創業者提供諮詢和評估。「我選擇讀博士的原因在於想解決有趣的問題,而現在我們正在做的也真是如此。」她談到她的工作時說。經過從學術圈出來的幾年,現在也擁有了指導幾家初創公司的經歷,海尼根認為她在業界擁有更好的機會來構建想法並付諸實施,因為公司才可以與那些產品使用者實現真正的溝通。

但是,為了商業目標博士們不得不讓自己適應,拋棄那些過於精確的(學術)要求。一旦數據模型可以奏效,學者可能專注於系統優化以改進精確性及極值量。「但是在業界,你最好說,『我如何將其軟體化?我如何確定這不會崩潰?』」海尼根說,」為了用戶真實需求,你不得不有始有終地完成這些工作,而這些在學術圈是沒必要花時間去做的。「

有些招聘經理擔心,去完成一個逐漸精確模型的欲望可能會將學者引入到沒有成果的泥沼中。約翰·貝克(John Baker),在麻薩諸塞州的波士頓創建了一家名為「Datakin」的數據諮詢公司。他舉了一個例子,曾經有位天體物理學家被同事們稱為「暗物質」,因為他將精力都用於追求完美的數據模型以至於從來沒有完成過他的項目。

山景城的網絡公司LinkedIn數據安全首席科學家戴維·弗裡曼(David Freeman)說,有這種傾向的人在面試中很可能被淘汰。在被要求描述自己的成就時,最有希望的候選人應更關注於他曾實現的代碼而不是他曾發表的論文。獨立開發組件或新人培訓是適應業界需求的另一個積極標誌。Baker說,「你能分辨出誰其實是學術型的和誰真正有做項目的潛力。」

威爾·庫克斯科(Will Cukierski)就是以這種方式獲得關注的。他在新澤西州新不倫瑞克的羅格斯大學獲得了他的博士學位。在那裡他使用計算機識別癌症組織中顯著的病理部分。但是到了晚上,他將時間用於參與流媒體供應商Netflix100萬元美金的挑戰競賽:誰能設計出最好的網站電影推薦算法。雖然他沒有贏得獎金,但是他發現了一個bug並繼續利用業餘時間在舊金山的數據科學公司Kaggle主辦的類似競賽中嘗試。在2012年,公司高管接觸了他——他們注意到了他提交的內容並認為他可以在他們的團隊中佔據一席之地。在拿到了博士學位之後一周,庫克斯科開始以數據科學家的身份工作了。

對許多博士來說,成功的關鍵在於要找到一個產品或服務能吸引他們的公司。塞巴斯蒂安·古鐵雷斯(Sebastian Gutierrez)是《工作中的數據科學家》一書的作者,他說,「你需要找到合適的人,他們知道自己真正關心的業務,並且對工作保有足夠熱情,還要能滿足你相應的季度預算和目標。」

數據科學家的崗位開始出現在學術界(見 『Academic data drive』(學術數據驅動)),但許多人發現業界環境更具吸引力。「在業界我可以用20%的時間達到80%的目標,而不是相反,」珊妮·奧芬(Shani Offen)說。她曾經是紐約大學的神經科學研究教授,現在則是位於紐約的問答網站「About.com」的數據科學家。湯米·蓋伊(Tommy Guy)是技術巨頭微軟公司在華盛頓州貝爾維尤(Bellevue)的數據科學家。他喜歡因給出正確見解而獲得獎勵的感覺,而不用在意結論是積極的還是消極的。例如,他可以採用數據分析得出結論,一種新提出的功能可能不會得到用戶歡迎而力主公司放棄這一計劃。這樣,公司因為避免浪費大筆經費而給予他嘉獎。他說,與之相反,在學術圈幾乎不會對消極結果給予獎勵的。

Box 2: Academic data drive: Universities create data-science hubs
學術數據驅動:大學創造了數據科學中心

不只是業界,學術界也越來越需要數據科學家。去年一筆5千8百萬美元的預算被批准用於彌補這方面的短缺。該預算支持在西雅圖的華盛頓大學、加利福尼亞大學、加利福尼亞大學伯克利分校(UCB)以及紐約大學建立數據科學中心。這些大學的數據科學中心同時還獲得了來自加利福尼亞帕洛阿爾託的戈登貝蒂摩爾基金會(Gordon and Betty Moore Foundation)【譯者註:該基金會由「摩爾定律」提出者戈登·摩爾創立】和來自紐約的斯隆基金會(Alfred P. Sloan Foundation)【譯者註:該基金會由通用集團原董事長及總裁艾爾弗雷德·P·斯隆創立】的共同資助。其中,摩爾基金會的贈款將用於資助研究人員開發和改進數據處理工具。

來自UCB新設立的數據科學伯克利研究院的助理研究員卡西克·拉姆(Karthik Ram)是第一個受資助者。他的職業成就在於他對於開原始碼的貢獻和為數據更好的重用性而做出的努力,而不是論文發表和引用量那種針對終身教職(tenure-track posts)的傳統評價標準。

摩爾基金會經理克裡斯·門採爾(Chris Mentzel)將拉姆及其同事描述為在一個正在獲得動量的領域中的先驅者。「我們正在嘗試為這樣的研究者創建一個家園。」

弗裡曼喜歡LinkedIn的工作節奏。他回憶起自己在加利福尼亞史丹福大學做博士後時從事很前沿的研究。「我那時在做的工作即使可行,實際上在20年內也看不到結果。我那時就在尋找效果可以立竿見影的事情。」而沒有什麼比不斷設置截止期限更讓人集中精力的了。

(原文作者:Monya Baker 翻譯:曉舟 來源:36大數據)


像機構一樣交易——金融交易技術及操盤全程培訓

(點擊「閱讀原文」查看詳情)

相關焦點

  • 數據科學,來自業界的誘惑
    還有賴於來自於加州山景城的著名創業孵化器公司Y Combinator初創基金的部分支持,他終於創辦了自己的公司——Noteleaf。克拉姆卡知道有很多物理圈的朋友也對轉向業界數據科學領域充滿興趣,但是依然在為了進入業界而掙扎,就像他曾經歷的那樣。同時,還有技術社區的朋友在抱怨他們已經提供了開放的職位但是沒人夠聰明來勝任。
  • 明日開課:《數據科學業界實戰導覽》
    因此她把學校裡沒有教給學生的數據科學技能全部都濃縮到了《數據科學求職升級——業界實戰導覽》這門課程(明日開課哦!)裡,希望填補知識的空白。今天,我們採訪了Trans,近距離了解一位由文轉理的哥大學霸的蛻變與飛躍。
  • 機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!
    作者:Vincent Granville,來源:機器之心 在本文中,數據科學家與分析師 Vincent Granville 明晰了數據科學家所具有的不同角色,以及數據科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。
  • 數據科學業界課程之IBM大數據大學和微軟MPD數據科學認證(均為在線教育方式提供)
    本文介紹數據科技業界國際知名公司開辦的數據科學在線教育課程:IBM(國際商用機器)大數據大學(Big Data University)、微軟(Microsoft
  • 業界| 數據科學家最需要什麼技能?
    數據科學家需要涉獵很多——機器學習、計算機科學、統計學、數學、數據可視化、通信和深度學習。這些領域中有幾十種語言、框架和技術可供數據科學家學習。那麼要想成為僱主需要的數據科學家,他們應該如何安排學習內容呢?
  • KDD 2018精華大放送,不可錯過的知識發現與數據科學盛宴(附Papers&Tutorials下載)
    數據科學界最重要的會議——ACM SIGKDD(知識發現與數據挖掘會議)已經在倫敦召開了,將從8月19號持續到23號,來自相關領域的研究人員將在數據科學、人工智慧、機器學習和數據挖掘以及大數據等相關主題進行深入的討論和交流。
  • 【數據可視化】數據科學工作的相關內容數據可視化
    2017年8月26日,全球最大的數據科學社群Kaggle發布了數據科學/機器學習業界現狀全行業調查的數據集。調查問卷數據從2017年8月7日~8月25日收集。受訪者囊括了來自50多個國家的16,716+位從業者。
  • 數據科學簡介:分數據、結構和數據科學管道(一)
    數據是一種商品,但是,如果無法處理數據,數據的價值就值得懷疑。數據科學是一個多學科領域,其目的是從所有形式的數據中提取價值。本文從數據、數據結構以及可用於將數據轉換為價值的高級流程方面來探討數據科學領域。  數據科學是一個流程。這並不是說數據是機械的,缺乏創造力的。
  • 譯能新時代!—— 機器翻譯與譯後編輯大賽成功舉辦
    ·第二屆機器翻譯與譯後編輯大賽在同濟大學舉行盛大的頒獎儀式。機器翻譯與譯後編輯(MTPE)是在智能時代下翻譯生產採用的主流模式,與傳統的翻譯模式不同,MTPE借用機器翻譯譯文並在此基礎上直接編輯從而提升翻譯效率。本次大賽旨在考察參賽者語言能力、計算機輔助翻譯(CAT)能力,順應時代發展潮流,符合中國教育改革和發展趨勢。本次大賽匯聚來自全球90所企業、230所高校逾3000名翻譯愛好者。
  • 復旦大學管理學院數據科學與商務分析碩士項目啟動招生
    據悉,伴隨著高速網際網路、智能終端設備、和雲存儲的迅猛發展,商務實踐數據以前所未有的速度積累。與此同時,新興的數據分析算法(如統計學習、機器學習以及深度學習等)也日益成為未來商業領導者的核心競爭力。  復旦大學管理學院數據科學與商務分析碩士項目(英文簡稱DS&BA)啟動說明會18日在管理學院舉行。復旦大學研究生院副院長楚永全,復旦大學管理學院院長陸雄文、副院長鄭明,統計學系系主任張新生教授,項目學術主任夏寅教授,以及項目授課教師代表,業界校友嘉賓,連同媒體和學生代表共同出席了本次說明會。
  • 名企堂・深度課堂 第01講【IT業界分析】ーー疫情中求職留學生如何靠IT殺出一條血路?【保存版深度好文】
    22卒留學生們深度理解日本的IT、金融、諮詢、製造業、商社等等業界,以及就職過程中一些至關重要的信息&技巧。DX:Digital Transformation (Trans = X)日譯:デジタルトランスフォーメーション中譯:數據化轉型DX的概念是在2004年由瑞典于默奧大學的埃裡克斯託爾特曼教授提出並倡導的,具體意為「ICT的滲透將以更好的方式全方位地改變人們的生活」。
  • 數據科學,預測未來的水晶球 | 數據科學50人·張尚軒
    張尚軒是上海人,從1997開始接觸數據科學,到2004年進行較大的商業項目,再到2013在全球第一大都市美國紐約創辦了專業培訓數據科學家的紐約數據科學學院(NewYork Data Science Academy),她已在數據科學領域前行了12年,培養兩千多名數據科學家,並成為了數據科學時代的高知女性代表。
  • 復旦管院數據科學與商務分析碩士項目啟動招生
    東方網記者劉軼琳6月18日報導:伴隨著高速網際網路、智能終端設備、和雲存儲的迅猛發展,商務實踐數據以前所未有的速度在積累。與此同時,新興的數據分析算法(如統計學習、機器學習以及深度學習等)也日益成為未來商業領導者的核心競爭力。
  • PNAS 「深度學習的科學」論文合集導讀
    圖像處理領域首先感受到了新數據的影響,李飛飛和她的合作者從網上提出了 ImageNet 數據集,為一系列年度 ImageNet 大規模視覺識別挑戰(ILSVRC)預測挑戰賽提供了數據集。這些比賽為機器學習中深度學習範式的出現和不斷完善提供了一個平臺。
  • 喬治城大學數據科學與分析碩士項目介紹
    ,是創建於1789年的天主教耶穌會大學,也是美國最古老的大學之一,以社會科學見長,擁有出色的聲譽。數據科學與分析碩士(Master of Science in Data Science and Analytics) 屬於專業碩士項目,課程包括大數據和雲計算,機器學習和深度學習,交互式和複雜可視化方法,高級資料庫,自然語言處理,高等數學和統計建模等。使用的語言包括R,Python和SQL。
  • 人工智慧,深度學習,數據科學的最新書籍推薦
    為了滿足廣大讀者的好奇心,我們曾整理過一系列人工智慧方面的書籍,如今我們又進行了更新,為大家帶來人工智慧、深度學習、數據科學的11本最新書籍。這些書都是知識性的作品,毫無虛構成分。以下介紹沒有特定的順序。1.
  • CDA數據分析師認證與Pearson VUE達成深度合作
    2020年6月,CDA數據分析師與全球計算機化考試服務商Pearson VUE達成深度合作,雙方籤定了CDA考試服務協議。為保持高水準的考試質量,此次合作,CDA來自學術界和業界的優秀命題團隊按照CDA大綱標準設置了考試新題庫,並經過了嚴格的審核,題目質量水準高,每一個學習、從事數據分析和數據科學的人都可以嘗試參加CDA數據分析師認證考試。
  • 香港、新加坡金融科技和數據科學項目介紹
    數據科學(Data Science)是一門利用數據學習知識的學科,其目標是通過從數據中提取出有價值的部分來生產數據產品。作為新興的交叉學科,數據科學結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫、以及高性能計算等。
  • 復旦管理學院數據科學與商務分析碩士項目(DS&BA)招生
    伴隨著高速網際網路、智能終端設備、和雲存儲的迅猛發展,商務實踐數據以前所未有的速度積累。與此同時,新興的數據分析算法(如統計學習、機器學習以及深度學習等)也日益成為未來商業領導者的核心競爭力。為了應對和擁抱未來商學教育新趨勢,復旦大學管理學院針對企業當前對數據分析人才的強烈渴求,推出了數據科學與商務分析專業碩士項目,以全面回應企業在數位化時代所面臨的人才痛點。昨天(18日),這個跨傳統學科的新專業項目正式啟動招生。
  • AI的企業應用程式所稱讚的有形的商業價值幾乎總是來自於數據科學
    來源:CPDA數據分析師網 / 作者:數據君 / 儘管重點是鞏固各種形式的AI 從其知識庫到其統計基礎的操作一致性,但數據科學是通過擴展涉及這些任務的數據種類來支撐此行動的默認力量,如果公司想在數據科學領域取勝,那麼他們真的必須認真對待所有類型的數據的廣度和多樣性