華人小哥控訴機器學習「四大Boring」,CS博士:深有同感,正打算退學

2021-02-15 量子位
楊淨 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

機器學習很無聊。

至少這位鐵汁是這樣認為的。

甚至還在Reddit上發了帖子,標題就直接這麼明晃晃寫道:

Why machine learning is more boring than you may think?

結果不到15個小時,便引起了500+熱度的討論。

對此,有網友認為,「因為它是工程技術,而不是基礎研究,工程需要滿足最低標準和最後期限的,技術上沒有什麼挑戰性」。

而至於為何要如此強調「Boring」,這位數據科學家肖安講了如下原因,也給出了自己的解決方式。

機器學習「四大Boring」

首先是設計 (Designing)的部分,佔據5%-10%的時間。

這時候是群策群力、迸發新想法的時候,包括新的模型體系結構、數據功能和系統設計等。

預期的情況是,在每個項目中應用最新和最出色的算法,可以在知名頂會期刊發布的那種。

但實際情況是,由於「時間限制」和其他優先級事項,只能做到最簡單、有效的算法。

這時候,為了滿足作者的「成就感」,就會在附帶項目中進行一些「瘋狂」的想法,即使這些想法根本不起作用。

接著是編碼 (Coding )的部分,根據項目的不同,20%到70%的時間佔比。

代碼通常分為五類:佔代碼總行數的百分比。

數據管道,50-70%;

系統和集成事物,10–20%;

ML模型:5–10%;

支持調試和演示分析,5–10%;

預期的場景是,花費大量的時間在編碼ML組件。

但現在已經有很多現成的框架和編碼語言,將很多複雜的東西抽象化,這樣工作流已經十分標準化了,根本不需要去開發和完善ML組件。

既然如此,工程師則將更多的時間花在其他低級的優化上,比如系統、數據管道等。

然後是質量檢查、調試、修復 (Debug),至少要花65%的時間。(感受到了作者的怨念)

一般主要有兩種錯誤,不良結果和傳統軟體問題。

不良結果,就是模型效果不好、評分較低(比如準確性)。

傳統軟體問題,就包括系統損壞、系統配置問題。

理想的狀態,是只需要處理「不良結果」,然後去構建更好的模型。

嗯,展現才能的時間到了!

然而現實情況是,大概70%-90%都是「傳統軟體」問題。

而至於不良結果,通常在構建端到端模型訓練和數據管道之後,就可以的很快獲得很好的結果了。

最後一個部分,就是「滅火」(Fire-fighting),處理各種意外情況。

這大概是所有工程師都不願意看到的點了吧。

在整個交付過程中,不管是外部、甲方爸爸的要求還是內部溝通不暢、能力不足等各種人為Bug,用作者的話來講,「就是一場噩夢」。

這時候,除了保持微笑之外,建議將時間軸延長到2-3倍,在團隊裡積極交流。

害,說到這裡,歸根結底就是理想與現實之間的差距,別人以為的和你自己正在幹的區別。

比如,就像這樣。

最後,這位小哥還是注入了一些安慰劑。

就像從事任何職業一樣,最終都會感到無聊和沮喪。

但是沒關係,很正常。你應該開發一種應對機制,像玩遊戲一樣,在過程中獲得一些小獎勵,然後最終獲得勝利。

網友怎麼看?

對於這件事,網友們倒是意見各異。

有學CS學了6年的博士生自述了所遇到的迷茫,並表示打算放棄現在的博士學位。

我期望它是酷炫的、知識性、算法性的東西,但一直沒有等到可大展拳腳的工程/調試類項目。

因為這個原因,我打算退學。雖然現在還不清楚該申請什麼樣的工作。

但有人覺得,作者所說的幾個Boring,恰好是喜歡當ML工程師的原因。

還給出建議:如果你想花費100%的時間用來構建和調試ML模型,那你應該去看看研究崗,而不是工程崗。

還有網友表示,自己很喜歡ML工程師的工作,從構建自運行的端到端模型,到正式投入生產,會有很強烈的成就感。

也有人形象的比喻了理想與現實:

那麼,對於這件事你怎麼看?如果你的身邊也有類似的經歷,歡迎與我們分享~

參考連結:

https://towardsdatascience.com/data-science-is-boring-1d43473e353e
https://www.reddit.com/r/MachineLearning/comments/jvq4jw/d_why_machine_learning_is_more_boring_than_you/

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

量子位年度智能商業峰會啟幕,

李開復等AI大咖齊聚,

邀你共探新形勢下智能產業發展之路

一鍵三連「分享」、「點讚」和「在看」

科技前沿進展日日相見~

相關焦點

  • 華人小哥控訴機器學習很無聊,CS博士:深有同感,正打算退學
    對此,有網友認為,「因為它是工程技術,而不是基礎研究,工程需要滿足最低標準和最後期限的,技術上沒有什麼挑戰性」。而至於為何要如此強調「Boring」,這位數據科學家肖安講了如下原因,也給出了自己的解決方式。
  • 華人學者再獲 SIGGRAPH 優秀博士論文獎:「每章都能作為博士論文」
    ACM SIGGRAPH 頒發的優秀博士論文獎後,今年華人學者再獲嘉譽,2019 優秀博士論文獎獲得者為畢業於加州大學伯克利分校的閆令琪博士。而而他的博士論文頒獎詞:「將閆令琪博士論文的任一章節摘取出,都可以自成一篇博士論文」,充分代表了業內對其卓越學術成就的至高評價。
  • NYU陳溪博士:運籌學與機器學習的融合交叉
    圖靈獎唯一華人得主姚期智院士曾如是強調學科交叉的重要性:「多學科交叉融合是信息技術發展的關鍵:當不同的學科、理論相互交叉結合,同時一種新技術達到成熟的時候,往往就會出現理論上的突破和技術上的創新。」尤其在今天大數據的環境下,學科的交叉與融合愈發明顯。作為一位在運籌學與機器學習領域都有過長期涉獵和學習的老師,陳溪博士對於這一觀點具有極強的發言權。
  • 機器學習博士自曝:實驗室「閹割」我的創造力,勸你別讀
    賈浩楠 發自 凹非寺量子位 報導 | 公眾號 QbitAI「我博士第五年在讀,但我不建議你來讀博士,因為這是個騙局……」一位外國網友在Reddit上發帖這麼說,他自述研究方向是機器學習。而且他還說,所謂「騙局」只是勸退博士的一個次要原因,還有更殘酷的事實。這個帖子在一天之內衝上熱榜第一,已經有800多回復討論。AI博士,真的不能讀嗎?縱身跳進博士生涯的科研黨們,都遭遇了什麼?
  • 2位華人獲得加州理工學院計算機、數學博士獎學金,3年近一半由華人...
    白交 發自 凹非寺 量子位 報導 | 公眾號 QbitAI 在頂尖學府,又有兩位華人斬獲計算機與數學博士獎學金。 每年,加州理工學院都只有5個人可以獲此殊榮,但今年已經是連續三年,獲獎者中有華人的身影。
  • 2位華人獲得加州理工計算機數學博士獎學金,3年近一半華人獲得
    白交 發自 凹非寺量子位 報導 | 公眾號 QbitAI在頂尖學府,又有兩位華人斬獲計算機與數學博士獎學金。每年,加州理工學院都只有5個人可以獲此殊榮,但今年已經是連續三年,獲獎者中有華人的身影。這項獎學金名為「Kortschak Scholars Program 」,是由企業家Walter Kortschak於2017年捐助500萬美金創立的,旨在為計算機、數學學科的學生提供兩年的資金支持。
  • CS229 機器學習速查表
    機器之心簡要介紹了該項目的主要內容,讀者可點擊「閱讀原文」下載所有的備忘錄。項目地址:https://github.com/afshinea/stanford-cs-229-machine-learning據項目介紹,該 repository 旨在總結斯坦福 CS 229 機器學習課程的所有重要概念,包括:VIP Cheatsheets在這一部分中,該項目根據 CS 229
  • 2位華人獲加州理工計算機數學博士獎學金,3年近一半由華人獲得
    白交 發自 凹非寺 量子位 報導 | 公眾號 QbitAI在頂尖學府,又有兩位華人斬獲計算機與數學博士獎學金。每年,加州理工學院都只有5個人可以獲此殊榮,但今年已經是連續三年,獲獎者中有華人的身影。每年獲獎的學生,都將進入到他們的「學習社區」。加上今年的5位學生,已經有15位成員了,在這當中就有7名華人學者。事件詳情加州理工學院計算與數學科學教授Adam Wierman領導了這項計劃。
  • 資源| 源自斯坦福CS229,機器學習備忘錄在集結
    機器之心簡要介紹了該項目的主要內容,讀者可點擊「閱讀原文」下載所有的備忘錄。這些基本上都是直接給出的定義,因此不會有過多的冗餘信息,這對於機器學習開發者與研究者作為參考還是非常有幫助的。」最大化分類邊界之間的間隔,這樣的分類模型將更穩定。
  • SIGGRAPH最佳博士論文獎又落華人手中,胡淵鳴的這位師兄不一般
    SIGGRAPH最佳博士論文獎,又被「華人學者」納入囊中。這已經是「連續3年」,該重要獎項頒給華人學者,此前分別由加州大學伯克利分校閆令琪博士和朱俊彥博士摘得。而最近,ACM SIGGRAPH 頒發了2020年最佳博士論文獎,獲此殊榮的學者叫李子懋(mào),本碩畢業於臺灣大學,現在是MIT CSAIL博士後研究員。在頒獎詞中,SIGGRAPH 稱他的博士論文「為新興的可微計算機圖形學奠定了基礎」,李子懋是「物理可微渲染領域的先行者」。
  • 95後哈佛小哥撰寫《從零開始的機器學習》,入門必備,書籍資源已開放
    說起機器學習入門書,大概有成百上千種選擇。這些書籍大多是由具備豐富研究經驗的學者撰寫的,涵蓋各種主題。俗話說「開卷有益」,但對於轉專業的初學者來說,這本新書或許更適合入門:近日,一位畢業於哈佛大學的小哥根據自己的機器學習入門經歷,撰寫了一本《從零開始的機器學習》。
  • 2840 頁的計算機畢業論文,這位華人小哥的博士論文究竟寫了啥?
    不過,學術界的「能人異士」層出不窮,德州大學奧斯汀分校的 CS 博士生 Zhao Song 就做到了。這是一篇 2019 年 8 月提交的博士論文,總篇幅達到了 2840 頁,其中目錄就佔了 31 頁。此外在致謝部分,論文作者還以整整 5 頁的篇幅感謝了合作者、提供寶貴意見以及讀博期間幫助過他的人。
  • 一個照片「隱身衣」,讓微軟曠視人臉識別系統100%失靈|開源
    給照片穿上「隱身衣」這項研究的目的,是幫助網友們在分享自己的照片的同時,還能有效保護自己的隱私。因此,「隱身衣」本身也得「隱形」,避免對照片的視覺效果產生影響。也就是說,這件「隱身衣」,其實是對照片進行像素級別的微小修改,以蒙蔽AI的審視。
  • 矽谷大廠也看「名校學歷」?Reddit小哥靈魂拷問引起熱議
    ,而今年的機器學習(ML)相關崗位又是其中的「香餑餑」。 這一「靈魂發問」,的的確確問到了很多人心裡,這不,在短短一天的時間裡,這個話題就引起了大家的激烈討論:名校給你帶來的不僅僅是「牌子」,迂迴戰術或許更有用其中一位叫EastMight的網友的回答得到了高贊: 「即使現在有很多在線資源,我認為一流的大學也會幫助你變得更有能力。
  • 從頭花12年讀個機器學習博士,究竟值不值?
    「獲得機器學習博士學位後,我大概已經36甚至38歲了,找工作會很困難嗎?年齡歧視在矽谷普遍存在嗎?」這是Reddit論壇上,一位年輕人po出的帖子。(他真正的夢想是製作遊戲或CGI電影,但意識到單人或小組,不可能做出像GTA5或是巫師3這樣的遊戲)這名年輕人認為,機器學習也許能助他實現夢想,所以想在攻讀計算機科學本科後,再去讀個機器學習的博士。然而,選擇還沒開始,他卻已經陷入了焦慮:傳言矽谷盛行年齡歧視、內卷很厲害,那還能在38歲後找到工作嗎?
  • 95後哈佛小哥撰寫從零開始的機器學習入門必備,書籍資源已開放
    說起機器學習入門書,大概有成百上千種選擇。這些書籍大多是由具備豐富研究經驗的學者撰寫的,涵蓋各種主題。俗話說「開卷有益」,但對於轉專業的初學者來說,這本新書或許更適合入門:近日,一位畢業於哈佛大學的小哥根據自己的機器學習入門經歷,撰寫了一本《從零開始的機器學習》。
  • 陳天奇:機器學習科研的十年
    機器之心轉載作者:陳天奇陳天奇是機器學習領域著名的青年華人學者之一,本科畢業於上海交通大學ACM班,博士畢業於華盛頓大學計算機系,研究方向為大規模機器學習。上個月,陳天奇在Twitter上宣布自己將於2020年秋季加入CMU任助理教授,成為加入CMU的年輕華人學者之一。
  • 機器學習博士自曝:實驗室「閹割」我的創造力,勸你別讀
    賈浩楠 發自 凹非寺量子位 報導 | 公眾號 QbitAI「我博士第五年在讀,但我不建議你來讀博士,因為這是個騙局……」一位外國網友在Reddit上發帖這麼說,他自述研究方向是機器學習。
  • 「機器學習」機器學習算法優缺點對比(匯總篇)
    天下沒有免費的午餐在機器學習領域,一個基本的定理就是「沒有免費的午餐」。「換言之,就是沒有算法能完美地解決所有問題,尤其是對監督學習而言(例如預測建模)」。舉例來說,你不能去說神經網絡任何情況下都能比決策樹更有優勢,反之亦然。
  • 從蘋果店員到機器學習工程師:學習AI,我是這樣起步的
    即使看到了今天正在發生的一切,我們仍然無法給出「人工智慧」一詞的明確定義。一些人認為深度學習可以被稱為 AI;另一些人則認為除非完全通過圖靈測試,否則就不算 AI。缺乏定義這一問題確實給我入門人工智慧前期造成了很多麻煩,如果你在學的東西有很多種不同的定義,那麼學習它真的很難起步。