算法工程師當前選哪個方向好?1,CV;2,NLP;3,推薦系統?

2021-02-26 深度傳送門

    整理:zenRRan

    編輯:深度學習自然語言處理公眾號

算法工程師當前選哪個方向好?1,計算機視覺;2,自然語言處理;3,風控;4,推薦系統?當前2020年 ,算法工程師哪個方向好?從社會需求,工資待遇,未來發展方面講。

原文連結:

https://www.zhihu.com/question/398876586/answer/1325455486

https://www.zhihu.com/question/398876586/answer/1325455486公司東搞搞西搞搞,我橫跨超多業務線,以上領域全都做過。我建議是都別選了,多刷leetcode多跳槽,每天划水刷題搞開源,坑資本家三年錢,累積足夠100萬,回老家當老師公務員,或者搞其他事情吧。自然語言諸如bert一類服務都被中臺化服務化了,和各種號稱幾百億節點的graph工具搭配起來,各種抽取知識,你連學習nlp的動力都沒有了,直接查表就是了。訓練?成套訓練可視化界面都給你做得出來,幾毫秒inference時間,幾個小時的fintune時間,你只要會點run便可。現在就差壓縮這些巨無霸還有搞頭視覺各類基礎模塊全都服務化了,而且這東西走集中調度比較坑,中臺搞了人家業務方也不一定會用,github調包太方便了,完全可以自己啟動,現在中臺血拼視覺能力靠的是大量gpu伺服器和低成本並發能力,你要10個gpu跑多少qps,我做到5個,拼這種能力,沒人關心性能,只關心成本。視覺適合做2b項目,然而做2b在公司生存不下的,特別是政府的,都是項目制,做一個算一個,沒啥爆發性,領導一換全都涼了,2b成了二逼代言詞,公司做視覺也就剩視頻還有搞頭,又有幾家公司能有直播帶貨呢?風控兩年前做過,這個技術門檻太低,xgboost橫行天下,走純業務,以後要去銀行還好,qps不過1000的業務都不是純正網際網路業務,以後走網際網路技術棧被鎖死。推薦系統和廣告,廣告作弊太普遍了,到處都是保量刷量,跪舔廣告主爸爸,現在有搞頭的,也就學習在各種爸爸約束下搞流控,pacing,強化學習啥的,一個目標後面搭配10個爸爸約束,經常發現又不數學太難一時半會解不出來,有不就是無解,最後解決方案是找到爺爺,讓爸爸都聽爺爺的,約束一下子少了很多,然後又成了社會工程學問題,沒啥技術含量。推薦系統,現在主播幫你解決內容生產和用戶興趣挖掘,頂層做好流控就行了,剩下搞搞用戶行為分析和歸因分析,不過這兩個方向不直接面向指標,公司35歲開除你沒商量。推薦系統工程師最後只需要會調權,流控,強插廣告,數據分析便可。冷啟問題又回到前面nlp和視覺上來,你調公司服務就行了。做rank?業界人士都知道,大部分公司壓根都好久不優化rank了,roi太低,瓶頸壓根不在於此。然後現在招聘大頭兵,經常要求能不能給我搞全鏈路強化學習出去吹牛,想得美,試一個人工策略沒這麼簡單,試work都要一個月去判斷,人肉強化學習還差不多足最後,做nlp和視覺的同學拼不過開源速度,做廣告和推薦同學,人家已經不關心你的算法能力,你必須要有帶業務線的經歷,負責一個業務線包括工程和算法還有組織管理,簡直要你啥都會。做風控純粹業務邏輯,沒啥技術含量,反而想去銀行還好選方向不如選部門。進大公司的搜索、推薦、廣告部門的話,幹的活直接涉及流量和變現,任何方向都很有前途。去一些人工智慧實驗室之類的部門的話,如果團隊沒有能為公司賺錢的業務,可能就只剩下「體面」了。https://www.zhihu.com/question/398876586/answer/1327427549平時不怎麼看知乎,第一次作答,被大佬點名,就針對風控寫一點思路吧。對於網際網路風控在下算是做得比較早的一批人了,我看了很多其他人的回答,總體感覺很多人對算法應用的理解陷入了一個誤區。
為什麼很多人把風控排的相對靠後直觀來看很簡單,首先問題封閉,幾乎解決的就是怎麼優化壞帳/N日逾期率這一個核心問題上。技術深度上,由於金融場景對模型可解釋性要求很高,所以,xgboost+lr基本已經到頭了,新一點的技術全都沒法用。So,看上去是個輕鬆愉快的工作,花3天時間隨便搞個簡單打分服務上線,反正也沒啥並發,然後再花兩個月一邊劃划水一邊搞搞圖特徵,收斂了,沒了。風控方向真的沒啥可做的了嗎在下拋出一些問題,無論做沒做過風控,都可以一起討論一下:- 既然可解釋性要求高,有沒有辦法兼顧可解釋性和深度學習帶來的效果收益呢?如果有,是不是NLP和CV 等領域的新技術也能用到風控了?- 既然風控對數據的依賴強,大量的數據資源都在第三方(前年可能有數千家公司,現在估計很少了),那麼實際上是效率制勝,衍生出的問題是:如何快速接入數據?對於各種不同的數據形態如何快速地清洗並評估出對模型的價值?如何評估新數據源的商業價值?- 風控引擎對借款流程的優化能有什麼幫助?對流量獲取有什麼幫助?應該以什麼樣的計費模式獲取流量使得公司ROI最高?我們能跟流量方做哪些合作?- 信審為什麼存在?為什麼有些場景要淘汰掉?本質是什麼?有什麼辦法能更好地利用信審的數據嗎?- 催回率有多少辦法優化?催收團隊的人效如何提升?
方向與價值@li Eta同學有句話非常關鍵:對於工業界從業者來說,核心工作其實在於「適配」,主要是針對業務環境選擇合適的方法。上面列的這些問題,其實每解決掉一個,都能帶來非常直接的業務收益,但是我接觸到的大多數風控從業者,思維太局限在模型上,導致看到的也是很局限的問題。真實的業務場景有著海量的機會,合適的架構+合適的算法,用到最需要的場景,才是真正的能力。當然,那個風控如日中天的時間點已經過去了,這點其實很多人已經提到,機會相對以前已經少了一些,但也會冒出來一些新的機會,就看誰能抓得住了。總結一下任何大方向的業務中都還是充滿各種機會的,主要還是要有眼光,有技巧,有執行力去做起來。最後忍不住解析一下一個挺火的回答(風控部分):「風控兩年前做過,這個技術門檻太低,xgboost橫行天下,走純業務,以後要去銀行還好,qps不過1000的業務都不是純正網際網路業務,以後走網際網路技術棧被鎖死。做風控純粹業務邏輯,沒啥技術含量。」https://www.zhihu.com/question/398876586/answer/1327357883今天收到同事轉發的這個挺火的問題。本來沒想蹭熱度,但是看了幾個回答(不能忍了),就想「務虛」得講講,希望能有一點正確的引導。
推薦/廣告因為恰好在一家推薦廣告做的還行的公司,對這方面還是有一定的了解。推薦和廣告技術在ctr cvr這方面技術有一點重疊,就一起講。ctr cvr模型無論是說樣本還是模型訓練,都有很多細緻入微但是收益巨大的改進點。這個方向是可以持續優化的,並且它本身的上限和上下遊的改進也有關,這個過程會持續好幾年,然後進入瓶頸期,等待下一次技術大爆發。在這個領域應當避免強行附和流行的模型(比如強化學習),不是說時髦的技術沒用,我個人相信強化學習在推薦領域會有大作用,我只是反對不能言之有物的「支持」和「反對」。此外,推薦/廣告算法也不僅僅只服務於把流量分配準,還有很多涉及作者、廣告主的算法和策略,這塊不像ctr cvr一樣廣為人知,但其實是根本中的根本。從事這個領域,最重要的能力,不是熟悉多少模型套路,是業務理解+不斷學習新技術,掌握這種能力,類比一下,那麼你也許就是下一個發明新套路的人(就如發明如何用機器學習做ctr的人一樣,現在看來是成熟套路,當年可不是)。建議選擇流量正在崛起的公司,這樣的公司很多基礎技術都還處於迭代中,薪資高,機會多,成長空間大。風控cv/nlp這兩兄弟一起說。cv nlp 發展幾十年了,cv真正實用是得益於深度學習,在dl之前,cv好多方向只是有一個well-define的問題,但是結果很差(比如detection segmentation)。nlp在dl之前比較work的可能只有分詞、ner這類這樣相對不那麼複雜的任務,nmt還是dl時代才做到「看起來不那麼糟」。目前確實有不少非常work,且成本不高,容易被標準化的套路,比如nlp的bert(或者別的pretrain)+ fine-tuning,cv 的 imagenet分類數據集(或者MoCo一類的pretrain)+ fine-tuning。但學術上講,這並不是終點,我們尚未實現給定數據集的「無人駕駛train模型」。對於工業界從業者來說,核心工作其實在於「適配」,主要是針對業務環境選擇合適的方法,有時候帶有一些微創新。乍一看,可能讓人覺得「適配」很low,其實不是這樣。簡單舉個的例子,抖音那麼多實時的特效,背後原理,做cv的同行能猜個八九不離十吧,但是你能按照這個badcase率和同樣的流暢度實現到手機上嗎?(這裡面不僅僅是工程問題)。這樣的工作一點都不容易,未來也有很強的技能遷移機會,工業界有為數眾多的特殊場景,也願意為此付出高工資。總之,目前網際網路還是一個朝陽產業,並且這個領域裡面推薦 cv nlp都已經證明了自己的長期價值,對於做技術的人來說是一波時代發展帶來的紅利,一如特殊年代的石油工人、90年代選擇下崗經商。https://www.zhihu.com/question/398876586/answer/1334002662看了下這個問題下的答案,有不少說得挺實在的,大多是來自業界的人的經驗,但學生黨大概率會看得一臉懵逼,單純覺得牛(答主有炫耀成分),卻不知道答案在哪,容我根據自己的業務和科研經驗,重新梳理一下。答案寫在前面,在寫下答案的當下,排序是推薦(搜索)>cv=nlp>風控。也就是說,這個排序對於,幾年後畢業但現在就要看方向的學生無效。你會說,你這不是說廢話嗎?廢話也有廢話的底層邏輯,這裡我就來聊聊為什麼要說這個廢話。選方向,其實主要看這麼三點:1.場子有多大,2.紅利期還有多久,3.是不是這個部門的核心業務。為什麼大家都把推薦系統排第一?因為目前絕大多數你聽過名字的一線二線公司都會有自己的推薦算法部,而這個部門的業務也基本跟公司收入相關度很高。但是,推薦算法團隊的地位和技術階段由這個業務的流量場大小直接決定。舉個例子,一個處在起步階段的APP,數據積累和提效是首要任務,這個階段,根本不需要機器學習,一個數據專家「人工學習」一下數據規律,配合運營團隊的活動,做「機制策略」就足夠了,硬要上模型,數據會稀疏到讓你懷疑人生。這個階段,往往是「運營為王」或「產品為王」的階段,看不同公司文化決定。如果在抖音,日活四億的恐怖流量場,算法對內容/商品的分發和曝光的價值就會得到充分體現,有時候,模型甚至可以「大力出奇蹟」。我把cv和nlp劃等號,有人一定會問,只聽說cv現在「卷」得不行,沒聽說nlp也卷啊。是的,現在的就業環境來看,cv競爭壓力巨大,cv的hc目前收緊很嚴重,變相拉高了門檻,最近招進來的實習生人均兩三篇非水A一作。一是強勢通用型算法淡化了人的作用。從resnet出來後,學術界出現灌水嚴重的現象,各種奇技淫巧在工業界的數據上很少有真的有效的。bert遲到但不會缺席,nlp領域按這個規律後面也會很快捲起來。(推薦目前沒有什麼dominate的模型,本質上也跟這個領域算法場景依賴性強有關)二則是這兩塊變現能力現在飽受質疑。很多toB的業務盤子可能很小,毛利率也比較拉胯,從曠世港股上市受挫可見一斑。nlp國內明星公司不多,不少都是toB的,還沒聽說哪家準備上市,盤子有多大有待市場驗證。至少目前不大,所以需求也不會高。做toC業務則往往不會是部門核心,而是輔助,例如視頻網站的視頻封面個性化生成,商品的標題改寫生成等等。風控排最後僅僅是針對現狀而言的。為什麼?大家看了這個問題下的這麼多答案,覺得風控最好的出路是哪幾家,一隻手數不數的過來?另外就是老生常談的,風控需要的可解釋性很強,而現在的深度模型往往沒辦法提供。但從長遠來看,把風控排最後其實是保守做法。原因是,雖然現在成立風控部門的公司不多,電子支付及其衍生產品將會是數字經濟時代的基礎設施,劃重點,要考。隨著業務平臺化,支付入口化,越來越多的平臺將擁有來自普通用戶、商家的支付信息和現金流,金融相關的業務市場極大。但這個市場是個敏感的市場,將來必將受到嚴格準入和經營的管控,各司未來的不確定性很大。總結一下就是勸退(狗頭)。現在播種兩年后豐收的想法可以放放了,網際網路雖然不是夕陽行業,但各大場景的流量紅利也相繼在今天(2020)到頂。後面的提升只會越來越難、微乎其微,相伴隨地,內卷可能也會模糊算法領域邊界,相比某些專業卷得沒那麼厲害罷了。從現在這個節點開始,選哪個方向還真的不重要。校招看的,是你在一個點上夠不夠深(頂會數量、質量),知識面夠不夠寬。你也很難保證學什麼做什麼,今年組裡已經有招了cv進來做推薦的了。


關於深度傳送門

深度傳送門是一個專注於深度推薦系統與CTR預估的交流社區,傳送推薦、廣告以及NLP等相關領域工業界第一手的論文、資源等相關技術分享,歡迎關注!加技術交流群請添加小助手deepdeliver,備註姓名+學校/公司+方向。

相關焦點

  • 推薦算法工程師成長1——召回模塊
    開一個系列,主題是推薦算法工程師成長路徑。目標是希望填補書本上的機器學習理論與業界推薦算法工程師知識體系上的gap,了解一些業界模塊的通用玩法。目標群體是針對以下用戶: 上一篇,我們講了做推薦算法需要的工程基礎。這一篇我們正式進入推薦系統,來講講召回是怎麼做的。如果你是第一次了解推薦系統,我先來簡單解釋下。
  • NLP算法工程師的日常以及核心競爭力
    經常有人問我算法工程師的日常,發一個之前寫的文章給大家;先簡單自我介紹一下,我是DASOU,任職在一家社交公司,做NLP算法工程師,主要做文本分類,序列標註,問答匹配方向的工作,也做過搜索/推薦方向的需求。
  • NLP、CV、語音相關AI算法工程師面試問題、代碼、簡歷模板、知識點等資源整理分享
    1.•算法崗面經(阿里雲,1,2,3,交叉,hr面) nowcoder        •春招實習面經(cv算法崗) nowcoder        •雙非本碩算法陪跑面經 nowcoder        •2018春招科大訊飛,華為,神策數據,今日頭條面經 nowcoder        •愛奇藝深度學習算法實習生面經 nowcoder
  • Bandit算法與推薦系統
    圖1 MAB問題怎麼解決這個問題呢?最好的辦法是去試一試,不是盲目地試,而是有策略地快速試一試,這些策略就是Bandit算法。這個多臂問題,推薦系統裡很多問題都與它類似:假設一個用戶對不同類別的內容感興趣程度不同,那麼我們的推薦系統初次見到這個用戶時,怎麼快速地知道他對每類內容的感興趣程度?這就是推薦系統的冷啟動。
  • 沒有頂會的CV/NLP方向的博士生畢業出路在哪裡?
    辦法3:那就只能做博後了。找一個還算不錯的地方(好的估計難找,因為你畢竟沒有好paper)和那裡的學生好好合作,利用這2-3年瘋狂灌水刷paper,然後回國到一個好的學校。不管怎麼說,都希望題主和有相同問題的同學們都能有一個滿意的未來!
  • 推薦算法工程師的成長之道
    所以本文除了講解推薦算法工程師的成長路徑之外,還會詳細闡述推薦算法工程師需要了解的方法論和智慧。相信讀者讀完本文會更加堅信推薦算法工程師是一個好的職業選擇, 並且結合自己的興趣和特長也知道未來該怎樣去規劃、發展和成長。
  • 對於算法工程師職業生涯規劃的思考
    本文閱讀時間約7min,共分為兩個部分:什麼叫做優秀的算法工程師?在面臨換工作/就業的時候,自己應該依據什麼做選擇?什麼叫做優秀的算法工程師先扔一個觀點。優秀的算法工程師是解決問題的人。一定的工程能力我在第一份正式工作的時候,領導和我們強調了,你首先是一個工程師,然後才是算法工程師。你每天在那裡加個特徵,調個參數,臨了連個服務也上不去,有了bug也不知道怎麼改,一個小型工程都做不出來,怎麼能叫自己是算法工程師呢?
  • 哈工程求職就業實例第2期-14級自動化碩士畢業生,中興算法崗
    自我介紹一下,我本碩都就讀於自動化學院,去年校招最終去的中興cv算法崗,有幸擠進了AI熱門行業,下面跟大家簡單聊聊求職建議,不整虛的嘮點乾貨。我主要說說算法,算法分為不同方向cv,nlp,機器學習,推薦,風控等,其中我們學校做cv的較多,基本沒有其他方向的研究氛圍,校招中cv競爭也最激烈,去年中興在東北就招了倆cv崗,我和一個工大的,跟我一起入職的cv崗還有華科浙大上交的。今年肯定會更難,以後越來越難,只會下載代碼調參肯定不夠看了,得懂得原理以及你為什麼這樣改進,經典網絡隨便哪個細節都要知道。
  • 算法工程師職業方向及技術要求匯總
    圖像算法工程師,圖像處理工程師,音/視頻處理算法工程師,計算機視覺工程師(1) 精通DirectX HLSL和OpenGL GLSL等shader語言,熟悉常見圖像處理算法GPU實現及優化;(2) 語言:精通C/C++;(3) 工具:Matlab數學軟體,CUDA運算平臺,VTK圖像圖形開源軟體【醫學領域:ITK,醫學圖像處理軟體包】(4)
  • CV學習筆記(十五):邊緣檢測
    尺寸越大,去噪能力越強,因此噪聲越少,但圖片越模糊,canny檢測算法抗噪聲能力越強,但模糊的副作用也會導致定位精度不高,一般情況下,推薦尺寸5*5,3*3尺寸2:計算梯度與方向角邊緣的最重要的特徵是灰度值劇烈變化,如果把灰度值看成二元函數值,那麼灰度值的變化可以用二元函數的」導數「(或者稱為梯度)來描述。
  • 算法工程師也會遇到35歲這道坎麼?
    想要跨過這道坎,要做的就是努力提升自己的相對不可替代性,從初級漸漸往高級的方向走,個人覺得大體可以分3個階段:初級算法工程師算法入行的必經之路,所謂的 SQL Boy、調參俠、數據搬運工、煉丹師,都發生在這個階段。這個階段的算法工程師,很多時候都是在和數據打交道。
  • 2021-2022算法崗校招130個最新乾貨答疑
    AI算法崗關注就是算法/模型,你研究啥方向,啥方向的公司就能招你,你也可以投。比如百度不僅有搜索,還有近兩年很火熱的自動駕駛部門。搞CV,也要coding啊,因為大家找到大多是AI算法工程師,不是AI算法研究員。我覺得,你把自己的研究方向吃透了,就好很多,然後編程方面,C/C++和Python這兩個要多學習多掌握。8.3 能否對廣告推薦類的算法崗位做一些介紹?
  • CV學習筆記(九):光流法的實現
    這個函數的具體介紹在http://www.opencv.org.cn/opencvdoc/2.3.2/html/modules/video/doc/motion_analysis_and_object_tracking.html#calcopticalflowfarneback
  • 算法工程師研發技能表
    Learning Lab    由於算法工程師這個崗位根據不同的業務場景和應用方向,各自的工作差異相對較大。所以很難有一個一概而論的算法工程師技術棧。比如說做圖像方向的有機器視覺算法崗、做文本方向的有自然語言處理算法崗、做語音的又有語音識別算法崗。本文僅對算法工程師常用的、基礎的、必備的研發技能進行梳理。也就是說,不論你是做哪個業務場景下的算法工作,這些基礎研發技能都是必知必會的。這組技能清單主要包括兩大類型,一類是理論技術,另一類是程式語言和工具類。
  • 論淘寶搜索推薦算法排序機制及2021年搜索的方向
    其實斐然哪個時候「坑產」是最核心機密,大家都悶聲發大財誰來教你啊,哪個時候教你的最多就是類目優化,關鍵詞優化,幾乎所有的優化都圍繞著關鍵詞,電商老人回憶一下你哪個時候是不是就是得關鍵詞者得天下。有誰告訴你玩坑產,關鍵詞找好了生意也就來了。哪個時候就是懂坑產也沒人給你刷啊,大規模補單也就出現在黑搜盛行的時期。為什麼說得關鍵詞者得天下呢?
  • 你知道算法工程師的分類嗎?
    算法工程師的技能樹(不同方向差異較大,此處僅供參考)1 機器學習2 大數據處理:熟悉至少一個分布式計算框架Hadoop/Spark/Storm/ map-reduce/MPI3 數據挖掘4 紮實的數學功底5 至少熟悉C/C++或者Java,熟悉至少一門程式語言例如java/python
  • Tensroflow練習,包括強化學習、推薦系統、nlp等
    實現CNN對mnist手寫數字分類2、自然語言相關使用簡單的RNN觀測數字中的規律更進一步,使用LSTM實現對手寫數字識別簡單的Seq2Seq實現作對聯使用Seq2Seq+attention model實現簡單的Chatbot3、強化學習相關實戰深度強化學習DQN-理論和實踐DQN三大改進(一)-Double DQN
  • 算法推薦組:數據平臺(高級)工程師等
    數據平臺(高級)工程師 北京 經驗3-5年 碩士及以上 全職 職位描述:1、設計和實現通用的數據分析系統,降低數據的使用門檻,支持業務團隊基於通用的系統高效地、自助化、規範化地進行數據處理和分析,實現數據的最大價值;2、為海量用戶行為數據構建設計良好的數據 pipeline、數據倉庫
  • 長文分享:AI算法工程師煉成之路
    這是一篇關於如何成為一名AI算法工程師的長文。作者回顧了自己成長為一名算法工程師,並分享了入門機器學習的經驗,以及學習資源。這是一篇關於如何成為一名AI算法工程師的長文。作者回顧了自己成長為一名算法工程師,進行了經驗總結。
  • CV好文推薦+遷移學習經驗分享
    +經驗分享」贈送這本新書的活動,有8位粉絲的留言最終入選,他們推薦的論文涵蓋自動駕駛、2D手勢估計、隱私保護、目標檢測、小物體檢測、圖像壓縮、輕量級網絡、多模態醫學圖像分割等方向,每個人也都分享了對遷移學習的理解。