整理:zenRRan
編輯:深度學習自然語言處理公眾號
算法工程師當前選哪個方向好?1,計算機視覺;2,自然語言處理;3,風控;4,推薦系統?當前2020年 ,算法工程師哪個方向好?從社會需求,工資待遇,未來發展方面講。
原文連結:
https://www.zhihu.com/question/398876586/answer/1325455486
https://www.zhihu.com/question/398876586/answer/1325455486公司東搞搞西搞搞,我橫跨超多業務線,以上領域全都做過。我建議是都別選了,多刷leetcode多跳槽,每天划水刷題搞開源,坑資本家三年錢,累積足夠100萬,回老家當老師公務員,或者搞其他事情吧。自然語言諸如bert一類服務都被中臺化服務化了,和各種號稱幾百億節點的graph工具搭配起來,各種抽取知識,你連學習nlp的動力都沒有了,直接查表就是了。訓練?成套訓練可視化界面都給你做得出來,幾毫秒inference時間,幾個小時的fintune時間,你只要會點run便可。現在就差壓縮這些巨無霸還有搞頭視覺各類基礎模塊全都服務化了,而且這東西走集中調度比較坑,中臺搞了人家業務方也不一定會用,github調包太方便了,完全可以自己啟動,現在中臺血拼視覺能力靠的是大量gpu伺服器和低成本並發能力,你要10個gpu跑多少qps,我做到5個,拼這種能力,沒人關心性能,只關心成本。視覺適合做2b項目,然而做2b在公司生存不下的,特別是政府的,都是項目制,做一個算一個,沒啥爆發性,領導一換全都涼了,2b成了二逼代言詞,公司做視覺也就剩視頻還有搞頭,又有幾家公司能有直播帶貨呢?風控兩年前做過,這個技術門檻太低,xgboost橫行天下,走純業務,以後要去銀行還好,qps不過1000的業務都不是純正網際網路業務,以後走網際網路技術棧被鎖死。推薦系統和廣告,廣告作弊太普遍了,到處都是保量刷量,跪舔廣告主爸爸,現在有搞頭的,也就學習在各種爸爸約束下搞流控,pacing,強化學習啥的,一個目標後面搭配10個爸爸約束,經常發現又不數學太難一時半會解不出來,有不就是無解,最後解決方案是找到爺爺,讓爸爸都聽爺爺的,約束一下子少了很多,然後又成了社會工程學問題,沒啥技術含量。推薦系統,現在主播幫你解決內容生產和用戶興趣挖掘,頂層做好流控就行了,剩下搞搞用戶行為分析和歸因分析,不過這兩個方向不直接面向指標,公司35歲開除你沒商量。推薦系統工程師最後只需要會調權,流控,強插廣告,數據分析便可。冷啟問題又回到前面nlp和視覺上來,你調公司服務就行了。做rank?業界人士都知道,大部分公司壓根都好久不優化rank了,roi太低,瓶頸壓根不在於此。然後現在招聘大頭兵,經常要求能不能給我搞全鏈路強化學習出去吹牛,想得美,試一個人工策略沒這麼簡單,試work都要一個月去判斷,人肉強化學習還差不多足最後,做nlp和視覺的同學拼不過開源速度,做廣告和推薦同學,人家已經不關心你的算法能力,你必須要有帶業務線的經歷,負責一個業務線包括工程和算法還有組織管理,簡直要你啥都會。做風控純粹業務邏輯,沒啥技術含量,反而想去銀行還好選方向不如選部門。進大公司的搜索、推薦、廣告部門的話,幹的活直接涉及流量和變現,任何方向都很有前途。去一些人工智慧實驗室之類的部門的話,如果團隊沒有能為公司賺錢的業務,可能就只剩下「體面」了。
https://www.zhihu.com/question/398876586/answer/1327427549平時不怎麼看知乎,第一次作答,被大佬點名,就針對風控寫一點思路吧。對於網際網路風控在下算是做得比較早的一批人了,我看了很多其他人的回答,總體感覺很多人對算法應用的理解陷入了一個誤區。
為什麼很多人把風控排的相對靠後直觀來看很簡單,首先問題封閉,幾乎解決的就是怎麼優化壞帳/N日逾期率這一個核心問題上。技術深度上,由於金融場景對模型可解釋性要求很高,所以,xgboost+lr基本已經到頭了,新一點的技術全都沒法用。So,看上去是個輕鬆愉快的工作,花3天時間隨便搞個簡單打分服務上線,反正也沒啥並發,然後再花兩個月一邊劃划水一邊搞搞圖特徵,收斂了,沒了。風控方向真的沒啥可做的了嗎在下拋出一些問題,無論做沒做過風控,都可以一起討論一下:- 既然可解釋性要求高,有沒有辦法兼顧可解釋性和深度學習帶來的效果收益呢?如果有,是不是NLP和CV 等領域的新技術也能用到風控了?- 既然風控對數據的依賴強,大量的數據資源都在第三方(前年可能有數千家公司,現在估計很少了),那麼實際上是效率制勝,衍生出的問題是:如何快速接入數據?對於各種不同的數據形態如何快速地清洗並評估出對模型的價值?如何評估新數據源的商業價值?- 風控引擎對借款流程的優化能有什麼幫助?對流量獲取有什麼幫助?應該以什麼樣的計費模式獲取流量使得公司ROI最高?我們能跟流量方做哪些合作?- 信審為什麼存在?為什麼有些場景要淘汰掉?本質是什麼?有什麼辦法能更好地利用信審的數據嗎?- 催回率有多少辦法優化?催收團隊的人效如何提升?
方向與價值@li Eta同學有句話非常關鍵:對於工業界從業者來說,核心工作其實在於「適配」,主要是針對業務環境選擇合適的方法。上面列的這些問題,其實每解決掉一個,都能帶來非常直接的業務收益,但是我接觸到的大多數風控從業者,思維太局限在模型上,導致看到的也是很局限的問題。真實的業務場景有著海量的機會,合適的架構+合適的算法,用到最需要的場景,才是真正的能力。當然,那個風控如日中天的時間點已經過去了,這點其實很多人已經提到,機會相對以前已經少了一些,但也會冒出來一些新的機會,就看誰能抓得住了。總結一下任何大方向的業務中都還是充滿各種機會的,主要還是要有眼光,有技巧,有執行力去做起來。最後忍不住解析一下一個挺火的回答(風控部分):「風控兩年前做過,這個技術門檻太低,xgboost橫行天下,走純業務,以後要去銀行還好,qps不過1000的業務都不是純正網際網路業務,以後走網際網路技術棧被鎖死。做風控純粹業務邏輯,沒啥技術含量。」
https://www.zhihu.com/question/398876586/answer/1327357883今天收到同事轉發的這個挺火的問題。本來沒想蹭熱度,但是看了幾個回答(不能忍了),就想「務虛」得講講,希望能有一點正確的引導。
推薦/廣告因為恰好在一家推薦廣告做的還行的公司,對這方面還是有一定的了解。推薦和廣告技術在ctr cvr這方面技術有一點重疊,就一起講。ctr cvr模型無論是說樣本還是模型訓練,都有很多細緻入微但是收益巨大的改進點。這個方向是可以持續優化的,並且它本身的上限和上下遊的改進也有關,這個過程會持續好幾年,然後進入瓶頸期,等待下一次技術大爆發。在這個領域應當避免強行附和流行的模型(比如強化學習),不是說時髦的技術沒用,我個人相信強化學習在推薦領域會有大作用,我只是反對不能言之有物的「支持」和「反對」。此外,推薦/廣告算法也不僅僅只服務於把流量分配準,還有很多涉及作者、廣告主的算法和策略,這塊不像ctr cvr一樣廣為人知,但其實是根本中的根本。從事這個領域,最重要的能力,不是熟悉多少模型套路,是業務理解+不斷學習新技術,掌握這種能力,類比一下,那麼你也許就是下一個發明新套路的人(就如發明如何用機器學習做ctr的人一樣,現在看來是成熟套路,當年可不是)。建議選擇流量正在崛起的公司,這樣的公司很多基礎技術都還處於迭代中,薪資高,機會多,成長空間大。
風控cv/nlp這兩兄弟一起說。cv nlp 發展幾十年了,cv真正實用是得益於深度學習,在dl之前,cv好多方向只是有一個well-define的問題,但是結果很差(比如detection segmentation)。nlp在dl之前比較work的可能只有分詞、ner這類這樣相對不那麼複雜的任務,nmt還是dl時代才做到「看起來不那麼糟」。目前確實有不少非常work,且成本不高,容易被標準化的套路,比如nlp的bert(或者別的pretrain)+ fine-tuning,cv 的 imagenet分類數據集(或者MoCo一類的pretrain)+ fine-tuning。但學術上講,這並不是終點,我們尚未實現給定數據集的「無人駕駛train模型」。對於工業界從業者來說,核心工作其實在於「適配」,主要是針對業務環境選擇合適的方法,有時候帶有一些微創新。乍一看,可能讓人覺得「適配」很low,其實不是這樣。簡單舉個的例子,抖音那麼多實時的特效,背後原理,做cv的同行能猜個八九不離十吧,但是你能按照這個badcase率和同樣的流暢度實現到手機上嗎?(這裡面不僅僅是工程問題)。這樣的工作一點都不容易,未來也有很強的技能遷移機會,工業界有為數眾多的特殊場景,也願意為此付出高工資。總之,目前網際網路還是一個朝陽產業,並且這個領域裡面推薦 cv nlp都已經證明了自己的長期價值,對於做技術的人來說是一波時代發展帶來的紅利,一如特殊年代的石油工人、90年代選擇下崗經商。
https://www.zhihu.com/question/398876586/answer/1334002662看了下這個問題下的答案,有不少說得挺實在的,大多是來自業界的人的經驗,但學生黨大概率會看得一臉懵逼,單純覺得牛(答主有炫耀成分),卻不知道答案在哪,容我根據自己的業務和科研經驗,重新梳理一下。答案寫在前面,在寫下答案的當下,排序是推薦(搜索)>cv=nlp>風控。也就是說,這個排序對於,幾年後畢業但現在就要看方向的學生無效。你會說,你這不是說廢話嗎?廢話也有廢話的底層邏輯,這裡我就來聊聊為什麼要說這個廢話。選方向,其實主要看這麼三點:1.場子有多大,2.紅利期還有多久,3.是不是這個部門的核心業務。為什麼大家都把推薦系統排第一?因為目前絕大多數你聽過名字的一線二線公司都會有自己的推薦算法部,而這個部門的業務也基本跟公司收入相關度很高。但是,推薦算法團隊的地位和技術階段由這個業務的流量場大小直接決定。舉個例子,一個處在起步階段的APP,數據積累和提效是首要任務,這個階段,根本不需要機器學習,一個數據專家「人工學習」一下數據規律,配合運營團隊的活動,做「機制策略」就足夠了,硬要上模型,數據會稀疏到讓你懷疑人生。這個階段,往往是「運營為王」或「產品為王」的階段,看不同公司文化決定。如果在抖音,日活四億的恐怖流量場,算法對內容/商品的分發和曝光的價值就會得到充分體現,有時候,模型甚至可以「大力出奇蹟」。我把cv和nlp劃等號,有人一定會問,只聽說cv現在「卷」得不行,沒聽說nlp也卷啊。是的,現在的就業環境來看,cv競爭壓力巨大,cv的hc目前收緊很嚴重,變相拉高了門檻,最近招進來的實習生人均兩三篇非水A一作。一是強勢通用型算法淡化了人的作用。從resnet出來後,學術界出現灌水嚴重的現象,各種奇技淫巧在工業界的數據上很少有真的有效的。bert遲到但不會缺席,nlp領域按這個規律後面也會很快捲起來。(推薦目前沒有什麼dominate的模型,本質上也跟這個領域算法場景依賴性強有關)二則是這兩塊變現能力現在飽受質疑。很多toB的業務盤子可能很小,毛利率也比較拉胯,從曠世港股上市受挫可見一斑。nlp國內明星公司不多,不少都是toB的,還沒聽說哪家準備上市,盤子有多大有待市場驗證。至少目前不大,所以需求也不會高。做toC業務則往往不會是部門核心,而是輔助,例如視頻網站的視頻封面個性化生成,商品的標題改寫生成等等。風控排最後僅僅是針對現狀而言的。為什麼?大家看了這個問題下的這麼多答案,覺得風控最好的出路是哪幾家,一隻手數不數的過來?另外就是老生常談的,風控需要的可解釋性很強,而現在的深度模型往往沒辦法提供。但從長遠來看,把風控排最後其實是保守做法。原因是,雖然現在成立風控部門的公司不多,電子支付及其衍生產品將會是數字經濟時代的基礎設施,劃重點,要考。隨著業務平臺化,支付入口化,越來越多的平臺將擁有來自普通用戶、商家的支付信息和現金流,金融相關的業務市場極大。但這個市場是個敏感的市場,將來必將受到嚴格準入和經營的管控,各司未來的不確定性很大。總結一下就是勸退(狗頭)。現在播種兩年后豐收的想法可以放放了,網際網路雖然不是夕陽行業,但各大場景的流量紅利也相繼在今天(2020)到頂。後面的提升只會越來越難、微乎其微,相伴隨地,內卷可能也會模糊算法領域邊界,相比某些專業卷得沒那麼厲害罷了。從現在這個節點開始,選哪個方向還真的不重要。校招看的,是你在一個點上夠不夠深(頂會數量、質量),知識面夠不夠寬。你也很難保證學什麼做什麼,今年組裡已經有招了cv進來做推薦的了。
關於深度傳送門
深度傳送門是一個專注於深度推薦系統與CTR預估的交流社區,傳送推薦、廣告以及NLP等相關領域工業界第一手的論文、資源等相關技術分享,歡迎關注!加技術交流群請添加小助手deepdeliver,備註姓名+學校/公司+方向。