在號稱平均年齡僅24歲的曠視研究院,28歲的他已經開始領導團隊,為來自清華、北大等名校的員工討論和規劃研究方向,決定著公司下一個突破性的基礎技術;在高智商選手雲集的AI領域,自詡靠&34;成功的他,研發出多個重量級算法模型,已然成為AI領域最具影響力的學者之一。他就是曠視科技研究院基礎模型組負責人、西安交通大學2017屆校友張祥雨。
1990年6月出生的張祥雨,是一名&34;的西交大人,從本科到博士都在西安交通大學就讀。他於2008年考入西交大,2009年申請轉專業進入軟體工程專業學習,2012年獲得推薦免試資格在西交大進行碩博連讀。在大三那年(2011年),張祥雨拿下了美國大學生數學建模競賽(MCM)特等獎提名獎,當時創下西安交通大學參加該項競賽以來歷史最好成績。憑藉這次獲獎經歷,張祥雨獲得了後來到微軟亞洲研究院實習的資格。
獲得實習資格的有三人,但最終只有一個人能留下。當時還在微軟亞洲研究院擔任首席研究員的孫劍博士給這三人出了一道題:用一個月的時間,將人臉檢測的速度提升十倍。這個任務現在來看比較容易實現,但當時還沒有引入深度學習,張祥雨就靠著對模型調參,用了三天左右的時間完成任務,孫劍看過之後當場決定留下張祥雨。
張祥雨之前並沒有做科研的經驗,這次實習考驗讓他初嘗到做科研的成就感。他也意識到走學術路線,需要到產業界去鍛鍊。到了微軟之後,張祥雨加入了視覺計算組,這個小組裡的每一位成員名字放在當下來看都是業界大牛:小組負責人孫劍,組員包括何愷明、危夷晨、代季峰、袁路、曹旭東、任少卿等。2013年,張祥雨面臨一個重要選擇——博士課題。當時受微軟亞洲研究院工作的一些影響,張祥雨傾向於做人臉識別這個領域。但是導師孫劍果斷讓他去做深度學習,&34;。於是,張祥雨就成了孫劍組裡第一個做深度學習的博士生。
張祥雨做的第一個深度學習相關的工作,就是復現深度學習經典論文AlexNet。他花了兩個月的時間對論文進行了復現,包括寫完底層全部代碼。復現 AlexNet 的經歷算是深度學習的入門,當時深度學習的框架非常少,於是張祥雨乾脆自己寫了一個。2013年底 Caffe 問世,為了對 Caffe 的模型做兼容,張祥雨就把接口也改成Caffe一樣,還起了個名字叫 Caffe Pro。它關鍵的一個亮點是支持圖優化,支持多卡,這為後來 ResNet 的誕生打下了基礎。
在完成Caffe Pro後,孫劍就把何愷明、任少卿、張祥雨拉到一起做深度學習,在組隊之前,何愷明做了圖像重建和哈希計算,任少卿做人臉。經過一年的磨合,&34;組合在孫劍的帶領下小有所成,ECCV、TPAMI 等國際視覺會議的論文中開始出現這三個二十多歲中國人的名字。
這幾位年輕人真正爆發是在2015年。當時包括谷歌、百度在內的大廠都在參加 ImageNet 大規模視覺識別挑戰賽,當時人類識別圖像正確分類的誤差率為5.1%,誰能打破5.1%,就代表在這一領域機器超越了人類。而2014年最好的成績是6.67%,由谷歌創造,但依舊沒能實現5.1% 。&34;組合決心跟大廠們硬剛一下。事實證明,想要突破大廠們都還沒打破的記錄並非易事。
在刻苦鑽研後,張祥雨推導出一組公式,後來在微軟內部命名為&34;。接著,&34;組合又引入一種新的修正線性單元(ReLU),將其稱為參數化修正線性單元(PReLU),並且通過對修正線性單元的非線性特徵進行直接建模,推導出一種符合理論的初始化方法,並直接從頭開始訓練網絡,將其應用於深度模型的收斂過程。
他們將這種方法應用到比賽之後,識別錯誤率已降低至4. 94%,超越了人類。不過,張祥雨認為,打破記錄確實可以長點臉,但是並不足以證明AI直接超過了人類。隨後,他們研發了ResNet,在當年取得了5項挑戰賽第一。&34;組合在導師孫劍的指導下獲2016年CVPR最佳論文獎,單篇引用超20000,ResNet 也成為計算機視覺領域最流行的框架之一。
2016年7月,孫劍加盟曠視,擔任首席科學家,張祥雨也在博士畢業後追隨導師,開啟了在曠視工作的歷程。而剛剛來到曠視,張祥雨便遇到了一個非常嚴峻的問題:產品落地較為困難,特別是在手機領域,實在沒有一個靠譜的網絡可以去依賴。
張祥雨和同事周昕宇開始一起,在前期的工作基礎上提出了一個高性能模型Shuffle。二人以共同一作的身份中標了 CVPR,並且不論是從實驗結果還是對業界的影響上,ShuffleNet 都是成為移動端網絡模型的傑出代表之一。2017年,蘋果推出帶有 3D 人臉解鎖功能的 iPhoneX ,安卓手機廠商隨後跟進,ShuffleNet 憑藉輕量級低功耗和高性能,成功拿下 OPPO、小米等手機大廠的訂單,讓各種配置不一的手機都能實現毫秒級人臉解鎖。
在科研之路上,張祥雨的導師孫劍博士的建議起到了非常重要的作用。當年張祥雨還是博士生時,孫劍建議他做深度學習;2017年,孫劍建議他做高性能網絡,2018年,孫劍建議做 AutoML。AutoML 領域的研究,之前一直是被國外如谷歌、微軟等大企業&34;的狀態。經過一年多的研究,2019年4月,張祥雨作為共同一作發表了曠視的第一篇AutoML技術論文。實驗結果表明,在精度、內存消耗、訓練時間、模型搜索的有效性及靈活性方面最優,超過了谷歌、Facebook 等公司的成績。可以說,張祥雨的工作直接影響著公司未來業務。
在曠視研究院的工區,張祥雨的工位很難不被注意到,在他桌子上高壘著兩摞紙,全都是他最近在看的論文。他說:&34;粗略算一下,張祥雨平均每天看兩篇論文。而這只是他每天做實驗、管理團隊之餘,停歇片刻去做的事情。
張祥雨工位上厚厚的論文
2019年11月,張祥雨入選&34;;今年4月,他又入選&34;。作為西安交通大學的優秀學子,張祥雨也為後輩們提出了兩個建議:腳踏實地以夯實基礎,開拓視野以保持前瞻。他認為這兩點是AI領域從業者的必要素質,而他一直身體力行。對於他而言,徵途仍在繼續!
歡迎選擇西安交通大學深造,更多精彩資訊,請關注&34;頭條號
部分素材來源:西安交通大學軟體學院官網、曠視研究院官微