加拿大當地時間12月8日-14日,全球最受矚目的人工智慧和機器學習領域的頂級盛會之一,第33屆神經信息處理系統大會(NeurIPS 2019)在溫哥華召開。深蘭科技DeepBlueAI團隊分別在D-City & BDD100K 目標檢測挑戰賽和AutoDL挑戰賽(AutoNLP)中獲得冠軍,從技術層面助推了自動駕駛領域的發展和自然語言處理在多應用場景的落地。
NeurIPS每年都會吸引大量專家、學者和AI領域從業人員的參與,目的是促進神經信息處理系統在生物、技術、數學和理論方面的研究交流。據大會官方統計,今年參會總人數突破了13000人。
目標檢測的競賽幾乎出現在所有人工智慧相關的國際頂級會議上,本屆NeurIPS也不例外。D-City & BDD100K 目標檢測挑戰賽中的D-City是一個大型的駕駛視頻數據集,提供超過10000個以720p高清或1080p FHD格式錄製的DashCam視頻。大約1000個視頻在所有道路物體的每一幀中都帶有檢測和跟蹤注釋,涵蓋了共12類行車和道路相關的目標類別。與現有數據集相比,D-City顯示出更大的多樣性,因為數據來自中國多個城市,具有不同的天氣、道路和交通條件。挑戰賽希望通過該數據
集鼓勵和幫助自動駕駛相關領域研究取得新進展
。
任務針對目標檢測提出了一種遷移學習挑戰。根據美國收集的BDD(Berkeley Deep Drive)100K數據集的標註數據訓練,要求參與者提供中國收集的D-City數據集的目標檢測結果,數據可能涵蓋各種情況,甚至嚴重或罕見的情況(如昏暗的光線、雨霧和交通擁擠)。數據集受限、數據分布差異等使得競賽難度變大。DeepBlueAI團隊提取深層特徵,利用級聯式模型預測出圖像中的目標,準確率(mAP)達到36.9。最終團隊經過不斷嘗試和調整,獲得該競賽的冠軍。
本年度,自然語言處理NLP(Natural Language Processing)在深度學習浪潮下取得了顯著成就,也成為大會重要議題之一。NLP是人工智慧的一個子領域,也是最為困難的問題之一。而AutoNLP則是近來比較前沿的領域,目標就是在沒有人類幹預的情況下,對自然語言處理任務進行訓練和預測。其應用場景也較為豐富,比如對線上客服系統,AutoNLP可以根據用戶提交諮詢、客戶投訴反饋的各類留言信息,做自動化分類訓練,幫助業務快速準確地區分投訴問題。
競賽組織方公布了5個離線公共數據集、5個線上公共數據集(用於盲測,選手無法獲得數據集任何信息)。選手下載離線公共數據集,開發全自動的文本分類系統,實現接收原始未經預處理的文本訓練數據、全自動地完成文本預處理、模型結構設計和參數調優等過程。隨後將設計的自動文本分類系統上傳至比賽平臺上,通過5個線上公共數據集評估其AutoNLP方案的實時性能反饋,期間不會有任何人工幹預,也據此得出預賽階段的排名。
據DeepBlueAI團隊介紹,冠軍方案實現的AutoNLP框架,包括文本數據的自動清洗與序列化、自動特徵工程、自動超參調優、自動模型融合以及自動模型選擇等模塊,同時針對性地分別處理中文和英文,從不同角度觀察文本,最後綜合所有信息進行分類,這裡「綜合」的過程就是集成學習。此外,團隊在運行時間和顯存上也採取了一些控制策略,防止系統超時和顯存溢出。這是繼深蘭AutoML在KDD2019奪冠後,又一自研系統獲得國際頂會的冠軍。
2019年,深蘭科技在多個國際頂級賽事上取得了不俗的成績,包括KDD、IEEE ISI、CVPR、ICCV、SIGIR等,已經累計獲得13項世界冠軍,涉及領域涵蓋目標跟蹤、動作識別、自動駕駛、圖像分類等,希望推進前沿技術從研究到實際應用的落地,為用戶帶來價值,為民生帶來改變。此次NeurIPS 2019又得雙冠,再次證明了深蘭在基礎研究方面的實力,為2019畫上了圓滿的句點。