人工智慧論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裡挑一。由中國科學院大學主辦,中國科學院大學學生會承辦,讀芯術作為指定合作自媒體的「AI未來說·青年學術論壇」第三期「計算機視覺」專場已於2019年3月24日下午在中科院舉行。港中文李弘揚博士為大家帶來報告《物體檢測最新進展》。
李弘揚,香港中文大學多媒體實驗室(MMLab)博士生,微軟亞洲研究院實習生。博士期間導師為王曉剛教授。主攻計算機視覺和深度學習方向,尤其對物體檢測、人體姿態估計、CNN網絡結構設計、少樣本學習(few-shot learning)、膠囊網絡(capsule networks)等熱點問題做了一些初步探索。在機器學習和計算機視覺六大頂級會議和兩大頂級期刊中,共發表文章9篇,其中一作6篇(包含1篇口頭報告)。多次擔任頂級會議審稿人、AI教育公司兼職顧問。
報告內容:物體檢測(object detection)作為計算機視覺中最基礎、最核心的任務,多年來備受學術界、工業界關注。一方面檢測任務涉及機器學習中最根本的分類、回歸問題,另一方面,隨著深度學習、大規模數據集的興起,很多視覺任務(語義分割、圖像描述、圖像問答等等)的基石都是由物體檢測框架構建起來的。本次報告首先會簡要回顧以R-CNN為框架的一系列經典方法;然後重點介紹我們發表在ICLR2019 上的最新工作--利用相同類別中大物體的特徵幫助小物體的學習,從而解決RoI-pooling操作中小物體上採樣時特徵不準的瓶頸;同時最優運輸(optimaltransport)理論也被用來選擇最合適的大物體特徵圖。我們的方法在COCO和Pascal數據集上都取得了顯著的提升。最後,本次報告會和觀眾們探討物體檢測領域下一階段的發展方向。
物體檢測最新進展
香港中文大學多媒體實驗室博士生、微軟亞洲研究院實習生李弘揚博士報告的主要內容包括物體檢測的介紹、Feature Intertwiner Module 和關於物體檢測的未來發展趨勢的展望。
李弘揚博士首先介紹了物體檢測的背景和研究意義。物體檢測中存在諸多的挑戰,比如形狀(shape)、外貌(appearance)、大小(size)的變化,以及混亂場景中的模糊現象。有兩種可能的解決方案,一種是在圖像上鋪儘可能多的錨點框(anchor),另一種是使網絡的層數儘可能地深。
並介紹了為什麼有固定的 ROI 輸出和大小anchor 的放置的問題。ROI 之後要求 size都是固定大小,是因為後面要經過 Global Pooling,並且把 Global Pooling 的特徵都映射到同一特徵空間中,所以 Pooling 必須是預先設計好的,即 ROI 之後的 size 必須是一致大小的這是 ROI 設置的最本質的問題。關於大小 anchor 的放置問題,要把小的 anchor 放在網絡的前端,而把大的 anchor 放在網絡的後端。這是由於在網絡中如果卷積的 stride 大於1,或者有pooling 的操作,會把 anchor 變得越來越小,使小物體檢測變得越來越難。由於卷積的前幾層 stride 比較小,小物體的 feature 信息不容易丟失。對於大的 anchor,要變化到 ROI Pooling 要求的 size 的大小通常是一個 downsample 的下採樣過程,在經過 downsample 的下採樣的過程後特徵會變得更加準確,這是一個優中選優的過程,而小的 anchor 變化到 ROI Pooling 要求的大小通常時一個 upsample 的採樣過程,一個直觀的印象是在編造的過程,經過 ROI Pooling之後的特徵可能會不準。所以要把小的 anchor 放在網絡的前面,而把大的anchor 放在網絡的後面。
然後講了二步法存在的一些問題,並介紹了 FeatureInterwiner 的模塊,由於大物體的 feature 比較準確,而小物體的 feature 不太準確,可以把大物體的 feature 作為一個 soft target 來指導小物體特徵的學習,在小物體特徵提取時加一個 Makeup Layer來學習丟失的 local details,通常使用 L2 loss 來用大物體的特徵來彌補小物體的特徵。並使用 buffer 來記錄訓練時比較準確的特徵,其中buffer不需要進行梯度的更新。介紹了 Feature Interwiner 的模塊之後又介紹了使用該模塊的實驗結果。
最後對物體檢測的未來進行了展望,當前物體檢測的方法(一步法檢測器和二步法檢測器)都是基於 anchor 的,bounding box 在檢測物體時有時不是很準確,是否可以使用 bottom-up 的方法來檢測物體,如像素級別的分割,使用pose的方法來預測bounding box 的左上角點(top-left corner)和右下角點(bottom-right corner)。還有是否可以不僅使用上下文信息,而且可以使用真實世界的 3D 結構來解決檢測的問題。更多精彩的內容請關注視頻的分享。