2016年1月26日
1. 報告嘉賓:Wanli Ouyang,Hongsheng Li (香港中文大學)
Imagenet競賽:Object detection, video object detection子專題
報告題目:Learning effective deep models for object detection and using Multi-Context Cues for video object detection
總結: 香港中文大學團隊在2015年ILSVRC競賽中,在物體定位任務中額外數據榜第三名,在物體檢測中額外數據榜第二名,視頻檢測任務中標準數據榜第一名。我們在物體檢測中提出基於多個上下文學習框與物體間的關係,並考慮物體樣本數目的長尾性質提出分層級聯學習,將框生成和框分類聯合考慮做級聯。這些方法大幅提高物體檢測的準確率。在視頻檢測中我們利用運動信息和不同層級的上下文信息大幅改進圖像檢測結果。此次是香港中文大學團隊第二次參加比賽,2014年競賽中亦取得物體檢測第二名。相關工作的詳細信息請關注我們CVPR15和Arxiv的文章。希望以後的工作中能和各位一起探討新方法,使得物體檢測在科研和商業化方面取得長足進步。
2. 報告嘉賓:張曉騰(公安部第三研究所)
Imagenet競賽:Scene classification子專題
報告題目:Few things that make scene classification special.
報告嘉賓:邵傑(公安部第三研究所)
Imagenet競賽:Object detection子專題
報告題目:What can we get from the bounding box?
總結: 公安部第三研究所「搜神」團隊在2015年的ILSVRC競賽中參加了全部4項任務並均取得佳績,特別是在定位任務中獲得額外數據榜第一名、標準數據榜第二名,視頻檢測任務額外數據榜第三名。
我們基於Fast/Faster RCNN的pipeline,分析目前檢測和定位中存在的問題,融入了我們提出的Objectness Loss、Nagative categories等算法,並在測試階段進行了大幅改進;場景分類任務中,根據相比於其他分類的不同點,增大了模型深度和輸入圖像尺寸,運用Data Sweeping算法,設計了針對性的Multi-branch Network,使得準確率得到明顯的提升。
此次是「搜神」代表隊連續第三年參加ILSVRC比賽,經過幾年的學習、積累,成績逐年提升,同時也將競賽中的成果有效的轉化到了公安三所的視頻結構化產品中。希望在今後的科研、工作中與諸位同道一起努力,相互協作,取得新的突破。
3. 報告嘉賓:吳毅(南京信息工程大學)
Imagenet競賽:Object detection&Object localization&Object detection from video子專題
報告題目:Cascade Region Regression for Robust Object Detection
總結: 成員:南京信息工程大學的劉青山教授團隊和雪梨科技大學的陶大程教授團隊
(1)主要的方法,
提出了cascade region regression的方法來逐步提高物體檢測框的精度,根據proposal區域的大小來選擇對應的卷積層來回歸物體更好的位置,利用外部數據提升某些困難類別的檢測精度,利用來自背景的負樣本進行訓練,降低來自背景的false positive。
在視頻檢測任務中,我們首先在每一幀上面都運行我們在圖像檢測上訓練得到的faster rcnn模型,然後使用0.5作為檢測的閾值,將視頻分為多個片段,接著在高檢測score的幀啟動多個tracker來跟蹤,然後使用cascade region regression來refine之前的跟蹤結果,最後在每一幀上面都進行nms得到最終的檢測結果。
(2)成績,
● Task 1b: Object detection with additional training data
● Number of object categories won排名第一(165/200)
● mAP排名第一 (0.57848)
● Task 3b: Object detection from video with additional training data
● Number of object categories won排名第一(18/30)
● mAP排名第一 (0.730746)
● Task 2b: Classification+localization with additional training data
● Classification error排名第一(0.04354)
● Localization error排名第二(0.14574)
(3)簡單未來展望
檢測性能和msra的差距還很明顯,為了進一步提高性能,我們將嘗試訓練msra的152層模型。我們還會對訓練數據進行進一步的增加和清理。
2016年1月27日
1. 報告嘉賓:林宙辰(北京大學); 申麗(中國科學院大學)
Imagenet競賽:Scene Classification子專題
報告題目:Learning Deep Convolutional Neural Networks for Places2 Scene Recognition
總結: 在2015年度ImageNet大規模視覺識別競賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)中,北京大學信息科學技術學院智能科學系林宙辰教授與中國科學院計算技術研究所研究生申麗組成WM隊,在場景分類項目a情形(即只用主辦方所提供的訓練數據)中提交了五個不同模型,一舉包攬前五名(錯誤率16.8715%-17.3527%),從而奪得冠軍。在所有模型中,不僅結果較差的兩個單模型優於其他參賽隊伍的多模型融合模型(最低錯誤率為17.3605%),而且也遠遠優於場景分類項目b情形(即可使用額外訓練數據)的最好結果(錯誤率20.3539%)。其奪冠方法基於深度學習,並提出了新的優化算法——接力誤差回傳算法——來訓練深層卷積神經網絡。林宙辰教授預期接力誤差回傳算法將會有效提高深度學習訓練的性能,進一步的理論分析和實驗驗證正在進行中。
2. 報告嘉賓:喬宇(中國科學院深圳先進技術研究院 )
Imagenet競賽:Scene Classification子專題
報告題目:Knowledge Guided Disambiguation for Scene Recognition with Multi-Resolution CNNs
總結: 場景識別是計算機視覺領域的一個研究熱點問題。相對物體而言,場景通常是一個更為高層和抽象的概念,同一個場景類別的圖片差別很大,且不同場景之間的圖片可能極為相似(例如跑道和田徑場)。針對這些問題中科院深圳先進技術研究院MMLAB團隊(成員:王利民、郭勝、黃韡林、喬宇)提出了一種基於知識的去歧義性方法,使用多解析度的卷積神經網絡進行端到端的場景識別。我們利用已有網絡的知識和混淆矩陣的知識,對訓練樣本重新編碼,這種新的編碼方式能夠更好的描述場景不同類別的相關性。同時我們提出多解析度卷積神經網絡,從不同層次提取有效的視覺信息。我們的場景識別算法在ILSVRC 2015場景分類任務中取得了亞軍。未來我們將圍繞提高場景分類的精度和速度,研究更為高效的深度模型。
3. 報告嘉賓:唐勝(中國科學院計算技術研究所)
Imagenet競賽:Object Classification & Object localization & Object Detection子專題
報告題目:Sparse Model and Ensemble Learning with Convolution Neural Network
報告題目:Category Aggregation Among Region Proposals For Object Detection
總結: 中科院計算所前瞻研究實驗室跨媒體計算研究組(MCG-ICT-CAS)長期從事基於內容的圖像視頻分析與檢索、編解碼、計算機視覺與模式識別等方向的研究與開發工作,在多媒體內容分析與多媒體內容安全領域取得了多項重要的研究成果, 榮獲2006年和2014年兩度獲北京市科學技術獎一等獎、2012度首屆中國計算機學會科學技術獎;曾獲國際視頻檢索評測TRECVID2008年視頻檢索任務第一名、2009年拷貝檢測任務第一名。
2015年,在唐勝副研究員的帶領下,參加了國際著名的ImageNet大規模視覺識別挑戰賽(ILSVRC 2015)中競爭激烈的兩項傳統任務,即目標分類定位和目標檢測任務(僅用比賽規定的數據集),並取得優異成績。
在目標分類定位任務中,提出了基於稀疏化的卷積神經網絡(CNN)訓練方法和基於CNN的稀疏集成學習方法,以及基於密集區域融合的目標定位方法,並採用了基於CNN聚類的目標定位方法,目標定位精度達到85.31%,在23支全球參賽隊伍中排第四名;在目標檢測任務中,提出了基於類別信息聚合的目標檢測方法,目標檢測精度達到45.36%,在20支全球參賽隊伍中排第五名。
研究組今後將借鑑人腦處理機制,研究新型的深度網絡結構與學習方法,主要包括:(1)研究反映視頻時序信息的深度神經網絡,以提高視頻中複雜事件的檢測精度;(2)研究如何將人類高層先驗知識用於指導深度學習,以期在面向視覺計算的深度神經網絡研究中取得突破。
4. 報告嘉賓:嚴航宇(騰訊優圖 )
Imagenet競賽:Object Localization子專題
報告題目:Rethinking the pipeline of localization task
總結: 騰訊優圖團隊隸屬於騰訊社交網絡事業群,立足於社交網絡大平臺,遵循「研究成果落地才能產生價值」的原則,專注在圖像處理、模式識別、機器學習、數據挖掘等領域開展技術研發和業務落地。
目前團隊為公司超過五十個業務提供圖像技術支持,並在QQ空間、QQ音樂、微眾銀行、天天P圖等產品落地,獲得2014年度騰訊「重大技術突破獎」。
騰訊優圖團隊參加了2015年ImageNet Localization比賽。我們首先分析了傳統Overfeat方法的缺點。在對Localization圖像數據分析的基礎上,我們判斷,對較小物體位置的框定,是Localization比賽的難點,亦是本屆比賽成績有較大提高的原因。
方法上,我們採用了將物體的類別信息和位置信息相結合的做法。首先預訓練一個深度模型,然後對它分別進行局部分類的微調和窗口「目標性」的微調。最後將局部、全局分類信息和目標窗口位置信息結合起來,訓練GBDT的分類器。最後我們在測試集上取得0.155的錯誤率,獲得第6名。
VALSE在這裡祝大家新年快樂!新的一年萬事如意,猴年大吉!