日前,電信學部信息與通信工程學院李培華教授課題組在深度學習方面取得重要進展。課題組創新性地提出一種深度卷積神經網絡模型,在國際標準數據集上取得領先的性能並獲得國際大規模自然物種識別挑戰賽冠軍。
李培華教授課題組所撰寫的論文被計算機視覺和人工智慧領域國際公認的頂級期刊《IEEE模式分析與機器智能彙刊》(簡稱IEEE TPAMI)錄用並在線發表,論文題目為《Deep CNNs Meet Global Covariance Pooling: Better Representation and Generalization》。IEEE TPAMI的科學引文索引影響因子為17.73,在2019年穀歌所發布的學術影響力排名中,位列所有計算機工程、電子工程及人工智慧相關期刊之首。
深度神經網絡模型是計算機視覺和人工智慧中最為核心的關鍵技術,在圖像和視頻識別、場景理解、醫療診斷和機器人感知等領域中起著基礎性作用。
正是由於其基礎性和核心作用,深度神經網絡模型是世界上各大科研機構和高科技公司的重點研發內容。然而已有的工作主要集中在如何設計更寬或更深的神經網絡架構,卻忽略了對高階非線性的挖掘,限制了模型性能的進一步提高。對此,課題組創新性地提出一種矩陣冪正規化高階聚合深度卷積神經網絡設計範式,通過學習卷積特徵二階或更高階信息作為圖像表徵,極大地增強了模型的非線性建模能力。
在理論層面,論文從概率和統計的角度證明了所提出的模型能夠在高維度和小樣本條件下穩健地估計卷積特徵的高階統計量,並進一步從信息幾何的角度建立了網絡模型與黎曼測度之間的密切關聯;在應用層面, 所提出的模型在通用物體識別/場景分類/細粒度分類/紋理分類國際標準數據集上取得領先結果,識別性能顯著地優於已有模型。
基於所提出的深度卷積神經網絡模型,課題組參加了CVPR大規模自然物種識別挑戰賽,在來自世界各地的科研院所/高科技公司的59支隊伍中取得第一名,獲得國內外學者和工業界的廣泛關注。
課題組應邀參加國家自然科學基金委主辦的「國家自然科學基金傑出科學家浙江行」活動, 論文作者、博士研究生謝江濤在路演中向與會科研人員和企業家對該項研究成果進行了專門宣講和介紹。作為計算機視覺領域的基礎和核心技術,課題組所提出的模型在商品識別、自主/無人駕駛車輛、無人值守超市和基於視覺的智慧城市建設中具有廣泛的應用前景。
該論文是在國家自然科學基金61471082和61971086資助下的系列研究成果之一,其總體研究思路和研究內容為李培華教授團隊提出並完成。
論文第一作者王旗龍為實驗室培養的博士研究生,現任職於天津大學人工智慧學院,入選博士後創新人才支持計劃(即「博新計劃」);
論文第二作者謝江濤為碩博連讀研究生,從大二開始進入課題組從事科研工作,目前已在頂級期刊/會議上發表5篇論文;
論文通訊作者為李培華教授,近年來的研究工作主要發表於計算機視覺/人工智慧的頂級會議CVPR/ICCV/NeurIPS和頂級期刊IEEE TPAMI/TIP等,主持多項國家級科研項目,並致力於通過與企業合作將研究成果落地到實際產品中。
內容來源:大連理工大學電子信息與電氣工程學部 大連理工大學官方微信平臺
編輯:張杭曉
校對:徐一丹
責任編輯:周學飛