近日,騰訊光影研究室(Tencent GYLab)憑藉自研語義分割算法GYSeg,在MIT Scene Parsing Benchmark 場景解析任務中刷新世界紀錄拔得頭籌,領先商湯科技、亞馬遜、復旦、北大、MIT等國內外研究機構和高校。
關於ADE20K數據集
MIT Scene Parsing Benchmark 是全球範圍內公認的最具挑戰性、權威性、代表性的場景解析、語義分割評測集,為場景解析、語義分割提供了標準的訓練和評價指標,在AI相關技術領域受到廣泛關注和高度認可,吸引著眾多國際知名企業、學術研究機構集中參與。其發布的ADE20K數據集在圖像分割領域意義重大,是世界計算機視覺三大頂級會議(CVPR、ICCV和ECCV)語義分割論文權威基準數據集。
光影實驗室自研GYSeg算法,斬獲MIT場景解析評測第一
語義分割作為計算機視覺科學與人工智慧最重要的任務之一,其目的在於讓計算機能夠識別出圖像場景中每一個像素所代表的語義類別,是衡量計算機是否理解圖像場景的重要評價標準,同時也是圖像處理、短視頻、自動駕駛,自動醫療診斷等應用的關鍵技術支撐。作為語義分割的全球權威評測數據集,ADE20K共包含150個類別,且場景目標複雜、目標尺度範圍大,覆蓋人類生活各個方面的場景,其中同種類的物體在不同場景中表現出的大小、比例、姿態差別非常大,不同物體之間存在遮擋嚴重的問題,甚至不少物體存在嚴重語義混淆。
針對ADE20K數據集的特點,騰訊光影研究室所自研的GYSeg算法,在網絡結構設計、loss約束以及數據增強上進行大量訓練和優化,以確保在龐大且複雜場景下的準確率。具體來說,GYSeg算法首先採用ResNest作為神經網絡模型進行特徵提取,並接入ASPP模塊進行特徵的增強與融合,結合最新提出的Hierarchical Multi-scale Attention策略,以確保不同大小物體的分割效果;其次使用ADE訓練集數據搭建SegFix網絡,再藉助其所獲得的圖像邊緣像素所屬類別偏移值,對分割邊緣進行處理優化,以此提升邊緣分割的一致性。
圖示:特徵提取器流程圖
除此之外,在數據增強方面,針對複雜分布的物體特徵,除了使用隨機縮放、對比度、blur等常規操作外,對於語義明確、數量較少的類別,團隊採用了「複製-粘貼」的方式進行擴充,如動物、摩託車、自行車等。通過數據集提供的實例標註信息即可完成「「複製-粘貼」」操作,粘貼對象並不僅限於原圖像,粘貼過程中帶有隨機的旋轉和縮放以增加數據的多樣性。在loss約束方面,藉助OHEM進行在線困難樣本挖掘,GYSeg算法在validation集上Miou提升0.4%,優於focalloss(提升0.26%)。
圖示:效果圖
持續深耕AI前沿技術研發,賦能更多應用場景
實際上,語義分割在我們日常生活中已經有很多應用。在自動駕駛領域,通過語義分割算法,計算機可以更好地把路面上的陰影和真正的障礙物區分開來,減少汽車的誤判率。在社交軟體和短視頻產品應用上,各種變臉、變妝和AR等特效背後的人臉與場景高度精準融合,其「逼真」效果也都離不開語義分割。目前,基於行業前沿的AI技術框架,光影研究室已經實現了人像分割、頭髮分割、天空分割和視頻分割等多項算法,並將前沿的分割能力結合豐富的玩法創意,給用戶提供更酷炫的拍攝和視頻編輯體驗。
伴隨新技術的不斷發展和進步,AI在社交娛樂方面的應用也將變得更加豐富。前不久,作為業內首次將GAN技術與3D卡通風格相結合的應用特效,光影研究室推出的「童話臉」特效也已在網絡中迅速走紅,不僅有李雪琴親傳童話世界基本生存須知「公主並」,更是受到辣目洋子、劉曉慶、王大陸等眾多明星青睞。據了解,童話臉特效是基於先進的生成對抗網絡(GAN)算法研發而出,也是全球首家在手機上給用戶提供的實時個性化童話臉特效。此前刷新微視視頻特效製作量新紀錄的王者臉,以及QQ上線的國內首創光頭特效,均是騰訊光影研究室利用生成式對抗網絡 GAN所打造的獨特體驗。
未來,光影研究室也將持續深耕AI前沿技術的研發和積累,探索並開放更多場景的創意玩法及能力,為用戶提供充滿趣味驚喜的社交新體驗。
關於騰訊光影研究室
騰訊光影研究室是騰訊旗下專注於研究前沿影像處理技術的團隊,在語義分割、目標檢測、分類識別、GAN生成對抗等方面均有深厚的技術積累。團隊一直致力於探索泛娛樂綜合解決方案,將前沿的AI能力、先進的玩法引擎和3D渲染技術賦能產品,讓音視頻編輯更智能,社交溝通更趣味。目前,QQ、微視等超20款業務產品中,均有光影研究室技術的身影。