騰訊光影研究室憑GYSeg算法斬獲MIT場景解析評測第一

2021-01-14 品玩PingWest

近日,騰訊光影研究室(Tencent GYLab)憑藉自研語義分割算法GYSeg,在MIT Scene Parsing Benchmark 場景解析任務中刷新世界紀錄拔得頭籌,領先商湯科技、亞馬遜、復旦、北大、MIT等國內外研究機構和高校。

關於ADE20K數據集

MIT Scene Parsing Benchmark 是全球範圍內公認的最具挑戰性、權威性、代表性的場景解析、語義分割評測集,為場景解析、語義分割提供了標準的訓練和評價指標,在AI相關技術領域受到廣泛關注和高度認可,吸引著眾多國際知名企業、學術研究機構集中參與。其發布的ADE20K數據集在圖像分割領域意義重大,是世界計算機視覺三大頂級會議(CVPR、ICCV和ECCV)語義分割論文權威基準數據集。

光影實驗室自研GYSeg算法,斬獲MIT場景解析評測第一

語義分割作為計算機視覺科學與人工智慧最重要的任務之一,其目的在於讓計算機能夠識別出圖像場景中每一個像素所代表的語義類別,是衡量計算機是否理解圖像場景的重要評價標準,同時也是圖像處理、短視頻、自動駕駛,自動醫療診斷等應用的關鍵技術支撐。作為語義分割的全球權威評測數據集,ADE20K共包含150個類別,且場景目標複雜、目標尺度範圍大,覆蓋人類生活各個方面的場景,其中同種類的物體在不同場景中表現出的大小、比例、姿態差別非常大,不同物體之間存在遮擋嚴重的問題,甚至不少物體存在嚴重語義混淆。

針對ADE20K數據集的特點,騰訊光影研究室所自研的GYSeg算法,在網絡結構設計、loss約束以及數據增強上進行大量訓練和優化,以確保在龐大且複雜場景下的準確率。具體來說,GYSeg算法首先採用ResNest作為神經網絡模型進行特徵提取,並接入ASPP模塊進行特徵的增強與融合,結合最新提出的Hierarchical Multi-scale Attention策略,以確保不同大小物體的分割效果;其次使用ADE訓練集數據搭建SegFix網絡,再藉助其所獲得的圖像邊緣像素所屬類別偏移值,對分割邊緣進行處理優化,以此提升邊緣分割的一致性。

圖示:特徵提取器流程圖

除此之外,在數據增強方面,針對複雜分布的物體特徵,除了使用隨機縮放、對比度、blur等常規操作外,對於語義明確、數量較少的類別,團隊採用了「複製-粘貼」的方式進行擴充,如動物、摩託車、自行車等。通過數據集提供的實例標註信息即可完成「「複製-粘貼」」操作,粘貼對象並不僅限於原圖像,粘貼過程中帶有隨機的旋轉和縮放以增加數據的多樣性。在loss約束方面,藉助OHEM進行在線困難樣本挖掘,GYSeg算法在validation集上Miou提升0.4%,優於focalloss(提升0.26%)。

圖示:效果圖

持續深耕AI前沿技術研發,賦能更多應用場景

實際上,語義分割在我們日常生活中已經有很多應用。在自動駕駛領域,通過語義分割算法,計算機可以更好地把路面上的陰影和真正的障礙物區分開來,減少汽車的誤判率。在社交軟體和短視頻產品應用上,各種變臉、變妝和AR等特效背後的人臉與場景高度精準融合,其「逼真」效果也都離不開語義分割。目前,基於行業前沿的AI技術框架,光影研究室已經實現了人像分割、頭髮分割、天空分割和視頻分割等多項算法,並將前沿的分割能力結合豐富的玩法創意,給用戶提供更酷炫的拍攝和視頻編輯體驗。

伴隨新技術的不斷發展和進步,AI在社交娛樂方面的應用也將變得更加豐富。前不久,作為業內首次將GAN技術與3D卡通風格相結合的應用特效,光影研究室推出的「童話臉」特效也已在網絡中迅速走紅,不僅有李雪琴親傳童話世界基本生存須知「公主並」,更是受到辣目洋子、劉曉慶、王大陸等眾多明星青睞。據了解,童話臉特效是基於先進的生成對抗網絡(GAN)算法研發而出,也是全球首家在手機上給用戶提供的實時個性化童話臉特效。此前刷新微視視頻特效製作量新紀錄的王者臉,以及QQ上線的國內首創光頭特效,均是騰訊光影研究室利用生成式對抗網絡 GAN所打造的獨特體驗。

未來,光影研究室也將持續深耕AI前沿技術的研發和積累,探索並開放更多場景的創意玩法及能力,為用戶提供充滿趣味驚喜的社交新體驗。

關於騰訊光影研究室

騰訊光影研究室是騰訊旗下專注於研究前沿影像處理技術的團隊,在語義分割、目標檢測、分類識別、GAN生成對抗等方面均有深厚的技術積累。團隊一直致力於探索泛娛樂綜合解決方案,將前沿的AI能力、先進的玩法引擎和3D渲染技術賦能產品,讓音視頻編輯更智能,社交溝通更趣味。目前,QQ、微視等超20款業務產品中,均有光影研究室技術的身影。

相關焦點

  • 騰訊光影研究室AI技術再突破,打造個性化3D「童話臉」
    近期,騰訊光影研究室出品的「童話臉」特效玩法在網絡上迅速走紅,不僅有李雪琴親傳童話世界基本生存須知「公主並」,更是受到辣目洋子、劉曉慶、王大陸等眾多明星青睞。作為業內首次將GAN技術與3D卡通風格相結合的應用特效,「童話臉」支持用戶化身為人間芭比、在逃公主、童話王子等人物,分享在QQ小世界、微視APP、微博等社交平臺,不少用戶更是直接將變身後的童話臉設置為個人頭像。
  • 騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍
    騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍 騰訊天衍實驗室斬獲CCKS2020試驗裝備NER任務冠軍 2020-11-16 16:17:46  來源:網際網路近日,第十四屆全國知識圖譜與語義計算大會(CCKS2020)舉辦的知識圖譜與語義計算技術評測競賽結果公布,騰訊天衍實驗室從213支參賽隊伍中脫穎而出,斬獲試驗裝備鑑定領域實體抽取(NER)任務冠軍,體現了在實體抽取和知識圖譜領域的技術實力。
  • 揭秘騰訊變臉魔法,生成對抗網絡GAN的威力是什麼?
    騰訊的光影研究研究室為了給用戶逼真、毫無違和感的變臉體驗付出了無數的努力。為了絲般柔滑的順暢體驗,騰訊光影研究室構築了一套通用實時LightGANNet,優化了模型前向耗時和GAN生成效果;同時利用深度光流算法,大幅提高GAN模型幀間穩定性。
  • 騰訊開源國內首個視頻質量評估算法DVQA,騰訊會議就在用
    騰訊最新開源來了。騰訊多媒體實驗室,近期設計的基於深度學習的全參考視頻質量評估算法DVQA,在Github上正式開源,該算法模型的性能,目前還在公開測試數據集上取得業界領先成績。解決什麼問題?而騰訊多媒體實驗室提出的視頻質量評估解決方案,首先結合業務需求,使用「在線主觀質量評測平臺」,來構建大規模主觀質量資料庫。同時使用所收集的主觀數據來訓練基於深度學習的客觀質量評估算法。最後把訓練好的質量評估算法部署到業務線中,閉環監控可能存在的質量問題。
  • 騰訊天衍實驗室奪世界機器人大賽雙冠軍 運動想像算法應用場景廣泛
    原標題:騰訊天衍實驗室奪世界機器人大賽雙冠軍,新算法突破BCI瓶頸日前,「2020世界機器人大賽-BCI腦控機器人大賽」公布成績,騰訊天衍實驗室和天津大學高忠科教授團隊組成的C2Mind戰隊,經過多輪賽程的激烈比拼,實力入圍BCI腦控機器人大賽「運動想像範式」賽題決賽,最終成功斬獲技術賽「顳葉腦機組」一等獎,以及技術錦標賽「
  • 騰訊行人重識別算法突破成世界第一
    該研究團隊通過最新算法,在三個行人重識別主流資料庫均取得第一的成績。 近日,騰訊優圖在行人重識別(Person Re-ID)算法上獲得突破性成果。
  • 騰訊多媒體實驗室重磅開源視頻質量評估算法DVQA
    近日,騰訊多媒體實驗室設計的基於深度學習的全參考視頻質量評估算法DVQA在Github上正式開源,該算法模型的性能目前在公開測試數據集上取得業界領先成績。多媒體實驗室提出的視頻質量評估解決方案,首先結合業務需求,使用「在線主觀質量評測平臺」,來構建大規模主觀質量資料庫,同時使用所收集的主觀數據來訓練基於深度學習的客觀質量評估算法,最後把訓練好的質量評估算法部署到業務線中,閉環監控可能存在的質量問題。從以上三個角度出發,DVQA能夠在兼顧不同業務、場景的前提下,滿足效率與精度兩大需求。
  • 依圖奪得「大規模複雜場景人體視頻解析」挑戰賽行為識別冠軍
    近日,在由全球多媒體領域頂級學會ACM MM主辦的「大規模複雜場景人體視頻解析」挑戰賽中,依圖算法奪得第一,評價指標wf-mAP@avg達0.26,將以往學術界中的基準算法提升了近
  • 算法庫開源講座第一講:港中文MMLab博士詹曉航帶你實踐自監督學習...
    「算法庫開源講座」,是智東西公開課繼前沿講座之後,面向開發者和科研人員策劃推出的、專注於講解不同開源算法庫及其開發實踐的一檔開源講座。第一季推出三講,將分別針對開源算法庫OpenSelfSup、OpenPCDet和OpenUnReID的框架組成及開發實踐進行深度講解。
  • 騰訊應用寶7.0評測:全能搜索神器
    2月16日,騰訊應用寶正式發布全新7.0版本,最大的改變就是從「搜索APP」升級為「搜索需求」,用戶可任意在應用寶搜索框內搜索自身需求,除了最傳統的APP,我們還能搜到與APP相關的文章以及評測。不僅如此,在搜索結果界面,我們會發現出現了「全部」「應用」「內容」「評測」,四個欄目,也就是說,除了準確推薦APP外,應用寶7.0同時展示關於「P大長腿」的應用評測文章及應用內精品內容。
  • MIT科學家開發機器翻譯新算法,專為破譯消失的古語言
    通過整合這些原則和其他語言學約束,Barzilay 等人的新算法學習將語言發音嵌入多維向量空間,在該多維空間中,相應矢量之間的距離反映了不同發音的差異。這種設計使他們能夠捕獲語言變化的相關特徵,並將這些特徵表達為計算約束(computational constraints)。因此,它可以評估兩種語言之間的相似度。
  • 斬獲WMT2020國際機器翻譯大賽中英方向第一名
    提交結果BLEU評分第一,微信AI斬獲中英翻譯方向冠軍WMT 是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊,包括微軟、Facebook、百度、金山、日本情報通信研究機構(NICT)。
  • 騰訊數平精準推薦 | 橫掃ICDAR 2019,斬獲七項冠軍
    騰訊數平精準推薦團隊(Data Platform Precision Recommendation, Tencent-DPPR)在本屆比賽中斬獲7項冠軍,成績遙遙領先其他參賽隊伍。這也是繼2017年團隊勇奪4項官方認證冠軍後再創佳績,同時也標誌著騰訊OCR技術穩居國際第一流水準。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 軟體、算法和硬體,MIT團隊用三支箭為「摩爾定律」續命
    在最近發表在《科學》雜誌上的一篇文章中,來自麻省理工學院計算機科學與人工智慧實驗室(CSAIL)的一個研究小組指出,要繼續提高計算速度,需要從三個維度下手: 更好的軟體、新的算法以及更精簡的硬體。 資深作者Charles E.
  • 清華朱文武團隊斬獲NIPS 2018 AutoML挑戰賽亞軍,高校排名第一
    本次賽事共有近三百支隊伍參賽,包括了麻省理工學院、加州大學伯克利分校、德州農工大學、清華大學、北京大學等國內外頂尖高校,微軟、騰訊、阿里巴巴等科技巨頭。清華大學計算機系朱文武團隊斬獲第二,高校排名雄踞第一!NIPS 2018 AutoML挑戰賽結果出爐:印度團隊autodidact.ai第一,清華計算機系朱文武實驗室Meta_Learners團隊斬獲第二。
  • MIT 推出機器翻譯新算法,破譯已消失的古語言
    麻省理工學院計算機科學與人工智慧實驗室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人員最近開發出了一種新的計算機算法,可以幫助語言學家自動破譯歷史上消失已久失的古語言。
  • 惠普光影精靈6評測:小孩子才做選擇 成年人遊戲辦公全都要
    「光影精靈」系列一直是惠普遊戲的主打產品之一,一直以來,該系列以較好的性價比以及出色的配置備受主流玩家青睞,近日,隨著十代英特爾酷睿處理器的發布,「Cool到飛起」的惠普光影精靈6遊戲本產品問世,以下內容為TechWeb評測後的使用體驗。
  • 創新奇智斬獲國際權威測評MOT Challenge冠軍
    本次大賽中,創新奇智奪冠的AInnoDetV2 多目標檢測算法已應用於創新奇智的工業視覺平臺ManuVision。該平臺融合多種先進的AI算法,針對工業製造過程中的定位、檢測、測量、識別等功能場景,批量支持服裝紡織、機動車裝配等多個細分應用領域。
  • 逆戰新神器光影世紀先行版效果評測
    逆戰新神器光影世紀先行版效果評測 很多人都問,光影世紀到底如何呢?