騰訊光影研究室憑GYSeg算法斬獲MIT場景解析評測第一

2021-01-13 品玩PingWest

近日,騰訊光影研究室(Tencent GYLab)憑藉自研語義分割算法GYSeg,在MIT Scene Parsing Benchmark 場景解析任務中刷新世界紀錄拔得頭籌,領先商湯科技、亞馬遜、復旦、北大、MIT等國內外研究機構和高校。

關於ADE20K數據集

MIT Scene Parsing Benchmark 是全球範圍內公認的最具挑戰性、權威性、代表性的場景解析、語義分割評測集,為場景解析、語義分割提供了標準的訓練和評價指標,在AI相關技術領域受到廣泛關注和高度認可,吸引著眾多國際知名企業、學術研究機構集中參與。其發布的ADE20K數據集在圖像分割領域意義重大,是世界計算機視覺三大頂級會議(CVPR、ICCV和ECCV)語義分割論文權威基準數據集。

光影實驗室自研GYSeg算法,斬獲MIT場景解析評測第一

語義分割作為計算機視覺科學與人工智慧最重要的任務之一,其目的在於讓計算機能夠識別出圖像場景中每一個像素所代表的語義類別,是衡量計算機是否理解圖像場景的重要評價標準,同時也是圖像處理、短視頻、自動駕駛,自動醫療診斷等應用的關鍵技術支撐。作為語義分割的全球權威評測數據集,ADE20K共包含150個類別,且場景目標複雜、目標尺度範圍大,覆蓋人類生活各個方面的場景,其中同種類的物體在不同場景中表現出的大小、比例、姿態差別非常大,不同物體之間存在遮擋嚴重的問題,甚至不少物體存在嚴重語義混淆。

針對ADE20K數據集的特點,騰訊光影研究室所自研的GYSeg算法,在網絡結構設計、loss約束以及數據增強上進行大量訓練和優化,以確保在龐大且複雜場景下的準確率。具體來說,GYSeg算法首先採用ResNest作為神經網絡模型進行特徵提取,並接入ASPP模塊進行特徵的增強與融合,結合最新提出的Hierarchical Multi-scale Attention策略,以確保不同大小物體的分割效果;其次使用ADE訓練集數據搭建SegFix網絡,再藉助其所獲得的圖像邊緣像素所屬類別偏移值,對分割邊緣進行處理優化,以此提升邊緣分割的一致性。

圖示:特徵提取器流程圖

除此之外,在數據增強方面,針對複雜分布的物體特徵,除了使用隨機縮放、對比度、blur等常規操作外,對於語義明確、數量較少的類別,團隊採用了「複製-粘貼」的方式進行擴充,如動物、摩託車、自行車等。通過數據集提供的實例標註信息即可完成「「複製-粘貼」」操作,粘貼對象並不僅限於原圖像,粘貼過程中帶有隨機的旋轉和縮放以增加數據的多樣性。在loss約束方面,藉助OHEM進行在線困難樣本挖掘,GYSeg算法在validation集上Miou提升0.4%,優於focalloss(提升0.26%)。

圖示:效果圖

持續深耕AI前沿技術研發,賦能更多應用場景

實際上,語義分割在我們日常生活中已經有很多應用。在自動駕駛領域,通過語義分割算法,計算機可以更好地把路面上的陰影和真正的障礙物區分開來,減少汽車的誤判率。在社交軟體和短視頻產品應用上,各種變臉、變妝和AR等特效背後的人臉與場景高度精準融合,其「逼真」效果也都離不開語義分割。目前,基於行業前沿的AI技術框架,光影研究室已經實現了人像分割、頭髮分割、天空分割和視頻分割等多項算法,並將前沿的分割能力結合豐富的玩法創意,給用戶提供更酷炫的拍攝和視頻編輯體驗。

伴隨新技術的不斷發展和進步,AI在社交娛樂方面的應用也將變得更加豐富。前不久,作為業內首次將GAN技術與3D卡通風格相結合的應用特效,光影研究室推出的「童話臉」特效也已在網絡中迅速走紅,不僅有李雪琴親傳童話世界基本生存須知「公主並」,更是受到辣目洋子、劉曉慶、王大陸等眾多明星青睞。據了解,童話臉特效是基於先進的生成對抗網絡(GAN)算法研發而出,也是全球首家在手機上給用戶提供的實時個性化童話臉特效。此前刷新微視視頻特效製作量新紀錄的王者臉,以及QQ上線的國內首創光頭特效,均是騰訊光影研究室利用生成式對抗網絡 GAN所打造的獨特體驗。

未來,光影研究室也將持續深耕AI前沿技術的研發和積累,探索並開放更多場景的創意玩法及能力,為用戶提供充滿趣味驚喜的社交新體驗。

關於騰訊光影研究室

騰訊光影研究室是騰訊旗下專注於研究前沿影像處理技術的團隊,在語義分割、目標檢測、分類識別、GAN生成對抗等方面均有深厚的技術積累。團隊一直致力於探索泛娛樂綜合解決方案,將前沿的AI能力、先進的玩法引擎和3D渲染技術賦能產品,讓音視頻編輯更智能,社交溝通更趣味。目前,QQ、微視等超20款業務產品中,均有光影研究室技術的身影。

相關焦點

  • 如何看待曠視 detection 組組長俞剛跳槽騰訊 PCG 光影研究室?
    來自 | 知乎地址 | https://www.zhihu.com/question/363027160編輯 | 機器學習算法與自然語言處理本文僅作學術分享,若侵權,請聯繫後臺刪文處理如何看待曠視 detection 組組長俞剛跳槽騰訊 PCG 光影研究室?
  • 繼人體檢測之後 大華股份AI又斬獲目標分割國際競賽第一
    杭州2018年9月14日電 /美通社/ -- 繼大華股份AI斬獲人體檢測國際競賽第一名之後,近日,大華股份基於深度學習技術研發的目標分割技術,又刷新了KITTI Road/Lane Detection (UM_ROAD)競賽的全球較好成績,取得了道路場景下目標分割排行榜第一名,超越其它一流的AI公司和頂尖的學術研究機構,以及
  • 揭秘騰訊變臉魔法,生成對抗網絡GAN的威力是什麼?
    騰訊的光影研究研究室為了給用戶逼真、毫無違和感的變臉體驗付出了無數的努力。為了絲般柔滑的順暢體驗,騰訊光影研究室構築了一套通用實時LightGANNet,優化了模型前向耗時和GAN生成效果;同時利用深度光流算法,大幅提高GAN模型幀間穩定性。
  • 牆面也能變鏡子,只看影子就能還原視頻,MIT新算法讓攝像頭無死角
    最近MIT人工智慧實驗室(CSAIL)開發出的算法可以做到:而真實的視頻是這樣的:算法還原的結果只是模糊了些,但已經能猜出視頻的大致內容了。有了這套算法,就可以通過觀察視頻中陰影和幾何圖形之間的相互作用,預測出光在場景中的傳播方式,然後從觀察到的陰影中估計隱藏的視頻,甚至看出人的輪廓。
  • 騰訊!阿里!大二男生斬獲4家頭部科技公司實習offer!憑啥?
    眾所周知,信奧(OI)是中國計算機協會主辦的,主要考的是編程、算法。到了大學階段則叫ACM—ICPC,是由美國計算機協會主辦的全球性程序設計競賽。高中學信奧的人,都經常用一個叫做「HDU」的在線評測網站。這個全國使用量最多、年提交量第一的平臺,是「OI和ACM交匯的完美詮釋」,因為它的使用者不是OI大神就是ACM精英。
  • 中國電信發布終端報告 榮耀30手機斬獲多項第一
    11月8日,中國電信發布了《中國電信終端洞察報告2020版》, 在這個榜單上,華為、榮耀拿到了高端及主流5G手機綜合第一的位置。其中,榮耀30、榮耀X10以及榮耀30S斬獲多項第一。  此外,榮耀30還針對一些信號不太好的場景做了重點優化,比如5G高鐵,90公裡時速的時候,下行速率、上行速率依然分別可達589Mbps、63Mbps,比其他晶片高出30%以上。這也是榮耀手機信號好的重要原因之一。
  • AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍
    AI算法瞬間學習理解96種語言 斬獲國際權威競賽冠軍打破語言藩籬,重建巴別塔是人類的遠古夢想,如今全球化語境下,更是一種當務之急。如何做到多語言交流和跨語義理解,也是人工智慧的"聖杯"課題。最近,百度人工智慧模型ERNIE-M,取得自然語言領域最新進展,它通過一個算法可以學習並同時掌握 96 門語言,不僅刷新5項經典多語言理解任務的世界最好成績,還一舉超越谷歌、微軟、臉書,問鼎國際權威多語言理解評測榜單 XTREME,邁出人工智慧領域自然語言處理技術的突破性一步,並在相關真實工業場景中落地,發揮出實際應用價值。
  • 見證中國安全實力,騰訊電腦管家全年領跑世界級權威安全認證
    與此同時,我國第一部《網絡安全法》正式施行,首次在法律層面規定了個人信息保護的基本原則,標誌著我國網絡安全執法從此有法可依。網絡安全行業在一年間遭遇的系列「風雲變幻「,促使各大安全廠商對自身安全能力提出更高要求。以騰訊為代表的中國安全廠商,通過連續參加國際權威機構安全軟體評測並獲得認證,持續檢驗、提升自身安全產品實力,為推動我國網絡安全環境的進一步完善起到了十分積極的作用。
  • 人像攝影用光:以場景中的光影造型為基底
    直射光-光影造型簡單來說,光影造型、局部光、聚焦光及大景便是我們在直射光環境中的篩景策略,它隱含了用光及構圖的思維,具有積極的選景思考意義。如果只是想拍攝柔美的人像,那麼就回到漫射光的環境中就可以了。光影造型、局部光、聚焦光三者之間還是有所差異的。
  • 《特殊行動:一線生機》遊戲評測 光影出色
    遊戲之餘,給大家帶來特殊行動一線生機遊戲評測,對這款遊戲進行一下個人點評。 》特殊行動 一線生機下載《 其實在遊戲開頭,小編並沒有看到像其他測評裡面寫的一具倒掛的屍體,而是滿目的瘡痍,兩側的路燈上面掛滿了屍體,整個城市都是廢墟、屍體,很難想像這和繁華的杜拜有什麼聯繫,這樣的場景,烘託出的是戰場的悲涼。
  • NIPS 2017 騰訊AI Lab 八篇論文入選,含1篇Oral
    被譽為神經計算和機器學習領域兩大頂級會議之一的 NIPS(另一個為 ICML)近日揭曉收錄論文名單,騰訊 AI Lab 共有八篇論文入選,位居國內企業前列,其中一篇被選做口頭報告(Oral),該類論文僅佔總錄取數的 1.2%(40/3248),我們將在下文解析。
  • 格靈深瞳在人臉識別算法測試(FRVT)中榮獲全球第一
    人臉識別算法測試FRVT由美國國家標準與技術研究院(NIST)主辦,NIST直屬美國商務部,主要任務是建立國家計量基準與標準,以提高國家技術基礎,改進行業產品和服務。FRVT通過不同類型的照片樣本進行上百億次對比,對人臉識別算法的評估可達到百萬分之一精度,也是當今全球規模,、標準最嚴、競爭最激烈、最權威的人臉識別算法競賽,素有工業界黃金標準之稱。
  • 【惠普光影精靈6Max(i510300H/16GB/512GB/GTX1650Ti/綠光)評測...
    本文屬於原創文章,如若轉載,請註明來源:16.1寸大屏筆記本 惠普光影精靈6 Max高清圖賞http://nb.zol.com.cn/750/7507168.html        以上是關於惠普光影精靈6Max
  • 騰訊英語君INTERSPEECH 2020展鋒芒,5篇英語口語評測成果論文入選
    持續提升口語測評能力,助力科學英語口語教學在此次騰訊英語君入選的論文中,《Automatic scoring at multi-granularity for L2 pronunciation》提出了一種多層級的口語評測準確度模型,可以較大地提高口語評測準確度,與人工打分相關度高達0.88。
  • 騰訊優圖:做產業網際網路時代的π型實驗室
    我們今年在IJCAI2020的卡通臉檢測競賽中獲得第一,這些全新研發的算法技術可以很好的應用於廣義的人臉圖像識別領域,為版權保護、動畫識別等帶來技術助益。此外,我們還研發了基於手繪圖生成真實圖像的視覺算法,這些都可以給我們帶來未來應用新的想像力。第三點,我想圍繞最近很熱的深度合成來講,我們稱它為antifake,簡稱識別防偽技術。
  • 員工竊取前東家算法,還拿到 PyTorch 開源?Facebook 被 MIT 教授起訴
    神經魔法的技術,使得僅僅用軟體和算法,就可以代替高成本的 AI 硬體。而投資商也看到了這一技術的前景,公司進行了兩輪融資,從 Comcast、NEA 等投資人那裡累計籌集了 2000 萬美元的風險投資。官司之爭據起訴書稱,2019 年 11 月,Facebook 在 Github 上披露了神經魔法的算法。
  • 用AI算法預測空氣品質,阿里媽媽選手斬獲KDD Cup 2018 三項大獎
    該比賽一直以來都強調在實際場景中的應用性,今年的賽題是主辦方提供中國北京和英國倫敦的天氣數據,比賽選手需要以此來預測未來48小時內PM2.5\PM10\O3濃度,賽題本身對應對惡劣環境、改善人類生存有著重要意義。
  • 騰訊優圖斬獲2019 MICCAI AGE Challege三項冠軍
    近日,由騰訊優圖研發的OCT青光眼智能輔診系統,從二百餘支隊伍中脫穎而出,在2019 MICCAI AGE Challenge中獲得三項冠軍,包括總分第一和兩個子項目(開閉角分類及鞏膜刺定位任務)第一,精度達到國際領先水平。該比賽分為初賽與決賽兩個階段:初賽共吸引來自全世界的206支隊伍註冊參與。
  • 錢研社斬獲騰訊教育」影響力教育品牌」大獎
    12月2日,由騰訊主辦的2020「迴響中國」年度教育盛典在北京圓滿落幕。錢研社憑藉出色的用戶口碑與社會影響力,斬獲騰訊教育「2020年度影響力在線教育品牌」大獎。  本屆騰訊教育迴響中國年度盛典以"共迎挑戰,共贏明天"為主題,設置了 "2020 年度綜合影響力標杆教育集團"、"2020年度影響力教育品牌"等多個重要榮譽,邀請了百餘位來自教育主管部門、教育研究機構、國際交流機構和國內外名人大咖齊聚一堂分享這一重要時刻。