騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018

2020-12-15 站長之家

據外媒報導,即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由於其較高的應用價值,受到學術界和產業界的關注。

騰訊優圖論文再次入庫頂級學術會議

作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。這也是騰訊優圖繼2017年在另一計算機視覺頂級會議ICCV會議中獲得12篇論文被收錄,包含3篇口頭報告(該類論文僅佔總投稿數2.1%)的成績後,2018年,科研成果再次豐收,論文被CVPR2018收錄。此次騰訊優圖入選的論文提出了諸多創新點,既是科研實力的體現,更挖掘出了更多可擴展應用技術,視覺AI有望為學術界和產業界帶來更多有價值的貢獻。

其中基於尺度迭代深度神經網絡的圖像去模糊算法

(「Scale-recurrent Network for Deep Image Deblurring」),介紹了AI技術在處理非特定場景圖片去模糊中的應用,和通過Facelet-Bank進行快速肖像處理。

(Facelet-BankforFastPortraitManipulation),介紹了用AI技術快速處理肖像的應用,這兩項技術,解決了長期困擾圖片處理中的一些難題,因為極大的應用價值而受到產業界和關注。我們將著重介紹,這兩個最受外媒關注的技術和應用場景。

解密運動模糊:走向實用的非特定場景圖片去模糊技術

在慢速曝光或快速運動拍攝照片時,圖像模糊常常困擾著照片拍攝者。優圖實驗室的研究人員開發了可以恢復模糊圖像的有效新算法。

在此之前,圖像去模糊一直是圖像處理中困擾業界的難題。 圖像模糊產生的原因可能非常複雜。比如,相機晃動,失焦,拍攝物體高速運動等等。現有的圖片編輯軟體中的工具通常不盡如人意,例如,Photoshop CC中的「相機抖動還原」工具,只能處理簡單的相機平移抖動模糊。 這種類型的模糊在計算機視覺業內被稱為「均勻模糊」。而大部分模糊圖片並不是「均勻模糊」的,因而現有圖片編輯軟體的應用十分有限。

騰訊優圖實驗室的新算法,可以處理非特定場景中的圖片模糊。算法基於一種被稱為「動態模糊」的模糊模型假設。它為每個像素的運動單獨建模,因而可以處理幾乎所有類型的運動模糊。比如,上圖中,由於相機抖動而產生的平移和旋轉,每個人物的運動軌跡都不相同。經過騰訊優圖實驗室的新算法處理後,圖片已經恢復到幾乎完全清晰,甚至背景中的書籍上的字也清晰可辨。

據騰訊優圖實驗室的研究員介紹,騰訊優圖採用的方法採用的基本技術是深度神經網絡。在經歷了對數千對模糊/清晰的圖像組的處理訓練後,強大的神經網絡自動學習了如何將模糊的圖像結構清晰化。

儘管使用神經網絡進行圖片去模糊並不是一個新想法,但騰訊優圖實驗室別出心裁的將物理直覺結合進來以促進模型訓練。在騰訊優圖實驗室新算法的論文中,其網絡模仿了一種被稱為「由粗到精」的成熟的圖像恢復策略。該策略首先將模糊圖像縮小成多種尺寸,然後從比較容易恢復的較小而偏清晰的圖像出發,逐步處理更大尺寸的圖片。每一步中產生的清晰圖像則可以進一步引導更大的圖像的恢復,降低了網絡訓練的難度。

AI肖像藝術家:以乾淨優雅的方式快速處理人像屬性

修改人像照片中的臉部屬性(不僅是美化)非常困難。藝術家通常需要對人像做很多層面上的處理才能使得修改後的圖像自然美觀。 AI可以接管這些複雜的操作嗎?

來自賈佳亞教授領導的騰訊優圖實驗室的研究人員提出了「自動人像操縱」的最新模型。藉助此模型,用戶只需簡單地提供所需效果的高級描述,模型就會根據命令自動呈現照片,例如,使他變年輕/變老等。

完成這項任務,面臨的主要挑戰是,無法收集到「輸入-輸出」的樣本用於訓練。因此,無監督學習中流行的「生成對抗」網絡通常用於此任務。然而,優圖團隊提出的這種方法並不依賴於生成對抗網絡。它通過生成帶噪聲的目標來訓練神經網絡。由於深度卷積網絡的去噪效果,其網絡的輸出甚至優於所學習的目標。

「生成對抗網絡是一個強大的工具,但它很難優化,我們希望找到更簡單的方法來解決這個問題,我們希望這項工作不僅能減輕藝術家的負擔,還能減輕訓練模型的工程師的負擔。」騰訊優圖的研究人員說。

據介紹,該模型的另一個吸引人的特點是它支持局部模型更新,也就是說,當切換不同的操作任務時,只需要替換模型的一小部分。這對系統開發人員十分友好。而且,從應用層面,也使得應用可以「增量更新」。

即使相片中的人臉沒有裁剪並且很好地對齊,該模型也可以隱式地參加正確的面部區域。在很多情況下,用戶僅僅將原始照片輸入給模型就足以產生高質量的結果。甚至將視頻一幀一幀地輸入模型中,也可以處理整段視頻中人臉的屬性。

附:除以上兩篇,騰訊優圖實驗室其餘入選CVPR2018的文章簡介

1、ReferringImageSegmentationviaRecurrentRefinementNetworks

通過循環神經網絡進行指定圖像指定區域的語義分割

根據自然語言的描述來分割圖片的指定區域是一個充滿挑戰的問題。此前的基於神經網絡的方法通過融合圖像和語言的特徵進行分割,但是忽略了多尺度的信息,這導致分割結果質量不高。對此,我們提出了一種基於循環卷積神經網絡的模型,在每一次迭代過程中加入底層卷積神經網絡的特徵來使得網絡可以逐漸捕獲圖片不同尺度下的信息。我們可視化了模型的中間結果並且在所有的相關公開數據集中都達到了最佳水平。

2、Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

通過由姿態引導的知識遷移進行弱監督及半監督的人體部位分割

人體部位解析,或稱人類語義部位分割,是許多計算機視覺任務的基礎。在傳統的語義分割方法中,我們需要提供手工標註的標籤,以便使用全卷積網絡(FCN)進行端到端的訓練。雖然過去的方法能達到不錯的效果,但它們的性能高度依賴於訓練數據的數量和質量。在本文中,我們提出了一種獲得訓練數據的新方法 ,它可以使用容易獲得的人體關鍵點的數據來生成人體部位解析數據。我們的主要想法是利用人類之間的形態相似性,將一個人的部位解析結果傳遞給具有相似姿勢的另一個人。使用我們生成的結果作為額外的訓練數據,我們的半監督模型在PASCAL-Person-Part數據集上優於強監督的方法6個mIOU,並且達到了最好的人類部位解析結果。我們的方法具有很好的通用性。它可以容易地擴展到其他物體或動物的部位解析任務中,只要它們的形態相似性可以由關鍵點表示。我們的模型和原始碼將在之後公開。

3、Learning Dual Convolutional Neural Networks for Low-Level Vision

基於雙層卷積神經網絡處理低層視覺的方法

本文提出了一個雙層卷積神經網絡來處理一些低層視覺問題,比如圖像超解析度、保邊緣的圖像濾波、圖像去雨、圖像去霧等。這些低層視覺問題通常涉及到目標結果的結構和細節部分的估計。受此啟發,本文提出的雙層卷積神經網絡包含兩個分支,其中這兩個分支可端到端的估計目標結果的結構和細節信息。基於估計的結構和細節信息,目標結果可分別通過特定問題的成像模型來得到。本文所提出的雙層卷積神經網絡是一個一般性的框架,它可以利用現有的卷積神經網絡來處理相關低層視覺問題。大量的實驗結果表明,本文所提出的雙層卷積神經網絡可以應用於大多數低層視覺問題,並取得了較好的結果。

4、GeoNet:GeometricNeuralNetworkforJointDepthandSurfaceNormalEstimation

GeoNet:通過幾何神經網絡進行聯合的深度和平面法向量估計

在這篇論文中,我們提出了幾何神經網絡,用於同時預測圖片場景的深度和平面法向量。我們的模型基於兩個不同卷積神經網絡,通過對幾何關係的建模來循環迭代更新深度信息和平面法向量信息,這使得最後的預測結果有著極高的一致性和準確率。我們在NYU數據集上驗證了我們提出的幾何神經網絡,實驗結果表明我們的模型可以精確預測出幾何關係一致的深度和平面法向量。

5、Path Aggregation Network for Instance Segmentation

通過路徑聚合網絡進行實例分割

在神經網絡中,信息傳遞的質量是非常重要的。在本文中,我們提出了路徑聚合神經網絡,旨在提升基於區域的實例分割框架中信息傳遞的質量。具體來講,我們構建了自下而上的通路來傳遞儲存在低層神經網絡層中精確的定位信息,縮短了底層網絡和高層網絡之間的信息傳輸距離,增強了整個特徵層級的質量。我們展示了適應性特徵池化,它連接了區域特徵與所有的特徵層級,進而使得所有有用的信息都能夠直接傳遞到後面的區域子網絡。我們增加了一個互補的分支去捕捉每個區域不同的特性,最終提升了掩膜的預測質量。

這些改進十分易於實現,而且增加了較少的額外計算量。這些改進幫助我們在2017 COCO實例分割競賽中取得第一名,在物體檢測競賽中取得第二名。而且我們的方法也在MVD和Cityscapes數據集中取得最好成績。

6、FSRNet:End-to-EndLearningFaceSuper-ResolutionwithFacialPriors

FSRNet:基於先驗信息的端到端訓練的人臉超解析度網絡

本文由騰訊優圖實驗室與南京理工大學主導完成,併入選Spotlight文章。人臉超解析度是一個特定領域的超解析度問題,其獨特的人臉先驗信息可以用來更好超解析度人臉圖像。本文提出一種新的端到端訓練的人臉超解析度網絡,通過更好的利用人臉特徵點熱度圖和分割圖等幾何信息,在無需人臉對齊的情況下提升非常低解析度人臉圖像的質量。具體來說,本文首先構造一個粗粒度超分網絡恢復一個粗精度的高解析度圖像。其次把該圖像分別送入一個細粒度超分編碼器和一個先驗信息估計網絡兩條分支。細粒度超分編碼器抽取圖像特徵,而先驗網絡估計人臉的特徵點和分割信息。最後兩條分支的結果匯合送入一個細粒度超分解碼器重構出最終的高解析度圖像。為了進一步生成更真實的人臉,本文提出人臉超解析度生成對抗網絡,將對抗思想融入超分網絡中。另外,我們引入人臉對齊和人臉分割兩種相關任務,作為人臉超分的新的評估準則。這兩種準則克服了傳統準則(比如PSNR/SSIM)在數值和視覺質量不一致的問題。大量實驗顯示,本文提出的方法在處理非常低解析度人臉圖像時,在數值和視覺質量兩方面都顯著優於以往超分方法。

7、Generative Adversarial Learning Towards Fast Weakly Supervised Detection

基於生成對抗學習的快速弱監督目標檢測

該論文提出一種面向快速弱監督目標檢測的生成對抗學習算法。近年來弱監督目標檢測領域有著大量的工作。在沒有人工標註包圍盒的情況下,現有的方法大多是多階段流程,其中包括了候選區域提取階段。這使得在線測試的速度比快速有監督目標檢測(如SSD、YOLO等)慢一個數量級。該論文通過一種新穎的生成對抗學習算法來加速。在這過程中,生成器是一個單階段的目標檢測器,引入了一個代理器來挖掘高質量的包圍盒,同時用判別器來判斷包圍盒的來源。最後算法結合了結構相似損失和對抗損失來訓練模型。實驗結果表明該算法取得了明顯的性能提升。

8、GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

基於組群的帶結構化相關性和差異性約束的圖像自動描述

該論文提出了一種基於組群圖像結構化語義關聯性分析的圖像自動描述方法(GroupCap),對圖像間的語義相關性和差異性進行建模。具體而言,該論文首先利用深度卷積神經網絡提取圖像的語義特徵並利用提出的視覺解析模型構建語義關聯結構樹,然後在結構樹基礎上採用三聯損失和分類損失對圖像間語義關聯性(相關性和差異性)進行建模,最後將關聯性作為約束來引導深度循環神經網絡生成文本。該方法新穎且有效,很好解決了當前圖像自動描述方法對於生成結果精確度不高且判別性不強的缺陷,並在圖像自動描述的多項指標上取得較高的性能。

相關焦點

  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。本屆大會總共錄取來自全球論文1470篇,騰訊優圖實驗室入選17篇。
  • 騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀
    2018 將在美國鹽湖城舉行。騰訊優圖實驗室繼在 ICCV 有 12 篇論文被收錄(含 3 篇口頭報告)後,在今年的 CVPR 2018 上有多篇論文被錄用,也憑藉這一點在雷鋒網學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有相應展示。騰訊優圖團隊將對其中兩篇論文做詳細介紹,並簡要介紹其它論文。
  • 字節跳動90後員工論文入選國際頂級計算機語言學術會議
    論文模型圖7 月 15 日至7 月 20 日,計算機語言學領域的頂級學術會議ACL在墨爾本召開。ACL會議(Annual Meeting of the Association for Computational Linguistics)是自然語言處理與計算語言學領域最高級別的學術會議,由計算語言學協會主辦,每年一屆。值得一提的是,擁有今日頭條、抖音等產品的字節跳動公司本次入選論文是由一位90後博士完成的。
  • HCP Lab 12篇論文入選世界頂級計算機視覺會議 CVPR 2019
    全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition) 於 6月 16~20日 在美國洛杉磯如期舉辦。CVPR 作為計算機視覺三大頂級會議之一,一直以來都備受關注。被 CVPR 收錄的論文更是代表了計算機視覺領域的最新發展方向和水平。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的2.1%(45/2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。
  • 騰訊優圖10篇論文入選人工智慧頂級會議AAAI
    人工智慧領域的國際頂級會議AAAI 2020將於2月7日-2月12日在美國紐約舉辦。近年來隨著人工智慧的興起,AAAI每年舉辦的學術會議也變得越來越火熱,每年都吸引了大量來自學術界、產業界的研究員、開發者投稿、參會。以AAAI2019為例,論文提交數量高達7745篇,創下當年AAAI歷史新高。
  • 乾貨| 2019 AI 國際頂級學術會議一覽表
    雷鋒網 AI 科技評論按:2017 -2018 年兩年間,AI 科技評論秉承「洞見學術前沿,連接產業未來」的宗旨,走遍美國、加拿大、澳大利亞、法國、新加坡等多個國家,兩度親歷 10 餘個國際頂級學術會議,為大家帶來了一系列現場精彩報導。2019 年,這些國際頂級學術會議將如約與大家見面,而 AI 科技評論也將前往現場繼續新一年的學術會議報導。
  • 騰訊優圖 11 篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等...
    近日,國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等...
    近日,國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。
  • 南開數據安全團隊論文入選國際頂級學術會議
    南開新聞網訊 第三十屆USENIX Security國際頂級安全會議將於2021年8月在加拿大溫哥華舉行,南開大學網絡空間安全學院劉哲理教授帶領的數據安全團隊的論文「How to Make Private Distributed Cardinality Estimation Practical, and Get Differential
  • ...生以第一作者身份在計算機視覺國際頂級會議ECCV2020發表論文
    近日,計算機視覺國際頂級會議ECCV2020(European Conference on Computer Vision)接收結果公布。理學院數學系應用數學和人工智慧研究團隊在ECCV2020上發表題為SingleImage Super-Resolution via a Holistic Attention Network論文。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域
    近日,國際人工智慧頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智慧領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。
  • 16篇論文入選!京東數科成人工智慧領域國際頂級學術會議黑馬
    1月7日,北青-北京頭條記者獲悉,近日國際人工智慧領域頂級學術會議AAAI 2021(第35屆AAAI)論文收錄結果出爐。京東數科以高達16篇論文的入選量成為本屆AAAI的一大黑馬。其研究方向包含了聯邦學習、對抗學習、深度學習、序列推薦、社交推薦、圖神經網絡、風險管理的反因果推斷,以及智能城市領域的時空AI等尖端技術領域。
  • 大工電信學部盧湖川教授團隊獲國際計算機視覺頂級會議CVPR最佳...
    大工電信學部盧湖川教授團隊獲國際計算機視覺頂級會議CVPR最佳論文提名和VOT競賽3項冠軍 2020-06-27 18:00 來源:澎湃新聞·澎湃號·政務
  • 一周AI大事盤點:谷歌利用AI預測風力發電量,騰訊論文被CVPR收錄
    該系統通過相機和計算機視覺來記錄兒童觀看多個1分鐘視頻時的眼球運動模式,並將各個兒童觀看相同視頻或目標時的眼球運動形成對比模式。其中,超出正常範圍的眼球運動則被標記為可能有FASD風險的兒童,需要由醫療從業者進行更精確的診斷。該研究發表在《神經學前沿》(Frontiers in Neurology)雜誌上。
  • 理學院數學系研究生以第一作者身份在計算機視覺國際頂級會議ECCV...
    近日,計算機視覺國際頂級會議ECCV2020(European Conference on Computer Vision)接收結果公布。理學院數學系應用數學和人工智慧研究團隊在ECCV2020上發表題為SingleImage Super-Resolution via a Holistic Attention Network論文。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    近日,計算機視覺方向的三大國際頂級會議之一的ECCV 2020公布論文獲獎結果。本次ECCV 2020有效投稿5025篇,最終被接受發表論文1361篇,錄取率為27%,較上屆有所下降。ECCV (European Conference on Computer Vision,即歐洲計算機視覺國際會議)是國際頂尖的計算機視覺會議之一,每兩年舉行一次。隨著人工智慧的發展,計算機視覺的研究深入和應用迅速發展,每次舉行都會吸引大量的論文投稿,而今年ECCV的投稿量更是ECCV 2018的兩倍還多,創下歷史新高。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、人臉識別等領域
    近日,計算機視覺方向的三大國際頂級會議之一的ECCV 2020公布論文獲獎結果。本次ECCV 2020有效投稿5025篇,最終被接受發表論文1361篇,錄取率為27%,較上屆有所下降。ECCV (European Conference on Computer Vision,即歐洲計算機視覺國際會議)是國際頂尖的計算機視覺會議之一,每兩年舉行一次。隨著人工智慧的發展,計算機視覺的研究深入和應用迅速發展,每次舉行都會吸引大量的論文投稿,而今年ECCV的投稿量更是ECCV 2018的兩倍還多,創下歷史新高。
  • 好未來7篇學術論文學術論文被四大國際頂級會議收錄
    近日,好未來AI工程院機器學習團隊的7篇學術論文連續入選國際人工智慧教育大會(AIED 2020)、教育數據挖掘國際會議(EDM 2020)、國際聲學、語音與信號處理會議(ICASSP 2020)、國際網際網路大會(WWW 2020)等多個國際頂級學術會議,向世界展示了中國AI+教育的發展潛力