騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀

2020-11-22 雷鋒網

雷鋒網 AI 科技評論按:CVPR 2018 將在美國鹽湖城舉行。騰訊優圖實驗室繼在 ICCV 有 12 篇論文被收錄(含 3 篇口頭報告)後,在今年的 CVPR 2018 上有多篇論文被錄用,也憑藉這一點在雷鋒網(公眾號:雷鋒網)學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有相應展示。

騰訊優圖團隊將對其中兩篇論文做詳細介紹,並簡要介紹其它論文。

解密運動模糊:走向實用的非特定場景圖片去模糊技術

在慢速曝光或快速運動拍攝照片時,圖像模糊常常困擾著照片拍攝者。優圖實驗室的研究人員開發了可以恢復模糊圖像的有效新算法。

在此之前,圖像去模糊一直是圖像處理中困擾業界的難題。圖像模糊產生的原因可能非常複雜。比如,相機晃動,失焦,拍攝物體高速運動等等。現有的圖片編輯軟體中的工具通常不盡如人意,例如,Photoshop CC 中的「相機抖動還原」工具,只能處理簡單的相機平移抖動模糊。這種類型的模糊在計算機視覺業內被稱為「均勻模糊」。而大部分模糊圖片並不是「均勻模糊」的,因而現有圖片編輯軟體的應用十分有限。

騰訊優圖實驗室的新算法,可以處理非特定場景中的圖片模糊。算法基於一種被稱為「動態模糊」的模糊模型假設。它為每個像素的運動單獨建模,因而可以處理幾乎所有類型的運動模糊。比如,上圖中,由於相機抖動而產生的平移和旋轉,每個人物的運動軌跡都不相同。經過騰訊優圖實驗室的新算法處理後,圖片已經恢復到幾乎完全清晰,甚至背景中的書籍上的字也清晰可辨。

據騰訊優圖實驗室的研究員介紹,騰訊優圖採用的方法採用的基本技術是深度神經網絡。在經歷了對數千對模糊/清晰的圖像組的處理訓練後,強大的神經網絡自動學習了如何將模糊的圖像結構清晰化。

儘管使用神經網絡進行圖片去模糊並不是一個新想法,但騰訊優圖實驗室別出心裁的將物理直覺結合進來以促進模型訓練。在騰訊優圖實驗室新算法的論文中,其網絡模仿了一種被稱為「由粗到精」的成熟的圖像恢復策略。該策略首先將模糊圖像縮小成多種尺寸,然後從比較容易恢復的較小而偏清晰的圖像出發,逐步處理更大尺寸的圖片。每一步中產生的清晰圖像則可以進一步引導更大的圖像的恢復,降低了網絡訓練的難度。

AI 肖像藝術家:以乾淨優雅的方式快速處理人像屬性

修改人像照片中的臉部屬性(不僅是美化)非常困難。藝術家通常需要對人像做很多層面上的處理才能使得修改後的圖像自然美觀。AI 可以接管這些複雜的操作嗎?

來自賈佳亞教授領導的騰訊優圖實驗室的研究人員提出了「自動人像操縱」的最新模型。藉助此模型,用戶只需簡單地提供所需效果的高級描述,模型就會根據命令自動呈現照片,例如,使他變年輕/變老等。

完成這項任務,面臨的主要挑戰是,無法收集到「輸入-輸出」的樣本用於訓練。因此,無監督學習中流行的「生成對抗」網絡通常用於此任務。然而,優圖團隊提出的這種方法並不依賴於生成對抗網絡。它通過生成帶噪聲的目標來訓練神經網絡。由於深度卷積網絡的去噪效果,其網絡的輸出甚至優於所學習的目標。

「生成對抗網絡是一個強大的工具,但它很難優化,我們希望找到更簡單的方法來解決這個問題,我們希望這項工作不僅能減輕藝術家的負擔,還能減輕訓練模型的工程師的負擔。」騰訊的研究人員說。

據介紹,該模型的另一個吸引人的特點是它支持局部模型更新,也就是說,當切換不同的操作任務時,只需要替換模型的一小部分。這對系統開發人員十分友好。而且,從應用層面,也使得應用可以「增量更新」。

即使相片中的人臉沒有裁剪並且很好地對齊,該模型也可以隱式地參加正確的面部區域。在很多情況下,用戶僅僅將原始照片輸入給模型就足以產生高質量的結果。甚至將視頻一幀一幀地輸入模型中,也可以處理整段視頻中人臉的屬性。

除以上兩篇,騰訊優圖實驗室其餘入選 CVPR2018 的文章簡介:

1、Referring Image Segmentation via Recurrent Refinement Networks

根據自然語言的描述來分割圖片的指定區域是一個充滿挑戰的問題。此前的基於神經網絡的方法通過融合圖像和語言的特徵進行分割,但是忽略了多尺度的信息,這導致分割結果質量不高。對此,我們提出了一種基於循環卷積神經網絡的模型,在每一次迭代過程中加入底層卷積神經網絡的特徵來使得網絡可以逐漸捕獲圖片不同尺度下的信息。我們可視化了模型的中間結果並且在所有的相關公開數據集中都達到了最佳水平。

2、Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

通過由姿態引導的知識遷移進行弱監督及半監督的人體部位分割

人體部位解析,或稱人類語義部位分割,是許多計算機視覺任務的基礎。在傳統的語義分割方法中,我們需要提供手工標註的標籤,以便使用全卷積網絡(FCN)進行端到端的訓練。雖然過去的方法能達到不錯的效果,但它們的性能高度依賴於訓練數據的數量和質量。在本文中,我們提出了一種獲得訓練數據的新方法,它可以使用容易獲得的人體關鍵點的數據來生成人體部位解析數據。我們的主要想法是利用人類之間的形態相似性,將一個人的部位解析結果傳遞給具有相似姿勢的另一個人。使用我們生成的結果作為額外的訓練數據,我們的半監督模型在 PASCAL-Person-Part 數據集上優於強監督的方法 6 個 mIOU,並且達到了最好的人類部位解析結果。我們的方法具有很好的通用性。它可以容易地擴展到其他物體或動物的部位解析任務中,只要它們的形態相似性可以由關鍵點表示。我們的模型和原始碼將在之後公開。

3、Learning Dual Convolutional Neural Networks for Low-Level Vision

基於雙層卷積神經網絡處理低層視覺的方法

本文提出了一個雙層卷積神經網絡來處理一些低層視覺問題,比如圖像超解析度、保邊緣的圖像濾波、圖像去雨、圖像去霧等。這些低層視覺問題通常涉及到目標結果的結構和細節部分的估計。受此啟發,本文提出的雙層卷積神經網絡包含兩個分支,其中這兩個分支可端到端的估計目標結果的結構和細節信息。基於估計的結構和細節信息,目標結果可分別通過特定問題的成像模型來得到。本文所提出的雙層卷積神經網絡是一個一般性的框架,它可以利用現有的卷積神經網絡來處理相關低層視覺問題。大量的實驗結果表明,本文所提出的雙層卷積神經網絡可以應用於大多數低層視覺問題,並取得了較好的結果。

4、GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation

GeoNet:通過幾何神經網絡進行聯合的深度和平面法向量估計

在這篇論文中,我們提出了幾何神經網絡,用於同時預測圖片場景的深度和平面法向量。我們的模型基於兩個不同卷積神經網絡,通過對幾何關係的建模來循環迭代更新深度信息和平面法向量信息,這使得最後的預測結果有著極高的一致性和準確率。我們在 NYU 數據集上驗證了我們提出的幾何神經網絡,實驗結果表明我們的模型可以精確預測出幾何關係一致的深度和平面法向量。

5、Path Aggregation Network for Instance Segmentation

通過路徑聚合網絡進行實例分割

在神經網絡中,信息傳遞的質量是非常重要的。在本文中,我們提出了路徑聚合神經網絡,旨在提升基於區域的實例分割框架中信息傳遞的質量。具體來講,我們構建了自下而上的通路來傳遞儲存在低層神經網絡層中精確的定位信息,縮短了底層網絡和高層網絡之間的信息傳輸距離,增強了整個特徵層級的質量。我們展示了適應性特徵池化,它連接了區域特徵與所有的特徵層級,進而使得所有有用的信息都能夠直接傳遞到後面的區域子網絡。我們增加了一個互補的分支去捕捉每個區域不同的特性,最終提升了掩膜的預測質量。

這些改進十分易於實現,而且增加了較少的額外計算量。這些改進幫助我們在 2017 COCO 實例分割競賽中取得第一名,在物體檢測競賽中取得第二名。而且我們的方法也在 MVD 和 Cityscapes 數據集中取得最好成績。

6、FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

FSRNet:基於先驗信息的端到端訓練的人臉超解析度網絡

本文由騰訊優圖實驗室與南京理工大學主導完成,併入選 Spotlight 文章。人臉超解析度是一個特定領域的超解析度問題,其獨特的人臉先驗信息可以用來更好超解析度人臉圖像。本文提出一種新的端到端訓練的人臉超解析度網絡,通過更好的利用人臉特徵點熱度圖和分割圖等幾何信息,在無需人臉對齊的情況下提升非常低解析度人臉圖像的質量。具體來說,本文首先構造一個粗粒度超分網絡恢復一個粗精度的高解析度圖像。其次把該圖像分別送入一個細粒度超分編碼器和一個先驗信息估計網絡兩條分支。細粒度超分編碼器抽取圖像特徵,而先驗網絡估計人臉的特徵點和分割信息。最後兩條分支的結果匯合送入一個細粒度超分解碼器重構出最終的高解析度圖像。為了進一步生成更真實的人臉,本文提出人臉超解析度生成對抗網絡,將對抗思想融入超分網絡中。另外,我們引入人臉對齊和人臉分割兩種相關任務,作為人臉超分的新的評估準則。這兩種準則克服了傳統準則(比如 PSNR/SSIM)在數值和視覺質量不一致的問題。大量實驗顯示,本文提出的方法在處理非常低解析度人臉圖像時,在數值和視覺質量兩方面都顯著優於以往超分方法。

7、Generative Adversarial Learning Towards Fast Weakly Supervised Detection

基於生成對抗學習的快速弱監督目標檢測

該論文提出一種面向快速弱監督目標檢測的生成對抗學習算法。近年來弱監督目標檢測領域有著大量的工作。在沒有人工標註包圍盒的情況下,現有的方法大多是多階段流程,其中包括了候選區域提取階段。這使得在線測試的速度比快速有監督目標檢測(如 SSD、YOLO 等)慢一個數量級。該論文通過一種新穎的生成對抗學習算法來加速。在這過程中,生成器是一個單階段的目標檢測器,引入了一個代理器來挖掘高質量的包圍盒,同時用判別器來判斷包圍盒的來源。最後算法結合了結構相似損失和對抗損失來訓練模型。實驗結果表明該算法取得了明顯的性能提升。

8、GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

基於組群的帶結構化相關性和差異性約束的圖像自動描述

該論文提出了一種基於組群圖像結構化語義關聯性分析的圖像自動描述方法(GroupCap),對圖像間的語義相關性和差異性進行建模。具體而言,該論文首先利用深度卷積神經網絡提取圖像的語義特徵並利用提出的視覺解析模型構建語義關聯結構樹,然後在結構樹基礎上採用三聯損失和分類損失對圖像間語義關聯性(相關性和差異性)進行建模,最後將關聯性作為約束來引導深度循環神經網絡生成文本。該方法新穎且有效,很好解決了當前圖像自動描述方法對於生成結果精確度不高且判別性不強的缺陷,並在圖像自動描述的多項指標上取得較高的性能。

歡迎關注雷鋒網AI科技評論,了解雷鋒網學術頻道的更多報導。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    騰訊優圖論文再次入庫頂級學術會議作為計算機視覺領域最高級別的會議之一的CVPR,其論文集通常代表著計算機視覺領域最新的發展方向和水平。這也是騰訊優圖繼2017年在另一計算機視覺頂級會議ICCV會議中獲得12篇論文被收錄,包含3篇口頭報告(該類論文僅佔總投稿數2.1%)的成績後,2018年,科研成果再次豐收,論文被CVPR2018收錄。
  • 騰訊優圖CVPR中標論文:不靠硬體靠算法,暗光拍照也清晰
    這個新算法由騰訊優圖實驗室提出,王瑞星、沈小勇及賈佳亞是作者,論文已入選CVPR 2019.優圖則是希望通過神經網絡學習出中間結果圖像的光照圖(illumination), 進而再通過輸入圖像和光照圖的關係,得到增強後的圖片。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優圖實驗室 25 篇被錄用論文的詳細介紹。1.
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    今年,即將於2017年11月8日在北京國家會議中心舉辦的AI World 2017世界人工智慧大會上,我們請到了騰訊優圖實驗室傑出科學家賈佳亞教授發表演講。 想了解更多關於騰訊優圖和計算機視覺的前沿動態?點擊文末閱讀原文,馬上參會!
  • 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選
    本屆大會總共錄取來自全球論文1299篇。中國團隊表現不俗,此次,騰訊公司有超過58篇論文被本屆CVPR大會接收,其中騰訊優圖實驗室25篇、騰訊AI Lab33篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019錄取論文代表了計算機視覺領域在2019年最新和最高的科技水平以及未來發展潮流。
  • 全球計算機視覺頂會 CVPR 連續三年收錄騰訊優圖論文 2019 收錄 25...
    本屆大會總共錄取來自全球論文 1299 篇。中國團隊表現不俗,此次,騰訊公司有超過 58 篇論文被本屆 CVPR 大會接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab33 篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019 錄取論文代表了計算機視覺領域在 2019 年最新和最高的科技水平以及未來發展潮流。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    本屆大會總共錄取來自全球論文1470篇,騰訊優圖實驗室入選17篇。作為計算機視覺領域世界三大頂會之一,CVPR 的論文投稿量近三年持續大漲,CVPR官網顯示,今年大會論文有效投稿數量6656篇,最終錄取1470篇,錄取率僅為22%,相比去年降低3個百分點。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    本屆大會總共錄取來自全球論文1299篇。中國團隊表現不俗,此次,騰訊公司有超過58篇論文被本屆CVPR大會接收,其中騰訊優圖實驗室25篇、騰訊AI Lab33篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019錄取論文代表了計算機視覺領域在2019年最新和最高的科技水平以及未來發展潮流。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的2.1%(45/2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績,這是中國企業在該賽事上取得的最高名次
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    (接收論文列表:http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)正當學界紛紛議論各單位獲接收論文多寡的當兒,雷鋒網 AI 科技評論為大家精心整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,藉此對這批計算機領域的重要論文進行複習。
  • 賈佳亞教授正式加盟騰訊優圖,計算機視覺大師的光榮與夢想
    新智元此前曾報導,騰訊優圖是騰訊AI的三大核心支柱之一,與微信AI團隊和新成立的騰訊AI Lab共同驅動騰訊的 AI 發展。本年度在國際上人臉識別標誌性比賽——LFW 和 MegaFace上,騰訊優圖都拿到了冠軍的成績。優圖實驗室創立於2012年,專注在圖像處理、模式識別、機器學習、數據挖掘等領域開展技術研發和業務落地,至今已有近5年的歷史。
  • 騰訊優圖:做產業網際網路時代的π型實驗室
    12月30日,騰訊優圖2020年度溝通會於海南正式舉辦,騰訊優圖實驗室總經理、騰訊雲副總裁吳運聲、騰訊優圖實驗室副總經理黃飛躍、騰訊優圖實驗室總監吳永堅、騰訊優圖實驗室總監任博,騰訊研究院高級研究員徐思彥等大咖出席了活動,並就2020年的業務進展和人工智慧趨勢做了完整的解讀和分享。
  • 騰訊優圖2020疫情下再出發!專利800+項,AI落地直面碎片化
    2020年,優圖實現了多項場景化AI技術的突破和研究層面的全面自動化,其中模型自動化生成能使算法調優耗時降低90%。  此外,騰訊還聯合騰訊海納推出了健康申報、人車管理、體溫篩查以及智能隔離等功能,並在全國多個小區落地應用。吳運聲說,在過去一年疫情比較嚴重的時期,優圖技術依然在工業、教育、文旅等行業取得突破。  除了產業化,吳運聲提到優圖也在科技向善上做不斷的努力。
  • 騰訊優圖跨年齡人臉識別 助警方尋回被拐兒童
    為了協助警方提升尋人的效率和準確度,騰訊優圖實驗室依靠在計算機視覺領域多年的積累,不斷迭代人臉檢索技術,增強人臉識別能力,協助警方在海量的人臉數據中快速對比、鎖定、匹配出可能的失蹤人口。其中,幫助福建省公安廳「牽掛你」防走失平臺,累計找回1091餘人;截至2018年10月,接入騰訊優圖「天眼尋人」功能的QQ全城助力,累計找回600多人。通過公益尋人的多年積累,騰訊充分發揮技術的社會價值,讓AI給社會帶來更多可能。
  • 騰訊優圖11篇論文入選,涵蓋動作識別、人群密度估計、人臉安全等領域
    本次AAAI騰訊優圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現了騰訊在計算機視覺領域的技術實力。  此外,為了緩解離群點對聚類的阻礙,騰訊優圖採用最大均值差異(MMD)來校正樣本特徵分布與先驗分布的差異,以增強聚類的可靠性。實驗結果表明騰訊優圖的方法(D2AM)優於傳統的域泛化方法,包括使用域標籤的方法,為實際場景下活體技術的應用提供了有效框架。
  • 圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...
    據 CVPR 大會官方介紹,此次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。   不久之前,CLIC 挑戰賽比賽結果公布:在不同基準下,來自國內創業公司圖鴨科技的團隊 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上獲得第一名,騰訊音視頻實驗室和武漢大學陳震中教授聯合團隊 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指標上佔據領先優勢,位列第一。
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    2018 日前已公布錄用名單,騰訊 AI Lab 共有 21 篇論文入選。本文轉載於「騰訊 AI 實驗室」,雷鋒網 AI 科技評論經授權轉載。近十年來在國際計算機視覺領域最具影響力、研究內容最全面的頂級學術會議 CVPR,近日揭曉 2018 年收錄論文名單,騰訊 AI Lab 共有 21 篇論文入選,位居國內企業前列,我們將在下文進行詳解,歡迎交流與討論。去年 CVPR 的論文錄取率為 29%,騰訊 AI Lab 共有 6 篇論文入選。
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    本文對騰訊 AI Lab 今年入選 NIPS 的論文進行了解讀,雷鋒網 AI 科技評論獲得「騰訊 AI 實驗室」公眾號許可,進行轉載。AI Lab 合作完成,探索了一種用於快速隨機求解非凸優化問題的方法,同時也是本屆 NIPS 的 Spotlight 論文之一。
  • 騰訊優圖實驗室AI手語識別研究白皮書
    近日,騰訊優圖實驗室在攻堅AI手語識別上取得了突破性進展,推出「優圖AI手語翻譯機」,旨在通過AI技術緩解聽障人群的溝通障礙問題,同時發布《騰訊優圖實驗室AI手語識別研究白皮書》,對當下聽障人群痛點、技術研究現狀進行分析,並對優圖AI手語翻譯機的技術研發展開深入解讀,助力AI手語識別技術的進一步發展。以下是白皮書的全部內容。