CVPR 2019 召開在即,亮風臺端到端的投影儀光學補償入選 oral 論文

2020-12-25 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論消息,隨著 CVPR 2019 的臨近,越來越多的企業和高校公布自家的入選論文信息。

近日,AR 產品與服務提供商亮風臺公布了投影 AR 算法研究最新成果,主要用於解決投影儀光學補償問題,即當投影屏幕不是理想的白色漫反射時,儘可能消除投影面上的圖案,相關論文《End-to-end Projector Photometric Compensation》已經入選 CVPR 2019 的 oral presentation 環節。以下便是亮風臺對這篇論文的詳細解讀。

《End-to-end Projector Photometric Compensation》的貢獻主要在以下幾點:

1. 首次將投影儀光學補償問題闡述為一個端到端的深度學習問題,然後構造一個新穎的名為 CompenNet 的卷積神經網絡(CNN)來隱式的學習這個複雜的補償函數。

2. 首次提出一個獨立於設備和實際投影的資料庫和評價基準,今後類似的工作可以在這個評價基準上統一比較,而不需要復現該研究中使用的設備和實際投影,以前的工作是沒有這樣的評價基準的。

3. 提供了一個預訓練的方法,將預訓練好的 CompenNet 遷移到新的投影屏幕和硬體設置上,只需要拍攝少量的採樣圖片就可以媲美甚至超過從零開始訓練 CompenNet 和傳統方法,這樣可以大量的節省採樣圖拍攝時間和訓練時間。

4. 在亮風臺提出的評價基準上比較了 CompenNet 和其他傳統的方法,以及一個通用的圖到圖遷移的深度學習框架 pix2pix,實驗結果顯示在數值和質量效果上新方法都大幅度優於其他參與比較的方法。

背景介紹

這篇工作主要解決投影儀光學補償問題,即當投影儀屏幕不是理想的白色漫反射時,屏幕的顏色和紋理會導致用戶看到失真的效果,如下圖 1 所示。

圖 1. (a) 正常光照下的具有紋理和顏色的投影屏幕。(b) 投影儀投射的圖片(也是我們想要看到的效果)。(c) 相機拍攝到的,沒有補償的投影結果,即將 (b) 直接投影到 (a) 上。(d) 我們模型計算出的補償圖。(e) 相機拍到的補償後的效果,即將 (d) 投影到 (a) 上。比較 (c) 和 (e),可以看到明顯提升的效果和細節。

為了解決投影儀光學補償問題,一般是用一個相機來拍攝大量的投影儀投射的圖片,然後從這些拍到的和投射的圖片對中擬合出一個光學補償函數,再將要投射的圖片經過這個光學補償函數補償,最後由投影儀投射,這樣投射的補償正好可以抵消非理想屏幕的顏色、紋理和投影儀本身的非線性光學特性。

但是以上的光學過程過於複雜,所以很多傳統方法以及目前效果較好的算法,都是將這個過程簡化為投影儀像素與相機拍到的像素只是一一對應,然後獨立地對每個像素擬合一個光學補償函數。這樣的假設,往往忽略了很多重要信息,比如由於投影儀和相機跟屏幕的距離,投影儀相機輕微失焦和屏幕表面相互反射等因素,每一個投影儀的像素並不是跟每個相機像素一一對應,很可能一個投影儀像素覆蓋了幾個相機的像素,這樣的簡化勢必影響投影儀光學補償的效果,實驗的結果也印證了這一點。

研究方法

為了避免過於簡化,我們採用一個新思路,即用 CNN 網絡來端到端隱式地學習這個複雜的光學補償函數。這樣的好處主要是:

1. CNN 有足夠的模型複雜度來擬合複雜的光學過程。

2. CNN 濾波器本身就對領域像素採樣,這樣我們不需要像傳統方法那樣進行像素一一對應的簡化。

3. 根據我們的數學推導,發現可以用一張相機拍到的屏幕照片來表示投影屏幕本身的光學特性,然後將這張照片作為 CompenNet 的第二個輸入,指導 CompenNet 學習相機拍攝的失真圖和屏幕光學特性的關係, 如下圖 2 所示。

圖 2. CompenNet 的結構。比較訓練(左)和補償(右)過程,我們發現學習從相機拍攝的未補償圖到投影儀輸入圖片的反映射,就是學習從投影儀輸入圖片(想要用戶看到的效果)到補償圖片的映射

網絡訓練和光學補償的流程如下圖 3 所示。

圖 3. 所提出的投影儀補償管道的流程圖包括三個主要步驟。(a)投影並捕捉投影表面圖和一組採樣圖像。(b)使用投影表面圖和捕獲的圖像對訓練所提出的 CompenNet,即。(c)利用訓練的模型,補償輸入圖像並投影。

實驗結果:

圖 4. 相機拍攝的補償效果比較。第一列:投影儀屏幕表面紋理。第二列:相機拍攝的未補償效果。第三到第六列,相機拍攝的不同補償方法補償後的效果。第七列,投影儀的輸入,即想要用戶看到的效果。

表 1. 不同補償方法的數值比較,以下數值是平均了來自於 24 個不同環境設置,即光照、投影儀、相機姿態和投影儀表面紋理的結果。每個環境設置有 500 張訓練圖,200 張測試圖。可以明顯看到在投影儀光學補償任務上,這一方法優於傳統方法和 pix2pix。

表 2. CompenNet 預訓練與重新訓練的比較。我們只採用 32 個訓練樣本並只訓練 500 個循環,總共耗時 170 秒。可以明顯看到,微調預訓練模型的結果優於重新訓練 CompenNet,而且因為只需要少量樣本和訓練時間,在實際使用中也更便捷。

論文地址:https://arxiv.org/pdf/1904.04335.pdf

補充材料:http://www.dabi.temple.edu/~hbling/publication/CompenNet_sup.pdf

原始碼:https://github.com/BingyaoHuang/CompenNet

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 新突破:亮風臺投影AR新成果入選CVPR 2019 oral presentation
    近日,亮風臺公布了投影AR算法研究最新成果,主要用於解決投影儀光學補償問題,即當投影屏幕不是理想的白色漫反射時,儘可能消除投影面上的圖案。相關論文《End-to-end Projector Photometric Compensation》已經入選CVPR 2019的oral presentation環節。數據顯示,今年有超過 5165 篇的大會論文投稿,最終錄取1299 篇,而oral presentation的入選率只有提交論文的5%左右。可以預見,該成果將成為投影AR技術應用落地提供重要的技術基礎。
  • 300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡
    2019 即將在美國長灘召開。今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇,其中 Oral 論文近 300 篇。為了方便社區開發者和學術青年查找和閱讀高價值論文,AI 研習社從入選的 Oral 論文中,按應用方向挑選了部分精華論文,貼在本文。
  • CVPR2019| 05-17更新11篇論文及代碼合集(含一篇oral,視覺跟蹤/實例分割/行人重識別等)
    點擊文末「閱讀原文」立刻申請入群~前段時間,計算機視覺頂會CVPR 2019 公布了接收結果,極市也對此做了相關報導:1300篇!CVPR2019接收結果公布,你中了嗎?。目前官方已公布了接收論文列表,極市已匯總目前公開的所有論文連結及code(目前已更新612篇),今日更新論文如下:CVPR2019 全部論文匯總:https://github.com/extreme-assistant/cvpr2019CVPR2019 論文解讀
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • 帶你讀論文 | 端到端語音識別模型
    隨著端到端神經網絡在機器翻譯、語音生成等方面的進展,端到端的語音識別也達到了和傳統方法可比的性能。不同於傳統方法將語音識別任務分解為多個子任務(詞彙模型,聲學模型和語言模型),端到端的語音識別模型基於梅爾語譜作為輸入,能夠直接產生對應的自然語言文本,大大簡化了模型的訓練過程,從而越來越受到學術界和產業界的關注。
  • CVPR 2018 | 騰訊AI Lab、MIT等提出可端到端學習視頻的運動表徵
    儘管端到端的特徵學習已經取得了重要的進展,但是人工設計的光流特徵仍然被廣泛用於各類視頻分析任務中。為了彌補這個不足,由來自騰訊 AI Lab、MIT、清華、史丹福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從數據中學習出類光流特徵並且能進行端到端訓練的神經網絡:TVNet。機器之心對本論文進行了摘要介紹,詳情請參閱原論文。
  • CVPR 2019 | 騰訊AI Lab解讀六大前沿方向及33篇入選論文
    計算機視覺頂級會議 CVPR 2019 將於 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優圖實驗室
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • 阿德萊德大學博士後劉禹良:端到端可訓練任意形狀的實時場景文本...
    因此,如何設計一個簡單而有效的端到端框架,用於在圖像中定向或彎曲的場景文本定位,並在確保快速的推斷時間的同時,同達到了與最先進方法相媲美甚至更好的性能的方法非常關鍵。ABCNet,是一種基於貝塞爾曲線的、端到端可識別任意形狀的場景文本識別網絡。
  • CVPR2019無人駕駛相關論文
    點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • 投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?
    項目地址:https://github.com/hoya012/CVPR-2019-Paper-Statistics接收論文列表:https://github.com/hoya012/CVPR-2019-Paper-Statistics/blob/master/2019_cvpr/cvpr
  • CVPR 2018 | 騰訊AI Lab、MIT等機構提出TVNet:可端到端學習視頻的運動表徵
    為了彌補這個不足,由來自騰訊 AI Lab、MIT、清華、史丹福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從數據中學習出類光流特徵並且能進行端到端訓練的神經網絡:TVNet。機器之心對本論文進行了摘要介紹,詳情請參閱原論文。另外,該研究成果的 TensorFlow 實現已經發布在 GitHub 上。
  • 瞄準CES 面向2018,亮風臺HiAR G100 體驗
    從第一代的分體式設計,到現在的一體化,還有光學投影屏幕的進化都能一目了然。雷鋒網回到產品本身,亮風臺為 HiAR G100 設計了一款別致的外包裝,全黑的配色顯得具有科技感,中間只有亮風臺 HiAR logo,簡潔時尚。
  • CVPR 2017 全部及部分論文解讀集錦
    文中論文提出了一個新的深度學習模型,這個模型推廣了傳統的字典學習 (dictionary learning) 和殘差編碼 (Residual Encoders)。論文GMS的方法實際上是消除錯誤匹配的一種方案,比如可以替換ransac。算法執行的大致流程是:先執行任意一種特徵點的檢測和特徵點的描述子計算,論文中採用的是ORB特徵。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議)即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 論文推薦|[IEEE TIP 2020]EraseNet:端到端的真實場景文本擦除方法
    這篇文章同時提出了一個端到端場景文字擦除模型,通過引入兩階段的編解碼器(Coarse-to-refinement)以及一個額外的文本感知分支構建了文字擦除生成對抗網絡EraseNet,模型的流程圖如圖2所示。
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    CVPR 2020本次收錄四篇科研論文,其中三篇為oral。從IEEE CVPR 2020公布的論文接收結果來看,在6656篇有效投稿中有1470篇論文被接收,接收率僅為22%,相比去年又降低3個百分點,oral按照往年經驗,一般只有5-7%,競爭越發激烈。
  • 基石小夥伴 | 商湯科技62篇論文入選CVPR 2019,多個競賽項目奪冠
    作為與ICCV、ECCV並稱為計算機視覺領域三大國際會議之一,本屆CVPR大會共收到5265篇有效投稿,接收論文1300篇,接收率為25.2%。相比2018年,本屆CVPR的論文提交數量增加了56%,但論文接收率卻下降了3.9%,可見論文入選難度有很大提升,也可以看出AI學術會議的關注度也愈加火熱。
  • 亮風臺CEO廖春元:雲管端同時發力,開啟AR規模化複製階段
    近日,雷鋒網採訪了亮風臺創始人兼CEO廖春元,廖春元表示,「今明兩年是一個非常重要的時間窗口,之所以這樣講是因為,AR技術通過多年的發展,在行業人士的努力下其市場的培育已經到了一定程度。在一些垂直行業技術邊界之內,已經有比較好且具有個性需求的應用場景顯現出來,一些B端用戶會主動考慮能否與AR技術進行結合。
  • 論文精讀 | LaneNet 端到端車道線檢測的實例分割方法
    透個消息,近期會出一篇關於OpenCV實現車道線檢測的文章,檢測效果很贊,代碼也會上傳到github上;還會出一篇Amusi整理的關於車道線檢測最全的資料集錦(含教程、論文和代碼)。為什麼說Amusi與這篇論文有緣分呢?因為數月前,Amusi就在論文速遞中整理了這篇論文(沒有發布)。