CVPR 2019 召開在即,亮風臺端到端的投影儀光學補償入選 oral 論文

2020-11-30 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論消息,隨著 CVPR 2019 的臨近,越來越多的企業和高校公布自家的入選論文信息。

近日,AR 產品與服務提供商亮風臺公布了投影 AR 算法研究最新成果,主要用於解決投影儀光學補償問題,即當投影屏幕不是理想的白色漫反射時,儘可能消除投影面上的圖案,相關論文《End-to-end Projector Photometric Compensation》已經入選 CVPR 2019 的 oral presentation 環節。以下便是亮風臺對這篇論文的詳細解讀。

《End-to-end Projector Photometric Compensation》的貢獻主要在以下幾點:

1. 首次將投影儀光學補償問題闡述為一個端到端的深度學習問題,然後構造一個新穎的名為 CompenNet 的卷積神經網絡(CNN)來隱式的學習這個複雜的補償函數。

2. 首次提出一個獨立於設備和實際投影的資料庫和評價基準,今後類似的工作可以在這個評價基準上統一比較,而不需要復現該研究中使用的設備和實際投影,以前的工作是沒有這樣的評價基準的。

3. 提供了一個預訓練的方法,將預訓練好的 CompenNet 遷移到新的投影屏幕和硬體設置上,只需要拍攝少量的採樣圖片就可以媲美甚至超過從零開始訓練 CompenNet 和傳統方法,這樣可以大量的節省採樣圖拍攝時間和訓練時間。

4. 在亮風臺提出的評價基準上比較了 CompenNet 和其他傳統的方法,以及一個通用的圖到圖遷移的深度學習框架 pix2pix,實驗結果顯示在數值和質量效果上新方法都大幅度優於其他參與比較的方法。

背景介紹

這篇工作主要解決投影儀光學補償問題,即當投影儀屏幕不是理想的白色漫反射時,屏幕的顏色和紋理會導致用戶看到失真的效果,如下圖 1 所示。

圖 1. (a) 正常光照下的具有紋理和顏色的投影屏幕。(b) 投影儀投射的圖片(也是我們想要看到的效果)。(c) 相機拍攝到的,沒有補償的投影結果,即將 (b) 直接投影到 (a) 上。(d) 我們模型計算出的補償圖。(e) 相機拍到的補償後的效果,即將 (d) 投影到 (a) 上。比較 (c) 和 (e),可以看到明顯提升的效果和細節。

為了解決投影儀光學補償問題,一般是用一個相機來拍攝大量的投影儀投射的圖片,然後從這些拍到的和投射的圖片對中擬合出一個光學補償函數,再將要投射的圖片經過這個光學補償函數補償,最後由投影儀投射,這樣投射的補償正好可以抵消非理想屏幕的顏色、紋理和投影儀本身的非線性光學特性。

但是以上的光學過程過於複雜,所以很多傳統方法以及目前效果較好的算法,都是將這個過程簡化為投影儀像素與相機拍到的像素只是一一對應,然後獨立地對每個像素擬合一個光學補償函數。這樣的假設,往往忽略了很多重要信息,比如由於投影儀和相機跟屏幕的距離,投影儀相機輕微失焦和屏幕表面相互反射等因素,每一個投影儀的像素並不是跟每個相機像素一一對應,很可能一個投影儀像素覆蓋了幾個相機的像素,這樣的簡化勢必影響投影儀光學補償的效果,實驗的結果也印證了這一點。

研究方法

為了避免過於簡化,我們採用一個新思路,即用 CNN 網絡來端到端隱式地學習這個複雜的光學補償函數。這樣的好處主要是:

1. CNN 有足夠的模型複雜度來擬合複雜的光學過程。

2. CNN 濾波器本身就對領域像素採樣,這樣我們不需要像傳統方法那樣進行像素一一對應的簡化。

3. 根據我們的數學推導,發現可以用一張相機拍到的屏幕照片來表示投影屏幕本身的光學特性,然後將這張照片作為 CompenNet 的第二個輸入,指導 CompenNet 學習相機拍攝的失真圖和屏幕光學特性的關係, 如下圖 2 所示。

圖 2. CompenNet 的結構。比較訓練(左)和補償(右)過程,我們發現學習從相機拍攝的未補償圖到投影儀輸入圖片的反映射,就是學習從投影儀輸入圖片(想要用戶看到的效果)到補償圖片的映射

網絡訓練和光學補償的流程如下圖 3 所示。

圖 3. 所提出的投影儀補償管道的流程圖包括三個主要步驟。(a)投影並捕捉投影表面圖和一組採樣圖像。(b)使用投影表面圖和捕獲的圖像對訓練所提出的 CompenNet,即。(c)利用訓練的模型,補償輸入圖像並投影。

實驗結果:

圖 4. 相機拍攝的補償效果比較。第一列:投影儀屏幕表面紋理。第二列:相機拍攝的未補償效果。第三到第六列,相機拍攝的不同補償方法補償後的效果。第七列,投影儀的輸入,即想要用戶看到的效果。

表 1. 不同補償方法的數值比較,以下數值是平均了來自於 24 個不同環境設置,即光照、投影儀、相機姿態和投影儀表面紋理的結果。每個環境設置有 500 張訓練圖,200 張測試圖。可以明顯看到在投影儀光學補償任務上,這一方法優於傳統方法和 pix2pix。

表 2. CompenNet 預訓練與重新訓練的比較。我們只採用 32 個訓練樣本並只訓練 500 個循環,總共耗時 170 秒。可以明顯看到,微調預訓練模型的結果優於重新訓練 CompenNet,而且因為只需要少量樣本和訓練時間,在實際使用中也更便捷。

論文地址:https://arxiv.org/pdf/1904.04335.pdf

補充材料:http://www.dabi.temple.edu/~hbling/publication/CompenNet_sup.pdf

原始碼:https://github.com/BingyaoHuang/CompenNet

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡
    2019 即將在美國長灘召開。今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇,其中 Oral 論文近 300 篇。為了方便社區開發者和學術青年查找和閱讀高價值論文,AI 研習社從入選的 Oral 論文中,按應用方向挑選了部分精華論文,貼在本文。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • CVPR 2019 | 騰訊AI Lab解讀六大前沿方向及33篇入選論文
    2019 將於 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優圖實驗室 25 篇。騰訊 AI Lab 入選論文涉及視頻理解、人臉識別、對抗攻擊、視覺-語言描述、模型壓縮和多任務學習等幾大重點研究方向,下面將分組介紹論文。往年參會入選論文可見公眾號歷史文章。註:本文分組方式並不嚴格,部分論文同時分屬多個主題。
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    微軟亞洲研究院梅濤研究員等人發表的論文是本次 CVPR 大會的亮點之一。 論文連結:http://openaccess.thecvf.com/content_cvpr_2017/papers/Fu_Look_Closer_to_CVPR_2017_paper.pdf 識別紋理細密的物體類別(比如鳥類)是很困難的,這是因為判別區域定位
  • 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    2014年前後引入LSTM+CTC的方案,理論上實現了端到端,但因為效果不好,實際使用中仍然會加上語言模型。而 2017 年之後基於自注意力機制的完全端到端模型,才真正突破了「傳統框架」的限制,去除所有中間步驟和獨立子任務,充分利用深層神經網絡和並行計算的優勢,取得最優結果。
  • 圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...
    地址:http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#   摘要:我們展示了一種用於低碼率圖像壓縮的端到端可訓練圖像壓縮框架。
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    CVPR 2020本次收錄四篇科研論文,其中三篇為oral。從IEEE CVPR 2020公布的論文接收結果來看,在6656篇有效投稿中有1470篇論文被接收,接收率僅為22%,相比去年又降低3個百分點,oral按照往年經驗,一般只有5-7%,競爭越發激烈。
  • TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法
    雷鋒網 AI 科技評論按:本文是人工智慧頂級國際期刊 TPAMI 入選論文《End to end Active Object Tracking and Its Real world Deployment via Reinforcement Learning》的深入解讀,首發於北京大學前沿計算研究中心,雷鋒網 AI 科技評論獲其授權轉載。
  • 百度ICML論文:端對端中英文語音識別
    一個簡單但有效的替代解決方案是訓練出端對端語音自動識別模式,使用深度學習的方法用一個模型來代替大多數模式。如同Hannun et al., 2014a and Graves & Jaitly, 2014b在他們的論文所提及一樣。這種端到端的訓練方法簡化了訓練過程,因為它省去了人工引導/校準/集群/ HMM 機械裝置,而這些用於建立先進的自動語音識別(ASR)模式。
  • 端到端聲源分離研究:現狀、進展和未來
    本文是由哥倫比亞大學博士生羅藝主講的『端到端聲源分離研究進展』整理而來。內容主要覆蓋了單通道和多通道上端到端音源分離的現狀和進展以及未來的研究方向。-本文約5580字,閱讀約需20min-端到端音源分離定義與進展什麼是端到端音源分離呢?羅藝老師首先介紹了端到端音源分離的定義。
  • 騰訊優圖CVPR中標論文:不靠硬體靠算法,暗光拍照也清晰
    他們提出基於深度學習優化光照的暗光下的圖像增強模型,用端到端網絡增強曝光不足的照片。而且不是像以前的工作那樣,直接學習圖像到圖像的映射,而是在新網絡中引入中間照明,將輸入與預期的增強結果相關聯,增強網絡從專家修飾的輸入/輸出圖像學習複雜的攝影調整的能力。
  • 華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構
    根據本次Accept list接收情況來看,本次共接收文章1470篇(有效提交總數為5865篇),接受率為22%,比2018年的29.6%和2019年的25%都有下降,堪稱CVPR史上最嚴的收稿會。由於疫情,本次會議需要線上舉行,項目主席Ce Liu很期待參會註冊人數能有較大增長,今年的註冊者,已經超過2018年參會註冊人數。
  • 家用智能投影儀哪款好:當貝投影儀系列
    近年來,智能投影儀市場發展迅速,有許多新興品牌加入。在投影儀的選購中一個重要的一點便是認準品牌。「家用智能投影儀哪款好」系列文章將會給大家列舉當前智能投影儀領域的主流品牌,給大家的選購提供一些便利。  1.
  • 家用智能投影儀哪款好:騰訊極光投影儀系列
    如今的智能投影領域品牌眾多、新品層出不窮,給不少想要購買投影儀的用戶帶來了產品選購上的麻煩。  「家用智能投影儀哪款好」這一系列文章將給大家介紹目前主流的智能投影儀品牌以及值得推薦的投影產品,希望能為消費者選購投影儀提供一些便利。  1.
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    2019 即將於 6 月在美國長灘召開。今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優圖實驗室 25 篇被錄用論文的詳細介紹。1.
  • 集成運放的表示符號及引出端
    (2)集成運放的引出端  集成運放共有5類引出端。  輸人端:即信號輸入端,它有兩個,通常用「+」表示同相端,用「-」表示反相端。  輸出端:即放大信號的輸出端,只有一個,通常為對地輸出電壓。  電源端:集成運放為有源器件,工作時必須外接電源。
  • 騰訊優圖學術再進階 論文入選計算機視覺領頂級會議CVPR 2018
    據外媒報導,即將在6月美國鹽湖城舉行的計算機視覺頂級會議CVPR 2018,騰訊優圖的其中兩篇入選論文,由於其較高的應用價值,受到學術界和產業界的關注。此次騰訊優圖入選的論文提出了諸多創新點,既是科研實力的體現,更挖掘出了更多可擴展應用技術,視覺AI有望為學術界和產業界帶來更多有價值的貢獻。