圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...

2020-12-07 騰訊網

  機器之心報導

  參與:曉坤、路

  CHALLENGE ON LEARNED IMAGE COMPRESSION 挑戰賽由 Google、Twitter、Amazon 等公司聯合贊助,是第一個由計算機視覺領域的會議發起的圖像壓縮挑戰賽,旨在將神經網絡、深度學習等一些新的方式引入到圖像壓縮領域。據 CVPR 大會官方介紹,此次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。

  不久之前,CLIC 挑戰賽比賽結果公布:在不同基準下,來自國內創業公司圖鴨科技的團隊 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上獲得第一名,騰訊音視頻實驗室和武漢大學陳震中教授聯合團隊 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指標上佔據領先優勢,位列第一。xvc,評分較高的團隊中,xvc 的解碼速度最快。

  比賽結果:http://www.compression.cc/results/

  在這篇文章中,我們對第一名圖鴨科技的解決方案進行了編譯介紹,內容採自論文《Variational Autoencoder for Low Bit-rate Image Compression》。

  論文:Variational Autoencoder for Low Bit-rate Image Compression

  地址:http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#

  摘要:我們展示了一種用於低碼率圖像壓縮的端到端可訓練圖像壓縮框架。我們的方法基於變分自編碼器,包含一個非線性編碼器變換、均勻量化器、非線性解碼器變換和後處理模塊。壓縮表徵的先驗概率通過使用超先驗自編碼器的拉普拉斯分布來建模,並與變換自編碼器進行聯合訓練。為了去除低碼率圖像的壓縮失真和模糊,我們提出了一種基於卷積的高效後處理模塊。最終,考慮到 CLIC 挑戰賽對碼率的限制,我們使用一個碼率控制算法來對每一個圖像自適應性地分配碼率。在驗證集和測試集上的實驗結果證明,使用感知損失訓練出的該優化框架能夠實現最優的 MS-SSIM 性能。結果還表明該後處理模塊可以提高基於深度學習的方法和傳統方法的壓縮性能,在碼率為 0.15 時最高 PSNR 達到 32.09。

  1. 引言

  近期,機器學習方法被應用於有損圖像壓縮,並利用自編碼器取得了很有潛力的結果。基於典型神經網絡的圖像壓縮框架由多個模塊構成,例如自編碼器、量化器(quantization)、先驗分布模型、碼率評估和率失真優化。自編碼器用於將圖像像素 x 轉換為編碼空間 y 中的數據,編碼空間由編碼器和解碼器構成。圖像的像素值通過編碼器轉換到編碼空間。之後,利用量化函數處理表徵 y,得到離散值向量。然後使用諸如算術編碼 [8] 這樣的熵編碼方法來無損壓縮,並生成用於傳輸的碼流。在接收到碼流之後,經過熵解碼的量化後的表徵使用解碼器被轉換回圖像空間。

  很明顯,表徵的先驗概率模型(也稱為熵模型)對於算術編碼很關鍵。的真實邊際概率(依賴於圖像分布)是未知的。因此我們通過先驗分布對它進行估計。先驗概率可以通過參數化模型形式化,並通過參數學習來擬合數據。給定熵模型,碼率的下界由的離散先驗分布的熵決定。由恰當設計的熵編碼得到的真實率僅稍微大於熵:

  。

  率失真優化的作用是在編碼長度 R 和原始圖像 x、重構圖像之間的失真 D 進行權衡。D 可以用均方誤差(MSE)建模:D=,或感知失真的度量例如 MS-SSIM [13]。很明顯,如果如果更加集中,則熵 R 更小,但網絡的表徵能力將退化,並且 D 可能會增加。因此我們以端到端的方式優化率和失真的加權和 R+λD。我們可以斷定先驗模型和量化的聯合優化在高效的壓縮系統中是最重要的技術。一方面,對量化後的表徵的先驗分布的準確估計有利於約束和 R 的真實邊際分布。另一方面,準確的先驗模型可以使適應性算術編碼在編碼和解碼過程中更加高效。

  本論文提出的圖像壓縮框架基於之前的方法 。與這些方法不同,我們設計了一個金字塔自編碼器和更高效的卷積結構,來提升壓縮性能。此外,我們使用參數化零均值拉普拉斯分布對壓縮表徵的先驗概率進行準確建模,該分布的參數通過超先驗自編碼器學習得到。考慮到如果該網絡只通過保持低碼率的像素相似度來學習,那麼圖像重建會遇到模糊的情況,對人眼的吸引力也會下降。因此我們使用一種基於 MS SSIM 的高效損失函數來衡量感知損失,訓練提高感知質量的壓縮編碼解碼器。最後,我們使用基於卷積的後處理模塊來提高圖像重建質量。考慮到該挑戰賽中對壓縮測試圖像和驗證圖像的限制是 0.15 bpp,因此我們設計碼率控制算法來為每個圖像選出最好的壓縮參數。

  2. 本論文提出的圖像壓縮框架

  圖 1:本論文使用的變分自編碼器架構圖示。卷積參數表示為:濾波器數量 × 卷積核高度 × 卷積核寬度/上(下)採樣步幅,其中 表示下採樣,表示上採樣。AE、AD 分別表示算術編碼器和算術解碼器。

  圖 2:超先驗自編碼器的架構展示。

  圖 3:(a)殘差塊。(b)兩個卷積層和 6 個殘差塊組成了後處理架構。

  3. 實驗結果

  表 1:在 CLIC 2018 驗證集上的評估結果。

  表 2:在 CLIC 2018 測試集上的評估結果。

  本文為機器之心報導,轉載請聯繫本公眾號獲得授權。

  ------------------------------------------------

相關焦點

  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    名次:1
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    AI 科技評論按:在 CVPR 2019 CLIC 圖像壓縮挑戰賽中,圖鴨科技所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項指標的冠軍,算法 TucodecPSNR 奪得了 PSNR 指標的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮 Transparent Track 的冠軍。以
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • CVPR 2018 圖像壓縮挑戰賽結果出爐,騰訊音視頻實驗室壓縮性能第一
    名次:1
  • 一場深度學習引發的圖像壓縮革命
    雷鋒網 AI 研習社按,2012 年,AlexNet 橫空出世,以 15.4% 的低失誤率奪得當年 ILSVRC(ImageNet 大規模視覺識別挑戰賽)冠軍,超出亞軍十多個百分點。近日,圖鴨科技發布圖像壓縮技術 TNG(tiny network graphics),其採用深度學習卷積網絡作為壓縮核心編碼。他們的合作對象主要集中在娛樂(在線抓娃娃機)、視頻社交(多人通信)、遊戲等領域,目前,該算法即將投入商用。與傳統算法相比較時,在壓縮效率上,TNG 相比 JPEG 提高了 120%,比 WEBP 提高了 30%。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017
    雷鋒網按:數據壓縮是一種基礎工程問題,在數據存儲和有限容量信道傳輸中有重要的應用。圖像作為一種信息載體,數據量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。
  • 阿里AI再獲圖像識別冠軍,可將深度學習算法壓縮100倍
    DoNews 7月30日消息(記者 趙晉傑)在CVPR 2019的低功耗圖像識別挑戰賽(LPIRC ,Low-Power Image Recognition Challenge)上,阿里AI獲得在線圖像分類任務第一名。這也意味著,阿里AI識別百萬圖像的算法,在手機上也能跑起來了。
  • 你不了解的卷積神經網絡:新一代圖像視頻壓縮技術
    說到圖像壓縮算法,最典型的就是 JPEG、JPEG2000 等。圖 1:典型圖像壓縮算法 JPEG、JPEG2000 其中 JPEG 採用的是以離散餘弦轉換(Discrete Cosine Transform)為主的區塊編碼方式(如圖 2)。
  • 今日Paper | COVID-19感染者篩查;生成式摘要;圖像融合數據集;端到...
    2.本文的創新點:基於生成式中目前探究的將文本內容選擇和摘要生成分開處理的問題,本文創新性的提出了一種用來將單句和成對句子映射到一個統一的空間進行排序的思想,採用當下最火爆的BERT模型來學習實例的特徵,將學到的表徵用一個分類任務來fine-tune生成對應的概率進行排序,然後根據這個排序,有針對性的選擇出摘要中有重要價值的單句和成對句子,最後通過對單個句子壓縮,其中在句子對融合時,作者選擇
  • 從CVPR到ICDAR 科大訊飛橫掃2019年度計算機視覺頂級會議多項冠軍
    從計算機視覺頂級會議CVPR的物體檢測挑戰賽DIW 2019到文檔分析與識別頂級會議ICDAR的手寫數學公式識別挑戰賽CROHME、場景文本視覺問答挑戰賽ST-VQA,這個6月不乏有一些計算機語言與人工智慧專業比賽陸續落幕。在這些行業賽事中,自然少不了科大訊飛的身影。
  • 看過CVPR 2018 workshop 後,發現有一個我不認識的 Lady Gaga
    從大會官網上可以看到,今年的 workshop 涉及到多個議題,比如偽裝人臉識別、低功耗圖像識別、圖像壓縮、系統魯棒性分析、自動駕駛、嵌入式視覺等等多個方面,而針對這些議題,也湧現出許多有意思的比賽。這些 workshop 上的比賽,或是有多個大公司贊助,或是極具新意,或是極具實用價值,雷鋒網 AI 研習社在篩選之後,為大家介紹如下幾個比賽。
  • 美圖影像實驗室MTlab斬獲2019 CVPR-NTIRE圖像增強比賽冠軍
    近日,NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges)比賽結果公布,美圖影像實驗室MTlab在圖像增強賽道(Image Enhancement Challenge)中斬獲冠軍
  • 由淺及深,細緻解讀圖像問答 VQA 2018 Challenge 冠軍模型 Pythia
    她的名字,被 Facebook AI Research 將賦給了在 VQA 2018 Challenge 上的冠軍模型。Pythia 以 VQA 2017 Challenge 的冠軍模型 Up-Down 為基本方法,輔助以了諸多工程細節上的調整,這使得 Pythia 較往年增加了約 2% 的性能提升(70.34% → 72.25%)。在這裡,我們將嘗試去解讀這個模型。
  • CVPR 2019 召開在即,亮風臺端到端的投影儀光學補償入選 oral 論文
    以下便是亮風臺對這篇論文的詳細解讀。《End-to-end Projector Photometric Compensation》的貢獻主要在以下幾點:1. 首次將投影儀光學補償問題闡述為一個端到端的深度學習問題,然後構造一個新穎的名為 CompenNet 的卷積神經網絡(CNN)來隱式的學習這個複雜的補償函數。2.
  • TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法
    雷鋒網 AI 科技評論按:本文是人工智慧頂級國際期刊 TPAMI 入選論文《End to end Active Object Tracking and Its Real world Deployment via Reinforcement Learning》的深入解讀,首發於北京大學前沿計算研究中心,雷鋒網 AI 科技評論獲其授權轉載。
  • 騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀
    科技評論按:CVPR 2018 將在美國鹽湖城舉行。騰訊優圖實驗室繼在 ICCV 有 12 篇論文被收錄(含 3 篇口頭報告)後,在今年的 CVPR 2018 上有多篇論文被錄用,也憑藉這一點在雷鋒網(公眾號:雷鋒網)學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中有相應展示。騰訊優圖團隊將對其中兩篇論文做詳細介紹,並簡要介紹其它論文。
  • 科大訊飛摘得ICFHR 2020數學公式識別挑戰賽冠軍
    提起科大訊飛,人們總津津樂道於「讓機器能聽會說」的先進智能語音技術。其實除此之外,科大訊飛的「攻城獅們」也一直致力於讓機器「能看會認」。近日,科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室,以顯著優勢獲得ICFHR 2020 OffRaSHME數學公式識別挑戰賽冠軍。
  • 魚躍醫療制氧機,工信部製造業單項冠軍
    製造業單項冠軍培育提升專項行動實施四年以來,先後遴選了4批共256家示範企業和161項冠軍產品。在工信部公示擬公布的《第四批及擬通過覆核的第一批製造業單項冠軍》名單中,魚躍醫療制氧機被認定為單項冠軍產品。榮獲這一殊榮的同時,魚躍醫療亦通過了工信部國家級工業設計中心的認定。
  • CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘
    曠視的參賽團隊來自南京研究院,細粒度圖像分析是其基礎研究方向之一,他們也涉獵小樣本、深度學習、物體檢測、圖卷積等領域。最終結果,曠視在 iNaturalist 挑戰賽上比第二、三名領先了一個身位。在另一個細粒度圖像識別的比賽 Herbarium Challenge(植物標本挑戰賽)中,參賽團隊需要從植物標本中鑑定開花植物物種(Melastomes),數據來自紐約植物園。曠視擊敗了去年的冠軍、今年的第二名大連理工。
  • 黃浴:基於深度學習的超解析度圖像技術發展軌跡一覽
    作者 | 黃浴轉載自知乎導讀:近年來,使用深度學習技術的圖像超解析度(SR)取得了顯著進步。本文中,奇點汽車自動駕駛首席科學家黃浴對基於深度學習技術的圖像超解析度技術進行了一次全面的總結,分析了這門技術近年來的發展軌跡。