紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017

2020-12-06 雷鋒網

雷鋒網按:數據壓縮是一種基礎工程問題,在數據存儲和有限容量信道傳輸中有重要的應用。圖像作為一種信息載體,數據量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。通過一組測試圖像,該方法的表現通常比標準JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能。更重要的是,在所有比特率的所有圖像中,該方法都實現了顯著的視覺上質量的提升,這點也被客觀的質量評測方法MS-SSIM證明。

雷鋒網了解到該論文將會在2017年4月24號在ICLR會議上作為第一個Contributed talk討論。

以下為雷鋒網AI科技評論據論文內容進行的部分編譯。

論文摘要

數據壓縮是一種被充分研究的基礎工程問題,通常是為具有最小熵的給定離散數據集設計編碼。解決方案很大程度上依賴於數據概率結構的知識,因此問題與概率源建模密切相關。然而,由於所有的實際編碼一定具有有限的熵,連續值的數據(例如圖像像素強度的向量)必須被量化為離散的值,這就會導致誤差。在有損壓縮問題下,必須權衡兩種損失:離散化表示的熵(rate,壓縮率)和量化導致的誤差(distortion,失真)。不同的壓縮應用場景,比如數據存儲或者有限容量信道傳輸,需要不同的壓縮率與失真的權衡。

同時優化壓縮率和失真是困難的。在沒有額外的約束的情況下,在高維空間進行最優量化是很棘手的。由於這個原因,目前大多數的圖像壓縮方法將數據向量線性的變換成適當的連續值表示,獨立量化各個元素,然後使用無損熵編碼對所得到的離散表示進行編碼。,由於變換起到的至關重要的作用,這種方法被稱為變換編碼(transform coding)例如JPEG在分塊像素上使用了離散餘弦變換,JPEG 2000使用了多種尺度的正交小波分解。

研究人員基於非線性變換開發了一種端到端優化圖片壓縮的架構(如下圖所示)。這是一種通用的非線性變換編碼架構。一個圖像向量x,通過一個參數化的分析變換y=ga(x;Φ),映射到編碼空間(code space)中。這個表示被量化,產生一個離散值的向量q,接下來q被壓縮。而重建壓縮圖像則與之相反。對於其中的分析變換,研究人員使用了基於級聯的線性卷積層和非線性層的更靈活的變換,來優化均方誤差(mean squared error,MSE)。值得注意的是,研究者使用了generalized divisive normalization(GND)聯合非線性層,這對高斯圖像密度是很有效的,這是由生物視覺系統神經元所啟發的。

論文結果展示:

論文中,研究人員將他們的方法與兩個標準方法JPEG和JPEG 2000進行對比。得到結果如下:

下面是上圖圖像亮度分量的rate-distortion曲線,左側是感知質量,由多尺度結構相似性度量(MS-SSIM)。右側是峰值信噪比。

下圖為三種比特率下的圖像壓縮。從上到下分別是JPEG,論文中的方法,JPEG 2000,從左到右,比特率一步步增大。

論文中的方法相較於未壓縮的原圖細節較少,細節紋理和圖案大部分被消除了,但是保留了輪廓的平滑性以及邊緣的銳度,使得圖像擁有自然的感觀。相比之下,JPEG和JPEG 2000有明顯的人工痕跡,這也是所有線性變換編碼方法的問題:由於局部特徵(邊緣,輪廓,紋理元素等)是由局部線性基函數的組合表示的,變換係數的獨立標量量化導致這些組合不平衡,導致在視覺上反映出潛在的基函數,即圖像混疊和振鈴現象。

值得注意的是,該論文中的方法在所有測試圖像和所有比特率上,都有可察覺的優勢。上圖中顯示了從高到低比特率的過程。隨著比特率的降低,JPEG和JPEG 2000通過粗化線性基函數係數的精度來降低其對原始圖像的近似,因此暴露出這些基函數的視覺上的外觀。另一方面,論文中的方法逐漸簡化了輪廓和其他圖像特徵,有效隱藏了表示底層的量化。

ICLR評論

ICLR委員會最終決定

評價:這是我們接受的論文中最好的兩篇之一,我推薦它作為oral presentation。審稿人對這個主題相當的謹慎,並進行了深入的了解。

決定:接受(Oral)

非常好的論文

打分:9 分:在全部入選論文中排名Top 15%,強烈推薦

評論:這是我目前為止讀過的使用深度神經網絡進行圖像壓縮的最有說服力的論文。這篇文章寫得非常好,客觀評估中的rate-distortion理論非常好的契合了這個架構。該文章將結果於一個合理的基準進行對比(JPEG 2000,先前的文章僅僅與JPEG進行對比)。我希望這篇文章能夠有更深遠的影響。

希望能加入該方法在Lena/Barbare/Baboon圖像上的結果,並且與更多的效果最好的經典方法進行對比。能夠清晰地表現出神經網絡方法與先前最好地方法之間的不同是至關重要的。從目前提交版本的論文看來,我仍然不知道這兩個範疇的方法哪個更好。

有極好的性能,但是缺乏細節

:8分:在全部入選論文中排名Top 50%,確定接收

:本文將rate-distortion優化的方法拓展到深度編碼器和解碼器,並從簡單的熵編碼方法拓展到自適應熵編碼。此外,本文還討論了該方法和變分自動編碼器之間的關係。

由於rete-distortion優化的方法已經被出版過,這次遞交的文章的新穎性並不是非常高。在某些方面上,這篇文章甚至有退步,由於早期的工作是對perceptual metric進行優化,而這裡使用的是MSE。然而,結果很明顯的優於JPEG 2000,我並不知道目前有哪種其他的學習編碼器能夠達到這種層次的性能。這篇文章寫得非常好。

官方評論

:這是一篇很好的文章,它展示了一種端到端訓練的圖像壓縮和解壓系統,相比於目前的圖像壓縮算法(例如JPEG-2000)實現了更好的壓縮比和質量之間的權衡。除了展示了深度學習在新應用下的效率,該論文的一個關鍵性貢獻是一種差分形式的「rate」函數,作者展示了它可以被用來有效的訓練不同的rate-distortion權衡。我希望這種方法不僅僅應用在圖像壓縮方面發揮影響,一些其他的差分近似方法可能都會從中受益。

一個很好的文章,使用了有趣的前提,一些新穎的方法,得到了很好的結果

:8分:在全部入選論文中排名Top 50%,明確接受

:這個寫得很好的文章提供了一種端到端學習的方法進行圖像壓縮。通過優化rate-distortion性能,該方法能夠通過自然圖像數據集上的優化實現高效的圖像壓縮。

由於方法很有趣,結果吸引人,分析很透徹,因此我推薦接受這篇論文。

想要深入了解該論文中的方法的,請參考原論文:End-to-end Optimized Image Compression

相關焦點

  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • 圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...
    、深度學習等一些新的方式引入到圖像壓縮領域。   地址:http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#   摘要:我們展示了一種用於低碼率圖像壓縮的端到端可訓練圖像壓縮框架
  • 基於小波變換的JPEG2000圖像壓縮編碼系統的仿真與
    但由於有損壓縮的原因,傳統JPEG在許多對圖像質量要求較高的應用場合無法勝任。與傳統JPEG基於離散餘弦變換不同,JPEG2000基於離散小波變換,它不僅在壓縮性能方面明顯優於JPEG,還具有很多JPEG無法提供或無法有效提供的新功能,比如,同時支持有損和無損壓縮、大幅圖像的壓縮、漸進傳輸、感興趣區編碼、良好的魯棒性、碼流隨機訪問等。一個典型的JPEG2000的壓縮過程如圖1所示。
  • JPEG2000數據壓縮的FPGA實現
    為解決圖像數據的高壓縮性能問題,本文提出了基於JPEG2000標準的數據壓縮系統的FPGA實現方案。相對於軟體算法實現和其他硬體方法,採用FPGA硬體實現可降低系統複雜度提高性能。最終設計的IP核具有資源佔用少,性能良好和便於擴展等優點,能夠滿足通信傳輸和照相設備等應用需求。
  • 性能超越谷歌!依圖團隊提出新一代移動端網絡架構MobileNeXt
    最近,依圖團隊發表在ECCV的一篇論文,提出了新一代移動端神經網絡架構MobileNeXt,大大優於谷歌的MobileNet、何愷明團隊提出的ResNet等使用倒殘差結構的模型,為移動端算力帶來了新的突破。
  • 谷歌開源JPEG編碼器Guetzli,壓縮35%也能生成高質量圖片
    雷鋒網消息,谷歌近日開源了用於數字圖像和網絡圖形的JPEG編碼器 Guetzli( [guɛtsli], 在瑞士德語中被翻譯為餅乾)。與現有的方法相比,它能將高質量圖片的大小縮小35%。這就使網站管理員可以使用更少的數據更快地加載網頁,此外,它能兼容現有的瀏覽器、圖像處理應用和JPEG標準。
  • 今日Paper | COVID-19感染者篩查;生成式摘要;圖像融合數據集;端到...
    這篇論文首先提出了一種新的呼吸模擬模型,來彌補訓練數據不足的問題。隨後這篇論文首次利用雙向注意力機制的GRU模型來對6種臨床上重要的呼吸模式進行分類。這篇論文提出的方法可以拓展到大型的應用場景中,對現有的篩查方法形成補充。
  • 深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold
    id=S1eALyrYDH論文提出的端到端深度學習模型 E2Efold 可用於預測 RNA 二級結構,該模型能有效地考慮 RNA 二級結果計算預測問題中的固有約束條件。E2Efold 的核心思想是直接預測 RNA 鹼基配對矩陣,並能使用一個展開式算法進行約束編程以作為深度架構強制執行約束的模板。
  • 基於DSP Builder的JPEG靜態圖像壓縮算法的實現
    使用有損壓縮算法時,在壓縮比為25:1的情況下,壓縮後還原得到的圖像與原始圖像相比較,非圖像專家難於找出它們之間的區別,因此得到了廣泛的應用。例如,在VCD和DVD-Video電視圖像壓縮技術 中,就使用JPEG的有損壓縮算法來取消空間方向上的冗餘數據。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    (圖鴨科技憑藉在 CLIC 中 MOS 和 MS-SSIM 指標第一,在雷鋒網(公眾號:雷鋒網)學術頻道 AI 科技評論旗下資料庫項目「AI 影響因子」中增加 10 分。)CVPR 作為計算機視覺領域的全球頂級會議,其一直關注計算機視覺領域的發展,為了促進計算機視覺領域圖片壓縮的發展,Google 聯合 twitter、Netflix 等聯合贊助了機器學習圖像壓縮挑戰賽(CLIC)。
  • 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
    目前開發者可以使用非常多的移動端 CNN 架構,也可以在機器上訓練新穎的視覺模型並部署到手機端。但各種各樣的移動端任務可能並不能藉助已有的 CNN 架構達到非常好的效果,因此谷歌近日將神經架構搜索方法引入了輕量級的 CNN 網絡,並提出基於強化學習的 MnasNet 以自動設計移動端模型。
  • TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法
    該論文主要提出了一種基於強化學習的端到端主動目標跟蹤方法,通過自定義獎賞函數和環境增強技術在虛擬環境中訓練得到魯棒的主動跟蹤器,並在真實場景中對模型的泛化能力進行了進一步的驗證。簡介主動目標跟蹤是指智能體根據視覺觀測信息主動控制相機的移動,從而實現對目標物體的跟蹤(與目標保持特定距離)。
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    摘要:近年來隨著人工智慧技術的發展,基於深度學習的圖像壓縮技術已取得了飛速的發展。一個典型的基於深度學習的圖像壓縮框架包括:自編碼網絡結構設計、量化、碼率估計和率-失真優化等幾個模塊。本文將主要介紹圖鴨科技在 CVPR 2019 CLIC 圖像壓縮挑戰賽上的相關技術方案,針對於比賽所設置的低碼點和高碼點壓縮兩個賽道,我們基於變分自編碼網絡設計了可進行端到端優化的圖像壓縮方案。該方案包括一個非線性編碼網絡、軟量化模塊、一個非線性解碼網絡和一個熵估計模塊。我們技術方案的特色之處總結如下:1.
  • 一場深度學習引發的圖像壓縮革命
    在同等壓縮率下進行壓縮視覺效果對比時,TNG 在紋理細節上比 JPEG2000 的效果要好得多。圖 :在同等壓縮率下,對複雜圖像壓縮視覺效果對比。上圖為圖鴨所提出的算法,下圖為 JPEG2000 算法。可以看到上圖的細節效果更好。圖:在低碼字情況下 TNG(上圖) 與 WebP(下圖) 壓縮效果對比。
  • 你不了解的卷積神經網絡:新一代圖像視頻壓縮技術
    說到圖像壓縮算法,最典型的就是 JPEG、JPEG2000 等。圖 1:典型圖像壓縮算法 JPEG、JPEG2000 其中 JPEG 採用的是以離散餘弦轉換(Discrete Cosine Transform)為主的區塊編碼方式(如圖 2)。
  • 12倍端到端加速,陳天奇創業公司OctoML提克服二值網絡瓶頸新方法
    前段時間,該公司推出了第一個軟體即服務產品 Octimizer,可以幫助開發者更方便、快捷地將 ML 模型部署到設備上。近日,該公司官方博客又介紹了一種快速端到端二值神經網絡——Riptide,使用 TVM 進行優化時可以實現最高 12 倍的端到端加速。該公司機器學習系統工程師 Josh Fromm 在博客中介紹了 Riptide 的細節。
  • 剪枝需有的放矢,快手&羅切斯特大學提出基於能耗建模的模型壓縮
    作者:思源最近,快手 Y-Tech 西雅圖 AI lab 聯合羅切斯特大學等研究者提出了一種基於能耗建模的壓縮方法,他們一脈相承的兩篇論文分別被 ICLR 2019 和 CVPR 2019 接收。在這篇文章中,我們將介紹這種新型模型壓縮的核心思想及主要做法,神經網絡壓縮也許該走向有目標的前進之路了。
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    託馬斯·庫恩在其發表於 1962 年的經典著作《科學革命的結構》中提出的「範式轉換」一詞,如今已成為大家耳熟能詳的技術用語。大的「範式轉換」存在於基礎科學領域,小的「範式轉化」也存在於幾乎每個細分的技術領域。
  • 端到端聲源分離研究:現狀、進展和未來
    本文是由哥倫比亞大學博士生羅藝主講的『端到端聲源分離研究進展』整理而來。內容主要覆蓋了單通道和多通道上端到端音源分離的現狀和進展以及未來的研究方向。-本文約5580字,閱讀約需20min-端到端音源分離定義與進展什麼是端到端音源分離呢?羅藝老師首先介紹了端到端音源分離的定義。
  • 伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習
    然而,這種作法顯然無法讓此類機器人掌握一切新型任務,意味著我們在機器人領域廣泛採用強化學習技術時勢必面臨重大瓶頸,更遑論在缺乏傳感設置的開放世界環境中直接使用強化學習方法。為此,我們開發出一種端到端新方法,允許機器人從描述任務成功完成的適度數量圖像中學習,從而擺脫對手動獎勵工程的依賴性。