紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017

2021-01-10 雷鋒網

雷鋒網按:數據壓縮是一種基礎工程問題,在數據存儲和有限容量信道傳輸中有重要的應用。圖像作為一種信息載體,數據量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。通過一組測試圖像,該方法的表現通常比標準JPEG和JPEG 2000壓縮方法有更好的rate-distortion性能。更重要的是,在所有比特率的所有圖像中,該方法都實現了顯著的視覺上質量的提升,這點也被客觀的質量評測方法MS-SSIM證明。

雷鋒網了解到該論文將會在2017年4月24號在ICLR會議上作為第一個Contributed talk討論。

以下為雷鋒網AI科技評論據論文內容進行的部分編譯。

論文摘要

數據壓縮是一種被充分研究的基礎工程問題,通常是為具有最小熵的給定離散數據集設計編碼。解決方案很大程度上依賴於數據概率結構的知識,因此問題與概率源建模密切相關。然而,由於所有的實際編碼一定具有有限的熵,連續值的數據(例如圖像像素強度的向量)必須被量化為離散的值,這就會導致誤差。在有損壓縮問題下,必須權衡兩種損失:離散化表示的熵(rate,壓縮率)和量化導致的誤差(distortion,失真)。不同的壓縮應用場景,比如數據存儲或者有限容量信道傳輸,需要不同的壓縮率與失真的權衡。

同時優化壓縮率和失真是困難的。在沒有額外的約束的情況下,在高維空間進行最優量化是很棘手的。由於這個原因,目前大多數的圖像壓縮方法將數據向量線性的變換成適當的連續值表示,獨立量化各個元素,然後使用無損熵編碼對所得到的離散表示進行編碼。,由於變換起到的至關重要的作用,這種方法被稱為變換編碼(transform coding)例如JPEG在分塊像素上使用了離散餘弦變換,JPEG 2000使用了多種尺度的正交小波分解。

研究人員基於非線性變換開發了一種端到端優化圖片壓縮的架構(如下圖所示)。這是一種通用的非線性變換編碼架構。一個圖像向量x,通過一個參數化的分析變換y=ga(x;Φ),映射到編碼空間(code space)中。這個表示被量化,產生一個離散值的向量q,接下來q被壓縮。而重建壓縮圖像則與之相反。對於其中的分析變換,研究人員使用了基於級聯的線性卷積層和非線性層的更靈活的變換,來優化均方誤差(mean squared error,MSE)。值得注意的是,研究者使用了generalized divisive normalization(GND)聯合非線性層,這對高斯圖像密度是很有效的,這是由生物視覺系統神經元所啟發的。

論文結果展示:

論文中,研究人員將他們的方法與兩個標準方法JPEG和JPEG 2000進行對比。得到結果如下:

下面是上圖圖像亮度分量的rate-distortion曲線,左側是感知質量,由多尺度結構相似性度量(MS-SSIM)。右側是峰值信噪比。

下圖為三種比特率下的圖像壓縮。從上到下分別是JPEG,論文中的方法,JPEG 2000,從左到右,比特率一步步增大。

論文中的方法相較於未壓縮的原圖細節較少,細節紋理和圖案大部分被消除了,但是保留了輪廓的平滑性以及邊緣的銳度,使得圖像擁有自然的感觀。相比之下,JPEG和JPEG 2000有明顯的人工痕跡,這也是所有線性變換編碼方法的問題:由於局部特徵(邊緣,輪廓,紋理元素等)是由局部線性基函數的組合表示的,變換係數的獨立標量量化導致這些組合不平衡,導致在視覺上反映出潛在的基函數,即圖像混疊和振鈴現象。

值得注意的是,該論文中的方法在所有測試圖像和所有比特率上,都有可察覺的優勢。上圖中顯示了從高到低比特率的過程。隨著比特率的降低,JPEG和JPEG 2000通過粗化線性基函數係數的精度來降低其對原始圖像的近似,因此暴露出這些基函數的視覺上的外觀。另一方面,論文中的方法逐漸簡化了輪廓和其他圖像特徵,有效隱藏了表示底層的量化。

ICLR評論

ICLR委員會最終決定

評價:這是我們接受的論文中最好的兩篇之一,我推薦它作為oral presentation。審稿人對這個主題相當的謹慎,並進行了深入的了解。

決定:接受(Oral)

非常好的論文

打分:9 分:在全部入選論文中排名Top 15%,強烈推薦

評論:這是我目前為止讀過的使用深度神經網絡進行圖像壓縮的最有說服力的論文。這篇文章寫得非常好,客觀評估中的rate-distortion理論非常好的契合了這個架構。該文章將結果於一個合理的基準進行對比(JPEG 2000,先前的文章僅僅與JPEG進行對比)。我希望這篇文章能夠有更深遠的影響。

希望能加入該方法在Lena/Barbare/Baboon圖像上的結果,並且與更多的效果最好的經典方法進行對比。能夠清晰地表現出神經網絡方法與先前最好地方法之間的不同是至關重要的。從目前提交版本的論文看來,我仍然不知道這兩個範疇的方法哪個更好。

有極好的性能,但是缺乏細節

:8分:在全部入選論文中排名Top 50%,確定接收

:本文將rate-distortion優化的方法拓展到深度編碼器和解碼器,並從簡單的熵編碼方法拓展到自適應熵編碼。此外,本文還討論了該方法和變分自動編碼器之間的關係。

由於rete-distortion優化的方法已經被出版過,這次遞交的文章的新穎性並不是非常高。在某些方面上,這篇文章甚至有退步,由於早期的工作是對perceptual metric進行優化,而這裡使用的是MSE。然而,結果很明顯的優於JPEG 2000,我並不知道目前有哪種其他的學習編碼器能夠達到這種層次的性能。這篇文章寫得非常好。

官方評論

:這是一篇很好的文章,它展示了一種端到端訓練的圖像壓縮和解壓系統,相比於目前的圖像壓縮算法(例如JPEG-2000)實現了更好的壓縮比和質量之間的權衡。除了展示了深度學習在新應用下的效率,該論文的一個關鍵性貢獻是一種差分形式的「rate」函數,作者展示了它可以被用來有效的訓練不同的rate-distortion權衡。我希望這種方法不僅僅應用在圖像壓縮方面發揮影響,一些其他的差分近似方法可能都會從中受益。

一個很好的文章,使用了有趣的前提,一些新穎的方法,得到了很好的結果

:8分:在全部入選論文中排名Top 50%,明確接受

:這個寫得很好的文章提供了一種端到端學習的方法進行圖像壓縮。通過優化rate-distortion性能,該方法能夠通過自然圖像數據集上的優化實現高效的圖像壓縮。

由於方法很有趣,結果吸引人,分析很透徹,因此我推薦接受這篇論文。

想要深入了解該論文中的方法的,請參考原論文:End-to-end Optimized Image Compression

相關焦點

  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。這些變換是在卷積線性濾波器和非線性激活函數的三個連續階段中構建的。
  • JPEG落伍:全新圖片格式壓縮誕生:幾乎無人工痕跡
    在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。這種方法包含了三個過程,分別是:非線性分析變換,均勻量化器,以及非線性合成變換。
  • ...的高清圖像居然是端到端網絡生成的?GANs 自嘆不如 | ICCV 2017
    然而定睛一看,這樣的效果居然是一個單向的端到端網絡完成的!介紹這項成果的論文「Photographic Image Synthesis with Cascaded Refinement Networks」(用級聯優化網絡生成照片級圖像)已被 ICCV 2017 收錄,這篇論文是史丹福大學博士陳啟峰(第一作者)和英特爾實驗室視覺組主管 Vladlen Koltun 共同完成的;兩人此前也有合作。
  • 論文精讀 | LaneNet 端到端車道線檢測的實例分割方法
    在本文中,我們超越了上述限制,提出將車道檢測問題看作一個實例分割問題(其中每個車道都形成自己的實例)可以進行端到端的訓練。為了在裝配車道前對分段的車道實例進行參數化,我們應用了一個以圖像為條件的學習透視變換(不適用於固定的「鳥瞰」變換),這樣,我們確保了一種對道路變化具有魯棒性的車道匹配,不像現有的方法,依靠固定、預定義轉換的方法。
  • ESIR:通過迭代矯正圖像的端到端場景文本識別系統
    題目名為:通過迭代圖像矯正的端到端場景文本識別(ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification),原文連結為:https://www.researchgate.net/publication/332138404_ESIR_End-to-end_Scene_Text_Recognition_via_Iterative_Image_Rectification
  • CVPR 2018 | 騰訊AI Lab、MIT等提出可端到端學習視頻的運動表徵
    儘管端到端的特徵學習已經取得了重要的進展,但是人工設計的光流特徵仍然被廣泛用於各類視頻分析任務中。為了彌補這個不足,由來自騰訊 AI Lab、MIT、清華、史丹福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從數據中學習出類光流特徵並且能進行端到端訓練的神經網絡:TVNet。機器之心對本論文進行了摘要介紹,詳情請參閱原論文。
  • CVPR 2018 | 騰訊AI Lab、MIT等機構提出TVNet:可端到端學習視頻的運動表徵
    為了彌補這個不足,由來自騰訊 AI Lab、MIT、清華、史丹福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從數據中學習出類光流特徵並且能進行端到端訓練的神經網絡:TVNet。機器之心對本論文進行了摘要介紹,詳情請參閱原論文。另外,該研究成果的 TensorFlow 實現已經發布在 GitHub 上。
  • 斯坦福開源Weld:高效實現數據分析的端到端優化
    導讀:Weld 是史丹福大學 DAWN 實驗室的一個開源項目,在 CIDR 2017 論文中描述了它的初始原型。Weld 用於對結合了數據科學庫和函數的現有工作負載進行優化,而無需用戶修改代碼。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    摘要:最近機器學習的方法被廣泛應用到有損圖像壓縮設計中,基於自編碼網絡的算法取得了非常好的算法性能。一個典型的基於神經網絡的圖像壓縮框架包括:自編碼網絡結構、量化、先驗概率模型、碼率估計和率-失真優化等幾個模塊。本文中我們提出了一種可用於低碼率圖像壓縮,並可進行端到端優化的圖像壓縮框架。
  • 端到端問答新突破:百度提出RocketQA,登頂MSMARCO榜首
    百度從面向端到端問答的檢索模型出發,提出了RocketQA訓練方法,大幅提升了對偶式檢索模型的效果,為實現端到端問答邁出了重要的一步。RocketQA已逐步應用在百度搜索、廣告等核心業務中,並將在更多場景中發揮作用。
  • DeepMind端到端對抗語音合成
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括哈佛大學首屆計算機科學傑出博士論文,以及DeepMind提出的端到端對抗語音生成。
  • 【第1673期】 圖像優化自動化實用指南
    通過把數位相機或編輯器添加的EXIF數據刪除,優化圖像的Huffman表或重新掃描圖像,都可以實現無損JPEG優化。像jpegtran這樣的工具通過重新排列壓縮數據而不會降低圖像質量來實現無損壓縮。jpegrescan、jpegoptim和mozjpeg(我們將在稍後介紹)也支持JPEG無損壓縮。
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    摘要:近年來隨著人工智慧技術的發展,基於深度學習的圖像壓縮技術已取得了飛速的發展。一個典型的基於深度學習的圖像壓縮框架包括:自編碼網絡結構設計、量化、碼率估計和率-失真優化等幾個模塊。本文將主要介紹圖鴨科技在 CVPR 2019 CLIC 圖像壓縮挑戰賽上的相關技術方案,針對於比賽所設置的低碼點和高碼點壓縮兩個賽道,我們基於變分自編碼網絡設計了可進行端到端優化的圖像壓縮方案。該方案包括一個非線性編碼網絡、軟量化模塊、一個非線性解碼網絡和一個熵估計模塊。我們技術方案的特色之處總結如下:1.
  • 帶你讀論文 | 端到端語音識別模型
    隨著端到端神經網絡在機器翻譯、語音生成等方面的進展,端到端的語音識別也達到了和傳統方法可比的性能。不同於傳統方法將語音識別任務分解為多個子任務(詞彙模型,聲學模型和語言模型),端到端的語音識別模型基於梅爾語譜作為輸入,能夠直接產生對應的自然語言文本,大大簡化了模型的訓練過程,從而越來越受到學術界和產業界的關注。
  • 全景分割這一年,端到端之路
    最後,文章還給出了兩個潛在的研究方向為後面的研究者提供參考,一是研究端到端的全景分割模型;二是研究如何更好的將語義分割與實例分割模型結合的算法。JSIS-Net:端到端的嘗試今年 9 月,埃因霍芬理工大學的團隊使用共享的特徵提取器,提出了聯合語義與實例分割來得到全景分割的方法(a Joint Semantic
  • mozjpeg 2.0 發布,提升 JPEG 壓縮率 - OSCHINA - 中文開源技術...
    Mozilla 發布了 mozjpeg 的2.0版本,與標準JPEG庫相比,這款JPEG編碼器現已能夠平均減少5%
  • 詳解Kafka端到端的延遲
    如果生產者也開啟了壓縮(compression.type),Kafka的生產者會將已完成的batch進行壓縮。在batch完成之前,它的大小時根據生產者指定的壓縮類型和之前觀測到的壓縮比率估算出來的。不過,無論我們如何配置生產者的acks參數,publish和commit時間總是端到端延遲的一部分。消費者延遲(Consumer latency)是指消費者發起一個fetch請求到broker節點,以及broker節點向consumer返迴響應的時間。計算方法是KafkaConsumer.poll()返回的時間。Consumer的延遲主要包含了上圖中的fetch time。
  • 雲從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor
    在深度學習技術發展之前,傳統 OCR 的文本檢測依賴於一些淺層次的圖像處理方法或者圖像分割方法以及一些複雜繁瑣的後處理技術進行文字定位,譬如早期基於二值化的連通域提取,或者後期基於極大穩定區域的字符區域提取,之後再配合這些被提取區域進行一系列的連接操作來完成最終的文本定位。因為這些技術的使用,傳統 OCR 所處理的對象往往局限於成像清晰,背景乾淨,字體簡單而同時又排列規整的文檔圖像。
  • 利用深度學習實現圖像壓縮
    基於資訊理論的這些理論支持,大佬Balle等人認為,常見的深度學習壓縮圖像的方法,只是利用CNN等進行了降維(reduced-dimensionality)而非真的削減了信息量。這些方法利用自編碼器擬合一個非線性的函數,將圖片投影到隱空間,然後通過解碼器復原。
  • 論文推薦|[IEEE TIP 2020]EraseNet:端到端的真實場景文本擦除方法
    該論文主要針對場景文字擦除的問題,首先從已有的場景文字檢測與識別的公開數據集收集圖片,通過人工標註構建了文字擦除的資料庫SCUT-EnsText,並提出了EraseNet文字擦除模型,可以在整圖級別不需要文本位置信息的先驗下對場景中的文字進行擦除,最後也在該數據集以及之前在[1]提出的合成數據集上與之前方法進行了實驗對比,驗證了我們方法的有效性,建立了場景文字擦除問題的基準(Benchmark),以便於後續研究工作的開展