天才高中生參與斯坦福新研究:在圖像壓縮上,人類比算法強!

2020-12-06 新智元

新智元報導

來源:techxplore、arXiv

編輯:大明、金磊

【新智元導讀】目前,圖像壓縮算法已然進入較為成熟階段。最近,來自斯坦福的工程師及其團隊三位高中生實習生共同完成的工作表明,在圖像壓縮方面,人類還是比算法強。

人類還是要比算法強!

我們可能經常會遇到類似這樣的一個場景:

你的朋友打算領養一隻狗,他給你發了一張照片,但是由於各種數據的限制,你只能看到一張比較模糊的照片。於是你的朋友又給你發了一個連結,點擊連結後,你就可以看到比較清晰的照片了。

像這樣發送連結,而不是上傳大量圖像,只是人們傳遞信息的一種技巧。而根據斯坦福工程師和高中生的研究,這樣的技巧可能會激發一種全新的圖像壓縮思路。

研究人員要求人們將傳統壓縮算法生成的圖像與人類在數據受限條件下生成的圖像進行比較。

結果表明,人類所做的工作要比算法處理的圖像好的多

正如論文作者Irena Fischer-Hwang說:

算法還有很長的路要走,可以從人類共享信息的方式中學到很多東西。

該項目是由電氣工程教授Tsachy Weissman以及三名在他實驗室實習的高中生合作完成。

論文地址:

https://arxiv.org/pdf/1810.11137.pdf

人類是如何在圖像壓縮上打敗算法的?

自電子媒體問世以來,圖像壓縮技術得到了廣泛研究,出現多種圖像格式和壓縮技術,如PNG、JPEG、JPEG2000、JPEG XR、BPG和WebP等。為了顯著縮小圖像尺寸,大多數壓縮技術在壓縮圖像時允許一些損失。

然而,所使用的損失函數不對應於人類感知,而且所得到的圖像在高損耗水平下可能會顯得模糊和不自然。如下圖左側所示,使用WebP進行壓縮和圖像重建會導致圖像嚴重模糊。

使用針對人類感知優化的損失函數可以實現更好的壓縮結果,這似乎是自然而然的想法。我們將這種損失函數稱為「以人為中心」的損失函數。圖1的右側所示為「以人為中心」的圖像重建實例,優先考慮圖像內容,而不是逐個像素上保留原圖像的紋理。實際上,目前計算機視覺領域已有大量工作,更好地理解人類的感知,形成一種基於人類視覺的損失函數。比如,人類視覺更容易受到強度差異而不是顏色的影響,壓縮算法在強度空間的量化上要比顏色空間更細緻,以此實現更好的壓縮性能。

圖1 長頸鹿圖像原圖(a)以及WebP重建(b)和類似大小的真人重建(c)

儘管如此,目前仍然缺乏一個準確總結人類感知損失的指標。為了評估以人為中心的損失函數的重要性,我們提出了由人類進行的圖像壓縮實驗的結果。在實驗中,兩個人通過文本聊天系統進行通信,其中一個人是「描述者」,負責通過文本指令將圖像描述給「重建者」。為了模仿人類基於記憶、位置、對象的知識來感知和識別場景的能力,本實驗允許描述者在文本聊天中以URL連結來引用來自網絡上的公開可用的圖像。

描述者還可以向重建者發送文本指令,以便幫助後者更好地接近描述者的圖像原貌。利用規模不斷擴大的公共圖像資料庫,本實驗旨在了解單邊信息環境中以人為中心的壓縮方式的局限性。

為了確定重建的質量,我們使用亞馬遜MTurk平臺徵求對重建圖像的意見。實驗中使用的框架中文本聊天的壓縮大小表示壓縮圖像的大小,MTurk分數可視作與人類壓縮相關聯的「損失」。在13種不同類型的高解析度圖像上呈現真人壓縮的結果表明,「真人」壓縮方案在13個圖像中的10個比WebP自動壓縮器表現出了更高的性能。

數據收集

實驗首先創建一個原始圖像的數據集,這些圖像並未在網絡上公開。原始圖像的創建以非原始圖片的精確副本實現,以防產生過於瑣碎的編碼。實驗使用數位相機或智慧型手機攝像頭以高解析度拍攝原始圖像。實驗中的描述者和重建者都不知道獲取了何種圖像(面部,風景,草圖等)。從這些圖像中為比較實驗選擇了13種不同的高解析度圖像。

關於圖像和其他詳細信息

見論文附錄和https://compression.stanford.edu/human-compression

實驗設置

簡單介紹一下評估真人壓縮和WebP圖像重建質量的實驗程序:

1.真人壓縮:輸入圖像首先由真人壓縮系統使用前文描述的過程進行壓縮和重建。記錄壓縮文本指令的大小(以字節為單位)。

2. WebP壓縮:WebP壓縮器用於將輸入圖像有損壓縮到與壓縮後的真人文本指令類似的大小。

3.質量評估:在MTurk平臺上使用人類評分員比較WebP和真人壓縮圖像的質量。

WebP壓縮

WebP 是谷歌發布的相對較新的圖像壓縮器。我們選擇WebP作為參考來比較真人壓縮的圖像重建質量,WebP在實驗實現方案的高壓縮水平下的性能優於JPEG和JPEG2000。如下圖所示。

即使使用WebP以最低允許質量級(質量參數設置為0)壓縮圖像,產生的壓縮文件大小也大於真人壓縮的文件。因此,我們首先在使用質量參數為0的WebP壓縮之前降低圖像的解析度以獲得符合目標大小的圖像,結果WebP端一直出錯,產生的文件比真人壓縮一方的文件要大。

原始圖像與WebP和真人壓縮後的圖像大小,以及MTurk平均分,較高分以粗體表示

在結果評估方面,使用Amazon Mechanical Turk(MTurk)上的人類評分員來比較壓縮圖像的質量。對於每個圖像都顯示原始圖像和重建後的圖像,並要求評分人員按1到10的分數對重建圖像進行評分。由於人類感知尚未被很好地理解或定義,我們的評分指標為圖像重建的「滿意度」,而不是像「精確度」這種特定指標。對於每個實驗和兩種類型的重建(真人壓縮和WebP),收集100個調查回復並匯總統計。

下圖所示為評分人員所見的MTurk調查的屏幕截圖。

人類壓縮方案能夠在壓縮過程中有效地利用語義相似的圖像。然而,大多數流行的壓縮器似乎沒有利用這種豐富的公共資源。

本文的實驗表明,有效地利用語義和結構相似的圖像(或圖像的部分)可以顯著提高壓縮比。這在當今尤其重要。

雖然真人壓縮框架可用作探索性工具,但由於其勞動密集型的性質,在實用性上顯得不足。 我們沒有以任何方式對壓縮協議進行優化,如果我們優化了協議,無疑可以獲得更好的壓縮和重建分數。

值得注意的是,每次圖像重建都需要幾個小時才能完成。英語冗餘會導致結果達不到最優,不過使用bzip2可以部分解決這個問題。此外,繪圖技巧、對基本圖像編輯軟體的使用技巧、重建者偶爾發出會導致誤解的描述性指令而導致的效率低下,對相似圖像進行手動搜索的困難,這些因素都會對結果產生影響。這些缺陷或不足的任何改進,都可以進一步改善圖像的重建質量。

參考連結:

https://arxiv.org/pdf/1810.11137.pdf

https://techxplore.com/news/2019-03-humans-compress-images-algorithms.html

相關焦點

  • 基於小波變換的圖像壓縮算法改進研究
    但是,隨著多媒體和網絡技術的快速發展和深入應用,海量的圖像信息與有限的存儲容量、有限的處理能力以及有限的網絡帶寬之間的矛盾日益突出。因此,圖像壓縮是必不可少的,同時,也已經成為了研究熱點。研究主要集中在兩個方向,一是通過減少各類冗餘信息以實現圖像壓縮;二是根據圖像數據分布情況及其出現頻率,確定合適的編碼方式,減少每個數據所佔的比特數,從而實現圖像壓縮。
  • 74KB圖片也高清,谷歌用神經網絡打造圖像壓縮新算法
    接近原圖的圖像重構算法此前,相關研究已有採用神經網絡進行圖像壓縮的算法,而隨著近年來生成式對抗網絡興起,採用GANs生成以假亂真圖像的算法也不在少數。如果能有辦法將二者結合,圖像壓縮的效果是不是會更好、更接近於人類的感知?
  • 基於小波變換的視頻圖像壓縮算法研究
    l 引 言 隨著網絡和多媒體技術的迅速發展,特別是3G技術的逐漸普及,多媒體信息特別是視頻圖像信息將越來越豐富。對數據量龐大的視頻圖像信息進行壓縮是非常必要的,因此視頻圖像的壓縮也一直吸引著廣大研究者進行不斷深入的探索。
  • 基於DSP Builder的JPEG靜態圖像壓縮算法的實現
    本文利用Altera公司推出的一個面向DSP開發的系統級設計工具DSP Builder,在深入研究JPEG算法原理的基礎上,設計了JPEG算法模型,並在Matalab/Simulink環境下進行了算法級仿真;最後將算法編譯下載到FPGA硬體上,利用DSP Builder的HIL(Hardware In Loop)功能,由Simulink通過下載電纜向硬體輸入測試數據,然後將測試結果送入
  • 研究發現:數據壓縮算法可以改變物理和生物學的計算
    有人可能會感到奇怪,上面提到的數據壓縮算法和熵這兩個不同概念,兩者看起來毫不相干,怎麼就連到了一起來了呢?現在,以色列特拉維夫大學(Tel Aviv University)的一項最新研究成果提出了一種非常簡單而有效的熵計算方法,這種方法很可能就存在於你的電腦裡的數據壓縮算法,就可以簡單而又方便地計算熵。這項研究成果發表在最近一期的《物理評論快報》上。
  • 你了解壓縮算法嗎?常見的壓縮算法都在這裡了
    此外,我們把相機拍完的照片保存到計算機上的時候,也會使用壓縮算法進行文件壓縮,文件壓縮的格式一般是JPEG。那麼什麼是壓縮算法呢?壓縮算法又是怎麼定義的呢?像這樣,把文件內容用 數據 * 重複次數 的形式來表示的壓縮方法成為 RLE(Run Length Encoding, 行程長度編碼) 算法。RLE 算法是一種很好的壓縮方法,經常用於壓縮傳真的圖像等。
  • 用循環神經網絡進行文件無損壓縮:史丹福大學提出DeepZip
    選自史丹福大學作者:Kedar Tatwawadi機器之心編譯參與:李澤南、黃小天神經網絡不僅可以分析、識別特徵,提出預測,還可以壓縮文件。史丹福大學的研究者最近提交的論文中,循環神經網絡捕捉長期依賴關係的優勢被用於無損壓縮任務中,這種被稱為 DeepZip 的技術已在文本和基因組數據文件中得到了實驗。研究人員稱,其結果頗具潛力。
  • 基於雙DSP的雷場偵察圖像實時壓縮及存儲方法研究
    將二者結合可使該系統充分體現新一代圖像壓縮系統更快速、更靈活的特點。  2 TMS320C62XX系列DSP的特點  根據圖像壓縮和存儲系統的特點,採用美國德州儀器(TI)公司的TMS320C62xx系列定點DSP作為核心處理器。其主頻為200 MHz~300 MHz,數據處理能力為1600 MI/s~2400 MI/s。
  • 一場深度學習引發的圖像壓縮革命
    近日,圖鴨科技發布圖像壓縮技術 TNG(tiny network graphics),其採用深度學習卷積網絡作為壓縮核心編碼。他們的合作對象主要集中在娛樂(在線抓娃娃機)、視頻社交(多人通信)、遊戲等領域,目前,該算法即將投入商用。與傳統算法相比較時,在壓縮效率上,TNG 相比 JPEG 提高了 120%,比 WEBP 提高了 30%。
  • 一種基於小波變換的圖像壓縮方法與實現
    解決問題的根本就是必須要對圖像信息進行壓縮處理,在保證一定圖像質量的基礎上,能用儘可能少的信息量表示重構的原始圖像,即用最少的信息還原出最近似原始圖像的重構圖像。圖像壓縮技術在20世紀60年代後開始發展起來,80年代小波變換的理論被提出後,圖像壓縮技術備受關注並成為熱門的研究技術。
  • CVPR 2018 圖像壓縮挑戰賽結果出爐,騰訊音視頻實驗室壓縮性能第一
    雷鋒網(公眾號:雷鋒網) AI 研習社按,CVPR 2018 圖像壓縮挑戰賽(CLIC)結果已經出爐,騰訊音視頻實驗室和武漢大學陳震中教授聯合團隊於該項挑戰賽上取得壓縮性能第一
  • 你不了解的卷積神經網絡:新一代圖像視頻壓縮技術
    說到圖像壓縮算法,最典型的就是 JPEG、JPEG2000 等。圖 1:典型圖像壓縮算法 JPEG、JPEG2000 其中 JPEG 採用的是以離散餘弦轉換(Discrete Cosine Transform)為主的區塊編碼方式(如圖 2)。
  • 朱俊彥團隊提出GAN壓縮算法:計算量減少20倍,GPU、CPU統統能加速
    為了解決這一問題,來自MIT、Adobe研究院和上海交通大學的團隊琢磨出了一個通用壓縮框架。有多強?作者團隊也星光璀璨,一作是來自上海交通大學ACM班的本科生李沐陽,CycleGAN的作者朱俊彥則親身參與、指導。GAN壓縮算法壓縮GAN,並不像壓縮其他CNN模型那樣容易。
  • 常用數據無損壓縮算法分析
    事實上,從壓縮軟體WINRAR到熟知的MP3,數據壓縮技術早已應用於各個領域。2 數據壓縮技術概述 本質上壓縮數據是因為數據自身具有冗餘性。數據壓縮是利用各種算法將數據冗餘壓縮到最小,並儘可能地減少失真,從而提高傳輸效率和節約存儲空間。 數據壓縮技術一般分為有損壓縮和無損壓縮。
  • 基於FPGA的無損圖像壓縮系統設計
    編者按:  摘要:本文簡要介紹了圖像壓縮的重要性和常用的無損圖像壓縮算法,分析了快速高效無損圖像壓縮算法(FELICS)的優勢,隨後詳細分析了該算法的編碼步驟和硬體實現方案,最後公布了基於該方案的FPGA性能指標。
  • Shearlet變換域內容自適應圖像水印算法
    數字水印作為保護數字媒體信息安全的有效方法引起了人們廣泛關注,成為信息安全領域一個新的研究熱點[1-2]。 水印嵌入算法包括空域水印、頻域水印兩類算法。頻域水印包括DCT域、Wavelet變換域、Ridgelet變換域等[3-6]。
  • 基於小波變換的JPEG2000圖像壓縮編碼系統的仿真與
    JPEG2000的量化與JPEG量化基本相同,總體上都是採用均勻量化,不同子帶的量化步長一般不同。量化以後,第一層編碼(自適應算術編碼)採用EZW的改進算法SPIHT算法將等待編碼的、經過小波變換後的比特流按重要性不同進行排序,提供多個滿足不同目標碼率或失真度的截斷點,使得解碼器方能根據目標碼率或失真度的要求在某一截斷點結束解碼,提供相應質量的圖像。
  • 基於小波包變換和壓縮感知的人臉識別算法
    壓縮感知理論的出現和發展,給人臉識別帶來了新的啟發,使得基於稀疏表示的人臉識別技術得到了廣泛研究。傳統的基於稀疏表示的人臉識別是利用壓縮感知超完備庫下的稀疏表示,將訓練圖片直接構造為冗餘字典,再求解重構算法下的最優稀疏線性組合係數,然後根據這些係數來對人臉圖像進行分類。
  • 初識壓縮感知Compressive Sensing
    (2)陶哲軒,是這個世界上最聰明的人,他怎麼會關注到CS呢?陶哲軒是這個世界上搞調和分析的頂尖高手之一(當然他別的方面也很厲害)。 壓縮感知的發現是一次意外,話說一天,當時是加州理工學院教授(現在去了斯坦福)的Emmanuel Candès在研究名叫Shepp-Logan Phantom的圖像,這種標準圖像常被計算機科學家和工程師測試圖像算法。
  • 阿里AI再獲圖像識別冠軍,可將深度學習算法壓縮100倍
    DoNews 7月30日消息(記者 趙晉傑)在CVPR 2019的低功耗圖像識別挑戰賽(LPIRC ,Low-Power Image Recognition Challenge)上,阿里AI獲得在線圖像分類任務第一名。這也意味著,阿里AI識別百萬圖像的算法,在手機上也能跑起來了。