74KB圖片也高清,谷歌用神經網絡打造圖像壓縮新算法

2021-01-17 量子位

蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI

還在為圖像加載犯愁嗎?

最新的好消息是,谷歌團隊採用了一種GANs與基於神經網絡的壓縮算法相結合的圖像壓縮方式HiFiC,在碼率高度壓縮的情況下,仍能對圖像高保真還原。

GAN(Generative Adversarial Networks,生成式對抗網絡)顧名思義,系統讓兩個神經網絡相互「磨鍊」,一個神經網絡負責生成接近真實的數據,另一個神經網絡負責區分真實數據與生成的數據。簡單來說,就是一個神經網絡「造假」,另一個神經網絡「打假」,而當系統達到平衡時,生成的數據看起來便會非常接近真實數據,達到「以假亂真」的效果。

下面是這種算法展現出來的圖像與JPG格式圖像的對比。

可見,在圖像大小接近的情況下(HiFiC大小74kB,JPG圖像大小78kB),算法所展現出來的圖像壓縮效果要好得多。

而在與原圖進行對比時,HiFiC所展現出來的還原效果仍然非常優秀。(真的不是在原圖中間畫了條線嗎?)

目前處於特殊時期,大量國外網友仍在家中隔離,Netflix和油管的播放量暴增,一些視頻網站甚至不得不被迫降低視頻在線播放的清晰度,以適應激增的數據量。

但看慣了高清視頻的網友們,面對突如其來的「模糊打擊」自然怨聲載道。

用一位網友的話來說,如果視頻行業也能被應用類似的技術,相信Netflix和油管會特別高興,畢竟這種高清低碼率的圖像復原實在太誘惑。

哇,如果他們可以對視頻做同樣的事情的話,我相信Netflix和YouTube會很高興的。

事實上,在了解HiFiC算法的原理後,會發現它的確不難實現。

接近原圖的圖像重構算法

此前,相關研究已有採用神經網絡進行圖像壓縮的算法,而隨著近年來生成式對抗網絡興起,採用GANs生成以假亂真圖像的算法也不在少數。

如果能有辦法將二者結合,圖像壓縮的效果是不是會更好、更接近於人類的感知?

這次圖像壓縮的模型便是基於二者的特性設計,在基於神經網絡的壓縮圖像算法基礎上,採用GANs進一步讓生成的圖片更接近於人類視覺,在圖像大小和視覺感知間達到一個平衡。

可以看見,HiFiC的架構被分成了4個主要部分,其中E為編碼器,G為生成器,D為判別器,而P則是E的輸出E(x)的概率模型(這裡用y表示),也就是P用於模擬y的概率分布。

GANs運作的核心思想在於,需要讓架構中的生成器G通過某種方法,「欺騙」判別器D判定樣本為真。

而概率模型P,則是達成這步操作的條件。

然後,將E、G、P參數化為卷積神經網絡,這樣就可以通過率失真優化的條件,對這些網絡進行共同訓練。

同時,研究者也對已有的幾種GANs算法架構進行了微調,使其更適於HiFiC架構。

研究發現,將GANs與深度學習相結合的HiFiC算法取得了意想不到的效果。

模型評估

下圖是採用目前幾種主流圖像質量評估標準,對幾種前沿的圖像壓縮算法與HiFiC算法進行比較的結果。

在圖中,評估標準後面自帶的箭頭,表示數據更低(↓)或數據更高(↑)表示圖像質量更好。

為了更好地對比,結果分別採用了HiFiC算法(圖中紅點連線)、不帶GANs的對比算法(圖中橙方連線)、目前較為前沿的M&S算法(圖中藍方連線)和BPG算法(圖中藍點連線)。

從結果來看,HiFiC算法在FID、KID、NIQE、LPIPS幾種評估標準均為最優,而在MS-SSIM和PSNR標準中表現一般。

由評估標準間的差異可見,各項圖像質量標準不一定是判斷壓縮技術的最好辦法。

用戶評測對比

畢竟,圖像是用來看的,最終的判斷權還得交回用戶手裡。

圖像究竟是否「清晰」,某種程度上得通過人眼的判斷來決定。

出於這個考慮,團隊採取了調研模式,讓一部分志願者參與算法的比較。

他們先展示一張測試圖片的隨機裁切圖樣,當志願者對其中某張裁切圖樣感興趣時,便用這一部分來進行所有算法的對比。

志願者將原圖與經過算法處理後的圖像對比後,選出他們認為「視覺上」更接近於原圖的壓縮算法。

在所有算法經過選取後,將會出現一個排名,以衡量HiFiC的實際效果。(其中,HiFiC的角標Hi、Mi和Lo分別為設置由高至低3種不同碼率閾值時的算法)

上圖中,評分越低,則代表圖像在用戶眼中「越清晰」。從圖中來看,HiFiC(Mi)在0.237bpp的壓縮效果下,甚至比兩倍碼率的0.504bpp的BPG算法在用戶眼裡還要更好。

即使壓縮效果達到了0.120bpp,也比0.390bpp的BPG算法更好。

這項研究再次推動了圖像壓縮技術的發展,正如網友所說,隨著圖像壓縮技術的發展,在線看4k電影也許真能實現。

作者介紹

Fabian Mentzer,目前在瑞士蘇黎世理工學院進行計算機視覺研究,感興趣的研究方向有深度學習、圖像壓縮、前饋神經網絡、圖像分類等。

這篇論文的主要工作由Fabian Mentzer在谷歌研習期間完成,其餘三位作者均來自谷歌團隊。

目前有關這個項目的原始碼和訓練好的模型也即將放出,小夥伴們可以戳下方傳送門查看最新進展。

傳送門

項目地址:https://hific.github.io/

相關焦點

  • 谷歌開源JPEG編碼器Guetzli,壓縮35%也能生成高質量圖片
    雷鋒網消息,谷歌近日開源了用於數字圖像和網絡圖形的JPEG編碼器 Guetzli( [guɛtsli], 在瑞士德語中被翻譯為餅乾)。與現有的方法相比,它能將高質量圖片的大小縮小35%。這就使網站管理員可以使用更少的數據更快地加載網頁,此外,它能兼容現有的瀏覽器、圖像處理應用和JPEG標準。
  • 神經網絡算法原理_神經網絡算法的應用_神經網絡算法實例說明
    神經網絡算法原理   由於神經網絡算法的設計面太大,我們此處暫且只分析Microsoft神經網絡算法的原理,在Microsoft神經網絡算法中,我們可以簡化成下面這個圖片:   我們也會看到,探索人腦功能和神經網絡的研究將伴隨著重重困難的克服而日新月異。   儘管神經網絡現在已經被廣泛用於語音識別領域,但是其用途肯定不限於此。下一步,神經網絡最有可能進入圖像軟體領域。與分辨聲音的過程類似,神經網絡在分析圖像時,每一層的圖像探測器會首先尋找圖像中的一些特徵,例如圖像的邊緣。
  • 你不了解的卷積神經網絡:新一代圖像視頻壓縮技術
    在圖片、視頻壓縮領域,使用最多的深度學習技術就是卷積神經網絡(CNN),下面會就卷積神經網絡進行簡單介紹。如圖 3 所顯示,像搭積木一樣,一個卷積神經網絡由卷積、池化、非線性函數、歸一化層等模塊組成。最終的輸出根據應用而定,如在人臉識別領域,我們可以用它來提取一串數字(專業術語稱為特徵)來表示一幅人臉圖片。然後通過比較特徵的異同進行人臉識別。
  • 天才高中生參與斯坦福新研究:在圖像壓縮上,人類比算法強!
    >【新智元導讀】目前,圖像壓縮算法已然進入較為成熟階段。像這樣發送連結,而不是上傳大量圖像,只是人們傳遞信息的一種技巧。而根據斯坦福工程師和高中生的研究,這樣的技巧可能會激發一種全新的圖像壓縮思路。研究人員要求人們將傳統壓縮算法生成的圖像與人類在數據受限條件下生成的圖像進行比較。
  • AutoML新進展:用進化算法發現神經網絡架構
    理想情況下,人們希望有一個自動化的方法可以為任何給定的任務生成正確的網絡結構。  生成這些網絡結構的方法之一是通過使用演化算法。傳統的拓撲學研究已經為這個任務奠定了基礎,使我們現如今能夠大規模應用這些算法,許多科研團隊正在研究這個課題,包括OpenAI、Uber實驗室、Sentient驗室和DeepMind。當然,谷歌大腦也一直在思考自動學習(AutoML)的工作。
  • 一場深度學習引發的圖像壓縮革命
    WEBP 是 Google 推出的新一代文件格式,期望代替 JPEG,在與 JPEG 相同圖片質量的情況下,可以大大縮小文件大小。WEBP 採用一種基於 VP8 編碼(已於 2010 年 5 月開源)的圖片壓縮器,利用預測編碼技術,達到減少數據量、加速網絡傳輸的目的。
  • 谷歌AutoML新進展,進化算法加持,僅用數學運算自動找出ML算法
    從零開始學習算法的早期研究主要聚焦算法的一個方面(如學習規則),以減少搜索空間和計算量。但自 20 世紀 90 年代後這類研究逐漸冷門,直到現在才重新得到重視。2018 年 3 月,谷歌大腦團隊即進行相關研究,使用進化的 AutoML 來發現神經網絡架構。如今,谷歌將這項研究進一步擴展,證明從零開始進化 ML 算法是有可能的。
  • 谷歌街景畫質大提升:全景圖像不再撕裂-谷歌,如何,改進,街景,全景...
    谷歌地圖可以說是谷歌最受歡迎的應用了,而其中的街景功能則是它受人喜愛的原因之一。很多人已經習慣了用谷歌地圖查詢地址,用街景功能查看地點實景圖,甚至可以把附近的街道全景看個遍,可以說是非常實用的功能。雷鋒網了解到,谷歌的街景是由無數的全景圖拼接形成的。而拍攝工作則是由一輛專業拍攝車完成。
  • 今日Paper|可視問答模型;神經風格差異轉移;圖像壓縮系統;K-SVD...
    目錄準確性與複雜性:可視問答模型中的一種權衡神經風格差異轉移及其在字體生成中的應用基於GAN的可調整的圖像壓縮系統基於原始-對偶活動集算法的K-SVDfrom=leiphonecolumn_paperreview0211推薦原因這篇論文了介紹一種自動創建字體的方法,找到兩種不同字體之間的字體樣式差異,並使用神經樣式轉移將其轉換為另一種字體。這篇論文提出了一種新的神經風格差異和內容差異損失神經風格轉移方法。根據這些損失,可通過在字體中添加或刪除字體樣式來生成新字體。
  • 谷歌開放Inception-ResNet-v2:一種新的圖像分類卷積神經網絡模型
    昨天,谷歌宣布開放 TF-Slim,這是一個在 TensorFlow 中定義、訓練、和評估模型的輕量軟體包,同時它還能對圖像分類領域中的數個有競爭力的網絡進行檢驗與模型定義。今天,谷歌再次宣布開放 Inception-ResNet-v2,一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。文中提到的論文可點擊「閱讀原文」進行下載。為了在該領域取得更多進展,今天我們非常高興的宣布開放 Inception-ResNet-v2,這是一個在 ILSVRC 圖像分類基準上取得頂尖準確率的卷積神經網絡。
  • 告別調參煉丹,谷歌「權重無關」神經網絡開源了!
    其關鍵思想是通過不再強調權重來搜索網絡結構,僅使用隨機共享的權重,也可以執行各種任務的神經網絡。終於可以不用調參煉丹了嗎?快來復現看看! 神經網絡訓練中 「權重」 有多重要不言而喻。但谷歌前段時間發表的研究表明,即使拋棄神經網絡權重訓練,使用隨機共享權重,也可以執行各種任務。
  • 深度學習:神經網絡算法的昨天、今天和明天
    相反,它的工作完全依賴於人類對算法的設計。深度學習從誕生到爆發用了大約五十年。從其發展歷程,我們可以窺見計算機科學家們的步步巧思,並從中探討其可能的發展方向。一、什麼是深度學習深度學習就是人工神經網絡(Artificial Neural Network)。神經網絡算法得名於其對於動物神經元傳遞信息方式的模擬,而深度學習這一「俗稱」又來自於多層級聯的神經元:眾多的層讓信息的傳遞實現了「深度」。
  • ICCV 2019 提前看|三篇論文,解讀神經網絡壓縮
    神經網絡壓縮方向是目前深度學習研究的一個熱門的方向,其主要的研究方向是壓縮,蒸餾,網絡架構搜索,量化等。在 ICCV2019 中,不少的研究單位和學者都發表了神經網絡壓縮方向的論文。本文主要以其中三篇論文來研究神經網絡壓縮的目前發展趨勢。
  • 基於小波變換的圖像壓縮算法改進研究
    但是,隨著多媒體和網絡技術的快速發展和深入應用,海量的圖像信息與有限的存儲容量、有限的處理能力以及有限的網絡帶寬之間的矛盾日益突出。因此,圖像壓縮是必不可少的,同時,也已經成為了研究熱點。研究主要集中在兩個方向,一是通過減少各類冗餘信息以實現圖像壓縮;二是根據圖像數據分布情況及其出現頻率,確定合適的編碼方式,減少每個數據所佔的比特數,從而實現圖像壓縮。
  • 神經網絡學習降噪算法解析
    對攝影來說,我們的目的很單純:弱光高ISO拍攝的照片跟低ISO效果接近就行,這個或許硬體端很長時間甚至不可能達到境界,在當下的AI深度學習算法加持下,已經基本實現了……NVIDIA最近跟芬蘭阿爾託大學和美國麻省理工合作,使用Tesla P100 GPU集群,在谷歌TensorFlow學習系統下以cuDNN加速庫,專門針對圖像降噪領域進行了深度學習算法研究。
  • 「壓縮」會是機器學習的下一個殺手級應用嗎?
    目前還沒有足夠的計算能力所有這些基於機器學習的壓縮方法都需要相對較大的神經網絡,並且所需的計算量與像素數量成正比。這意味著高解析度圖像或者高幀率視頻需要更多的計算能力,可能遠遠超過當前行動電話或類似設備能夠提供計算量。目前大多數CPU能夠處理每秒幾百億次的算術運算,而在高清視頻上運行機器學習壓縮算法很容易就需要十倍以上的計算量。
  • 百度NLP | 神經網絡模型壓縮技術
    更複雜的模型、更強的特徵以及更多的數據對工業級應用提出了更高的要求,如何有效控制內存、減少計算量以及降低功耗是深度神經網絡模型發展面臨的重要問題。壓縮算法的研究不僅提升了模型的擴展潛力,並且使其具有更廣闊的應用場景和巨大的想像空間。在百度,以搜索場景為例,用於相關性排序的神經網絡參數規模達到億級,而線上環境對計算資源要求嚴格,模型難以擴展。
  • 谷歌和OpenAI新研究:如何使用達爾文進化論輔助設計人工智慧算法?
    上個月,谷歌大腦和非營利性組織 OpenAI 分別就神經進化這一主題發表了還未經評議的論文,谷歌的論文是關於神經進化原理在圖像識別上的應用,而 OpenAI 的論文則是關於使用工作器(worker)算法讓一個主算法學會實現一個任務的最好方法。為本已複雜的人工智慧研究領域引入生物進化的思想不免使人困惑。因此,如果想解決困惑,就把算法看作馬吧。
  • 業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究
    為了幫助化學家更快地預測出分子的性質並協助進一步的開發(比如發現新藥物或新材料),計算機科學家也在嘗試構建能夠基於分子的基本數據預測分子性質的算法和模型。近日,谷歌等機構的研究者發表了兩篇論文介紹了他們在這方面的研究進展——達到了當前最佳的預測表現。在本文中,機器之心編譯介紹了其成果介紹文章和兩篇論文的摘要,研究詳情請參閱對應論文。
  • 商業遙感衛星助力,谷歌 / 必應地圖壯大高清圖像
    如果你是必應地圖、谷歌地圖的忠實愛好者,那你一定非常熟悉衛星地圖服務。現在,全球新一款商業遙感衛星「Worldview-3」近日將發射升空,搭載了分辨高達50cm的攝像頭裝置,同時免費為公眾提供這些高清圖像。