「壓縮」會是機器學習的下一個殺手級應用嗎?

2020-12-08 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:機器學習的研究正進行的如火如荼,各種新方法層出不窮。儘管這樣,還有一個問題擺在面前,研究這些算法對於現實有什麼用。特別是當討論起機器學習在手機和其他設備上的應用時,經常會被問到到:「機器學習有什麼殺手級應用?」

機器學習工程師 Pete Warden 思考了很多種答案,包括從語音交互到全新的使用傳感器數據的方法等,但他認為實際上短期內最激動人性的一個方向是壓縮算法。儘管壓縮算法在研究領域基本上是人盡皆知的一個方向,還是有很多人還是會對這個看法感到驚訝。在本篇博文中,Pete Warden 分享了他的關於為什麼壓縮算法如此有前景的看法。雷鋒網 AI 科技評論編譯如下。

當我讀到一篇名為「神經自適應內容感知的網際網路視頻分發」(Neural Adaptive Content-aware Internet Video Delivery)的論文的時候,我意識到了這個領域的重要性。這篇文章在總結裡說到,通過神經網絡,在保證帶寬相同的情況下,該方法能夠將質量體驗指標提高 43%。或者在在保證相同的觀看質量下,減少 17% 的帶寬使用。實際上還有很多類似研究方向的論文,比如生成式壓縮(https://arxiv.org/pdf/1703.01467.pdf )和自適應圖像壓縮(https://arxiv.org/pdf/1705.05823.pdf  ) ,但為什麼沒有聽說到更多的關於壓縮算法的機器學習實際應用呢?

目前還沒有足夠的計算能力

所有這些基於機器學習的壓縮方法都需要相對較大的神經網絡,並且所需的計算量與像素數量成正比。這意味著高解析度圖像或者高幀率視頻需要更多的計算能力,可能遠遠超過當前行動電話或類似設備能夠提供計算量。目前大多數CPU能夠處理每秒幾百億次的算術運算,而在高清視頻上運行機器學習壓縮算法很容易就需要十倍以上的計算量。

好消息是現在有了一些新的硬體解決方案,比如 Edge TPU 等,在未來可能能夠提供更多可用的計算資源。我希望我們能夠將這些資源應用於各種壓縮問題,從視頻和圖像以及到音頻。

自然語言是最終極的壓縮

我認為機器學習非常適合於壓縮算法的另一個原因是,我們最近在自然語言處理中得到了很多有趣的結果。如果你仔細琢磨圖片的話,其實是可以將圖像描述看作是圖片的一種終極壓縮方法。我一直以來都希望創建一個項目,一個能夠以每秒一幀的速度給照相機拍下的圖片配上描述文字,之後將這些描述文字寫入到日誌文件中。通過這個就能夠得到一個非常簡單的故事,講述著相機隨著時間的推移看到了什麼。我認為這就可以看作一個能夠敘事的傳感器。

我將這種東西叫做壓縮的原因是,我們其實可以使用一個生成神經網絡來根據字幕生成圖片。這個生成出的圖片並不一定要與輸入圖片完全一樣,只要它們具有同樣的意思就可以了,這就可以看作是一個解壓縮算法。如果想要輸出的結果與輸入儘可能相似的壓縮算法,可以參考圖像風格化的算法,將圖片壓縮為每個場景的輪廓線。這些算法與傳統壓縮算法的共同之處在於,它們找到了輸入中對於我們人類最重要的信息,而忽略了其他的細枝末節。

不僅僅是圖像

語言世界也有類似的趨勢。語音識別技術正在迅速改進,合成語音的能力也在迅速提高。識別過程可以看作是將音頻壓縮為自然語言文本的過程,而合成則正好反過來。而人之間的對話可以通過將音頻翻譯為文字表示而的到極大的壓縮。我現在還很難想像是否需要走那麼遠,但是似乎有可能通過我們對與語言特徵的新理解來實現更好的壓縮質量以及更低的帶寬。

我甚至看到了將機器學習壓縮算法應用到文本本身的可能。Andrej Karpathy 的 Char-RNN(https://github.com/karpathy/char-rnn)展示了神經網絡可以很好的模擬給定樣本的風格,這種學習風格的本質與壓縮問題是很相似的。如果考慮一下典型的 HTML 頁面有多少冗餘,機器學習壓縮算法其實有很好的機會去改進 gzip。但這只是我的一個猜想,畢竟我沒有機器學習文本壓縮的經驗。

壓縮算法已經是一個有市場的項目

在我創業生涯中,我曾嘗試向企業銷售產品而最終失敗,從中我學到了一件事情,就是如果企業已經有大量的資金分配在你所銷售的產品類別上,那麼進行銷售會更加容易。企業對於某種產品有預算意味著公司已經做出了是否要在該項解決方案上花錢的決定,現在的唯一問題是要購買哪種解決方案。這就是為什麼我認為機器學習可以在這個領域取得巨大進展的原因之一,因為製造商已經擁有專門用於視頻和音頻的壓縮工程師,以及對應的資金和晶片製造產業。如果我們能夠證明將機器學習添加到現有的解決方案中可以提高某些指標,如質量速度或者功耗,這些方法就能夠很快被採用。

帶寬成本需要平攤到用戶和運營商身上,而質量和續航是產品的一大賣點,因此採用機器學習進行壓縮相比於其他應用方向有更直接的動機。現有的研究表明,機器學習算法進行壓縮非常的高效,而且我樂觀的認為還有很多方法等著被發現,所以我希望壓縮算法會成為機器學習的一個重要應用。

via Pete Warden's blog,雷鋒網 AI 科技評論編譯

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 「機器學習」機器學習算法優缺點對比(匯總篇)
    主要回顧下幾個常用算法的適應場景及其優缺點!機器學習算法太多了,分類、回歸、聚類、推薦、圖像識別領域等等,要想找到一個合適算法真的不容易,所以在實際應用中,我們一般都是採用啟發式學習方式來實驗。但是如果你只是在尋找一個「足夠好」的算法來解決你的問題,或者這裡有些技巧可以參考,下面來分析下各個算法的優缺點,基於算法的優缺點,更易於我們去選擇它。天下沒有免費的午餐在機器學習領域,一個基本的定理就是「沒有免費的午餐」。
  • 只需一個損失函數,一個超參數即可壓縮BERT,MSRA提模型壓縮新方法
    與之前用於 BERT 壓縮的知識蒸餾方法相比,該方法僅利用一個損失函數和一個超參數,將開發者從調參這一繁瑣過程中解放出來。該方法在 GLUE 基準上的性能優於現有的知識蒸餾方法,為模型壓縮開啟了新方向。
  • 如何使用 Julia 語言實現「同態加密+機器學習」?
    注意:本文討論了最前沿的密碼學技術,旨在提供一種利用「Julia Computing」進行研究的視角。請不要將文中的任何示例用於生產應用程式。在使用密碼學之前一定要諮詢專業的密碼學專家。在過去幾年間,這些「機器學習即服務」產品如雨後春筍般湧現,每個主要的雲平臺都會為企業級開發者提供這樣的服務。但這類產品的潛在用戶所面對的困境也是顯而易見的——處理用戶數據的遠程伺服器可能並不可信。這樣就會存在明確的倫理和法律的分歧,從而限制這種解決方案的有效範圍。在受監管的產業(尤其是醫療業和金融業)中,一般是不允許將病患或金融數據發送給第三方進行處理的。我們可以做得更好嗎?
  • 觀點| NIPS 2017經典論文獎獲得者機器學習「鍊金術」說引熱議,Le...
    「對於 18 世紀的物理學和化學而言,想要理解宇宙的法則,科學家們需要努力抵抗有兩千年歷史的鍊金術的不利影響。」「現在,如果我們想要做一個圖片分享系統,『鍊金術』是可以奏效的。但我們的需求早已不止這些了。我們正在試圖構建基於人工智慧的醫療服務系統、對話系統,我們的機器學習系統甚至影響了大選結果。
  • 一個照片「隱身衣」,讓微軟曠視人臉識別系統100%失靈|開源
    而後,Fawkes會在 K 個候選集合中,選取特徵表示中心點與 XU 中所有圖像的特徵表示差異最大的類,作為目標類型 T。第二步:計算每張圖像的「隱身衣」隨機選取一幅 T 中的圖像,為 x 計算出「隱身衣」δ(x, xT) ,並按照公式進行優化。
  • 機器學習在馬蜂窩酒店聚合中的應用初探
    酒店聚合能力的強弱,決定著用戶預訂酒店時可選價格的「厚度」,進而影響用戶個性化、多元化的預訂體驗。為了使酒店聚合更加實時、準確、高效,現在馬蜂窩酒店業務中近 80% 的聚合任務都是由機器自動完成。本文將詳細闡述酒店聚合是什麼,以及時下熱門的機器學習技術在酒店聚合中是如何應用的。
  • 剪枝需有的放矢,快手&羅切斯特大學提出基於能耗建模的模型壓縮
    劉霽表示經典的模型壓縮有一個隱含的假設:「在不同層刪除一條邊所節省的能量,或者說所提升的效率是等價的。」然而,由於物理硬體的複雜性,這個基本假設實際上並不絕對正確。有時候大模型可能比小模型的能量消耗更少或者推斷時間更短。物理硬體實際上很複雜,如果我們用能耗作為約束,它會由幾部分組成:計算和數據加載等產生的能耗。算法工程師一般只關注計算複雜度,且通常不太關注數據加載的能耗。
  • 機器學習博士自曝:實驗室「閹割」我的創造力,勸你別讀
    賈浩楠 發自 凹非寺量子位 報導 | 公眾號 QbitAI「我博士第五年在讀,但我不建議你來讀博士,因為這是個騙局……」一位外國網友在Reddit上發帖這麼說,他自述研究方向是機器學習。而且他還說,所謂「騙局」只是勸退博士的一個次要原因,還有更殘酷的事實。這個帖子在一天之內衝上熱榜第一,已經有800多回復討論。
  • 觀點| 我們該如何學習機器學習中的數學
    作為通過代碼學習數學的案例,我們可以考慮一個實際的案例,即為神經網絡實現反向傳播和 ReLU 激活函數。作為入門級概念,反向傳播是一種依賴於微積分鏈式求導法則的技術,它能高效計算梯度。為了在神經網絡中利用鏈式求導法則,我們可以使用 ReLU 激活函數的梯度乘以上遊導數。
  • 「AR 導航」:車載導航的下一個風口?
    相對應的,在這樣的市場需求下,「AR 導航」作為一種更好的解決方案應運而生,而且已經有不少科技公司將這個概念帶到了我們的視野裡。比如百度在去年的世界大會上展示了自己基於 HUD 的 AR 導航功能,高德和達摩院各自發揮優勢研發了一款 AR 導航,Marvel X 因為搭載了斑馬開發的 AR-driving,成為了目前市面上第一款帶 AR 導航功能的量產車。
  • 英特爾看了會沉默,M1「地表最強SoC」亮相蘋果發布會
    OS「Big Sur」也將隨新款MAC系列產品一同上市,依託於M1強悍的性能,「Big Sur」可以給用戶來帶更加流暢的使用體驗。 無論是啟動應用還是喚醒系統,基於M1的「Big Sur」都可以立即執行,用戶幾乎感受不到加載的時間。結合了macOS的Metal等技術,M1可以在「Big Sur」系統下輕鬆的進行3D渲染或者編輯RAW格式的視頻素材。 蘋果還推出了Universal App來解決大家關心的應用程式兼容性問題。
  • 讓車燈「說話」,汽車的下一個交互入口?
    發展歷程中最令人著迷的領域之一是汽車照明的創新,它不僅是一輛車的「眼睛」,有時候它甚至決定這一輛車的性格、辨識度等等特性的關鍵要素。但如今,儘管汽車行業不斷的湧現前瞻思考,不少從業者卻認為汽車照明創新的「黃金時代」已經過去。
  • 學點知識 | 辦公室裡的印表機,就像一個「沒人注意到的殺手」
    圖片:全景網長期坐在印表機旁邊有危害嗎?在辦公室裡,印表機就像一個「沒人注意到的殺手」,有很多危害。危害 1:聲音危害印表機聲音是辦公室噪聲的一種。而且在大型公司或單位裡,印表機總是人滿為患,不停工作。這些噪聲會影響辦公室環境舒適度,和身心健康。
  • 埃洛克防務發布「守望者」、「觀測者」
    結合母公司AIRLOOK在製圖、人工智慧、雲計算等技術與服務的積累,埃洛克防務將攜手合作夥伴,深耕防務業務在應急、公安、生態、工程、工業、能源等領域的廣泛應用。「守望者」與「觀測者」以簡單易上手的操作體驗,適用不同的應用場景。
  • 「超級高鐵」到底是不是一個「超級騙局」?
    還記得馬斯克提出的超級高鐵嗎?在陸地上走完 400 英裡(約合 643 公裡)的路程,僅需 35 分鐘,也就是說,從北京搭超級高鐵到上海,只需要一個多小時。行駛倉內可以坐 28 個人,每個行駛倉會間隔 2 分鐘,它可以讓人以 1200 km/h 的速度前行。靠譜的「超級高鐵」理論超級高鐵的核心是它的真空管道。傳統交通工具會碰到空氣阻力和摩擦力,但超級高鐵不會。超級高鐵採用物理學家 Richard Post 提出的「被動磁懸浮技術」。
  • 「九章」問世,超越谷歌「量子霸權」!潘建偉攜90後上Science
    【新智元導讀】實現「量子計算優越性」(即量子霸權),中國科學家取得裡程碑式進展——成功構建了76個光子的量子計算原型機「九章」。根據現有理論,其速度比目前最快的超級計算機快一百萬億倍,比去年穀歌發布的53個超導比特量子計算原型機「懸鈴木」快一百億倍。「量子霸權」再次被實現了嗎?
  • 機器學習模擬1億原子:中美團隊獲2020「超算諾貝爾獎」戈登貝爾獎
    機器之心報導 作者:澤南、張倩、小舟 在前世界第一超算 Summit 上,研究人員在保持「從頭算」精度的前提下成功模擬了 1 億原子的運動軌跡,將超大系統的分子動力學模擬帶進了一個新時代。
  • 「腦機接口禮服」長啥樣?1024 個獨立電極,機器學習與定製晶片加持
    回歸現實,在「宇宙網紅」Elon Musk 的大力推廣下,我們對腦機接口技術也不再陌生。這套「禮服」有個直男但又形象的名字:Pangolin dress(翻譯過來是「穿山甲連衣裙」)。比如說,當佩戴者決定主動移動一塊肌肉時,這一動作會在大腦運動皮層中觸發一種「局部活動模式」,這種模式是能被檢測和識別到的。G.tec 公司聯合創始人 Christoph Guger 表示:通過 1024 個獨立電極通道,我們甚至可以獲得單個手指的解析度。這是非植入式腦機接口設備的電極通常無法做到的。
  • 機器人也是「相由心生」嗎?
    你相信人是「相由心生」的嗎?那機器人呢?你也許覺得,機器人明明就是由人設計製造的,樣貌怎會隨著「心」來改變?但從歷年來科幻影視作品看來,人類想像中的機器人似乎也符合「相由心生」的原則。機器人「面相學」:越「人性」,越危險?幻想家和創作者,近乎無一例外地,都會為他們認為最高級的機器人賦予像人一樣的外觀。
  • 森川智之領銜 4月新番「忍者殺手」主要CAST公開!
    森川智之領銜 4月新番「忍者殺手」主要CAST公開!   於2014年4月宣布TV動畫的美式忍者物語「忍者殺手