被壓縮的視覺:視頻編解碼技術

2021-01-15 網易雲信

文 | 何鳴 網易雲信音視頻算法工程師

導讀:視覺是人類獲得信息的主要方式,每天有大量的視頻信息被生產並傳輸。未經壓縮的視頻內容佔用的存儲空間和傳輸帶寬十分巨大,以常見的30fps高清視頻為例,採用avi格式存儲的YUV420視頻流一分鐘就有2GB大小,傳輸帶寬需要40MB/s。所以我們日常從手機和電腦等電子設備上獲得的視頻信息都是被壓縮後再傳輸和存儲的,壓縮這些視頻信息的技術便稱為視頻編解碼技術。

1. 顏色空間

我們人眼的視覺信息是由視杆細胞和視錐細胞獲得的。視杆細胞主要感受光線的明暗變化,獲取視覺的亮度信息,而視錐細胞可以感受到顏色。根據仿生的原理,計算機採集視頻信號也採用亮度信息和速度信息分別採集的方式。由於人眼的視杆細胞數量比視錐細胞的數量多很多,所以人眼對於亮度信息更加敏感,所以在採集視頻信息時,常採用YUV420的格式採集。具體操作如圖1中所示,四個亮度像素Y共用一組紅色和藍色的色度像素。

採集來的像素在計算機內部都採用2進位的形式存儲,為了表示人眼視覺的顏色空間,在計算機內部一般採用256色存儲,即亮度信息和色度信息的取值範圍都是0到255。通過不同的數值組合可以表示出不同的顏色,例如,YUV都是255時是粉色,YUV都是0時是深綠色。這樣為了表示一個像素需要1.5位元組的數據,而一幅圖像中有成千上萬個像素。一幅720p解析度的視頻包含92萬個像素,一幅1080p解析度的視頻包含207萬個像素,而一秒鐘的視頻包含30幀圖像。對於數據量巨大的YUV視頻數據,需要壓縮後才能存儲與傳輸。

2. 壓縮原理

壓縮視頻信息與壓縮文件信息不同,在視頻中存在著大量的冗餘信息。如圖2所示,相鄰幀之間的相似性會有時間上的冗餘,同一幀的相鄰塊之間存在著空間上的冗餘,由於人眼感知對於低頻信息更敏感,所以存在著感知上的冗餘。

視頻壓縮的基本原理就是去除這些冗餘信息,將視頻壓縮300到500倍,常見的壓縮方法有預測編碼、變換編碼和熵編碼技術。如圖3所示,將輸入的視頻信息按照各個編碼模塊進行處理,輸出碼流的過程稱為視頻編碼過程,再通過對應的熵解碼、變換解碼和預測解碼過程,將碼流還原成YUV420視頻流的過程稱為視頻解碼過程。可以將視頻編解碼的過程看作是壓縮和解壓縮的過程,但在該過程中,由於壓縮的算法有所差異,所以解碼的算法必須對應著編碼的算法,不同的編解碼算法稱為視頻標準。

現在常用的視頻標準,例如H.26x系列標準,其中最常用的是H.264標準,由於開源編碼器x264的普及,也將這代標準稱為x264標準。H.26x系列標準的研發與進展一直是行業的標杆,最新的H.266/VVC標準加入許多新技術,而這些技術可以簡單概括為以下幾個方面:

塊劃分技術:除深度學習技術外,傳統的視頻編解碼技術都是按塊去處理視頻,而且趨勢是最大塊越來越大,最小塊越來越小,塊的類型越來越多。對於相對靜止的區域,採用大塊可以提高壓縮效率,使用一兩個標誌位或者很少的殘差數據就可以表示一個大塊,可以極大的壓縮視頻畫面。對於運動比較多的區域,採用小塊可以提高畫質質量,將運動的細節更完整地表示出來。為了更精細的劃分運動和靜止的區域,塊劃分技術採用各種形狀的矩形塊代替原有的方形塊劃分。在工程落地方面,越來越複雜的塊劃分技術浪費大量的計算資源,所以很多快速算法都是針對塊劃分模式進行預測,將機器學習算法和深度學習算法應用到塊劃分預測過程中,可以在質量損失微乎其微的情況下,快速得出塊劃分模式。

幀內預測:幀內預測屬於預測編碼的範疇,在視頻序列中,有一些幀和塊的預測信息無法從參考幀中獲得,這樣的幀被稱為I幀或幀內預測塊。在I幀中所有的塊都是幀內預測塊,而幀內預測塊可以存在於I幀或P幀和B幀中。具體怎麼實現幀內預測呢,對於一個幀內預測塊,首先在該塊周圍補償出一圈像素(對於邊緣部分,可以採用擴邊的方式),根據這圈像素值,採用角度預測或者平面預測的方式補償出當前塊,再通過與原圖比較,選擇損失最小的預測模式。由於幀內預測補償時採用的像素值都來自於當前幀,不需要參考幀信息,所以幀內預測常用於序列首幀或者視頻信息變化比較大的區域。

幀間預測:與幀內預測相對應的是幀間預測技術,他們同屬於預測編碼技術。幀間預測的參考圖像信息來自於參考幀,所以在視頻首幀或者參考幀缺失的情況下不能使用幀間預測技術。幀間預測的關鍵過程便是運動搜索與運動補償過程。運動搜索過程負責搜索出參考幀上最接近當前塊的圖像塊,並生成運動矢量,運動補償則根據參考幀信息生成當前幀信息。根據最新的幀間預測技術,運動信息可以包含平移、縮放和旋轉。由於運動矢量指向的位置未必是整數像素的位置,所以在運動補償過程中還涉及到亞像素補償技術。通過幀間預測可以極大提高視頻的壓縮率,例如在參考幀中有著相似度很高的塊,則可以對當前塊採用skip的模式編碼,僅需一個標誌位即可編碼原有塊內所有的YUV信息。

變換量化:變換與量化技術是配套使用的,在剛剛的分析中,由於人眼對於高頻信息的不敏感,需要對高頻信息進行壓縮,在頻域更容易對其進行操作,所以需要對圖像進行變換。常用的變換方式有哈達瑪、整數DCT和整數DST,由於有預測編碼技術的存在,所以變換通常在殘差信息上操作,根據不同的壓縮率要求,可以對變換後的係數進行量化,僅保留人眼更敏感的低頻信息。在解碼過程中,需要配套的反量化和反變換技術,將壓縮後的殘差係數還原出來。

熵編碼:對於標誌位和殘差係數,還需要一套編碼技術進一步壓縮這些信息,對於一些關鍵信息,可以採用指數哥倫布,遊程編碼等方式壓縮,對於大量的殘差係數和圖像幀內的編碼信息,現在常用基於上下文模型的熵編碼技術進行壓縮。熵編碼的基本原理是對小概率符號使用更多比特編碼,而大概率符號則採用較少的比特編碼,通過上下文模型,大部分的大概率符號都可以被壓縮。區別於預測編碼和變換量化過程,熵編碼過程是無損的。

環路濾波:對於參考幀來說,由於後續的視頻都是依據前面視頻幀的信息補償出來,所以參考幀中出現的損失和錯誤,會延續到整個序列,隨著運動補償的過程,或擴散到整個視頻幀當中。為了降低視頻的損失,在每一幀編碼完之後,都會對其進行後處理,處理這些視頻幀的濾波器被稱為環路濾波器,使其更加接近於原始視頻序列。現階段,許多基於深度學習的後處理技術被應用到環路濾波器當中,在編解碼過程中起到很好的效果。

除了以上技術,在工程化落地過程中,碼控技術、並行技術、指令集技術同樣影響編碼器效果。視頻編解碼技術包含著一系列算法的技術集成,將這些技術組合使用,形成各類視頻編解碼標準。除H.26x視頻標準之外,還存在著開放視頻標準聯盟的AV1標準,國產的AVS標準等。

3. 視頻編碼技術的挑戰與發展

根據現在的技術需求,未來的視頻編碼技術需要面對更高解析度、更高幀率、更廣色域及HDR視頻的挑戰。同時,面對更多形式的視頻內容,例如全景視頻、點雲、深度學習特徵圖等,視頻編碼技術需要與時俱進,不斷發展。現有技術方興未艾,未來技術仍然可期。

相關焦點

  • iOS開發-音視頻開發
    當然,隨著5G技術的誕生,用在智能終端分享3D電影,遊戲或者超高畫質節目的時代已經毫無懸念的向我們走來. 想必大家也逐步了解,國內外的網際網路公司也已經布局音視頻,3D技術方面的開發者招聘和相關產品研發.目前落地推廣最普遍的就是直播類項目和小視頻類的項目.當然未來的方向肯定不止如此.
  • Web安全:編解碼工具
    Web安全:編解碼工具 編碼是信息從一種形式轉換為另一種形式的過程,例如URL編碼、Base64編碼及十六進位編碼等。也指將編碼後的字符或者字符串還原為信息的過程,如解碼與編碼互逆。現在常用的編碼、解碼工具有XSSEncode、小葵多功能轉換工具等。
  • 視頻行業迎來巨變!H.265將被淘汰,電視及流媒體全受影響
    這兩天,姐夫自己遇到一個問題,從一些流媒體網站上下載來的視頻,比如油管上的視頻,居然無法正常在Windows 10上播放,必須要重新下載一個視頻編碼插件才行。甚至於這些視頻都無法通過現有的編輯軟體去做後期剪輯,因為無法正常播放。
  • 河北華為VP9650僅490000 全適配視頻埠-華為 VP9650_濟南視頻...
    華為VP9650是華為公司以客戶需求為導向,結合強大的網絡設備製造優勢,開發出的新一代大容量、高性價比、可靈活分配埠、平滑擴容的全適配MCU,是業界首款具有1080p60全編全解超強處理能力的多媒體交換平臺。
  • 《三千鴉殺》仙俠變驚悚,「AI換臉」背後的技術,了解一下?
    其實,AI換臉技術並不複雜。利用DeepFakes技術,你只需要一個GPU和一些訓練數據,就能夠製作出以假亂真的換臉視頻。假設我們的目的是用演員B來替換演員A,來看看AI是如何完成換臉的。DeepFakes基於深度神經網絡,主要由兩部分組成:編碼器和解碼器。編碼器用於接受原始圖像,將其壓縮成一個小規模的編碼。解碼器則能夠將壓縮後的數據還原成原始的輸入數據。
  • 三星領銜全面8K時代,技術+全產業鏈優勢無可比擬
    「4K電視2022年要實現全面普及,8K關鍵技術產品研發和產業化取得突破,超高清視頻產業總體規模超過4萬億元。」工信部在2019年發布的《超高清視頻產業發展行動計劃》中提出明確目標。在產業端,8K早已是各大廠商押注未來顯示的重要砝碼。
  • 從視頻片段中推斷樓層平面圖 新AI研究令人大開眼界
    1月11日消息,據外媒報導,近日,來自Facebook、德克薩斯大學奧斯汀分校和卡內基梅隆大學的研究人員正在探索一種人工智慧技術,利用視覺和音頻,從一個短視頻剪輯中重建一個平面圖。研究人員斷言,音頻提供了空間和語義信號,補充了圖像的映射能力。他們說,這是因為聲音天生是由物體的幾何形狀所驅動的。聲音從表面反射回來,揭示了房間的形狀,遠遠超出了相機的視野。
  • 《直播技術詳解》系列之一:開篇
    手機設備拍攝視頻能力和網絡的升級催生了大家對視頻直播領域的關注,吸引了很多網際網路創業者或者成熟企業進入該領域。七牛雲作為一家以基礎服務能力見長的雲計算公司,於 6 月底發布了一個針對視頻直播的實時流網絡 LiveNet 和完整的直播雲解決方案,很多開發者對這個網絡和解決方案的細節和使用場景非常感興趣。
  • 我國氣象傳真技術跨入世界先進行列
    十五年來,氣象傳真技術取得了重大進展。它由單一的天氣圖廣播網發展為能傳輸多種圖象、圖形和數據的綜合通信網。目前,我國不僅擁有全世界規模最大的無線傳真廣播網,而且擁有先進的省以上有線高速傳真通信網。現在又在286微機和VAX機上實現了難度更大的T6編解碼,通過程序優化,將T6編解所需的時間由40分鐘減少到一分鐘以內,並在內蒙、上海等地投入了試運行。  2.利用計算機網絡技術,將原來建立在4800bps.信道上和報話復用設備窄帶話路上的由傳真機組成的傳真通信網,改造成由小型機和微機組成的綜合業務網。
  • 播放4K 120FPS HDR10視頻為什麼會卡?
    今天B站發布了首支4K 120FPS HDR10影片《文字大戰》,即使沒有會員也可以體驗最高畫質(需要登錄帳號,僅限這一個視頻),本人體驗了一下,也看到很多小夥伴們卡成了PPT。觀看門檻較高:1、屏幕和硬解碼器支持HDR解碼,顯示器需兼容 HDR10 技術。2、Safari瀏覽器(Mac電腦需要先支持硬解碼 HEVC / H.265)。
  • PPT如何壓縮圖片&一鍵提取所有素材?
    今天和大家分享關於 PPT 文件壓縮和素材一鍵提取的小妙招~速讀版PPT 中的圖片質量PPT 體積太大你可能遇到過的尷尬壓縮圖片時如何選擇解析度常用的 PPT 圖片壓縮方法為什麼有的圖片 PPT 壓縮後會模糊?
  • 17位院士近200位專家「解碼」生命奧秘,《解碼生命》(第二版)新書...
    實習記者 陳楊2020年12月30日,《解碼生命:從多視角看生命》(第二版)新書發布會暨上海交通大學Bio-X研究院二十周年慶典在上海交通大學徐匯校區Bio-X研究院舉行。《解碼生命:從多視角看生命》(第二版)一書由中國科學院院士、上海交通大學Bio-X研究院院長賀林教授領銜主編。本書包括了17位院士團隊的工作成果介紹,雲集了近200位在生命科學研究和應用領域耕耘多年的國內外知名專家和學者。
  • 圖像識別與人工智慧圖像識別和機器視覺有什麼區別
    人工智慧領域發展到現在,ai與人工智慧、圖像識別領域、計算機視覺領域等近年來越來越多的整合和融合。首先,人工智慧在生活工作中將普遍應用;其次,人工智慧在不同的工作場景都有其應用,從金融到醫療,從服務到工廠,應用無處不在;最後,人工智慧正在與自動駕駛技術等聯繫在一起。
  • AI附能行業 — 他免費開放視覺人工智慧技術
    騰訊攜著王者榮耀席捲全國,馬雲帶著新零售再創先機,百度用阿波羅掀起無人駕駛之熱潮,人工智慧站在風口浪尖,虹軟在行業+人工智慧的大浪潮頭,在2017創業邦100未來領袖峰會暨創業邦年會上,虹軟副總裁徐堅暢談如何用
  • 解碼晶片對聽感有決定權?#HIFI大家問#
    答:解碼晶片即DAC,含義是「數模轉換器」。  目前的數字聽音系統,主要由四部分構成:數字轉盤->解碼->耳放->耳機,  分別起到數位訊號存讀取->數位訊號轉換成模擬信號->模擬信號整流放大->揚聲器單元振動發聲四個作用。