騰訊多媒體實驗室重磅開源視頻質量評估算法DVQA

2020-12-08 站長之家

近日,騰訊多媒體實驗室設計的基於深度學習的全參考視頻質量評估算法DVQA在Github上正式開源,該算法模型的性能目前在公開測試數據集上取得業界領先成績。

開源地址:https://github.com/Tencent/DVQA

國內鏡像地址:

https://git.code.tencent.com/Tencent_Open_Source/DVQA

(登錄後才能訪問公開項目)

騰訊工蜂源碼系統為開源開發者提供完整、最新的騰訊開源項目國內鏡像

視聽時代,音視頻應用越來越廣泛:直播、短視頻、視頻節目、音視頻通話……近期由於新冠疫情帶來的在線協同辦公、在線教育類產品的崛起,更帶來了線上音視頻需求的爆發,用戶對音視頻質量訴求也愈加強烈。

在整個視頻鏈路中,大部分模塊都可以精確度量,如採集、上傳、預處理、轉碼、分發等。然而未知的部分卻恰恰是最關鍵的部分,即用戶的視頻觀看體驗到底怎麼樣。目前行業內的視頻質量評估方法分為兩大類:客觀質量評估與主觀質量評估。前者計算視頻的質量分數,又根據是否使用高清視頻做參考、源視頻是專業視頻還是用戶原創視頻等進一步細分;後者主要依賴人眼觀看並打分,能夠直觀反映觀眾對視頻質量的感受。然而,這些方法仍存在耗時費力、成本較高、主觀觀感存在偏差等難題。

多媒體實驗室提出的視頻質量評估解決方案,首先結合業務需求,使用「在線主觀質量評測平臺」,來構建大規模主觀質量資料庫,同時使用所收集的主觀數據來訓練基於深度學習的客觀質量評估算法,最後把訓練好的質量評估算法部署到業務線中,閉環監控可能存在的質量問題。從以上三個角度出發,DVQA能夠在兼顧不同業務、場景的前提下,滿足效率與精度兩大需求。

DVQA包含多個質量評估算法模型,本次開源的是針對PGC視頻的算法C3DVQA。本項目使用Python開發,深度學習模塊使用PyTorch。代碼使用模塊化設計,方便集成較新的深度學習技術,靈活的自定義模型,訓練和測試新的數據集。

在算法設計上,C3DVQA所使用的網絡結構如下圖所示。其輸入為損傷視頻和殘差視頻。網絡包含兩層二維卷積來逐幀提取空域特徵。級聯後使用四層三維卷積層來學習時空聯合特徵。三維卷積輸出描述了視頻的時空掩蓋效應,再使用它來模擬人眼對視頻殘差的感知情況:掩蓋效應弱的地方,殘差更容易被感知;掩蓋效應強的地方,複雜的背景更能掩蓋畫面失真。

網絡最後是池化層和全連接層。池化層的輸入為殘差幀經掩蓋效應處理後的結果,它代表了人眼可感知殘差。全連接層學習整體感知質量和目標質量分數區間的非線性回歸關係。

在評測結果上,騰訊多媒體實驗室在LIVE和CSIQ兩個視頻質量數據集上對所提出算法的性能進行驗證。並使用標準的PLCC和SROCC作為質量準則來比較不同算法的性能。將所提出的C3DVQA與常用的全參考質量評估算法進行對比,包括PSNR,MOVIE,ST-MAD,VMAF和DeepVQA,結果如下表所示。

(LIVE和CSIQ兩個資料庫上不同全參考算法性能比較)

目前該評估算法已在騰訊內外部多款產品中進行使用驗證,如騰訊會議就藉助實驗室上百個符合ITU/3GPP/AVS等國外內標準的指標進行評判,閉環監控全網的用戶體驗質量,從用戶真實體驗出發,不斷優化產品性能。

作為最早布局音視頻領域的公司之一,從最早的QQ平臺,騰訊就試圖解決在當年網絡條件下若干的音視頻通信問題。伴隨著5G、雲計算、大數據、人工智慧技術的發展,騰訊多媒體實驗室基於多年的技術沉澱和行業經驗,逐步打磨出一條完善且高質量的音視頻技術鏈條。

免責聲明:「站長之家」的傳媒資訊頁面文章、圖片、音頻、視頻等稿件均為自媒體人、第三方機構發布或轉載。如稿件涉及版權等問題,請與我們聯繫刪除或處理。稿件內容僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性,更不對您的投資構成建議。我們不鼓勵任何形式的投資行為、購買使用行為。

相關焦點

  • 騰訊開源國內首個視頻質量評估算法DVQA,騰訊會議就在用
    騰訊多媒體實驗室,近期設計的基於深度學習的全參考視頻質量評估算法DVQA,在Github上正式開源,該算法模型的性能,目前還在公開測試數據集上取得業界領先成績。解決什麼問題?在整個視頻鏈路中,大部分模塊都可以精確度量,如採集、上傳、預處理、轉碼、分發等。
  • 騰訊多媒體實驗室:探索圖像視頻降噪,還原你眼中的高清「視界」
    會上,來自騰訊多媒體實驗室的李松南總監帶來了題為 《圖像視頻降噪的今天與未來:從經典方法到深度學習》的主題演講,對圖像視頻降噪技術的現狀及發展前景進行了深入淺出的闡釋。噪點的出現嚴重影響了照片的觀賞性,為了解決這一問題,圖像視頻降噪技術便應運而生。騰訊多媒體實驗室,融合經典方法和深度學習技術,在圖像視頻降噪領域已經積累多年,研究成果已經在騰訊雲、全民K歌、微視等騰訊內外部產品、場景中廣泛應用。探索圖像視頻降噪技術,經典方法+深度學習雙管齊下據李松南介紹,騰訊多媒體實驗室在圖像視頻降噪領域已經積累多年。
  • 製造「空間魔術」:為未來取暖的騰訊多媒體實驗室
    空間魔術:騰訊多媒體實驗室如何把同事「變」到你身邊?騰訊會議的魔術可以被分為四個部分:音畫、聯通、評估與網絡。在音畫方面,騰訊多媒體實驗室不僅提供了視頻美顏算法,還特地收錄了車站噪聲、風雨噪聲等常見的環境噪聲,以及咳嗽聲、鍵盤聲、放水杯聲等常見的會議噪聲。通過定點降噪處理,剝離噪音還原清晰人聲。
  • 騰訊多媒體實驗室劉杉:萬物皆媒的5G時代,多媒體打開新場景
    12月19至20日,由騰訊主辦的2020 TECHO PARK開發者大會在北京時尚設計廣場舉辦。在大會主論壇上,騰訊傑出科學家、多媒體實驗室負責人劉杉帶來了主題為《從視頻編解碼到互動沉浸式媒體》的演講,重點分析了視頻編解碼技術的演進迭代以及騰訊在新媒體及互動沉浸式媒體方向所進行的探索和嘗試。
  • 騰訊多媒體實驗室劉杉:萬物皆媒的5G時代多媒體打開新場景
    12月19至20日,由騰訊主辦的2020 TECHO PARK開發者大會在北京時尚設計廣場舉辦。在大會主論壇上,騰訊傑出科學家、多媒體實驗室負責人劉杉帶來了主題為《從視頻編解碼到互動沉浸式媒體》的演講,重點分析了視頻編解碼技術的演進迭代以及騰訊在新媒體及互動沉浸式媒體方向所進行的探索和嘗試。
  • 騰訊多媒體實驗室:讓騰訊天籟「下行最後一釐米」,聚焦打造端到端...
    作為多媒體技術領域的盛會,大會聚焦在音頻、視頻、圖像等技術的最新探索與應用實踐,覆蓋教育、娛樂、醫療、安防、交通、製造、旅遊、電商、金融、社交、遊戲、智能設備、IC等行業領域。會上,騰訊多媒體實驗室專家研究員肖瑋進行了《騰訊天籟:「下行最後一釐米」 音頻體驗提升》主題分享,重點介紹了騰訊天籟如何將經典信號處理技術與深度學習進行有機融合,圍繞網絡下行終端,提升音頻體驗。
  • 騰訊多媒體實驗室天籟AI音頻技術「破圈」背後的「密碼」
    作為多媒體技術領域的盛會,大會聚焦在音頻、視頻、圖像等技術的最新探索與應用實踐,覆蓋教育、娛樂、醫療、安防、交通、製造、旅遊、電商、金融、社交、遊戲、智能設備、IC等行業領域。會上,騰訊多媒體實驗室專家研究員肖瑋進行了《騰訊天籟:「下行最後一釐米」 音頻體驗提升》主題分享,重點介紹了騰訊天籟如何將經典信號處理技術與深度學習進行有機融合,圍繞網絡下行終端,提升音頻體驗。
  • 2020 Techo開發者大會召開,騰訊多媒體實驗室推出AI媒體內容生產...
    作為騰訊旗下頂尖科技實驗室,也是全球多媒體技術的領先者,智慧媒體是騰訊多媒體實驗室的重點研究領域之一。李松南表示,近期多媒體實驗室推出了AI媒體內容生產平臺——智慧媒體,可以通過搭建基於跨模態(圖像、音頻、文本、語音)算法的多媒體內容分析和理解框架,實現媒體標籤、分類、檢測、摘要、內容描述等功能。   論壇上,李松南重點介紹了智慧媒體的內容生產。
  • 騰訊多媒體實驗室推出智慧媒體內容生產平臺
    12月19日至20日,由騰訊主辦的年度技術盛會2020Techo Park開發者大會於北京順利召開。本次大會邀請了200多位海內外專家和和數千位參會者就人工智慧、多媒體等前沿技術話題展開交流。在視頻通信雲分論壇上,騰訊多媒體實驗室總監李松南進行了《智媒-多模態與內容生產》的主題分享。
  • 騰訊多媒體實驗室商世東:天籟技術讓人工耳蝸語音清晰度和可懂度...
    9月27日,值國際聾人日之際,騰訊多媒體實驗室聯合騰訊公益慈善基金會、深圳市信息無障礙研究會等機構召開發布會,宣布發起「天籟行動」,面向公益開發者、設備廠商、相關機構開放騰訊天籟AI音頻技術,應用於聽障人群無障礙建設等相關社會責任領域。會上,騰訊多媒體實驗室高級總監商世東發表了《AI,讓天籟無界》的主題演講,分享了騰訊天籟AI音頻技術研發的原理及應用。
  • 騰訊多媒體實驗室推出AI媒體內容生產平臺「智媒」
    12月19日至20日,由騰訊主辦的年度技術盛會2020Techo Park開發者大會於北京順利召開。本次大會邀請了200多位海內外專家和和數千位參會者就人工智慧、多媒體等前沿技術話題展開交流。在視頻通信雲分論壇上,騰訊多媒體實驗室總監李松南進行了《智媒-多模態與內容生產》的主題分享。
  • CVPR 2018 圖像壓縮挑戰賽結果出爐,騰訊音視頻實驗室壓縮性能第一
    名次:1
  • 專訪騰訊多媒體實驗室商世東:咬咬牙也要跟上新版本的發布
    近日,騰訊多媒體實驗室高級總監商世東接受LiveVideoStack專訪,圍繞騰訊會議及其背後的故事進行了分享。以下為採訪實錄:1. 選擇離開杜比從來都不是一個困難的決定剛剛畢業的時候,我在摩託羅拉做音頻方面的工作,一做就是將近十年的時間。
  • 港中文開源視頻動作分析庫MMAction,目標檢測庫算法大更新
    機器之心報導參與:李亞洲、杜偉昨日,香港中文大學多媒體實驗室(MMLab)OpenMMLab 發布動作識別和檢測庫 MMAction,同時也對去年發布的目標檢測工具箱 mmdetection 進行了升級,提供了一大批新的算法實現。
  • 騰訊多媒體實驗室首次對外推出5G+VR直播方案
    鈦媒體11月27日消息,在日前舉辦的中國移動全球合作夥伴大會上,騰訊多媒體實驗室將其5G+VR直播以及創新夥伴的競技機器人、AR眼鏡、VR影院首次對外展出。其中,騰訊多媒體VR360直播是一套從採集壓縮到播放的完整解決方案,支持VR眼鏡、大屏、手機等多個終端。騰訊多媒體實驗室通過研發採集,拼接,處理,壓縮,傳輸,解碼,渲染,互動等各模塊,打造端到端VR360系統,其自研切塊技術可在相同視覺質量情況下節省超過50%帶寬。
  • 騰訊雲音視頻技術支撐遠程會議在線課堂 流量帶寬實現倍增
    李鬱韜介紹,為了保證複雜網絡環境下多端接入方式中的音視頻傳輸質量,騰訊會議採用了騰訊在音視頻領域長期積累的雲流控引擎技術,通過融合經典信號處理、心理聽覺和深度學習理論,針對端到端音視頻通信鏈路上的複雜特性,繼承了在微信、王者榮耀等大型業務中多年沉澱的探測、選路、調度、傳輸等關鍵技術,對音視頻在雲端和用戶終端的網絡傳輸環境進行實時探測計算,選擇最優網絡路徑進行傳輸
  • 融合視頻目標檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知...
    機器之心報導編輯:魔王香港中文大學多媒體實驗室(MMLab)OpenMMLab 開源一體化視頻目標感知平臺 MMTracking。新年伊始,香港中文大學多媒體實驗室(MMLab)OpenMMLab 又有新動作,發布了一款一體化視頻目標感知平臺 MMTracking。該框架基於 PyTorch 寫成,支持單目標跟蹤、多目標跟蹤與視頻目標檢測,目前已開源。GitHub 地址:https://github.com/open-mmlab/mmtracking
  • 騰訊雲十年新風向:雲原生與開源的未來
    今天更為強調的微信小程序雲開發、騰訊音視頻、騰訊資料庫、騰訊大數據與AI、騰訊安全等相關領域的技術生態,很大程度上也源自於貫穿騰訊過去十年的關鍵詞——擁抱雲原生與開源。2015年,騰訊成立開源聯盟(TOSA)後,關於開源這件事兒騰訊進入了快節奏時代,一年內爆發式輸出超過20個高質量的開源項目。2018年930變革後,由於開源項目比較多,騰訊還成立了開源管理辦公室來引導開源項目的對外發布和管理。同時,騰訊也加強了與頂級開源基金會的合作,逐步形成了騰訊特色開源路線。
  • 騰訊Techo Park開發者大會正式召開,重磅發布雲原生線路圖、雲梯計劃
    騰訊雲還重磅升級和發布了八款產品,以成熟穩定的服務方式,推動雲原生新技術能快速落地。 作為騰訊牽頭社區多家廠商共同發起的一個的開源項目,騰訊將開源邊緣容器產品 TKE Edge 中邊緣相關的原始碼,並貢獻到 SuperEdge 開源項目中。此次發布後,SuperEdge 將開啟開源基金會的捐贈流程,進一步確立其社區性和中立性。
  • 算法庫開源講座第一講:港中文MMLab博士詹曉航帶你實踐自監督學習...
    「算法庫開源講座」,是智東西公開課繼前沿講座之後,面向開發者和科研人員策劃推出的、專注於講解不同開源算法庫及其開發實踐的一檔開源講座。第一季推出三講,將分別針對開源算法庫OpenSelfSup、OpenPCDet和OpenUnReID的框架組成及開發實踐進行深度講解。