12月13-14日,由LiveVideoStack音視頻技術社區攜手CSDN發起的LiveVideoStackCon 2019在深圳正式召開。會上,來自騰訊多媒體實驗室的李松南總監帶來了題為 《圖像視頻降噪的今天與未來:從經典方法到深度學習》的主題演講,對圖像視頻降噪技術的現狀及發展前景進行了深入淺出的闡釋。
作為多媒體技術領域的盛會,LiveVideoStackCon音視頻技術大會聚焦音頻、視頻、圖像、AI等技術的最新探索與應用實踐,覆蓋社交、遊戲、智能設備等行業領域,面向工程師、技術負責人等行業相關人士分享技術創新與最佳實踐。本次大會,聚集了60餘名海內外技術專家和150餘家參會企業圍繞前沿技術發展進行探討。
對於喜歡欣賞老電影的用戶來說,圖像視頻中的噪聲其實是非常熟悉的事物。在將膠片形式的內容轉化為數字格式存儲時,由傳感器、掃描儀電路所產生的圖像亮度或色彩的隨機波動被稱為視頻噪聲——在欣賞電影時出現的閃爍、模糊、色彩不均勻等現象均是由此導致的。無獨有偶,在使用數位相機進行照片拍攝時,當相機的感光度被調到較高的數值時,拍攝到的畫面中很容易出現噪點。噪點的出現嚴重影響了照片的觀賞性,為了解決這一問題,圖像視頻降噪技術便應運而生。
騰訊多媒體實驗室,融合經典方法和深度學習技術,在圖像視頻降噪領域已經積累多年,研究成果已經在騰訊雲、全民K歌、微視等騰訊內外部產品、場景中廣泛應用。
探索圖像視頻降噪技術,經典方法+深度學習雙管齊下
據李松南介紹,騰訊多媒體實驗室在圖像視頻降噪領域已經積累多年。以數位相機拍攝產生的噪點為例:噪聲主要是由於感光元器件接收光子的隨機性產生,而單位面積內平均接收到的光子越多,信號的信噪比越大,人眼感受到的噪聲就越小。因此可以通過增大感光元件的尺寸,提升單位感光面積來提高信噪比,這也就是為什麼數位相機領域素有「底大一級壓死人」的說法。「我們還可以採用更先進的感光元件技術以及像素融合(多個像素組合成一個像素,提升單位像素內的光信息量)的方式來解決這一問題,這也是目前圖像視頻降噪技術領域常見的硬體手段。」
由於製造工藝的限制,在同一技術框架下,硬體不可能做到無止境的提升,為了進一步解決噪聲問題,需要藉助軟體。基於統計模型的單幀降噪是可選項之一,它具備速度快、效果好的特點。與之相對的,為了彌補單幀降噪應用場景的局限性,多幀降噪也是目前常見的降噪方法。簡單來說,多幀降噪通過對齊和融合的步驟,將連續的多幀圖像合成一幀圖像,增加了圖像的信噪比,克服了長時間曝光帶來的圖像模糊。
為了進一步提升降噪的質量和效率,近年來應用廣泛的深度學習方法也被應用在了圖像視頻降噪領域。李松南表示,基於深度學習的降噪算法,在計算複雜度方面還存在較大問題,但隨著硬體能力的升級以及異構計算的使用,複雜度問題已經慢慢開始得到解決。此外,大規模的真實噪聲資料庫、模擬真實噪聲等技術手段的出現,也讓深度學習方法的效率和質量獲得了進一步的提升。目前騰訊多媒體實驗室在該領域的研究成果已廣泛應用於騰訊雲、全民K歌、微視等騰訊旗下的產品之中。
展望未來,圖像視頻降噪技術大有可為
目前,圖像視頻降噪技術呈現出硬體化、智能化以及多功能化三個發展趨勢,通過數據採集端的專用硬體,輔以更高的深度學習比重以及構建能夠同時處理多種失真的模型的方式,實現更加高效、更加便捷的圖像視頻降噪處理。
騰訊多媒體實驗室,專注於多媒體技術領域的前沿技術探索、研發、應用和落地,包含音視頻編解碼、網絡傳輸和實時通信,基於信號處理和深度學習的多媒體內容處理、分析、理解和質量評估,互動沉浸式媒體(VR、AR、點雲等)系統設計和端到端解決方案;同時負責國際國內行業標準制定,包含多媒體數據壓縮,網絡傳輸協議,多媒體系統和開源平臺等。
李松南介紹說,「我們將在未來進一步發力圖像視頻降噪技術,將越來越多具備重要意義的影像資料以高清晰度重現在我們面前。未來,我們還將看到這一技術在更多的領域大放異彩。」