...聯合商湯提出視覺引導的聲源分離輔助立體聲重構方法 Sep-Stereo

2020-12-14 AI 科技評論

作者 | Johann Zhou

編輯 | 陳大鑫

今天介紹的是一篇已被ECCV 2020接收的論文,這篇論文中提出了一種全新的通用框架,利用共享的主幹網絡,同時解決音頻-視覺學習的兩大主流問題:視覺信息引導的聲源分離和立體聲重構。

本文的核心在於將雙聲源分離問題看作雙通道立體聲重構的特殊情況,從而得以充分利用單通道音頻,利用聲源分離的訓練豐富網絡對更豐富數據的處理能力,提升立體聲重構的效果。

以下是本文提供給會議的長視頻介紹,文章的立體聲重構和聲源分離的效果在視頻後半部分。

完整版視頻:https://hangz-nju-cuhk.github.io/projects/Sep-Stereo

論文連結:https://arxiv.org/pdf/2007.09902.pdf

開原始碼:https://github.com/SheldonTsui/SepStereo_ECCV2020

1

背景介紹

得益於雙耳效應,人類僅憑聲音就可對聲源位置有準確的感知。所以當用戶觀看視頻,尤其是音樂演奏時,視聽信息的和諧對於提升用戶體驗非常重要。視覺信息對應的立體聲效果。由此出發,之前的研究者們提出了用數據驅動的方式,通過視覺信息恢復立體聲的方法[1][2]。他們的核心思想,都是先將錄製好的立體聲(多通道音頻)數據,還原成單通道音頻,再使用神經網絡學習單通道到多通道的映射。然而這些基於深度學習的方法依賴專業設備(見下圖a,b)採集的視頻與立體聲數據,所以數據的缺乏限制了目前學術界的發展。

與此同時,有單通道音頻的視頻卻很好收集,在視覺引導的聲源分離領域(請見近期發展review),這種數據已經被大規模得用於神經網絡的訓練。而基於觀察,聲源分離和立體聲重構問題都需要找到聲源形象在視覺信息中的位置,並將其與音頻中對應的樂器音色對應起來。甚至立體聲重構可以看做將聲源進行分離後的重組,這啟發作者將這兩個任務進行統一。

2

核心思想

本文的核心在於把雙聲源的分離問題,看作左右聲道立體聲重構的一個特殊問題,從而把聲源分離和立體聲重構統一進一個框架。具體來說,我們可以將同時演奏的兩個聲源,人為的放在人類視野的最左端和最右端,並認為兩個聲源中間的空間一無所有。在此情況下,我們認為人的左耳只能聽到左邊聲源的聲音,右耳只能聽到右邊聲源的聲音,從而將聲源分離問題轉化為立體聲重構問題。

將兩個任務統一的學習過程類似 Multi-task Learning。而我們的動機更多是在於通過聲源分離,使得更多類型的音頻經過主幹網絡,從而使用大量的單通道音頻,提高主幹網絡在進行立體聲重構任務時對不同輸入的泛化能力和建模能力(capacity)。

3

方法框架

本文方法的整體框架如上圖所示,在訓練中可以被分為立體聲學習和分離學習兩部分。

立體聲學習在上圖下半部分,在網絡中的輸入是單通道的音頻的短時傅立葉變換(STFT)頻譜和一張參考圖像,網絡預測的目標是立體聲左右兩通道分別的STFT頻譜。主幹網絡我們follow Mono2Binaural[1],使用了和他們一樣的UNet,並保留了和他們一樣的損失函數,作為立體聲學習的基礎。相似地,直接預測頻譜是比較困難的事,所以我們預測的是目標頻譜相對於輸入頻譜的Mask。

分離學習在上圖上半部分,網絡的視覺信息輸入是兩段獨立的單人演奏視頻,音頻信息則是將兩段音頻混合得到的單通道結果。網絡預測的目標是這兩段獨立音頻分別的頻譜。在這種場景下,分離學習和立體聲學習的音頻輸入輸出維度得到了統一,都是單通道—>雙通道音頻,所以分離中的獨立音頻a和b可以和立體聲中的左耳(l)和右耳(r)頻譜放在同等位置。

聯合金字塔網絡(Associative Pyramid Network,APNet)

對於立體聲學習,我們需要音頻信息與視覺網絡抽取的視覺特徵中不同位置的信息相互作用。於是我們設計了聯合金字塔網絡(APNet),一個依賴主幹UNet的側枝網絡,通過coarse-to-fine的方式把視覺和音頻信息聯繫起來。網絡設計的理念是假設立體聲來源於各個視覺特徵位置所對應的音頻信息的組合,所以網絡的作用在於引導不同位置的視覺特徵與頻譜的特徵分別進行融合,生成與位置信息強相關的新層,從而希望網絡自然地從不同位置的視覺特徵中學出顯著特徵(樂器)所在的位置和類別。

具體的操作如下圖(a)所示,對於視覺網絡直接encode的(b)每個位置的視覺特徵,我們將其變為一個1x1卷積核的每個channel,用其對音頻網絡的各層進行加權組合成新的APNet網絡中的層。從不同尺度UNet獲得的APNet的特徵再通過upsample操作進行積累。最後一層APNet特徵代表了不同位置視覺特徵對應的音頻頻譜響應,所以我們最終使用兩個卷積將其統一為要預測的左右通道頻譜的Mask。

視覺信息的重排列

立體聲學習和分離學習的最重要的區別在於視覺信息的應用。對於立體聲學習,網絡需要預測每個顯著特徵(樂器)在空間中的相對位置和類別;而對分離學習,只有類別信息是最重要的,位置信息不起作用。我們的做法是手動對視覺特徵進行操作,將兩個視頻的視覺特徵進行Max Pooling操作,並希望以此找到視覺特徵中最重要的部分(樂器),然後人為的將其放在一個空白的視覺特徵的最兩側,如上圖(c)所示。如此一來,我們假設人的視野中只有最左和最右兩側可以看到物體,而中間部分是完全沒有意義的空間。這一假設與我們APNet的motivation也可以完美結合,此時對左右通道有貢獻的只有視覺信息的最左和最右部分,從而可以假設左耳只能聽到左邊的樂器而右耳只能聽到右邊樂器的聲音。

訓練流程

通過APNet和視覺信息的重排列,我們可以將分離學習和立體聲學習完全統一到同一個網絡的訓練中。不過在我們自己對結果進行復現的過程中發現如果完全使用共享的網絡參數,網絡會很難收斂,所以最終版本的分離學習和立體聲學習共享整個音頻主幹UNet網絡和視覺信息的encoder,而兩支分別用兩個獨立的APNet作為Head。

4

實驗結果

在立體聲重構的數值結果上,我們超過了之前的方法Mono2Binaural[1],同時驗證了我們方法各個模塊的有效性。在聲源分離實驗上,我們也取得了和專攻分離的論文相似的結果。不過自然,生成相關的paper只看數值結果沒有說服力,我們推薦大家戴上耳機去聽我們提供的視頻。

我們還根據視覺特徵的激活程度,展示了網絡在視覺信息中所關注的位置。更多詳細得分析和方法的細節還請參見論文和補充材料。

5

總結

本文把視覺引導的聲源分離任務和立體聲重構任務結合,統一到我們的Sep-Stereo框架內,並因此利用了大量的單通道音頻,提升了立體聲重構的效果。這篇工作在兩個任務上都展示了很強的結果,並提高了雙通道立體聲重構的SOTA。不過這篇工作還有很多問題沒有解決:(1)人工重排列的視覺特徵和真實encode得的視覺特徵之間存在明顯的domain gap,使得網絡在真實場景中的泛化能力依然有限。(2)應用場景受限於音樂數據,距離實際應用距離甚遠。希望這篇文章能引起大家對這個領域的科研興趣,可以有更多人向更深的層次探索。

參考文獻:

[1] Gao, R., Grauman, K.: 2.5 d visual sound. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019).

[2] Morgado, P., Nvasconcelos, N., Langlois, T., Wang, O.: Self-supervised generation ofspatial audio for 360 video. In: Advances in Neural Information Processing Systems. (NeurIPS 2018).

[3] Zhou, H., Xu, X., Lin, D., Wang, X., Liu, Z.: Sep-stereo: Visually guided stereophonic audio generation by associating source separation. In: Proceedings of the European Conference on Computer Vision (ECCV 2020).

知乎專欄:https://zhuanlan.zhihu.com/p/162689191?utm_source=wechat_session&utm_medium=social&utm_oi=540650933827309568

[博文視點贈書福利]

AI科技評論聯合博文視點贈送周志華教授「森林樹」十五本,在「周志華教授與他的森林書」一文留言區留言,談一談你和集成學習有關的學習、競賽等經歷。

AI 科技評論將會在留言區選出15名讀者,每人送出《集成學習:基礎與算法》一本。

活動規則:

1. 在「周志華教授與他的森林書」一文留言區留言,留言點讚最高的前 15 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。

2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。

3. 本活動時間為2020年8月23日 - 2020年8月30日(23:00),活動推送內僅允許中獎一次。

相關焦點

  • 多視圖立體視覺:CVPR 2019 與 AAAI 2020 上的ACMH、ACMM及ACMP...
    點擊上方「3D視覺工坊」,選擇「星標」乾貨第一時間送達多視圖立體視覺(MVS)一直是計算機視覺研究的一個熱點。它的目的是從多個已知相機姿態的圖像中建立密集的對應關係,從而產生稠密的三維點雲重建結果。然而,在三維重建任務中,由於數據量大、弱紋理、遮擋、反射等問題,如何高效準確地實現多視圖立體視覺仍然是一個具有挑戰性的問題。
  • 淺談立體視覺
    淺談立體視覺 2020-10-23 16:41 來源:澎湃新聞·澎湃號·湃客
  • 我國近視人數超6億 3D立體視覺訓練或成未來趨勢
    方案提出,建立近視綜合防控長效機制,加強政府主導作用,將兒童青少年近視防控工作、總體近視率和體質健康狀況納入政府績效考核,籤訂全面加強兒童青少年近視防控工作責任書,建立符合當地兒童青少年近視綜合防控工作計劃,推廣兒童青少年近視防控關鍵技術,摸索出符合當地特點的近視防控措施和方法。
  • 國防科大周鶴峰博士為您講述聲全息技術:讓聲音唾手可「見」
    而人耳的鼓膜所接收的是所有聲源產生聲音的疊加,當聲源數量多、聲學環境複雜時,就會難以分辨。這就給聲源信號的處理與分析增加了難度。換句話說,聲音能聽到,卻難分清、難辨準。在對聲學的不斷求索中,科學家們發現聲與光有著許多相似之處:它們都是以波動形式進行傳播的,遵循相同的反射、折射以及散射定律,且都具有能量;視覺與聽覺的形成,都藉助於某些傳感器發揮作用,生成生物電信號。
  • 我國近視人數超6億 3D立體視覺訓練成未來趨勢
    方案提出,建立近視綜合防控長效機制,加強政府主導作用,將兒童青少年近視防控工作、總體近視率和體質健康狀況納入政府績效考核,籤訂全面加強兒童青少年近視防控工作責任書,建立符合當地兒童青少年近視綜合防控工作計劃,推廣兒童青少年近視防控關鍵技術,摸索出符合當地特點的近視防控措施和方法。
  • 終結戰場聲源提示指南 聲源提示怎麼看
    《終結戰場》中,會有聲源提示,那麼聲源提示有什麼呢?聲源提示怎麼看呢?看下《終結戰場》聲源提示指南吧。
  • Python中九九乘法表與古詩對話機器人及sep-end值
    print("%s * %s = %s\t" % (j ,i, j * i),end="")# for循環完成之後用於換行print()# 不適用end=""區別# Python中內置值sep="",end=""# sep="",end=""通常用於print()中,是我們的輸出可以更加個性化一些,配合轉義字符串\n,\t等來使用# sep:分割值與值,多個參數輸出時想要輸出中間的分隔字符,默認是一個空格# end:輸出結束時的字符,默認是一個\n
  • SmartDb 1.0.0 發布,支持多資料庫、多數據源、讀寫分離的極速...
    SmartDb 是以SQL為中心,支持多數據源、讀寫分離,同時又不與原有項目mybatis、hibernate
  • 在攝影中怎樣使用引導線式構圖,拍出大片!
    攝影師做出的最重要決定是在創建圖像時定義構圖規則,在這篇文章中,將解釋各種元素如何成為參考線以及如何為拍攝增加視覺效果。輔助線通常從圖像左下角或右下角或圖像底部延伸,良好的引導線會營造出一種流動感和平衡感,從而吸引觀眾的注意力。
  • 案例精選|視覺單件分離在順豐東莞中轉場的應用
    但前端的包裹分離環節仍主要依靠人工實現,需手動調整包裹面單向上並將並行包裹依次排開,這種人工的分離方式不僅需要投入大量的人力成本,而且勞動強度大、處理效率低,與後端的自動分揀機系統嚴重不匹配。為此,山東新北洋、深圳順豐強強聯合,創新性開發了一套基於機器視覺的裹單件分離處理設備。
  • 雷射SLAM與視覺SLAM的現狀與趨勢
    而按照核心的功能模塊來區分,目前常見的機器人SLAM系統一般具有兩種形式:基於雷射雷達的SLAM(雷射SLAM)和基於視覺的SLAM(Visual SLAM或VSLAM)。雷射SLAM簡介雷射SLAM脫胎於早期的基於測距的定位方法(如超聲和紅外單點測距)。雷射雷達(Light Detection And Ranging)的出現和普及使得測量更快更準,信息更豐富。
  • 全民「看臉」的時代,如何通過視覺營銷設計吸粉又吸金?
    由此可見,消費是可以被視覺所引導的。 尤其是在顏值經濟時代,商場設計作為一種新型的營銷方式將在其中發揮出巨大的作用。 而任何的商業理論都是從自然和生活中得到啟發,AIDCA(由美國廣告人路易斯提出的具有代表性的消費者心理模式)亦如此。
  • 分離,隔離,孤立 separate, isolate, quarantine和insulate
    分離,隔離,孤立 separate, isolate, quarantine和insulateseparate [seprt , sepret]單獨的,獨立的,分開的不同的,不相關的(使)分開,分離分割,劃分
  • 一種低成本、高精度的雷射雷達輔助視覺SLAM系統
    一種低成本、高精度的雷射雷達輔助視覺SLAM系統 松靈機器人 發表於 2020-12-23 10:30:00   低成本雷射雷達
  • FAIR提出通用音樂轉換網絡:你的口哨聲也能變成交響樂
    Facebook AI Research 近日提出了一種基於多域 WaveNet 自編碼器的跨樂器、流派、風格的音樂轉換方法。在 NSynth 和從專業音樂家收集的數據集上的實驗評估上,該網絡實現了令人信服的音樂轉換,甚至可以轉換口哨聲;這使得未經訓練的人類也具有了創作樂器音樂的潛能。
  • 綜述國內外三維視覺測量系統的發展現狀
    經過幾十年發展,三維視覺測量系統已具有較成熟的理論和技術基礎,生產實踐也不斷證明這類系統操作簡便、適應性強、精度高[2]。從狹義上講,三維視覺測量技術即通過計算機分析處理,讓計算機不僅具有和人眼一樣的視覺感受,而且能夠獲得人眼所不能直接獲得的經過量化的物體參數。獲取空間三維物體的距離信息是三維成像、三維物體重建和計算機輔助設計中最基礎的內容,有著廣泛的實際應用價值。
  • 氫氣分離的主要方法
    氫氣分離的主要方法 在氫氣的分離純化過程中,氫源中的雜質組分和含量不盡相同,採用不同的分離方法得到的分離效率及效果也不同。常見的分離法有:低溫分離法(也稱深冷法)、選擇吸附法、金屬氫化物淨化法和膜分離法。 1. 低溫分離法(也稱深冷法) 深冷法是利用在低溫條件下,原料氣組分的相對揮發度差(沸點差),部分氣體冷凝,從而達到分離的目的。
  • 《DNF》融合裝備怎麼分離 融合裝備分離方法分享
    導 讀 DNF中的融合裝備我們應該怎麼分離呢?具體的分離方法是什麼呢?很多小夥伴還不是很了解。
  • 靈芝立體栽培方法
    野生靈芝以死闊葉樹為營養源。它生長在闊葉樹的樹樁或枯枝上。每年夏天和秋天都會發生,長出果實,到秋天結束。菌絲在樹上越冬,到第二年再萌動。我國的靈芝人工栽培已從最初的木材栽培發展到利用木屑、棉籽殼和各種農作物秸稈進行瓶袋栽培。縮短了種植周期,降低了生產成本,減少了木材資源的消耗。近年來,人們還利用靈芝優美多彩的造型,製作盆景和旅遊工藝品。靈芝巨大的商業潛在價值正在逐步發展。