作者 | Johann Zhou
編輯 | 陳大鑫
今天介紹的是一篇已被ECCV 2020接收的論文,這篇論文中提出了一種全新的通用框架,利用共享的主幹網絡,同時解決音頻-視覺學習的兩大主流問題:視覺信息引導的聲源分離和立體聲重構。
本文的核心在於將雙聲源分離問題看作雙通道立體聲重構的特殊情況,從而得以充分利用單通道音頻,利用聲源分離的訓練豐富網絡對更豐富數據的處理能力,提升立體聲重構的效果。
以下是本文提供給會議的長視頻介紹,文章的立體聲重構和聲源分離的效果在視頻後半部分。
完整版視頻:https://hangz-nju-cuhk.github.io/projects/Sep-Stereo
論文連結:https://arxiv.org/pdf/2007.09902.pdf
開原始碼:https://github.com/SheldonTsui/SepStereo_ECCV2020
1
背景介紹
得益於雙耳效應,人類僅憑聲音就可對聲源位置有準確的感知。所以當用戶觀看視頻,尤其是音樂演奏時,視聽信息的和諧對於提升用戶體驗非常重要。視覺信息對應的立體聲效果。由此出發,之前的研究者們提出了用數據驅動的方式,通過視覺信息恢復立體聲的方法[1][2]。他們的核心思想,都是先將錄製好的立體聲(多通道音頻)數據,還原成單通道音頻,再使用神經網絡學習單通道到多通道的映射。然而這些基於深度學習的方法依賴專業設備(見下圖a,b)採集的視頻與立體聲數據,所以數據的缺乏限制了目前學術界的發展。
與此同時,有單通道音頻的視頻卻很好收集,在視覺引導的聲源分離領域(請見近期發展review),這種數據已經被大規模得用於神經網絡的訓練。而基於觀察,聲源分離和立體聲重構問題都需要找到聲源形象在視覺信息中的位置,並將其與音頻中對應的樂器音色對應起來。甚至立體聲重構可以看做將聲源進行分離後的重組,這啟發作者將這兩個任務進行統一。
2
核心思想
本文的核心在於把雙聲源的分離問題,看作左右聲道立體聲重構的一個特殊問題,從而把聲源分離和立體聲重構統一進一個框架。具體來說,我們可以將同時演奏的兩個聲源,人為的放在人類視野的最左端和最右端,並認為兩個聲源中間的空間一無所有。在此情況下,我們認為人的左耳只能聽到左邊聲源的聲音,右耳只能聽到右邊聲源的聲音,從而將聲源分離問題轉化為立體聲重構問題。
將兩個任務統一的學習過程類似 Multi-task Learning。而我們的動機更多是在於通過聲源分離,使得更多類型的音頻經過主幹網絡,從而使用大量的單通道音頻,提高主幹網絡在進行立體聲重構任務時對不同輸入的泛化能力和建模能力(capacity)。
3
方法框架
本文方法的整體框架如上圖所示,在訓練中可以被分為立體聲學習和分離學習兩部分。
立體聲學習在上圖下半部分,在網絡中的輸入是單通道的音頻的短時傅立葉變換(STFT)頻譜和一張參考圖像,網絡預測的目標是立體聲左右兩通道分別的STFT頻譜。主幹網絡我們follow Mono2Binaural[1],使用了和他們一樣的UNet,並保留了和他們一樣的損失函數,作為立體聲學習的基礎。相似地,直接預測頻譜是比較困難的事,所以我們預測的是目標頻譜相對於輸入頻譜的Mask。
分離學習在上圖上半部分,網絡的視覺信息輸入是兩段獨立的單人演奏視頻,音頻信息則是將兩段音頻混合得到的單通道結果。網絡預測的目標是這兩段獨立音頻分別的頻譜。在這種場景下,分離學習和立體聲學習的音頻輸入輸出維度得到了統一,都是單通道—>雙通道音頻,所以分離中的獨立音頻a和b可以和立體聲中的左耳(l)和右耳(r)頻譜放在同等位置。
聯合金字塔網絡(Associative Pyramid Network,APNet)
對於立體聲學習,我們需要音頻信息與視覺網絡抽取的視覺特徵中不同位置的信息相互作用。於是我們設計了聯合金字塔網絡(APNet),一個依賴主幹UNet的側枝網絡,通過coarse-to-fine的方式把視覺和音頻信息聯繫起來。網絡設計的理念是假設立體聲來源於各個視覺特徵位置所對應的音頻信息的組合,所以網絡的作用在於引導不同位置的視覺特徵與頻譜的特徵分別進行融合,生成與位置信息強相關的新層,從而希望網絡自然地從不同位置的視覺特徵中學出顯著特徵(樂器)所在的位置和類別。
具體的操作如下圖(a)所示,對於視覺網絡直接encode的(b)每個位置的視覺特徵,我們將其變為一個1x1卷積核的每個channel,用其對音頻網絡的各層進行加權組合成新的APNet網絡中的層。從不同尺度UNet獲得的APNet的特徵再通過upsample操作進行積累。最後一層APNet特徵代表了不同位置視覺特徵對應的音頻頻譜響應,所以我們最終使用兩個卷積將其統一為要預測的左右通道頻譜的Mask。
視覺信息的重排列
立體聲學習和分離學習的最重要的區別在於視覺信息的應用。對於立體聲學習,網絡需要預測每個顯著特徵(樂器)在空間中的相對位置和類別;而對分離學習,只有類別信息是最重要的,位置信息不起作用。我們的做法是手動對視覺特徵進行操作,將兩個視頻的視覺特徵進行Max Pooling操作,並希望以此找到視覺特徵中最重要的部分(樂器),然後人為的將其放在一個空白的視覺特徵的最兩側,如上圖(c)所示。如此一來,我們假設人的視野中只有最左和最右兩側可以看到物體,而中間部分是完全沒有意義的空間。這一假設與我們APNet的motivation也可以完美結合,此時對左右通道有貢獻的只有視覺信息的最左和最右部分,從而可以假設左耳只能聽到左邊的樂器而右耳只能聽到右邊樂器的聲音。
訓練流程
通過APNet和視覺信息的重排列,我們可以將分離學習和立體聲學習完全統一到同一個網絡的訓練中。不過在我們自己對結果進行復現的過程中發現如果完全使用共享的網絡參數,網絡會很難收斂,所以最終版本的分離學習和立體聲學習共享整個音頻主幹UNet網絡和視覺信息的encoder,而兩支分別用兩個獨立的APNet作為Head。
4
實驗結果
在立體聲重構的數值結果上,我們超過了之前的方法Mono2Binaural[1],同時驗證了我們方法各個模塊的有效性。在聲源分離實驗上,我們也取得了和專攻分離的論文相似的結果。不過自然,生成相關的paper只看數值結果沒有說服力,我們推薦大家戴上耳機去聽我們提供的視頻。
我們還根據視覺特徵的激活程度,展示了網絡在視覺信息中所關注的位置。更多詳細得分析和方法的細節還請參見論文和補充材料。
5
總結
本文把視覺引導的聲源分離任務和立體聲重構任務結合,統一到我們的Sep-Stereo框架內,並因此利用了大量的單通道音頻,提升了立體聲重構的效果。這篇工作在兩個任務上都展示了很強的結果,並提高了雙通道立體聲重構的SOTA。不過這篇工作還有很多問題沒有解決:(1)人工重排列的視覺特徵和真實encode得的視覺特徵之間存在明顯的domain gap,使得網絡在真實場景中的泛化能力依然有限。(2)應用場景受限於音樂數據,距離實際應用距離甚遠。希望這篇文章能引起大家對這個領域的科研興趣,可以有更多人向更深的層次探索。
參考文獻:
[1] Gao, R., Grauman, K.: 2.5 d visual sound. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019).
[2] Morgado, P., Nvasconcelos, N., Langlois, T., Wang, O.: Self-supervised generation ofspatial audio for 360 video. In: Advances in Neural Information Processing Systems. (NeurIPS 2018).
[3] Zhou, H., Xu, X., Lin, D., Wang, X., Liu, Z.: Sep-stereo: Visually guided stereophonic audio generation by associating source separation. In: Proceedings of the European Conference on Computer Vision (ECCV 2020).
知乎專欄:https://zhuanlan.zhihu.com/p/162689191?utm_source=wechat_session&utm_medium=social&utm_oi=540650933827309568
[博文視點贈書福利]
AI科技評論聯合博文視點贈送周志華教授「森林樹」十五本,在「周志華教授與他的森林書」一文留言區留言,談一談你和集成學習有關的學習、競賽等經歷。
AI 科技評論將會在留言區選出15名讀者,每人送出《集成學習:基礎與算法》一本。
活動規則:
1. 在「周志華教授與他的森林書」一文留言區留言,留言點讚最高的前 15 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。
2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。
3. 本活動時間為2020年8月23日 - 2020年8月30日(23:00),活動推送內僅允許中獎一次。