深度學習把單聲道錄音變成身臨其境的聲音

2020-12-22 科技前行者

我們已經有了幾十年的3D圖像,但是有效地模仿3D聲音一直是研究人員所迴避的問題。現在,機器學習算法可以通過觀看視頻產生「2.5D」的聲音。

聽著附近樹上小鳥的歌唱,你就能相對快速地辨認出它的大致位置,而不用看。當你過馬路時,聽聽汽車引擎的轟鳴聲,你通常能立即知道它是否在你身後。

人類在三維空間定位聲音的能力是非凡的。這一現象得到了很好的理解——它是耳朵形狀不對稱以及耳朵之間距離不對稱的結果。

但是,儘管研究人員已經學會了如何創建容易欺騙我們的視覺系統的3D圖像,但還沒有人找到一種令人滿意的方法來創建能夠令人信服地欺騙我們的聽覺系統的合成3D聲音。

如今,這種狀況似乎至少在一定程度上將發生改變,這要歸功於德克薩斯大學at分校的高若翰(Ruohan Gao)和Facebook Research的克裡斯汀格勞曼(Kristen Grauman)的研究。他們使用了一種人類也會利用的技巧,來教人工智慧系統將普通的單聲道聲音轉換成相當不錯的3D聲音。研究人員稱之為2.5D聲音。

第一次的一些背景知識。大腦利用各種線索來判斷聲音來自3D空間的哪裡。一個重要的線索是聲音到達每隻耳朵的時間的差異——耳間時差。

在你左邊發出的聲音顯然會比在你右邊發出的聲音先到達你的左耳。雖然你沒有意識到這種差異,但大腦用它來確定聲音的來源。

另一個線索是體積的差異。同樣的聲音在左耳會比右耳更大,大腦也會利用這一信息進行計算。這叫做耳間電平差。

這些差異取決於兩耳之間的距離。立體聲錄音不會再現這種效果,因為立體聲麥克風的分離與之不匹配。

聲音與耳垂相互作用的方式也很重要。襟翼會根據聲音到達的方向來扭曲聲音。例如,一個聲音從前面到達耳道之前擊中耳瓣。相比之下,同樣的聲音從頭部後面發出,在到達耳道之前就被耳瓣扭曲了。

大腦也能感覺到這些差異。事實上,耳朵的不對稱形狀是我們能夠分辨聲音是來自上方,還是其他許多方向的原因。

人工複製3D聲音的技巧是再現所有這些幾何形狀對聲音的影響。這是一個棘手的問題。

測量失真的一種方法是雙耳錄音。這是一段通過在每隻耳朵裡放一個麥克風來錄製的錄音,它可以捕捉到這些微小的變化。

通過分析這些變異,研究人員可以使用一種數學算法來重現它們,這種算法被稱為「頭部相關傳遞函數」。這就把任何一副普通的耳機變成了非凡的3D音響。

但是因為每個人的耳朵是不同的,每個人以不同的方式聽到聲音。因此,創造一個人的頭部相關傳遞函數意味著在播放錄音之前測量這個人的耳朵的形狀。雖然這可以在實驗室裡完成,但是沒有人知道如何在野外完成。

儘管如此,仍然有一些方法可以利用不依賴於耳朵形狀的聲音失真來近似三維聲音——耳朵間的時間和水平差異。

格勞曼和高使用的技巧是通過視覺線索來確定聲音的方向(人類也經常這樣做)。因此,如果有一個場景的視頻和單聲道錄音,機器學習系統就會計算出聲音來自哪裡,然後扭曲聽覺間的時間和水平差異,從而為聽者產生這種效果。

例如,想像一段視頻,兩個音樂家在演奏鼓和鋼琴。如果鼓在視野的左邊鋼琴在右邊,很容易假設鼓的聲音應該來自左邊鋼琴應該來自右邊。這就是這個機器學習系統所做的,相應地扭曲了聲音。

研究人員的訓練方法相對簡單。訓練任何機器學習系統的第一步是創建一個資料庫,其中包含它需要學習的效果的示例。格勞曼和高通過對2000多個音樂片段的雙耳錄音製作了一個,他們也對這些音樂片段進行了錄像。

他們的雙耳記錄儀由一對合成的耳朵組成,耳朵之間的間距相當於一個人頭的寬度,這對耳朵還可以用GoPro相機記錄前方的場景。

然後,研究小組用這些錄音來訓練機器學習算法,根據現場視頻識別聲音來自哪裡。學會了這一點,它就能夠觀看視頻,然後以一種模擬聲音應該來自哪裡的方式扭曲單耳錄音。Grauman和Gao說:「我們將結果輸出的聲音稱為2.5D的視覺聲音——視頻流幫助『提升』平面單聲道音頻到空間化的聲音中。」

結果令人印象深刻。你可以在這裡觀看他們工作的視頻——觀看的時候一定要戴上耳機。

這段視頻將2.5D錄音和單耳錄音的結果進行了比較,並展示了其效果。「預測的2.5D視覺聲音提供了更身臨其境的音頻體驗,」格勞曼和高說。

然而,由於上面提到的原因,它並不能產生完整的3D聲音——研究人員沒有創建一個個性化的頭部相關傳輸功能。

同時,該算法也存在一些難以處理的問題。顯然,系統無法處理視頻中不可見的任何聲源。它也不能處理未經訓練而無法識別的聲源。該系統主要針對音樂視頻。

儘管如此,格勞曼和高有一個聰明的想法,適用於許多音樂視頻。他們還雄心勃勃地要擴展它的應用。他們說:「我們計劃探索結合物體定位和運動的方法,並明確地模擬場景聲音。」

相關焦點

  • 想要保證錄音質量,你需要的不止是一個手機,還有其他
    換句話說,智慧型手機實際上非常好,如果不是比許多數字錄音機更好,除去不必要的噪音,讓你只聽到你想聽到的聲音。在購買可攜式錄音設備之前,值得在智慧型手機上測試應用程式。小編為Android和iOS設備測試了多個應用程式,智能錄音機,簡易錄音機,錄音專業版,錄音機,錄音機HD和Evernote。這些應用通常具有相同的音頻質量。
  • 《歸來》錄音師:張藝謀看不起好萊塢
    12日,該片錄音師陶經對話媒體,分享錄音方面的幕後故事。他透露該片是國內第一部嘗試用全景聲技術錄音的文藝片,在聲音上的打磨非常細膩。說起多年的合作夥伴張藝謀,陶經則說,「我能看到他在抵抗那種去迎合觀眾拍片的誘惑,放棄了很多功利的東西,回歸到電影本身。」而談到與他同齡的包括張藝謀、陳凱歌、顧長衛等第五代電影人,他說,「他們其實一直看不起好萊塢。」
  • 擇聲童聲錄音兼職招募(400/時)-試音文本及要求
    遠程兼職則需家中擁有專業錄音設備(音效卡、麥克風、防噴網等),提交的試音音頻需原始音頻不降噪並達到以下音質要求:格式:wav,採樣率:48000Hz,聲道:單聲道,位深度:32(浮點),音頻峰值能到-9dB,底噪振幅峰值幅度<-55dB(Au中打開振幅統計窗口,截取一段環境音「掃描選區」即可查看底噪的「峰值幅度」)
  • iPhone錄音、巧避回聲....杜篤之對聲音的運用真是出神入化
    近年發展出多軌錄音,訓練現場錄音師拆解聲音,現場分開,目前可以用20個頻道收錄,學習如何拆解聲音,後期組合可以去掉不想要的,留下想要的,也能任意擺放聲音位置,品質更好。後制也不同:3聲道、5聲道、7.1、全景聲(ATMOS),既然可以呈現如此豐富音源,拍攝現場要如何收音?只用過去收音方式是無法滿足目前複雜的規格。
  • 身臨其境,森聲Lifelike VR錄音耳機評測
    但僅僅滿足了眼睛並不能給人很強的代入感,畢竟耳朵會告訴你這是錄音,那有沒有辦法可以讓聲音真實起來呢?方法還是有的,通過仿真人頭錄音可以給人帶來仿佛身臨其境般的聽覺感受,但鑑於此類錄音設備均價格高昂,許多人就此望而怯步,而今天我們要評測的森聲Lifelike VR錄音耳機作為一款售價僅為399元的聲場超保真錄音設備,其能否讓上述的門檻得以打破呢?
  • iPhone喇叭只有一邊有聲音?左邊喇叭沒聲音是壞了嗎?
    iPhone喇叭只有一邊有聲音問題,都是首次購買 iPhone 用戶的最大疑慮,多數都以為自己拿到機王或喇叭(揚聲器)故障,實際上這是蘋果故意替
  • 關於耳機的左右聲道,你想知道的和你該知道的都在這
    1.符合音樂的錄製原理    音樂在錄製時是利用兩個話筒按照左右聲道進行錄製的,目的是為了保證放音的高還原性。L為左聲道,也是英文字母Left」的英文簡寫,耳朵會接收到相應左聲道的聲音;R為右聲道,也就是英文字母Right「的英文簡寫,耳朵會接收相應右聲道的聲音。
  • 5.1聲道家庭影院為什麼要搭配7.1聲道功放?
    要回答這個問題不得不重提一下北京金誠影音在做家庭影院方案及設備搭配一直遵循三項原則:1、超高性價比(一切從客戶角度出發,為客戶著想,同等價位我們家庭影院器材搭配更合理,聲音圖像表現更出色,同等價位給客戶不一樣的體驗);2、整套系統的可擴展性,適應電子產品快速發展趨向(我們的家庭影院系統設備搭配方案可以緊跟時代隨時升級,同時避免設備重複投資浪費);3超前性(家庭影院器材搭配與聲學裝修,我們站在在行業高端
  • 聆聽花開的聲音 大法錄音筆ICD-UX560F測評
    效果:採用默認音質收錄48kbps(單聲道),人聲十分清晰,沒有破音現場產生,由於採訪時話筒背對廣場舞音響,對於環境中的音樂收音較弱,基本可以聽見音樂聲,但無法分辨曲目。證明在該錄音筆的收音指向性在該模式下很好。由於臨近馬路且在收音方向上過往的車輛聲比音樂聲要大但遠小於人聲音量。在電腦上進行濾頻後效果較好。證明在收音層次及自動過濾指向性雜音上還存在一定問題。
  • 【器材測評】夢想成真的試聽:Audionet MAX 單聲道後級
    最早 MAX 的屏幕是紅色字樣,後來變成藍色字樣,初代 MAX 登場時稱為 AMP II MAX,使用三對 MOSFET 功率晶體,輸出功率為 510 瓦,2003 年改版,變成 4 對 MOSFET,輸出功率是 450 瓦,到了 2008 年之後,拿掉 AMP II 型號,直接稱為 MAX,功率晶體一樣是 4 對 MOSFET,功率變為 400 瓦。奇怪,怎麼越做功率越小?
  • 關於聲道分離度,你需要知道的
    (懶)當然,關於聲道分離度的一些作用我其實在一年多之前的文章中也有所提及。2. 對於耳放或者說耳機系統而言聲道分離度很微妙如果從一開始就看我文章的朋友,或者對聲音的重現、音箱與耳機回放聲音的區別有較為深入理解的人應該明白。為了更深入的了解這個問題本身,我在此還是簡單再重複一遍。
  • 聆聽7.1聲道---Audigy2 ZS Platinum Pro音效卡評測
    在5.1聲道基礎增加「後置中央聲道」就是6.1聲道輸出,7.1聲道是把單一的後置中央聲道分為後左、後右兩個聲道,分開後來自後面的聲音方位感更強,在玩遊戲或欣賞DVD時帶來更逼真的音場感。5.1在電影院和DVD影片中代表錄音時採用5聲道:左邊、右邊、中間、左環繞與右環繞,外加一個重低音,5聲道加重低音(算成.1)就是5.1。
  • 剖析聲音定位原理
    剖析聲音定位原理    其實解釋起來還是一樣的——聲音會從什麼位置傳出來,不過理解起來就顯得抽象多了,畢竟我們是在一個虛擬的環境中聆聽錄音,而不是在現實中去切身感受。那麼下面,我們就為大家來解析一下關於這個定位的問題,這其中會涉及到人對於聲音的判斷、音響器材的擺位、影院聲道和錄音等諸多問題。    下面,我們將會以儘量易於理解的語言為大家帶來解釋。
  • au中多軌創建和多軌錄音注意事項,掌握多軌實現多個聲音同時錄製
    在au音頻編輯軟體中,對於我們在錄製歌曲聲音時一般都是採用單軌聲音錄製即可完成,其實在au軟體中強大的功能之處還在於多軌多聲道聲音的錄製上,在音頻編輯處理軟體中au已經是比較專業的多軌道聲音處理平臺,在多軌項目創建時我們還需要注意創建項目的一些參數的設置
  • 一千元,如何讓小主播實現高大上的錄音效果,這裡告訴你怎麼做
    一千元,如何讓小主播實現高大上的錄音效果,這裡告訴你怎麼做原始錄音是所有音頻編輯的基礎,所以我每次錄音的時候都很重視母帶的保留。如果您使用了麥克風來進行錄音,並且您錄製的音頻從一開始就是單聲道的,那麼再想轉成立體聲效果,是比較困難的。
  • 原聲吉他/彈唱 錄音後期製作方法入門
    很多人疑問為什麼很多音樂類如彈唱視頻的聲音音量大,清晰度高,怎麼錄的。做過後期了,就這麼簡單。沒有完美的錄音,所有視頻網站中看起來專業的視頻都是有後期的,多少而已。最多容易出現的問題為何聲音的清晰度高沒有底噪和雜音(沙沙沙的空氣聲)。降噪處理器即使再專業的設備錄音也會一定底噪,手機或者非專業設備底噪就更大了。其實解決非常非常簡單。在錄製完畢後將音軌提取出來。
  • 手機音量調最大,外放聲音卻還是很小?那可能是沒打開這兩個設置
    處於公交車、地鐵、馬路,這些聲音較為嘈雜的地方。明明自己手機的音量已經調到最大了,外放的聲音卻還是很小。常常會因為這件事,而漏接很多重要的電話。其實可能就是因為你的手機沒打開了這兩個設置,一旦打開手機的音量將會變大好幾倍!
  • 捷報頻傳《朋友請聽好》官方推薦訊飛智能錄音筆獲單日品類銷售額...
    訊飛智能錄音筆剛剛宣布成為由何炅、謝娜、易烊千璽合作的綜藝《朋友請聽好》官方推薦智能錄音筆後便斬獲京東平臺單日品類銷售額冠軍。據悉,訊飛智能錄音筆還在進行大促,消費者現在購買下單立減300元。(訊飛智能錄音筆 單日品類銷售額冠軍)《朋友請聽好》是芒果TV自製的原創聲音互動陪伴真人秀節目。
  • 真實環繞音效的震撼 物理單元5.1聲道耳機測試
    [5.1聲道系統簡述] 自然界的真實聲音來的四周所有的範圍,沒有固定的音源方向,為了能夠更加自然準確的將聲音還原,這就是多聲道系統出現的理由,在耳朵周圍設置更多的揚聲器單元就是目前最好的方法之一,就是純物理單元集合的方法。