業界 | 谷歌為YouTube添加新功能:利用機器學習自動生成音效字幕

2021-01-19 機器之心

選自Google blog

作者:Sourish Chaudhuri

機器之心編譯


音頻(audio)對於我們對世界的感知的影響的巨大自然不言而喻。語音(speech)顯然是人們最熟悉的通信方式之一,但環境聲音(sound)也能傳達很多重要的信息。我們可以本能地響應這些背景聲音所創造的語境,比如被突然出現的喧鬧而嚇到、使用音樂作為一種敘述元素或者在情景喜劇中將笑聲用作一種觀眾提示。


自 2009 年以來,YouTube 就開始為視頻提供自動生成的字幕了,而這主要是專注於語音轉錄以使 YouTube 上託管的內容能觸及到更多人。但是,沒有對視頻中背景聲音的類似轉錄,視頻中的很多信息和效果都無法單獨使用語音轉錄獲取。為了解決這個問題,我們宣布為 YouTube 視頻中的自動字幕增加音效信息,從而讓人們能更大程度地獲取豐富的音頻內容。


在這篇文章中,我們討論了為這項工作所開發的後端系統——這是輔助功能(Accessibility)、聲音理解(Sound Understanding)和 YouTube 團隊合作的成果,他們使用機器學習(ML)實現了有史第一個 YouTube 自動音效字幕系統。


點擊「字幕/CC」按鈕查看該音效字幕工作時的效果(只有 YouTube 可實驗此字幕效果):

https://www.youtube.com/watch?v=QGiK8DAZ9BA


這項應用中使用了一種被稱為深度神經網絡(DNN)的機器學習技術來解決這個特定的字幕任務挑戰。儘管分析視頻的時域音頻信號來檢測多種背景聲音的過程類似於其它已知的分類問題(比如圖像中的目標檢測),但在產品應用中,該解決方案還面臨著額外的難題。特別是以下方面:當給定任意一段音頻時,我們需要模型要能夠:1)檢測出我們想要的聲音,2)在時間上對該聲音進行定位,3)有效地和可能有並行和獨立的多個語音識別結果的字幕進行整合。


一個用於背景聲音的 DNN 模型


在開發此模型時我們面臨的首個挑戰是要獲得足夠多適合該神經網絡訓練的標記數據。雖然有標記的背景聲音信息很難獲得,但我們能夠使用弱標記數據生成足夠大的數據集來進行訓練。但在給定視頻中的所有背景聲音中,我們該用哪種聲音來訓練用於檢測的 DNN 呢?


在這個最初發布的功能中,我們選擇了「鼓掌」、「音樂」和「笑聲」,這主要是基於我們對人類創造的字幕的分析,分析表明這些背景聲音是人工添加最多的字幕。雖然在這三種聲音之外,還有遠遠更多的聲音類別能提供遠遠更豐富的相關信息,但字幕中的這些音效所傳遞的語義信息是相對清楚的,比如相比於「鈴聲」字幕——它會引發這樣的問題「這是什麼的鈴聲?鈴鐺、時鐘還是手機?」


最初我們做了不少檢測這些背景聲音的工作,這些工作還包括開發可擴展未來工作的基礎與分析框架,聲音事件的探測,以及其與自動字幕的整合。當我們擴展算法以理解更廣泛的聲音詞彙時,對基礎開發的投資將使我們在未來更容易地把更多的聲音類型 ( 比如 [鈴聲]、 [敲門聲]、[吠叫聲] ) 包含進來,從而帶來更多獲益。由此,我們將能在敘述中加入被檢測的聲音以為用戶提供更多相關信息 ( 比如 [鋼琴曲]、[粗啞的掌聲] )。


字幕的密集檢測


當視頻傳到 YouTube 上時,音效識別流程就會在該視頻的音頻流上運行。DNN 會查看音頻短片段並預測該片段是否包含所需要的聲音事件。因為多個音效可以共同出現,因此我們的模型可以在每個時間步驟(time step)對每段音效進行預測。然後該片段窗口(segment window)向右滑動(即稍後的時間點),再一次使用該模型進行預測,這樣一步步向後直到結束。這樣我們就會得到一個密集流(dense stream),即詞表中的聲音事件以每秒 100 幀的頻率出現。


當然,該密集預測流(dense prediction stream)並不會直接展露給用戶,因為不僅顯示密集預測流會導致字幕的閃爍,同時也是因為許多音效在發生時具有某種程度的時間連續性。例如,「音樂」和「掌聲」通常至少會存在幾秒鐘。為了結合這種直覺,我們使用了包含 ON 和 OFF 兩個狀態的改進維特比算法(Viterbi algorithm)將密集預測流變得平滑一些,其中每個音效的預測段對應於狀態 ON。下圖是從密集檢測到包含了目標音效的最後音頻段這一過程的說明。


左圖:來自我們的用於視頻中單個聲音類別的隨時間的出現情況的 DNN 的密集的概率序列。中圖:基於修改過的 Viterbi 算法的二值化的片段。右圖:基於持續時間的濾波器移除了持續時間比該類別的預期時間短的片段。


類似這樣的以分類為基礎的系統當然會存在一些誤差,也需要為了產品的目標在假正類(false positives)和錯失檢測之間尋找平衡。比如,訓練數據集中的弱標籤常常會讓模型混淆可能會一同出現的事件。比如,一個標記為「笑」的片段常常包含語音和笑聲,在測試數據中,「笑」模型有時會很難區別它們。在我們的系統中,可以根據 ON 狀態上的時間(比如,無法決定聲音 X 是否被識別到,除非這個聲音至少持續 Y 秒)做出進一步的限制,進而將系統性能推至精確度召回曲線上一個預期的點。


一旦對系統暫時的定位聲效表現感到滿意(基於線下評估標準),我們就會面臨以下問題:如何將聲效與語音解釋結合起來,打造一個單獨的聲音字幕,如何(或何時)將聲效信息傳到給用戶才能讓它們變得最有用?


將音效信息添加到自動字幕


一旦系統能準確檢測和分類視頻中背景聲音,我們就開始尋找將這一信息傳達給觀眾的有效辦法。與我們的用戶體驗(UX)研究團隊合作,我們探索了不同設計選項並在一個定性測試可用性的研究中測試了這些選項。參與者的聽力水平不同,對字幕的要求也不同。我們問了他們很多問題,包括是否提升了他們的整體體驗,是否能夠搞清楚視頻中發生了什麼並能從說明中提取出相關信息,藉此了解這些變量的效果如何,比如:



幾乎所有的用戶讚許了被添加的精確音效信息,對此我們並不吃驚。我們還特別關注了該聲音檢測系統的錯誤反饋(當確定了一個聲音其實卻沒有聲音的假正例或沒能檢測到一個音效)。這個結果讓人吃驚:當音效信息錯誤時,在大約一半的情況下它沒使用戶的體驗降低。基於參與者的反饋,原因可能如下:



總體來說,系統時不時犯錯誤影響不大,只要在大多數時候能夠提供正確信息,便會贏得用戶的肯定。


展望未來


我們工作是使 YouTube 視頻自動匹配音效字幕。這個首次展示只是第一步,我們將繼續努力為豐富的視頻內容匹配自動字幕,以方便那些由於不同方式不同環境而需要字幕的人。我們已經開發了一個框架,使帶有音效的自動字幕更豐富,但完全做好還要更加努力。我們希望這會在社區之中激發進一步的工作和討論,比如,不僅使用自動技術提升字幕效果,也探討使創建者生成的與社區貢獻的字幕更豐富和更好,從而進一步提升用戶的觀看體驗。  


原文連結:https://research.googleblog.com/2017/03/adding-sound-effect-information-to.html



本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:editor@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 業界| 谷歌為YouTube添加新功能:利用機器學習自動生成音效字幕
    自 2009 年以來,YouTube 就開始為視頻提供自動生成的字幕了,而這主要是專注於語音轉錄以使 YouTube 上託管的內容能觸及到更多人。但是,沒有對視頻中背景聲音的類似轉錄,視頻中的很多信息和效果都無法單獨使用語音轉錄獲取。為了解決這個問題,我們宣布為 YouTube 視頻中的自動字幕增加音效信息,從而讓人們能更大程度地獲取豐富的音頻內容。
  • 谷歌新進展:用DNN模型為YouTube視頻添加環境音效字幕
    在這裡,我們把聲音分解為兩類,一類是語音(speech),另一類是環境音(sound)。人們會本能地對環境音做出反應,比如會被突如其來的騷動所驚嚇,或被情景喜劇中的背景笑聲所感染。影音網站界的翹楚——YouTube 也深知音頻的重要性。自2009年起,他們就開始讓視頻自動生成字幕。
  • YouTube玩轉的自動字幕,為什麼被國內視頻網站「主動錯過」?
    據報導,在2017年初,以UGC起家的YouTube已經為10億條視頻提供了自動添加字幕的服務,使用者每天的播放次數超過 1500 萬次,而且目前已支持全球10種語言的自動字幕加載,以及支持包括簡體中文在內的上百種語言的機器翻譯。那麼這一自動字幕的功能為何沒有被我們國內的視頻網站「Copy」?
  • 怎麼下載YouTube視頻中自動生成/翻譯的字幕
    字幕有利於我們更好地理解視頻的內容!作為國外最大的視頻網站,YouTube有個非常強大的功能就是可以通過語音識別技術自動為視頻生成字幕,用戶還可以根據自己的需求將字幕翻譯成中文、英文、 法語、德語、日語、韓語、西班牙語等不同的語言,觀看起來非常方便!
  • 怎樣自動翻譯英文視頻並添加字幕?
    最近需要學習一些英文的視頻教程,但是由於這些視頻文件全英文沒有字幕,學習起來很吃力,於是找了幾個能夠自動翻譯英文視頻並添加字幕的方法,小編經過多方驗證,發現4個免費且翻譯質量比較不錯的方法1、上傳到Youtube自動翻譯經常看Youtube的人都知道,Youtube上幾乎所有的視頻都有翻譯字幕,這是Youtube會使用AI自動為用戶上傳的視頻添加字幕
  • 幾款視頻自動生成字幕神器,視頻製作者的福音 (精品收藏)| 工具
    完全足夠個人辦公學習使用。下面我們簡單介紹一個對我來說神級的功能。視頻翻譯/轉寫它支持我們上傳視頻然後通過AI語音識別自動生成雙語字幕。這對於一個UP主,或者其他視頻工作來說是絕對的神器啊~因為做字幕真的太費時間了。
  • YouTube將使用機器學習來幫助生成視頻章節
    打開APP YouTube將使用機器學習來幫助生成視頻章節 新經網 發表於 2020-12-16 10:31:55   YouTube正在開發一項新功能,該功能將有助於自動生成視頻章節。
  • YouTube發展自動字幕,聽障人士受惠,為何國內視頻網站不感冒?
    YouTube作為世界最大的視頻網站,一直以來都被模仿和學習,至於商業模式和很多設置上面的特別性,我們今天在這裡就不展開來談論,我們今天主要要來聊的就是YouTube網站上面的自動字幕,這個國內視頻網站不感興趣的實用性功能。
  • 視頻語音自動生成字幕怎麼做?分享一個視頻字幕生成器—繪影字幕
    很多人都對語音轉文字有所了解,其實視頻加字幕和語音轉文字,前期使用的技術手段是一樣的。都是通過機器對人聲進行識別,轉成文字。不過,生成字幕還需要對字幕切分和給字幕添加時間戳。所以視頻加字幕會在語音轉成文字的基礎上,機器精準切分時間軸,給文字加上時間戳生成字幕。
  • 科大訊飛推送真無線耳機新功能 為電影生成實時字幕
    人工智慧公司科大訊飛將通話錄音和通話內容轉寫集成在旗下真無線耳機iFLYBUDS上,利用前沿AI技術解決了通勤、在線會議、駕駛等場景下的溝通記錄需求。   近期,科大訊飛為iFLYBUDS耳機用戶推送了全新功能——影音字幕,通過iFLYBUDS手機應用為線上視頻課程、生肉外語視頻等內容實時生成中文字幕,並支持將轉寫和翻譯的內容保存。
  • 谷歌這黑科技你玩過沒
    [PConline 應用]我們知道谷歌有很多驚人的黑科技,但這些黑科技並不一定就那麼醒目地呈現在你面前——谷歌很喜歡將一些新功能藏著掖著,就算是谷歌的老用戶,也不一定知道!今天,就來說說谷歌的一個鮮為人知的黑科技——實時自動生成字幕。
  • Pr如何快速添加字幕?用繪影字幕自動識別,批量高效製作
    原標題:Pr如何快速添加字幕?用繪影字幕自動識別,批量高效製作通常我們使用Pr製作字幕時,不論製作內嵌字幕還是外掛字幕,都需要一句一句去打。但是這種方式有很大的弊端:1.打字幕的時候非常慢,很耗時間。2.還需要對齊時間軸,非常麻煩。
  • 利用最新AI技術,谷歌提高機器翻譯質量
    在機器翻譯裡面,編碼器的工作通常是將單詞和短語編碼為內部表示,然後解碼器將其用來生成所需語言的文本。2017年,Google相關研究人員首次提出,在這方面基於Transformer的模型要比RNN更為有效,但Google表示,其工作表明,所獲得的大部分質量提升僅來自於Transformer的一個組件:編碼器。
  • 微軟推P圖軟體Sprinkles:可添加字幕自動手動都行
    Sprinkles是iOS獨家應用程式,採用了Pix的臉部檢測技術和AI學習的功能,可根據用戶的表情、年齡、位置和時間,辨別後自動生成字幕和貼紙。Sprinkles相機沒有美顏功能,用戶在拍攝照片後,Sprinkles將根據圖片中檢測到的內容提供一些建議,裡面有一個非常詳細的貼紙搜索功能。
  • 微軟推P圖軟體Sprinkles:可添加字幕 自動手動都行
    SprinklesSprinkles是iOS獨家應用程式,採用了Pix的臉部檢測技術和AI學習的功能,可根據用戶的表情、年齡、位置和時間,辨別後自動生成字幕和貼紙。它不僅可以猜測用戶年齡,還可以在照片上自動生成字幕,用戶也可以手動添加字幕,裡面有少量不同的字體和顏色可供選擇;還可以將表情符號和貼紙放在照片中。(周林)
  • Google為「照片」添加了一項新功能
    打開APP Google為「照片」添加了一項新功能 網際網路分析沙龍 發表於 2020-12-19 10:38:52 Google為「照片」添加了一項新功能,旨在使您的照片栩栩如生。
  • 字幕文本怎麼做時間軸?分享繪影字幕自動打軸工具的使用方法!
    視頻要加字幕,一定要經歷兩個步驟:文本的編輯,和時間軸的匹配。通常我們可以採用繪影字幕自動加字幕的方法,給視頻快速加字幕。這種方式非常高效,機器自動識別語音轉換成文字,自動打軸,直接生成字幕,導出帶字幕的視頻。但是如果我們已經有無字幕視頻+字幕文本,只需要製作視頻字幕時間軸!該怎麼做呢?
  • 有txt轉換srt字幕軟體嗎?分享繪影字幕自動打軸工具的使用方法!
    視頻要加字幕,一定要經歷兩個步驟:文本的編輯,和時間軸的匹配。通常我們可以採用繪影字幕自動加字幕的方法,給視頻快速加字幕。這種方式非常高效,機器自動識別語音轉換成文字,自動打軸,直接生成字幕,導出帶字幕的視頻。但是如果我們已經有無字幕視頻+字幕文本,只需要製作視頻字幕時間軸!該怎麼做呢?那傳統的方法就是採用一些軟體,對著視頻給字幕手動拍時間軸。
  • YouTube首次啟用的自動字幕服務中增加了對六種語言的支持
    「 2009年,您首先看到了一項功能,該功能可以自動在YouTube視頻上以英語創建字幕,從那時起,我們添加了日語,韓語和西班牙語。如今,億萬人民使用另外六種語言(德語,義大利語,法語) ,葡萄牙語,俄語和荷蘭語-對使用這些語言的YouTube視頻提供自動字幕支持。」要使用該服務,觀看者可以單擊YouTube視頻任務欄上的紅色隱藏式字幕(「 CC」)按鈕,然後選擇他們要使用的語言。
  • 用AI實時生成字幕、推薦視頻標題,瑞典異步通訊商獲200萬美元融資
    不同於郵箱,SuperNormal提供的異步通訊服務基於人工智慧,不僅提供視頻、講演錄製功能,還能利用AI生成實時字幕、並提鍊金句生成推薦標題。此外,該軟體還能智能識別出在視頻中被提及的人名,並通過Gmail和Slack及時通知對方。