業界 | 谷歌為YouTube添加新功能:利用機器學習自動生成音效字幕

2021-02-23 機器之心

選自Google blog

作者:Sourish Chaudhuri

機器之心編譯

音頻(audio)對於我們對世界的感知的影響的巨大自然不言而喻。語音(speech)顯然是人們最熟悉的通信方式之一,但環境聲音(sound)也能傳達很多重要的信息。我們可以本能地響應這些背景聲音所創造的語境,比如被突然出現的喧鬧而嚇到、使用音樂作為一種敘述元素或者在情景喜劇中將笑聲用作一種觀眾提示。

自 2009 年以來,YouTube 就開始為視頻提供自動生成的字幕了,而這主要是專注於語音轉錄以使 YouTube 上託管的內容能觸及到更多人。但是,沒有對視頻中背景聲音的類似轉錄,視頻中的很多信息和效果都無法單獨使用語音轉錄獲取。為了解決這個問題,我們宣布為 YouTube 視頻中的自動字幕增加音效信息,從而讓人們能更大程度地獲取豐富的音頻內容。

在這篇文章中,我們討論了為這項工作所開發的後端系統——這是輔助功能(Accessibility)、聲音理解(Sound Understanding)和 YouTube 團隊合作的成果,他們使用機器學習(ML)實現了有史第一個 YouTube 自動音效字幕系統。

點擊「字幕/CC」按鈕查看該音效字幕工作時的效果(只有 YouTube 可實驗此字幕效果):

https://www.youtube.com/watch?v=QGiK8DAZ9BA

這項應用中使用了一種被稱為深度神經網絡(DNN)的機器學習技術來解決這個特定的字幕任務挑戰。儘管分析視頻的時域音頻信號來檢測多種背景聲音的過程類似於其它已知的分類問題(比如圖像中的目標檢測),但在產品應用中,該解決方案還面臨著額外的難題。特別是以下方面:當給定任意一段音頻時,我們需要模型要能夠:1)檢測出我們想要的聲音,2)在時間上對該聲音進行定位,3)有效地和可能有並行和獨立的多個語音識別結果的字幕進行整合。

一個用於背景聲音的 DNN 模型

在開發此模型時我們面臨的首個挑戰是要獲得足夠多適合該神經網絡訓練的標記數據。雖然有標記的背景聲音信息很難獲得,但我們能夠使用弱標記數據生成足夠大的數據集來進行訓練。但在給定視頻中的所有背景聲音中,我們該用哪種聲音來訓練用於檢測的 DNN 呢?

在這個最初發布的功能中,我們選擇了「鼓掌」、「音樂」和「笑聲」,這主要是基於我們對人類創造的字幕的分析,分析表明這些背景聲音是人工添加最多的字幕。雖然在這三種聲音之外,還有遠遠更多的聲音類別能提供遠遠更豐富的相關信息,但字幕中的這些音效所傳遞的語義信息是相對清楚的,比如相比於「鈴聲」字幕——它會引發這樣的問題「這是什麼的鈴聲?鈴鐺、時鐘還是手機?」

最初我們做了不少檢測這些背景聲音的工作,這些工作還包括開發可擴展未來工作的基礎與分析框架,聲音事件的探測,以及其與自動字幕的整合。當我們擴展算法以理解更廣泛的聲音詞彙時,對基礎開發的投資將使我們在未來更容易地把更多的聲音類型 ( 比如 [鈴聲]、 [敲門聲]、[吠叫聲] ) 包含進來,從而帶來更多獲益。由此,我們將能在敘述中加入被檢測的聲音以為用戶提供更多相關信息 ( 比如 [鋼琴曲]、[粗啞的掌聲] )。

字幕的密集檢測

當視頻傳到 YouTube 上時,音效識別流程就會在該視頻的音頻流上運行。DNN 會查看音頻短片段並預測該片段是否包含所需要的聲音事件。因為多個音效可以共同出現,因此我們的模型可以在每個時間步驟(time step)對每段音效進行預測。然後該片段窗口(segment window)向右滑動(即稍後的時間點),再一次使用該模型進行預測,這樣一步步向後直到結束。這樣我們就會得到一個密集流(dense stream),即詞表中的聲音事件以每秒 100 幀的頻率出現。

當然,該密集預測流(dense prediction stream)並不會直接展露給用戶,因為不僅顯示密集預測流會導致字幕的閃爍,同時也是因為許多音效在發生時具有某種程度的時間連續性。例如,「音樂」和「掌聲」通常至少會存在幾秒鐘。為了結合這種直覺,我們使用了包含 ON 和 OFF 兩個狀態的改進維特比算法(Viterbi algorithm)將密集預測流變得平滑一些,其中每個音效的預測段對應於狀態 ON。下圖是從密集檢測到包含了目標音效的最後音頻段這一過程的說明。

左圖:來自我們的用於視頻中單個聲音類別的隨時間的出現情況的 DNN 的密集的概率序列。中圖:基於修改過的 Viterbi 算法的二值化的片段。右圖:基於持續時間的濾波器移除了持續時間比該類別的預期時間短的片段。

類似這樣的以分類為基礎的系統當然會存在一些誤差,也需要為了產品的目標在假正類(false positives)和錯失檢測之間尋找平衡。比如,訓練數據集中的弱標籤常常會讓模型混淆可能會一同出現的事件。比如,一個標記為「笑」的片段常常包含語音和笑聲,在測試數據中,「笑」模型有時會很難區別它們。在我們的系統中,可以根據 ON 狀態上的時間(比如,無法決定聲音 X 是否被識別到,除非這個聲音至少持續 Y 秒)做出進一步的限制,進而將系統性能推至精確度召回曲線上一個預期的點。

一旦對系統暫時的定位聲效表現感到滿意(基於線下評估標準),我們就會面臨以下問題:如何將聲效與語音解釋結合起來,打造一個單獨的聲音字幕,如何(或何時)將聲效信息傳到給用戶才能讓它們變得最有用?

將音效信息添加到自動字幕

一旦系統能準確檢測和分類視頻中背景聲音,我們就開始尋找將這一信息傳達給觀眾的有效辦法。與我們的用戶體驗(UX)研究團隊合作,我們探索了不同設計選項並在一個定性測試可用性的研究中測試了這些選項。參與者的聽力水平不同,對字幕的要求也不同。我們問了他們很多問題,包括是否提升了他們的整體體驗,是否能夠搞清楚視頻中發生了什麼並能從說明中提取出相關信息,藉此了解這些變量的效果如何,比如:

幾乎所有的用戶讚許了被添加的精確音效信息,對此我們並不吃驚。我們還特別關注了該聲音檢測系統的錯誤反饋(當確定了一個聲音其實卻沒有聲音的假正例或沒能檢測到一個音效)。這個結果讓人吃驚:當音效信息錯誤時,在大約一半的情況下它沒使用戶的體驗降低。基於參與者的反饋,原因可能如下:

總體來說,系統時不時犯錯誤影響不大,只要在大多數時候能夠提供正確信息,便會贏得用戶的肯定。

展望未來

我們工作是使 YouTube 視頻自動匹配音效字幕。這個首次展示只是第一步,我們將繼續努力為豐富的視頻內容匹配自動字幕,以方便那些由於不同方式不同環境而需要字幕的人。我們已經開發了一個框架,使帶有音效的自動字幕更豐富,但完全做好還要更加努力。我們希望這會在社區之中激發進一步的工作和討論,比如,不僅使用自動技術提升字幕效果,也探討使創建者生成的與社區貢獻的字幕更豐富和更好,從而進一步提升用戶的觀看體驗。  

原文連結:https://research.googleblog.com/2017/03/adding-sound-effect-information-to.html

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:editor@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 業界| 谷歌為YouTube添加新功能:利用機器學習自動生成音效字幕
    自 2009 年以來,YouTube 就開始為視頻提供自動生成的字幕了,而這主要是專注於語音轉錄以使 YouTube 上託管的內容能觸及到更多人。但是,沒有對視頻中背景聲音的類似轉錄,視頻中的很多信息和效果都無法單獨使用語音轉錄獲取。為了解決這個問題,我們宣布為 YouTube 視頻中的自動字幕增加音效信息,從而讓人們能更大程度地獲取豐富的音頻內容。
  • 谷歌推出YouTube字幕自動生成功能(圖)
    YouTube字幕自動生成功能界面  新浪科技訊 北京時間3月5日上午消息,據國外媒體報導,谷歌周四發布了一項新功能,可以為YouTube視頻自動生成字幕。  谷歌去年11月便面向部分視頻推出了字幕自動生成功能。
  • 如何給視頻添加音效和字幕?
    介紹一個好用的音效網站和給視頻添加字幕的兩種方法。上面兩個視頻是清明節前拍、假期裡剪的。主題都是介紹小程序新出的一項實用功能:「好友拼單」,有點像群收款但更為方便些,如果你還不知道可以用用看。網址:http://www.aigei.com/為視頻加字幕為了讓觀看的人能更好地看懂視頻,給視頻添加字幕是個不錯的選擇,也是我第一次嘗試。
  • YouTube玩轉的自動字幕,為什麼被國內視頻網站「主動錯過」?
    據報導,在 2017 年初,以UGC起家的YouTube已經為 10 億條視頻提供了自動添加字幕的服務,使用者每天的播放次數超過 1500 萬次,而且目前已支持全球 10 種語言的自動字幕加載,以及支持包括簡體中文在內的上百種語言的機器翻譯
  • 怎樣自動翻譯英文視頻並添加字幕?
    最近需要學習一些英文的視頻教程,但是由於這些視頻文件全英文沒有字幕,學習起來很吃力,於是找了幾個能夠自動翻譯英文視頻並添加字幕的方法,小編經過多方驗證,發現4個免費且翻譯質量比較不錯的方法1、上傳到Youtube自動翻譯經常看Youtube的人都知道,Youtube上幾乎所有的視頻都有翻譯字幕,這是Youtube會使用AI自動為用戶上傳的視頻添加字幕
  • Youtube自動字幕已識別環境音 國內還在靠字幕組
    相比國內的野生字幕組,谷歌的技術宅們在2009年為Youtube上線了一個自動字幕系統(Automatic Captioning System),藉助人工智慧技術,在視頻裡實時生成字幕。時隔7年後,YouTube宣布已經有10億多條視頻採用了該系統生成的字幕,而全球日活躍用戶也達1500萬。
  • 怎麼下載YouTube視頻中自動生成/翻譯的字幕
    字幕有利於我們更好地理解視頻的內容!作為國外最大的視頻網站,YouTube有個非常強大的功能就是可以通過語音識別技術自動為視頻生成字幕,用戶還可以根據自己的需求將字幕翻譯成中文、英文、 法語、德語、日語、韓語、西班牙語等不同的語言,觀看起來非常方便!
  • Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組
    這種習慣的養成,歸功於近10年來逐漸形成的野生網絡字幕組,用業餘時間為影迷們貢獻了大量、快速的免費字幕。相比國內的野生字幕組,谷歌的技術宅們在2009年為Youtube上線了一個自動字幕系統(Automatic Captioning System),藉助人工智慧技術,在視頻裡實時生成字幕。
  • 這家「不存在的視頻網站」已能生成自動字幕
    雖然一個射手倒下了,千千萬萬個字幕組依舊還在,可當Youtube自動字幕已能識別環境音的時候,純粹靠興趣愛好聚集在一起的字幕組還有存在的必要嗎?強大的Youtube自動字幕過去幾年,Google已不停地YouTube引入了相當強大的自動字幕功能。而在最新升級之後,這套系統甚至能夠識別出場景音效了!Sourish Chaudhuri在一篇博客中寫到:「儘管語音是用來溝通的最熟悉方式,但環境音效也是人們感知這個世界不可或缺的一環。
  • 溝通無障礙 日本YouTube字幕生成系統
    日前,日本Youtube就公布一個名為「自動話音標識符幕生成」服務,並於8月14日正式推出。這個功能其實是利用谷歌(Google)現有的自動話音 識別技術,只要在播放影片同時按動右下角的CC按掣,選單就會出現「轉錄音訊內容」功能,系統就會根據影片的話音而自動生成字幕,整個過程視乎內容長度而 定,一般情況下不用1分鐘就可以完成。之後再在選單中選擇「翻譯原文字幕」功能,就可以把字幕翻譯成不同國家文字顯示。
  • 視頻網站YouTube為正在直播的博主啟用自動字幕
    谷歌十多年來一直在解決這個問題,並在2006年添加了基本字幕,幾年後又推出了自動字幕。  YouTube已經為該網站上的10億多個視頻添加了自動字幕,現在他們正在將注意力轉向流媒體直播。  當沒有專業提供的字幕時,YouTube新的實時自動字幕將填補空白。利用YouTube的實時自動語音識別(LASR)技術,視頻創作者將能夠添加字幕,其錯誤率和延遲「接近行業標準」。
  • 字幕組可解散YouTube自動字幕可識別場景
    可是在谷歌不停的為YouTube引入強大的自動字母功能後,字幕組可能要下崗了。在最新的升級後,這套系統以及可以識別出場景音效了。圖片來自網絡據悉,YouTube在2009年就已經引入了自動字母功能,希望藉助翻譯語音讓內容可以讓更多人接受。但是此前視頻環境音一直被忽視,給用戶的體驗帶來不良的影響。
  • YouTube發展自動字幕,聽障人士受惠,為何國內視頻網站不感冒?
    YouTube作為世界最大的視頻網站,一直以來都被模仿和學習,至於商業模式和很多設置上面的特別性,我們今天在這裡就不展開來談論,我們今天主要要來聊的就是YouTube網站上面的自動字幕,這個國內視頻網站不感興趣的實用性功能。
  • 本文徹底解決視頻自動生成字幕的痛點!
    然後註冊或登錄,選擇語音轉寫功能,這時需要將你提前準備好的需要添加字幕的視頻素材導出為音頻並上傳到網易見外工作平臺。選擇字幕類型以及識別語言,稍等片刻就會自動生成字幕。如果有不合適的地方,可以直接進行修改或者將字幕文件導入pr再進行修改。
  • Google為「照片」添加了一項新功能
    打開APP Google為「照片」添加了一項新功能 網際網路分析沙龍 發表於 2020-12-19 10:38:52 Google為「照片」添加了一項新功能,旨在使您的照片栩栩如生。
  • 業界 | 自動捕捉高光時刻:谷歌展示Google Clips全新智能攝影技術
    ——Henri Cartier-Bresson在過去幾年裡,人工智慧經歷了一場類似寒武紀的爆發,在深度學習方法的幫助下,計算機視覺算法能夠識別出一張優質照片中的許多元素,包括人、微笑、寵物、日落、著名地標等。但是,儘管最近取得了這些進展,自動攝影仍是一個頗具挑戰性的問題。相機能自動捕捉不平凡的時刻嗎?
  • 免費輕鬆讓你的短視頻自動識別語音生成字幕
    而且各大短視頻或vlog平臺也明確的要求視頻中最好添加字幕,提高視頻的專業性,將獲得平臺系統更多的推薦,以得到更高的播放率,同時提高申請原創標籤時的通過率。曾看到過Facebook報導稱,根據其大數據統計分析,在視頻中添加字幕,可為視頻增加12%的播放量,由此可見添加字幕的重要性,而且它自己也上線了自動字幕功能。
  • 科大訊飛推送真無線耳機新功能 為電影生成實時字幕
    人工智慧公司科大訊飛將通話錄音和通話內容轉寫集成在旗下真無線耳機iFLYBUDS上,利用前沿AI技術解決了通勤、在線會議、駕駛等場景下的溝通記錄需求。   近期,科大訊飛為iFLYBUDS耳機用戶推送了全新功能——影音字幕,通過iFLYBUDS手機應用為線上視頻課程、生肉外語視頻等內容實時生成中文字幕,並支持將轉寫和翻譯的內容保存。
  • 使用率太低,谷歌YouTube宣布9月取消社區字幕功能
    來源:IT之家谷歌YouTube宣布,從 2020 年 9 月 28 日開始,將對所有頻道停用觀眾投稿(社區字幕)功能。通過觀眾投稿功能,觀看者可以為視頻添加字幕和標題/說明。你仍然可以使用自己上傳的字幕、自動字幕和第三方工具及服務。你必須在 2020 年 9 月 28 日之前發布你的觀眾投稿,避免觀眾投稿被移除。IT之家了解到,觀眾可以為你的視頻添加標題、說明和字幕,從而幫助你吸引更多觀看者。你為視頻添加原始語言字幕之後,觀眾可以提交翻譯,幫助拓展全球觀眾群。
  • Pr如何快速添加字幕?用繪影字幕自動識別,批量高效製作
    通常我們使用Pr製作字幕時,不論製作內嵌字幕還是外掛字幕,都需要一句一句去打。但是這種方式有很大的弊端:1.打字幕的時候非常慢,很耗時間。2.還需要對齊時間軸,非常麻煩。很多人都在尋找如何快速加字幕,所以今天就跟大家介紹Pr快速加字幕的方法。使用自動識別語音轉換成文字,自動打軸,直接生成字幕,製作非常簡單高效。