業界| 谷歌為YouTube添加新功能:利用機器學習自動生成音效字幕

2021-01-07 機器之心Pro

選自Google blog作者:Sourish Chaudhuri機器之心編譯

音頻(audio)對於我們對世界的感知的影響的巨大自然不言而喻。語音(speech)顯然是人們最熟悉的通信方式之一,但環境聲音(sound)也能傳達很多重要的信息。我們可以本能地響應這些背景聲音所創造的語境,比如被突然出現的喧鬧而嚇到、使用音樂作為一種敘述元素或者在情景喜劇中將笑聲用作一種觀眾提示。

自 2009 年以來,YouTube 就開始為視頻提供自動生成的字幕了,而這主要是專注於語音轉錄以使 YouTube 上託管的內容能觸及到更多人。但是,沒有對視頻中背景聲音的類似轉錄,視頻中的很多信息和效果都無法單獨使用語音轉錄獲取。為了解決這個問題,我們宣布為 YouTube 視頻中的自動字幕增加音效信息,從而讓人們能更大程度地獲取豐富的音頻內容。

在這篇文章中,我們討論了為這項工作所開發的後端系統——這是輔助功能(Accessibility)、聲音理解(Sound Understanding)和 YouTube 團隊合作的成果,他們使用機器學習(ML)實現了有史第一個 YouTube 自動音效字幕系統。

點擊「字幕/CC」按鈕查看該音效字幕工作時的效果(只有 YouTube 可實驗此字幕效果):

https://www.youtube.com/watch?v=QGiK8DAZ9BA

這項應用中使用了一種被稱為深度神經網絡(DNN)的機器學習技術來解決這個特定的字幕任務挑戰。儘管分析視頻的時域音頻信號來檢測多種背景聲音的過程類似於其它已知的分類問題(比如圖像中的目標檢測),但在產品應用中,該解決方案還面臨著額外的難題。特別是以下方面:當給定任意一段音頻時,我們需要模型要能夠:1)檢測出我們想要的聲音,2)在時間上對該聲音進行定位,3)有效地和可能有並行和獨立的多個語音識別結果的字幕進行整合。

一個用於背景聲音的 DNN 模型

在開發此模型時我們面臨的首個挑戰是要獲得足夠多適合該神經網絡訓練的標記數據。雖然有標記的背景聲音信息很難獲得,但我們能夠使用弱標記數據生成足夠大的數據集來進行訓練。但在給定視頻中的所有背景聲音中,我們該用哪種聲音來訓練用於檢測的 DNN 呢?

在這個最初發布的功能中,我們選擇了「鼓掌」、「音樂」和「笑聲」,這主要是基於我們對人類創造的字幕的分析,分析表明這些背景聲音是人工添加最多的字幕。雖然在這三種聲音之外,還有遠遠更多的聲音類別能提供遠遠更豐富的相關信息,但字幕中的這些音效所傳遞的語義信息是相對清楚的,比如相比於「鈴聲」字幕——它會引發這樣的問題「這是什麼的鈴聲?鈴鐺、時鐘還是手機?」

最初我們做了不少檢測這些背景聲音的工作,這些工作還包括開發可擴展未來工作的基礎與分析框架,聲音事件的探測,以及其與自動字幕的整合。當我們擴展算法以理解更廣泛的聲音詞彙時,對基礎開發的投資將使我們在未來更容易地把更多的聲音類型 ( 比如 [鈴聲]、 [敲門聲]、[吠叫聲] ) 包含進來,從而帶來更多獲益。由此,我們將能在敘述中加入被檢測的聲音以為用戶提供更多相關信息 ( 比如 [鋼琴曲]、[粗啞的掌聲] )。

字幕的密集檢測

當視頻傳到 YouTube 上時,音效識別流程就會在該視頻的音頻流上運行。DNN 會查看音頻短片段並預測該片段是否包含所需要的聲音事件。因為多個音效可以共同出現,因此我們的模型可以在每個時間步驟(time step)對每段音效進行預測。然後該片段窗口(segment window)向右滑動(即稍後的時間點),再一次使用該模型進行預測,這樣一步步向後直到結束。這樣我們就會得到一個密集流(dense stream),即詞表中的聲音事件以每秒 100 幀的頻率出現。

當然,該密集預測流(dense prediction stream)並不會直接展露給用戶,因為不僅顯示密集預測流會導致字幕的閃爍,同時也是因為許多音效在發生時具有某種程度的時間連續性。例如,「音樂」和「掌聲」通常至少會存在幾秒鐘。為了結合這種直覺,我們使用了包含 ON 和 OFF 兩個狀態的改進維特比算法(Viterbi algorithm)將密集預測流變得平滑一些,其中每個音效的預測段對應於狀態 ON。下圖是從密集檢測到包含了目標音效的最後音頻段這一過程的說明。

左圖:來自我們的用於視頻中單個聲音類別的隨時間的出現情況的 DNN 的密集的概率序列。中圖:基於修改過的 Viterbi 算法的二值化的片段。右圖:基於持續時間的濾波器移除了持續時間比該類別的預期時間短的片段。

類似這樣的以分類為基礎的系統當然會存在一些誤差,也需要為了產品的目標在假正類(false positives)和錯失檢測之間尋找平衡。比如,訓練數據集中的弱標籤常常會讓模型混淆可能會一同出現的事件。比如,一個標記為「笑」的片段常常包含語音和笑聲,在測試數據中,「笑」模型有時會很難區別它們。在我們的系統中,可以根據 ON 狀態上的時間(比如,無法決定聲音 X 是否被識別到,除非這個聲音至少持續 Y 秒)做出進一步的限制,進而將系統性能推至精確度召回曲線上一個預期的點。

一旦對系統暫時的定位聲效表現感到滿意(基於線下評估標準),我們就會面臨以下問題:如何將聲效與語音解釋結合起來,打造一個單獨的聲音字幕,如何(或何時)將聲效信息傳到給用戶才能讓它們變得最有用?

將音效信息添加到自動字幕

一旦系統能準確檢測和分類視頻中背景聲音,我們就開始尋找將這一信息傳達給觀眾的有效辦法。與我們的用戶體驗(UX)研究團隊合作,我們探索了不同設計選項並在一個定性測試可用性的研究中測試了這些選項。參與者的聽力水平不同,對字幕的要求也不同。我們問了他們很多問題,包括是否提升了他們的整體體驗,是否能夠搞清楚視頻中發生了什麼並能從說明中提取出相關信息,藉此了解這些變量的效果如何,比如:

分別為語音字幕和音效字幕使用屏幕的不同部分當語音字母和音效字幕同時出現時,將它們交叉呈現僅在句子結束時或者語音出現停頓的時候(即使停頓出現在語音過程中),顯示音效字幕如果觀看時禁音,用戶對字幕的感受如何

幾乎所有的用戶讚許了被添加的精確音效信息,對此我們並不吃驚。我們還特別關注了該聲音檢測系統的錯誤反饋(當確定了一個聲音其實卻沒有聲音的假正例或沒能檢測到一個音效)。這個結果讓人吃驚:當音效信息錯誤時,在大約一半的情況下它沒使用戶的體驗降低。基於參與者的反饋,原因可能如下:

聽到音頻的參與者能夠忽略誤差。聽不到音頻的參與者將這個錯誤解讀為了一個聲音事件的存在,而且沒有遺漏關鍵的語音信息。

總體來說,系統時不時犯錯誤影響不大,只要在大多數時候能夠提供正確信息,便會贏得用戶的肯定。

展望未來

我們工作是使 YouTube 視頻自動匹配音效字幕。這個首次展示只是第一步,我們將繼續努力為豐富的視頻內容匹配自動字幕,以方便那些由於不同方式不同環境而需要字幕的人。我們已經開發了一個框架,使帶有音效的自動字幕更豐富,但完全做好還要更加努力。我們希望這會在社區之中激發進一步的工作和討論,比如,不僅使用自動技術提升字幕效果,也探討使創建者生成的與社區貢獻的字幕更豐富和更好,從而進一步提升用戶的觀看體驗。

相關焦點

  • 怎麼下載YouTube視頻中自動生成/翻譯的字幕
    字幕有利於我們更好地理解視頻的內容!作為國外最大的視頻網站,YouTube有個非常強大的功能就是可以通過語音識別技術自動為視頻生成字幕,用戶還可以根據自己的需求將字幕翻譯成中文、英文、 法語、德語、日語、韓語、西班牙語等不同的語言,觀看起來非常方便!
  • YouTube玩轉的自動字幕,為什麼被國內視頻網站「主動錯過」?
    種語言的自動字幕加載,以及支持包括簡體中文在內的上百種語言的機器翻譯。但原因究竟是啥,恐怕還是要繼續追問下去,而最終我們其實還是想對這些國內視頻網站的新老玩家們提問下:這麼「香」的技術,到底要不要學習一下呢?自動字幕:從Goodness到BusinessYouTube的自動字幕功能是在 2009 年由谷歌的工程師們開發的,那時離谷歌收購YouTube已經過去三年了。
  • 怎樣自動翻譯英文視頻並添加字幕?
    最近需要學習一些英文的視頻教程,但是由於這些視頻文件全英文沒有字幕,學習起來很吃力,於是找了幾個能夠自動翻譯英文視頻並添加字幕的方法,小編經過多方驗證,發現4個免費且翻譯質量比較不錯的方法1、上傳到Youtube自動翻譯經常看Youtube的人都知道,Youtube上幾乎所有的視頻都有翻譯字幕,這是Youtube會使用AI自動為用戶上傳的視頻添加字幕
  • 科大訊飛推送真無線耳機新功能 為電影生成實時字幕
    科大訊飛推送真無線耳機新功能 為電影生成實時字幕時間:2020-12-10 16:44   來源:搜狐   責任編輯:青青 川北在線核心提示:原標題:科大訊飛推送真無線耳機新功能 為電影生成實時字幕 真無線耳機得益於其極高的便攜性和無拘束的佩戴感,無疑是未來可穿戴設備的行業趨勢。
  • PR快速批量添加字幕,語音轉寫,自動生成,最舒服的字幕添加方案
    字幕是整個影視後期處理必不可少的一個重要環節,就拿當下非常火熱的vlog來說,同樣需要添加字幕為整個作品加分,一條優質的vlog是離不開字幕的!那有沒有更好用的添加字幕的方法?答案肯定是有的,下面就介紹幾種我常用的批量添加字幕的方法。第一類:利用AI自動識別,語音轉文字。
  • YouTube將使用機器學習來幫助生成視頻章節
    打開APP YouTube將使用機器學習來幫助生成視頻章節 新經網 發表於 2020-12-16 10:31:55   YouTube正在開發一項新功能,該功能將有助於自動生成視頻章節。
  • 視頻語音自動生成字幕怎麼做?分享一個視頻字幕生成器—繪影字幕
    很多人都對語音轉文字有所了解,其實視頻加字幕和語音轉文字,前期使用的技術手段是一樣的。都是通過機器對人聲進行識別,轉成文字。不過,生成字幕還需要對字幕切分和給字幕添加時間戳。所以視頻加字幕會在語音轉成文字的基礎上,機器精準切分時間軸,給文字加上時間戳生成字幕。
  • 利用YouTube自動翻譯英文教程
    我個人非常願意做這份工作,因為可以將有用的知識分享給大家。但是,20多分鐘的視頻翻譯完成,估計最少也要10天,畢竟我不是專業翻譯。於是乎,就想到了其實YouTube是可以自動翻譯英文視頻的,因為人家的爸爸畢竟是超級強大的Google。而且,可以翻譯成任何語言,你說牛不牛。當然,機器翻譯的東西有些弱智。
  • 視頻翻譯字幕怎麼做?繪影字幕自動識別,給視頻添加字幕
    視頻沒有字慕是一件很頭疼的事情,有沒有可能自動給視頻翻譯字幕呢?回答之前,我們先理解一下這個問題,把視頻翻譯字幕最常出現的2種情況列出來:一種是中文視頻需要中文字幕,另一種就是外文視頻需要中文字幕或者雙語字幕。有沒有可以對這兩種視頻,進行自動翻譯字幕呢?告訴大家,都是可以實現的。不用下載任何軟體,輕鬆簡單。
  • Vlog自動添加字幕方法,免費高效!字幕軟體評測推薦~
    想讓你的Vlog視頻得到更多人的喜愛和推薦,那麼加字幕一定不可或缺的。而這年頭誰還手打字幕啊(誰這樣評論區站出來我康康)。想要更高效產出視頻,這篇自動添加字幕的方法,你一定要掌握。船長我看過了那麼多自動加字幕的方法,發現大部分人推薦過程中都是需要付費才能完成添加字幕的。那很多人要問,能不能免費搞定加字幕呢?答案是:有!所以這篇文章,我們先來看一些免費的加字幕方法,再來對比那些花錢加字幕軟體又有哪些優缺點。
  • 免費輕鬆讓你的短視頻自動識別語音生成字幕
    而且各大短視頻或vlog平臺也明確的要求視頻中最好添加字幕,提高視頻的專業性,將獲得平臺系統更多的推薦,以得到更高的播放率,同時提高申請原創標籤時的通過率。曾看到過Facebook報導稱,根據其大數據統計分析,在視頻中添加字幕,可為視頻增加12%的播放量,由此可見添加字幕的重要性,而且它自己也上線了自動字幕功能。
  • Pr如何快速添加字幕?用繪影字幕自動識別,批量高效製作
    通常我們使用Pr製作字幕時,不論製作內嵌字幕還是外掛字幕,都需要一句一句去打。但是這種方式有很大的弊端:1.打字幕的時候非常慢,很耗時間。2.還需要對齊時間軸,非常麻煩。很多人都在尋找如何快速加字幕,所以今天就跟大家介紹Pr快速加字幕的方法。使用自動識別語音轉換成文字,自動打軸,直接生成字幕,製作非常簡單高效。
  • YouTube將移除社區貢獻字幕功能 因其很少被使用
    據外媒報導, 谷歌宣布將在不久後移除YouTube的 「社區貢獻」功能,因為它幾乎不會在視頻上使用, 而當這些字幕出現時,它們往往是低質量的或出現其他問題。不過,這些字幕並不會立即消失,YouTube會給用戶時間將視頻切換到其他字幕選項。
  • 字幕文本怎麼做時間軸?分享繪影字幕自動打軸工具的使用方法!
    視頻要加字幕,一定要經歷兩個步驟:文本的編輯,和時間軸的匹配。通常我們可以採用繪影字幕自動加字幕的方法,給視頻快速加字幕。這種方式非常高效,機器自動識別語音轉換成文字,自動打軸,直接生成字幕,導出帶字幕的視頻。但是如果我們已經有無字幕視頻+字幕文本,只需要製作視頻字幕時間軸!該怎麼做呢?
  • 有txt轉換srt字幕軟體嗎?分享繪影字幕自動打軸工具的使用方法!
    視頻要加字幕,一定要經歷兩個步驟:文本的編輯,和時間軸的匹配。通常我們可以採用繪影字幕自動加字幕的方法,給視頻快速加字幕。這種方式非常高效,機器自動識別語音轉換成文字,自動打軸,直接生成字幕,導出帶字幕的視頻。
  • 用AI實時生成字幕、推薦視頻標題,瑞典異步通訊商獲200萬美元融資
    不同於郵箱,SuperNormal提供的異步通訊服務基於人工智慧,不僅提供視頻、講演錄製功能,還能利用AI生成實時字幕、並提鍊金句生成推薦標題。 此外,該軟體還能智能識別出在視頻中被提及的人名,並通過Gmail和Slack及時通知對方。
  • 為什麼Google相信機器學習是其未來
    他們之所以能夠在如此大量的數據上訓練如此龐大的網絡,是因為他們想出了如何利用為大規模並行處理而設計的消費級GPU。AlexNet展示了所謂的深度學習三足凳的重要性:更好的算法,更多的訓練數據和更多的計算能力。在過去的七年中,公司一直在努力增強其在所有三個方面的能力,從而獲得越來越好的性能。Google幾乎從一開始就一直領導這項指控。
  • 谷歌翻譯推新功能 拍照即可識別
    谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創   7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能
  • NVIDIA利用嵌入式AI視覺自動生成遊戲關卡
    打開APP NVIDIA利用嵌入式AI視覺自動生成遊戲關卡 EEWORLD 發表於 2020-05-25 10:17:22 使用機器創建所見即所得的AI是業界創舉。英偉達(Nvidia)仿真技術副總裁Rev Lebaredian對記者表示:「這一系統僅通過觀看就能了解所有規則。這和程式設計師在YouTube上通過觀看《吃豆人》,然後推斷遊戲規則並重建它們一樣。」
  • YouTube如何利用數據智能提升「理解」能力?
    2006年被谷歌收購之後,YouTube逐漸對接谷歌大數據,對該問題的理解更為深入。尤其在谷歌AI戰略支持下,YouTube的數據體系融入AI基因,從機器學習階段向深度學習階段邁進。 數據智能提升了YouTube對用戶以及內容的理解能力,並持續支持YouTube平臺服務優化。