Google開源Live Transcribe的語音引擎,為長篇對話提供字幕

2021-01-12 雷鋒網

8月18日,Google宣布開源Android語音識別轉錄工具Live Transcribe的語音引擎。

這家公司希望這樣做可以讓任何開發人員為長篇對話提供字幕,減少因網絡延遲、斷網等問題導致的溝通障礙。原始碼現在可以在GitHub上獲得。這意味著無論你是出國或是與新朋友見面,Live Transcribe都可以幫助你進行溝通。

交流時可以實時暢通(只要有網絡)

Google於今年2月發布了Live Transcribe。該工具使用機器學習算法將音頻轉換為實時字幕,與Android即將推出的Live Caption功能不同,Live Transcribe是一種全屏體驗,使用智慧型手機的麥克風(或外接麥克風),並依賴於Google Cloud Speech API。Live Transcribe可以用70多種語言和方言標題實時口語。另一個主要區別是Live Transcribe可在18億臺Android設備上使用(當Live Caption在今年晚些時候推出時,它只適用於部分Android Q設備)。

在雲上工作

Google的Cloud Speech API目前不支持發送無限長的音頻流。此外,依賴雲意味著網絡連接、數據成本和延遲方面都有潛在問題。

結果,語音引擎在達到超時之前關閉並重新啟動流請求,包括在長時間靜默期間重新開始會話並且每當語音中檢測到暫停時關閉。在會話之間,語音引擎還在本地緩衝音頻,然後在重新連接時發送它。因此,Google避免了截斷的句子或單詞,並減少了會話中丟失的文本量。

70多種語言和方言中挑選自己合適的

為了降低帶寬需求和成本,Google還評估了不同的音頻編解碼器:FLAC,AMR-WB和Opus。FLAC(無損編解碼器)可以保持準確性,不會節省太多數據,並且具有明顯的編解碼器延遲。AMR-WB可以節省大量數據,但在嘈雜的環境中準確度較低。

與此同時,Opus允許數據速率比大多數音樂流媒體服務低許多倍,同時仍保留音頻信號的重要細節。Google還會在長時間的靜音期間使用語音檢測來關閉網絡連接。

總體而言,該團隊能夠實現「在不影響準確性的情況下,將數據使用量減少10倍」。

為了比Cloud Speech API更進一步減少延遲,Live Transcribe使用自定義Opus編碼器。編碼器恰好提高了比特率,使「延遲在視覺上無法區分發送未壓縮的音頻」。

Live Transcribe語音引擎功能

Google列出了語音引擎的以下功能(不包括說話人識別):

無限流媒體。

支持70多種語言。

可以簡化網絡丟失(在網絡和Wi-Fi之間切換時)。文字不會丟失,只會延遲。

強大的擴展網絡損耗。即使網絡已經停電數小時,也會重新連接。當然,沒有連接就不能進行語音識別。

可以輕鬆啟用和配置Opus,AMR-WB和FLAC編碼。

包含文本格式庫,用於可視化ASR置信度、發言人ID等。

可離線模型擴展。

內置支持語音檢測器,可在延長靜音期間用於停止ASR,以節省資金和數據。

內置支持揚聲器識別,可根據揚聲器編號標記或著色文本。

字幕會隨著對話的深入而調整

該文檔指出這些庫與生產應用程式Live Transcribe中運行的庫「幾乎相同」。Google已對其進行了「廣泛的現場測試和單元測試」,但測試本身並非開源。但Google確實提供了APK,因此開發者可以在不構建任何代碼的情況下試用該庫。(雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網)

via:android.com  venturebeat

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • Chrome引入Live Captions功能:提供實時字幕 - 太平洋電腦網
    在最新的 Chrome Canary 85 版本更新中,谷歌為網頁端的音頻和視頻內容提供了實時字幕功能--Live Captions。想要啟動實時字幕功能,步驟如下1. 啟動Chrome Canary 85.0.4167.0或更高版本。  2. 訪問chrome://flags頁面  3. 搜索"Live Captions"  4. 從下拉菜單中選擇 "已啟用"並重新啟動瀏覽器。  5. 單擊菜單 > 設置 > 高級 > 輔助功能 > 啟用實時字幕。
  • Google為桌面版Chrome瀏覽器帶來實時字幕功能
    這意味著,如果用戶在無障礙設置中啟用 "實時字幕 "開關,Chrome瀏覽器將自動檢測正在播放的媒體內容中的語音,並為瀏覽器中播放的所有媒體生成字幕。在無障礙設置方面,針對屏幕閱讀器用戶的Google Chrome瀏覽器已經允許為沒有Alt文本的圖片生成描述,而且Chrome瀏覽器還可以將無障礙特性連結到Windows 10 Captions,允許用戶自定義關閉的字幕在瀏覽器中的顯示方式。
  • 靈雲AIIS智聲一體機:提供語音轉寫、實時字幕與翻譯服務
    靈雲智聲一體機是一款針對日常辦公、演講匯報、移動問訊(詢)、便攜會議室等多種語音場景設計的智能辦公產品。靈雲智聲以語音識別技術為核心,結合語義理解、機器翻譯等人工智慧技術,支持中/英多語種識別及互譯,擁有智能語音輸入法,Office語音筆錄插件、字幕、投屏、音視頻轉寫等多種特色功能,為用戶提供語音速錄與字幕展示的全方位解決方案。
  • Kaldi技術交流會:AISHELL-2上線,希爾貝殼開源了1000小時語音數據
    無論對於工業界還是學術界,AISHELL-2資料庫開源的現實價值都相當高,數據為免費開源以硬碟和網盤形式開放給高校科研教育機構使用。從這個角度講,工業級的開源項目真正為這個行業輸送了資源和人才,在我們看來意義重大。
  • 開源HTML5遊戲引擎Kiwi.js 1.0正式發布
    Kiwi.js是由來自紐西蘭的GameLab公司開發的一款全新的開源HTML5 JavaScript遊戲引擎,主張Mobile First,在經過一年多的開發和測試之後,終於在日前正式發布了Kiwi.js 1.0版本。
  • B 站 up 主開源視頻字幕自動翻譯神器!
    如果你回答「是」,那麼今天 推薦的這款開源工具,興許能拯救你於水深火熱之中。並且它還是開源的!在稍作整理之後,小 G 打算今天好好跟大家介紹一下。這款神器名叫「糰子翻譯器」,是由 B 站一個叫胖次の糰子所製作的 OCR 翻譯軟體,其主要核心功能,便是能幫你快速翻譯出現在電腦屏幕上出現的外文(英文、日文、韓文)。
  • Google關閉Google.cn 正式退出中國 通過香港站提供服務
    北京時間3月23日凌晨2點31分google.cn自動跳轉至google.com.hk,同時界面顯示:「歡迎來到谷歌搜索在中國的新家」。北京時間3月23日凌晨3點07分,雅虎新聞頻道援引美聯社的報導稱,谷歌將轉移中國大陸的搜尋引擎服務,但會繼續保持在中國大陸的其它業務服務。
  • 手握二次元入場券,「紅豆Live」更名「KilaKila」,如何突圍語音直播邊界?
    紅豆live更名,K站來了?「由於產品品牌戰略升級,從今日起『紅豆Live』將正式更名為『KilaKila』.」而KilaKila前身、紅豆live作為語音直播平臺,平臺的主播有很多知名的聲優、唱見、Coser等,本來就有豐富的二次元內容。KilaKila前身、紅豆live於2016年8月上線,誕生於微博控股的公司。
  • Go開源說:KubeVela標準化的雲原生平臺構建引擎
    由於上述這些能力和環境,都通過「模板」的方式進行了抽象,所以對於業務團隊來說,它們並不需要學習完整的 Kubernetes 概念與細節,只需要了解上述模板暴露出來的參數,就可以無縫的使用 Kubernetes 來完成自己要做的事情。
  • 語音轉字幕工具
    ①剪映(免費)剪映是手機上比較流行的視頻剪輯軟體,由抖音官方出品,擁有豐富的視頻剪輯功能,包含語音識別/語音轉字幕/文字轉語音
  • [3]小度太弱了,乾脆自己用Python開發個對話機器人【爬蟲,資料庫,面向對象,人工智慧】
    背景麥叔因為百度導航的對話機器人太弱,一次只能講一個笑話,決定用Python開發一個會語音講笑話的機器人,想講幾個笑話就講幾個笑話。我們就稱它為笑笑吧。本文是Python笑笑語音機器人綜合案例的第3篇。
  • 梧桐車聯推出開源「技術底座」,車聯網系統進入開放時代
    因此,國內車聯網系統大多以開源、靈活、可移植性強的安卓系統為基礎,是廠商在安卓系統之上二次開發的產物。但隨著車聯網逐步滲透全車,安卓系統的弱點也逐漸暴露。其中最大的弱點,就是安卓系統的碎片化問題。谷歌免費、開源的策略,讓安卓系統橫跨大量硬體平臺。早在2012年,有機構對手機端安卓系統進行分析,就發現安卓版本的手機多達4000多個型號。
  • 為用戶提供更多語音服務選擇 亞馬遜聯手騰訊微信AI團隊成立語音互...
    9月25日,亞馬遜宣布將聯手騰訊在內的全球多家頂尖科技公司,共同成立語音互操作性聯盟(VII)。聯盟將致力於讓具備語音控制能力的產品更具靈活性,讓用戶能夠通過不同的喚醒詞來喚醒設備,從而在多個不同的語音服務之間做選擇。作為聯盟成員,騰訊微信AI團隊將以騰訊小微智能語音助手解決方案為核心,為喚醒詞提供多一個選項。
  • 語音AI技術的尷尬,卻暗藏社會經濟地位偏見 | 深度
    一直以來,說話的口音是自動語音識別(ASR)系統希望進一步突破的領域,不論是對神經網絡引擎或統計模型都是如此。就有網友開玩笑說,不知道這與開發者的背景有沒有關係,因為這兩家公司都有許多工程師來自印度,當他們在開發產品時,每天跟智能語音助理對話,因此機器比較聽得懂他們的英文。
  • 視頻語音轉字幕技術,讓聽障者「看見聲音」
    視頻語音轉字幕技術,讓聽障者「看見聲音」 2020年1月3日 星期五《洛陽日報》第3版 近日,在位於洛陽國家大學科技園科大訊飛孵化加速中心的洛陽樂往網絡科技有限公司,有關人員正在開展「聽障視頻字幕識別」產品測試。
  • 剪輯大神都在用的加字幕神器,你知道嘛!
    Aegisub是一個免費,跨平臺且開源的用於創建和修改字幕的工具。Aegisub的最大特點,調整字幕方式是採用音頻顯示,只要載入影片再載入影片的聲音,就會在視窗上顯示音訊的波狀圖,Aegisub字幕軟體根據波狀圖可以很直覺的來調整字幕,只要是尖峰狀的就代表是對話聲音,一般背景聲或雜聲則是比較平滑,兩者很arctime 是一個專業的桌面加字幕軟體,Mac 和 Windows 都能使用。
  • Google語音可能是免費的而VoxOx可能會提供更多功能
    像Google語音一樣,Ribbit Mobile可以將語音郵件轉錄為文本,然後通過SMS和電子郵件將其發送給用戶,從而使用戶不必利用語音郵件來收聽消息。該應用程式還包括一個在線消息收件箱。但是,與VoxOx和Google語音(直到上周要求用戶使用特殊的Google電話號碼)不同,Ribbit Mobile不需要新的電話號碼。用戶將其行動裝置連結到Ribbit並記錄新的語音信箱問候。當有電話打進手機時,用戶可以接聽電話或忽略電話。
  • 蘋果、Google、微軟、亞馬遜,哪家的語音助手會的語言最多?
    目前,語音研究領域也主要使用深度神經網絡——一個像人類神經一樣的分層數學函數,可以不斷自我學習和進步。▲ 圖片來自:electronicsweekly這已經是一個巨大的進步。過去的自動語音處理技術(ASR)主要依賴手動調整的統計模型來計算短語中詞組合的概率,深度神經網絡不僅降低了錯誤率,而且在很大程度上避免了人為監督的需要。
  • 火山引擎推出「影院級字幕」同傳方案
    本場直播中,火山引擎旗下的火山同傳產品獨家全程提供了實時智能同傳字幕。據悉,在此次村上隆的跨國直播中,火山同傳創新性地推出了「影院級字幕」方案,與視頻流整合後流暢地輸出完整的譯文語句,在屏幕上逐句顯示。觀眾可以清楚看到精準的字幕結果,免受字幕跳動帶來的視覺幹擾。在村上隆的直播彈幕中,還有個人網友質疑是否真的在直播。