谷歌推出錄音程序Recorder,智能處理海量音頻信息

2021-02-13 將門創投

對於冗長的會議、複雜的課程、高強度的採訪來說,記筆記很多時候已經無法滿足海量湧來的信息了,用錄音筆或者手機錄音成為記錄信息的常用方式。但要從幾個小時的錄音中尋找到關鍵的信息卻讓人十分抓狂。如果我們能夠擁有一個智能錄音機,可以實時轉錄並標記長時間的錄音內容,幫助我們像搜索文本圖像一樣迅速定位找到相關信息,那該多好!

為了解決這一問題,讓人們更為便捷地檢索錄音中感興趣的信息,谷歌為Pixel開發了一個名為Recorder的應用,將移動端機器學習的最新進展應用於對聲音、對話的記錄和轉寫、檢測和識別特定類型的音頻(包括語音、音樂、掌聲、口哨、音樂等等)並為錄音信息編制了有效的索引,從而幫助用戶可以快速地尋找到感興趣的錄音片段。值得一提的是,所有這些都可以在設備端離線運行,無需網絡和雲服務的支持。

音頻轉錄

這一app的背後是一個高性能的移動端語音識別模型,它可以有效可靠地對長達幾個小時的錄音進行撰寫,同時在撰寫的過程中還可以將單詞映射到時間戳上建立有效的索引。

支持實時語音轉寫的RNN-T模型

這樣用戶就可以在單擊撰寫結果的一個單詞時跳轉到錄音中對應的時刻開始播放,也可以通過對特定詞語的搜索直接跳轉到錄音中對應的時間點,使得錄音也變得智能化、可以方便地檢索。


基於音頻分類的錄音內容可視化

除了可以支持特定單詞的檢索,很多時候能夠可視化地快速搜索音頻中特定類型的內容更為有用。在Recorder中為音頻中不同類型內容的波形添加了不同的顏色,而這主要是通過基於CNN的音頻分類模型來實現的。

用於訓練CNN音頻分類模型的數據集

雖然很多時候周圍存在著嘈雜的多種聲音,但Recorder中會根據某一時間段內(50ms)最主要的聲音來為音頻添加上對應分類的顏色標籤。基於色彩的粗粒度視覺檢索方式可以讓用戶直觀地了解錄音中的聲音類型的分布比例,同時也為相關信息的檢索提供了便利。


為了實現這一功能,錄音軟體利用滑動窗口的方法來對960ms長度的錄音進行處理,每隔50ms的間隔輸出一個表示對應聲音類別的概率。此外研究人員還利用線性化與閾值等機制對概率得分進行處理,得到了更為精確的內容分類結果。


由於模型對於每個音頻幀進行獨立地分析,從而可以適應音頻幀間不同類型的快速變化。通過自適應尺寸的中值濾波器技術對分類結果進行處理,就能得到平滑且連續的輸出。同時模型和前後處理也滿足高效的能耗要求,以便適應移動端嚴格的功耗限制。

自動標籤建議

錄音結束後,程序還能夠根據內容自動生成三個最具代表性的標籤,幫助用戶快速構建文件標題。

為了能夠在轉寫結束就生成標籤建議,程序在轉錄過程中就會對單詞數量、重要性進行分析;同時也會將識別出的專有名詞轉為大寫。然後使用設備端的詞性標註器來根據語法標註每一個詞的詞性,檢測出用戶更容易理解和記憶的詞。最後利用決策樹的方式生成詞語等分,並輸出排名靠前的詞語作為標籤。

錄音建議標籤抽取流程


小程序大身手

雖然只是一款小小的錄音機程序,但其中集成了很多機器學習技術,特別是要在設備端離線準確運行如此長時間的語音識別模型是十分不易的。設備端的運行不僅提高了用戶使用的體驗,同時也保護了用戶隱私不受侵犯。通過對於需求的挖掘和機器學習技術的充分利用,小小的錄音機也能成為人們高效工作的大幫手!從內容到圖像,從視頻到聲音,讓一切信息變得更容易搜索和觸達,期待谷歌未來能夠推出更好的服務。

ref:Recorder:https://play.google.com/store/apps/details?id=com.google.android.apps.recorder
RNN-T:https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html
https://ai.googleblog.com/2017/03/announcing-audioset-dataset-for-audio.html
https://research.google/pubs/pub45611/

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機互動、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com

    

 

將門創投

讓創新獲得認可!

微信:thejiangmen

bp@thejiangmen.com

相關焦點

  • BearAudio免費在線音頻編輯工具 方便錄製音頻實現不同格式間轉換
    BearAudio希望通過推出創新的錄音工具來改變音頻編輯的面貌,該錄音工具旨在簡化製作優質音頻文件的過程。音頻編輯工具具有獨特的功能,使其與其他解決方案脫穎而出,特別是用戶友好性,使得所有類別的用戶都可以輕鬆地創建音頻內容,而無需任何昂貴的投資。
  • 谷歌(GOOG.US)為僱人監聽智能助手錄音辯護 承諾對用戶數據洩露...
    美股 谷歌(GOOG.US)為僱人監聽智能助手錄音辯護 承諾對用戶數據洩露進行調查 2019年7月12日 09:20:00 騰訊網本文來自 「騰訊網」,本文觀點不代表智通財經觀點。導語谷歌(GOOG.US)表示,記錄「小範圍查詢」的「語言專家」是「構建語音技術過程的關鍵組成部分」。
  • 配音員在家錄樣音的錄音音頻軟體?
    不少人把Cool Edit形容為音頻「繪畫」程序。你可以用聲音來「繪」制:音調、歌曲的一部分、聲音、弦樂、顫音、噪音或是調整靜音。而且它還提供有多種特效為你的作品增色:放大、降低噪音、壓縮、擴展、回聲、失真、延遲等。你可以同時處理多個文件,輕鬆地在幾個文件中進行剪切、粘貼、合併、重疊聲音操作。使用它可以生成的聲音有:噪音、低音、靜音、電話信號等。該軟體還包含有CD播放器。
  • iZotope發布RX 8並更新旗艦套裝RX Post Production Suite 5,帶來諸多智能音頻處理工具
    智能音頻技術專家iZotope發布了RX 8,這是它們的旗艦音頻修復和增強軟體的最新版本,同時發布的還有RX Post Production Suite 5。此外,iZotope宣布將在今年秋天推出Music Production Suite 4。
  • 智能錄音筆哪款比較好,錄音筆選購攻略
    傳統的錄音筆已經無法滿足人們多樣化的工作需求,智能錄音筆被人們推崇。那麼,智能錄音筆哪款比較好呢?在多個品牌相繼推出智能錄音筆之後(例如搜狗近期推出了搜狗智能錄音筆S1),作為消費者該如何進行選購呢?二、要具備錄音轉文字功能,提高工作效率錄音筆不能僅僅只是單純的進行音頻記錄,它要能直接將音頻轉寫成文字,還要具備能對文字進行編輯和處理的功能,提升職場人的工作效率。
  • 什麼是谷歌智能助理?你怎麼用它?
    隨著谷歌最近宣布推出Pixel 2和Pixel 2 XL,你可能會想知道什麼是谷歌智能助理?小編會為你分解它。在過去的幾年中,虛擬助手在大型科技公司製造的設備中變得越來越普遍。最顯著的NE是谷歌助理。Big G的語音助手可以在許多設備上找到並且有一個主要目標,讓您的生活更輕鬆一點。什麼是谷歌智能助理?
  • 經濟學人全球頭條:10月個稅調整,滴滴錄音衝突下降,谷歌新品發布會
    滴滴指出,9月8日起在全國試運營行程中錄音功能,對潛在司乘雙方不文明行為起到了震懾作用,有效降低車內衝突的發生,同時也有利於公正解決司乘糾紛。谷歌新品發布會前瞻:毫無秘密的Pixel系列新品10月9日,谷歌將在紐約舉行主題為「谷歌製造」的硬體發布會,將有包括Pixel 3和Pixel 3XL兩款智慧型手機在內的一系列新產品發布
  • AI錄音筆硬核推薦 專業好用就選訊飛智能錄音筆
    人工智慧時代,傳統消費類硬體都在向AI硬體轉型,其中不乏有傳統的錄音筆產品。而這其中,作為人工智慧領域的領導者,科大訊飛憑藉語音技術和人工智慧領域二十一年的積累,其AI錄音筆——訊飛智能錄音筆一經推出便獲得了廣大消費者關注,並在去年雙十一期間斬獲天貓&京東雙平臺錄音筆品類和單品銷售額雙料冠軍。
  • Python處理音頻文件的實用姿勢
    音頻處理場景如果僅僅是需要批量轉格式,或者按固定標準剪輯音視頻,ffmpeg足夠應付,最多就是多些幾行shell命令,比如增加個循環實現批量文件處理。但如果涉及到對音視頻內容處理,如實現視頻效果、提取音頻高潮等場景,就需要藉助三方模塊了。
  • 外媒爆料Siri正收集你的隱私錄音
    爆料者稱,Siri會對人們的隱私活動進行錄音——包括但不限於性接觸、醫患交談、毒品交易等,並將音頻偷偷發送給評估師進行評估。報導援引英國《衛報》消息稱,根據匿名爆料者的說法,Siri的錄音是分發給全世界評估師的,這些人負責為Siri的反饋質量進行評估,來看它的回答是否經過了「深思熟慮」。
  • 音頻處理軟體都有哪些?
    應用特色:  1、更快、更輕鬆地創作  利用最新版本的 Pro Tools,創作音樂和處理大型的音頻後期製作項目現在比以往任何時候都要更輕鬆。從海量的新 MIDI 增強功能到節省時間的批量重命名功能,Pro Tools 在提升您的創意效率方面與 DAW 完全不同。
  • Google Phone應用準備提供通話錄音功能
    Google Phone是谷歌自己的電話撥號應用,它預裝在Google Pixel系列智慧型手機,Android One系列智慧型手機以及最近在歐洲銷售的小米智慧型手機上。當小米宣布在歐洲銷售的所有手機都預裝Google Phone應用時,一些用戶感到失望,因為這意味著失去了電話錄音功能,這是MIUI撥號程序中的一項功能。之前,小米承諾,該功能將在 2020 年重新提供給用戶,現在XDA大神拆解了最新版本的Google Phone應用,他們發現其中提供了支持電話錄音功能的相關代碼。
  • 助力顯示技術發展 創維LIFErecorder 8K攝像機升級8K體驗
    來源:經濟日報-中國經濟網隨著超高清技術受到前所未有的關注,以5G+8K為代表,基於網絡的超高清視頻需求也在迅速積累,各大品牌陸續推出8K電視、8K攝像機、8K顯示器等硬體設備,迎接超高清顯示時代的到來。
  • 智能錄音速記「開掛」體驗:科大訊飛智能錄音筆B1就是這麼強
    在智能語音領域,科大訊飛無疑是最大的成功者,旗下多款產品早已獲得了市場的認可。為了進一步完善市場格局,科大訊飛於近期推出了一款定位商務科技風的訊飛智能錄音筆B1,這款產品在快速錄音、語音轉換以及翻譯等方面都有著出色的表現,剛上市就引起了職場人士的濃厚興趣。
  • Apogee 推出給 iPhone 和 Apple Watch 的 MetaRecorder 音頻錄音軟體
    Apogee 的 MetaRecorder 是第一個為 iPhone 推出的多次錄音 App,標記和管理錄音的文件。
  • 免費好用的錄音轉文字助手
    錄音怎麼轉換成文字呢?今天小編個大家介紹一個免費好用的錄音轉文字助手。可以通過這個小工具將我們的錄音直接轉換成文字且還可以支持在線編輯,真的非常方便。apkName=com.hudun.androidrecorder第一步:首先我們在瀏覽器或者手機各大應用市場裡面搜索:《錄音轉文字助手》找到以後進行下載並安裝。
  • 拆解報告:搜狗智能錄音筆C1
    錄音筆這一產品在日常工作記錄、會議、採訪時能夠起到重要的作用,搜狗此前曾推出過Sogou搜狗錄音翻譯筆,今天我們和大家來分享的是其升級款,讓我們一起來看看都有哪些升級吧!一、搜狗智能錄音筆C1 開箱包裝盒為長條形,自上至下依次是:Sogou的品牌LOGO、產品渲染圖、C1智能錄音筆,以及2019年德國iF設計獎的認證。
  • 谷歌智能助手現在推出助理駕駛模式 還能幫你訂車!
    【CNMO新聞】北京時間5月8日凌晨一點,谷歌召開「2019谷歌I/O開發者大會」,會上Google執行長Sundar Pichai談到谷歌的願景,就是更好的幫助到更多人。2019谷歌I/O開發者大會會上Sundar Pichai介紹了最新的谷歌智能助手,谷歌助手現在可以幫助人們完成更多的事情,能夠更好的識別人們語音,谷歌智能助手還能夠實現識別人們的音節。並且現在用戶如果想要租車,就可以對谷歌智能助說「為我預訂汽車」 然後,智能助理將會自動打開網站,並開始代表用戶填寫必填信息。
  • 錄音轉文字助手|語音轉文字-配音小程序
    點擊下方文字進入配音小程序👇👇👇【配音服務助手小程序】-免費版有了好的文案,接下來就需要製作地攤叫賣錄音了,最簡單的方式是錄製自己的聲音,但是對於很多人可能不想用自己的聲音,畢竟也沒有特別出彩的地方,接下來以知意配音為例給大家說說用軟體來製作叫賣廣告錄音:步驟一:點擊配音服務助手登錄配音軟體;步驟二:準備好需要配音的文案,放到配音服務助手的輸入框中;
  • 蘋果和谷歌宣布Apple TV應用程式將登陸谷歌安卓電視平臺Google TV
    據報導,蘋果和谷歌宣布,Apple TV 應用程式將登陸谷歌安卓電視平臺 Google TV。有了 Apple TV 應用程式,擁有 Google TV 的 Chromecast 用戶將能夠觀看 Apple TV Plus,以及他們訂閱的 Apple TV 頻道和從 iTunes 商店購買的內容。目前,蘋果已經推出了安卓電視版的 Apple TV 應用程式,但僅限於運行安卓電視軟體的索尼電視。