對於冗長的會議、複雜的課程、高強度的採訪來說,記筆記很多時候已經無法滿足海量湧來的信息了,用錄音筆或者手機錄音成為記錄信息的常用方式。但要從幾個小時的錄音中尋找到關鍵的信息卻讓人十分抓狂。如果我們能夠擁有一個智能錄音機,可以實時轉錄並標記長時間的錄音內容,幫助我們像搜索文本圖像一樣迅速定位找到相關信息,那該多好!
為了解決這一問題,讓人們更為便捷地檢索錄音中感興趣的信息,谷歌為Pixel開發了一個名為Recorder的應用,將移動端機器學習的最新進展應用於對聲音、對話的記錄和轉寫、檢測和識別特定類型的音頻(包括語音、音樂、掌聲、口哨、音樂等等)並為錄音信息編制了有效的索引,從而幫助用戶可以快速地尋找到感興趣的錄音片段。值得一提的是,所有這些都可以在設備端離線運行,無需網絡和雲服務的支持。
這一app的背後是一個高性能的移動端語音識別模型,它可以有效可靠地對長達幾個小時的錄音進行撰寫,同時在撰寫的過程中還可以將單詞映射到時間戳上建立有效的索引。
支持實時語音轉寫的RNN-T模型這樣用戶就可以在單擊撰寫結果的一個單詞時跳轉到錄音中對應的時刻開始播放,也可以通過對特定詞語的搜索直接跳轉到錄音中對應的時間點,使得錄音也變得智能化、可以方便地檢索。
除了可以支持特定單詞的檢索,很多時候能夠可視化地快速搜索音頻中特定類型的內容更為有用。在Recorder中為音頻中不同類型內容的波形添加了不同的顏色,而這主要是通過基於CNN的音頻分類模型來實現的。
用於訓練CNN音頻分類模型的數據集
雖然很多時候周圍存在著嘈雜的多種聲音,但Recorder中會根據某一時間段內(50ms)最主要的聲音來為音頻添加上對應分類的顏色標籤。基於色彩的粗粒度視覺檢索方式可以讓用戶直觀地了解錄音中的聲音類型的分布比例,同時也為相關信息的檢索提供了便利。
為了實現這一功能,錄音軟體利用滑動窗口的方法來對960ms長度的錄音進行處理,每隔50ms的間隔輸出一個表示對應聲音類別的概率。此外研究人員還利用線性化與閾值等機制對概率得分進行處理,得到了更為精確的內容分類結果。
由於模型對於每個音頻幀進行獨立地分析,從而可以適應音頻幀間不同類型的快速變化。通過自適應尺寸的中值濾波器技術對分類結果進行處理,就能得到平滑且連續的輸出。同時模型和前後處理也滿足高效的能耗要求,以便適應移動端嚴格的功耗限制。
錄音結束後,程序還能夠根據內容自動生成三個最具代表性的標籤,幫助用戶快速構建文件標題。
為了能夠在轉寫結束就生成標籤建議,程序在轉錄過程中就會對單詞數量、重要性進行分析;同時也會將識別出的專有名詞轉為大寫。然後使用設備端的詞性標註器來根據語法標註每一個詞的詞性,檢測出用戶更容易理解和記憶的詞。最後利用決策樹的方式生成詞語等分,並輸出排名靠前的詞語作為標籤。
錄音建議標籤抽取流程雖然只是一款小小的錄音機程序,但其中集成了很多機器學習技術,特別是要在設備端離線準確運行如此長時間的語音識別模型是十分不易的。設備端的運行不僅提高了用戶使用的體驗,同時也保護了用戶隱私不受侵犯。通過對於需求的挖掘和機器學習技術的充分利用,小小的錄音機也能成為人們高效工作的大幫手!從內容到圖像,從視頻到聲音,讓一切信息變得更容易搜索和觸達,期待谷歌未來能夠推出更好的服務。
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。
將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。
將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機互動、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com
將門創投
讓創新獲得認可!
微信:thejiangmen
bp@thejiangmen.com