百度推出AI音頻轉錄工具SwiftScribe,讓你20分鐘搞定1小時的錄音 |...

2020-11-23 搜狐網

原標題:百度推出AI音頻轉錄工具SwiftScribe,讓你20分鐘搞定1小時的錄音 | 鈦快訊

鈦媒體快訊 | ,一個利用人工智慧,讓用戶能快速將音頻快速轉成文字的免費網頁工具。

百度在近年一直在持續改善其新一代深度語音識別系統DeepSpeech2。DeepSpeech2系統由百度矽谷人工智慧實驗室(SVAIL)研發,並在去年被麻省理工科技評論評為2016年十大突破技術。

「百度在語音技術領域不斷進步,語音接口更為實用和有效。用戶可以愈加便利地與身邊的設備進行互動。百度的深度語音識別系統(DeepSpeech2)包含了一個非常龐大的神經網絡,引入了數以百萬計的轉錄語音。有時它在識別漢語語音片段方面,要比人為識別更加準確。」麻省理工科技評論寫道。

百度在去年也推出了應用DeepSpeech2的安卓輸入法應用TalkType,讓用戶能夠快速語音輸入文字。國際科技巨頭如微軟、亞馬遜、蘋果以及谷歌同樣在語音識別領域投入大量精力,但在長段語音識別轉錄上仍不及百度。

SwiftScribe支持上傳轉錄wav和mp3格式的音頻文件。一段30秒左右的音頻轉錄成文本時間大概為10秒,而一段1分鐘左右的文件大致需要30秒的轉錄時間。SwiftScribe最大支持用戶上傳1小時長的音頻文件,1小時的音頻則需要20分鐘左右的處理時間,百度的項目管理人武田介紹道。

但SwiftScribe的功能目前還沒有很完善,在轉錄成功後,用戶還需自行對文本進行編輯。SwiftScribe轉錄出來的文本是不帶標點符號的,用戶需要自行斷句、並對可能出現的錯誤進行更正、以及編輯英文單詞大小寫等。不過SwiftScribe同樣提供變速閱讀工具,讓用戶在校對編輯時可以調慢播放速度。

圖片來源:VentureBeat

SwiftScribe的開發靈感源於武田在加州大學聖芭芭拉分校讀研期間的採訪經歷。

「我的母語不是英語,要整理一段1小時錄音對我來說要花上10個小時。而對於專業人士來說,時間也不短,大概要6小時,」 武田說道。

武田和同事Nina Wei在跟幾個速記員交流過後也為開發SwiftScribe找到了不少靈感。武田的團隊認為SwiftScribe能給速記員帶來1.67倍的效率提升,能縮短40%的工作時間,這也意味著他們能花同樣的時間賺到更多的錢。

顯而易見,SwiftScribe並不只是單單面向於速記員,它基於網頁,並免費為用戶提供服務,對於其他如記者等需要經常整理音頻文件的職業,SwiftScribe可謂是提高效率的神器。

「我們希望在未來能夠將其商業化,」 武田說道,透露在技術成熟後增加收費服務的打算。

武田的團隊計劃未來給SwiftScribe加入音頻自動轉錄文字、為視頻上字幕等功能,以及增加支持文件格式,並加入自動添加標點符號的功能。

本文首發鈦媒體,綜合自VentureBeat、MIT Technology Review等外網 。Garrett/編譯

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App返回搜狐,查看更多

責任編輯:

相關焦點

  • 百度發布了人工智慧新產品,一位 「計算機速記員」
    百度用人工智慧技術做了新產品。百度矽谷實驗室(SVAIL)周一上線了網頁應用 SwiftScribe,基本的功能是把音頻資料轉錄成文字。在一篇博客文章中,項目主管 Tian Wu 說他們解決了一個重要的「痛點」:消耗大量時間的逐字聽寫轉錄。
  • 只需1 分鐘,這個網站用 AI 分離歌曲的人聲、伴奏和樂器聲
    糰子DanGo.ai(https://dango.ai/)——微博網友@無吔學生近期利用AI技術做的這個能分離音頻軌道的網站火了。在音樂分離這一領域,實際上已經有一些免費的AI工具。比如,由法國音樂流媒體服務公司Deezer為研究目的而開發的Spleeter開源工具,只需要提供一個音頻文件,然後Spleeter就會將它分成兩個、四個或五個獨立的音軌,非常有用。
  • 微軟最新AI系統!使用雲端麥克風陣列,音頻轉錄精度提升22.4%
    導語:微軟利用人工智慧轉錄會議音頻,新系統使用雲端麥克風陣列。智東西9月16日消息,微軟語音和對話研究小組的科學家最近研發了一個系統,利用內置於智慧型手機、筆記本電腦和平板電腦中的麥克風來提高音頻質量。這個系統通過智能硬體連接網際網路,在雲端形成臨時的麥克風陣列,可以實時高精度轉錄音頻。
  • 搜狗錄音翻譯
    應用介紹 搜狗錄音助手APP,是一款專業的錄音筆管理、手機錄音以及音頻轉寫文字應用,支持連接搜狗,愛國者等品牌AI錄音筆,配合錄音筆硬體產品,能夠實現高清多模式錄音,實時轉寫文字,區分講話人,同聲傳譯等功能。APP內集成的搜狗聽寫服務能力,利用搜狗強大的AI技術實力,依託其核心語音識別技術,為用戶提供眾多語種的識別服務,1小時音頻可快至5分鐘出稿,中文識別準確率高達95%。
  • 搜狗AI智能錄音筆E1測評
    面對日常的學習或是生活,記錄聲音信息對我們來講是一件必不可少的事情,無論是專業的媒體記者,還是課堂上的學生,擁有一個便捷的錄音工具,都將給你帶來事半功倍的工作與學習效率。雖然目前使用手機錄音已經十分方便,但受限於錄音條件和手機本身的設計,我們很少能得到較為清晰並且品質能得到長久保障的錄音效果。此外,對於我們來說,將錄音文件整理成可讀的文稿也往往是一件十分浪費時間與精力的事情。那麼,是否有一款設備能夠解決我們有關錄音方面的難題呢?下面給大家分享一款搜狗AI智能錄音筆E1,看看能否滿足你的工作需求。
  • 讓打工人效率翻倍的工作神器 還是搜狗AI錄音筆E2最好用
    而搭載攝像頭的搜狗AI錄音筆E2,專治會議、聽課等場合出現的「疑難雜症」。有了800萬像素的攝像頭,全場景拍照清晰,字號小的文字也能清晰可見。參加會議或聽課時,邊錄音邊拍照,隨時抓拍PPT、文檔等資料,錄音筆E2會同步存儲音頻及圖片,回聽錄音時可同步播放和瀏覽。很用心的是,搜狗考慮到有些場合光線暗,攝像頭旁邊設置了補光燈,讓你在暗處也能拍清晰。
  • MIT收集20萬咳嗽樣本,用AI辨別無症狀感染者
    沒有任何胸悶發熱症狀,你和同伴可能很難區分是否感染了新冠。但人工智慧可以,只要你給TA聽聽你的咳嗽聲。 在最近發表在《IEEE醫學與生物學工程學雜誌》上的一篇論文中,麻省理工學院的研究人員表示,他們已經開發出可以識別COVID-19感染者咳嗽聲的AI。
  • 如何把ai,ei,ui,輕鬆讀準,孩子兩分鐘搞定
    這節課,主要是跟大家一起學習,雙韻母ai(哀),ei(誒),ui(威)。那麼,到底什麼是雙韻母呢?雙韻母和單韻母,到底是什麼關係呢?如何才能把雙韻母輕鬆地讀準確呢?雙韻母,簡單理解,就是把兩個單韻母組合在一起,或者是把一個單韻母和一個聲母組合在一起,共同發一個音。這就是雙韻母。之所以稱之為是雙韻母,主要是因為,它只有兩個字母,由兩個字母組合而成的。
  • 百度推出AI翻譯工具 邊說邊譯類同傳
    10月24日消息,百度推出了一款AI翻譯工具,可以實時將英語翻譯成中文和德語。到目前為止,許多在線翻譯服務允許用戶說或寫一句話,但翻譯的過程仍有滯後。相比之下,百度的即時翻譯工具可以在句子說出來的同時進行翻譯,類似同聲傳譯。目前,該工具只能互譯英語和中文,或者互譯英語和德語。但百度承認了該翻譯工具的局限性,表示暫時還無法做到取代人類口譯員。
  • 谷歌推新AI工具 用聲音了解鯨魚行為
    6月6日消息,Google AI在過去一年與NOAA的太平洋島嶼漁業科學中心合作,在其大量水下錄音中訓練人工智慧模型。該項目正在幫助科學家更好地了解鯨魚的行為和遷徙模式,因此科學家可以更好地保護鯨魚。
  • AI效率神器非他莫屬,科大訊飛智能錄音筆行業高水準不可匹敵
    而科大訊飛在智能語音領域早已推出了多款產品,比如,訊飛智... 很多用戶接觸最早的智能語音是從訊飛輸入法開始的,對這款應用有著極高的評價。而科大訊飛在智能語音領域早已推出了多款產品,比如,訊飛智能錄音筆SR701就深受用戶歡迎,它不僅語音識別能力強,距離遠,還有文字轉寫、要點標記等更多實用功能,為文字工作者提升效率提供了絕佳的硬體支持。
  • 被「聽音識圖題」支配的你有救了!反手一個AI搞定7000種語言
    語音、圖像一「鍵」搞定但乍看起來,這個系統好像也沒啥特別厲害的。語音識別、圖像識別不都是 AI 的常規操作嘛…沒錯,這倆都是常規,可加在一起就超常規了。所以,以往遇到這個問題時,語音和圖片之間是無法直接關聯的,而需要通過手動的轉錄或者注釋。比如 Siri,它需要先將數千個小時的語音記錄轉錄下來,通過這些數據,學會將語音信號與特定單詞相匹配。一旦人們發了什麼新詞,這種方法就不好用了,系統也得從頭練。
  • 1萬小時理論都是騙人的?學會一項技能只要20小時就夠了!
    開篇之前例行警告:千萬別讀《關鍵20小時--快速學會任何技能》,因為你會發現學會和學精是兩回事,想學門技能,只要關鍵20小時就夠了。提到學習,各位大兄弟大妹子肯定會想到著名的10000小時理論:任何人只要練習10000小時,就可以做到某個領域的專家,當初看到這個理論的時候,千姐很是激動了一把,覺得自己終於有救了。
  • 手把手教小夥伴轉換432Hz音頻
    金星軌道距離:1.08億公裡地球軌道速度:108,000公裡/小時。太陽的直徑大約是地球直徑的108倍。太陽系內部的速度:43200英裡每小時。木星軌道周期:4320天。[文件][打開...]打開你要轉換的音頻文件,選擇[工具][應用宏][你剛剛設定的宏的名字]
  • 短視頻運營必備工具大全推薦
    ,提供數千個設計模板,文字背景圖片皆可修改,不需設計經驗, 3 分鐘即可搞定海報設計、賀卡設計、名片設計、邀請函設計、封面設計、banner 設計、微信朋友圈封面設計和微信二維碼設計等。一分鐘搞定封面製圖。6、ARKIE作圖https://www.arkie.cn/welcomeARKIE作圖是一款智能設計工具,只需輸入文字,即可一鍵生成海報。設計風格呈現「性冷淡」風,模板數量不多但每個設計都簡單高級。智能擴展尺寸功能,僅需一鍵便可以生成多種延展尺寸,避免設計中的重複勞力,實現高效設計。
  • 手機錄音怎麼轉文字?分享2種方法,幫你分分鐘提高學習效率
    手機錄音怎麼轉文字?只要你學會了以下兩種方法,分分鐘助你搞定一天的工作量。一、手機錄音轉換如何將手機錄音轉換成文字?只要你在需要錄音轉換的時候打開手機錄音機就可以了,具體的操作步驟如下,非常簡單。1)打開錄音機,接著新建一個然後點擊錄音,它就會將你身旁的聲音錄製下來;2)錄製完成後,點擊下方的「轉文本」就可以進行轉換了
  • 漲姿勢:常用音頻格式的區別
    PCM中文稱脈衝編碼調製(Pulse Code Modulation),是70年代末發展起來的,記錄媒體之一的CD,在80年代初由飛利浦和索尼公司共同推出。脈碼調製的音頻格式也被DVD-A所採用,它支持立體聲和5.1環繞聲,1999年由DVD討論會發布和推出的。
  • 1+4麥克風陣列+智能主動式降噪?科大訊飛AI智能錄音筆SR301測評
    對於一些媒體人或者正在學習外語的朋友們來說,擁有一個便捷的錄音工具,將會給我們的工作和學習帶來事半功倍的效率。語音實時轉文字+先錄音後轉寫首先,這款科大訊飛AI智能錄音筆SR301能夠真正支持語音實時轉文字,文字可以通過3.0英寸觸摸大屏幕顯示出來,清晰明了,同時,它還支持多語言轉寫,包括12種中文方言、2種少數民族語言、以及8種外語轉寫,讓你在提升工作效率之餘,告別語言障礙。
  • aigo愛國者錄音筆R6811自帶揚聲器還支持一鍵錄音
    愛國者錄音筆R6811內置3.7V 320mAh的鋰電池,充滿電的情況下連續錄音10個小時續航是沒有問題的。這款愛國者錄音筆R6811的內置容量有16G,MP3格式128Kbps可以錄製17460分鐘,WAV格式1536Kbps可以錄製1440分鐘,隨著解碼率下降錄製時間會成倍增加。
  • AI唱歌不僅中英文無壓力,還會粵語!微軟聯手浙大研發出DeepSinger
    想必你一定聽過最近大火的"AI女團",7月10日,微軟小冰攜手小米小愛、B站冷鳶、百度小度首次集體亮相世界人工智慧大會,以一首AI歌曲《智聯家園》正式「出道」。AI女團的首場演唱會可謂驚豔全場。從整首歌的歌詞、卡點、節奏來看,這首《智聯家園》演唱得不亞於專業音樂團隊。如果只聽音樂,恐怕很難分辨出這是AI生成的歌聲。