「魔音助手」是一款音視頻轉文字的效率工具,可以幫助企業做語音、視頻會議記錄,有會議內容檢索,自動會議摘要和音視頻編輯等功能。適合學習、會議、採訪等場景。
魔音助手不止能完成對語音內容的速記。在魔音助手軟體中,用戶可以錄製會議聲音或視頻,軟體能自動生成文字內容並分辨不同的說話人。被提到的文字用光標顯示,用戶可以根據文字的時間點做簡單的剪輯工作。此外,魔音助手有文本搜索功能和自動摘要功能,方便用戶選取錄音核心內容,進行會議復盤。
據前瞻研究院數據,2018年我國的智能語音產業市場規模為48.6億元,之後每年市場規模增長率都超過25%,預測2021年將突破100億元的市場規模。這一產業擁有較好的市場前景。而且,由於疫情爆發,人們逐漸適應智能辦公學習。魔音助手團隊認為語音、視頻會議是新的市場機會,從今年2月開始開發針對工作學習場景的轉錄軟體。
在語音識別準確率方面,魔音助手搭建了雲端自訓練模型,訓練數據大多是公開會議、學習課程、語音會議等特定場景,專門為工作和學習場景定製,識別率高。市面上的錄音轉文字記錄工具大多使用通用模型,需要適應各種場景,缺少針對性。此外,魔音助手運用個性化語音識別引擎(PASA),能為每個帳號能形成不同的語音模型結構,自適應學習用戶常用的專業術語和口音,在用戶校對的過程中變得更智能。隨著用戶的不斷使用,識別準確度會越來越高。
魔音助手的轉錄可以實現說話人分離的功能。採用的聲紋技術能將每個聲音轉換為固定維度的聲紋向量,實現聲紋比對。在行業中,人聲識別是一個交叉學科,需要聲紋識別、語義識別等算法共同實現,技術壁壘高,因此市場上擁有這一功能的語音轉文字工具較少。魔音助手將聲紋識別與語義內容結合,對說話人的識別正確率可以到達70%-80%。另外,魔音助手採用的自然語言處理模型可以理解語義並對文本糾錯,自動修改病句和口誤,提高文本可讀性。
在輔助功能方面,魔音助手可以實現語義提取,通過分析上下文關聯信息自動提取會議摘要。另外,魔音助手支持轉錄文本搜索功能,可以搜索文本內容定位語音位置。魔音助手還能實現視頻語音轉錄,為視頻生成字幕。用戶可以根據字幕內容編輯對應視頻。
目前,魔音助手的收入主要來自於企業付費。產品目前為個人用戶免費。未來,魔音助手可能推出個人付費會員版本,為個人會員用戶提供實時轉錄等專屬功能。目前團隊技術人員有十幾人左右。創始團隊成員來自於豌豆莢、快手、會小二等網際網路企業,均擁有產品與企業服務經驗。AI技術骨幹來自於科大訊飛、中科院、百度、字節跳動等一線機構。
各大網際網路公司也發現了這一市場機遇,在線上會議記錄功能上發力。11月18日,飛書在「2020飛書未來無限大會」上推出了「飛書妙記」功能,能夠生成會議語音文字稿、區分說話人、擁有搜索和摘要提取功能。
面對線上會議的市場熱度,魔音助手表示自己是一個開放式軟體,願意與在線辦公、在線學習平臺成為合作夥伴。