早在2016年10月錘子科技新品發布會上,訊飛輸入法就因羅永浩的現場演示火了一把,老羅在現場用很快的語速隨口說了一段內容,訊飛輸入法瞬間「打」出文字,識別結果一字不差。
當時,訊飛輸入法的語音識別率是 97%。而在昨天下午舉行的訊飛輸入法媒體見面會上,產品總監翟吉博宣布,這個數字變成了 98%。
羅永浩介紹訊飛輸入法
此外,據市場品牌負責人李強軍介紹,訊飛輸入法用戶規模突破6億,語音輸入月覆蓋率達50%,語音滲透率保持逐年上升態勢。
至於準確率是否能夠達到百分之百,訊飛輸入法產品總監翟吉博的回答是:技術上目前還做不到。
首先,同音字是個難題,只能儘可能提高命中率,這也是為什麼搜狗、百度、訊飛都要給輸入法加入語音修改功能的原因。其次,用戶非常口語化的表達機器無法精準識別,人機互動習慣需要磨合。此外,嘈雜環境下語音識別會受到環境音的影響。
訊飛輸入法產品總監:翟吉博
訊飛輸入法從人腦神經科學入手對人類記憶進行仿生,實現大量無監督的數據去輔助有人工標註的數據。受圖像領域 CNN 應用的啟發,科大訊飛研發了深度全序列卷積神經網絡(Deep Fully Convolutional Neural Network,DFCNN)語音識別框架,使用大量的卷積層直接將語譜圖作為輸入,相比傳統語音特徵作為輸入,降低了信息損失,表達了語音的長時相關性。
同時,借鑑圖像識別中效果最好的網絡配置,每個卷積層使用 3×3 的小卷積核訓練更深的 CNN 模型,輸出單元直接為最終的識別結果(比如音節或漢字),將感知智能、認知智能等 AI 技術應用在輸入法上,一分鐘可識別 400 字,並支持多語種實時語音翻譯、超長語音輸入、耳語輸入、離線語音輸入等功能。
對於口音和方言識別的難題,訊飛輸入法提出方言語音輸入方案來解決。依託科大訊飛對 AI 技術及語言深度研究的積累,採用 Multi-lingual 多語言建模,通過多方言數據共享方式訓練;輔以 Global Phone全球音素集,從聲學層面的相似性統一各方言的音素定義,對方言「語圖譜」模型做進一步精進,從而有針對性地提升方言語種的識別能力。
目前訊飛輸入法支持 22 種方言,其中粵語、四川話、東北話等識別率均已超過 90%。2017年對外發起「方言保護計劃」,建立「中國方言庫」,積累海量方言數據,讓這些數據為深度學習提供素材。本月底,訊飛輸入法將新增蘇州話識別,方言識別語種將擴充至23種。
基於科大訊飛精簡和優化的 Hybrid-DFCNN 全新語音識別框架,6月底訊飛輸入法將上線 Hyper-CNN語音新引擎,隨之通用語音識別準確率將相對提升 15%,此外可以優化中英混合語音輸入、粵語等重點方言、標點判斷準確率,提升語音輸入的體驗。
重新定義鍵盤,新增面對面翻譯和 OCR 拍照
在百度輸入法的發布會上,AIG 負責人王海峰發表了他對輸入法的看法,認為即便現在有語音輸入的加持,其實還不足夠,未來的輸入方式一定是 AI 加持的「全感官輸入」。訊飛的判斷是,輸入法將不再局限於五筆、九宮格、二十六鍵、手寫固定鍵盤形態,從而推出「莫得鍵盤」、「語音鍵盤」、「VG 語音交互面板」等人機互動模式。
莫得鍵盤即「沒有」鍵盤,基於訊飛輸入法智能語音技術,支持語音輸入、語音口令控制,實現無鍵盤輸入。為語音重度用戶量身定製了語音鍵盤,呈現便捷的語音輸入形態,只憑一張嘴就能輕鬆打字、修改甚至自動加標點符號,不需學習其他技能。基於智能語音應用,打造 VG(VoiceGame)語音交互面板,利用 AI 在交互層面進行了嘗試。輸入過程等同「玩遊戲」,語速快慢、聲音大小等直接體現了創意交互。
訊飛輸入法將語音識別、語音合成以及機器翻譯等新技術融合在一起,新增面對面翻譯,支持中文與英日韓俄多語種即時翻譯,並且將面對面的交互方式引入語音翻譯應用中。例如,在對話雙方各講母語時,另一方就會同步看到翻譯結果。
基於用戶剛需,新增了 OCR 拍照輸入,可以識別書本、路牌、名片等印刷體上的文字以及手寫字體。手寫識別準確率也高達 90% 以上。
會後,雷鋒網分別試用了搜狗輸入法和訊飛輸入法。
訊飛語音可一次性不間斷輸入249個字,搜狗語音可輸入221個字。整體來看,訊飛識別率更高一些。
在對詩歌的識別方面,兩家輸入法都有很好的表現。讀者也可試試用自己家鄉的方言,看看這些有 AI 加持的輸入法能否精準識別。
隨著語音識別技術的發展,可能未來我們真的不再需要用手打字,至於訊飛對未來人工智慧語音輸入的展望,翟吉博的回答是:「現在的產品在省時高效和足夠簡單自然這些維度上並沒有做到極致。假如有一天技術成熟了,我們通過意念或者腦電波輸入文字,打開微信,盯著屏幕看兩秒,文字就發出去了,我想這會是一個更加極致的輸入法。」
據速途研究院2017年調研數據顯示,輸入法市場上,搜狗以 63.6% 的市場份額遙遙領先,接下來是百度和訊飛。王海峰說,百度輸入法是百度 AI 技術應用的橋頭堡,新的 AI 技術將會首先應用在輸入法上。搜狗 CEO 王小川也表示將 AI 賦能升級輸入法列為搜狗 2018 年度 AI 戰略之一,並且輸入法不止可以打字,還將承載信息獲取和流量分發。在輸入法都打 AI 牌的年代,訊飛的優勢何在?
對此,翟吉博在接受雷鋒網的採訪時表示,訊飛一直以來聚焦於語音輸入,對於語音輸入的用戶場景體驗和未來發展有著更深的理解。此外, 在語音技術方面持續創新,會一直尋找新問題並用技術和產品設計解決。「我們永遠是往前多走一步,持續探索。」
但是,據雷鋒網(公眾號:雷鋒網)了解,目前用戶的輸入習慣主要還是以拼音輸入為主。速途研究院的數據顯示,六成多的用戶還是選擇拼音輸入,其中九宮格拼音輸入最接近用戶的輸入習慣,可以單手掌控輸入。
隨著技術的發展,語音轉化成文字的正確率越來越高,選擇語音輸入的用戶在不斷增多。對於語音輸入,訊飛輸入法支持 22 種方言,百度輸入法則提供了語音翻譯,支持 28 種高頻次語言同聲傳譯。
目前輸入法市場格局形成了一超多強的局面,搜狗輸入法長期保持市場第一,且不斷發展。百度輸入法借AI 之力奮起直追,訊飛等輸入法也在不斷差異化,努力加強個性化特色功能。在識別率方面,頭部廠商在語音識別準確率上均達到 97% 以上的高水準,而百度和搜狗都擁有得天獨厚的龐大搜索資料庫為深度學習算法提供燃料,語音輸入用戶習慣的養成卻尚待時日,主打 AI 語音識別的訊飛,可能還需要再繼續探索其他差異化策略。
相關文章:
搜狗輸入法醫生版上線,解決醫生群體打字難問題
百度輸入法 8.0 版本上線,王海峰稱其是「百度 AI 的橋頭堡」
為iPhone X加點料,搜狗輸入法iOS新版上線
CNCC 2016 | 搜狗 CEO 王小川:輸入法的未來是自動問答
訊飛輸入法iOS 6.1完美適配版放出
訊飛輸入法3.0: 支持英語語音輸入
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。