智東西 文 | CJ
智東西1月17日消息,百度輸入法推出8.0版本,該版本的更新內容包括一個核心技術突破「Deep Peak 2」模型和兩個全新AI功能,包括「語音速記」和「AI表情」。
發布會開始,百度副總裁王海峰演講稱,百度在做輸入法的最初時期就運用了深度學習的算法,未來百度也將在AI技術上做出更大突破,讓AI在更多的領域提升人機互動的體驗。
一、語音識別技術突破
據百度語音技術總監高亮說,新版本的百度輸入法使用了最新技術突破「Deep Peak 2」模型,該技術全稱為「基於LSTM(Long Short-Term Memory,長短期記憶網絡)和CTC( Connectionist temporal classification,聯結主義時間分類器)的上下文無關音素組合建模」。
該技術與傳統的語音技術「上下文相關建模」的不同點在於,在「上下文相關建模」中,同一個音素,由於左右兩邊相連的音素不同,就會被定義成不同的建模單元,而在Deep Peak 2模型中,同一個音素,無論其左右兩邊的音素是否相同,都會被定義為唯一的建模單元。
得益於該項技術突破,建模單元減少10倍,同時路徑解碼部分的消耗降低10倍,解碼速度也提升10倍。
除此之外,因為該技術突破可以讓口語和正式語言結合用於深度學習訓練,使得新的語音識別模型可以識別多種語音內容,包括中英文混說、各種重口音混說的情況,現場全程使用的「實時語音識別上屏技術」也應用了最新的Deep Peak 2模型。
同時,主持人華少現場在一分鐘內進行了「426字」的快速語音播報,百度輸入法的語音識別幾乎和華少同時完成,識別內容也與華少現場所說的相差無幾。
二、兩大全新AI功能
百度輸入法負責人蔡玉婷稱,這次百度輸入法8.0版本在此前已有的AI功能上增加了「語音速記」和「AR表情」兩大全新AI功能。其中,「語音速記」功能中應用了「聲紋識別」技術,該技術針對2-3人的小型會議場景,可根據聲紋區分不同發言人的語音信息。
由於超過六成的百度輸入法用戶都會使用表情輸入,因此此次百度輸入法也推出了新的「AR表情」功能,該功能運用了人臉識別技術和AR技術,用戶可以通過相機或相冊進行人臉識別、製作表情包,還可以用自己的表情控制虛擬人物的形象。用戶製作出來的AR表情,可以直接通過輸入法搜索、語音輸入和鍵盤輸入時展示出來。
百度輸入法的工作人員也現場演示了該功能的玩法。
這次百度輸入法8.0的發布是對百度輸入法的進一步優化,通過AI技術突破強化了語音識別功能,AR技術的加入也呈現了輸入法的不同表達形式,增加了輸入內容的個性和娛樂性。