史上最強的語音輸入法誕生,百度是如何做到的

2020-12-26 站長之家

圖片版權所屬:站長之家

本文來自微信公眾號「科技唆麻」(ID:techsuoma);查看原文(轉載),請點擊「稿源:科技唆麻」。

文| 科技唆麻

可能是史上最強的輸入法終於要來了。

在昨天,百度輸入法「AI·新輸入 全感官輸入2.0」發布會上。百度輸入法正式對外發布了最新殺手鐧——AI探索版輸入法。

這個輸入法基本上顛覆了外界的想像。

作為百度眼中 AI 落地的「橋頭堡」,百度輸入法AI探索版默認將全語音作為默認輸入方式,並在豐富輸入方式上大開腦洞,圍繞表情、肢體等為用戶提供了全感官的輸入體驗。

在發布會現場,臺上是嘉賓的演講,大屏幕的右側則是百度輸入法的實時同步,我注意到,即便是一些英文單詞,也能識別出來。

簡單來說,這個輸入法的特點包括以下幾點:默認全語音輸入、調動表情、肢體等全感官豐富體驗。

比較有意思的是,百度在去年推出過一款默認語音搜索的搜索產品,簡單搜索,我當時在文章裡就評價道:「誰掌握了語音交互的入口,誰就掌握了比賽的輸贏」。

以產品形態的角度看,輸入法也堪稱「古董」。從 PC 時代的鍵鼠,到移動網際網路時代的觸屏,介質一直在變,但輸入法產品的基本邏輯並無顯著革新,都是通過點按字符組成字詞,輸入效率提升已經頂到天花板。

早已成為一顆參天老樹的輸入法,如何在 5G、雲計算、大數據、AI 技術的澆灌下發出新芽,已經成為老牌輸入法廠商面臨的新問題。現在看來,百度輸入法試圖通過AI探索版從「效率」與「溫度」兩方面給出答案。

1

AI探索版是如何提升效率的?

聊起輸入法,早年接觸電腦的朋友一定還對揣著五筆字根圖記憶猶新,五筆的高效率甚至一度讓「打字員」成為熱門行業。但以百度輸入法為代表的拼音輸入法迅速崛起,五筆漸漸成為歷史。

背後的邏輯其實很簡單,五筆終歸是一門新手藝,但漢語拼音近乎普及。而顛覆式創新從未停止,語音之於拼音、手寫亦是如此,近乎為零的學習成本帶來了「上手更快」。

這就不難理解,為何百度的「新芽」是一款全盤押注語音的 AI探索版輸入法。

如果說,「上手更快」是語音輸入法的共性,那麼「識別更快」則是百度輸入法 AI探索版的個性。

早在移動網際網路浪潮興起時,語音識別準確率就已成為各家產品必爭指標。在基於 Attention 模型,紛紛提升到 97% 之後,市場卻似乎陷入沉寂。

究其原因,過去語音使用的場景集中在聊天、搜索這兩大場景,現在已經逐步拓展到了遊戲、購物、娛樂等諸多場景,且使用的頻率也越來越高,這就給輸入法提出了新的考驗。

歸根結底,此前的語音輸入法其實存在兩大體驗上的痛點。

其一在於流式解碼。以谷歌 LAS 為代表的傳統 Attention 模型幾乎全部基於整句建模。簡單來說,用戶需要經歷一個整句錄製完成-上傳伺服器-建模分析的過程,輸入法在其中充當的角色類似翻譯APP,用戶需要付出不小的時間成本。

其二在於長句識別準確率下降。這不得不提到 Attention 模型的核心邏輯:基於整句全局信息,通過機器學習的方法,選擇出和當前建模單元最匹配的特徵。句子越長,進行特徵選擇的難度越大。出錯的概率越高,錯誤前後傳導的概率也越高。

識別慢,識別不準,使得語音輸入總是不能一步到位,最終成了一個「應急功能」。

針對這兩大實打實的痛點,百度創新性地提出了流式多級截斷注意力模型SMLTA。

看起來相當硬核,但是只要稍加拆分就非常容易理解這項新技術的亮點。首先,核心依然是目前主流的 Attention 模型,但截斷、流式、多級、基於CTC & Attention 的四大創新點代表了獨特的解決思路。

一一對應起來就是:先使用 CTC 算法對連續語音流進行截斷,然後對每一個截斷的流式語音數據進行建模,以往的整句建模轉變為局部語音段建模,同時引入多級 Attention 機制,避免 CTC 插入刪除錯誤對系統的影響,實現特徵層層遞進的精準特徵選擇。

簡單來說,將以往的整句「切」成了小段進行實時處理,且通過算法解決了失去上下文邏輯導致的誤差。

類比傳統方案,百度輸入法的 Attention 模型不僅解決了流式解碼的低效問題,切分後更小的語音段還有效避免了識別率下降的問題。

據百度輸入法官方披露,這也是第一次有公開報導局部 Attention 建模,有可能超過全局的 Attention 建模的產品。

流式多級截斷注意力模型SMLTA 解決了效率的問題,而在提升易用性上,百度輸入法還有另一個殺手鐧——混合輸入。

「初代網紅」papi醬的成名作之一,便是演繹職場與生活的「上海話+英語」的混合表達。惡搞之於,其實也反映了一個現象,在全球化大背景下,商業文化的衝擊會讓口語表達更加不拘泥於一個固定範式。老實說,也的確有很多概念難以在普通話中找到一一對應的詞語加以概括。

不得不說,以往的解決方案屬於「頭痛醫頭,腳痛醫腳」。你說粵語?那麼請在設置中切換粵語模式;你說英語?英語模式也有。至於普通話+方言+外語,輸入法直接歇菜。

百度輸入法的想法很直觀,讓語音輸入回歸本能。

一方面,百度輸入法將普通話和六大方言融合成一個語音識別模型,實現了方言與普通話之間的無差別混合語音輸入。

另一方面,得益於多年的海外布局,百度海外輸入法已經支持到 120 門語言,為不少國家由於歷史原因造成語言混輸習慣的用戶提供了更好的體驗。

兩大優勢一疊加,無論是面向國內的百度輸入法,還是面向海外的百度海外輸入法,都成了各自市場中目前唯一實現高精度混輸入的輸入法產品。

既然從「識別更快」,聊到百度海外輸入法,那就不得不提到它的「布局更快」。

作為輸入法,打入國外市場的難度是難以想像的。以傳統邏輯,來自目前全世界智慧型手機綜合實力最強的國家,輸入法出海最「明智」的方式無非是與廠商合作預裝,短時間內便能通過這條「大腿」拿下漂亮的裝機量。但與此同時,也會因為品牌在用戶認知中的「隱形」而逐漸喪失競爭力。

顯然,百度海外輸入法深知其中門道,選擇了不走捷徑,而是踏踏實實從用戶痛點出發,並深入當地文化語境中。

一方面當然是技術的革新,通過上面提到的智能語音、智能推薦、智能表情三大功能創新,百度得以在重技術、輕人性化的海外市場迅速佔領市場。

另一方面,百度輸入法將跳出了輸入法的邊界,將自己定位為一個創意品牌,與包括 hello kitty、懶蛋蛋、輕鬆熊、LT DUCK、工作細胞血小板、雙子星、格林奇、大黃蜂等在內的知名 IP 跨界合作,實現了輸入法市場的差異化。

以熱衷「萌」系畫風的日本為例,有將近九成 10-19 歲女性為百度日文輸入法Simeji 用戶,目前日本市場品牌滲透率已經達到 80%。

靠著技術為主,深入文化語境為輔,百度輸入法成為了輸入法出海的代表。

相關焦點

  • 離在線語音輸入智能轉換無卡頓 用百度輸入法表達更順暢
    在同款手機、相同的網絡環境中,測試者對三款輸入法說出用同樣的語句,只有百度輸入法做到了在沒有網絡情況下無錯字、無漏字的「零失誤」,其他兩款輸入法均出現一些錯字或者遺漏現象。(圖:手機輸入法離線語音測評)在準確性領先的同時,百度輸入法的離線語音還做到了逐字流式上屏,即用戶說到哪個字,哪個字就可以實時上屏、逐字輸出,超越了其他輸入法滯後上屏或者一句話說完仍需等待才能上屏顯示結果的情況,語音輸入體驗最為流暢。
  • 最好用的語音輸入:百度輸入法不僅是輸入法,更是翻譯器!
    百度輸入法融入了多種方言,無論是東北話、河南話、四川話或是粵語,百度輸入法都會精準識別輸你所說。不僅是輸入法更是翻譯器,文言文加持,更適合白領和文字工作者對於經常和鍵盤打交道的白領或者文字工作者來說,好的輸入法至關重要。
  • 最好用的語音輸入:百度輸入法不僅是輸入法,更是翻譯器!
    百度輸入法融入了多種方言,無論是東北話、河南話、四川話或是粵語,百度輸入法都會精準識別輸你所說。 不僅是輸入法更是翻譯器,文言文加持,更適合白領和文字工作者 對於經常和鍵盤打交道的白領或者文字工作者來說,好的輸入法至關重要。
  • 百度輸入法表示不服:語音識別最汙繞口令
    昨晚的錘子M1發布會上,羅永浩極力推薦了訊飛輸入法的語音輸入功能,現場用很快的語速隨口說了一段內容,手機屏幕瞬間就「打」出了文字,識別結果一字不差。而在訊飛輸入法官方,現在也掛著「1分鐘400字,語音輸入帶你飛」的宣傳口號。對此,百度手機輸入法表示不服,隨口說了幾段繞口令,沒想輸入法到竟一字不差的把繞口令打了出來,驚豔全場。
  • 百度輸入法又獲獎了?高性能語音輸入能力精準「狙擊」用戶難題
    近日,第二屆軟體綠色聯盟開發者大會在北京召開,百度輸入法順利通過兼容性標準、穩定性標準、性能標準、功耗標準、安全標準五項考驗,斬獲「2019年度綠色應用」獎項。憑藉AI技術加持,在功能層面,百度輸入法的離在線語音識別、中英混輸語音識別、智能預測、AR表情等在精確度和體驗感兩個維度受到了用戶的廣泛認可;在硬體層面,百度輸入法聯合cherry推出仿真機械鍵盤、行業首家智能適配iOS13,以高性能、大生態演繹了「年輕人更喜愛的輸入法」的最強面貌。
  • 百度手機輸入法Android 5.1版—新增粵語語音輸入
    近日,百度手機輸入法發布了全新安卓5.1版,主打離線語音、粵語語音、智能英文、英文單詞手寫、全新皮膚等功能,獲得了不少用戶的好評。據了解,百度手機輸入法安卓5.1版在原5.0版簡約風格的基礎上更加專注輸入,帶來了語音、英文、手寫、聯想等基礎輸入的全面提升,追求最極致的用戶輸入體驗;而全新的默認皮膚,以及新上線的Android L風格皮膚,更為大家帶來了扁平視覺的全新體驗,不免讓人眼前一亮。
  • 第三方語音輸入法怎麼選?百度輸入法、搜狗、訊飛差距竟如此明顯...
    此外,值得一提的是,對於很大一部分中老年人來說,拼音或者筆畫輸入對他們來說學習成本太高,語音輸入只需按下說話,學習、操作起來都更加的輕鬆!那麼,各家都在標榜自己的語音輸入很好用,作為用戶確實有點兒挑花了眼!目前市面上安裝率最高的三款輸入法分別是:搜狗輸入法、百度輸入法和訊飛輸入法,那各種輸入法之間又到底有著多大的差距?今天我們就一起來對比一下!
  • 百度輸入法語音輸入體驗,現在語音輸入完全可以替代打字了
    下邊將為大家帶來百度輸入法語音輸入功能的展示。百度輸入法語音功能呼出非常簡單:只要長按鍵盤上的空格鍵,就可以進入語音輸入模式。1、文言文測試普通話語音輸入太簡單,我們直接來個進階版難度。用一段論語中的文字來做語音輸入。
  • 百度輸入法AI功能全新升級:不限方言,讓輸入更自由
    答案是輸入法。作為把我們思想傳達給手機以及其他手機用戶的媒介,手機輸入法對使用效率和使用體驗起到了至關重要的作用。那對於用戶來說,一款好的輸入法應該是什麼樣?答案是讓輸入法變得像人一樣理解我們的思維。真有輸入法能做到這樣嗎?帶著全新AI功能呈現在我們面前的百度輸入法,也許就在實踐這條標準。今天百度的輸入法帶著全新的AI功能呈現在我們面前。
  • 百度手機輸入法Android 5.1版—新增粵語語音輸入
    近日,百度手機輸入法發布了全新安卓5.1版,主打離線語音、粵語語音、智能英文、英文單詞手寫、全新皮膚等功能,獲得了不少用戶的好評。據了解,百度手機輸入法安卓5.1版在原5.0版簡約風格的基礎上更加專注輸入,帶來了語音、英文、手寫、聯想等基礎輸入的全面提升,追求最極致的用戶輸入體驗;而全新的默認皮膚,以及新上線的Android L風格皮膚,更為大家帶來了扁平視覺的全新體驗,不免讓人眼前一亮。
  • 百度輸入法語音輸入,更便捷的輸入方式
    其中百度輸入法用戶所佔比例已超過40%,在用戶越來越喜歡的語音輸入方面,百度輸入法則以2.29億的用戶數量在中國市場的輸入法中排名第一。經過幾年的發展和努力,百度輸入法語音輸入市場已經成熟,速度已大大超過手寫輸入法,成為未來最主流、最有潛力的人機互動方式。
  • 百度輸入法2019高歌猛進: 日均語音請求量峰值已突破8.6億次,日...
    作為百度AI技術落地應用的「橋頭堡」, 百度輸入法在2019年裡展示了百度AI的硬核實力:從發布擁有多項「酷炫技能」的百度輸入法AI探索版,到四大語音輸入功能突破,再到行業首創「多場景整句智能預測」。一年來,百度輸入法基於百度領先的AI技術,以及對用戶使用需求的精準剖析,不斷實現著功能和體驗突破,增進人機溝通,豐富輸入場景,持續引領行業發展。
  • 如何提升手機打字?百度輸入法AI功能升級,準確快速輸入提升打字
    那麼如何才能提高自己的打字速度和效率呢?可以在手機上下載百度輸入法APP,這款輸入法是基於百度的AI頂尖技術上,讓大家能夠感受到智能且流暢又高效的輸入新體驗。給輸入帶來全新的感官體驗,與多人聊天,其實也不會那麼太難。
  • 日均語音請求量峰值突破8.6億次 百度輸入法2019年AI落地成果顯著
    作為百度AI技術落地應用的「橋頭堡」,百度輸入法在2019年裡展示了百度AI的硬核實力:從發布擁有多項「酷炫技能」的百度輸入法AI探索版,到四大語音輸入功能突破,再到行業首創「多場景整句智能預測」。一年來,百度輸入法基於百度領先的AI技術,以及對用戶使用需求的精準剖析,不斷實現著功能和體驗突破,增進人機溝通,豐富輸入場景,持續引領行業發展。
  • 三款輸入法特點分析,百度、搜狗和訊飛,哪款最好用?
    二、搜狗、訊飛和百度輸入法,這三大常見輸入法,各有啥特點呢?訊飛輸入法:語音是特色。賽諾發布了《2019年中國手機輸入法創新發展研究報告》,數據顯示,訊飛輸入法的用戶當中,6成人使用語音輸入。百度是如何做到這些呢?技術是基礎。數據顯示,百度在AI專利方面的申請國內第一,專利數為5712個。包含深度學習、語音識別、語言處理、無人駕駛等眾多方向。艾媒諮詢做了專項統計,2019年中國手機輸入法AI技術應用對比結果:百度輸入法最多。
  • 如何提升手機打字?百度輸入法AI功能升級,準確快速輸入提升打字
    那麼如何才能提高自己的打字速度和效率呢?可以在手機上下載百度輸入法APP,這款輸入法是基於百度的AI頂尖技術上,讓大家能夠感受到智能且流暢又高效的輸入新體驗。給輸入帶來全新的感官體驗,與多人聊天,其實也不會那麼太難。
  • 輸入法性能大測評,百度輸入法華為版以「最懂你」高居榜首
    測試結果顯示,百度輸入法華為版在六項測試中均表現出色,蘋果系統輸入法除了在整句準確率中較為突出外,拼音準確率、語音識別及手寫輸入中均顯劣勢。而其他幾款主流旗艦機輸入法也在各項性能的測試中各有優缺點。
  • 百度輸入法AI功能再升級,越來越受普通話不標準的人群需求了
    對於用戶來說,一個好的輸入法法應該是什麼樣的?答案是讓輸入法像人類一樣理解我們的思維。但是輸入法真的能做到嗎?這是必然的,百度輸入帶著全新AI功能呈現在我們面前,向我們展示了一個新AI功能.百度輸入法向我們展示了一個全新的人工智慧功能。給我們帶來了更方便的輸入體驗。全新升級的百度輸入法在「方言自由說」模塊中為河北, 昆明和武漢添加了三種方言。
  • AI時代工具應用如何轉型,或許百度輸入法AI探索版給出了答案
    隨著移動時代的來臨,觸控螢幕又取代鍵鼠,成了輸入法新的承載。細細數來,鍵鼠這種交互方式存在至今不過百年,而觸控螢幕這種交互方式嚴格算來也僅僅只有不到20年。實際上,語音本來就是人誕生以來最天然的交互方式。未來輸入法通過語音的方式獲取服務,甚至在搜索、娛樂、購物等眾多場景出現,也毫不為奇。
  • AI語音賦能,百度坐穩輸入法頭把交椅
    雖說每個手機都自帶輸入法程序,但功能布局單一,並不足以滿足用戶多元多場景輸入需求,所以要想有事半功倍輸入體驗,最後落腳點還在第三方輸入法產品上。在經過多年激烈廝殺淘汰後,市面上第三方輸入法產品僅剩下寥寥幾個,被大家熟知最主流的輸入法產品也就百度輸入法,訊飛輸入法和搜狗輸入法三家,幾乎佔據整個行業九成九的市場份額,呈現寡頭壟斷局勢。