圖片版權所屬:站長之家
本文來自微信公眾號「科技唆麻」(ID:techsuoma);查看原文(轉載),請點擊「稿源:科技唆麻」。
文| 科技唆麻
可能是史上最強的輸入法終於要來了。
在昨天,百度輸入法「AI·新輸入 全感官輸入2.0」發布會上。百度輸入法正式對外發布了最新殺手鐧——AI探索版輸入法。
這個輸入法基本上顛覆了外界的想像。
作為百度眼中 AI 落地的「橋頭堡」,百度輸入法AI探索版默認將全語音作為默認輸入方式,並在豐富輸入方式上大開腦洞,圍繞表情、肢體等為用戶提供了全感官的輸入體驗。
在發布會現場,臺上是嘉賓的演講,大屏幕的右側則是百度輸入法的實時同步,我注意到,即便是一些英文單詞,也能識別出來。
簡單來說,這個輸入法的特點包括以下幾點:默認全語音輸入、調動表情、肢體等全感官豐富體驗。
比較有意思的是,百度在去年推出過一款默認語音搜索的搜索產品,簡單搜索,我當時在文章裡就評價道:「誰掌握了語音交互的入口,誰就掌握了比賽的輸贏」。
以產品形態的角度看,輸入法也堪稱「古董」。從 PC 時代的鍵鼠,到移動網際網路時代的觸屏,介質一直在變,但輸入法產品的基本邏輯並無顯著革新,都是通過點按字符組成字詞,輸入效率提升已經頂到天花板。
早已成為一顆參天老樹的輸入法,如何在 5G、雲計算、大數據、AI 技術的澆灌下發出新芽,已經成為老牌輸入法廠商面臨的新問題。現在看來,百度輸入法試圖通過AI探索版從「效率」與「溫度」兩方面給出答案。
1
AI探索版是如何提升效率的?
聊起輸入法,早年接觸電腦的朋友一定還對揣著五筆字根圖記憶猶新,五筆的高效率甚至一度讓「打字員」成為熱門行業。但以百度輸入法為代表的拼音輸入法迅速崛起,五筆漸漸成為歷史。
背後的邏輯其實很簡單,五筆終歸是一門新手藝,但漢語拼音近乎普及。而顛覆式創新從未停止,語音之於拼音、手寫亦是如此,近乎為零的學習成本帶來了「上手更快」。
這就不難理解,為何百度的「新芽」是一款全盤押注語音的 AI探索版輸入法。
如果說,「上手更快」是語音輸入法的共性,那麼「識別更快」則是百度輸入法 AI探索版的個性。
早在移動網際網路浪潮興起時,語音識別準確率就已成為各家產品必爭指標。在基於 Attention 模型,紛紛提升到 97% 之後,市場卻似乎陷入沉寂。
究其原因,過去語音使用的場景集中在聊天、搜索這兩大場景,現在已經逐步拓展到了遊戲、購物、娛樂等諸多場景,且使用的頻率也越來越高,這就給輸入法提出了新的考驗。
歸根結底,此前的語音輸入法其實存在兩大體驗上的痛點。
其一在於流式解碼。以谷歌 LAS 為代表的傳統 Attention 模型幾乎全部基於整句建模。簡單來說,用戶需要經歷一個整句錄製完成-上傳伺服器-建模分析的過程,輸入法在其中充當的角色類似翻譯APP,用戶需要付出不小的時間成本。
其二在於長句識別準確率下降。這不得不提到 Attention 模型的核心邏輯:基於整句全局信息,通過機器學習的方法,選擇出和當前建模單元最匹配的特徵。句子越長,進行特徵選擇的難度越大。出錯的概率越高,錯誤前後傳導的概率也越高。
識別慢,識別不準,使得語音輸入總是不能一步到位,最終成了一個「應急功能」。
針對這兩大實打實的痛點,百度創新性地提出了流式多級截斷注意力模型SMLTA。
看起來相當硬核,但是只要稍加拆分就非常容易理解這項新技術的亮點。首先,核心依然是目前主流的 Attention 模型,但截斷、流式、多級、基於CTC & Attention 的四大創新點代表了獨特的解決思路。
一一對應起來就是:先使用 CTC 算法對連續語音流進行截斷,然後對每一個截斷的流式語音數據進行建模,以往的整句建模轉變為局部語音段建模,同時引入多級 Attention 機制,避免 CTC 插入刪除錯誤對系統的影響,實現特徵層層遞進的精準特徵選擇。
簡單來說,將以往的整句「切」成了小段進行實時處理,且通過算法解決了失去上下文邏輯導致的誤差。
類比傳統方案,百度輸入法的 Attention 模型不僅解決了流式解碼的低效問題,切分後更小的語音段還有效避免了識別率下降的問題。
據百度輸入法官方披露,這也是第一次有公開報導局部 Attention 建模,有可能超過全局的 Attention 建模的產品。
流式多級截斷注意力模型SMLTA 解決了效率的問題,而在提升易用性上,百度輸入法還有另一個殺手鐧——混合輸入。
「初代網紅」papi醬的成名作之一,便是演繹職場與生活的「上海話+英語」的混合表達。惡搞之於,其實也反映了一個現象,在全球化大背景下,商業文化的衝擊會讓口語表達更加不拘泥於一個固定範式。老實說,也的確有很多概念難以在普通話中找到一一對應的詞語加以概括。
不得不說,以往的解決方案屬於「頭痛醫頭,腳痛醫腳」。你說粵語?那麼請在設置中切換粵語模式;你說英語?英語模式也有。至於普通話+方言+外語,輸入法直接歇菜。
百度輸入法的想法很直觀,讓語音輸入回歸本能。
一方面,百度輸入法將普通話和六大方言融合成一個語音識別模型,實現了方言與普通話之間的無差別混合語音輸入。
另一方面,得益於多年的海外布局,百度海外輸入法已經支持到 120 門語言,為不少國家由於歷史原因造成語言混輸習慣的用戶提供了更好的體驗。
兩大優勢一疊加,無論是面向國內的百度輸入法,還是面向海外的百度海外輸入法,都成了各自市場中目前唯一實現高精度混輸入的輸入法產品。
既然從「識別更快」,聊到百度海外輸入法,那就不得不提到它的「布局更快」。
作為輸入法,打入國外市場的難度是難以想像的。以傳統邏輯,來自目前全世界智慧型手機綜合實力最強的國家,輸入法出海最「明智」的方式無非是與廠商合作預裝,短時間內便能通過這條「大腿」拿下漂亮的裝機量。但與此同時,也會因為品牌在用戶認知中的「隱形」而逐漸喪失競爭力。
顯然,百度海外輸入法深知其中門道,選擇了不走捷徑,而是踏踏實實從用戶痛點出發,並深入當地文化語境中。
一方面當然是技術的革新,通過上面提到的智能語音、智能推薦、智能表情三大功能創新,百度得以在重技術、輕人性化的海外市場迅速佔領市場。
另一方面,百度輸入法將跳出了輸入法的邊界,將自己定位為一個創意品牌,與包括 hello kitty、懶蛋蛋、輕鬆熊、LT DUCK、工作細胞血小板、雙子星、格林奇、大黃蜂等在內的知名 IP 跨界合作,實現了輸入法市場的差異化。
以熱衷「萌」系畫風的日本為例,有將近九成 10-19 歲女性為百度日文輸入法Simeji 用戶,目前日本市場品牌滲透率已經達到 80%。
靠著技術為主,深入文化語境為輔,百度輸入法成為了輸入法出海的代表。