日均語音請求量10億次的幕後,百度輸入法的技術原點

2020-12-11 腦極體

能線上解決的就絕不見面,已經成了疫情期間人際交往的頭號鐵律。

絕大多數溝通都轉移到線上,是一種什麼體驗?

最近百度公布的數據顯示,自1月25日春節假期以來,百度輸入法日均語音請求量已破10億次大關,再創行業歷史新高。

除了高流量帶來的衝擊,還需要應對大量新增長尾群體,比如偏遠地區人員、中老年人、少年兒童等等,諸多傳統場景的線上化,也讓使用頻率和形形色色的需求開始激增。

毫無疑問,疫情期間的特殊需求驅動著輸入法行業迎擊新的挑戰,也讓百度輸入法這顆磐石浮出水面。

全民語音輸入浪潮,需要怎樣的技術進行支撐?AI驅動的輸入法又給社會網絡生活帶來了哪些變化,是一個智能時代背景下,值得思考的關鍵命題。

數據洪流下的語音輸入法,需要一副怎樣的鋼筋鐵骨?

一個輸入法而已,技術要求有那麼高嗎?想得太簡單了朋友,全語音交互的輸入法,和傳統輸入法還是有著本質不同。

第一,語音輸入想要達到高標準輸入的水平,所面對的技術難題要比傳統輸入法複雜得多。

比如語音輸入勢必會出現環境噪音,如果算法不夠強,很有可能識別不清,還需要用戶手動調整,大大降低產品的效率;

再比如,語音輸入需要實時轉換,又不能過多佔用系統算力出現卡頓,這就對軟體的智能優化提出了要求。

而百度輸入法之所以成為特殊時期人們的溝通首選,也得益於在語音識別上的技術優勢。在2019年,百度輸入法在線語音識別準確率相對提升15%,超越行業最優競品15%,才能抗住用戶對語音輸入的高標準、嚴要求,再次刷新業界紀錄。

第二,訪問量的激增也勢必會讓輸入法遭遇各種不同的網絡環境。

對於一些偏遠地區或受天氣原因影響,導致手機網絡信號不穩定時,聯網狀態不佳的輸入法就很有可能出現識別成功率低、識別速度慢等情況。

此前,大部分輸入法會藉助離線語音包來彌補,但在體驗上卻與在線語音相差懸殊,並不能解決廣大用戶的痛點。

這次全民觸網,百度輸入法就以離線語音輸入準確率高於行業平均水平35%的優勢,確保網絡不佳狀態下的用戶依然能夠順暢使用。

第三,越來越豐富的人口多元化、經濟全球化趨勢,也讓輸入法開始應對外語輸入、混合輸入等難題。

以前如果上海某CBD白領進行辦公交流,如果要摻雜一些專有英文詞彙,往往需要反覆在中英文輸入中切換,效率低不說,還經常容易出錯。

百度輸入法通過技術創新,在完全不影響中文語音輸入準確率的情況下,實現了高精準的中英文混合語言識別輸入。

在2019年百度AI開發者大會上,百度輸入法就當場挑戰了零誤差識別中英文混合「Rap」——「你的這個新model效果比baseline好多少,探索技術的depth和scope是我們的責任,我很喜歡barrier這個詞,AI的value其實就是break barrier。」

在當下的國際化、中英文日漸頻繁的網際網路交流語境中,百度輸入法獲得日均10億次的語音請求量,也就不足為怪了。

第四,如果說中英文識別考驗的是技術深度,那麼方言識別就考驗著輸入法廠商的語料庫廣度與技術布局的前瞻性。

尤其是移動智能開始向更廣大用戶下沉,越來越多的方言用戶也渴望通過語音更高效地交互,但不同於英文的豐富語料,精準識別方言需要前期進行大量的數據收集、標註、清洗、訓練、優化等工作,加上中國各地方言數量多,其中還夾雜著各種小眾俚語,難度更是指數級上升。

而百度輸入法通過技術優化,將普通話和六大方言融合成一個語音識別模型,實現了方言與方言、方言與普通話的混合語音輸入,讓用戶可以免切換就能「方言自由說」,free is not free(自由不是免費的),人情味的背後則是百度輸入法技術人員的不懈努力。

當然,在語音技術上完成業界頂級考驗,似乎是百度這個「以AI為名」的科技公司的應有之義。

而用戶的標準卻遠遠不止如此。我們知道,停課停學讓許多95後、00後也以前所未有的參與度加入了網絡大軍。

他們的要求可不僅僅是「聽得懂、聽得清、聽得快」,還需要炫酷好玩才能佔據手機C位。

此時,百度輸入法的綜合AI實力就開始顯效,通過圖像識別、AR等技術的引入,讓輸入法得以擁有AI鬥圖、神句配圖、凌空手寫、皮膚主體C位識別等超越語音、文字的特色功能,也成為業內首家可以多場景整句智能預測的輸入法產品,成功俘獲了眾多「Z世代」用戶的心。

至此,百度輸入法開始讓「輸入」這個司空見慣的網絡衝浪動作,開始向「全感官時代」邁進。

不難看到,作為人與機器交流的直接媒介,百度輸入法能夠抗住特殊時期的數據洪流與挑剔眼光,依靠的就是支撐起體驗質變的「技術長城」。

千錘百鍊:百度輸入法背後的「技術長城」是如何煉成的?

在明確了百度輸入法與技術支持之間密不可分的聯繫之後,就不難理解其為何能託起日均10億次語音請求量的龐大需求。

當然,在線訪問激增只是誘因,之所以能贏得這場無形戰爭,核心在於百度輸入法已經構築起了一個固若金湯的技術長城,足以抵禦外界洪流。

在此,可以將百度輸入法拆解成幾個核心構件:

1.自研SMLTA模型的技術底座。

在國際上,我們常常會將百度與中國AI力量代表聯繫在一起,它的技術能力到底強於何處,足以寫一部書來說明。

但支撐起百度輸入法與廣大用戶之間的緊密聯繫,核心就在於自主研發的流式截斷的多層注意力模型——Streaming trancated multi-layer attention(SMLTA)。

是不是每個漢字都認識,但組合起來卻不知道是幹嘛的?這是去年百度在語音技術上的一項重大創新,在全世界範圍內,第一次將基於注意力技術的在線語音識別服務,大規模地應用於輸入法產品,服務數億用戶。

截斷:改變了原本的整句識別建模,變成了局部一小段語音的注意力模型,比如將中文、英文、方言等截斷,在保證主體精度不降低的同時,可以更有效地去識別其他內容;

流式:簡單來說就是用戶一邊說話,算法一邊根據上傳的語音數據來識別。好處是可以實時調整,減少延遲,從而避免了用戶上傳識別的較長等待。

多級:傳統的注意力模型面對的句子越長,對語音數據的特徵選擇和匹配難度就越大,出錯的概率也會更高。但SMLTA引入了多級注意力機制,讓機器對語音特徵進行層層遞進的選擇,讓模型的識別率甚至能夠超越傳統的全局注意力模型。

這也是為什麼,流式解碼中,機器只能接收部分片段,模型精度也往往會低於整句。但SMLTA就能做到,在邊說邊識別的前提下保持足夠的精準度。

SMLTA模型的另一個創新之處在於,將CTC(一種語音識別算法)和Attention模型集結在一起,藉助CTC的端到端訓練,來輔助提高注意力模型的精度。讓注意力模型在自動尋找每個字的大概範圍時,藉助CTC來做截斷,幫助它更精準地定位。

總的來說,SMLTA模型解決了兩個體驗難題:一是滿足實時率,降低延遲,大幅優化了用戶體驗;二是提高離線與在線語音識別率,在行業中獲得全面領先。

這不僅僅是百度語音的技術制高點,也代表了中文語音識別技術躋身世界頂流的榮耀和貢獻;

同時,SMLTA模型在百度輸入法產品上大規模上線,服務中國數億用戶,藉助雲端智能實現了產業端的低成本落地,讓實驗室技術得以真正賦能每一個人,這也成為百度AI產業化能力的佐證,也讓百度輸入法一躍成為AI語音技術落地的「領路人」。

2.AI技術的累累磚石。

當然,完整的產品體驗也需要完整的技術矩陣來支撐。如果說SMLTA模型「高舉高打」,奠定了百度輸入法的絕對差異化優勢,那麼AI技術的全面鋪開,就成了百度輸入法技術長城所必不可少的一磚一石。

比如,百度輸入法就利用深度神經網絡對輸入文本進行建模,打造出了智能預測功能。

它可以根據用戶的使用習慣,在已輸入詞語的基礎上進行長句補全,大大提高了輸入效率。在遊戲、聊天等場景中,只需要輸入開頭幾個字,比如「為什麼」,百度輸入法就會根據前後語境自動聯想,彈出「為什麼不理我」「為什麼不打上路」等提示,極大地方便了大家網上對話(對罵)有沒有?

目前「智能預測」已經在微信、QQ、淘寶、王者榮耀、絕地求生等場景實現整句預測推薦,還可以根據不同應用與不同場景,提供不同的預測。

再來說說其他AI技術應用。

想要讓用戶將自己從畫面中完整地「摳出來」,做成AR表情,就需要圖像分割技術的支持,讓機器很好地識別出圖片內容,進而疊加上全景動態素材,才能實現將人物置身於虛擬場景的效果。

2019年,百度輸入法的「AR表情」功能使用次數就已超過1億,可見基於AI的創新已經在不知不覺中滲透進了年輕人的社交語境當中。

另外值得一提的是炫酷的凌空手寫。

如果說語音輸入是引領行業的操作,那麼凌空手寫可以說是率先感受未來的。

百度通過雙神經網絡模型——一個基於灰度圖的指尖跟蹤模型,另一個基於多方向特徵文字識別模型,讓用戶只需要最普通的RGB攝像頭,就可以實現手在空中揮舞,輸入法就能精準識別出來。

為了保證識別結果的連續和穩定性,百度輸入法的研發團隊還針對鋸齒和連筆在三維空間的手寫識別算法進行了大量優化工作,並準備大規模應用。

可以說,百度輸入法又一次站在了行業橋頭,引領著產業技術迭代的方向。

等待百度輸入法補全的產業續曲

通過拆解百度輸入法的技術路徑,可以更為清晰地看到,在未來的一段時間內,AI託起的技術盛景,將如何更好地推動社會升級。

首先,語音技術在應用端的想像空間被進一步打開。

隨著大規模用戶習慣的養成,語音輸入等AI功能的落地也成為撬動行業格局的下一個賽點。

艾媒諮詢《2019中國第三方手機輸入法市場年度專題研究報告》數據顯示,百度輸入法全年月活增速居行業首位,表現最佳。

其次,百度的技術本位,在輸入法產品上又一次被成功印證。

輸入法作為線上交互的入口,也是最能夠真實反映網絡狀態和現實趨勢的窗口。可以看到的是,AI與產品的結合,即將改變千行萬業的市場格局。

提升社會生產效率,恢復和持續發展經濟,各行各業都離不開智能工具的支持。AI產品服務的用戶邊界也在快速擴大,這不僅考驗著科技產品廠商的技術高度,也要求在產業化落地上交付出成熟的解決方案。

從這個角度看,單日語音請求量破10億次並不是一個偶然事件,其背後連接的是百度AI技術體系的多年布局、輸入法產品的迭代方向、用戶需求洞察的敏銳視角,這些要素的迭代,才最終讓我們看到了這場技術領域的驚濤拍岸。

手握技術之權杖,才得見崢嶸歲月,無懼風流 。

相關焦點

  • 百度輸入法日均語音請求量破10億次,對輸入法行業意味著什麼?
    而從目前各家在語音輸入的進度來看,百度輸入法正先於搜狗輸入法和訊飛輸入法來到第一個賽點,率先達成日均語音輸入請求量突破10億次的「小目標」——近日,百度輸入法對外宣布:自2020年1月25日春節假期以來,百度輸入法日均語音請求量已破10億次,創行業歷史新高。
  • 雲復工帶來語音輸入猛增 百度輸入法日均語音請求量破10億次
    近日,百度輸入法公布,自1月25日春節假期以來,百度輸入法日均語音請求量已破10億次大關,再創行業歷史新高。在AI技術加持下,百度輸入法在語音輸入方面重點突破,用戶體驗滿意度領跑行業,如此便捷、高效、準確的輸入方式也成為特殊時期人們的溝通首選。
  • 能語音何必費力打字?日均語音請求量突破10億次的百度輸入法玩轉...
    對此,有的同學便想起了百度輸入法的語音輸入功能,開始用"長文本語音"和"語音速記"輔助記筆記,更輕鬆地記錄網課中的滿滿乾貨。百度在智能語音領域有著全面的技術布局,在語音識別技術上更是深耕多年。近日,百度輸入法公布,自1月25日春節假期以來,百度輸入法日均語音請求量已破10億次大關,再創行業歷史新高。
  • AI技術發威,百度輸入法日均語音輸入請求量超越搜狗
    除此之外,在財報中被重點提及的應用還有兩個,一個是百度旗艦應用百度App,6月日活達到1.48億,同比增長17%,日均用戶使用時長同比增加30%,信息流取得成功;另一個則是輸入法,李彥宏在發布財報時透露,依託「百度大腦」的進化,百度輸入法語音輸入請求量短短一年時間內成長到日均3.35億次。
  • 搜狗輸入法日均語音請求量超14億次!狗子不愧是你
    8月10日,搜狗發布了2020年第二季度未經審計財報,財報顯示截止第二季度搜狗輸入法日活用戶數同比增長6%,已達到4.84億,用戶數量繼續穩居國內第三大手機應用,日均語音請求量峰值更超過14億次,穩居中國最大的語音識別應用。
  • 搜狗輸入法日均語音請求量突破14億,成國內第一大語音應用
    由於在疫情期間用戶對信息和效率需求的激增,搜狗手機輸入法用戶規模創歷史新高,日活躍用戶數達4.82億,同比增長9%,日均語音請求量峰值達14億,繼續穩居國內第一大語音應用寶座。而在同期發布的百度Q1財報中,輸入法部分數據則未被提及。搜狗輸入法相關指標屢創新高,得益於AI智能技術的不斷更新、迭代。
  • 語音輸入法該怎麼選?百度輸入法用「10億次語音請求」告訴你
    一部手機就是一個龐大的社交機器,在手機上人們可以完成各種信息的輸入與傳遞,而其中充當人機互動的手機輸入法就起到至關重要的作用,尤其是當前環境下,誰能流暢進行雲協作、在線溝通等操作,誰的輸入法就會贏得更為廣泛的用戶。目前流行且好用的輸入法是什麼呢?早在2019年1月,百度輸入法的語音請求突破了10億次,再次創下行業歷史新高。
  • 百度輸入法推出10款手機版機械鍵盤皮膚
    7月25日消息,百度輸入法官微宣布:百度輸入法外設聯盟正式成立!即日起,百度輸入法與多個外設品牌建立長期獨家合作關係,首批推出10款手機版機械鍵盤皮膚,大家可免費下載體驗。據了解,百度輸入法首批公布的合作廠商包括CHERRY、FILCO、美商海盜船、ROG玩家國度、LEOPOLD、IKBC、酷冷至尊、雷神、LOFREE、阿米洛等知名機械鍵盤品牌。多款都是行業首發,聲音擬真實錄,並支持震動效果。百度輸入法還表示,今後將與外設品牌加強合作,持續不斷地為大家提供更多更有趣的鍵盤皮膚和相應服務。
  • 語音識別準確率行業第一,中英、方言混輸百度輸入法都沒在怕的!
    百度輸入法精準捕捉用戶語音輸入需求,憑藉業內首創的流式截斷多層注意力建模(SMLTA),將在線語音識別精度提升了15%,超越行業最優競品15%,並在世界範圍內首次實現了基於Attention技術的在線識別服務大規模上線應用。SMLTA技術在離線語音識別上的應用,將百度輸入法離線語音識別精度提升到了在線語音識別效果,準確率超過98%,即使突然斷網的情況下也能精準「聽懂」你。
  • 百度輸入法語音輸入業內最強:支持多語種混輸,沒網也能超精準
    而隨著智能語音技術的發展和語音輸入功能的不斷創新,在精準度得到保證後,簡單便捷的語音輸入成為了當前人們的最愛,特別是今年新冠疫情的爆發,更多的智慧型手機被投入使用,一些可能連拼音都不會的大爺、大娘也在某些時刻和場景下不得不進行文字的輸入,因此語音輸入更是需求量激增,日均請求量屢創新高。
  • 百度輸入法爆紅啟示錄:語音黑科技立功!
    在過去的2019年全年,百度輸入法的月活增速處於行業第一,AI技術落地全面,AI技術應用整體滿意度、語音輸入準確率及相應滿意度也均達到業內第一;2020年百度輸入法延續猛增態勢,4月的用戶量已與搜狗輸入法持平,並以43.4%的市場份額領跑行業。不僅如此,在這些主流的第三方手機輸入法中,百度輸入法更受年輕人喜愛,90後佔比超過30%。
  • 百度語音輸入法識別太快來不及動手!
    最新數據顯示2020疫情期間,國內主流輸入法用戶語音輸入日均次數較去年增加明顯,其中百度輸入法日均語音請求量達到11.30億次,單個用戶使用次數最突出達到了11.3/日,也就是說這些用戶平均一天要使用10次以上的語音輸入,這是基本不打算動手了?
  • 百度輸入法「暖冬公益行動」為流浪動物募集10噸...
    為幫助流浪的「毛孩子」們過冬,近日百度輸入法聯合北京愛它動物保護公益基金會(簡稱「它基金」)共同發起「暖冬公益行動」,為流浪小動物募集到價值百萬元,總重10噸海洋之星的進口寵物犬貓主糧,溫暖4000萬流浪小動物的寒冬。本次公益行動還特邀黃子韜、熊梓淇、穆婷婷、邢邵林、連淮偉五位明星擔當暖冬公益大使,藉助明星號召力,讓「毛孩子」們的冬天收穫更多愛意。
  • 百度輸入法兩個第一,率先支持多國語音互譯
    數據顯示,我國有9億手機網民,其中,8億人經常使用手機輸入法。隨著技術的進步,輸入法的功能越來越多,文字輸入、語音輸入、鬥圖、手勢輸入。百度很早就開始布局AI,在語音、圖像、NLP和知識圖譜等AI技術方面深耕多年,百度輸入法擁有AI加持。百度獨創的流式截斷多層注意力建模(SMLTA),大幅提升語音輸入的識別準確率。
  • 搜狗輸入法日均語音請求量6.8億,怎麼辦到的?善解人意+自主學習
    根據艾瑞數據顯示,搜狗手機輸入法穩居國內以DAU計的第三大手機應用。截止今年6月底,搜狗手機輸入法日活躍用戶數已達4.53億,同比增長17%(據搜狗2019第二季度財報)。在這場突破輸入法產品同質化的戰役中,搜狗輸入法在AI技術、語音圖像處理、語義理解、大數據等領域的長期沉澱,為核心業務數據的增長提供了有力支持。
  • 百度AI開發者大會輸入法現場大飆Rap!高難度中英文混合語音識別...
    在7月3日「Baidu Create2019」百度AI開發者大會現場,百度首席技術官王海峰在演講中表示,「百度研發了流式多級的截斷注意力模型(SMLTA),使語音識別的準確率大幅提升並保持了非常高的速度,這是首個基於流式注意力的語音識別線上服務,百度輸入法語音識別的準確率因此相對提升15%以上」。
  • 2018輸入法報告:搜狗輸入法成國內第一大語音輸入應用
    根據最新的調研數據顯示,目前已形成了搜狗、百度、訊飛三家佔據91.8%市場份額的頭部企業格局。其中搜狗輸入法佔比約為70.9%,以壓倒性優勢穩坐第一。當下中國的輸入法行業正在步入AI時代,語音輸入的價值與日俱增。而搜狗的日均語音請求達5.34億次,超過了百度與訊飛兩家頻次的之和,無可爭議的成為了國內第一大語音輸入應用。
  • 最好用的語音輸入:百度輸入法不僅是輸入法,更是翻譯器!
    前段時間艾媒諮詢發布的《2020中國第三方手機輸入法市場疫期專題報告》中指出,早在2019年中國的輸入法用戶規模就達到了7.29億人,2020年預計將會達到7.46億人。
  • 輸入法的新時代:搜狗、訊飛、百度鏖戰智能語音
    而後,對搜狗輸入法全面AI 化升級,推出了AI逐字校對、AI長句預測、AI人名模式、AI個性化語音識別、AI智能糾錯、快捷計算器、AI英文鍵盤和AI滑行輸入等八大核心功能,進一步深化AI應用。得益於用戶智能語音輸入體驗的提升,搜狗輸入法用戶量上漲。2019年,搜狗輸入法Q4日均語音請求同比增長54%,全年峰值最高達8.3億次。
  • 百度輸入法:20多億次下載量、強大功能,這才是懂你的輸入法
    一個軟體好不好用,通過觀察下載量就能看出來,下載量越多,說明有更多的用戶認可它並且樂於使用它。對於輸入法軟體來說也不例外,而百度輸入法在小米應用商店中已經擁有了20多億次的下載量,這麼多的下載次數足以證明用戶們對於百度輸入法的高度認可。筆者自己使用的也是百度輸入法。