老羅推薦的訊飛語音,有這些 know-how | 雷鋒網公開課

2020-11-26 雷鋒網

據說,看了錘子手機發布會的人,印象最深的就是老羅演示訊飛語音輸入那一段(從視頻的第100分鐘開始)。很多人表示自己受到了深深的震撼。但「震撼」之餘,我們也應該冷靜下來,清醒地認識到語音輸入的春天,在科技史上已經來過 N 次了。究竟是什麼,讓2016年的語音輸入變得不一樣,讓訊飛的語音輸入變得不一樣?

為了解答這個問題,雷鋒網請來了訊飛輸入法產品總監,或者用時髦的說法「訊飛輸入法之父」,為大家解解饞。 雷鋒網雷鋒網雷鋒網

嘉賓簡介

翟吉博,訊飛輸入法產品總監。2009年以碼農的身份加入科大訊飛,2010年創建訊飛輸入法並擔任產品總監至今,參與了訊飛輸入法從0發展到4億用戶的全過程,曾經3天時間就寫出了訊飛輸入法的Demo,目前訊飛輸入法月活躍用戶超過1億。

背景介紹:

湖北黃岡人,畢業於上海交大

2009年,以碼農身份入職科大訊飛

2010年創建訊飛輸入法,並擔任產品經理至今

也許是最會寫代碼的產品經理

問答精華回顧:

Q1

雷鋒網:很多大公司的重要產品,起初可能只是幾個員工的小嘗試,比如 Google 的很多產品是這麼誕生的。那麼對於訊飛來說,做輸入法的契機是什麼,這個產品是怎麼誕生的?

訊飛翟吉博:關於訊飛輸入法的誕生,這裡給大家講一段故事。2010年的時候,當時我在訊飛研究院,我記得iPhone4發布的當天晚上,我跟我上級,就iPhone4做了一個討論,我們認為,iPhone上基於觸屏的全鍵盤輸入體驗,不太好。原因在於屏幕太小,而手指又像,一根蘿蔔那麼粗。經過腦暴,我們考慮到,把訊飛的語音技術結合到輸入上來。完了我就自己動手開始做,很快就出了一個demo,因為我原來是做過手寫識別,還有拼音的這個技術,所以這個demo也包含了,語音手寫還有拼音的功能。

這個demo拿出來給他老大看,他覺得,不能僅僅是做個demo,後面我們就對市場進行,研究和分析,寫了一個立項書,而且在公司層面也獲得了通過,其實我們組建幾人的小團隊在杭州封閉開發了三四個月,然後在10月28號,我們對外發布了第一個版本。

Q2

雷鋒網:外界看來,訊飛是一家toB業務為主的公司,做 toC 的產品,最需要突破的地方是什麼?

訊飛翟吉博:我認為最需要突破的地方,還是在思維方式以及配套的團隊體系方面。從面向行業客戶到直接面向消費者的,需要更多的去考慮用戶的需求。然後整個團隊的開發運營推廣的流程和體系需要重新構建。

在2011年的時候,訊飛,面向消費者成立了一個移動互聯事業部。現在,訊飛輸入法就在這個部門下面。我們部門其他的產品還有,靈犀語音助手(前身叫訊飛語點)、在幾年前iPhone上推出的一款叫訊飛口訊的,也風靡一時當時曾經,在app store的排行首位。訊飛輸入法的團隊,在這幾年也有一個很大的發展從最早,只有幾個人的,小的開發團隊,現在發展到包含了從前到後,完整的職能,一共接近二百人。

Q3

雷鋒網:訊飛輸入法早期的用戶群和使用場景有什麼特點?

訊飛翟吉博:我們早期的種子用戶,有個典型特徵都是偏極客的,他們對語音技術關注度比較高,有不少用戶提到他們原來在電腦上,就體驗使用過IBM的語音技術。然後他們,會全天候的,不停的來測試我們的系統,並且提出各種各樣的設想和改進意見。

Q4

雷鋒網:講真,這次訊飛的語音輸入法被老羅猛推了一把,你和你的小夥伴們是一種怎樣的感受?

訊飛翟吉博:其實我們事先真沒想到,老羅是以這樣的一種演示方式,足足給了我們這麼長的時間,從現場,觀眾的熱烈響應,還有網絡上的,熱烈反響,給了我們團隊充分的信心。

至於數據嘛,這個請大家看一下,app store的排行榜,短短幾天,我們現在已經在(免費)總榜上衝到了第三,在工具(免費)榜上已經,排在了第一。在華為,小米等應用商店下面,也看到很多用戶的評論,都是和老羅的發布會有關。

Q5

雷鋒網:一些懂行的人告訴我們,其實老羅在臺上演示的兩段內容輸入,還是非常有局限性的,說的幾乎都是常用語,換言之就是機器最容易識別的東西。裡邊沒有任何專有詞彙,中英混雜,同音字等等等等。你們怎麼看?

訊飛翟吉博:其實老羅現場也提到了在那樣的一個環境下做語音輸入的演示,本來就是一件很有挑戰的事情,因為環境的噪聲還有回聲的幹擾,對於技術來說,是比較困難的一個問題。另外大家可以關注到老羅的一個非常即興的方式,它的語料是很開放的,而且語速也很快。這種方式相比封閉的,比如說繞口令的,這種語料,難度其實大很多。

當然對於專有詞彙還有中英文混合這些,也會加大識別的難度。我理解老羅,也是想保證現場的效果,所以,在即興的語料上,沒有加大這方面的難度。

Q6

雷鋒網(公眾號:雷鋒網):所以,語音輸入的春天真的又來了嗎?我們報導科技很多年,其實每隔幾年人們就會提語音輸入的突破,但到頭來會發現,路還很長,需要技術的突破也需要整個大環境的變化。你們在語音輸入的一線,講講你們的感覺吧?

訊飛翟吉博:那根據我們現在的理解,目前的語音技術的應用,可能還是主要分為這幾個場景:

  • 第一個是在即時通訊應用裡邊。作為比較實用的就是把語音轉成文字;

  • 第二個是語音搜索,他和前者的區別,更多的是一些關鍵詞的匹配;

  • 第三個就是在類似siri這樣的語音助手中,做上下文的對話以及理解。

那其實我們輸入法在第一種應用,當中可以看到,整個的語音用戶佔比的發展趨勢,從最早的每天幾個百分點,到現在接近20%,有些語音用戶已經養成非常穩定的使用習慣,而且這個趨勢仍然在增長中。我認為這個比例現在還沒有到達,應有的用戶覆蓋。不過另一方面,我們認為基於手機這種觸屏為主的設備,語音不會是完全主流的,那在下一個萬物互聯和vr設備流行的時代,我相信語音技術的春天會,真正到來。

Q7

雷鋒網:語音輸入的技術突破有多大?給詳細講講。

訊飛翟吉博:從這幾年發展來回顧,語音輸入技術可以分為幾個階段:

第一個階段。在我們,10年剛推出的時候,整個的識別率是初步的達到了使用門檻,字正確率只有70%多還不到80%;

第二個階段。那隨著用戶越來越多積累了大量的數據,通過大數據的訓練來驅動,使得整個的識別效果穩步的提升,能夠到達90%出頭。

第三個階段。2012、13年的時候,那我們,使用了深度學習算法之後,再結合大數據的訓練,使得正確率又有了,更大的突破。

其實,老羅發布會上宣傳了97%這個數字,我們達到這個數字其實已經有一兩年時間了。

Q8

雷鋒網:訊飛的語音輸入強在哪兒?

訊飛翟吉博:首先要說,深度學習算法出來並相繼普及之後,對於安靜的環境下,日常的句子,大家的語音技術基本都達到了實用的水平。訊飛相對深入的地方表現在,三個方面:

第一,對於口音的適配。我們知道,在中國說普通話的口音是非常廣泛的,那對於不同的口音語音識別的效果,影響很大,訊飛對於各地的口音都有很好的適用,而且對於一些典型的純正的方言也能夠識別;

第二,對於抗環境的幹擾方面。比如說在開車的時候,如果開著窗戶,那個噪聲是非常大的,訊飛是目前通過國際大車廠測試唯一達到實用水平的,技術提供商;

第三,對於網絡的依賴方面。我們能夠提供在線和離線無縫結合的方案,而且在離線的識別上面,也達到了很高的識別效果。

Q9

雷鋒網:講一個你和你的小夥伴得意的,關於產品細節的思考吧?

訊飛翟吉博:還是說一下剛才提到的關於在線離線無縫結合的方案吧,那其實我們剛開始推出離線語音的時候就考慮到,在線語音的優勢是足夠精準,離線語音的優勢是比較可靠,我們能不能在用戶網絡不太穩定的時候,能智能地做一個識別和判斷,把兩者的優勢有一個很好的結合,所以我們現在在產品上,會實現一個從在線到離線智能切換的策略,這也算是一個比較貼心的細節。

Q10

雷鋒網:iPhone 平臺和 Android 平臺,在產品設計上,有怎樣不同的考慮?另外,那個牌子的手機更能發揮訊飛的語音能力?

訊飛翟吉博:首先考慮的是在視覺和交互的規範上,我們會遵循iPhone和安卓系統特定的規範,比如說在iPhone系統上保留的地球鍵,又比如說視覺的風格,這些我們不會,強制去做,兩個平臺的完全統一,其次也要考慮系統的能力和特性上的區別,比如說iPhone系統對於輸入法鍵盤的錄音權限做了限制,所以我們現在迫不得已也只能採用,跳轉的方式來實現語音輸入,當然iPhone也有它的優勢,比如我們可以利用3d touch,來實現利用輸入法鍵盤做很方便的光標移動,這個功能在需要定位修改文字的時候比較方便。

語音輸入對於不同手機來說,更多的是看錄音質量的區別,現在很難籠統地說哪個牌子的手機效果好基本上,採用了雙mic或者是多麥克,然後降噪效果做的不錯的手機,對語音輸入效果都有很大的幫助。

Q11

雷鋒網:語音輸入若想起到更大的作用,被更廣泛地使用,你覺得還應該在哪些方面有所突破?

訊飛翟吉博:首先,在市場教育和用戶習慣培養方面,我覺得羅老師給了我們很好的啟發,比如說從大家比較熟悉的,用微信發語音的場景,讓大眾明白通過語音輸入文字和直接發語音的區別。

另外,在產品和技術本身,我們覺得在個性化方面有很大的發展空間,因為現在每個人或多或少都有獨特的發音習慣和用詞習慣,未來的語音輸入可以為每個人量身打造越用越好,我們現在已經在輸入法裡,通過個人帳號實現了,通訊錄人名和定製詞庫的個性化識別,將來還將實現,更深入的個性化功能。

Q12

雷鋒網:最後分享一下你的語音輸入使用習慣吧?

訊飛翟吉博:我個人使用語音的過程,也大概經歷了幾個階段,可能也代表了不少用戶的路徑。

第一個階段。主要還是在克服自己的心理障礙,一開始總是覺得用語音對著手機說話,感覺有點傻,只敢一個人的時候用。

第二個階段。那後面在大街上也經常看到有人用對著微信發語音,好像大家也習以為然了,所以心裡的障礙慢慢的有所克服,這個階段更多的是對語音識別效果的調校,自己想想怎麼樣能說得更準,而且怎麼樣能有一些方面的修改。

第三個階段。也就是現在的階段,可以說已經達到一個老司機的水平了,可以相對比較得心應手的使用,特別是在移動的狀態下,基本上就靠用語音了。


【唯物】開通讀者交流群啦!如果你對相關話題感興趣,歡迎入群切磋。入群方式:添加微信LF-gkk,備註個人信息附上【唯物】,審核通過之後我們會拉您入群。唯物公眾號 okweiwu。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 語音識別的痛點在哪,從交互到精準識別如何做? | 雷鋒網公開課
    這其中的關鍵技術有哪些?人機互動的未來趨勢如何?本期硬創公開課邀請了科大訊飛的研發主管趙豔軍為大家答疑解惑。雷鋒雷鋒網雷鋒網雷鋒網(公眾號:雷鋒網)分享嘉賓:趙豔軍,AIUI項目負責人,科大訊飛雲平臺研發主管,
  • 地圖中的語義理解 | 雷鋒網公開課
    月,雷鋒網將在深圳舉辦一場盛況空前,且有全球影響力的人工智慧與機器人創新大會。屆編者按:本文整理自搜狗公司王硯峰在雷鋒網硬創公開課上的演講。王硯峰是搜狗公司桌面事業部高級總監,桌面研究部和語音交互技術中心負責人。承擔輸入法、號碼通、個性化新聞等搜狗桌面產品在大數據和算法研究方面的工作,通過研究能力提升產品核心品質推動產品創新。
  • AI浪潮下,語音識別建模技術的演進 | 雷鋒網公開課
    本期硬創公開課邀請到了搜狗語音交互中心語音技術部負責人陳偉來為大家分享伴隨著本輪人工智慧浪潮下語音識別建模技術的演進,希望能夠幫大家理清主流的識別建模脈絡以及背後的思考。其他建模技術語言建模技術目前RNNLM的技術已經逐步引入到語音識別中來,通過對更長歷史信息的建模,RNNLM較傳統使用的N-Gram技術對識別性能有了較好的提升,但是考慮到大詞彙量語音識別中,如果完全替換N-Gram會帶來運算量以及運算時間的大幅增加,因此在知音引擎中,RNNLM用在對N-Gram識別輸出的N-Best
  • 在輸入法都打 AI 牌的年代,訊飛的先發優勢還在不在?
    ,訊飛輸入法就因羅永浩的現場演示火了一把,老羅在現場用很快的語速隨口說了一段內容,訊飛輸入法瞬間「打」出文字,識別結果一字不差。2017年對外發起「方言保護計劃」,建立「中國方言庫」,積累海量方言數據,讓這些數據為深度學習提供素材。本月底,訊飛輸入法將新增蘇州話識別,方言識別語種將擴充至23種。
  • 深度解析音頻檢測背後的技術 | 雷鋒網公開課
    本期雷鋒網(公眾號:雷鋒網)硬創公開課,我們邀請了極限元智能科技聯合創始人馬驥為大家解讀關於音頻審核背後的技術。以下內容整理自本期公開課,雷鋒網做了不改變原意的編輯:一、音視頻審核的需求現狀音視頻審核主要針對網際網路傳播的信息進行審核,審核的內容有有害信息(涉黃、涉暴)、敏感信息。以直播平臺為例,2016年,是網際網路直播平臺爆發的一年,除了各式各樣的直播形式。
  • 專訪訊飛王士進:從底層AI技術解析 ,智能音箱是個偽命題嗎?
    怎樣看待語音助手?如何繼續提高語音識別的準確率?智能音箱是個偽命題嗎?會成為智能家居的中心嗎?如何評價亞馬遜的Echo Show?機器轉錄為何依然難用?技術與BAT相比如何?......帶著這些疑問,雷鋒網採訪了科大訊飛研究院副院長王士進。
  • 科大訊飛副總裁李世鵬:語音領域訊飛沒有對手
    「語音領域訊飛沒有對手」TechWeb:近兩年,中關村、深圳等地有許多初創語音方案商進入市場,你怎麼看這種競爭者不斷湧入的局面科大是否有足夠的技術壁壘來應對?李世鵬:如果你去CES展看過,80%以上的中文對話產品都是用科大訊飛的技術。包括海爾一類大廠,前不久我們還和海爾做了一家合資企業。你也可以看到,我們能夠和大型汽車廠商合作,做車內語音控制。說心裡話,語音這一塊,科大訊飛和新入局的小公司不在一個水平上,他們稱不上是訊飛真正意義的競爭對手。
  • 斬獲國際語音合成大賽亞軍、與科大訊飛同臺競豔,深聲科技到底是家...
    雷鋒網(公眾號:雷鋒網) AI 科技評論按:智能語音作為人工智慧領域技術比較成熟的細分方向之一,對於初創企業來說,是其進入人工智慧領域的入口之一,然而從市場上來看,這一賽道的頭部企業國外如谷歌、蘋果,國內如 BAT,因其資本優勢以及先發性的技術沉澱,對該市場有較強的壟斷性,因而初創企業要想在僅剩不多的市場份額中求生存或者分一杯羹,技術實力是關鍵之一。
  • 機器人程序設計之如何正確入門ROS | 雷鋒網公開課
    然而隨著ROS近年來火熱,在教學中也發現很多新夥伴對ROS的認識存在一些誤區,為了加快小夥伴們的學習速度,雷鋒網(公眾號:雷鋒網)本期公開課雷鋒網邀請Top和大家分享一點自己學習和使用的經驗和心得。雷鋒網本期公開課面向想入手ROS卻又不知從何下手的小夥伴,為大家梳理好學習思路。
  • 鴻蒙HarmonyOS開發板訊飛平臺+語音控制開關燈
    想了解更多內容,請訪問:51CTO和華為官方戰略合作共建的鴻蒙技術社區https://harmonyos.51cto.com/#zz參考連老師博文:https://harmonyos.51cto.com/posts/1842通過訊飛開放平臺可以將語音實時轉換為文字
  • 科大訊飛拾音領域實現新突破,「諦聽」可識別30分貝超小音量
    深耕智能語音與人工智慧領域多年的科大訊飛,近期推出了全新拾音品牌——諦聽,在超小音量拾取和降噪方面再下一城。其實,訊飛在早前推出的訊飛錄音筆、智能滑鼠、阿爾法蛋等產品均涉及語音交互。基於產品應用的技術積累,這次在拾音領域發力深耕,令人欣喜。
  • 排名 語音識別_語音識別技術排名 - CSDN
    相關公司方面,據選股寶主題庫(xuangubao.cn)*免責聲明:文章內容僅供參考,不構成投資建議《語音識別再破記錄,這個領域究竟哪家強?》 相關文章推薦三:訊飛輸入法語音黑科技助力「子彈簡訊」登頂蘋果應用榜論「搞事情」的能力,整個科技圈都服老羅。
  • 科大訊飛的野心:做語音客服又搶英文市場
    雖然雙方有明確的分成模式,作為移動網際網路產品,目前還處於摸索階段,錢砸進去,一時半活兒不會收回來的。  其實,科大訊飛聯手三大運營商實為締造人工智慧語音客服服務中心。試想,中國三大運營商全國客服中心需要多少人員工?就中移動10086熱線每年為社會提供500億此次服務,平均每月30億次以上;而1008611,每月撥打量16億次,每隔3秒就會有客戶查詢話費信息。
  • 對於普及無人駕駛,我們有了這四點認識 | 雷鋒網公開課
    本文整理自「硬創公開課 Online | 無人駕駛」專場。分享嘉賓是馭勢科技聯合創始人姜巖,他是北京航空航天大學博士、美國伊利諾大學香檳分校聯培博士研究生,研究領域為自動駕駛系統架構設計和規劃控制。1、靠什麼實現無人駕駛產業化雷鋒網:馭勢具體在做什麼?進度如何?
  • | 雷鋒網公開課
    ▼雷鋒網按:由於本次公開課偏向實操,涉及到許多的實際操作和代碼示例,限於篇幅就不一一展示,文章下方附本次公開課視頻,有興趣的讀者可以自行觀看,本文主要以展示思路為主。算法或者說機器學習本質是科學規律在大數據集集合上趨勢體現,所以很難做到精準報警,目前階段還是需要通過各種規則和模型來輔助,不過對於挖掘未知攻擊行為確實是一支奇兵。
  • 科大訊飛飛鼠語音滑鼠雲南促銷 335元
    感興趣的朋友可直接前往昆明市盤龍區環城北路205號集豐寫字樓4棟101室詳詢,關於科大訊飛飛鼠語音滑鼠滑鼠的促銷信息也可諮詢(聯繫電話:13577126956 )該商家。>圖為:科大訊飛飛鼠語音滑鼠高清實拍圖科大訊飛飛鼠語音滑鼠主要參數解讀:適用類型商務舒適滑鼠大小普通鼠最高解析度1600dpi刷新率暫無數據
  • 訊飛輸入法3.0版:英文語音輕鬆輸入
    1月15日,訊飛輸入法3.0.1257版正式發布,新版本最大亮點是增加了英文語音輸入模式,和普通話、粵語輸入一樣,只要切換到英文模式,對著手機說英語,訊飛輸入法立馬識別你說的話! 國內首創英文語音輸入  告別「雞同鴨講」時代    當然,如果你想要練習英語口音,但又羞於表達自己,那麼訊飛輸入法也絕對是你的好幫手。
  • 訊飛智能鍵鼠,辦公效率快人一步|鍵盤|語音識別|滑鼠|科大訊飛...
    訊飛智能鍵鼠是科大訊飛面向A.I.+辦公領域推出的提升PC使用效率的智能外設組合,即通過軟硬體結合的方式,對傳統PC外設進行改造,進而讓其擁有智能化的能力,主要包括語音識別、語音翻譯、語音控制、OCR識別等功能。截至目前,訊飛智能鍵鼠包括訊飛智能滑鼠Lite、訊飛智能滑鼠Pro、訊飛智能滑鼠標準版以及訊飛智能鍵盤K710多款產品。
  • 科大訊飛李世鵬:答AI技術的當下戰局,給AI創業者的九條建議 | CCF...
    科大訊飛成名的技術是語音技術,語音技術包括很多方面,包括語音合成、語音識別,訊飛現在的語音識別技術上居於第一梯隊。科大訊飛做語音技術已經有20多年,積累了很多特有的數據。儘管如此,語音技術中要做的工作仍有很多,包括在一些細分領域,例如在人工智慧和機器人領域,要想將這個領域中所有的專業名詞識別得很好的話,本身就是一個很有挑戰性的工作,再加上很多方言、口音。
  • 神經認知學在機器人中的發展和應用(附PPT+視頻) | 雷鋒網公開課
    那麼,什麼是神經認知學,神經認知在機器人領域都有哪些應用?本期雷鋒網硬創公開課邀請到TIANBOT資深機器人研究工程師田博,為我們做主題為《神經認知學在機器人中的發展和應用》的分享。參加央視財經頻道的創業英雄匯。公開課完整視頻(共96分鐘):以下為嘉賓分享內容實錄精編。關注雷鋒網旗下微信公眾號,回復「PPT」可獲取嘉賓完整PPT。我從07年開始做機器人研究,並且有幸在2011年加入唐華錦博士在新加坡科技局信息所創建的計算神經組,從屬於李海洲博士的人類語言科技部門與機器人技術項目部門。