過去,錄音筆的定位一直是便攜的專業產品,用戶群體單一,但隨著AI、物聯網的快速演進,錄音筆從過去的存量市場逐漸演變成面向藍海的增量市場,產品的應用場景、服務帶來新的想像力。在CES2020開年國際科技大展上,搜狗AI智能錄音筆也來到了現場,將AI翻譯、AI語音識別、多人/多語種識別等多種元素相融合,引起了國內外媒體的關注,我們在展臺見到了搜狗CTO楊洪濤先生,他從技術、生態、市場等角度對錄音筆行業發展進行了解讀。
楊洪濤是搜狗輸入法研髮帶頭人,過去,他成功的將搜狗輸入法打造為國內用戶量第三的國民軟體;後來,帶領搜狗AI團隊構建行業領先的語音、視覺、機器翻譯、同傳等一系列AI交互技術,並主持AI的產品化工作,打造了翻譯寶、AI錄音筆等多款AI硬體領域的創新產品。
搜狗全新的AI智能錄音筆能夠在一個國際展會上掀起不小的波瀾,聽起來可能有些誇張,但這的確是搜狗研發團隊幾年間兢兢業業做出來的成果。對於錄音筆這個市場來說,無論頭部還是腰部的品牌,大多數都產品都只是搭載簡單的錄音功能。相比於這些產品,搜狗錄音筆一直在思考如何讓其往更高頻率的方向發展。後來,搜狗AI智能錄音筆團隊將其應用場景與錄音筆結合,想著讓一款錄音筆產品能夠靠兩個麥克風的陣列做語音識別,比如記者採訪靠語言識別成稿,對於很過文字工作者來說應該是非同凡響的一件事。
搜狗CTO楊洪濤
既然說到語言識別,其實對於很多辦公場景來說,像北京、上海這些大城市的人們都來自五湖四海,大家都說不同地方的方言。亦或是很多外企常常需要在中英文之間切換,甚至中英文同時交流。顯然,語言識別並不是一件容易的事情,細數各種使用場景,無論是哪一個都有諸多的難題。
當我們談及搜狗AI錄音筆發展歷程的時候,楊總告訴我們:搜狗AI智能錄音筆發展到現在,無論是方言還是多語種等場景,搜狗AI智能錄音筆都已經融了超過幾十萬小時的樣本建模和演進,識別精準度已經非常的可靠。
搜狗錄音筆的識別能力的升級之路,就好比當年搜狗輸入法的升級。搜狗輸入法每天有五個多億用戶,這些用戶產生的數據會為AI系統提供一個很重要的數據來源,這些數據會積累在系統裡,讓系統去做針對性的建模訓練,久而久之,它的識別能力就會非常準確且人性化。
很顯然,識別精準度完善解決了採訪類場景的需求,但是現實中,很多企業用戶在會議中存在三方或以上人的這種場景。如何實現機器精準識別每個不同的人的發言,這是我們十分值得關注的。在這個話題背景下,我們了解到:在多人識別的場景上,目前搜狗已經可以通過麥克風陣列組合實現多人講話的精細分割,呈現(說話人1:),(說話人2:),(說話人3:)的高效速記。不過若是不依靠硬體輔助,這還是一個目前在學術上都無法攻克的難題。
關於使用環境,我們常見的語音AI助手都需要藉助網絡雲端進行計算。
而對於搜狗AI智能錄音筆來說,它如果必須藉助網絡才能實現,那麼在很多沒網的狀態下是否會造成無法使用?對於我們的這個疑問,楊總表示:語音識別加翻譯的模型很複雜,讓它能夠搭載在一個小型的晶片裡去做推理計算可是費了搜狗研發團隊的不少心血。搜狗AI智能錄音筆的研發團隊過去幾年一直都在致力於對大數據模型進行精細化裁剪,最終才得以讓這款產品成功實現無需依靠網絡進行運算。
不難看出,對於未來搜狗AI智能錄音筆的發展方向,翻譯效率絕對是要排在第一位。對此,楊總表示搜狗自己已經做了一套基於雲端的存儲和帳號體系來同步分享。在未來,我們也許能有機會看到搜狗錄音筆與視頻硬體的統一整合,比如在現場直播時能夠為視頻時時提供字幕這樣的全新物聯網功能。
作為AI錄音+翻譯行業最前沿的產品,搜狗AI錄音筆經過幾代產品的錘鍊,無論是在錯誤率、語種識別能力還是其它性能上,都已經完成了面向新時代的蛻變,這離不開產品用戶的支持與研發人員的努力。希望在未來,搜狗能夠一步步突破AI智能錄音筆的一層層技術難關,帶來更多、更好的產品。
本文屬於原創文章,如若轉載,請註明來源:專訪搜狗CTO楊洪濤:錄音筆技術革新與變革之路http://dcdv.zol.com.cn/736/7366439.html
http://dcdv.zol.com.cn/736/7366439.html dcdv.zol.com.cn true http://dcdv.zol.com.cn/736/7366439.html report 3140 過去,錄音筆的定位一直是便攜的專業產品,用戶群體單一,但隨著AI、物聯網的快速演進,錄音筆從過去的存量市場逐漸演變成面向藍海的增量市場,產品的應用場景、服務帶來新的想像力。在CES2020開年國際科技大展上,搜狗AI智能錄音筆也來到了現場,將AI翻譯、AI語音識別、...