「搜狗同聲傳譯」獲得極客公園 InnoAwards2017 中國創新產品評選「年度技術創新」獎,在 1 月 19 日到 21 日的極客公園創新大會上,參會者也將親身體驗到「搜狗同聲傳譯」的服務。
2016 年 11 月,搜狗決定在烏鎮世界網際網路大會首次公開展示自己的同聲傳譯技術。陳偉心中有些忐忑,甚至想過為了保險起見,要不要向搜狗 CEO 王小川提前要些演講材料。
陳偉在搜狗語音交互技術中心任職,之前幾個月,已經和同事針對同聲傳譯技術做過多次內部測試。效果雖然不錯,但畢竟在此之前業界還沒人公開演示過這一技術,「吃螃蟹」的搜狗但凡有一點差錯,都可能被人拿來反覆檢視。
王小川否決了陳偉的想法,技術做派的他不想讓這件事失去公正、客觀。同時,他對搜狗同聲傳譯技術自信,認為沒必要耍這點小聰明。
搜狗 CEO 王小川在 2016 年烏鎮世界網際網路大會上
演示當天,在人工智慧分論壇上,王小川戴著耳麥,在臺上講述自己對人工智慧的理解。他的話被實時轉換成中文和英文翻譯,顯示在身後的大屏幕上。臺下有人開始拍照,一些外國嘉賓也摘下了用來聽人工同傳的耳機,這一幕讓陳偉懸著的心放了下來,覺得這事「沒問題了」。
2017 年,搜狗同聲傳譯在全國又經歷了近百場公開演示,涉及從網際網路到金融等多個行業,陳偉稱每一場都讓它的能力更強,反覆的實用讓這一技術不斷演進。2017 年的烏鎮世界網際網路大會上,搜狗同聲傳譯還加入了語音合成功能,嘉賓能從耳機裡聽到機器翻譯播報出來的聲音。
搜狗在去年的上市招股說明書中總計提到了 90 多次人工智慧,昭示著 AI 是它接下來最核心的發展戰略。搜狗 CTO 楊洪濤告訴極客公園,對於同聲傳譯技術,「我們更多把它看成是 AI 技術研發的一個演進」,是搜狗人工智慧在向「自然交互+知識計算」發展過程中要攻克的難題之一。
那麼,如果我們跳出具體技術本身來看,搜狗 AI 戰略發展的全景又究竟是怎樣的?
「輸入法」的進化
按照楊洪濤的解釋,搜狗 AI 布局不會離開自己的優勢領域,而是對這些領域能力的加強和形態的延伸。
這些領域裡,輸入法是一個。根據艾瑞諮詢的統計數據,截至去年 9 月,搜狗輸入法擁有 3.07 億移動日活躍用戶,8700 萬 PC 日活躍用戶,是中國第二大 PC 軟體,第三大移動應用。
搜狗一直在嘗試加強輸入法的能力。從 2012 年開始,陳偉和他的團隊就在做語音識別相關的工作,讓用戶通過輸入法把自己的聲音變成文字。後來基於語音技術的積累,決定研發同聲傳譯,也是為了「提升用戶跨語言間的交流」。
輸入法滿足的是用戶的表達需求,而單純的文字和語音,則是最傳統的輸入法功能,搜狗想在這兩者之外,探索更多的幫助用戶表達的方法。
楊洪濤認為輸入法接下來的發展有兩個方向。一是讓用戶表達時能使用更豐富的多媒體信息,除了文字、語音外,諸如地圖位置、餐館的點評信息等也可作為表達的手段,輸入法應該智能、自動地發現用戶會話中的潛在需求,增強用戶的表達能力,提升溝通效率。「比如發『在星巴克等你』,輸入法就自動把星巴克的地圖也一起發送過去,這是在智能匹配用戶需求上要去做的工作。」
輸入法發展的另一個方向是幫助用戶更好地「聊天」,通過分析、理解用戶想要表達的意思,自動引經據典、索引段子,讓用戶的會話更個性幽默。
搜狗 CTO 楊洪濤
但這不是輸入法的最終形態,未來的輸入法將是一個寬泛的概念,它可能有形,也可能無形,幫助人與人之間的交流,也幫助人和物之間的溝通。我們現在和智能設備的語音交互,本質上也是輸入法的一種。
楊洪濤認為語音/語言是人能用到的最自然的交互方式,也是搜狗 AI 技術理念的核心。圍繞語音,搜狗推出了知音 OS——一套語音交互系統,為搜狗用到語音識別、語音合成、翻譯以及相關能力的產品提供技術支撐。
「知音 OS 強調的是自然交互,讓用戶很自然地用語音、語言去和機器互動,機器能夠理解用戶在說什麼,然後利用它掌握的知識來回答用戶的問題。比如你對搜狗地圖說去首都機場,它會反問你去哪個航站樓,是到停車場還是出發的大門口。」這個過程自然流暢,不會打斷用戶的駕駛行為。
知音 OS 的能力擴展了搜狗輸入法的外延,讓搜狗在幫助用戶表達這件事上能「做得更好」。
搜狗 CEO 王小川
一切為了「讓表達和獲取信息更簡單」
「知識計算」則是搜狗圍繞另一個深耕多年的業務領域——搜索——來進行的。
搜尋引擎針對用戶的問題,從網際網路海量的數據中把答案提取出來,呈現給用戶。但楊洪濤認為,時至今日,搜尋引擎對用戶問題的解答做得還不夠好,它必須變得更加精準和高效。
「傳統的搜索方法是你敲一個關鍵詞,給你十條結果,讓你去選命中你需求的。如果沒有你想要的結果,那就再加一個或減一個關鍵詞。下一代搜尋引擎基於對知識的掌握和推理,能夠用一個結果直接回答用戶的問題,這就是知識計算。」
從多條結果選擇到唯一答案,這是一個極其困難的演進過程。到目前為止,搜狗也只能在一部分問題上去直接回答,還有用戶問題理解、知識提取、知識間相互關係的推理和計算等眾多難題需要解決。
把自然交互和知識計算聯繫起來看,便是搜狗人工智慧發展的邏輯:以語音、語言為核心的自然交互作為輸入方式,經過知識計算,將唯一且確定的答案提供給用戶,滿足用戶對學習、娛樂、生活服務等的需求。近幾年,搜狗在 AI 上動作不斷,但幾乎都是沿著這條主線在布局,很少分散精力去盲目擴大「戰線」。
本質上,這依舊是「輸入法+搜尋引擎」的組合,但在產品形態上卻有著更為自由的選擇。「它可能不發生在電腦上,也不發生在手機上,而是人跟手錶、智能音箱、智能電視等各種智能設備去互動,這種互動不用敲字,沒有搜索框。」楊洪濤說。
從這個角度去理解,未來的「輸入法」和「搜尋引擎」,或許將不再是今天這般的兩款獨立產品,而是作為兩種不可見的底層能力,被整合進各種各樣的軟體及智能硬體中。「知音 OS 跟人對話,深智引擎(指知識計算)回答問題,有這樣的技術我們才能實現無處不在的搜索。」
最近兩年,搜狗陸續推出過一些軟硬體產品,如速記工具「搜狗聽寫」、車內場景的智能副駕(支持與搜狗地圖全程語音交互),還有兒童智能手錶「糖貓」、智能陪護機器人「糖貓在家」,以實踐和推動自己在自然交互、知識計算上的能力建設。
楊洪濤透露搜狗正在擴大智能硬體產品線,但他們目前不做開放式的生態體系建設,只挑選少數的合作夥伴去做技術落地。
「數據是驅動 AI 進步的核心點」,楊洪濤認為輸入法和搜索積累的數據是搜狗做 AI 的天然優勢。同時,搜狗 C 端產品龐大的用戶群,為其提供了技術落地的場景,由此帶來的軟硬體產品線的豐富,又將產生更多的用戶行為數據,「這樣就形成了(數據生產)的閉環」。
多年前,搜狗將自己的使命總結為「讓表達和獲取信息更簡單」,多年後的人工智慧時代,這句話依舊適用於描述這家公司。「今天搜狗的使命體現在輸入法和搜索上,未來體現在這些產品的演進上」。楊洪濤說。
在 1 月 19 號下午的極客公園創新大會前沿思考論壇上,搜狗 CEO 王小川將探討「從科技裡,我們到底想要什麼?」同時,極客公園將攜手前沿社企業家和前沿思考夥伴 ThinkPad,通過前沿社的思維體系梳理 2017 年熱點事件的關聯邏輯,運算出隱藏在背後的科技本質,共同提升科技素養,擊退喧囂,構建屬於科技主義者的價值判斷體系。
責任編輯:王偉
圖片來源:視覺中國