專訪先聲智能首席科學家:用語音對話系統教中國孩子說外語

2020-12-12 智東西

智東西(公眾號:zhidxcom)
文 | 李水青

導語:美國教授來中國搞AI教育落地,用語音對話系統教中國孩子說外語。

Alexander I. Rudnicky是卡內基梅隆大學的計算機科學教授,對AI和語音對話研究超過30年,近日,智東西就語音對話系統在AI語言學習上的應用對他進行了獨家採訪。

Rudnicky目前正致力於將語音對話系統技術落地在先聲智能的AI教學產品上。Rudnicky認為語音對話系統不僅能用於功課輔導功能,還能通過對學生興趣數據的分析與孩子產生情感溝通,建立信任。

但Rudnicky表示,目前語音對話系統技術仍需要突破「使對話前後一致」和「實現多模態」兩大難點。要在AI教師應用上落地不限定場景的對話系統,可能還需要多年的努力。

先聲智能成立於2016年4月,是一家提供B端服務的人工智慧公司,垂直於基礎教育領域,提供語言輔導服務。先聲智能成立後兩年內完成3輪過千萬美金融資,投資方為聯想之星、創世夥伴資本、思必馳,好未來等。

一、教授來中國:用語言對話系統教孩子說英語

Rudnicky博士是卡內基梅隆大學計算機科學教授,也是卡內基梅隆語言聯盟的主任,從事AI和語音對話研究超過30年,有100多篇學術成果。Rudnicky也是先聲智能CTO秦龍在卡內基梅隆大學的導師。


▲從左到右為:先聲智能CTO秦龍和他的導師Alexander I. Rudnicky

Rudnicky於2018年加入先聲智能,「語音對話系統」是Rudnicky和先聲智能主要的業務交集點。他了解到,雖然市面已有一些AI老師直播,但是通常只能進行「很傻」的問答,難以有多輪流暢的交互,效果並不理想。

據稱,這次是Rudnicky第一次親身來到先聲智能公司,但Rudnicky會和先聲同事定期「見面」。通過線上溝通,Rudnicky每周都會了解對話系統搭建進度,並提出類似「某些技術是否值得運用」的建議。

先聲智能CTO總裁秦龍說,考慮到中美時差,和Rudnicky的溝通通常安排在晚上,計劃30-40分鐘的會議常常會開到一個小時。

Rudnicky表示語音對話系統對語言教學有兩方面的作用。首先在功能上提供一對一的交互式指導,和用戶進行複雜的多輪對話,並通過用戶數據優化語言學習效果;然後是在情感上建立信任,語音對話系統能通過交互數據了解學生的喜好,進而讓對話具有人情味。

目前,國內的智能音箱、智能客服等應用上已有語音智能對話,先聲智能也剛開始將這一技術用到了天貓精靈的「先聲學英語」AI老師上。「先聲智能並不是第一和唯一家將語音對話技術用到AI語言教育上來的,但我們是在認認真真的做這件事。」秦龍說。

二、已實現限定場景的智能對話,兩大難點待產業解決

Rudnicky說,在美國語音識別技術主要被用於智能客服、銀行APP交互、車載系統、智能家居、娛樂休閒等領域,像客服、家居這些在中國也被應用的比較多了。

「但總的來說就是兩類場景,一個是二人配合場景,比如在電話客服中,客服人員可以由對話系統取代;二是涉及到觸屏的任務,用語言交互取代觸屏操作。」Rudnicky說。

據了解,目前先聲智能的語音對話技術的落地和市面上許多企業一樣,適用於限定場景。Rudnicky說:「許多人都說,還有五年可以實現理想的機器語音對話,但明年問他們,這個回答還是五年。」

Rudnicky表示,語音對話系統目前有兩大難點。一是多輪對話中出現「前言不搭後語」,尤其是出現指代不明的問題,這主要是因為需要的數據以指數函數增加,但實際可用的對話數據太少。

二是多模態,即除了語音,還通過視覺、觸覺等多種感知來支持機器對話決策,比如眼神、唇語等。在國內有公司已稱掌握了唇語識別技術進而將語音識別的準確度提升了30%,這也成了其的技術壁壘。

除了這兩點,Rudnicky還提到了知識庫方面的局限,雖然這個問題相對容易解決。國內有一些公司在內容庫的處理上要動用上百人進行手動處理,這對中小型公司來說是不現實的,所以需要自動化。

三、單點技術已成熟,轉向綜合解決方案

Rudnicky所在的先聲智能公司成立於2016年4月,是一家提供B端服務的人工智慧公司,垂直於基礎教育領域,提供語言輔導服務。

該公司的主要產品包括四個維度:語音測評技術、作文批改、智能對話、自適應學習,目前已經為百度、小米、獵豹、新東方、好未來、海雲天等合作商提供綜合多維技術的方案。

具體來說,先聲智能的產品可以檢測發音對不對、給外語作文打分改正、預知學生做對題目的概率以及和學生對話。

先聲智能成立後兩年內完成3輪過千萬美金融資,投資方為聯想之星、創世夥伴資本、思必馳,好未來等。

2018年3月和12月,先聲智能獲創世夥伴資本(CCV)及好未來數千萬A輪融資;2018年12月11日,蘇州思必馳信息科技有限公司股權比例由21.49%變更為12.74%。

據了解,早期思必馳為先聲提供了語音識別、語音合成、人機對話技術支持。現階段思必馳與先聲智能的合作重點則放在行業交互和教育場景的交互上,雙方將共同努力為全行業賦能。

結語:AI教師語音對話系統待升級,創企聯合學界自我造血

Rudnicky教授認為,目前市面上落地的AI對話輔導產品並不智能,他希望發力先聲智能落地的產品,使產品既具有高效的英語輔導功能,又能獲得學生的情感信任。

AI創企的生存受到網際網路巨頭和專業語音技術公司的雙面夾擊,尋求學界的合作成為一種有力加持。許多AI創企的高管都來自世界名校,他們藉助校友等資源為企業造血,以構建自己的技術壁壘,進而獲得佔領新興垂直領域的競爭力。

相關焦點

  • 先聲智能發布語法改錯系統
    近日,綜合AI技術服務商先聲智能隆重推出語法改錯系統,這是繼智能語音測評、寫作批改、自適應學習等系統後的又一重大技術突破,下面就讓我們來了解下什麼是語法改錯系統。經過半年多的探索,先聲智能的NLP團隊提出了一種利用沒有語法錯誤的單語言數據進行無監督預訓練的方法,具體的說就是利用單語言數據通過複雜的策略構造錯誤數據來生成用於訓練GEC模型所需要的平行語料 (如表1例子所示)。
  • 成功支持數十萬考生英語聽說中考,先聲智能口語測評正式面向全國中...
    而在此次多地考試服務中,先聲智能與合作夥伴進行了標準化的考試製卷、監考老師培訓、各考點學校考試系統軟體、硬體配置部署等系列工作,憑藉嚴謹的考務組織和領先的技術,從布考到評分完成僅僅用了4天時間,能在如此短暫時間內快速響應並部署完成多地數十萬考生聽說考試服務,這在行業中並不多見。
  • 先聲智能與玩瞳VisionTalk達成戰略合作,開啟「多模態AI英語學習...
    先聲智能&玩瞳科技:多模態交互AI學習體驗,助力少兒英語學習市場從教學內容的角度來說,在兒童早期教育階段,少兒英語學習一定是孩子啟蒙的剛需。根據國家統計局發布的《2015—2020中國少兒英語培訓行業市場分析》,目前我國少兒英語培訓市場規模約為600億元人民幣,而且每年以20%的驚人速度增加。
  • 獵豹移動|先聲智能 機器人AI英語陪練時代開啟
    這款兒童家教機器人搭載了國內領先人工智慧服務商先聲智能的英語AI系統,支持跟讀、糾正、15大維度測評等,可充當兒童的英語陪練,相當於擁有了一個外教老師,真正做到解決家長無法教兒童英語痛點。其通過純正美式發音的AI海量英語陪練內容,豹豹龍引導孩子大膽開口說英語。陪練過程中,豹豹龍能針對孩子英語發音的準確度、流利度和完整度進行AI英語發音糾正,發音標準加以鼓勵。孩子跟讀練習結束後,豹豹龍還會進行智能AI英語發音測評,根據測評報告推薦練習內容,針對性地為孩子提供強化訓練,不斷提升孩子的英語能力。
  • 當外語學習用上智能語音
    隨著我國經濟快速發展和綜合國力穩步提升,國家各行各業需要大量能熟練掌握外語的人才。口語作為語言交際的重點組成部分,是外語學習的基礎和難點。林語堂先生曾說:「凡不以口語為基礎的人,一定寫不出平易自然、純熟地道的英文。」英國語音學家吉姆森也提出,學會講任何一門語言,必須要掌握其100%的語音知識,而僅需50%-90%的語法和1%的詞彙就足夠了。
  • 先聲智能AI系統上線新功能:新增自然拼讀及實時自由識別+評分,覆蓋...
    2020年9月,教育綜合AI技術服務商先聲智能於業內率先推出自然拼讀及實時自由識別+評分兩大新功能,持續優化英語口語練習方式的同時,進一步覆蓋客戶啟蒙階段英語學習場景需求。
  • 搶佔家庭場景入口,先聲智能進軍AI+硬體語言學習市場
    通過技術與教學場景的融合,先聲智能為各B端合作夥伴提供在線口語、聽力的評測系統及技術解決方案。目前已推出的應用產品包括「智能口語評測」、「智能作業批改」,除此之外,還有基於場景的智能對話等應用產品。同時先聲智能還將深化對合作夥伴提供的技術產品個性化服務。
  • AI Frontiers | 微軟首席 AI 科學家鄧力演講:口語對話系統的分類...
    編者按:鄧力博士原為加拿大滑鐵盧大學教授,1999 年加入微軟,2016 年起擔任微軟首席人工智慧科學家,負責微軟深度學習技術中心應用趨向的深度學習研究。所以它有好幾個術語,但基本指的是同一件事。開發這類系統,需要能夠與人對話,要麼通過語音,要麼通過文字。這次我專門講語音,以及這兩類 bots 之間的根本性區別。語音識別 vs 基於文字語音識別技術在最近五年中飛速進步,這兩類對話系統之間的差距在縮小,這是一個很重要的信號。但在另一方面,許多情況下我們仍然有許多語音識別錯誤。
  • 【觀點與評論】智娜 李愛軍 | 當外語學習用上智能語音
    首都師範大學外國語學院講師智娜,中國社會科學院語言研究所副所長、研究員李愛軍於《光明日報》2020年11月28日第12版發表文章《當外語學習用上智能語音》。文章指出,人工智慧技術極大地影響和改變了人們的生活、學習和工作。其中智能語音技術作為人工智慧技術的重要組成部分,被更多地用於教育領域的語言教學和語言測試中。
  • 先聲智能與阿里釘釘達成深度合作,共同推進智能英語聽說解決方案落地
    先聲智能&釘釘:以AI賦能教育,滿足英語聽說剛需  隨著政策驅動,英語聽說機考已成必然趨勢。就在近日,北京市深化高等學校考試招生制度綜合改革實施方案,北京市深化高等學校考試招生制度綜合改革實施方案,從2021年起,英語增加口語考試,口語加聽力考試共計50分,聽說機考今年將首考,此前全國已有多地相繼在中高考中採用人機對話考試。
  • 亞馬遜首席科學家:揭秘 Alexa 語音識別技術|AI NEXT
    本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業內知名專家。
  • 專訪| 三角獸首席科學家王寶勳:熱度之下的對話生成
    從 EMNLP 入選論文《Neural Response Generation via GAN with an Approximate Embedding Layer》出發,就自動對話領域的特點到發展方向和亟待解決的問題,我們與三角獸首席科學家王寶勳聊了聊。
  • 先聲智能與智伴科技達成戰略合作,共同探索AIED智能教育時代下的...
    智伴小Y便攜機器人滿足當前家庭場景下家長工作繁忙,無時間陪伴兒童學習成長的痛點,能為孩子帶來健康、高效的陪伴式成長學習,並通過AI技術降本提效,將優質教學資源通過線上、智慧機器人的形式輸送進千家萬戶,無論是偏遠地區、缺乏優質教育資源的孩子,還是地處二三線城市,都能享受普惠的、優質的教育資源。
  • 拿到國際SLAM競賽英語組第一名後,先聲教育想成為人工智慧領域的...
    在先聲教育聯合創始人兼CTO秦龍的介紹中,先聲教育團隊是通過深度神經網絡進行建模獲得第一名成績的團隊,另外一家並列第一的團隊則綜合運用了深度神經網絡和簡單決策樹模型兩種方法。 先聲教育成立於2016年4月,公司基於語音識別、語音評測和自然語言處理等核心技術,自主開發的人工智慧技術成果目前涵蓋了智能語音評測技術、智能寫作批改技術、自適應學習技術、智能對話技術以及情感識別五個方面。
  • 專訪思必馳俞凱:大規模可定製的對話式語音交互,已經來臨
    近些年,深度學習給語音交互的性能和研究方法帶來了極大進步。 但進步並不意味著就沒有挑戰。語音識別的精度總在不斷刷新,卻並沒有達到用戶使用體驗的門檻。 思必馳聯合創始人、首席科學家俞凱堅定地認為,大規模可定製的對話式語音交互技術已經到來。
  • 對話微軟小冰三大首席科學家:微軟第一美少女AI的成長之路
    11月21日,微軟(亞洲)網際網路工程院在北京微軟總部召開了微軟小冰2019年年度研究進展分享會,微軟小冰三大首席科學家——微軟小冰首席科學家宋睿華、微軟小冰首席NLP科學家武威、微軟小冰首席語音科學家欒劍在會上展示了微軟第一美少女AI小冰近期的技術突破,帶來了相當硬核的技術乾貨分享。
  • 專訪「流利說」首席科學家林暉:如何用機器學習幫中國人說好英語
    針對這個問題,英語流利說的解決方法是利用人工智慧技術來幫助中國人提升自己的口語水平。流利說成立於2012年,到目前這款產品已經獲得了約3600萬用戶。流利說的主要功能是提供文本並讓用戶跟讀,然後系統會根據用戶的發音準確度給出評分和建議。流利說App上提供的素材涵蓋了從日常對話到留學、面試等諸多場景,因此受到了大量英語學習者的追捧。
  • 聯想之星投資,先聲教育5大AI技術能力提升英語教學效率
    先聲教育成立於2016年4月,定位是做垂直於教育領域的人工智慧公司,創始人陸勇毅表示:「我們是一家to B的公司,專注於企業服務,運用語音測評技術、作文批改、智能對話、自適應學習等人工智慧技術,來提升英語學習效率。」
  • 專訪阿里雲首席科學家周靖人:中國數據創新很可能引領世界
    今年7月,他剛剛從微軟合伙人的崗位離職,從美國西雅圖舉家來到中國杭州,擔任阿里雲首席科學家、阿里雲副總裁,負責阿里巴巴人工智慧和大數據方面的研究。「我們做技術的,需要很多應用場景驗證。阿里巴巴能提供的場景和數據,是美國任何一家公司都提供不了的。」日前,周靖人接受了澎湃新聞(thepaper.cn)的專訪。
  • 你的口音正受到來自智能語音系統的歧視|智能語音|智能音箱|人工...
    在放鬆且自由的家庭環境裡,享受家人圍繞的美好時光時,總會讓我們的大腦不自覺地放鬆下來,將「語音系統」切換到自己的家鄉話模式。然而當你躺在沙發上用方言指示你的智能音箱「放音樂」時,很有可能會收到人工智慧一板一眼的回應,「對不起,我好像不明白」。