如何快速準確地對不同學生的口語進行評測,對於線上或線下英語教學來說都是一大難題:老師要面對個體差異和個性化學習需求,學生則苦於母語障礙和交流場景的局限,雙方都想要彼此合拍實在太難了。
現在,微軟Speech語音評測服務,想要挑戰這個難題——研發人員嘗試以更加智能的方式給語音「打分」,然後給出一個最接近母語專家的讀音,從而讓老師和學生習得「字正腔圓」的口語發音。
讓語言學習更高效
微軟語音評測是今年5月舉辦的2020微軟Build開發者大會新推出的Azure語音服務Speechtotext的新功能。用戶可以上傳跟讀文本和音頻,然後對發音人的語音從準確度、流利度和完整度方面進行評測。
如今,這個「給語音打分」的成績單出來了。在6月16日的線上採訪中,微軟亞太研發集團雲計算與人工智慧事業部資深產品經理馬莉莎介紹,通過比較評測市場上的主流技術,微軟語音評測在一致性上達到了0.75,與母語專家水平最為接近。
微軟語音評測服務支持從文章、句子、詞、音素層層評測,還可以開啟誤讀開關,針對長句長文更精準地打分,提高教師在語言教學中的工作效率。與此同時,作為用戶的學生可以得到多讀、少讀或者發音不好等個性化輔助糾音的反饋意見。
好未來AI科學家胡翔宇表示,微軟智能語音服務為好未來內部及合作夥伴提供了強大的實時語音評測能力,其發音測評功能更好地適配了好未來的收音環境,具備更高的一致性,更加貼近專家的評估結果。
微軟語音評測,是基於微軟Azure雲構建的面向全球主要語言的語音測評服務。其產品邏輯簡單理解,就是每個語言都從海量小時的大數據訓練中學習當地的純正口語發音,然後智能評估輸入語言和預設模型之間的匹配程度,並按照準確度、流利度、完整度的要求進行層層評估,最後形成針對各年齡段的精準打分。擁有業內領先的識別準確率和擬專家打分的一致性,微軟語音評測讓語言學習的教和學更高效方便。
AI+HI是未來教育的大方向
目前,微軟在人工智慧上的布局重點是智能雲和智能邊緣,而認知服務是其中的重要組成部分,即賦予平臺如人類的眼、耳、口、鼻、大腦一般的功能。語音功能(Speech)可以理解為「語言的表達力」,然而要想讓雲平臺具備這種行為,卻涉及語音識別、合成、測評等諸多範疇。
微軟亞太研發集團雲計算與人工智慧事業部產品總監丁秉公介紹,一般而言,評價AI技術主要看三個方面:算法、數據、算力。微軟語音評測的算法是基於語音識別,此前微軟在一些公開測試中的語音識別已接近人類的水平,錯誤率僅在5.1%左右。數據層面,微軟語音評測通過近10萬多小時的涉及全球的母語數據進行訓練,從而得出幾近純正的口音。算力層面,評測系統的所有技術都是基於在全球擁有數據中心最多、覆蓋區域最多的微軟Azure雲,在數據安全性以及支撐用戶龐大計算需求方面均具有領先優勢。
除了基於強悍的語音識別技術,微軟語音評測還結合了知識圖譜、語義理解、語義打分等領域的尖端技術,從而形成更接近「一對一的母語專家」的綜合評測場景和模式。
雖然微軟語音評測的未來應用領域廣泛,但目前而言,教育領域仍是其最主要的部分。而在教育類應用場景中,除了此次推出的英文語音評測產品外,研發團隊已在推進網絡聲音合成、聲音定製、有聲課件等的解決方案。例如,Azure的語音合成可以幫助生成課件、合成AI老師,或者合成專供視聽障礙人士使用的有聲書。
回到語音評測,研發團隊認為,機器評測的定位是「老師的好幫手」,即AI+HI(人工智慧+人類智能)的模式。它是一個更便捷的輔助工具,而不是取代老師,也不可能代替那些真正的「好老師」。但在學習模型中融入情感色彩,讓對話產生情感互動,這在未來並不是不可能。而技術上的突破,很大程度上必須藉助於市場應用的廣度與深度以及由此帶來的更多反饋。
談及下一步商業計劃,丁秉公強調,團隊目前並不急於研發一個細分領域的解決方案,「我們的初衷是更好地賦能,給更多有業務拓展的合作夥伴提供最好的戰略平臺。」