「聽說讀寫」是英語學習的四大核心要素, 而「寫」可謂是英語學習中最考驗學習者綜合語言運用能力的一項。對很多學生來說,除了寫作技巧,行文中的語法問題常常不自知,更不要提靈活使用「高級」詞彙和句式了。很多時候學生們即使想多做練習,卻奈何沒有一個隨時隨地可以幫忙指導、批改的專業人士,而私教則需要支付昂貴的費用。對英語老師來說,日常工作中最大的工作量就是批改作文,每篇文章即使逐字閱讀、改錯和點評,也很難做到一對一的詳細指導。尤其在網上提交作業時,學生們五花八門的手寫文章照片,更是加重了老師們的工作量…
由微軟亞洲研究院開發的個性化英語學習助手微軟小英,致力於用 AI 技術幫助用戶解決「聽」和「說」的難題。對於「寫」的問題,微軟亞洲研究院在2018年將「作文打分」功能嵌入了微軟小英,並在去年年底對該功能全面升級,推出了微軟「愛寫作」網頁版。
近日,微軟「愛寫作」公眾號正式上線,基於微軟亞洲研究院在自然語言處理、OCR(光學字符識別)等領域的多項最新研究成果,以及微軟小英多年的技術積累,「愛寫作」打造了四大亮點:語法檢查、詞語替換、分類作文打分和手寫圖片識別,不僅是學生學習的好幫手,也是老師的「智能助教」。它可根據不同年級的作文標準,從語法到用詞、文章結構,全面且便捷地幫助小初高學生、成人培訓學習者,以及四六級、雅思、託福、考研的備考者提升英文寫作水平。
語法檢查:知其然,知其所以然
語法檢查是作文批改中最基本的核心功能。在日常學習中,不少學生經常面對艱深的語法難題墮雲霧中。對此,「愛寫作」在快速完成全文語法檢查的同時,會將提交作文中的語法問題用紅色下劃線標記出來。學生只需點擊紅線,就能獲得有針對性的語法講解,並且還可以看到修改後的正確表達,作為參考,讓學生們不僅知錯就改,而且知道如何去改。
儘管語法檢查是一項基本功能,但其背後的技術支撐卻並不簡單。「愛寫作」的語法檢查功能採用了微軟亞洲研究院此前提出的全新的學習和推斷機制Fluency Boost Learning and Inference(流暢度提升學習與推斷),幫助用戶「找茬」。通過 Fluency Boost Learning(流暢度提升學習)生成的大量糾錯數據,結合 seq2seq 預訓練技術,「愛寫作」的語法糾錯模型在 CoNLL-2014和 JFLEG 兩個權威語法糾錯數據集上都率先超越了人類參考水平,並且持續保持著業界領先的技術水準。
詞語替換:「高級」詞彙信手拈來
有過英語學習經驗的人大概都有過這樣的體會,老師經常會說「還有沒有更高級的詞可以用在這裡?」 「什麼詞更高級?」確實,在英文寫作中替換一個單詞或短語,可以馬上起到點睛的作用。然而在初學時,很多學生背了不少單詞,卻仍然不能根據不同語境靈活使用「高級」的詞彙。
針對這一問題,「愛寫作」的詞語替換功能可以根據上下文篩選出多個高級詞彙供用戶選擇使用。針對某個特定的詞或短語,「愛寫作」可以自動關聯三個同義詞作為備選,讓用戶不再只會用「good」、「nice」這樣的簡單詞彙,而是能夠看到更多的如「impressive」、「admirable」這樣更複雜的詞彙,來進行替換。
在詞語替換功能中,微軟亞洲研究院的研發人員提出了基於預訓練語言模型的詞替換方法,並結合微軟原創的預訓練語言模型——UniLM作為詞替換的解決方案。該方法通過半遮蓋(partial masking)等策略讓預訓練語言模型能夠同時考慮原目標詞詞義以及上下文語境,從而選出合適的替換詞。
分類作文打分:個性化評分,覆蓋8大考試類型
作文打分是很多學生都十分關心的環節,分數固然重要,但分數背後的信息更重要。基於此前微軟小英「作文打分」功能和「愛寫作」網頁版積累的豐富經驗,升級後的「愛寫作」作文打分功能更加強大,不僅可以對所有文章進行一般性評分,還可以測試同一篇作文在不同考試類型中的得分狀況。因為不同的考試在詞彙、語法、文章結構、連貫性、切題程度等維度上對作文有不同的考量標準,所以「愛寫作」在給出分數的同時,還可以有針對性地評價一篇作文在上述這些維度上的表現,並給出反饋建議,以便學生更好地進行自我提升。目前,「愛寫作」支持小學、中考、高考、四級、六級、考研、託福、雅思共八大英語考試類型。
其實,作文打分本是一種主觀行為,要轉化為機器打分,則需要大量有標註的數據才能準確打分,而且還需要將作文精確對應到10分還是20分,亦或是15分。「愛寫作」使用了微軟亞洲研究院研發的序數回歸模型(Ordinal Regression),大大減少了對標註數據量的依賴。該技術把「文章與具體分數的匹配」問題,變成了一個有序的比較大小的問題,在訓練過程中,將已有的標註數據兩兩配對進行對比,進而形成新的文章與評分,再將此數據加入到標註數據集中,使得可用於訓練的標註數據量呈指數級增加,從而整體提高了評分的準確性。
作文打分的方向和維度
手寫圖片識別:分分鐘將手寫文章轉化成電子文檔
不少學生在日常的英文寫作練習和學習中,都會將作文寫在作業本、卷子、練習冊上。那麼如何讓AI批改這些手寫的作文呢?
這也難不倒「愛寫作」。只需用手機給作文拍照並上傳,「愛寫作」就能分分鐘將其轉換成可用智能終端進行編輯的文字,語法檢查、作文打分、詞語替換等等作文批改功能全部輕鬆實現。而且,老師們也可以藉助此功能,輕鬆識別學生們各不相同的手寫字體,方便完成作文批改工作。
微軟亞洲研究院研發的微軟新一代 OCR引擎為「愛寫作」中的手寫識別功能提供了強大的技術支撐。微軟新一代OCR引擎像「鷹眼」一樣,可以有效地檢測出圖像中的各類文字,還可以同時支持列印體和手寫體的複雜文字場景識別。
除了上述四大亮點,「愛寫作」還支持中英文雙向的查詞功能和邏輯連接詞的查找功能,用戶再也不需要退出應用到專門的詞典裡進行查詢了,使用更加簡便、高效。
他山之石可以攻玉:形成研發閉環
在「愛寫作」開發期間,微軟亞洲研究院的研發人員在與老師、學生、教育機構等用戶和合作夥伴的互動過程中獲得了相當多的靈感。所謂他山之石可以攻玉,用戶一個小小的需求就可以給研發人員帶來無限靈感。而這樣的互動與反饋也同樣體現在產品開發與科研工作之間。關於序數回歸模型的學術論文,就是因為近距離地感知到了用戶的需求和痛點,基於在微軟小英產品開發過程中遇到的問題所撰寫而成的,現在該技術又應用到了「愛寫作」中,形成了技術應用與科學研究相互促進的完美閉環。這不僅讓「愛寫作」這樣的產品始終能夠採用最新的AI技術,也讓研究更加貼近用戶。
未來,語法自動檢查及糾正這一自然語言處理領域的經典任務將在英語寫作之外的更多應用場景(如電子郵件、PPT演示文稿、翻譯文件等文檔撰寫)中大顯身手,更智能地幫助人們在寫作中規範語言使用,並與其他自然語言處理技術以及更多人工智慧領域的技術一起為輔助人們進行內容創作帶來更多便利。為了實現「愛寫作」致力於幫助用戶寫出更好的英文文章的目標,微軟亞洲研究院的研發人員也將在多個方向上進一步提升,把更多前沿的AI技術融入「愛寫作」,為用戶提供更加個性化、便捷的英文寫作輔助服務。