機器學習教你學習語言:Duolingo推出CEFR語言檢測器

2020-12-11 機器之心Pro

選自duolingo

作者:Bill McDowell、Burr Settles

機器之心編譯

參與:高璇、Geek AI

隨著人工智慧發展逐漸進入「深水區」,越來越多的研究者把目光投向了使用人工智慧增強人類智能的研究領域。近日,語言學習平臺 Duolingo 針對歐洲語言共同參考框架(CEFR)推出了 CEFR 檢測器,能夠自動為不同層次的語言學習者提供同級學習文本改寫服務。

「對!——我神經過敏,非常,非常過敏,十二萬分過敏,過去是這樣,現在也是這樣;可您幹嗎偏偏說人家瘋了呢?犯了這種病,感覺倒沒失靈,倒沒遲鈍,反而敏銳了。尤其是聽覺,分外靈敏。天上人間的一切聲息全都聽見。陰曹地府的種種聲音也在耳邊。那怎麼是瘋了呢?聽!瞧我跟您談這一切,有多精神,有多鎮靜」。

這是埃德加·愛倫·坡(Edgar Allan Poe)小說《洩密的心》(The Tell-Tale Heart)中一個神經過敏的角色的內心獨白,它以一種讓人仿佛身臨其境的感覺開頭,吸引了廣大的讀者,也為我們提供了向「多鄰國」(Duolingo)語言學習故事的讀者展示的引人入勝的素材。但是對我們的學習者來說,英語常常是他們的第二語言,因此我們努力將這種材料改編成更簡單的形式,同時又保留其核心內容。例如,我們可以將以上段落重寫為以下文字,以供英語初學者閱讀學習:

「對!——我神經過敏,但我瘋了嗎?犯了這種病,聽覺感覺反而敏銳了。天堂人間地獄的一切聲息都可聽見。那怎麼是瘋了呢?聽!我能跟您談論這一切」。

這項文本改編任務對我們來說是一個艱巨的挑戰,即如何有效地為各個階段的學習者生成可學內容——不僅是我們的語言學習故事,還包括播客和「多鄰國」產品的其它功能。因此,我們構建了半自動的機器學習系統,以幫助我們針對於不同的語言熟悉程度進行的內容創建過程(根據 CEFR 標準進行衡量)。值得一提的是,我們已構建了 CEFR 檢測器(Checker)來幫助實現語言轉換,並且檢查跨語言的內容是否適合初學者、中級學習者和高級學習者。在這裡,我們也會將這個工具提供給語言教育者和公眾!下面將詳細介紹其用途和使用方法。

CEFR 和 CEFR 檢測器

歐洲語言共同參考框架(Common European Framework of Reference,CEFR)是一種語言熟練程度標準,根據學習者的語言能力將其分為初學者、中級學習者和高級學習者。這些級別通常被細分為 A1、A2、B1、B2、C1 和 C2,與上圖所示的不同熟練程度相對應。根據「Can do…」的句式等評估學習者在聽力、閱讀、寫作和口語交際能力方面的水平。這些語句的範圍從「可以理解並做出基本的問候」(初學者水平)一直到「可以寫出關於複雜主題的結構良好的詳細文本」(高級水平)。

有了 CEFR 標準,我們可以將改寫任務視為:將一段中級學習者(例如 B1)可以理解的文本修改為內容相同的文本,同時初學者(例如 A1 或 A2)可以理解這段修改後的文本。有時,我們甚至需要把 A2 級別的文本改寫為 A1!這通常需要將語言的詞彙、語法或習慣用語以及與文化相關的各個方面簡化為不同級別的學習者更容易理解的形式。我們的 CEFR 檢測器通過評估 CEFR 等級來輔助此過程,檢測器將測試學習者可以在哪個 CEFR 等級下,理解改編文本中的每個單詞。例如,下面的截圖展示了該工具如何將原始愛倫·坡原文的一些單詞評估為 C1 或 C2 級別(紅色高亮表示),並在簡化文本中將最高級的單詞(「nervous」)評估為 B1 級別(橙色高亮表示)。

該工具提供了數十萬個英語、西班牙語、法語、義大利語、德語和葡萄牙語單詞的 CEFR 評估值,我們今天將發布其中兩種語言(英語和西班牙語)的公開版本!通過利用下文描述的人工智慧機器學習模型,我們可以提供海量的詞彙表和多種語言的評估值。

人工智慧的部分

CEFR 檢測器中的彩色文本可視化結果取決於多種語言中成千上萬個單詞的 CEFR 等級——如果我們的課程專家進行手工標記,成本將極其高昂、令人抓狂。我們通過使用數千個人工標註的 CEFR 英語、西班牙語和法語單詞標籤訓練一個機器學習系統,並使該模型可以泛化到許多其它語言的數十萬個單詞上,最終降低了成本。這種有序回歸學習模型將考慮一個單詞及其源語言,並預測該單詞的目標學習者的 CEFR 等級(A1、A2、B1、B2 或 C)。

我們使用遷移學習和領域自適應技術,同時依靠與語言無關的特徵將模型泛化到新的語言上。也就是說,模型中的特徵包括多語言單詞嵌入(MWE)和通過電影字幕估計的單詞語料庫頻率。MWE 將單詞映射到一個 300 維的空間中,在這個空間中,出現在多語言的語料庫中的相似特徵和語義上下文中的單詞會距離較近,從而提供了語言無關的單詞「含義」的表徵,簡化後的三維空間如圖所示

CEFR 往往要求依賴於某些主題下的語義信息的交際能力(例如,一個人是否可以在涉及問候、個人生活、食物、家庭的「日常」環境中進行交互),因此這些 MWE 和語料庫頻率直觀上看是符合客觀事實的。此外,我們還希望可以做這樣的安排:讓學習者先學習常見的語言形式,然後學習不常用的語言形式。

為什麼要使用人工智慧技術呢?為什麼不簡單地將 CEFR 英語單詞表翻譯成其他語言呢?不妨設想一下,在英語環境中,我們說「I am hungry」,而西班牙語中會說「tengo hambre」(字面意思是「我餓了」)。這兩種表達都是 A1 級。但是,如果將這些表達形式逐字地翻譯為另一種語言,則最終會得到西班牙語形容詞 hambriento(對應英文「hungry」)或英語名詞「hunger」(對應西班牙語「hambre」),它們實際上都是 B1 級單詞。除此之外,語言之間慣用語表達的不匹配使我們很難簡單地翻譯單詞表。我們發現,我們對詞頻和語義建模的方法可以幫助我們做得更好。

結語

CEFR 檢測器是我們目標語言多樣、熟練程度不同的學習者改寫文本內容的過程中的一個關鍵部分。我們希望它的發布能對其它課程開發人員構建「多鄰國」以外的語言學習資源有所幫助,並希望它的存在能進一步促進 NLP 和機器學習研究,從而催生更多增強類似工具的應用程式。

參考連結:https://cefr.duolingo.comhttps://making.duolingo.com/the-duolingo-cefr-checker-an-ai-tool-for-adapting-learning-content

相關焦點

  • Duolingo:睡前與清晨是學習語言的最佳時間
    據 Quartz 報導,語言學習軟體多鄰國(duolingo)最近梳理了大量的用戶數據,以找到每天學習英語的最佳時間段。這項發現與 2016 年的研究結果基本一致,展示了課程學習與睡眠間隔的積極影響。然後,他們用添加了因子的模型對群組的學習效力進行分析,即通過一款工具來評估語言能力、同時控制每場練習的難度。基於此,團隊能夠根據熟練程度,對每個小組進行排名。
  • 2021 年最值得學習的 5 大機器學習程式語言!
    ,而Python也的確是學習機器學習的利器。如果你對人工智慧和機器學習感興趣,而且正在積極地規劃著自己的程式設計師職業生涯,那麼你肯定面臨著一個問題:你應該學習哪些程式語言,才能真正了解並掌握 AI 和機器學習?可供選擇的語言很多,你需要通過戰略選擇最能滿足個人需求,以及保證自己將來能夠在 AI 和機器學習領域順利發展的程式語言。
  • 學習另一門語言?Duolingo是我用過最有趣的App
    不過真的非常非常推薦喜歡學習語言的朋友去試試,因為它的好處實在太多了!完完全全顛覆了我對學習語言的體驗,還順便治療了我的懶癌。讓你學習起來也不會像看書一樣枯燥乏味。特別適合不同年齡段的初中高水平學習者。
  • 2021 年最值得學習的機器學習程式語言TOP 5
    如果你對人工智慧和機器學習感興趣,而且正在積極地規劃著自己的程式設計師職業生涯,那麼你肯定面臨著一個問題:你應該學習哪些程式語言,才能真正了解並掌握
  • 2021年 最值得學習的機器學習程式語言TOP 5
    如果你對人工智慧和機器學習感興趣,而且正在積極地規劃著自己的程式設計師職業生涯,那麼你肯定面臨著一個問題:你應該學習哪些程式語言,才能真正了解並掌握
  • 什麼是Duolingo語言考試?這些美國大學接受Duolingo語言成績啦!
    什麼是多鄰國英語測試多鄰國英語測試 Duolingo English Test (DET)是在線語言學習網站多鄰國Duolingo提供的一種語言測試,採用的是在線測試的方式,可以通過電腦和網絡攝像頭在家進行測試,而無需預約或前往考試中心參加測試,測試使用計算機自適應技術,讓問題難度將就考生的水平。
  • 獨家 | 手把手教你學習R語言(附資源連結)
    本文為帶大家了解R語言以及分段式的步驟教程!人們學習R語言時普遍存在缺乏系統學習方法的問題。學習者不知道從哪開始,如何進行,選擇什麼學習資源。雖然網絡上有許多不錯的免費學習資源,然而它們多過了頭,反而會讓人挑花了眼。為了構建R語言學習方法,我們在Vidhya和DataCamp中選一組綜合資源,幫您從頭學習R語言。
  • Python語言下的機器學習庫
    如果你擅長其他語言,但也想使用Python包,我們也簡單地描述如何與Python進行集成來使用這篇文章列出的庫。  Scikit-Learn  Scikit Learn是我們在CB Insights選用的機器學習工具。我們用它進行分類、特徵選擇、特徵提取和聚集。
  • 超級乾貨 :手把手教你學習R語言(附資源連結)
    本文為帶大家了解R語言以及分段式的步驟教程!人們學習R語言時普遍存在缺乏系統學習方法的問題。學習者不知道從哪開始,如何進行,選擇什麼學習資源。雖然網絡上有許多不錯的免費學習資源,然而它們多過了頭,反而會讓人挑花了眼。為了構建R語言學習方法,我們在Vidhya和DataCamp中選一組綜合資源,幫您從頭學習R語言。
  • 谷歌開始學習印度語言
    和我一起擁抱科技,讓未來不再遙遠Google推出了針對印度語言的機器學習模型。該語言已經使用Google的BERT進行了訓練,被用於分析幾乎所有的英語搜索查詢。 隨著越來越多的非英語使用者進入印度,技術巨頭Google正在印度推廣本地語言。
  • 李沐大神深度學習課程第一篇重磅推出:機器學習簡介
    不久之前,吳恩達推出了自己的深度學習在線課,收穫了十分熱烈的反響,該課程也已引入中國方便國內開發者學習。
  • Duolingo推出聊天學習機器人 讓你免費學英語
    備受歡迎的外語學習應用多鄰國來自美國匹茲堡,因其永久免費的策略和生動有趣的課程迅速受到用戶喜愛。自四年前上線迄今已經擁有1.5億用戶量,在各個平臺的語言學習類應用中均名列前茅。此次chatbot的引入,將成為該平臺上線以來最大的改變。如果你還未使用過多鄰國,簡單介紹下:多鄰國提供一種簡單有效的「每日訓練」的方式來幫助你入門乃至習得一門外語。
  • 語言學習工具Duolingo如何玩轉眾包?
    他的拇指在色彩鮮亮的屏幕上輕快地滑動著,不過他不是在玩休閒遊戲,而是在Duolingo上學習英語。這款免費行動應用程式是由遠在1,700英裡之外的美國賓州匹茲堡的一家科技初創公司所開發。洛佩茲已經在一個月內完成了多節課程,其進展速度比他在十多個其他語言學習應用程式上的嘗試都更快。
  • 機器學習與R語言培訓課程
    其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的程式語言:可操縱數據的輸入和輸出,可實現分支、循環,用戶可自定義功能。   與其說R是一種統計軟體,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若干統計程序、使用者只需指定資料庫和若干參數便可進行一個統計分析。
  • 掌握機器學習技術從這些程式語言和程式庫開始
    在這片廣受讚譽的文章當中我們向大家介紹了成為機器學習牛人所需具備的關鍵技能。現在,我們將來自讀者關於上一篇文章的問題進行匯總,發現其中大家最關心的就是:掌握機器學習技能到底需要學會哪一種程式語言?這個問題的答案或許會讓你大跌眼鏡——掌握哪一種程式語言都無關緊要!
  • Python還是R語言?怎樣學數學?機器學習的徵程從這裡開始……
    圖源:unsplash 機器學習是近幾年來最熱門的技術之一,也許你對機器學習很感興趣,但卻不知從何處下手。別擔心,興趣是最好的老師這裡有你開啟該領域職業生涯的完整學習路徑。應該學習Python還是選擇R語言?數學總是很可怕,筆者總是擔心自己應該從何處開始學數學,還擔心如何為機器學習打下堅實的基礎。不管怎樣,祝賀你,至少你已經下定決心了。本文將帶你做好開啟機器學習生涯之前的所有準備工作。
  • Power BI異常檢測器教你玩
    以商業分析為例,你是一個餐飲集團的老闆,你最關心的數據是每天不同店鋪的營業額。你想要時刻檢查這些數據,你想要實時監控這些數據,你想要知道這些數據什麼時候會出現異常,你想要知道這些數據出現異常的原因,這樣你才能在造成更大的損失前來及時止損。
  • Python 憑什麼打敗 Java、C/C++,成為機器學習的唯一語言?
    Python剛剛問世的時候,這門語言一個主要的目標就是易讀易寫。大家讀的代碼遠比寫得多,尤其是當代碼從一個團隊手中遞交到另外一個團隊的情況下。如果你繼承了由其他開發者開發的機器學習的應用程式,尤其是那些結合了許多第三方組件的程序,或是擁有大量定製業務邏輯的程序,那麼在理解程序時程式語言造成的障礙越小越好。
  • 機器學習技術讓谷歌翻譯能夠在多語言中互相連結匹配
    (原標題:機器學習技術讓谷歌翻譯能夠在多語言中互相連結匹配)
  • 多鄰國:睡前與清晨是學習語言的最佳時間
    據 Quartz 報導,語言學習軟體多鄰國(duolingo)最近梳理了大量的用戶數據,以找到每天學習英語的最佳時間段。