MOE:抗拼寫錯誤的詞向量

2020-08-14 雷鋒網

字幕組雙語原文:抗拼寫錯誤的詞向量

英語原文:New Model for Word Embeddings which are Resilient to Misspellings (MOE)

翻譯:雷鋒字幕組(wiige)

傳統的詞嵌入擅長處理大部分自然語言處理(NLP)領域的下遊問題,比如文檔分類和命名實體識別(NER)。然而它的一個缺點是無法處理未登錄詞(OOV)。

Facebook通過引入錯字遺忘(詞)嵌入(MOE)克服了這一缺陷。MOE通過擴展fastText架構來處理未登錄詞。因此介紹MOE之前,先介紹一下fastText的訓練方法和架構。

負採樣Skip-gram(SGNS)

fastText擴展了word2vec的架構,使用負採樣skip-gram來訓練詞嵌入。Skip-gram使用當前詞來預測周圍的詞,得到文本表示(即嵌入 )。負採樣是一種挑出假例(false case)來訓練模型的方法。你可以查看這些文章(skip-gram和負採樣)了解更詳細的內容。

下圖顯示了兩種訓練word2vec詞向量的方法。連續詞袋(BOW)利用上下文來預測當前詞,而Skip-gram則利用當前詞來預測上下文。

矢量空間中詞表徵的效用估計(Tomas et al.,2013)

fastText

fastText幾乎全盤沿用了SGNS的思想。fastText特徵之一是子字(subword), 一般用N-gram方法將單詞分割成子字。例如,n-gram字符數是3到5之間。這樣就可以將banana拆分為ban、ana、nan、bana、anan、nana、banan、anana。這樣,香蕉(banana)的詞嵌入就是這些子詞的嵌入之和。

fastText的訓練目標是對標籤進行分類。模型輸入是n-gram特徵(即x1,x2, ......, xN)。這些特徵將在隱藏層中被平均化最後送入輸出層。

fastText的架構 (Joulin et al., 2016)

錯字遺忘(詞)嵌入 (MOE)

MOE通過引入拼寫校正損失進一步擴展了fastText。引入拼寫校正損失的目的是將錯誤拼寫的詞嵌入映射到其接近的正確拼寫的詞嵌入上。拼寫校正損失函數是一個典型的logistic函數, 它是正確詞子字輸入向量和與錯誤詞的子字輸入向量和的點積。

下面展示了bird(正確單詞)和bwrd(拼寫錯誤的單詞)的詞嵌入是非常接近的。

MOE(facebook)的表示方法

Take Away

子詞是處理拼寫錯誤和未登錄詞的有力方法。MOE使用字符n-gram來建立子字詞典,而其他的先進NLP模型(如BERT,GPT-2)則使用統計方式(如WordPiece,Byte Pair Encoding)來建立子詞典。

在許多NLP系統中,能夠處理未登錄詞是一個關鍵的優勢。比如聊天機器人每當拼寫錯誤或新詞時,都必須為之處理大量的新OOV詞。

雷鋒字幕組是由AI愛好者組成的志願者翻譯團隊;團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

了解字幕組請聯繫微信:tlacttlact

轉載請聯繫字幕組微信並註明出處:雷鋒字幕組

雷鋒網雷鋒網

相關焦點

  • 指路牌上英文 拼寫錯誤頻現
    內容提要:昨日熱心市民劉先生撥打本報熱線反映,河東區成林道與順達路交口附近、河西區大沽南路由北向南方向鄰近珠江道口等地的指路牌上英文翻譯出現拼寫錯誤,希望相關部門及時修改。天津北方網訊:昨日熱心市民劉先生撥打本報熱線反映,河東區成林道與順達路交口附近、河西區大沽南路由北向南方向鄰近珠江道口等地的指路牌上英文翻譯出現拼寫錯誤,希望相關部門及時修改。昨天下午記者來到成林道與順達路交口,在交口東側的成林道北側路邊,發現「東興橋」三個字下的英文單詞「Bridge」被誤拼寫成了「Brdige」。
  • 詞向量的訓練
    文本表示的方法基於one-hot、tf-idf 的bag-of-words;主題模型:LSA(SVD)、pLSA、LDA;基於詞向量的固定表徵:word2vec、fastText、glove基於詞向量的動態表徵:elmo、GPT、bert各種詞向量的特點詞向量的訓練
  • AEAS考試必知:AEAS詞彙拼寫中的典型錯誤
    英語是屬於表音文字,英語詞彙的拼寫是服務於其發音的,26個字母之間的構成了幾十個不同的英語發音。相同的字母或字母組合在單詞中的發音相對穩定,如「s」在「sky」和「case」中的「s」發音均相同,發音為[s]。
  • 北京雍和宮大街公廁指示牌拼寫錯誤已更正
    今年11月8日,有市民曾反映,雍和宮大街上多處公廁指示牌上的英文出現錯誤。昨天下午,記者再次來到雍和宮大街,發現當時存在拼寫錯誤的指示牌均已修正。經核實共有6處衛生間標識牌存在英文拼寫錯誤,1處路標漢語拼寫錯誤。東城區百街千巷辦公室要求施工單位當場進行拆除,截止到當日晚8時拼寫正確的標識牌已全部更換完成。(原標題:指示牌拼寫錯誤已更正)來源 北京晚報 記者 曲經緯 實習記者 張雪流程編輯 TF003
  • 關於詞向量工作原理的理解
    在知乎網站上看到一個關於詞向量的問題:詞向量(Distributed Representation)工作原理是什麼,哪位大咖能否舉個通俗的例子說明一下
  • 基於典型相關分析的詞向量
    但這篇文章不深入講 word2vec 的內容,而是看看另外一種詞向量生成方式——基於典型相關分析的詞向量。one-hot形式的詞向量說到詞向量就必須先看詞向量的形式,一般有兩類,分別是 one-hot 形式和分布式形式。
  • 故宮保和殿英文標識牌拼寫錯誤被網友指出
    網友通過微博指出「謹身殿」的拼寫錯誤。網絡截圖新京報訊 (記者陳瑤)前日有網友在微博上稱,故宮(微博)保和殿英文標識牌存在錯誤,將保和殿舊稱「謹身殿」翻譯為「Jin Sheng Dian」,而正確的拼寫應為「Jin Shen Dian」。故宮博物院昨日下午就此回應稱,該處標識牌的文字確實有誤,已採取措施糾正。
  • 拼寫錯誤張冠李戴 交通標誌英文很尷尬
    中津網訊:近日有市民反映稱,本市一些道路的城市道路交通指引標誌上存在英文翻譯拼寫錯誤。隨後,記者將上述路牌上的錯誤反映給了市交管局設施處。工作人員表示會聯繫這些標誌牌的製作單位,對有英文翻譯、拼寫錯誤的路牌進行更正。
  • 猩際PTE|WFD拼寫錯誤會不會影響拼寫和詞彙分?PTE官方答覆來了
    ASQ:不踩到錯誤答案的情況下,踩到了正確答案是可以得分的。什麼叫錯誤答案?通常和正確答案同一類的詞會被設定為錯詞。舉個慄子,比如這一題:What organ do cardiologists specialize in?
  • 英語兒歌 Eeny Meeny Miny Moe
    今天分享的是一首經典兒歌《Eeny Meeny Miny Moe》,歌詞非常押韻,每句的押韻音都落在/əʊ/上,如moe、toe、
  • 【每日法語小知識】常見的10個拼寫錯誤
    法語學習中拼寫錯誤是難以避免的,小編為大家整理了法語學習常見的10個拼寫錯誤,反映了大部分法語學習者常見的拼寫錯誤類別,希望引起大家注意。
  • 文明6的代碼拼寫錯誤或是導致AI沉迷宗教的緣由
    雖然這聽起來好像是個不應該出現的低級錯誤,但事實的確如此:《席德·梅爾的文明6》中之所以AI領袖們如此瘋狂和不正常的舉動,居然是因為遊戲數據中一行代碼的拼寫錯誤。然而事實就是如此,而且在經過這麼多版本之後Firaxis居然在玩家發現之前都沒有注意到這個問題。
  • 樂山一些公共場所發現英語翻譯和拼寫錯誤
    但一些細心的市民卻從中發現了部分錯誤的翻譯。市民覺得這些令人遺憾的錯誤翻譯不僅影響城市形象,也容易給市民以及外國友人造成誤導。    公交車語音翻譯:「隨身物品」變「乘客」    市民朱女士向本報熱線反映,前幾天她在乘坐13路公交車時,發現車上的語音提示的英文翻譯有一處錯誤。
  • 故宮「御花園」路牌竟出現英文單詞拼寫錯誤圖
    本報昨天收到華中農業大學在校學生楊瑞的來信,信中說今年清明假期,他來北京旅遊時發現,故宮博物院坤寧宮東西兩側廊柱上的英文指路牌竟然出現了拼寫錯誤。記者當即聯繫了故宮有關工作人員,目前這兩塊臨時性錯誤標牌已經撤下。
  • 英文簡歷中最常見的8個拼寫錯誤
    一個單詞拼寫錯誤可能不是什麼大問題,但它可以讓一份看起來很有競爭力的簡歷變得馬馬虎虎。2014年,獵頭公司Accountemps對300名高級經理進行了一項調查,結果發現63%的招聘者會將簡歷中有1-2個錯別字的候選人拒之門外。
  • 武昌站內指示牌多處英文拼寫錯誤 未經驗收即上崗
    武昌站內指示牌多處英文拼寫錯誤 未經驗收即上崗   宏基客運站通往武昌火車站的通道裡,一個指示牌出現多處英文拼寫錯誤。見習記者 胡琴沁 攝  「計程車候車區怎麼翻譯成『Taxl Sland』?這給外國乘客帶來多大麻煩啊。」
  • 10組英語達人也會拼寫錯誤的短語
    看圖記單詞-清潔類工具OK,今天大劉給大家分享的是10組你可能會拼寫錯誤的英語短語,通過對比介紹,讓你能夠直觀體會到哪些是正確,哪些是錯誤的。注意不要將其拼寫為home例句He's always trying to hone in on my business. 他經常給我的生意找麻煩。
  • 2020中考英語複習:容易拼寫錯誤的單詞
    中考網整理了關於2020中考英語複習:容易拼寫錯誤的單詞,希望對同學們有所幫助,僅供參考。   一、一個星期七天   1. Monday 2. Tuesday 3. Wednesday   4. Thursday 5. Friday 6. Saturday 7.
  • 導遊證印刷英文拼寫錯誤 省旅遊局:正協調此事
    近日,不少南京導遊的朋友圈中一片驚呼聲,他們稱剛到手的導遊資格證書,卻發現「中華人民共和國」的英文書寫出現錯誤,有外地旅遊主管部門已經發文,準備回收印刷錯誤的導遊證。對此江蘇省旅遊局方面證實,確有其事,目前正在協調此事。
  • 谷歌搜索算法更新,將採用新的AI技術識別錯誤拼寫
    其中最主要的是:谷歌承諾提供一個新的拼寫檢查工具將幫助識別拼寫最糟糕的查詢。谷歌的搜索主管Prabhakar Raghavan表示,每天有15%的搜索查詢中有是谷歌從未見過的,這意味著公司必須不斷改進搜索結果。部分原因是查詢拼寫錯誤。根據谷歌的工程副總裁Cathy Edwards的說法,在谷歌上每 10 個搜索查詢中就有 1 個拼寫錯誤。