自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

2021-01-21 機器之心Pro

選自Github

作者:Sebastian Ruder

機器之心編譯

參與:思源、曉坤

自然語言處理有非常多的子領域,且很多都沒有達到令人滿意的性能。本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。

項目地址:https://github.com/sebastianruder/NLP-progress參考博客:http://ruder.io/tracking-progress-nlp/

目錄(任務和對應數據集)

1.CCG 超級標記

CCGBank

2.分塊

Penn Treebank

3.選區解析

Penn Treebank

4.指代消歧

CoNLL 2012

5.依存解析

Penn Treebank

6.對話

第二對話狀態追蹤挑戰賽

7.域適應

多領域情感數據集

8.語言建模

Penn TreebankWikiText-2

9.機器翻譯

WMT 2014 EN-DEWMT 2014 EN-FR

10.多任務學習

GLUE

11.命名實體識別

CoNLL2003

12.自然語言推理

SNLIMultiNLISciTail

13.詞性標註

UDWSJ

14.閱讀理解

ARCCNN/Daily MailQAngarooRACESQuADStory Cloze TestWinograd Schema Challenge

15.語義文本相似性

SentEvalQuora Question Pairs

16.情感分析

IMDbSentihoodSSTYelp

17.情感解析

WikiSQL

18.語義作用標記

OntoNotes

19.自動摘要

CNN/Daily Mail

20.文本分類

AG NewsDBpediaTREC

CCG 超級標記

組合範疇語法(CCG; Steedman, 2000)是一種高度詞彙化的形式主義。Clark 和 Curran 2007 年提出的標準解析模型使用了超過 400 個詞彙語類(或超級標記(supertag)),典型的解析器通常只包含大約 50 個詞性標註。

示例:

CCGBank

CCGBank 是 CCG 衍生物的語料庫,以及從 Hockenmaier 和 Steedman 2007 年提出的 Penn Treebank 中提取的依存結構。第 2-21 部分用於訓練,第 00 部分用於開發,第 23 部分用作域內測試集。其性能僅在 425 個最常用的標籤上計算。模型基於準確率來評估。

分塊

分塊(chunking)是解析的淺層形式,可以識別構成合成單元(例如名詞詞組或動詞詞組)的標記的連續跨度。

示例:

Penn Treebank-分塊

Penn Treebank 通常用於評估分塊。第 15-18 部分用於訓練,第 19 部分用於開發,第 20 部分用於測試。模型基於 F1 評估。

選區解析

選區解析(constituency parsing)的目的是從根據詞組結構語法來表徵其合成結構的句子中提取基於選區的解析樹。

示例:

近期發展出來的方法(《Grammar as a Foreign Language》)將解析樹轉換為按深度優先遍歷的序列,從而能應用序列到序列模型到該解析樹上。以上解析樹的線性化版本表示為:(S (N) (VP V N))。

Penn Treebank-選區解析

Penn Treebank 的「Wall Street Journal」部分用於評估選區解析器。第 22 部分用於開發,第 23 部分用於評估。模型基於 F1 評估。以下大多數模型整合了外部數據或特徵。要對比僅在 WSJ 上訓練的單個模型,參見《Constituency Parsing with a Self-Attentive Encoder》。

指代消歧

指代消歧(coreference resolution)是聚類文本中的涉及相同潛在真實世界實體的提述的任務。

示例:

「I」、「my」和「she」屬於相同的聚類,「Obama」和「he」屬於相同的聚類。

CoNLL 2012

實驗是構建在《CoNLL-2012 shared task》的數據集之上的,其使用了 OntoNotes 的共指標註。論文使用官方 CoNLL-2012 評估腳本報告了精度、召回率和 MUC 的 F1、B3 以及 CEAFφ4 指標。主要的評估指標是三個指標的平均 F1。

依存解析

依存解析(dependency parsing)是從表徵其語法結構中提取的依存解析,並定義標頭詞和詞之間的關係,來修改那些標頭詞。

示例:

詞之間的關係在句子之上用定向、標記的弧線(從標頭詞到依存)展示,+表示依存。

Penn Treebank-依存解析

模型在《Stanford typed dependencies manual》中提出的 Penn Treebank 的 Stanford Dependency 變換和預測詞類標記上進行評估。評估指標是未標記依附分數(unlabeled attachment score,UAS)和標記依附分數(LAS)。

對話

眾所周知,對話任務是很難評估的。以前的方法曾經使用了人類評估。

第二對話狀態追蹤挑戰賽

對於目標導向的對話,第二對話狀態追蹤挑戰賽(Second dialog state tracking challenge,DSTSC2)的數據集是一個常用的評估數據集。對話狀態追蹤涉及確定在對話的每個回合用戶在當前對話點的目標的完整表徵,其包含了一個目標約束、一系列請求機會(requested slot)和用戶的對話行為。DSTC2 聚焦於餐廳搜索領域。模型基於單獨的和聯合的機會追蹤的準確率進行評估。

領域自適應

多領域情感數據集

多領域情感數據集(Multi-Domain Sentiment Dataset)是情感分析的領域自適應常用評估數據集。它包含了來自亞馬遜的不同產品類別(當成不同領域)的產品評價。這些評價包括星級評定(1 到 5 顆星),通常被轉換為二值標籤。模型通常在一個和訓練時的源域不同的目標域上評估,其僅能訪問目標域的未標記樣本(無監督域適應)。評估標準是準確率和對每個域取平均的分值。

語言建模

語言建模是預測文本中下一個詞的任務。*表示模型使用了動態評估。

Penn Treebank-語言建模

語言建模的常用評估數據集是 Penn Treebank,已經過 Mikolov 等人的預處理(《Recurrent neural network based language model》)。該數據集由 929k 個訓練單詞、73k 個驗證單詞和 82k 個測試單詞構成。作為預處理的一部分,單詞使用小寫格式,數字替換成 N,換行符用空格表示,並且所有其它標點都被刪除。其詞彙是最頻繁使用的 10k 個單詞,並且剩餘的標記用一個標記替代。模型基於困惑度評估,即平均每個單詞的對數概率(per-word log-probability),越低越好。

WikiText-2

WikiText-2(《Pointer Sentinel Mixture Models》)相比於 Penn Treebank,其在語言建模中是更接近實際的基準。WikiText-2 由大約兩百萬個從維基百科文章中提取的單詞構成。

機器翻譯

機器翻譯是將句子從源語言轉換為不同的目標語言的任務。帶*的結果表示基於 21 個連續評估的平均驗證集 BLEU 分數的平均測試分數,正如 Chen 等人的論文《The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation》所報告的。

WMT 2014 EN-DE

模型在第九屆統計機器翻譯研討會(VMT2014)的 English-German 數據集上進行評估(根據 BLEU 分數)。

WMT 2014 EN-FR

類似的,在第九屆統計機器翻譯研討會(VMT2014)的 English-French 數據集上進行評估(根據 BLEU 分數)。

多任務學習

多任務學習的目標是同時學習多個不同的任務,並最大化其中一個或全部任務的性能。

GLUE

通用語言理解評估基準(GLUE)是用於評估和分析多種已有自然語言理解任務的模型性能的工具。模型基於在所有任務的平均準確率進行評估。

當前最佳結果可以在公開 GLUE 排行榜上查看:https://gluebenchmark.com/leaderboard。

命名實體識別

命名實體識別(NER)是在文本中以對應類型標記實體的任務。常用的方法使用 BIO 記號,區分實體的起始(begining,B)和內部(inside,I)。O 被用於非實體標記。

示例:

CoNLL 2003

CoNLL 2003 任務包含來自 Reuters RCV1 語料庫的新聞通訊文本,以 4 種不同的實體類型進行標註(PER、LOC、ORG、MISC)。模型基於(基於跨度的)F1 評估。

自然語言推理

自然語言推理是給定一個「前提」,確定一個「假設」為真(蘊涵)、假(矛盾)或者不確定(中性)的任務。

示例:

SNLI

斯坦福自然語言推理(SNLI)語料庫包含大約 550k 個假設/前提對。模型基於準確率評估。

可以在 SNLI 的網站上查看當前最佳結果:https://nlp.stanford.edu/projects/snli/

MultiNLI

多語型自然語言推理(MultiNLI)語料庫包含大約 433k 個假設/前提對。它和 SNLI 語料庫相似,但覆蓋了多種口頭和書面文本的語型(genre),並支持跨語型的評估。數據可以從 MultiNLI 網站上下載:https://www.nyu.edu/projects/bowman/multinli/

語型內(匹配)和跨語型(不匹配)評估的公開排行榜可查看(但這些條目沒有對應已發表的論文):

https://www.kaggle.com/c/multinli-matched-open-evaluation/leaderboardhttps://www.kaggle.com/c/multinli-mismatched-open-evaluation/leaderboard

SciTail

SciTail(《SCITAIL: A Textual Entailment Dataset from Science Question Answering》)導出數據集包含 27k 個條目。和 SNLI、MultiNLI 不同,它不是眾包數據集,但是從已有的句子中創建的,假設是從科學問題和對應答案候選中創建的,同時相關網站的來自大型語料庫的句子被用作前提。模型基於準確率評估。

詞性標註

詞性標註(POS tagging)是一種標註單詞在文本中所屬成分的任務。詞性表示單詞所屬的類別,相同的類別一般有相似的語法屬性。一般英語的詞性標註主要有名詞、動詞、形容詞、副詞、代詞、介詞和連詞等。

示例:

UD

Universal Dependencies(UD)是一個跨語言語法標註的框架,它包含超過 60 多種語言的 100 多個 treebanks。模型一般通過 28 種語言中的平均測試準確率進行評估。

Penn Treebank—POS tagging

用於詞性標註的標準數據集是華爾街日報(WSJ)分配的 Penn Treebank,它包含 45 個不同的詞性標籤。其中 0-18 用於訓練、19-21 用於驗證其它 22-24 用於測試。模型一般都通過準確率進行評估。

閱讀理解/問答任務

問答是一種自動回答問題的任務。大多數當前的數據集都將該任務是為閱讀理解,其中問題是段落或文本,而回答通常是文檔之間的跨度。UCL 的機器閱讀研究組還介紹了閱讀理解任務的概覽:https://uclmr.github.io/ai4exams/data.html。

ARC

AI2 Reasoning Challenge(ARC)是一個問答數據集,其中它包含了 7787 個真實的小學水平多項選擇科學問題。數據集分割為了困難集與簡單集,困難集只包含那些基於詞檢索算法和詞共現算法所無法正確回答的問題。模型同樣通過準確率評估。

ARC 公開排行榜:http://data.allenai.org/arc/

示例:

QAngaroo

QAngaroo 是兩個閱讀理解數據集,它們需要結合多個文檔的多個推斷步驟。第一個數據集 WikiHop 是一個開放領域,且專注於維基文章的數據集,第二個數據集 MedHop 是一個基於 PubMed 論文摘要的數據集。

該數據集的排行榜可參見:http://qangaroo.cs.ucl.ac.uk/leaderboard.html

RACE

RACE 數據集是一個從中國初中和高中英語測試收集的閱讀理解數據集。該數據集包含 28000 多篇短文和近 100000 條問題。模型可基於中學測試(RACE-m)、高中測試(RACE-h)和完整數據集(RACE)使用準確率進行評估。

數據集下載地址:http://www.cs.cmu.edu/~glai1/data/race/

SQuAD

斯坦福問答數據集(SQuAD)是一個閱讀理解數據集,它包含由眾包基於維基文章提出的問題。回答為對應閱讀短文的文本片段。最近 SQuAD 2.0 已經發布了,它引入了與 SQuAD 1.1 中可回答問題類似的不可回答問題,難度高於 SQuAD 1.1。此外,SQuAD 2.0 還獲得了 ACL 2018 最佳短論文。

Story Cloze Test

Story Cloze Test 是一個用於故事理解的數據集,它提供了 four-sentence 形式的故事和兩個可能的結局,系統將嘗試選擇正確的故事結局。

Winograd Schema 挑戰賽

Winograd Schema Challenge 是一個用於常識推理的數據集。它使用 Winograd Schema 問題以要求人稱指代消歧:系統必須明確陳述中有歧義指代的先行詞。模型同樣基於準確率評估。

示例:

語義文本相似性

語義文本相似性在於推斷兩段文本之間的距離,例如我們可以分配 1 到 5 來表示文本有多麼相似。對應任務有釋義轉換和重複識別。

SentEval

SentEval 是一個用於評估句子表徵的工具包,它包含 17 個下遊任務,包括一般的語義文本相似性任務。語義文本相似性(STS)從 2012 到 2016(STS12、STS13、STS14、STS15、STS16、STSB)的基準任務基於兩個表徵之間的餘弦相似性度量了兩句子之間的相關性。評估標準一般是皮爾森相關性。

SICK 相關性(SICK-R)任務訓練一個線性模型以輸出 1 到 5 的分數,並指代兩句子之間的相關性。相同數據集(SICK-E)能視為使用蘊含標籤的二元分類問題。SICK-R 的度量標準也是皮爾森相關性,SICK-E 可以通過文本分類準確度度量。

Microsoft Research Paraphrase Corpus(MRPC)語料庫是釋義識別的數據集,其中系統旨在識別兩個語句是否相互為釋義句。評估標準為分類準確度和 F1 分數。

Quora Question Pairs

Quora Question Pairs 數據集由 400000 對 Quora 問答組成,系統需要識別一個問題是不是其它問題的副本。模型也是通過準確率度量。

情感分析

情感分析是在給定文本下識別積極或消極情感的任務。

IMDb

IMDb 是一個包含 50000 條評論的二元情感分析數據集,評論都來自與網際網路電影資料庫(IMDb),且標註為積極或消極兩類。模型同樣通過準確率進行評估。

Sentihood

Sentihood 是一個用於針對基於方面的情感分析(TANSA)數據集,它旨在根據具體的方面識別細粒度的情感。數據集包含 5215 個句子,其中 3862 個包含單個目標,其它有多個目標。該任務使用 F1 分數評估檢測的方面,而使用準確率評估情感分析。

SST

Stanford Sentiment Treebank 包含 215154 條短語,且 11855 條電影評論語句都以解析樹的方式有細粒度的情感標註。模型根據準確率評估細粒度和二元分類效果。

細粒度分類:

二元分類:

Yelp

Yelp 評論數據集包含超過 500000 條 Yelp 評論。它們同時有二元和細粒度(5 個類別)級別的數據集,模型通過誤差率(1 - 準確率,越低越好)評估。

細粒度分類:

二元分類:

情感解析

情感解析是一種將自然語言轉化為正式語義表徵的任務。正式表徵可能是 SQL 等可執行的語言,或更抽象的 Abstract Meaning Representation(AMR)表徵等。

WikiSQL

WikiSQL 數據集包含 87673 個問題樣本、SQL 查詢語句和由 26521 張表中建立的資料庫表。該數據集提供了訓練、開發和測試集,因此每一張表只分割一次。模型基於執行結果匹配的準確率進行度量。

示例:

語義功能標註

語義功能標註旨在建模語句的述詞論元結構,它經常描述為回答「Who did what to whom」。BIO 符號經常用於語義功能標註。

示例:

OntoNotes—語義功能標註

模型通常通過基於 F1 的 OntoNotes 基準進行評估(《Towards Robust Linguistic Analysis Using OntoNotes》)。

自動摘要

自動摘要是一種總結原文本語義為短文本的任務。

CNN/日常郵件摘要

CNN / Daily Mail 數據集是由 Nallapati et al. (2016) 處理並發布,它已經用於評估自動摘要。該數據集包含帶有多句摘要(平均 3.75 個句子或 56 個詞)的再現新聞文章(平均 781 個詞)。經處理的版本包含 287226 個訓練對、13368 個驗證對和 11490 個測試對。模型基於 ROUGE-1、ROUGE-2 和 ROUGE-L 進行評估,* 表示模型在匿名數據集上進行訓練與評估。

文本分類

文本分類是將句子或文本分配合適類別的任務。類別取決於選擇的數據集,可以有不同的主題。

AG News

AG News 語料庫包含來自「AG's corpus of news articles」的新文章,在 4 個最大的類別上預訓練。該數據集包含每個類別的 30000 個訓練樣本,以及每個類別的 1900 個測試樣本。模型基於誤差率評估。

DBpedia

DBpedia ontology 數據集包含 14 個非重疊類別的每一個的 40000 個訓練樣本和 5000 個測試樣本。模型基於誤差率評估。

TREC

TREC(《The TREC-8 Question Answering Track Evaluation》)是用於問題分類的數據集,包含開放域、基於事實的問題,並被分成廣泛的語義類別。它有六類別(TREC-6)和五類別(TREC-50)兩個版本。它們都有 4300 個訓練樣本,但 TREC-50 有更精細的標籤。模型基於準確率評估。

TREC-6:

TREC-50:

相關焦點

  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。在它的幫助下,我們從文本中提煉出適用於計算機算法的信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?
  • 資源| MIT自然語言處理數據集和語料庫集合
    原標題:資源 | MIT自然語言處理數據集和語料庫集合 選自Github 作者:Karthik Narasimhan等 >機器之心編譯 參與:李澤南 最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的數據集/語料庫列表,以時間順序排列。
  • 國內自然語言處理(NLP)研究組
    Lab)ByteDance AI Lablab.toutiao.com中科院計算所自然語言處理研究組歡迎來到中科院計算所自然語言處理組網站nlp.ict.ac.cn中科院自動化研究所語音語言技術研究組中文信息處理組nlpr-web.ia.ac.cn中國科學院軟體研究所中文信息處理實驗室中科院軟體所中文信息處理實驗室www.icip.org.cn
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • 一文縱覽自然語言生成的發展
    人們需要理解大量有歧義且結構多變的語言並從中獲取意義,這促使自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generation, NLG)成為人工智慧中發展最快的應用。Gartner預測,「到2019年,自然語言生成將是90%的現代BI和分析平臺的標準特徵」。
  • 自然語言處理 NLP 發展簡史
    於是在 1966 年,美國國家研究委員會(NRC)和自動語言處理諮詢委員會(ALPAC)停止了對自然語言處理和機器翻譯相關項目的資金支持, AI 和 NLP 的發展因此陷入停滯。此時,許多學者認為人工智慧和自然語言處理的研究進入了死胡同。人類早期結合語言學與統計學對 AI/NLP 的初步探索以失敗告終。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    詞向量的引入開啟了深度學習應用於自然語言處理的時代。相比於靜態詞向量,動態詞向量可以根據上下文,更好地處理一詞多義現象,大幅提高自然語言處理多個任務的準確率。車萬翔介紹了研究組基於動態詞向量開展的相關工作,包括跨語言動態詞向量[1]、few-shot learning、輕量級動態詞向量模型等。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。第二部分描述的是基於深度學習的 NLP,該論文首先描述了深度學習中的詞表徵,即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等,我們首先需要數字表徵詞彙才能進一步做自然語言處理。
  • NLP 與 NLU:從語言理解到語言處理
    同理,在自然語言處理領域中,自然語言處理(NLP)的概念是否會讓位於自然語言理解(NLU)? 或者兩個概念之間的關係是否變得更微妙,更複雜,抑或只是技術的發展?在這篇文章中,我們將仔細研究NLP和NLU的概念以及它們在AI相關技術中的優勢。值得注意的是,NLP和NLU儘管有時可以互相交換使用,但它們實際上是兩個有一些重疊的不同概念。
  • BERT模型:自然語言處理最新裡程碑完整詳解!
    與BERT模型相似的預訓練語言模型例如問答、命名實體識別、自然語言推理、文本分類等在許多自然語言處理任務中發揮著重要作用。BERT是一種基於微調的多層雙向變換器編碼器。首先介紹下該變換器的架構,這一點尤為重要。什麼是變換器(Transformer)?
  • 自然語言處理(NLP)中的深度學習發展史和待解難題
    王小新 編譯自 sigmoidal量子位 出品 | 公眾號 QbitAI自然語言處理(NLP)是指機器理解並解釋人類寫作與說話方式的能力。近年來,深度學習技術在自然語言處理方面的研究和應用也取得了顯著的成果。技術博客Sigmoidal最近發布了一篇文章,作者是機器學習工程師Rafal。
  • 一文讀懂Smartbi的自然語言處理(NLP)技術
    由於自然語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智慧的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。 從技術角度看,NLP包括序列標註、分類任務、句子關係判斷和生成式任務等。
  • 人工智慧難點之——自然語言處理(NLP)
    (人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。NLP的應用無處不在,因為人們用語言進行大部分溝通:網絡搜索,廣告,電子郵件,客戶服務,語言翻譯,發布學報告等等。
  • 自然語言處理的最佳實踐
    雷鋒網 AI 開發者按,近年來,自然語言處理(NLP)在質量和可用性方面快速增長,這有助於推動人工智慧解決方案的實際落地。在過去的幾年裡,研究人員一直在將新的深度學習方法應用於 NLP。數據科學家開始從傳統的方法轉向最先進的(SOTA)深度神經網絡(DNN)算法,這種算法使用的語言模型經過了大文本語料庫的預訓練。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    v=nfoudtpBV68&list=PL6397E4B26D00A269 •  斯坦福CS224d:自然語言處理的深度學習[更高級的機器學習算法、深度學習和NLP的神經網絡架構]http://cs224d.stanford.edu/syllabus.html •  Coursera:自然語言處理簡介[由密西根大學提供的NLP
  • 2019自然語言處理前沿論壇:聚焦機器「讀、寫、說、譯」,探尋NLP...
    自然語言處理技術不僅僅需要算法、算力和數據,同時也需要不斷地凝練知識,需要語言處理跟我們認識世界、改造世界的過程相結合,所以仍然有很多創新突破的空間。」他希望通過本次論壇,青年學者們能夠增進交流,碰撞新的火花,一起推動自然語言處理的發展及產業化的進程,在人工智慧時代幫助我們的生活變得更加美好。
  • 如何「錨定」NLP模型中的語言智慧?丨長文評析語言探針
    【新智元導讀】本文由兩位數據科學家 ——Keyur Faldu 和 Amit Sheth 所撰寫,詳細闡述了現代自然語言處理的興起以及可解釋性的必要,並結合對當前技術狀況的調查,以更好地回答由 NLP 模型所引發的語言智慧相關的一些開放性問題。
  • 復旦大學黃萱菁:自然語言處理中的表示學習
    自然語言處理中的表示學習首先,黃萱菁教授介紹了語言表示學習的內容。語言表示學習是一個非常主觀性的概念,可以從很多角度給一個定義。從認知科學角度,語言表示是語言在人腦中的表現形式,關係到人們如何理解和產生語言;從人工智慧角度,語言表示是語言的形式化或者數學描述,以便在計算機中表示語言,並且能夠讓電腦程式進行自動處理。
  • 今日Paper | 梯度剪切;命名實體識別;自然語言處理;免強度函數學習...
    from=leiphonecolumn_paperreview0212推薦原因核心問題:本文是完成是nlp領域中經典的命名識別識別的問題,本論文可以說是承上啟下的作用,它的做法改變了之前的做法,並且之後的很多任務都是使用這樣的基本結構。