NLP 領域還有 5 大開放問題

2020-12-13 雷鋒網

雷鋒網 AI 科技評論按:如題,雖然 NLP 研究領域已經在深度學習的幫助下取得了長足的發展,許多技術也已經商業化落地,但我們也需要知道,這個領域還有幾個開放性問題等待解決 —— 如果它們也能比較好地解決,也許我們能迎來 NLP 科研成果與商業落地的一個新的高潮。

下面列舉的 5 個開放性問題來自自學 NLP 的機電一體化本科生 Deepak Garasangi 在 Reddit 上的發帖討論內容總結,並且參考了 Sebastian Ruder 曾經總結的 4 個開放性問題。按重要性從輕到重排序:

5. 評價指標

這個問題在領域內不算很大的瓶頸,但是經常有研究人員覺得有必要重新討論這個問題,因為現行慣例裡往往不問原因就沿用某些固定的架構、數據集和評價指標。有人這樣總結:「隨著我們探索越來越高級的認知任務,弄明白為什麼某些方法、某些架構在某些時候能起到好的效果,這對我們非常有幫助。」

另外一種擔憂是對於評價指標自身的,這些評價技巧、這些生成的數字到底能在多大程度上對應人類語言的多樣性和表達能力?對這個問題的回答也可以幫助我們構建出更有趣的自然語言推理數據集。

拓展閱讀:EMNLP 2017 論文《Why We Need New Evaluation Metrics for NLG》(https://www.aclweb.org/anthology/D17-1238)

4. 終生學習(Life long learning)

NLP 領域遇到的另一個棘手問題是為這幾個問題設計解決方案:

低階模型用於下遊任務時的終生適配遷移學習的應用視覺、文本、音頻等等語言相關模態的無縫整合低資源情境中高效的跨任務遷移拓展閱讀:Sebastian Ruder 近期寫了一篇文章,總結了 NLP 領域遷移學習的現狀,雷鋒網 AI 科技評論也做了編輯,可以點擊閱讀

3. 面向目標的對話系統(Goal oriented dialogue systems)

從 ACL 學會出版的論文集來看,近一兩年的 ACL 會議、EMNLP 會議中研究面向目標的對話系統的論文都有大幅增加。這就是又一個開放性問題:如何設計具備常識、能在真實世界語境中與人類進行較長的、面向目標的交談的機器對話系統。目前的研究思路包括:帶有狀態追蹤的任務驅動的對話系統,使用強化學習的對話系統,以及很多別的新點子。

拓展閱讀:在 NLP 中應用強化學習 https://www.csie.ntu.edu.tw/~yvchen/doc/KAIST19_Tutorial.pdf

2. 低資源語言

這可以算是最緊迫的問題。目前全世界大約有 7000 種語言,但這些語言中只有很小的一部分,大概 20 種左右,可以算是資源豐富的語言。這個問題除了很實際之外,在其中找到靈感、取得進展也相對比較容易。專家們認為可行的方向包括:

為低資源語言設計收集數據、用較小數據訓練語言模型的方法可以有效用於低資源語言的跨任務遷移方法拓展閱讀:詳細的說明文章參見 http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf

1. 自然語言理解

沒錯,這就是那個最開放的問題,它和 NLP 領域中的許多具體問題也都息息相關。想要解決這個高階的認知問題,可能需要我們從強化學習、領域適應、小樣本/零樣本學習等等領域中借鑑很多思想和方法,也還需要 NLP 研究人員們做出更多創新。

現階段的研究落腳點包括:

共指消歧(Coreference resolution)、多義詞解析(Polysemy)、文本/文檔總結(Text/Document Summarization)論證與推理,諷刺與幽默高效地表徵大文本環境中的語言學習(Grounded language learning),比如聯合學習一個世界模型和語言模型,並且學習如何在語言模型中使用世界模型。

Yoshua Bengio 曾說:「要有野心。不要(因為做 NLP 就)僅僅讀 NLP 論文。要讀很多機器學習、深度學習、強化學習的論文。」我們也希望各位研究者們可以打開眼界,多多參考以前和現在的包括別的領域的有用經驗,才能解決更難的問題、做出更大的成果。

via deeps.site/blog/2019/09/09/nlp-problems/,雷鋒網 AI 科技評論編譯

相關焦點

  • nlp領域發生了新的技術突破,用attention機制研究nlp領域
    近期,nlp領域發生了一系列的技術突破。包括:attention機制,cnn,adaptive attention network(an),兩層cnn相比較,an表現優於一層的cn。今天我們將從這兩種attention機制開始研究nlp領域突破性技術!
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    本論文展示了一個全新的能實現開放詞彙神經機器翻譯(open vocabulary NMT)的詞-字符解決方法。我們建立了一個混合的系統,能夠實現大部分的詞級(word level)翻譯,並可查閱罕見詞的字母組成。我們字符級的循環神經網絡能計算源詞的表徵,並能在需要時恢復未知的目標詞。
  • NLP領域最優秀的8個預訓練模型(附開源地址)
    在本文中,我將介紹一些頂級的預訓練模型,你可以用它們來開始你的自然語言處理之旅,並複製該領域的最新研究成果。如今,自然語言處理(Natural Language Processing,NLP)應用已經變得無處不在。我似乎總是不經意間發現一些網站和應用程式,以這樣的或那樣的形式利用了自然語言處理技術。簡而言之,現在就是涉足自然語言處理領域的絕佳時機。
  • 史丹福大學 NLP 組開放神經機器翻譯代碼庫
    參與成員:Christopher D.本論文展示了一個全新的能實現開放詞彙神經機器翻譯(open vocabulary NMT)的詞-字符解決方法。我們建立了一個混合的系統,能夠實現大部分的詞級(word level)翻譯,並可查閱罕見詞的字母組成。我們字符級的循環神經網絡能計算源詞的表徵,並能在需要時恢復未知的目標詞。
  • Awesome-Chinese-NLP:中文自然語言處理相關資料
    Chatbot (Python) 基於向量匹配的情境式聊天機器人Tipask (PHP) 一款開放源碼的PHP問答系統,基於Laravel框架開發,容易擴展,具有強大的負載能力和穩定性。QuestionAnsweringSystem (Java) 一個Java實現的人機問答系統,能夠自動分析問題並給出候選答案。
  • Python NLP中的五大英雄
    為什麼只有5個包?我們寫的每一個指導與思想的實踐者,實際上有幾十個的NLP包…但一旦你掌握了其中的一些基礎,你就可以覆蓋所有重要的基地。這是一個固執己見的嚮導,它展示了我們發現最有用的5個Python NLP庫。我需要學習下面的每一個包嗎?不,這要看你的使用情況而定。這是一個摘要:我們建議NLTK僅作為一個教育和研究工具。
  • 乾貨 | NLP、知識圖譜教程、書籍、網站、工具...(附資源連結)
    該網頁下方還有美國其他高校的NLP課程的連結。http://demo.clab.cs.cmu.edu/NLP/北京大學的NLP教程,特色:中文處理。缺點:傳統方法居多,深度學習未涉及。http://ccl.pku.edu.cn/alcourse/nlp/COMS W4705: Natural Language Processinghttp://www.cs.columbia.edu/~cs4705/初學者如何查閱自然語言處理(NLP)領域學術資料https://mp.weixin.qq.com/s/TSc4E8lKwgc-EvzP8OlJeg
  • 2019 年 NLP 領域都發生了哪些大事件?
    機器學習技術已經被廣泛用於解決現實世界中的問題,但另一方面,人們也通過一些有趣和富有創意的方式使用機器學習。機器學習創意和人工智慧領域中其它類型的研究同樣重要,因為歸根到底,我們希望的是構建能夠幫助我們塑造文化和社會的人工智慧系統。
  • 1,CV;2,NLP;3,推薦系統?
    現在就差壓縮這些巨無霸還有搞頭視覺各類基礎模塊全都服務化了,而且這東西走集中調度比較坑,中臺搞了人家業務方也不一定會用,github調包太方便了,完全可以自己啟動,現在中臺血拼視覺能力靠的是大量gpu伺服器和低成本並發能力,你要10個gpu跑多少qps,我做到5個,拼這種能力,沒人關心性能,只關心成本。
  • 2019斯坦福CS224n、CMU NLP公開課視頻開放啦
    以前開放的是 17 年年初的課程,很多激動人心的前沿模型都沒有介紹,而最近 CS224n 終於開始更新 19 年課程的視頻。與此同時,CMU 的 NLP 公開課 CS 11-747 也一直在更新今年的授課視頻,它同樣介紹了近來 NLP 的主要發展。目前 CS 11-747 已經更新了 14 個課時,從詞嵌入、注意力機制到強化學習都有涉及。
  • 中文NLP福利!大規模中文自然語言處理語料
    大規模中文自然語言處理語料 Large Scale Chinese Corpus for NLPhttps://github.com/brightmart/nlp_chinese_corpus為中文自然語言處理領域發展貢獻語料語料庫將會不斷擴充。。。
  • 2019,不可錯過的NLP「高光時刻」
    以下是對這一研究領域的趨勢和前景的一個很好的總結。紐約大學的研究人員還發布了一個Pytorch實現的深層神經網絡,可以提高放射科醫生在乳腺癌篩查中的表現。此外還有重要的數據集發布,叫做MIMIC-CXR,它包括一個胸部x光和文本放射學報告的資料庫。
  • 一本開源的NLP入門書籍
    作者 | duoergun0729 Github:https://github.com/duoergun0729/nlp
  • 【獨家】自然語言處理(NLP)入門指南
    &model=en&cpu=1&cph=0 記得我曾經讀到過這樣一段話,如果你覺得有必要回答兩次同樣的問題,那就把答案發到博客上,這可能是一個好主意。根據這一原則,也為了節省回答問題的時間,我在這裡給出該問題的標準問法:「我的背景是研究**科學,我對學習NLP很有興趣。應該從哪說起呢?」
  • 國內自然語言處理(NLP)研究組
    https://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界nlp.baidu.com
  • 【NLP】競賽必備的NLP庫
    jieba.cut("我來到北京清華大學", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) seg_list = jieba.cut("他來到了網易杭研大廈") print(", ".join(seg_list))jieba項目主頁:https://github.com/fxsjy/jieba此外jieba分詞還有
  • NLP簡報(Issue#8)
    與其他用於視圖合成的性能最高的方法相比,NeRF在質量和數量上都更好,並且可以解決渲染中的不一致問題,例如缺少精細的細節和不必要的閃爍偽影。2.2 SECNLP:臨床自然語言處理中的embedding綜述SECNLP[11]是一份綜述論文,其中詳細介紹了在臨床領域中應用的各種NLP方法和技術,概述主要強調嵌入方法,使用嵌入解決的問題/挑戰以及對未來研究方向的討論。
  • 時隔兩年,斯坦福NLP標準公開課CS224N將再次開放視頻
    目前開放的視頻仍然是 17 年年初的課程,很多激動人心的前沿模型都沒有介紹。不過在最近展開的 CS224N 2019 的課程中,其表明這一次的課程視頻將放到 YouTube 上!如果你有很多編程經驗,但使用不同的語言(例如 C / C ++ / Matlab / Java / Javascript),可能問題不大。
  • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
    研究者解決了這個問題,並在提交時訓練了新的分詞器,其中所有超參數都與系統相同。他們進一步構建了一個非官方的評估管道,驗證了它與官方系統達到的評估結果相同,並且僅通過替換分詞器來評估整個管道。>>> stanfordnlp.download('en') # This downloads the English models for the neural pipeline>>> nlp = stanfordnlp.Pipeline() # This sets up a default neural pipeline in English>>
  • NLP Chinese Corpus項目:大規模中文自然語言處理語料
    不知道你是否也遇到了這樣的問題?我們這個項目,就是為了解決這一問題貢獻微薄之力。,每個問題屬於一個類別。訓練集:142.5萬;驗證集:4.5萬;測試集,數萬,不提供下載。,title是問題的標題,desc是問題的描述,可以為空或與標題內容一致。