直面難題!NLP四大開放性問題詳解

2021-02-13 新智元

來源:ruder.io

作者:Sebastian Ruder  編輯:肖琴

【新智元導讀】本文基於專家調查和學術會議討論,總結了NLP中的4個主要開放問題,分別涉及自然語言理解、數據可用性、多文檔推理以及模型評估問題。

本文作者Sebastian Ruder 是一名很活躍的自然語言處理 (NLP) 研究員。Sebastian 是 AYLIEN(愛爾蘭一家 NLP 公司)的一名研究科學家,還是都柏林大學Insight 研究中心數據分析組的博士生。

Sebastian Ruder

本文基於專家調查和Deep Learning Indaba論壇(非洲的一個最大的深度學習會議,得到DeepMind、谷歌等的贊助)上的討論,討論了NLP中的4個主要開放問題。

Sebastian Ruder 向NLP專家提出了一些簡單但重要的問題。根據這些回答,我們發現四個最常被提及的問題:

自然語言理解

用於低資源場景的NLP

對大型或多個文檔進行推理

數據集、問題和評估

我們在小組討論中討論了這些問題。這篇文章主要是基於我們的專家的回答,以及小組成員Jade Abbott、Stephan Gouws、Omoju Miller和Bernardt Duvenhage的想法。我的目標是為那些有興趣了解更多的人提供一些關於這些論點的背景知識。

我認為最大的開放性問題都與自然語言理解有關。

[…]我們應該開發能夠以人類的方式去閱讀和理解文本的系統,通過形成一種文本表示的世界,其中有agent、對象、設置,以及agents之間的關係、目標、欲望、信念,以及其他一切人類為了理解一段文字而創造的東西。在做到這一點之前,所有的進展都是在改進我們的系統進行模式匹配的能力

—— Kevin Gimpel

在我們的調查中,許多專家認為自然語言理解(natural language understanding, NLU)是一個核心問題,因為它是許多任務的先決條件,例如自然語言生成(NLG)。大家的共識是,我們目前的模型沒有一個顯示出對自然語言的「真正」理解。

先天的偏見vs.從頭開始學習

一個關鍵的問題是,為了更接近自然語言理解,我們應該將什麼樣的偏見和結構顯式地構建到我們的模型中?在我們的調查中,許多回復提到模型應該包含常識。此外,對話系統(和聊天機器人)也多次被提及。

另一方面,對於強化學習,David Silver認為人們最終會希望模型自己學習所有東西,包括算法、特徵和預測。許多專家持相反的觀點,他們認為你應該在模型中構建一些理解。在2018年2月Yann LeCun和Christopher Manning之間的辯論中,也探討了模型應該學習什麼,以及應該將什麼作為模型的固有先驗(hard-wired priors)。

參考閱讀:

【AI 蝙蝠俠 vs 超人】LeCun 論戰 Manning:語言是通用智能的鑰匙?

程序合成(Program synthesis)

Omoju認為,只要我們不了解自然語言理解背後的機制和如何評估這些機制,就很難將理解納入其中。她認為,我們可能希望從program synthesis中獲取想法,並自動學習基於高級規範的程序。這種觀點與神經模塊網絡和神經編程解釋器(neural programmer-interpreter)有關。

她還建議,我們應該回顧80、90年代時最初開發的方法和框架,比如FrameNet,並將這些與統計方法結合起來。這應該有助於我們推斷出對象的常識屬性,比如推斷一輛車(car)是否屬於車輛(vehicle),具有把手(handles),等等。推斷出這些常識知識也是NLP領域近期的一個焦點問題。

具身學習(Embodied learning)

Stephan認為,我們應該使用可用的結構化資源和知識庫(如Wikidata)。他指出,人類通過體驗和互動,融入到環境中來學習語言。有人可能會爭辯說,存在一種單一的學習算法,只要agent嵌入在足夠豐富的環境中,並具有適當的獎勵機制,就可以從頭開始學習NLU。然而,對這樣的環境的計算量將是巨大的。相比之下,AlphaGo需要龐大的基礎架構才能解決有明確定義的棋類遊戲。創建一個可以持續學習的通用算法這種觀點,與過去提出的終身學習和通用問題解決器有關。

雖然許多人認為我們正朝著具身學習(embodied learning)的方向前進,但是我們不應該因此低估一個embodied agent所需的基礎架構和計算。因此,等待一個成熟的embodied agent來學習語言似乎是不明智的。但是,我們可以採取一些步驟使我們更接近這個極限,例如在模擬環境中進行基礎語言學習、結合交互或利用多模態數據。

情感

Omoju認為將與情感相關的人類因素融入到一個embodied agent中是非常困難的。然而,情感與對語言更深層次的理解是息息相關的。另一方面,我們可能不需要真正具有人類情感的agent。Stephan認為,圖靈測試被定義為模仿,雖然沒有情感,但卻能愚弄人們,讓人們認為它有情感。因此,我們應該能夠找到解決方案,不需要embodied,也不需要情感,但能了解人們的情感並幫助人們解決問題。事實上,基於傳感器的情感識別系統一直在改進,文本情感檢測系統也是。

認知和神經科學

一位聽眾問,我們在模型中利用和構建了多少神經科學和認知科學的知識。神經科學和認知科學的知識可以給你帶來很大的啟發,並成為塑造你的思維的準則。例如,有一些模型試圖模仿人類快速和慢速思考的能力[1]。正如Surya Ganguli在這篇文章中所闡述的,人工智慧和神經科學在許多方面是互補的。

參考閱讀:

斯坦福學者: 生物智能可能是解決 AI 發展瓶頸的關鍵

Omoju建議從認知科學理論中汲取靈感,比如Piaget和Vygotsky的認知發展理論。她還敦促大家開展跨學科的工作,這一觀點得到了其他專家的響應。

處理 low-data的設置(低資源語言、方言(包括社交媒體文本這種「方言」),等等)。這不是一個完全「開放性」的問題,因為已經有很多有前途的想法;但我們仍然沒有一個通用的辦法能夠解決這個普遍問題。

– Karen Livescu

我們探討的第二個主題是在低資源場景中,超出訓練數據的限制進行泛化。考慮到Indaba是在非洲舉行的會議,一個自然的關注點就是低資源語言。第一個問題集中在是否有必要為特定的語言開發專門的NLP工具,還是研究通用NLP就夠了。

通用語言模型

Bernardt認為,語言之間存在普遍的共性,可以被一個通用語言模型所利用。接下來的挑戰是獲取足夠的數據和計算力來訓練這樣的語言模型。這與最近訓練跨語言的Transformer模型和跨語言句子嵌入的工作密切相關。

跨語言表示(Cross-lingual representations)

Stephan指出,使用低資源語言的人不夠多。僅非洲就有1250-2100種語言,其中大多數語言很少受到NLP社區的關注。專用工具的問題也取決於正在處理的NLP任務。當前模型的主要問題是樣本效率。跨語言的詞彙嵌入非常高效,因為它們只需要單詞翻譯對,甚至只需要單語數據。它們可以很好地對齊詞嵌入空間,以完成主題分類這樣的粗粒度任務,但不支持機器翻譯這樣的細粒度任務。然而,最近的研究表明,這些嵌入為無監督機器翻譯形成了重要的構建塊。

另一方面,用於更複雜的高級任務的模型(如問題回答)則需要數千個訓練示例來進行學習。將需要實際自然語言理解的任務從高資源語言轉移到低資源語言仍然是非常具有挑戰性的。隨著針對此類任務的跨語言數據集的開發,例如XNLI,為更多推理任務開發強大的跨語言模型有望變得更容易。

好處和影響

另一個問題是,鑑於資源不足的語言本身只有少量文本可用,NLP在此類環境中的好處是否也會受到限制?Stephan強烈反對這點,他提醒說,作為ML和NLP的從業者,我們通常傾向於以信息理論的方式看待問題,例如最大化數據的可能性或改進基準。退一步說,我們研究NLP問題的真正原因是為了構建能夠打破障礙的系統。我們希望構建一個模型,使人們能夠閱讀不是用他們的語言寫的新聞,在他們不能去看醫生的時候詢問他們的健康問題,等等。

考慮到潛在的影響,為低資源語言構建系統實際上是最重要的研究方向之一。雖然一種低資源語言可能沒有很多數據,但是低資源語言的數量很多;事實上,這個星球上的大多數人說的都是某種資源貧乏的語言。因此我們需要找到一種方式讓我們的ML系統能夠在這種設置中工作。

Jade認為,具有諷刺意味的是,作為一個社區,我們一直專注於擁有大量數據的語言。我們更應該關注的是資源貧乏的語言,這些語言沒有太多數據可用。值得慶幸的是,有研究人員正在研究這種低資源語言,並取得了進展。由於缺乏數據,即使是像詞袋(bag-of-words )這樣簡單的系統也會對現實世界產生巨大的影響。

激勵和技能

另一位聽眾指出,人們被激勵去從事數據多的基準工作,如英德機器翻譯,但在低資源語言方面缺乏激勵。Stephan認為激勵以「未解決的問題」形式存在。但是,缺乏解決這些問題的技能。我們應該關注的是機器翻譯這類的技能,以幫助人們解決這些問題。不幸的是,學術進步並不一定與資源貧乏的語言有關。但是,如果跨語言基準變得更加普遍,那麼這也會促使在低資源語言方面取得更多進展。

數據可用性

Jade最後指出,一個大問題是,對於資源較少的語言,例如非洲語言,沒有可用的數據集。如果我們創建數據集並使其易於獲得,這將激勵人們研究並降低進入這個領域的壁壘。使用多種語言提供測試數據通常就足夠了,因為這將允許我們評估跨語言模型並跟蹤進度。

有效地表示大規模的上下文。我們目前的模型大多基於遞歸神經網絡,不能很好地表示較長的上下文。受圖形啟發的RNN的工作具有潛在的前景,儘管目前只有有限的改進,而且還沒有被廣泛採用,因為它們遠不如普通的RNN那樣易於訓練。

——Isabelle Augenstein

另一個大的開放問題是關於大型或多個文檔的推理。最近的NarrativeQA數據集就是這種設置的基準測試的一個很好的例子。使用大規模上下文進行推理與NLU密切相關,需要大幅擴展我們當前的系統,直到它們能夠閱讀整本的書籍和電影腳本。這裡的一個關鍵問題是:我們是需要更好的模型,還是僅僅需要更多的訓練數據?

在Dota2遊戲中完勝人類職業玩家的OpenAI Five模型表明,如果增大現有模型的大小,讓它們處理更多的數據和更多的計算,那麼它們可以做很多事情。有了足夠的數據量,我們當前的模型在更大型的上下文中也可以做得更好。問題是,擁有大量有標籤的文件數據是稀缺且昂貴的。類似於語言建模,我們可以想像一個文檔級的無監督任務,它需要預測一本書的下一段或下一章,或者決定下一章是哪一章。然而,這個目標很可能過於低效,無法學習有用的表示。

因此,更有用的方向似乎是開發能夠更有效地表示上下文,並能夠在閱讀文檔時更好地跟蹤相關信息的方法。多文檔摘要(Multi-document summarization)和多文檔問答(multi-document question answering)方面已經有進展。同樣,我們也可以在語言模型的基礎上提高記憶能力和終身學習能力。

也許最大的問題是正確定義問題本身。通過正確地定義一個問題,我的意思是建立數據集和評估程序,以適當地衡量具體目標的進展。如果我們能把所有事情都簡化成Kaggle風格的競賽,事情會變得更容易!

– Mikel Artetxe

囿於時間限制,我們沒有繼續討論當前的基準和評估設置的問題,但以前的調查有許多相關的回答:

https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit

最後一個問題是,非洲社會應該解決哪些最重要的NLP問題。 Jade 認為,最重要的問題是解決資源不足的問題。特別是能夠在教育中使用翻譯,使人們能夠用自己的語言獲得他們想知道的一切,這是非常重要的。

參考連結:

[1]Thinking Fast and Slow with Deep Learning and Tree Search, by Thomas Anthony, Zheng Tian & David Barber

https://papers.nips.cc/paper/7120-thinking-fast-and-slow-with-deep-learning-and-tree-search.pdf

原文地址:

http://ruder.io/4-biggest-open-problems-in-nlp/

【加入社群】

新智元AI技術+產業社群招募中,歡迎對AI技術+產業落地感興趣的同學,加小助手微信號:aiera2015_2   入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • 《摩天大樓》的驚喜不止baby,還有直面這四大女性問題的勇氣
    章子怡微博誇讚楊穎不過,除了baby演技,我認為《摩天大樓》最大的驚喜還是直面女性社會問題,對其進行了入木三分的刻畫。備受關注的四大女性社會問題一個女性想要平安無虞地度過一生,需要面對多少困難?編劇以鍾美寶事件為線索,講述了一個女孩在社會上可能面臨的各種困境,主要可以總結為5大問題。重男輕女問題這一點在鍾美寶的朋友李茉莉身上體現得最明顯。李茉莉是一個名副其實的白富美,父親是業內著名的建築師,家境優渥,自己也是名牌大學研究生畢業,能力出眾。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    nlp領域的發展比cv領域相對緩慢的原因是什麼呢? 相比於cv領域,「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯),導致深度學習模型容易過擬合,不能很好地泛化。
  • 開放性、盡責性對大學生創造性問題解決的預測:自我效能感的中介作用
    開放性正向預測創造性問題解決的流暢性、適宜性和獨創性;盡責性正向預測創造性問題解決的流暢性和適宜性,但對獨創性的預測作用不顯著。中介作用分析發現,自我效能感在開放性與創造性問題解決的流暢性/適宜性/獨創性間起完全中介作用,在盡責性與創造性問題解決的流暢性/適宜性間起完全中介作用。
  • 七零後教師面臨的四大難題
    他們在工作和生活中會遇到這樣或那樣的難題。首先,工作中的力不從心。由於教學改革,現在的教材變化很快。比如語文,幾乎是一兩年就有改動,特別是文言文的一些注釋。教師每年都要認真備課,不然課堂上就有可能出問題。這就為一些老教師的教學帶來困難。使得他們在工作上有些吃力,不再像年輕時那麼得心應手,駕輕就熟。
  • 開放性與決斷力
    (來自網絡)開放性也稱包容性,指的是對各種想法、創意、觀點或可能持開放的態度,採納其中好的部分,從而做出基於現狀最佳的決策
  • 當下NLP 研究最棘手的 4 個問題
    、評估會議中,我們在小組討論環節對這些問題進行了探討。小組成員自然語言理解「我認為最關鍵的開放性問題都與自然語言理解有關。Stephan 認為,問題尚未被解決就是最好的激勵。無論如何,人口統計學尚無法提供技能來解決這些問題。我們應該注重傳授類似機器翻譯等技能來讓人們用於解決問題。遺憾的是,學術界的進展很多時候不一定和低資源型語言相關。不過,跨語言基準一旦變得日益普遍,就有望推動低資源型語言研究取得更多進展。
  • 詳解被改編為綜藝節目的推理難題:S先生與P先生問題
    明星大偵探這道推理難題有幾十年的歷史了,還被改編為綜藝節目《明星大偵探這類問題被稱為S先生與P先生問題,有多種類型。如果喜歡這類推理題,請看這個連結,內容非常精彩而充實。請看題,認真思考後作答。題目:一場推理面試S先生、P先生、Q先生都具有足夠的推理能力。這天,他們正在接受推理面試。
  • 國家旅遊局:旅遊業現"三岔口" 屬開放性變化時代
    而現在旅遊業處於「三岔口」,眼下這個狀況正是「中國旅遊業的開放性變化時代」。  一、旅遊業的「開放性變化時代」   杜一力提出,是旅遊業的網際網路時代?還是網際網路時代的旅遊業?正如現在搞得熱鬧的「金融網際網路」和「網際網路金融」之爭。
  • fgo失明人士最糾結的史詩級難題:詳解先抽孔明還是攢石等CBA
    介於fgo近日即將開放西遊復刻卡池,其中涉及到了最為核心和關鍵的英靈,五星術階孔明的UP,讓不少失明人士開始糾結的史詩級難題出現了,到底先抽孔明還是攢石等CBA呢?來看看相關的分析和詳解吧。這次的西遊復刻卡池涉及到的孔明單獨的UP可以說是極具誘惑力,不過考慮到後續要實裝的核心英靈CBA,史詩級的難題出現了,到底先抽誰比較好。就目前來說,從西遊復刻活動截止到3周年,玩家一共可以獲得331個聖晶石還有65呼符,這還是在國服沒有臨時維護的條件下以及你沒有通關額外的幕間活動副本等,算下來接近180+的抽取次數不少了。
  • 直面土地規劃等難題,千方百計建學校、增學位——看深圳基礎教育...
    直面土地規劃等難題,千方百計建學校、增學位、提質量看深圳基礎教育如何擴容提質深圳市南山區實施中小學—大學(企業)夥伴計劃,鼓勵中小學與周邊科研院所、創新企業等協同育人。深圳堅持目標、問題導向,直面土地、規劃等難點,高標準推進幼兒園、中小學學位建設,堅持擴資源和提質量同步推進、雙向攻堅。克服用地緊張等困難推進學位建設深圳市南山區荔灣小學及其周邊原來是荔枝林。隨著經濟迅猛發展,年輕人口集聚,住宅小區拔地而起,學位需求越來越大。
  • 查爾斯·泰勒談開放性的世俗主義
    在「適應報告」中您倡導一種「開放性的世俗主義」。那麼它的反面是什麼?「封閉的」世俗主義嗎?  泰勒:我們這樣提,是希望人們得到類似「開放性的世俗主義」的建議。但有些人會說它反面才是「真正的」世俗主義!  因為開放性的世俗主義堅持國家中立的原則、政教分離的原則,我認為它不是您之前說過的「激進的」世俗主義。
  • 哈利波特四大學院詳解 《哈利·波特與魔法石》分院帽揭秘
    哈利波特四大學院詳解 《哈利·波特與魔法石》分院帽揭秘  為慶祝「哈利·波特」系列圖書引進中國20周年,根據J.K.羅琳暢銷小說「哈利·波特」系列第一部改編的電影《哈利·波特與魔法石》,推出全新4K修復3D版,即將於8月14日登陸全國院線,中國也是全球首個上映這一新版本的國家。
  • 直面真問題,找到根本解:如何有效解決問題?
    直面真問題,找到根本解,然後在解決問題中不斷迭代。—1—直面真問題想要解決問題,首先要找到那個「真」問題。什麼是真問題?直面自己,問問:為什麼?why?我們要做的,不是退後半步,給出「答案背後的答案」。而是往前一步,找到「問題前面的問題」。這就是找到真問題,直面真問題。
  • NLP中的預處理:使用python進行文本歸一化
    這是一個重要的問題。 在進行文本歸一化時,我們應該確切地知道我們要標歸一什麼以及為什麼要歸一化。 另外,輸入數據的特點有助於確定我們將要用來歸一化輸入的步驟。 我們最感興趣的是兩件事:句子結構:它總是以標點符號結尾嗎?
  • 馮侖:與其幽怨、焦慮、逃避,不如擁抱變化,直面問題
    《棋魂》|很多進步都是在解決難題的過程中發生的 與其幽怨、焦慮、惆悵、後悔,甚至是逃避,都不如積極擁抱變化,直面問題。不要再沉浸在過去,要往未來看。 事實上,很多進步都是在解決難題的過程中發生的。做企業,大家比的不是在順風順水的時候誰跑得快,真正跑得快的往往都是在別人有困難的時候,他用更好的方法解決了問題,於是跑到了前面。 過去 30 年,我有一個特別有意思的觀察。有時候,最後留下的不是跑得最快的,而是跑得快的都死了,剩下的就變成前頭的了,所以說「剩者為王」。
  • 3D卡通網遊復活 《希望OL》今日開放性測試
    希望回歸,快樂回歸,國內首款3D卡通網遊《希望OL》將於今日進行不刪檔、不限號開放性測試。這款集詼諧搞怪、華麗可愛為一體的經典網遊以其明亮的世界觀、多樣化的任務、絢麗的combo連擊和多變的人物造型而深受玩家喜愛。本次測試更是採用了全新的國服定製版,極品禮包海量發放。
  • 心理學:智者引導人們走向開放性,愚者引導人們走向確定性
    那麼,到底是開放性更適合人的成長,還是確定性更適合人的成長呢?對於上了年紀的人來講,他們希望有更多的確定性,而年輕人則希望有更多的開放性。年輕人對於事物有更多的新鮮感,願意嘗試更多的事物。年輕人自身匱乏,希望未來有更多的開放性,才會有機會讓自己擁有更多。儘管人們最重要走向確定性,也就是人生的「蓋棺定論」,但是在生命的歷程中,保持一種開放性更有利於個體發展。
  • 構建屬於自己的「聊天機器人」——NLP系列
    要理解這一點,想像你會詢問一個書商什麼問題?比如:「XX書多少錢?」或者「你們有xx作者的什麼書?」每個用斜體印刷的問題都是一個模板的例子,用於匹配出現在未來的相似問題。模式匹配需要許多提前生產出來的模板。基於這些提前生產出來的模板,聊天機器人可以簡單輕鬆地挑選出最佳匹配顧客諮詢的模板,並由此給予顧客答案。
  • 空間開放性與私密性間的平衡關係
    在辦公室歷史演變的歷程上的數次辦公空間布局的變化,其實主要就是空間開放性與私密性兩者理念不斷碰撞的結果。開放式辦公設計與封閉式辦公設計並不能明確分出高下,兩者都有著各自的優點與缺點,如何才能更好協調空間開放性與私密性間的平衡關係,也是辦公空間設計者們一直在思考的問題。
  • 方太K3系列解決清洗難題
    日常在廚房裡的你是否有這些「同款」煩惱:因為餐後那一堆油光鋥亮的鍋碗瓢盆的清洗歸屬問題,與家裡的另一半通過擲骰子、抓鬮、石頭剪刀布等等需要人品爆發遊戲獲勝才能免於洗碗?您是否有過,三五親朋好友組團過來蹭飯,吃幹抹淨拍屁股走人遺留下一堆需要你清洗到天明的鍋碗瓢盆的經歷?這些問題,擁有一臺洗碗機就可以解決。