Facebook大公開:解決NLG模型落地難題!工業界的新一波春天?

2021-02-13 夕小瑤的賣萌屋

文 | 小餵老師
編 | 小軼

作為NLP領域的「三高」用戶(高產、高能、高鈔),FaceBook最近(2020年11月)又發表了一篇高水準文章,目前已被COLING-2020接收,號稱解決了自然語言生成(NLG)落地的問題:Best Practices for Data-Efficient Modeling in NLG:How to Train Production-Ready  Neural Models with Less Data

看到這個有點標題黨的文章,我不禁要發出關於NLG落地的素質三連:

眾所周知,對於自然語言處理中的NLG問題,一直都沒有很好的落地場景,即便是目前最合適的「文本自動摘要-Auto Text Summarization」,也沒有特別合適的產品和落地領域。所以雖說你是大佬,但我也不覺得你可以做第一個吃螃蟹的人!

抱著這些疑惑,我一口氣讀完了整個paper,然後不禁發出感慨:「就這?」——啊不,打錯了——然後不禁發出感慨:「四高一」!!!

本篇文章的亮點比較多,屬於一篇偏實驗性論文,總結為一句話就是:流程化NLG在對話系統落地過程中開發步驟和評估策略

文中研究的NLG主要指對話系統中的NLG。為解決NLG應用落地的難題,論文設計了一套Tree-Based數據集,並據此推出Bucketing訓練策略 + TreeAccuracy評價策略。此外,還討論了NLG中的數據增強知識蒸餾生成模型選擇Data-fficiency問題。為對話系統中的NLG落地給出了一套完備&Less-Data&Low-Latency&生成結果High-Acceptable的方案

哈哈,這麼高的評價,那我們看一下這篇文章到底做了啥!

論文題目

Best Practices for Data-Efficient Modeling in NLG:How to Train Production-Ready Neural Models with Less Data

論文連結:

https://arxiv.org/abs/2011.03877

Arxiv訪問慢的小夥伴也可以在 【夕小瑤的賣萌屋】訂閱號後臺回復關鍵詞 【1221】 下載論文PDF~

NLG先驗知識

在談論這篇論文之前,我先和大家的溝通一下NLG這個任務,保證大家有一個共通的認知觀點。

自然語言生成(Natural Language Generation)是一個很難或者說高複雜度的自然語言處理任務。廣義的NLG是給定一個輸入(可以是文本、表格、圖片或是結構化的數據),輸出符合該輸入的一段文本描述(可以是文章寫作、摘要,也可是圖片內容描述)。NLG通常被認為是真正意義上的人工智慧,一個完備的NLG任務意味著圖靈機的實現。本論文的NLG是特指對話系統(Chatbot System)中的自然語言生成,對於一個對話系統,它通常有如下幾個部分:

對於此處的NLG任務,它的輸入是<Query, DM產生的Actions>,輸出的是一段文本回復。

因為是一篇偏實驗性的論文,所以論文的要點理解和模型框架並不算特別的難,但是需要大量的先驗知識儲備。接下來的四個小節中,我將依次列舉一些必要的先驗知識,包括:

Chabot System中的NLG

在對話系統中,經過NLU,DM之後會獲得一系列的Dialogue Actions,這類Dialogue Actions就是NLG的重要輸入。在Chabot System中做NLG,常用的方法是基於模板生成結果。但是太過於死板且不可遷移。後來就提出了基於Encoder-Decoder的模型生成,和模板生成進行比較,也是有各自的優劣點(具體討論可見論文細節)。

這裡為了能讓讀者有一個對NLG任務比較直觀的理解,給出了一個簡單的例子(其中Query和Actions通常作為NLG的輸入,ExpectResponse則指代模型NLG的輸出):

Query: "我要買一張明天去北京的火車票。"
Actions: {
"intent":"買火車票",
"slots":["destination":北京,
        "departure":UNK,
        "time":DayTime[「明天」]_DetailTime["UNK]]
"actions":["詢問具體時間","詢問出發地點"]

"ExpectResponse":"請問您想買【明天】【幾點】的火車票?【出發地點】又是哪裡呢?"
}

Structured NLG Data

如果使用Encoder-Decoder的生成模型來做NLG,那麼不可避免地就引入了模型輸出結果不可控制的問題。在生成的模型中,可能缺少重要的要素,也可能要素值生成錯誤,這些都是生成模型中不可控制的。

作者所在的團隊在2019年的一篇論文中(Constrained decoding for neural NLG from compositional representations in task-oriented dialogue ),給出了一種解決方法:它將輸入的action使用tree-structured的方式進行存儲。這樣的結構引入了更多的信息,也便於後面對生成結果進行判定。本文實際上也算是Facebook在以前工作上的一種再創新。

為了便於讀者理解,這裡給出了論文中一個關於tree-structured input的數據。這是Facebook發布的Dialogue System中的一個case。他將Actions結構化。Reference指期望給出的NLG輸出。

Query: "Do I have any reminder to buy milk?"
Structured Actions: 
    INFORM 1[amount[ 3 ]]
    INFORM 2[todo[ buy milk ] date time[time[ 7 pm ]]]
    INFORM 3[todo[ buy milk ] date time[colloquial[ tomorrow ]]]
    INFORM 4[amount remaining[1]]
Reference: Yes, there are 3 reminders. The first two are, buy milk at 7 PM and tomorrow. There’s 1 other reminder.

Bucketing策略

這種策略方式使用比較少,在機器學習中有使用過(我也是諮詢了一位同事之後,才了解和理解的)。

在深度學習中,我們通常隨機選取一批數據進行模型的訓練。如batch_size = 64,選取64個隨機數據進行訓練。Bucketing則是一種按照某種【策略】將數據分成一個個的bucket(桶),然後將一個個的Bucket的數據丟入到模型中進行訓練。這樣的訓練方法可以減少在模型訓練過程中由imbanlanced distribution帶來的bias,也能提高數據的利用率,是常用的一種利用「少量數據」訓練模型的方法。

在Bucketing的過程中,這種【策略】就非常的重要。好的策略能大大提高數據利用率,壞的策略通常不比隨機好,甚至會誤導模型的學習。設置Bucket策略的出發點是:各個bucket中的數據中,不一樣的信息是希望模型能夠學習的信息,一樣的(共有的)信息是模型可以忽略的信息

在本論文的任務上,因為數據是tree-structured的數據,作者這裡數據的tree-structured degreeargument values,嘗試了多種方法進行Bucketing,都取得了比random好的效果。

BART模型

BERT模型我聽過,BART模型又是啥??是不是寫錯了?BART是FaceBook AI團隊在2019年發布的一款適用於生成的預訓練語言模型

▲BERT、GPT、BART模型框架比較

如果說BERT適合做NLU,GPT框架適合做NLG。那如果我二者取其長,是不是就能更好的做NLP任務了?這個想法很簡單也很正常,但你發不了paper,因為你沒錢去訓練這樣的模型,但人家FaceBook有,所以人家FaceBook發了Paper(手動狗頭)。模型框架很簡單,但是非常有效,出來即刷新榜單,目前在NLP任務中,同量級的模型上仍有多處屬於SOTA。

BART模型在HuggingFace的Transformers上開源了自己的預訓練模型。筆者在今年8月份使用過BART模型進行過文本摘要生成。對於英文的生成來說,效果確實非常好,基本不用fine-tune也能比較好的生成通順的有意義的文本;但是對於中文,因為沒有Bart-zh,所以無法直接測試。不過FaceBook開放了25種語言的mBART,可用來做中文的文本生成,但直接生成的效果不好,語句通順都成問題,還未嘗試過fine-tune。不過從當前他人的使用評價和論文的結果來看,BART是一個很適合文本生成的預訓練模型。

Paper Body

在介紹文章主體之前,我們再梳理一下文章說到的幾個要點知識。確保這幾個知識點你都能接受和掌握,我們再來看文章細節。

NLG任務是給定輸入的(dialog act,user query),生成語句通順,信息正確的回答。傳統NLG系統大多使用基於模板的文本生成(template-based text generation),有優有劣。新的基於神經網絡的NLG(neural-network-based language generation),其框架中主要步驟包括:對於輸入進行meaning representation(MR);使用sequence-to-sequence(S2S)框架,產生對應的response。因為本論文要探討的是NLG產品化落地,所以我們期望探索不同數據量下模型精度結果的情況。即,在Data-Reduction的情況下,如何提高Data-Efficiency。因為是要探討NLG的產品化落地,所以也期望做一下模型壓縮在NLG方面的探索。

在上面的幾點理解後,我們從以下4個方面來看這篇論文:

四種訓練數據

數據這裡使用的是Facebook團隊2019年給出的四個對話系統相關的數據,數據的存儲格式都是tree-structured的,數據的領域分別是:Weather, Reminder, Time, Alarm。數據的樣例格式如上面給出。

四種數據處於不同難度級別,其中Weather最難,Alarm最簡單。論文作者認為,這四個領域的數據能基本代表Task-oriented Dialogue System上NLG的難度水平,也基本滿足NLG任務的任務需求(雖然筆者我不這麼認為,讀者也不一定這麼認為😂)。

三種Bucketing策略

這裡作者根據數據tree-structured的結構特色,使用了三種Bucketing策略,分別是:

Coarse grained(CB): 使用data中argument names進行Bucket groupMedium grained(MB): 精細到使用data中sub-arguments進行Bucket group,對於詞語的形態進行歸一化Fine grained buckets(FB&FBQ): 更精細化的操作,包括對argument-value去語義化,甚至對query進行去語義化 (FBQ)▲Bucketing 策略示例

一個完整的訓練集使用不同的Bucketing策略,將會被分割成不同數量的buckets。越精細的Bucketing策略,被劃分的buckets數量就越多。比如Weather的訓練數據集使用CB:MB:FB劃分得到的buckets數量分別是2240:6406:15456. 如上圖是一個case以及其各種bucket策略的例子表述。

實驗結果證明,無論哪種Bucketing策略,效果都優於random。其實可以預料得到,因為一個正確的bucket策略相當於引入了先驗知識,讓模型更能按照正確的方向進行優化學習。所以同等訓練量和模型容納能力的情況下,模型效果會更優。

三種評估方法

說到NLG問題,就一定繞不開NLG產生結果的評估。因為是自然語言生成的結果,和標準結果之間不能簡單的用「==」來判斷結果是否正確,因為會存在語義相同,表述不同的結果;也不能使用簡單的Rouge-L來評判,因為如果在關鍵詞(如數字,是否)上表述錯誤,是不可原諒的。所以NLG的結果評判也一直是一個問題。當然,可以引入人為評測,但是如果每一個NLG都使用認為評測,那麼成本將非常的高昂。這裡作者所使用的3種評測方法是:

Tree Accuracy: 因為數據本身是tree-structured數據,所以非常方便的檢測生成文本的重要token是否是MR中的token,如果是記為1,否或者缺失記為0;BLEU: 2002年提出,是NLG中通用的一種結果檢測方法。此處不做細述。人工評測:有錢土豪用人工,土豪FaceBook沒道理不用。這裡論文從Correctness和Grammaticality兩個方面對生成文本進行測評。三種模型方法和結果

在原論文中最後給了7種模型策略,但我只列舉了三種,因為其它都是在該三種方法上的排列組合。

S2S:使用Sequence-to-Sequence框架,用LSTM做encoder和decoder,輸入的embedding使用的是glove的embedding。優點是輕量級,小。BART:基於BART的模型框架進行Encoder-Decoder的模型訓練,在BART的基礎上進行fine-tune。KD(Knowledge Distillation,知識蒸餾):使用BART的模型太大了,不利於模型的線上使用,需要使用知識蒸餾的做法。這裡KD指的是將BART蒸餾到S2S模型中。

此外,作者還提到了JT和DDA。這不算模型,算是兩種通用的增強模型效果的方法:

Joint-Training(JT): 將多個相近領域的數據一起訓練。Dynamic Data Augmentation (DDA):對於不同的Epoch,隨機替換每個argument value。這樣即便使用一批數據進行訓練,每個Epoch的數據都不一樣,增大數據可用性。個人認為:由於此任務數據的固有特點,才得以使用該方法進行數據增強,算是合理利用數據特色進行數據增強的一種方法。

最終輸出的7種模型分別的輸出結果如下:

圖中橫坐標是訓練數據量,縱坐標是精度。最後作者認為:S2S+KD 和 S2S+KD+DDA取得了最好的效果

當然,全文的重點是NLG的Data Efficiency,所以會實驗各種數據量之下的模型結果,DDA策略無疑Data Efficiency最佳。而KD效果最差,但KD主要是為了工程應用而生,畢竟KD之後的S2S模型只有2M。

能達到這樣的結果,確實振奮人心。用幾句話總結論文的結論,那就是:我們的Bucketing策略很好,我們的DDA很好,我們的TreeAccuracy很好,我們的KD很好。

此外,論文還分別給出了在四個Domian上的3種測評結果以及人工測評結果,最後給出結論:我們提出的Tree Accuracy還是很有代表性的;我們使用的S2S+KD+DDA是很有效果的,在四個Domain上通用。

論文結論

文章的結論我打算整體翻譯一下,因為確實是提綱挈領,很有概括性(英文好的建議讀原文,原文截圖我保留在下面):

在訓練task-oriented對話系統時,不僅要考慮模型的精度,還需要考慮模型的數據利用率以及可接受性(acceptability),響應延遲和所需的開發維護成本。為此,我們提出一個NLG開發流程:

根據數據中的結構(此處為基於樹)對meaning representation進行Bucketing採樣,以避免不必要和不平衡的數據採集,每個bucket收集1-3個case。訓練模型並進行評估。如果有任務和語義相似的多個domain數據,可以先進行聯合訓練,然後進行domain內微調。訓練模型並進行評估。實施動態數據增強(DDA),以減少響應對「可互換參數值」的依賴。與增強數據一起訓練,並評估模型性能。首先,使用預訓練的模型(例如BART)為未標記數據生成響應,得到增強數據。然後,用增強數據和人工標記的數據,訓練一個小模型(KD)。最後,用人工標記數據,進一步微調該模型。評估模型性能。如有必要,請為每個MR存儲桶收集更多示例,並從頭開始部署模型。▲論文結論我的理解關於論文

論文本身是一個偏實驗性的論文,所以閱讀時需要注重理解論文設計的原因。因為是做對話系統中的NLG,而且是基於該組2019年發表的數據集進行訓練,其格式化的數據格式,引入了本文中兩個非常大的亮點:Bucketing策略 和 DDA方法。注意,這兩種方法都是需要在Tree-based數據上進行實現的。此外,模型使用的BART模型和KD方法,都屬於比較通用的方法,創新性屬於錦上添花。

當然,論文期望知道 NLG落地對數據的需求(Data Reduction)、可能的數據增強方法(DDA)、模型壓縮(S2S+KD)能達到的精度和應用領域的差異影響 的結果是什麼,並為此設計了一系列實驗,也給出了相應的結論。

關於NLG

如開頭所說的,一個完備的NLG意味著真正圖靈機的實現,也意味著真正人工智慧時代的到來。目前各大頂級公司都在走這樣的路,包括目前很多論文都是將大量的NLP任務轉化為語義理解的任務,如:機器閱讀理解代替NER,QA方式代替信息抽取,模型生成代替文本分類。例如T5模型將各類NLP任務轉化為一個通用任務模型,例如GPT-3的finetune用普通的自然語言描述代替。NLG目前不屬於一個很好的可以工業落地和應用的領域,但是自然語言學者們卻一直在探索NLG的任務。

一直說NLG的回答有很多的不可控性,本論文給出了一種Tree Accuracy的方法來評測模型生成的結果,確實從一定程度上衡量了模型輸出結果的準確性,算是為NLG的落地提供了一些方向(在格式化文本輸出的落地上提供可能)。但是這種情況其實是假設我們已經獲取到了輸出所需的槽位值,而非真正意義上的從文本中去理解,然後獲取相關關係,再產出合理化的回覆。所以本文對於通用意義上的NLG有參考意義,但對於問題的解決還是有很長的路要走!路漫漫其修遠兮!

最後的最後,請記得,素質三連!!!

後臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

後臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

相關焦點

  • 第四範式陳雨強:深析工業界機器學習最新黑科技
    非常高興與大家分享人工智慧在工業界應用的一些痛點、以及相應的解決思路。工業大數據需要高VC維人工智慧是一個非常炙手可熱的名詞,且已經成功應用在語音、圖像等諸多領域。但是,現在人工智慧有沒有達到可以簡單落地的狀態呢?工業界的人工智慧需要什麼技術呢?帶著這些問題開始我們的思考。首先,我們先探討一下工業界人工智慧需要一個什麼樣的系統?
  • 工業界求解NER問題的12條黃金法則
    真正在工業界解決NLP業務問題的NLPer,往往發現事情遠沒法這樣輕描淡寫。、差異化越大越好(構造不同視角下的特徵)。在垂直領域應用BERT時,我們首先確認領域內的語料與BERT原始的預訓練語料之間是否存在gap,如果這個gap越大,那麼我們就不要停止預訓練:繼續進行領域預訓練、任務預訓練。c. 在小樣本條件下,利用BERT可以更好幫助我們解決低資源問題:比如基於BERT等預訓練模型的文本增強技術[7],又比如與主動學習、半監督學習、領域自適應結合(後續詳細介紹)。
  • 阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的
    一個模型解決所有問題並不現實,各個領域的模型需要定製化 新智元:作為深度學習算法領域的專家,您之前的工作既涉及到視覺理解,也涉及到語義理解。 新智元:是不是有這樣一種情況,一些學術界可能已經不會太關注的問題,但是在工業界仍然還是難點。比如OCR,學術界已經不再做它了。但實際上在很多場景下仍是個難題。您是否會有類似的感覺? 王剛:是有這樣問題的,學術界和工業界的任務和使命不太一樣。學術界更關注的是探索知識的前沿,創造新的知識。它要解決的問題,應該說是在5 年以後會發生的事情,相當於是引領,需要去探索。
  • 模型製作費用大?澄海玩具手板快速成型解決開模難題
    在玩具開發過程中,玩具企業最怕遇到的問題就是當玩具設計環節進行到玩具手板模型製作環節時,因為設計缺陷或是方案變動,需要重新做一套模具,然而一套模具的開發費用至少需要上萬元,這讓很多玩具企業很頭疼。不過近幾年,一種技術解決了這種難題,那就是3D列印技術,在澄海玩具廠家的眼裡,3D列印並不是一件新鮮技術,因為在早幾年,澄海已經用到這種技術,這裡稱為「快速成型」,隨著這幾年的發展,這種技術早已經在澄海普及。「快速成型」這種技術給模具行業帶來的衝擊最為直接也最大,直接影響了玩具行業的發展。
  • 高考考點:動量守恆定律;形成模型可以解決難題
    利用動量守恆定律可以形成「人船」模型,在解決一些難題時,應用模型解題將會使解題過程得以簡化從而節約考場上的寶貴時間。我們先通過例題形成模型。例題:一隻長L質量為M的船靜止在湖面上,一質量為m的人,從船頭走到船尾的過程中,船移動的距離是多少?
  • 寄予厚望又不盡人意,當前PBL落地設計面臨多個難題
    但是在大量的實踐過程中,不少技術難點依然沒有有效的解決辦法,導致PBL的落地案例只是大量地存在於新聞報導和研究文獻中,卻鮮有公共可複製的系列案例。在此,我們就來討論一下這些難點,找一找可行的解決辦法。難點1: 立項——源於生活還是憑空臆測?
  • 清華孵化、張鈸加盟的這家公司,現在把「第三代人工智慧」落地了
    但就在行業內的大多數仍在大數據、大算力這個方向上狂奔的時候,這家公司另闢蹊徑找尋不一樣的AI落地之路: AI落地,不是僅僅靠大數據、大算力就能解決的問題。 AI產業落地速度不及預期,是AI算法本身的問題。
  • 數學,不是因為可以解決工業界問題而變得重要
    工業界在呼喚數學家。前段時間,華為技術有限公司創始人兼總裁任正非接受媒體採訪,兩萬多字的採訪實錄中,他提了數學近30次。「晶片砸錢不行,得砸數學家、物理學家、化學家……」數學家,被認為最有希望在材料科學、晶片、人工智慧等領域上做出突破,解決「卡脖子」困局。但著名數學家丘成桐也指出,發展像數學這樣的基礎科學,目的並非直接為經濟和技術服務。
  • AI落地遭「卡脖子」困境:為什麼說聯邦學習是解決良方?
    作者 | Just毋庸置疑,在業界對人工智慧(AI)應用落地備受期待的時期,數據這一重要支點卻越來越成為一個「卡脖子」的難題。AI落地需要數據來優化模型效果,但大部分企業不會輕易把數據無條件提供給AI公司使用,因為數據某種程度上是它們賴以生存的底牌,這也導致少數巨頭公司壟斷大量數據,而小公司很難獲得數據的局面,另一方面,由於法律法規對數據隱私保護的規定,數據融合難上加難。數據孤島問題似乎成了無法解開的死結,人工智慧落地進程嚴重受阻。
  • 最全整理|Facebook政策更新及解決方案
    02、帳戶受限 點擊連結並選擇原因申訴: https://www.facebook.com/help/contact/273898596750902 幫助中心信箱URL: https://www.facebook.com/support/?
  • 8億參數,刷新ImageNet紀錄:何愷明團隊開源最強ResNeXt預訓練模型
    所以現在好了,你並不需要做這樣大大大量的計算,可以直接從預訓練的模型開始。更好的是,開源的不止這一個模型。究竟是有多強大預警:先交代一下歷史,後面是最新的成績。ResNeXt,其實誕生在2016年。它的前輩是2015年發表的ResNet (殘差網絡) ,用「shortcut」這種能跳過一些層的連接方式,解決了梯度消失問題,訓練幾百上千層的網絡不是夢。
  • 百度NLP | Familia:開源的中文主題模型應用工具包
    雖然學術界的研究人員提出了多種多樣的主題模型來適應不同的場景,這些工作主要集中在「建模」層面,即設計合理的模型來適配各色各樣的數據,而指導主題模型在工業場景「落地」的資源和文獻卻非常稀少。為了推動主題模型技術在工業界的應用,我們開源了 Familia 工具 (https://github.com/baidu/Familia)。
  • 學者故事:從深鑑科技創始人到MIT教授,韓松帶你探尋深度壓縮模型世界的奧妙
    剪枝是減少參數的數量,然後量化是減少每個參數的比特數,所以兩個方法乘在一起會使得模型大小會變得很小。後來我們有一篇文章又探討了結構化剪枝粒度和準確率之間的權衡。深度壓縮在工業界已經落地了,比如三星Note10裡的AI晶片支持細粒度的壓縮,不僅節省功耗而且有提速;還有好多深度學習框架也支持了模型壓縮。
  • 百度語音識別新算法準確率提升超30%,鴻鵠晶片彰顯AI落地新打法
    百度通過本次發布說明,深度學習端到端技術依然大有發展空間,軟體驅動專用晶片設計成 AI 落地新打法。語音能力 100 億次日調用,百度大腦勢頭正勁論壇開始,百度 CTO 王海峰博士公布了百度在語音技術方面的最新成績單。目前,百度語音技術的日調用量已突破 100 億。
  • Facebook新AI模型SEER實現自監督學習,LeCun大讚最有前途
    該模型包含10億個參數,可以從網上任何未標記圖像的中學習,並在一系列計算機視覺基準上取得了先進的結果。Facebook的這一突破能否實現計算機視覺的自監督學習革命?無需標籤,自我分析數據!Facebook的新AI模型在革計算機視覺的命?
  • 想知道Facebook怎樣做推薦?FB開源深度學習推薦模型
    隨著深度學習的發展,基於神經網絡的個性化和推薦模型成為在生產環境中構建推薦系統的重要工具。但是,這些模型與其他深度學習模型有顯著區別,它們必須能夠處理類別數據(categorical data),該數據類型用於描述高級屬性。對於神經網絡而言,高效處理這種稀疏數據很有難度,缺乏公開可用的代表性模型和數據集也拖慢了社區在這方面的研究進展。
  • 明知故問 | AI大牛們為何陸續離開工業界回歸學術界?
    2016年頻繁曝出人工智慧學術和研究大牛投身工業界的消息。在人工智慧浪潮下,學術與產業結合成為大趨勢。卡耐基梅隆大學計算機科學院院長 Andrew Moore 教授曾表示「一名計算機領域的 AI 專家對於企業的價值,至少為500-1000萬美元」。由於深度學習等技術太過新興,人才積累不足,使得大公司為了爭奪這些少數人才,開展競標大戰。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    簡而言之,這些新工具將幫助人類創建更強大的內容理解系統,而且能夠翻譯數百種語言,理解諸如含糊不清、共同引用和常識性推理等複雜的問題,從而減少現有的這些系統對大量標記訓練數據的依賴性。翻譯準確性的突破對於神經機器翻譯(NMT)模型,有監督式訓練通常需要大量附有參考翻譯的句子。
  • 美國國防部戰略能力辦公室將從工業界尋求可快速製造突襲的新創意
    (原標題:美國國防部戰略能力辦公室將從工業界尋求可快速製造突襲的新創意)
  • 先查資料,再答題,Facebook開源檢索增強型語言模型,最...
    但這款被稱為「暴力美學」的超大模型,以及普遍的通用NLP,在預訓練成本、處理知識密集型(Knowledge-Intensive Tasks,)任務等方面仍然存在一定的局限性。對此,Facebook提出了一種檢索增強生成(Retrieval-Augmented Generation,RAG)模型的解決方法。