中國最大AI預訓練模型發布:113億參數,北京智源研究院、阿里、清華...

2021-01-20 澎湃新聞

金磊 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

不久前,OpenAI 的GPT-3成功跨界,,名曰DALL·E。

而近日,北京智源人工智慧研究院發布了與此類似的中國最大AI模型文匯,包含113億參數。

△ 圖源:智源社區

據了解,這是面向認知的超大規模新型預訓練模型,為的就是解決當前大規模自監督預訓練模型不具有認知能力的問題。

這一項目由北京智源人工智慧研究院、阿里巴巴、清華大學、中國人民大學、中國科學院、搜狗、智譜.AI、循環智能等共同完成。

「文匯」具有怎樣的能力?

「文匯」主要面向的是認知,「看圖說話」是它一種基本能力。

例如,給出下面一張圖片:

「文匯」便能根據這張圖給出這樣的描述:

旗袍是一種古典的風格,它不僅能夠彰顯出女性優雅氣質,而且還具有很好的修飾身形。這款旗袍採用了經典的圓領設計,穿著舒適自在,同時又能夠展現出女性柔美的頸部線條,讓你更加的迷人。精緻的繡花工藝,使得整件衣服看起來更加的精緻,也更加的凸顯出女性的魅力。

也可以在給定一些提示 (Prompt)和圖片的情況下生成文字。

例如,給定的提示是:

走進平定縣宋家莊村,映入眼帘的是

再給出如下所示的圖像:

「文匯」所生成的文字內容為:

一座座古色古香的明清建築,這裡有著濃厚的歷史文化底蘊和獨特的民俗風情。走進村子,就像走進了一個童話故事裡的世外桃源。村子裡的房屋依山而建,錯落有致地分布著各種各樣的古建築群,古樸典雅的建築風格讓人耳目一新。

嗯,確實有「看圖寫作」的味道了。

而在此技術背後,是研究組提出的針對多模態認知生成的大規模預訓練的架構M6:MultiModality-to-MultiModality Multi-task Mega-Transformer。

據了解,模型整體架構基於Transformer,其中圖像進行切塊並對塊採用ResNet-50提取特徵。

這些特徵以及對應的position embedding讓圖像和文本能組合在一起送入模型。

而與GPT不同的是,研究人員使用Transformer-XL來替換了GPT中原來的Transformer模型,從而能夠生成超過Transformer的窗口長度(一般為512)的文本。

系統工程方面,採用的是阿里統一多種並行策略的分布式框架Whale,256卡訓練速度是8GPU的29.4倍,加速比接近線性;而基於中文百科、知乎、問答三類數據,則由搜狗提供。

據介紹,「文匯」的部分應用即將合作上線,目前已有四個樣例應用可用於展示效果:

基於上傳圖片的開放域問答:可以支持用戶上傳圖片後,針對圖片內容進行提問或生成圖片的一句話描述。

Talk to Data:只需要一句自然語言的話,就可以實現數據的可視化自動統計與查詢。

基於預訓練語言模型的詩詞創作應用:可以基於輸入的詩歌題目、朝代、作者,生成仿古詩詞。

可控人設的開放域問答:支持用戶上傳問題,並生成具有人物角色風格的定製化文本回答。

為什麼要做「文匯」?

GPT-3等現有主流模型的能力是有目共睹的,但智源人工智慧研究院為什麼還要打造「文匯」呢?

據介紹,雖然GPT-3在多項任務中表現出色,但它最大的問題是沒有常識,不具有認知能力。

例如,如果問GPT-3「長頸鹿有幾個眼睛」?

GPT-3會回答「2個眼睛」。

但若繼續追問「我的腳有幾個眼睛」?

GPT-3的回答依舊是「2個眼睛」。

對此,智源研究院學術副院長、清華大學計算機系唐傑教授認為:

GPT-3等超大型預訓練模型在處理複雜的認知推理任務上,例如開放對話、基於知識的問答、可控文本生成等,結果仍然與人類智能有較大差距。

為了解決諸如此類現存的問題,早在去年10月,智源研究院啟動了新型超大規模預訓練模型研發項目「悟道」。

而此次發布的是「文匯」,是用於自動生成圖片、文字以及視頻,具有初級認知能力。

智源研究院院長、北京大學信息技術學院黃鐵軍教授指出:

「文匯」模型針對性地設計了多任務預訓練的方法,可以同時學習文→文、圖→文以及圖文→文等多項任務,實現對多個不同模態的概念理解。

目前,「悟道」項目研究團隊已經啟動了四類大規模預訓練模型的研製,包括:

文源,以中文為核心的超大規模預訓練語言模型。

文匯,面向認知的超大規模新型預訓練模型。

文瀾,超大規模多模態預訓練模型。

文溯,超大規模蛋白質序列預訓練模型。

去年11月14日,智源研究院已發布了「文源」第一階段26億參數規模的中文語言模型。

據介紹,智源研究院的下一步,是加快四類大規模預訓練模型的研發進度。

特別是「文匯」模型,未來將著力在多語言、多模態條件下,提升完成開放對話、基於知識的問答、可控文本生成等複雜認知推理任務的能力,使其更加接近人類水平。

並計劃在今年的6月份,實現「中文自然語言應用系統」、「基於圖文增強和知識融入的圖文應用系統」、「基於認知的複雜認知系統」等一批各具特色的超大規模預訓練模型。

參考連結:

— 完 —

本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。

原標題:《中國最大AI預訓練模型發布:113億參數!北京智源研究院、阿里、清華等聯手打造》

閱讀原文

相關焦點

  • 面向認知,智源研究院聯合阿里、清華等發布超大規模新型預訓練模型...
    來源:中國網科技日前,北京智源人工智慧研究院(以下簡稱智源研究院)聯合阿里、清華等多家單位發布超大規模新型預訓練模型「文匯」,旨在探索解決當前大規模自監督預訓練模型不具有認知能力的問題。項目由智源研究院發起的「悟道」攻關團隊完成,團隊成員包括智源研究院、阿里巴巴、清華大學、中國人民大學、中國科學院等。與傳統AI訓練需要人工標註數據不同,面向認知的預訓練語言模型提供了一種全新的學習思路,即AI首先自動學習大量語言文字和圖像數據,記憶和理解其中的信息以及人類語言表述的規律後,再進一步學習專業領域知識,從而讓AI同時掌握常識和專業知識。
  • 阿里巴巴、智源研究院、清華大學聯合發布全新AI模型,可賦予AI認知...
    1月12日,阿里巴巴、智源研究院、清華大學等聯合研究團隊發布面向認知的超大規模新型預訓練模型「文匯」。該模型不僅能提升AI的理解能力,還可基於常識實現AI創作,未來將應用於文本理解、人機互動、視覺問答等場景。
  • 智源研究院發布認知神經基礎重大研究方向—新聞—科學網
    8月24日,北京智源人工智慧研究院(以下簡稱「智源研究院」)在清華智源中心舉行了「人工智慧的認知神經基礎」(以下簡稱「認知神經基礎」)重大研究方向發布會
  • 微軟發布史上最大AI模型:170億參數,將用於Office套件
    乾明 發自 凹非寺量子位 報導 | 公眾號 QbitAI今天(2月11日),微軟發布史上最大語言模型,名為Turing-NLG。170億參數量,是此前最大的語言模型英偉達「威震天」(Megatron)的兩倍,是OpenAI模型GPT-2的10多倍。「隨著更大的自然語言模型導致更好結果的趨勢,微軟引入了Turing-NLG,」微軟在研究博客中寫道。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    為了利用這種思想提升預訓練模型在中文的表現,百度發布了知識增強的表示模型 ERNIE,在中文數據集的表現中超過了 BERT。近期,谷歌發布了基於全詞覆蓋(Whold Word Masking)的 BERT 預訓練模型,則進一步提升了 BERT 模型的性能水平。然而,由於全詞覆蓋的 BERT 模型的研究測試集中於國外公開數據集,缺乏一種中文語言的相關模型。
  • 內行的AI盛會——北京智源大會帶你洞見未來!
    研究院集合北京人工智慧領域優勢單位,採用新的科研組織形式和人才引進培養模式,引領人工智慧學科前沿和技術創新方向,推動北京成為全球人工智慧學術思想、基礎理論、頂尖人才、企業創新和發展政策的源頭,支撐人工智慧產業發展。2019年10月31日-11月1日,在北京市人民政府的指導下,北京智源人工智慧研究院將在國家會議中心召開北京智源大會(BAAI Conference,大會網站)。
  • 170 億參數加持,微軟發布史上最大 Transformer 模型 T-NLG!
    【CSDN編者按】Turing Natural Language Generation(T-NLG)是微軟提供的一個有170億參數的語言模型,在許多NLP任務上均優於目前的SOTA技術。那麼,它就有哪些優勢?在誕生過程中,又有哪些突破?趕快往下看!
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    models)預訓練可擴展性在預訓練期間,研究者對 Switch Transformer 的可擴展性進行了研究。圖 5 展示了預訓練模型質量隨訓練時間增加所產生的變化。在訓練時間和計算成本都固定的情況下,Switch Transformer 的速度優勢非常明顯。在這種設置下,如果要達到相似的困惑度,Switch-Base 64 專家模型的訓練時間僅為 T5-Base 模型的 1/7。
  • 網際網路原子彈,算力吞噬者:1750 億參數的 AI 模型 GPT-3 引爆矽谷
    1750 億參數組成的訓練模型言歸正傳,OpenAI 的研究人員在上個月發表了一篇論文,描述了 GPT-3 的開發,正式發布了這個由 1750 億個參數組成的 AI 語言模型。在 NLP 領域中,通常採用 ELMo 算法的思想,即通過在大量的語料上預訓練語言模型,然後再將預訓練好的模型遷移到具體的下遊NLP任務,從而提高模型的能力。GPT 模型是 OpenAI 在 2018 年提出的一種新的 ELMo 算法模型,該模型在預訓練模型的基礎上,只需要做一些微調即可直接遷移到各種 NLP 任務中,因此具有很強的業務遷移能力。
  • 微軟亞研院提出通用預訓練模型MASS
    5月10日消息,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS(Masked Sequence to Sequence Pre-training),在序列到序列的自然語言生成任務中全面超越BERT和GPT。在微軟參加的WMT19機器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。
  • AI資訊|分析現階段最有效的NLP預訓練模型!
    可以在幾天內在單個GPU上進行訓練,其準確性要高於GPT(該模型使用30倍以上的計算能力)。ELECTRA已作為TensorFlow之上的開源模型發布,其中包括許多易於使用的預訓練語言表示模型。ELECTRA更快地進行預訓練ELECTRA使用一種稱為替換令牌檢測(RTD)的新預訓練任務,該任務在從所有輸入位置(如LM)學習的同時訓練雙向模型(如MLM)。受到生成對抗網絡的啟發(GAN),ELECTRA訓練模型以區分「真實」和「偽造」輸入數據。
  • AIOpenIndex發布全球人工智慧創新城市榜單,中國32個城市進入世界...
    放眼全球,世界主要國家都將人工智慧上升成為重大發展戰略,無論是德國的「工業 4.0」、美國的「工業網際網路」、日本的「超智能社會」、還是我國的「中國製造 2025」,人工智慧都是其中的核心關鍵技術。從城市層面,不同城市也根據自身情況成立了人工智慧研究機構,比如中國北京的智源人工智慧研究院、加拿大蒙特婁的 Mila 研究院等。
  • NLP領域預訓練模型的現狀及分析
    預訓練的方法最初是在圖像領域提出的,達到了良好的效果,後來被應用到自然語言處理。預訓練一般分為兩步,首先用某個較大的數據集訓練好模型(這種模型往往比較大,訓練需要大量的內存資源),使模型訓練到一個良好的狀態,然後下一步根據不同的任務,改造預訓練模型,用這個任務的數據集在預訓練模型上進行微調。
  • 超越BERT、GPT,微軟提出通用預訓練模型MASS
    2018年開始,預訓練(pre-train) 毫無疑問成為NLP領域最熱的研究方向。藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。
  • PTMs|2020最新NLP預訓練模型綜述
    提出了一種預訓練模型的分類體系,通過四種分類維度來劃分目前已有的預訓練模型。預訓練模型是學習分布式表徵的重要途徑之一,它的好處主要包括:在大規模語料上進行預訓練能夠學習到「通用的語言表示」,並有助於下遊任務。提供好的模型「參數初始化」,提高泛化性和收斂速度。
  • OpenCV+深度學習預訓練模型,簡單搞定圖像識別 | 教程
    pyimagesearch網站今天發布了一份用OpenCV+深度學習預訓練模型做圖像識別的教程,量子位編譯整理如下:最近,OpenCV 3.3剛剛正式發布,對深度學習(dnn模塊)提供了更好的支持,dnn模塊目前支持Caffe、TensorFlow、Torch、PyTorch等深度學習框架。
  • Pytorch-Transformers 1.0 發布,支持六個預訓練框架,含 27 個預...
    上發布了開源 Pytorch-Transformers 1.0,該項目支持 BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM 等,並包含 27 個預訓練模型。哪些支持PyTorch-Transformers(此前叫做pytorch-pretrained-bert)是面向自然語言處理,當前性能最高的預訓練模型開源庫。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。
  • 復旦邱錫鵬超全NLP預訓練模型綜述論文:兩張圖帶你梳理完整脈絡
    什麼是預訓練語言模型為了確保所有讀者對預訓練語言模型有一定的了解,我們先簡要介紹一下,如果讀者已經比較熟悉了,那麼可以直奔下一部分的「預訓練語言模型大全」。兩張圖看懂預訓練語言模型自從 ELMo 與 BERT 等預訓練語言模型發布以來,它們在各類 NLP 任務上都有非常優異的性能。而為了加強這些能力,現在已經有了非常多的預訓練語言模型,這就像當 GAN 在圖像生成領域取得突破後,出現了一大波新研究。那麼我們怎樣才能理清整個預訓練模型的思路?