金磊 發自 凹非寺
量子位 報導 | 公眾號 QbitAI
不久前,OpenAI 的GPT-3成功跨界,,名曰DALL·E。
而近日,北京智源人工智慧研究院發布了與此類似的中國最大AI模型文匯,包含113億參數。
△ 圖源:智源社區
據了解,這是面向認知的超大規模新型預訓練模型,為的就是解決當前大規模自監督預訓練模型不具有認知能力的問題。
這一項目由北京智源人工智慧研究院、阿里巴巴、清華大學、中國人民大學、中國科學院、搜狗、智譜.AI、循環智能等共同完成。
「文匯」具有怎樣的能力?
「文匯」主要面向的是認知,「看圖說話」是它一種基本能力。
例如,給出下面一張圖片:
「文匯」便能根據這張圖給出這樣的描述:
旗袍是一種古典的風格,它不僅能夠彰顯出女性優雅氣質,而且還具有很好的修飾身形。這款旗袍採用了經典的圓領設計,穿著舒適自在,同時又能夠展現出女性柔美的頸部線條,讓你更加的迷人。精緻的繡花工藝,使得整件衣服看起來更加的精緻,也更加的凸顯出女性的魅力。
也可以在給定一些提示 (Prompt)和圖片的情況下生成文字。
例如,給定的提示是:
走進平定縣宋家莊村,映入眼帘的是
再給出如下所示的圖像:
「文匯」所生成的文字內容為:
一座座古色古香的明清建築,這裡有著濃厚的歷史文化底蘊和獨特的民俗風情。走進村子,就像走進了一個童話故事裡的世外桃源。村子裡的房屋依山而建,錯落有致地分布著各種各樣的古建築群,古樸典雅的建築風格讓人耳目一新。
嗯,確實有「看圖寫作」的味道了。
而在此技術背後,是研究組提出的針對多模態認知生成的大規模預訓練的架構M6:MultiModality-to-MultiModality Multi-task Mega-Transformer。
據了解,模型整體架構基於Transformer,其中圖像進行切塊並對塊採用ResNet-50提取特徵。
這些特徵以及對應的position embedding讓圖像和文本能組合在一起送入模型。
而與GPT不同的是,研究人員使用Transformer-XL來替換了GPT中原來的Transformer模型,從而能夠生成超過Transformer的窗口長度(一般為512)的文本。
系統工程方面,採用的是阿里統一多種並行策略的分布式框架Whale,256卡訓練速度是8GPU的29.4倍,加速比接近線性;而基於中文百科、知乎、問答三類數據,則由搜狗提供。
據介紹,「文匯」的部分應用即將合作上線,目前已有四個樣例應用可用於展示效果:
基於上傳圖片的開放域問答:可以支持用戶上傳圖片後,針對圖片內容進行提問或生成圖片的一句話描述。
Talk to Data:只需要一句自然語言的話,就可以實現數據的可視化自動統計與查詢。
基於預訓練語言模型的詩詞創作應用:可以基於輸入的詩歌題目、朝代、作者,生成仿古詩詞。
可控人設的開放域問答:支持用戶上傳問題,並生成具有人物角色風格的定製化文本回答。
為什麼要做「文匯」?
GPT-3等現有主流模型的能力是有目共睹的,但智源人工智慧研究院為什麼還要打造「文匯」呢?
據介紹,雖然GPT-3在多項任務中表現出色,但它最大的問題是沒有常識,不具有認知能力。
例如,如果問GPT-3「長頸鹿有幾個眼睛」?
GPT-3會回答「2個眼睛」。
但若繼續追問「我的腳有幾個眼睛」?
GPT-3的回答依舊是「2個眼睛」。
對此,智源研究院學術副院長、清華大學計算機系唐傑教授認為:
GPT-3等超大型預訓練模型在處理複雜的認知推理任務上,例如開放對話、基於知識的問答、可控文本生成等,結果仍然與人類智能有較大差距。
為了解決諸如此類現存的問題,早在去年10月,智源研究院啟動了新型超大規模預訓練模型研發項目「悟道」。
而此次發布的是「文匯」,是用於自動生成圖片、文字以及視頻,具有初級認知能力。
智源研究院院長、北京大學信息技術學院黃鐵軍教授指出:
「文匯」模型針對性地設計了多任務預訓練的方法,可以同時學習文→文、圖→文以及圖文→文等多項任務,實現對多個不同模態的概念理解。
目前,「悟道」項目研究團隊已經啟動了四類大規模預訓練模型的研製,包括:
文源,以中文為核心的超大規模預訓練語言模型。
文匯,面向認知的超大規模新型預訓練模型。
文瀾,超大規模多模態預訓練模型。
文溯,超大規模蛋白質序列預訓練模型。
去年11月14日,智源研究院已發布了「文源」第一階段26億參數規模的中文語言模型。
據介紹,智源研究院的下一步,是加快四類大規模預訓練模型的研發進度。
特別是「文匯」模型,未來將著力在多語言、多模態條件下,提升完成開放對話、基於知識的問答、可控文本生成等複雜認知推理任務的能力,使其更加接近人類水平。
並計劃在今年的6月份,實現「中文自然語言應用系統」、「基於圖文增強和知識融入的圖文應用系統」、「基於認知的複雜認知系統」等一批各具特色的超大規模預訓練模型。
參考連結:
— 完 —
本文系網易新聞•網易號特色內容激勵計劃籤約帳號【量子位】原創內容,未經帳號授權,禁止隨意轉載。
原標題:《中國最大AI預訓練模型發布:113億參數!北京智源研究院、阿里、清華等聯手打造》
閱讀原文