微軟獲自然語言處理模型 GPT-3 獨家授權

2020-12-25 財富中國網

今年以來,人工智慧領域出現了一個熱詞:GPT-3。

由人工智慧非營利組織OpenAI 耗資 1200 萬美元開發,涵蓋 1750 億個參數,達到了目前最佳 SOTA,寫作水平媲美人類。種種光環加持下,自然語言處理模型GPT-3 已然成為一款 AI 神器。

進入 9 月,OpenAI 決定開放 GPT-3 商業版 API,定價方案也一併公布。而就在前幾天,OpenAI 和微軟公司共同宣布,微軟獲得 GPT-3 獨家授權。

不過,這一決定引來了OpenAI 聯合創始人伊隆·馬斯克(Elon Musk)和知名人工智慧學者蓋瑞·馬庫斯(Gary Marcus)等業內人士的怒懟。

「人工智慧研究將走向民主」

2020 年 9 月 22 日,微軟在官網發布博客稱,微軟與 OpenAI 合作,獲得 GPT-3 語言模型的獨家授權。

微軟執行副總裁兼 CTOKevinScott 在博客中表示:

獲得 GPT-3 獨家授權的微軟,將利用技術創新為客戶開發、交付先進的人工智慧解決方案,同時利用 GPT-3 的驚人力量打造全新的解決方案。微軟將要讓最前沿的人工智慧研究走向民主,從而助力實現安全的通用人工智慧。

KevinScott 認為,GPT-3 模型釋放的商業和創意潛力巨大,很多可能出現的發展我們甚至都想像不到。要真正以大規模、負責任、經濟公平的方式激發 GPT-3 的潛力,不是僅憑一家科技公司就能做到的,需要更多的人力投入。

博文通篇都像是在表達一句話——我們看到了 OpenAI 的巨大價值。

KevinScott 也暗示,未來將打造 AI 翻譯工具,甚至將利用GPT-3 幫助人類寫作,但具體會有什麼商業用途並未明確表示。

那麼,OpenAI 對於「獨家授權」作何解釋?

OpenAI 在 22 號的博文中明確表示,「獨家授權」並不會影響用戶通過 API 繼續訪問 GPT-3 模型,未來用戶依然能夠通過 API 構建應用程式。

不過,據外媒 The Verge 報導,一名微軟發言人稱這項決定讓微軟獲得了 GPT-3 底層代碼的獨家使用權,其中就包含了微軟希望加持到自家產品和服務中的先進技術。

回溯 OpenAI 和微軟的合作,2019 年 7 月是一個標誌性的時間節點。

當時,微軟宣布對 OpenAI 投資 10 億美元。作為 OpenAI 獨家雲服務提供商,微軟要和 OpenAI 長期合作構建新的 Azure AI 超級計算技術,進一步發展 AI 能力。

作為交換,OpenAI 將其部分智慧財產權授權給微軟。

這之後,微軟把這些智慧財產權商業化,出售給了合作夥伴,在 OpenAI 開發下一代計算硬體的過程中,通過 Azure 訓練運行 AI 模型。

不到一年,二者的合作有了成果——2020 年 5 月 19 日,微軟在 Build 2020 開發者大會上宣布了專為 OpenAI 的 AI 模型設計的超級計算機。

微軟表示,這款超級計算機的性能居於世界 Top 5 之列。

這一超級計算機擁有 285000 個 CPU 內核、10000 個 GPU 和 400Gbps 網絡連接,專用於訓練大規模人工智慧模型,使得人工智慧模型可從出版的書籍、教學手冊、歷史課、人力資源指南和其他公開來源中獲取數十億頁的文本。

從開始投資、宣布超算,再到獨家授權,OpenAI 似乎離它的 10 億美元通用人工智慧夢又近了一步。

「OpenAI 還不如改名為 ClosedAI」

而另一邊,不少 Twitter 網友卻都表現出了不滿。

比如 Whole Mars Catalog 認為 OpenAI 應該讓 GPT-3 得到廣泛應用,不應該給微軟獨家授權。說罷,Whole Mars Catalog 還 cue 了 OpenAI 聯合創始人 Elon Musk。

每天都活躍於 Twitter 的 Elon Musk 當然也回復了,看法一針見血:

這種決定似乎是與「開放」相悖的。實質上 OpenAI 已經被微軟控制了。(原話是 This does seem like the opposite of open. OpenAI is essentially captured by Microsoft.)

就像另外一位網友 Disrupt or Distort 所說的:

OpenAI 直接改名為 ClosedAI 算了。

Elon Musk 作為聯合創始人,對 OpenAI 說話這樣不留情面,背後是有什麼原因嗎?

外媒 Business Insider 的看法是,Elon Musk 可能是在針對微軟聯合創始人比爾·蓋茨(Bill Gates)。

的確,Elon Musk 和Bill Gates 兩位科技圈大佬一直以來沒少互懟。6 月 30 日,Elon Musk 還「闢謠」稱:說我和Bill Gates 是愛人的可以歇歇了。

兩人最近的一次針鋒相對是,8月底 Bill Gates 在博客中表示,皮卡車(如特斯拉 Semi)和電動噴飛機很可能永遠不會出現。Elon Musk 聽了當然不開心,表示「他不懂」。

話說回來,Elon Musk 也不是第一次公開批評 OpenAI 了。

早在 2015年,Elon Musk 聯合 LinkedIn 創始人、Y Combinator 總裁及 Pay Pal 創始人等共同宣布創立 Open AI,目標就是打造屬於全人類的、開放的 AI。

2018 年 2 月,OpenAI 官宣 Elon Musk 退出董事會,避免因特斯拉造成的利益衝突。不過,Elon Musk 會繼續擔任 OpenAI 顧問,提供資金支持。

當時外界猜測可能的原因是,Elon Musk 時不時會讓OpenAI 的科學家幫忙給特斯拉出主意,OpenAI 簡直成了特斯拉的「外援」。

而根本原因在於二者的固有矛盾——如果說 OpenAI 是理想,那麼特斯拉就是現實,而理想與現實無法共存。

2020 年 2 月,Elon Musk在推特上表示對 OpenAI在人工智慧方面的安全措施「信心不高」,也提到自己近段時間在 OpenAI「沒有控制權」、「洞察力有限」。

除了 Elon Musk,Robust.AI 創始人兼 CEO、人工智慧大佬馬庫斯(Gary Marcus)也在得知微軟獲得獨家授權的新聞後化身馬懟懟:原來擁有獨一無二的權力才叫民主。

被捧上天的GPT-3

值得一提的是,Gary Marcus對 OpenAI 的 GPT-3一直以來都很有成見。

Gary Marcus 在 Twitter 的置頂推文就是在噴GPT-3:

GPT-3 之前的兩代語言模型是「狗屎藝術家」,GPT-3 雖說好一點,但本質上還是「狗屎藝術家」。

但 GPT-3 的一個奇特之處就在於,一邊被貶為狗屎,一邊被捧上天。

性能方面,模型越大,GPT-3在可訓練總數、層級數、學習比率方面的表現越好。

答題、寫文章、翻譯、生成代碼、做數學推理、數據分析、畫圖表、製作簡歷、打遊戲無所不能,而且效果都很贊,GPT-3 成為最火的 AI 領域話題,網友驚呼 GPT-3 成精了。

不過,即便可以玩轉 50 多種任務,GPT-3 還是連一些基本的常識題和數學邏輯都通過不了。

OpenAI 聯合創始人 Sam Altman 也認為 GPT-3 是被過度炒作了:

對 GPT-3 的炒作實在太多了。它仍然存在嚴重的缺陷,有時還很蠢。

不僅如此,GPT-3 還引發了有關強大的人工智慧程序可能被用於邪惡目的的道德問題的激烈辯論。

最初,OpenAI 拒絕發表GPT-3 的相關研究,也正是出於擔心它被濫用的考慮。

相關焦點

  • PyTorch-Transformers:最先進的自然語言處理庫(附帶python代碼)
    .」 – Sebastian Ruder想像一下我們有能力構建支持谷歌翻譯的自然語言處理(NLP)模型,並且在Python中僅需幾行代碼來完成,這聽起來是不是讓人非常興奮。而現在我們就可以坐在自己的機器前實現這個了!藉助於被HuggingFace稱為PyTorch-Transformers目前最先進的NLP工具。
  • 微軟分享史上最大基於Transformer架構的語言生成模型
    基於Transformer的架構,意味著該模型可以生成單詞來完成開放式文本任務。除了完成未完成的句子外,它還可以生成對輸入文檔的問題和摘要的直接答案。去年8月,英偉達曾宣布已訓練世界上最大的基於Transformer的語言模型,當時該模型使用了83億個參數,比BERT大24倍,比OpenAI的GPT-2大5倍。
  • GPT-3:一個令人失望的語言模型
    GPT-2 論文認為,語言模型(文本預測器)在用作 NLP 基準測試的一些特定任務上可以做得很好,或者在某些場景下「至少不是很糟糕」——即使模型事先並不了解這些任務的細節。這主要是為了證明語言模型的能力有多強。
  • 自然語言處理最強 AI 模型 GPT-3:未來還有多少可能?(下)
    編者按:今年夏天,OpenAI推出了一個新的計算機系統,這個新系統名為 GPT-3。在自然語言處理方面,GPT-3展示出驚人的能力,它能寫文章,做翻譯,還能生成代碼,甚至可以學習一個人的語言模式,並遵循這個模式與人進行談話。但是,GPT-3也有一定的缺陷,未來還需逐步完善。本文是下篇,上篇主要介紹了GPT-3的功能和特性,下篇將介紹GPT-3的缺陷及未來發展方向。
  • Vokenization:一種比GPT-3更有常識的視覺語言模型
    我們知道,現在人工智慧領域,圖像識別和自然語言處理(NLP)正處在如日中天的發展階段。在眾多單項上面,圖像識別的能力要遠遠高於普通人,甚至比專家還好,NLP的翻譯、聽讀、寫作能力更是與專業人士不相上下,特別今年推出的GPT-3,更是以超大參數規模這種氪金方式來實現逆天的寫作能力。但這又怎樣?
  • 網際網路原子彈,算力吞噬者:1750 億參數的 AI 模型 GPT-3 引爆矽谷
    整個 2019 年,GPT-2 都是 NLP 界最耀眼的明星之一,與 BERT、Transformer XL、XLNet 等大型自然語言處理模型輪番在各大自然語言處理任務排行榜上刷新最佳紀錄。而 GPT-2 得益於其穩定、優異的性能在業界獨領風騷。而 GPT-3 的參數量足足是 GPT-2 的 116 倍,實現了對整個 2019 年的所有大型自然語言處理模型的降維打擊。
  • 性能堪比GPT-3,但參數量僅為0.1%,LMU團隊推出NLP最強文本生成模型
    模型越大,性能越佳?答案可能是不一定。在NLP領域,談到超大模型必然想到預訓練語言模型GPT-3,自今年3月份對外開放以來,其因超大模型和超強性能頻頻刷屏。GPT-3擁有1750億參數量,約有700G大小,一次訓練成本高達上百萬美元。1750億是什麼概念?去年2月份,OpenAI推出的GPT-2參數量為僅15億,是它的1\116。
  • OpenAI發布GPT3 api調用接口!可處理幾乎所有英文問題
    博客連結https://slatestarcodex.com/2020/06/10/the-obligatory-gpt-3-post/這麼好的東西當然是大家一起用才好。GPT-3系列自然語言理解模型的各種功能可供開發人員使用。內測連結:https://forms.office.com/Pages/ResponsePage.aspx?
  • 代碼也能預訓練,微軟&哈工大最新提出 CodeBERT 模型,支持自然...
    該預訓練模型能夠處理NL-PL 的普遍問題,例如用自然語言搜索代碼、自動生成代碼等。 所謂自然語言代碼搜索,所要解決的問題是,如何通過自然語言query查找到所需的代碼塊,這和我們常用的搜尋引擎(通過自然語言query來查找所需網頁)類似。
  • 用飛槳做自然語言處理:神經網絡語言模型應用實例 - 量子位
    想要讓模型能落地奔跑,就需藉助深度學習框架之力,Tensorflow、PyTorch自然是主流,但在Dropout都成獨家專利之後,不儲備「B計劃」,多少讓人有些擔驚受怕這裡有一份飛槳(PaddlePaddle)語言模型應用實例,從基礎概念到代碼實現,娓娓道來,一一說明。現在,量子位分享轉載如下,宜學習,宜收藏。
  • 滴滴開源自然語言理解模型訓練平臺DELTA | ACL 2019
    日,自然語言處理領域頂級會議 ACL2019 在義大利佛羅倫斯召開,會上滴滴正式宣布開源基於深度學習的語音和自然語言理解模型訓練平臺 DELTA,以進一步幫助 AI 開發者創建、部署自然語言處理和語音模型,構建高效的解決方案,助力 NLP 應用更好落地。
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group
  • 微軟AI模型在SuperGLUE基準超越人類位居排行榜第一
    DeBERTa是一種變換(Transformer)神經語言模型,使用自我監督式學習技術,以大量原始文本資料進行預訓練,與其他預訓練語言模型一樣,DeBERTa目的在於學習通用語言表達形式,用來解決各種自然語言理解任務。  由於對話式人工智慧深度學習模型已發展到一定的程度,過去的基準測試被認為不敷使用。
  • NeurIPS 2020獎項出爐:GPT-3等三項研究獲最佳論文獎
    在一千八百餘篇論文中,三篇論文獲會議最佳論文獎項,OpenAI 等機構的 GPT-3 研究名列其中,可謂實至名歸。人工智慧頂會 NeurIPS 2020 於本月 6 日 - 12 日在線上舉行,預計此次會議將迎來 18,000 名參會者。
  • 人工智慧之自然語言處理初探
    編輯導讀:自然語言處理是人工智慧的一個細分領域,是一個龐大的系統的工程。本文將從自然語言處理的簡介、句法分析、發展現狀、話語分割、知識體系、指代消解六個方面展開分析,希望對你有幫助。
  • 1750億參數,史上最大AI模型GPT-3上線:不僅會寫文,答題,還懂數學
    「我們訓練了 GPT-3,一種具有 1750 億參數的自回歸語言模型,這個數字比以往任何非稀疏語言模型都多 10 倍。我們在 few-shot 情況下測試了它的性能。」本周五,OpenAI 提出的 GPT-3 在社交網絡上掀起了新一陣風潮。
  • GPT-3的50種玩法告訴你,它很酷,但是沒有通過圖靈測試
    1被玩high的GPT-31、根據描述生成HTML布局和代碼用語言來做網頁,有聽說過嗎?這個應用可以根據輸入的自然語言描述生成HTML網頁布局,以及相應代碼。例如,我們輸入「創建一個長得像西瓜的按鈕」,就生成了下圖中綠皮紅瓢的原型按鈕。
  • 自然語言模型算法太雜亂?國產統一 AI 開源框架來了!|文末福利
    2019年8月,基於深度學習的語音和自然語言理解模型訓練平臺DELTA正式開源。一經開源,DELTA登上GitHub 熱榜,獲得 1k+的Star數,受到深度學習框架Keras的作者Franois Chollet的關注。DELTA可助力AI開發者創建、部署自然語言處理和語音模型,構建高效的解決方案,讓NLP應用更好落地。
  • 自然語言處理之詞性標註
    從組合和聚合關係來說,一個詞類是指:在一個語言中,眾多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。 詞性是語言學中的術語,是最普遍的語法的聚合。它是指在語言中以詞本身的特點(語法特徵、句法功能、形態變化等)、兼顧詞彙意義等對詞語進行劃分分類的依據,詞類即根據詞性進行劃分後的結果。
  • 用GPT-2做個「姥爺」!57行代碼給《瑞克和莫蒂》寫新劇集
    大數據文摘出品來源:Medium編譯:xt、coolboy最近,一提到語言模型,我們想到的可能就是GPT-3,畢竟是有史以來規模最大的語言模型,參數高達1750億個。介紹隨著機器學習(Machine Learning, ML)和自然語言處理(Natural Language Processing, NLP)技術的快速進展,新算法具備生成文本的能力,這些文本也變得越來越接近人類寫出的內容。GPT21就是其中一個算法,它被應用在很多開源項目2中。