今年 6 月,特斯拉創始人 Elon Musk 創立的非盈利性 AI 科研機構 OpenAI 發布了一個名為 GPT-3 的語言模型,堪稱具有劃時代意義的重大科研突破。近日,OpenAI 開放了該模型的 API 申請通道,在外部 AI 研究者的參與下,該模型體現出的卓越性能迅速引爆全球,成為 AI 學術界及產業界的最熱議題之一。
語言模型,顧名思義是能夠理解人類語言的 AI 模型,在廣泛應用的智能助手中,語言模型是其能夠與人類交互的根本驅動因素之一,負責理解人類意圖,並給出合適的回答。
在舊有的語言模型中,一直存在著通用性不高的問題,即一個模型往往只能在某一個特定領域發揮較好的效果。此次 OpenAI 發布的 GPT-3 在這一層面做出了突破,它是一個通用的語言模型,且在訓練過程中更少地依賴人類,也即可以大量節省科研人員的工作。與此同時,GPT-3 的回答準確度並沒有因此而下降,反而在某些任務上能夠超過過去並不通用且需耗費繁瑣精力的語言模型。
API 接口開放後,研發人員利用 GPT-3 構建了很多應用。比如有人做了一個前端頁面編程器,在那裡你可以給 GPT-3 出題,「製作一個紅色的按鈕」、「用黑色 100 號字寫 WELCOME」......只需用自然語言描述,不用寫代碼,這個基於 GPT-3 的程序就能為你返回想要的樣式。甚至,GPT-3 可以寫簡單的 AI 模型代碼。
圖為 GPT-3 寫的圖像分類模型
也有人用 GPT-3 開發了一個可以設計網站的應用,輸入「一個長得像蘋果官網的 Twitter 網站」,就可以直接看到頁面。另外,GPT-3 還可以做數學題,做翻譯,做問答。甚至有人問它「新冠疫情何時結束」,它回答「2023 年 12 月 31 日」,當然,這個答案的準確與否我們暫且無從判斷。
圖為學習過一段棋譜後,GPT-3 掌握了西洋棋技能
出門問問創始人兼 CEO 李志飛對這項技術突破感到激動,他認為這是一個重量級超過 AlphaGo 的技術突破,讓人類真切看到了通往更加通用的語言智能的希望。李志飛在人工智慧語音語義技術領域擁有近二十年的科研及產業經驗,是美國約翰霍普金斯大學計算機系博士,前 Google 總部科學家。他認為,GPT-3 的出現飽含著「功能主義」的哲學意味,先求其然,再求其所以然,其背後是科研信念的支撐,是一種基於經驗的直覺,也是最樸素的唯物主義世界觀。
針對 GPT-3 的話題,極客公園與李志飛進行了深入交流。通過他的解讀,你將能夠理解為何 GPT-3 被稱為「暴力美學」的勝利,以及 AI 模型如何以其獨特的視角闡釋「事物的發展均是由量變達到質變」。
——「GPT-3是語言模型中的全能學霸,他在無監督下的自主學習能力非常強」
無往不勝的 GPT-3,本質是一個語言模型,且是語言模型中一位實力卓然的學霸。李志飛生動地把他比喻為一位學生,從咿呀學語到精通各國文學,從為你寫詩到譜曲讀畫,可以與人類自如對話,作文幾乎通過圖靈測試。
極客公園:GPT-3 本質是一個語言模型,對大眾來說,如何理解什麼是語言模型?
李志飛:如同物理模型是用來理解和描述這個物理世界的本質一樣,語言模型用來理解和描述語言的本質是什麼。人類有世界觀,也有語言觀,比如說語言是什麼、構成語言的詞或短語之間的關係又是什麼。
簡單抽象來說,語言模型主要用來做兩件事。一是對自然語言做理解,比如給出兩個句子,語言模型會判斷哪個句子更像自然語言、句子裡面的詞或短語的依賴關係是什麼;二是對自然語言做預測,比如只給出一句話的前幾個字,語言模型根據語言規律來預測後面的字是什麼。
極客公園:語言模型能用來做什麼呢?
李志飛:傳統意義的語言模型主要用在語音識別、機器翻譯、OCR(光學字符識別,即針對印刷體字符,採用光學的方式將其轉換為電子文本格式)等序列到序列任務裡,對目標序列做預測和判斷。
最常見的兩種用途之一是,機器會將一句中文翻譯成不同的英文,語言模型會對每句英文翻譯進行打分,從而選擇最優的翻譯。另一種是,在語音識別中,僅說到「我們正在聊……」, 語言模型就會預測出, 你大概率要說的是「我們正在聊天」,即使沒聽到「天」的聲音就能判斷出你將要說什麼話,而聽到的聲音則是這個信號的加強。
但是 GPT-3 代表著語言模型新的用法,不僅只是目標序列的預測或判斷,而是可以把序列到序列這種涉及到兩個序列的任務轉換成一個單一序列的問題,這種轉換的結果是模型非常通用,可以直接用來做語言生成、機器翻譯、問題回答、文本摘要、數字計算、程序生成等多項任務,可以說是萬能的。
極客公園:我們怎麼訓練出這個萬能的語言模型?
李志飛:如果把訓練一個模型類比成培養一個學生,我們一般遵從一種叫作「先預訓練、後微調」的教學方法。具體來說,我們先給機器很多書本讓他自己讀,這就是所謂的無監督預訓練(pre-training);然後給他很多有答案的題目讓他做練習,這就是所謂的有監督的微調(fine-tuning)。經歷這個學習過程,模型就訓練出來了,接下來就可以對他進行各種考試了,比如說給他一句中文讓他翻譯成英文。但 GPT-3 模型是不需要微調的,所以是完全無監督的,是一個全靠自學成才的優等生。
極客公園:GPT-3 厲害在哪裡?是因為聰明還是題海戰術?
李志飛:GPT-3 的厲害之處可以用三個詞來總結:多任務(multi-task)、無監督(unsupervised)、小樣本動態學習(few-shot learning)。
具體來說,以前的模型一般只能處理單一的任務,對每一個應用場景都要單獨訓練模型。比如針對翻譯考試要單獨訓練一個翻譯模型,針對做數學題要單獨訓練一個數學模型。但是 GPT-3 可以在單一模型裡處理多個任務,非常通用,而且每一個任務都處理得不錯。如果將他比喻為一個學生的話,那他簡直是一位科科都是高分的全才。另外,考試的時候,GPT-3 可以應對人類自由風格的綜合面試,人們可以在自然的對話中隨意出題,問題可以是天文、地理、歷史、算術等穿插著進行。
更讓人激動的是,這麼一個優秀的學生在學習過程中居然是無監督、完全自主驅動的,也就是學習過程他不需要人們提供有答案的練習題來複習測驗(微調模型),只要給他無限多的文本序列,就能自動從文本裡學到各種知識。在他的學習成長經歷裡,就像從一個咿呀學語的小孩開始,僅需要教會他最基本的拼音識字(類似於 GPT 裡的數據編碼),然後給他《世界通史》《四大名著》《算數啟蒙》等各類書籍,他就會開始主動地自學,也不需要向誰請教,通過一段時間的自學,就成為一個跨學科的厲害學霸了。
考試時,對於常見的任務,不需要給例子,GPT-3 就可以很好的答題了,比如說寫作文,你出一個標題,他就自動有模有樣的把文章給你寫完。對於一些不那麼常見或不簡單的任務,只要給他幾個例子,他也可以開始識別並完成新的任務。比如你對 GPT-3 說:這裡有兩個表示高興的例子「我今天很開心」、「這真是激動人心」,你給我第三個表示開心的例子。GPT-3 也許就可以給出「我真是 high 到爆了」。正是因為 GPT-3 不預設任務的無監督學習特性,當考試拓展到編程、繪畫、譜曲、翻譯、算數等超越一般語言模型任務的題目時,他只需要小樣本學習就能對答。這種對新任務舉一反三過程,和人的學習有相通之處。
客觀地說,我們還從來沒見過這麼優秀的、才華橫溢的考生,而且他對自己幾乎沒有設限,無論輸入和輸出都是可以多模態的。
極客公園:從 GPT-3 的名字來看,好像不是這一系列的第一代模型?
李志飛:是的,他有兩位哥哥 GPT-1 和 GPT-2,但是 GPT-3 青勝於藍。
大哥 GPT-1 出生於 2018 年 6 月,應試成績還不錯,但是對於很多科目都需要監督式學習,東家 OpenAI 對此並不滿意,成績也沒有在業界引起特別的反響,但 GPT-1 開創了「先預訓練、後微調」的教學先河,反而讓隔壁 Google 的 BERT 在業界大火特火。
於是 OpenAI 潛心研究,決定完全放棄監督式的微調過程,開啟自學培養機制,半年後(2019 年 2 月),二哥 GPT-2 出生,考試中發揮不錯,尤其是在自由寫作(命題作文,給出開頭,GPT-2 完成下文)表現亮眼,引起了較大轟動。但是由於數據量和模型還是不夠大,對於更難的科目如翻譯、問題回答等考得很糟糕。
OpenAI 繼續苦心鑽研無監督學習,並將數據和模型增至百倍,小弟 GPT-3 在這次考試中終於揚眉吐氣、一舉成名。
極客公園:GPT-3 的突破是如何產生的?
李志飛:GPT-3 的最基本假設是:如果序列數據規模足夠大(比如說整個網際網路內容),那麼數據序列裡自然就包含了人類日常生活中各種任務(如翻譯、算數)的描述和例子;既然語言模型就是用來預測這些數據序列的,所以如果他規模足夠大,他自然就應學習到怎麼檢測並執行這些任務。(這裡邏輯有點嵌套拗口,得自己慢慢品)
比如說,你要去美國出差,找廁所是剛需,當你想問「附近有沒有廁所」時,英文你可以說「where is the restroom」。你看,這裡我們就給海量網際網路數據貢獻了一個中文到英文的翻譯例子,只不過這個例子完全是隱含在自然語言序列裡,而不是用一個特別死板的格式。GPT-3 特別厲害之處就是可以從海量的數據序列裡自學到很多類似這樣翻譯的任務及例子。這樣的想法本來也不新鮮,很多研究人員都有,但是很少人相信機器能用一個理論超級簡單的語言模型就能自學成才,但是 OpenAI 相信並踐行了這個簡單想法。
極客公園:GPT-3 的學習樣本和模型有多大,跟人類比呢?
李志飛:GTP-3 可以把整個網際網路的浩瀚內容全部讀完,他總共閱讀了大約 5000 億詞,並從 5000 億詞裡採樣 3000 億進行訓練,模型大概有 1750 億參數。系統可以上萬個 CPU/GPU 在 24 小時不間斷地「閱讀」任何領域的信息,半個月即可讀完整個網際網路的內容,而人類即使終其一生手不釋捲地閱讀,其讀書量也不過萬冊,GPT-3 在「努力」這一點上太有優勢了。
另外,一般認為,人類大腦有 800 億神經元,連接參數在 100 萬億到 1000 萬億之間。所以,雖然 GPT-3 讀的內容量遠超人類,但是他 1750 億的參數規模離大腦還差幾個數量級。當然,目前 GPT-3 只做語言相關的任務,而大腦還要處理運動、視覺、推理、規劃、情感等更多任務。另外一個有趣的比較是,GPT-3 做文本生成時大概功耗是 400 瓦,而人腦一般認為是 20 瓦。
極客公園:聽起來很「暴力」?
李志飛:對,就是一種「暴力美學」。
——「也許在工業界,人工智慧的終極算法就是「暴力美學」」
擁有如此強大學習能力的 GPT-3,究竟抵達何種程度的邊界體量。
今年 5 月,微軟為 OpenAI 的模型訓練提供了一臺全球前五的超級計算機,它總共有 28.5 萬個 CPU 核心、1 萬個英偉達 V100 GPU 和每秒 400G 的網絡。有人說,人工智慧模型比衛星成本都貴。據專業測算,訓練一個 GPT-3 模型的第一階段需要「355 個 GPU 年」,僅這一階段的訓練費用高達 450 萬美元。這一切看起來都只是暴力美學,但真的只是暴力即美嗎?
大多數人,只看到了模型之暴力,鮮少人看到他技術上真正的難度和價值。
極客公園:GPT 的模型到底有多暴力?
李志飛:前面提到,GPT 模型到現在經歷了三代,第一代是先做無監督的預訓練後做有監督的微調,第二代和第三代徹底拋棄微調、完全是無監督的。三代之間模型本身基本沒什麼變化,都是基於 Google 的 Transformer 的從左到右 Decoder 模型。主要差異是模型規模,是訓練數據、模型參數、任務數量的歷代爆發式增長。
2018 年誕生的第一代 GPT-1 的訓練數據包含幾十億詞,有 1.25 億參數;
2019 年誕生的 GPT-2 是對 GPT-1 模型的擴展,在超出 10 倍的數據量上進行訓練,有 15 億參數;
2020 年誕生的「後浪」GPT-3,訓練數據量浩如煙海,多達 5000 億詞,參數量擴展至 116 倍,有 1750 億參數, 實現對 GPT-2 兩個數量級的增長,訓練一次模型預計要花 450 多萬美金,也因此得到了極其出色的性能表現,真是驗證了錢多出奇蹟。
GPT-1、GPT-2、GPT-3 的對比數據
極客公園:除了模型和數據暴力外,還有別的暴力嗎?
李志飛:除了數據和模型暴力外,GPT-3 覆蓋的任務多達 50 多個,論文的作者多達 31 個,這看起來也很暴力。這跟傳統的學術研究有點不太一樣,傳統的學術研究是學校裡一個教授帶幾個學生單兵作戰,但 OpenAI 是兵團作戰。傳統研究涉及到多人協作時是比較鬆散的,但是 GPT-3 是幾十人的有組織的系統性合作,有人出主意、有人搞數據、有人寫代碼、有人做實驗、有人做評測。其實最近幾年幾個影響比較大的人工智慧研究都是類似的模式,比如 Google 的神經機器翻譯、BERT、Tensorflow 都是這種有組織的團隊合作。
在論文裡,還有一個很好玩的細節,在講到防止測試數據存在於訓練數據裡而汙染訓練過程時,作者承認有一個程序 bug,但是由於重新訓練模型實在太貴又經費不足就只能不管了,這在特別強調嚴謹性的學術界是匪夷所思的。
極客公園:暴力有技術含量嗎?
李志飛:非常有。GPT 三代,數據量從幾十億詞、到幾百億詞、再到 5000 億詞,模型參數從 1.25 億到 15 億、再到 1750 億,這本身就是巨大的工程挑戰,需要那種既懂基礎算法、又有超強的工程能力的科學家和工程師一起通力協作才有可能做成。比如說如果一個參數佔 4 個字節,那 1750 億參數的模型就需要 750G 內存,這遠超單一 GPU 的最大顯存,顯然需要分布式的 CPU/GPU 異構訓練系統。
這讓我回想起在美國約翰霍普金斯讀博士和谷歌研究院工作的兩段經歷。在學校讀博士做機器翻譯實驗時,由於學校計算設施比較弱、自己單打獨鬥,經常需要半夜爬起來重啟機器,或者拷貝數據到沒有死的機器上重啟訓練。在谷歌做機器翻譯時,由於良好的分布式計算框架以及組裡幾十位一流的工程師把算法框架做的非常通用可靠,做實驗時只要在下午下班前提交訓練任務,第二天早上郵箱裡就會自動收到新模型的各種測試成績,這實在是太輕鬆了,而且處理的數據量和語言種類都是學校的好幾個數量級。這兩段一線經歷讓我切身感受到了暴力規模化的難度和價值。
極客公園:所以一從工程角度看,「暴力」本身是一種美。
李志飛:暴力是不是美?這件事可以由藝術大師來闡釋。但現實來看, 也許在工業界,人工智慧的終極算法就是「暴力美學」。當把數據量、模型規模做到足夠大時, 語言模型將會越來越通用,目前看來是可以通往更加通用 AI 的。
極客公園:「暴力美學」有盡頭嗎?下一步是什麼?
李志飛:我相信還沒有到盡頭。
網際網路的數據每個月都在不斷增長,計算力也在不斷增強;如果把人類大腦比做模型的終極目標,GPT-3 的參數規模跟人腦比還差好幾個數量級;GPT-3 隨著數據和參數規模增大而展現出的學習能力曲線目前也還沒有要停止的意思。雖然 AI 的學習能力還沒有達到大家公認的「摩爾定律」,但是過去幾年確實看到模型每幾個月就翻倍。可以預測到的是,GPT-4 參數又會增大至少 10 倍,而且處理的數據將會更加多模態(文字、圖像、視覺、聲音)。
極客公園:為什麼 OpenAI 這麼信仰「暴力美學」?
李志飛:OpenAI 的使命是創造更加通用的人工智慧(AGI),並始終朝著這一使命努力奔赴著。關於如何實現 AGI,有兩種流行的信念。一種認為現有算法原理足矣,問題只是如何規模化;另一種認為,現有的深度學習技術還不夠,還需全新的算法範式。大多數研究人員都處於這兩個極端之間,但 OpenAI 一直以來幾乎都站在「規模化」這一極端,他們懷著對「暴力美學」的信仰,相信只要模型足夠大,就能實現 AGI。過去,他們的大多數突破也都是建立在對大量計算和數據資源的投入上。
極客公園:那您信仰「暴力美學」嗎?
李志飛:我以前特別反對暴力,覺得沒有什麼深度,研究也沒有美感,不能讓人內心愉悅。但是,最近的很多現實進展讓我開始相信或者至少不再一味排斥「暴力美學」。我認識到,很多網絡系統,它們的底層節點和節點之間交互規則非常簡單,但是只要網絡規模足夠大、系統內節點間交互足夠密集頻繁,系統一層一層往上構建,假以時日就會展現出令人驚訝的「集體智能」行為。計算機、網際網路、人類社會作為一個系統都是這種現象,誰說人腦就一定不是上帝的「暴力美學」呢?畢竟人腦的參數比 GPT-3 還大幾個數量級呢。所以,很慚愧地說,對於「暴力美學」,我是因為看見而相信,而 OpenAI 是因為相信而看見。
——「開放擁抱、先模仿再創新、與全世界共同迭代」
極客公園:GPT-3 的現實意義是什麼? 將對 AI 技術帶來怎樣的改變?
李志飛:在我看來,GPT-3 的現實影響力可能會比 AlphaGo 更大。AlphaGo 更多是對人類心智的衝擊,但他的應用層面是比較窄的,甚至沒有直接可以工業應用的地方。而 GPT-3 可以應用的場景太多了,他基本是一個增強版的搜尋引擎或 AI 助理, 可以回答問題、編程、寫新聞稿、數學推理、做財務報表……而且一個模型就可以做所有事。這是具有巨大商業價值的一個事情,聽說 OpenAI 就在考慮用戶為使用語言模型而付費的這種聞所未聞的商業模式。
我相信,GPT-3 有潛力形成類似 TensorFlow/Android 上下遊的生態系統,事實上,已經有很多開發者基於 GPT-3 的 API 開發了很多有意思的應用。
極客公園:GPT-3 完美嗎?智能嗎?
李志飛:當然不完美,現在很多擁抱 GPT-3 的早期用戶,由於對技術和新鮮事物的熱愛,他們的接受度比較大,所以存在一定的 hype。但是,一個新的技術要變成一個普適性的大眾產品還有特別多的工程和產品細節需要打磨。
關於智能,一種觀點認為,GPT-3 不具備人類的抽象和推理能力,它的表現只是對大數據的聰明記憶,無法超越數據本身;另一種觀點認為,他擁有抽象理解和推理的能力。我認為目前的 GPT-3 介於這兩種極端之間。
為什麼呢?網上有一個例子很好的佐證這個觀點。比如說 GPT-3 可以做加減法,如果是兩位數,他獲得 100 分,那麼他是否完全「學會了」加法嗎?答案是沒有,因為五位數加減時只有 10% 的準確率。另外一方面,如果只是純粹的記憶,就算記住這 10% 正確的五位數加減法,現有規模的數據裡需要至少有 1% 的語言序列是關於五位數加減法的,顯然網際網路數據上不可能有這麼高頻的關於五位數加減法的語言序列,所以他不是純粹的記憶。當然,我們確實也沒有理解他到底抽象理解到了什麼,這是未來很重要的研究主題。
極客公園:面對 GPT-3,我們該持什麼樣的態度?
李志飛:面對暴力算法,傳統的學術研究很容易輕視怠慢,覺得只是數據和模型的規模更大而已。但我覺得不要因為他現有理論不夠精深,或目前看起來仍有很多差錯, 就急著去否定他。我認為,當你沒有更加通用並且有效的方法, 我們應該從實用主義的態度上去擁抱、學習、改進它。至少目前看來,GPT-3 是有通往更加通用的人工智慧的潛力。
極客公園:GPT-3 這麼暴力,我們怎樣去擁抱?感覺只有超級公司才能玩。
李志飛:不全是。很多模型或算法的難點在於沒有實現前,我們不知道行不行。但現在 OpenAI 證明 GPT-3 是可行的。基於這個,還有很多工作可以展開。比如說,作為工程師和創業企業,可以開始用 GPT-3 的 API 去進一步驗證他的強項和弱項。對於學術界,可以進行小規模可控制的實驗去研究或拓展 GPT-3,也可以去做實驗解釋暴力為什麼這麼美,還可以多美?
當然,不可否認的是,我們首先得複製一個類似於 GPT-3 的系統。因為中文數據量級會比英文小很多,整個工程難度自然也會小不少,我們可以從複製一個中文 GPT-3 開始。有了這麼一個基礎系統後,我們才可以跟世界同步迭代、改進,並共同創新。
極客公園:出門問問會做中文的 GPT-3 嗎?
李志飛:有可能,我們一直對更加通用的語言智能很有興趣。
極客公園:GPT-3 誕生於美國,在目前的中美格局下, 中國該如何應對?
李志飛:據 OpenAI 的統計,讓人類對 GPT-3 模型生成的約 500 詞文章來判斷這個文章到底是人類還是 GPT-3 撰寫的,人類判斷準確率僅僅只有 52%,即隨機猜硬幣正反的概率。基於這一點,我們可以預見,也許未來三五年,網際網路上的大部分內容是類 GPT 模型生成或修改過的。某種程度上,因為 GPT 模型告訴你什麼是更自然的語言、什麼是更正確的答案,人類的語言習慣和知識體系都會被 GPT 模型大幅度影響。所以,人工智慧的發展代表著語言主權的演進,且 GPT-3 將有潛力成為一種生態系統,我們必須加以重視,去創造和迭代中文的 GPT-3。
極客公園:面對 GPT-3 這個超級學霸,我們人類需要擔心嗎?
李志飛:需要,如果人類再不努力的話,也許明年,GPT 就比 99% 人類在語言方面更厲害了。當然,GPT-3 也只是機器邁向「智能」之峰的一級比較大的臺階,路漫漫其修遠兮,AI 上下而求索。
責任編輯:宋德勝
圖片來源:OpenAI、出門問問技術團隊
本文首發於極客公園,轉載請聯繫極客君微信geekparker 或 zhuanzai@geekpark.net