GPT-3 除了文本聯想、翻譯、寫詩,還能畫畫、做財務報表、編程,「一個模型就可以做所有事」。通用,就是 GPT-3 的革命性。
2016 年,AlphaGo 可以說確立了 AI 的「圍棋霸權」。但人工智慧專家李志飛卻說,「AlphaGo 更多是對人類心智的衝擊」。在過去 5 年裡,他認為去年問世的 AI GPT-3 的現實影響力可能會比 AlphaGo 更大,因為 GPT-3 讓人類真切看到了通用語言智能的希望。
AlphaGo 雖能輕鬆擊敗人類,但也只限於圍棋等專精領域,無法「觸類旁通」;而 GPT-3 除了文本聯想、翻譯、寫詩,還能畫畫、做財務報表、編程,「一個模型就可以做所有事」。通用,就是 GPT-3 的革命性。
李志飛把 GPT-3 形容為「一位科科都是高分的全才」。更讓人激動的是,這麼一個優秀的學生在學習過程中居然是無監督、完全自主驅動的,也就是學習過程它不需要人們提供有答案的練習題來複習測驗(微調模型),只要給他無限多的文本序列,就能自動從文本裡學到各種知識。
GPT-3 幾乎是把整個網際網路的浩瀚內容全部讀完了。它總共閱讀了大約 5000 億詞,模型大概有 1750 億參數。系統有上萬個 CPU/GPU 在 24 小時不間斷地「閱讀」任何領域的信息,半個月即可讀完整個網際網路的內容。猛灌數據量,是這個 AI 模型的「暴力」所在。
出門問問創始人兼 CEO 李志飛在極客公園 x 抖音|創新大會 2021
「我以前特別反對『暴力』,覺得沒有什麼深度,研究也沒有美感。」但是最近的很多現實進展,也讓他開始相信這種訓練 AI 的方法,這是一種「先求其然,再求其所以然」的功能主義。這種方法或許能讓人類更早造出更接近人類的通用人工智慧。
「暴力」的背後,是燒錢耗力。GPT-3 這個 AI 模型運算一次要花 450 萬美金,可能比發一個衛星還貴。那麼,中國是不是就不能做?李志飛說,「不是。因為很多系統第一次做出來時特別難,但是很快就有特別多的優化,成本大幅度的降低,我們可以做出同樣甚至更好的系統。」
李志飛還認為,2020 年可能是通用 AI 的元年。對於人們對未來 AI 的恐懼心理,他說,「別怕。」
以下是在極客公園和抖音聯合出品的「極客公園 x 抖音 | 創新大會 2021」上,出門問問創始人兼 CEO 李志飛演講實錄,由極客公園編輯整理:
GPT-3,通向通用 AI 智能的希望李志飛的 AI 語音替身:出門問問創始人兼 CEO 李志飛對 GPT-3 的技術突破感到激動,他認為 GPT-3 讓人類真切看到了通往更加通用的語言智能的希望。李志飛是自然語言處理及人工智慧專家,美國約翰霍普金斯大學計算機系博士,前 Google 總部科學家。通過他的解讀你將能夠理解 GPT-3 是誰,他厲害在哪裡,以及未來會如何進化。有請出門問問創始人兼 CEO 李志飛。
李志飛:大家好,我是出門問問的李志飛,剛剛前面大家聽到這個歡迎我的視頻可能覺得很奇怪,感覺我是自己給自己錄了個音然後歡迎我自己,但是其實不是這樣的,這不是我的錄音,而是我的 AI 語音的替身產生出來的聲音。他基本上把我的湖南普通話已經學的非常像了,已經達到以假亂真的目的了。
在過去幾年其實有很多這樣的 AI 系統,比如語音助手、比如人臉識別、比如聲音的替身,都進入了我們日常生活。但是所有的這些系統很大的問題是「不通用」,就是一個系統只能幹一件事情,幹不了很多事情。
今天我想花時間跟大家聊一下怎麼做一個更加通用的人工智慧系統。我會跟大家舉例子——GPT-3。
GPT-3 是什麼?GPT-3 本質上是一個語言模型,語言模型通過對語言進行建模,他可以生成或者預測語言,也可以判斷這個語言好跟壞。GPT-3 是一個科研組織 OpenAI 創立的語言模型。
OpenAI 很多人可能非常陌生,但是其實說起他的聯合創始人、早期的創始人就非常清楚了,他是 Elon Musk。
這個 GPT-3 這麼神奇,他都能幹什麼?他其實可以做很多事情。比如他可以寫作文,你給他開一個頭,然後他就可以把整個文章寫出來。而且他寫出的文章句子非常通順,更關鍵的是他段落之間邏輯也非常自洽。
網上有人把 GPT-3 寫出來的文章和人類寫出的文章給另外一個人判斷,到底哪些機器寫的,哪些是人類寫的,其實人已經很難分出來了,所以他基本上可以以假亂真。
除了寫文章,他也可以進行對話,而且他對話的內容可以非常的廣泛,天文、地理、歷史都可以。網上利用 GPT-3 創建了一個 Elon Musk 的對話機器人,人類跟 Elon Musk 對話機器人進行對話的時候,你會發現這個對話機器人他可以像 Elon Musk 一樣說話。
比如他經常會講到人類、火星、太空、地域性原理等這些普通人類一般不太會說的話。
他也可以做翻譯,大家知道翻譯是非常難的一件事情,因為他涉及到兩個語言,以及這個語言之間的匹配,但是 GPT-3 可以做翻譯,而且他做出來的翻譯有的時候比一個專門翻譯的系統還要做得更好,這也是非常厲害的。
前面無論是翻譯,還是對話,他都是一個發散性的輸出,也就是說這個 GPT-3 的輸出他可以不是唯一的答案,只要意思對了就可以,所以也不是特別神奇。
但是 GPT-3 除了做這種發散性的輸出以外,他也可以做非常精準的輸出,比如他可以做算術題,比如如果你問他「48+12=多少」,他會告訴你等於 60。
大家可以看到這個 60 也是一個非常精準的答案,而不是隨便說的,這個以前在語言模型中也是非常難做到的。
出門問問創始人兼 CEO 李志飛在極客公園 x 抖音|創新大會 2021
除了前面各種技能,他其實還可以幹的事情非常多。比如他可以寫詩,他可以編程,在某種程度上、某些地方可以代替程式設計師,也可以畫畫,也可以下西洋棋,做財務報表,基本上他會五六十種技能,關鍵是用同一個模型就可以完成所有的這些功能。
所以 GPT-3 出來以後,全球科技愛好者非常激動,因為 GPT-3 讓大家看到了一個通向通用的 AI 智能的希望。
吞下整個網際網路的數據,AI 演繹暴力美學這個 GPT-3 表現這麼好,背後的學習又牛在什麼地方?其實可以用三個關鍵詞來總結——多任務、無監督、小樣本學習。
多任務,前面講到,一個模型可以幹很多事情,可以有 50 多種技能,這個非常厲害。
無監督,一般的模型我們要給他很多問題、答案、問題、答案,他才能訓練出一個模型,但是 GPT-3 直接把網際網路的內容全部給他,他就可以自學成才,這也是非常厲害的,小樣本學習或者舉一反三的能力,這是人類非常強的能力。
比如 GPT-3 本來可能沒有關於高興的概念,但是如果你對著 GPT-3 教他兩個例子,他可能就會產生一個高興的句子。
比如你對 GPT-3 說,GPT-3 我這裡有兩個關於高興的例子,一個是我今天很開心,第二個是我今天玩得很好,他可能自己就會說「我今天真是嗨爆了」。這種舉一反三的能力也是非常厲害的。
這個 GPT-3 這麼厲害,背後是不是有特別複雜的理論算法?其實不是的,他背後就是用了一個非常簡單、現在非常流行的算法,叫做 Transformer,中文大家可以翻譯成變形金剛,當然他不是我們電影裡面的那個變形金剛。所以這個模型其實是非常通用、非常簡單的一個模型。
GPT-3 其實在我看來是一個暴力美學的勝利,他不是一個特別複雜理論的勝利。為什麼這麼說,大家可以從三個角度看,一般大家認為 AI 的三要素:算法、數據、算力。
這個 GPT-3 在每一個地方都非常地暴力,算法他總共用了 1750 億的參數,這是非常厲害的。
因為兩年前我們可能覺得訓練一個 5 億、10 億參數的模型就非常厲害了,但是這是 1750 億;人的大腦,比如有 800 億的神經元,有千萬億級的參數,那 GPT-3 跟人的大腦之間差了幾個數量級。
第二個,數據,GPT-3 把網際網路上的所有內容基本上是千億級的詞都讀完,這個跟人相比也是非常厲害的。因為人假如一個月能讀十本書,一年讀一百本書,讀 50 年,一生也就讀 5000 本數,一本書假如 20 萬字,加起來就 10 億字。但是 GPT-3 讀的是千億級的字,所以這個數量級是差別很大的。
算力層面也非常暴力,他用了一萬個 GPU 去算,算了半個月最後訓練出了一個模型,網上算了一下,大概花了 450 萬美金,也就是比發一個衛星可能都還貴。
大家可能會問,OpenAI 作為一個工業組織為什麼這麼喜歡暴力?這個其實跟它的使命、信仰是有關係的。
首先他的使命是要做通用的人工智慧,一般認為實現通用的人工智慧可能有兩種不同的信念:
一種信念是今天的這個深度學習的算法都不夠,肯定實現不了通用的人工智慧,我們必須對人腦、對模型有更深刻的認知才能實現通用的人工智慧;另外一種信念說不是的,今天的模型可以了,我們關鍵是要把這個模型做得足夠大,數據量足夠大,當這個模型特別大的時候就可以實現通用的人工智慧。
OpenAI 是非常堅信第二種方法的,他們花了很多精力做大模型,處理這個大數據,確實我們看到他最後出來的模型確實展現出非常驚人的智能行為。
這個其實在學術界是不一定非常認同的,因為學術界可能很多人不太喜歡這種暴力的模型,大家都喜歡理解這個原理最後做出個系統。
但是其實通過過去幾年的進展,大家看到這些暴力模型都展現出非常好的表現,可能慢慢越來越多的人開始信仰這種暴力的方式。
其實這也非常容易理解,因為 GPT-3 就是一個典型的複雜系統,複雜系統當他非常大的時候就會有一些智能的行為,他有幾個基本的特點:
第一,這個複雜系統有非常簡單的節點,節點很簡單。
第二,節點之間有很多交互,但是這個交互方式也是非常簡單的。
但是當節點以及節點之間交互非常多,頻率非常高的時候就會湧現出集體的智能。
比如螞蟻的智能就是這麼一個例子,單一個螞蟻可能看起來沒有那麼智能,但是當一群螞蟻他們通過簡單的交互,最後搬運一個東西的時候你會發現他是一個非常強的智能體。
其實這樣的複雜系統有很多,比如網際網路、人類社會都是這麼一個系統,也許我們人腦的智能也是這麼一個系統,他也許有很多暴力的因素在裡面,比如 800 億的神經元,千萬億級別的參數,也就是說暴力可能是實現通用 AI 的一個方向。
如此燒錢耗力,中國也能做出 GPT-3 嗎?大家可能會說這個 GPT-3 花了這麼多錢,那麼多厲害的人訓練,中國是不是就不能做?其實不是的。
因為很多系統第一次做出來的時候特別難,但是很快就有特別多的優化,這個成本大幅度的降低,你就可以做出同樣甚至更好的系統。
出門問問其實就在做這樣一個事情。出門問問作為一個創業公司,為什麼要做一個通用的語言系統?因為出門問問我們的使命也是希望定義下一代的人機互動,我們最核心的產品就是語音助手。
我們的語音助手用在智能手錶、智能的無線耳機、智能的車載,我們希望智能的語音助手更加通用。
出門問問創始人兼 CEO 李志飛在極客公園 x 抖音|創新大會 2021
他真的像你的助理一樣可以幫你完成很多任務,所以出門問問是非常有動力,也有能力做一個通用的語音智能系統,我們現在做的這個系統 UCLAI 就是通用中文語言 AI 的系統。
這裡有一個例子,就是我們這個系統產生的例子,你給他輸入一個文章,寫一首詩,比如說你讓他寫情書,你前面輸入了「當你老了,頭白了,睡意昏沉,在爐火旁打盹,請取下這部詩歌。」這是我們輸入進去的,這個時候我們的系統就會生成後面這一段話,「在你耳邊輕輕誦讀,請你記起你微笑的模樣,儘管歲月遠去,聲音尤在,日子總會在和平中流淌」。
大家可以看到,首先這個詩不是原詩,不是只是簡單的從網際網路上 copy 一下。
第二,這個生成的部分跟上文前後是非常有對應的關係的,而且這個文字非常的優美,反正我作為一個工程師是很難寫出這麼優美的詩。
我們系統除了產生這種簡單的詩以外,也可以產生非常長的詩,比如我們這個後面有一個例子。
我們前面輸入博爾赫斯的一首詩的前段部分,後面就生成很長的部分,同樣的他非常有創意,而且這個邏輯也非常的自洽,而且也比較優美,但我們做這個 UCLAI,或者 OpenAI 做 GPT-3,不是僅僅寫詩,其實他可以幹很多事情。
比如通用的語音助手,比如醫療、教育、金融裡面的很多應用,我們希望未來在這裡能發揮重大的價值。
未來的 GPT 會更通用,人類別怕剛才前面講的主要就是 GPT-3 在語言方面的一些能力,未來 GPT-3 還能幹什麼?其實我覺得特別重要的一種能力就是多模態,因為語言只是一種模態,圖象、聲音、視覺又是另外一種模態,我們怎麼在一個系統裡面做多模態的事情。
最近 OpenAI 展現出了一個例子,就是你跟 GPT-3 說「幫我生成一個牛油果咖啡桌」,可能很多人聽到「牛油果咖啡桌」腦海中沒有任何感覺,但是大家可以看到後面這個屏幕上 GPT-3 就生成出來了一個牛油果咖啡桌,非常有創意,非常有想像力。
除了生成圖片,它也可以跳舞。比如 Google 最近做了一個系統,你給他一段音樂,給他前面起始動作,這個 AI 系統就可以自動生成一段舞蹈,而且這個舞蹈非常的有創意,而且非常的優美。
所以大家看到未來的 GPT、類 GPT 這種模型他會怎麼進化?他可能會從一個單一模態,語言的模態進入到語言、視覺、圖象、動作這種多模態,非常的通用。
如果大家看這個技術發展,如果以 5 年為周期,比如 2016 年 AlphaGo 出來以後 AI 火了,其實這個過去 5 年我們有很多進展。
未來 5 年可能又是同樣的事情,我們可以認為 2020 年可能是通用 AI 的元年。
大家可能會擔心 AI 進化得這麼快,人類怎麼辦?我們需不需要非常擔心?這確實是一個問題,首先我想表達一下一方面 AI 的進化確實是非常驚人,如果我們把 AI 的進化跟人類社會的進化比較一下,他有幾個特點:
第一,AI 非常地勤奮,他可以不吃飯,可以 24 小時,只要還有電他就可以不停地算。
第二,AI 系統可以大規模地協作,比如剛才說一萬個 GPU 可以訓練一個模型,你再給他加成十萬個 GPU 他還可以做非常好的協作。這個在人類社會,協作可能沒有那麼容易,因為每一個人都有自己的想法,最後不一定能夠通力協作。
第三,AI 的進化具有連續性。什麼意思?比如這個人類我們好不容易出了一個天才愛因斯坦,但是到了一定的年齡可能愛因斯坦就去世了,這個時候我們要等很多年才能再出一個愛因斯坦,沒有連續性,但是 AI 的進化他有連續性。
比如這個機器沒電了,或者這個機器的模型在一臺機器上算完了,你可以把它 copy 到另外一臺機器上,就可以接著算。
這個也是非常厲害的,總體來說我們一方面確實要看到 AI 的進化是非常驚人的,而且非常快的,但是另外一方面我覺得我們也沒有必要有太多的擔心。
第一,你擔心也不一定有用,我覺得作為一個社會,作為一個個體可以做的事情,比如政府他應該立法保護隱私、保護數據,不要 AI 為敵人所用。
作為個人要理解這個 AI 能幹什麼,不能幹什麼,讓 AI 成為你的朋友,幫助你解決問題。
前面是我對通用 AI 的一些簡單介紹,以及以 GPT-3 作為一個例子,當然 GPT-3 只是其中的一個相對通用的 AI 模型,雖然前面我講他非常厲害可以幹各種事情,但是其實他還有很多不完善的地方。
所以我們真正要通往通用的人工智慧還有非常長的一條路要走,最後用一句話來總結一下,就是「路漫漫其修遠兮,AI 上下而求索」。
謝謝大家。
題圖來源:視覺中國|責任編輯:宋德勝