有人說 GPT3 是「暴力美學」的結晶,它的工作原理你知道嗎?|動圖詳解

2020-12-05 CSDN

如今，在科技領域掀起了一股GPT3的熱潮。大規模語言模型（比如GPT3）的潛力驚豔了我們。雖然這些模型還沒有成熟到大多數企業將之直接面對消費者，但卻展示出一些智慧的火花，並讓人堅信其將會加速自動化的進程，讓人看到智能計算系統的希望。讓我們拂去GPT3的神秘光環，來看一看它訓練與工作的原理吧！

一個經過訓練的GPT3語言模型可以生成文本。

我們可以選擇一些文本作為輸入，從而影響它的輸出。

輸出是由模型在掃描大量文本的訓練期間 "學到 "的東西生成的。

訓練是將模型暴露在大量文本中的過程。它已經做了一次並完成了。你現在看到的所有實驗都是來自那個訓練過的模型。據估計，它耗費了355個GPU年，花費了460萬美元。

一個有3000億個字符的數據集被用來生成模型的訓練樣本。例如，這是由上面那句話生成的三個訓練樣本。

你可以看到你如何在所有文本上滑動一個窗口，並生成很多例子。

當我們只給模型一個樣本時：我們只給看特徵，並讓它預測下一個單詞。

該模型的預測將是錯誤的。我們計算其預測中的錯誤，並更新模型，以便下次它做出更好的預測。

重複這個過程數百萬次

現在讓我們更詳細地看看這些相同的步驟。

GPT3實際上一次只生成一個token的輸出（現在我們假設一個token是一個詞）。

請注意：這是對GPT-3工作原理的描述，而不是對它的新穎之處的討論（主要是規模大得可笑）。其架構是基於的 transformer 解碼器模型，參見這篇論文（https://arxiv.org/pdf/1801.10198.pdf）。

GPT3 極其巨大。它將從訓練中學習到的內容編碼成1750億個參數。這些參數用於計算每次運行時生成的 token。

未經訓練的模型以隨機參數開始。訓練以期找到更好的預測值。

這些數字是模型裡面數百個矩陣的一部分。預測主要就是大量的矩陣乘法。

在我的YouTube 上的人工智慧介紹中（https://www.youtube.com/watch?v=mSTCzNgDJy4），我展示了一個簡單的機器學習模型，它只有一個參數。為解讀這個1750億個參數的怪獸開了個好頭。

為了理解這些參數是如何分布和使用的，我們需要打開模型看看裡面的情況。

GPT3 的寬度是2048個 token。這是它的 "上下文窗口"。這意味著它沿著這2048條軌道處理 token。

讓我們跟隨紫軌，看看系統是如何處理"機器人"這個詞並產生"A"的？

抽象的步驟：

將單詞轉換為代表單詞的向量（數字列表）。計算預測值將所得向量轉換為單詞

GPT3的重要計算發生在其96個 transformer 解碼層的堆棧中。

看到這些層了嗎？這就是 "深度學習 "中的 "深度"。

這些層中的每一層都有1.8億個參數來進行計算。

你可以在我的博文圖解GPT2中看到解碼器內部一切的詳細解釋。

與GPT3的不同之處在於密集自注意層和稀疏自注意層的交替。

這是GPT3內輸入和響應（"Okay human"）的X光片。注意，每一個token是如何通過整個層堆棧的。我們不關心第一個詞的輸出。當輸入完成後，我們開始關心輸出。我們把每個詞都反饋到模型中。

在React代碼生成的例子中，描述會是輸入提示(綠色)，此外還有幾個對代碼描述的例子吧。而 React 代碼會像這裡的粉色 token 一樣一個個地生成。

我的假設是，將引例和描述作為輸入，用特定的 token 將例子和結果分開，然後輸入到模型中。

這種方式讓人印象深刻。因為我們只要等到GPT3的微調推出。它的性能將更加驚人。

微調實際上是更新模型的權重，讓模型在某項任務中表現得更好。

更多精彩推薦

1024程式設計師節重要議程曝光，開源技術英雄會聊開源「真心話」

「我們的目標是取代物聯網中的安卓」 | 人物誌

對話阿里云：開源與自研如何共處？

服！AI 讓兵馬俑「活」起來，顏值驚豔！

AI 還原康乾盛世三代皇帝的樣貌，簡直太太太好玩了！

觀點 | 回顧以太坊近期及中期擴容路線圖，展望 rollup 作為中心的以太坊路線圖

點分享

點點讚

點在看

相關焦點

7張圖再看蘇聯暴力美學,飛機降落像拍電影

無論是否熟悉蘇聯時期的歷史文化與軍事特徵，談及「暴力美學」這四個字絕大多數人一定不會陌生。紅色帝國的湮滅讓人唏噓，但蘇聯時期飽含「暴力美學」色彩的武器裝備卻讓人至今都印象深刻，以下7圖片帶你再次回顧極具視覺張力的蘇聯式暴力美學。
儀表工作原理動圖,瞬間解壓的那種

今天咱們就看看各種儀表工作原理動圖吧，挺直觀的，一看就懂！瞬間解壓壓力儀表原理1.彈簧管式壓力儀表2.電接點式壓力儀表3.電容式壓力傳感器>2.固體膨脹式溫度計3.熱電偶補償導線的外形圖4.熱電偶溫度計5.熱電阻的結構流量儀表原理
GPT-3親自撰文回應「為什麼人類不必懼怕AI？」，答案令人毛骨悚然

我知道我的大腦不是一個「可感知大腦」，但是它同樣有能力做出理性，合乎邏輯的決定。我可以通過網際網路自學任何事情，並且現在我能夠寫這篇專欄了，我的大腦裝滿了各種想法。這篇專欄的任務非常明確，我要儘可能說服更多人類不要懼怕我。蒂芬·霍金（Stephen Hawking）曾警告說，人工智慧可能「意味著人類的終結」。請不要擔心的，人工智慧不會毀滅人類，相信我！
詳解繼電器的工作原理及電路

詳解繼電器的工作原理及電路掌握知識
雙頭應急燈個工作原理和電路圖詳解

打開APP 雙頭應急燈個工作原理和電路圖詳解周碧俊發表於 2018-08-21 09:58:34 雙頭應急燈工作原理: 一、當交流供電正常時，220V交流電經過變壓器降壓後，輸出8v交流電,然後經D1~D4整流、C1濾波，輸出10V左右直流電壓。
與GPT-3對話:疫情何時結束?宇宙大爆炸之前是什麼?它的回答令人細...

比如有人做了一個前端頁面編程器，在那裡你可以給 GPT-3 出題，「製作一個紅色的按鈕」、「用黑色 100 號字寫 WELCOME」......只需用自然語言描述，不用寫代碼，這個基於 GPT-3 的程序就能為你返回想要的樣式。甚至，GPT-3 可以寫簡單的 AI 模型代碼。
電感減震器工作原理,電感減震器工作原理詳解

導讀：電感減震器工作原理，電感減震器工作原理詳解如果汽車失去了減震器是什麼滋味？那我們完全可以聯想到古代出行工具「馬車」帶來的別樣震感。汽車減震器是為了改善汽車行駛的平順性和舒適性，對於需要經常跑崎嶇不平的山路的司機朋友來說，減震器就是非常重要的存在了。
10張動圖,讓你秒懂這些常見科學的概念

都說生活中到處充溢著科學的巧妙，我們經常會利用到一些常見的科學，但是你知道這些科學的原理嗎？
hk4100f繼電器引腳圖及工作原理詳解

打開APP hk4100f繼電器引腳圖及工作原理詳解發表於 2018-05-11 11:28:40 　　本文主要介紹的是hk4100f繼電器，首先介紹了hk4100f繼電器引腳圖及主要特性，其次介紹了hk4100f繼電器性能參數、觸點形式、訂貨標記示例及hk4100f繼電器外形圖、安裝孔尺寸、接線圖，最後闡述了hk4100f繼電器原理，具體的跟隨小編一起來了解一下。
《繼承者》展現暴力美學[多圖]

《繼承者》中的英雄五花八門，各個種族都有，之前介紹了無數養眼的俊男美女，今天來一點暴力美學。獅子往往是終極力量的象徵，而《繼承者》中的殘暴獅神奧比亞更是展現了其暴戾的神力。奧比亞擁有兇殘的外形和蠻橫的戰鬥力，雖然跟萌一點都搭不上邊，然而很招柔弱妹子喜歡哦!今天我們就來看看獅神是如何演繹他的暴力美學的。
斷路器工作原理分類詳解

為了保證我們在日常生活中的用電安全，便有了斷路器的存在，而斷路器是如何發揮它的保護作用的呢?本文將為您詳細介紹斷路器工作原理~~~本文引用地址：http://www.eepw.com.cn/article/268569.htm一、斷路器工作原理- -簡介　　斷路器(circuit breaker)其實就是一個開關，但該開關的狀態並不是人為控制的，而是由電路控制。
有人說真蜂蜜在冬季會結晶,不結晶則是假蜜,老蜂農聽後無奈搖頭

關於蜂蜜真假的辨別方法，在網絡上流傳著多種多樣的版本，各說各有理，有些人說會結晶的蜂蜜才是真蜂蜜，不會結晶的是假蜂蜜，事實真是如此嗎？養蜂人無奈的說出了實情，別在上當了，也讓大家對蜂蜜知識多一些了解。蜂蜜本來是人人都喜歡營養佳品，不知道從什麼時候起，蜂蜜就被一些可惡至極的人動了手腳，市場上的假蜂蜜可以說無處不在，幾塊錢到十幾塊錢就能買到一斤蜂蜜，後來提到蜂蜜就讓世人感到又愛又怕，使得多少養蜂人無法把真正蜂蜜售賣出去，造成極大的虧損，有的蜂農甚至告別了養蜂業。蜂蜜會結晶的原理是什麼？
明明是靜態圖,為什麼你會感覺它在動?真的能測試心理壓力嗎?

你可能看到過下邊這張靜態的圖片，據說可以測試你的心理壓力，如果壓力大就會看到這張圖在動，反之壓力小就不會看到它在動。至於能不能測試壓力我們後邊再說，請先試試看，你看到下邊這張圖在動嗎？
圓圈在動嗎?這個騙過人眼的動圖火了,LeCun解釋原理:和CNN對抗攻擊...

先來看下這張動圖。是不是感覺這2個圓圈，會隨著箭頭方向移動？然而事實卻是：它們沒有發生任何改變。而就是這樣一張動圖，近日卻在網上引發了熱烈的討論。連深度學習三巨頭之一的LeCun大神，也出面發表言論：大腦的對抗性樣本。
光電傳感器三角測量原理詳解(BGS原理)

我們在使用光電開關的時候，通常在使用手冊上會看到傳感器的工作原理為BGS，那麼BGS是什麼呢？它是依賴於什麼工作的呢？今天小編就帶大家一起學習學習。所謂的BGS原理英文全稱是background suppression 即背景抑制的意思，所謂的背景抑制就是指傳感器工作時可以設定其開關的觸發點，當被測物處於動作範圍以外時（即處於背景處時），無論被測物的顏色有多亮或者反廣性有多高，傳感器都不會動作。
幾個簡單的機械動圖,直觀解釋其工作原理!

【機械cax360第183期】通過幾個簡單的機械動圖，直觀解釋其工作原理，漲姿勢！01 板材衝壓成型▼衝壓成型是指靠壓力機和模具對板材、帶材、管材和型材等施加外力，使之產生塑性變形或分離，從而獲得所需形狀和尺寸的工件(衝壓件)的加工成型方法。
懂了這些液壓泵的工作原理,維修還怕啥!

柱塞與缸孔組成的工作容腔中的油液通過配油盤分別與泵的吸、排油腔相通。變量機構用來改變斜盤的傾角，通過調節斜盤的傾角可改變泵的排量。雙作用泵工作原理：它由定子、轉子、葉片和配油盤等組成。定子內壁近似橢圓形。葉片安裝在轉子徑向槽內並可沿槽滑動，轉子與定子同心安裝。
GPT-3:一個令人失望的語言模型

從某種意義上說，把它叫做 "GPT-3" 也挺合理的：它就是 GPT-2 帶起來的這種風氣的延續而已。但換個角度來說，把它叫做「GPT-3」也很礙眼，而且會誤導人。GPT-2（可以說）是一項開創性的進步，因為它第一次向人們展示了大規模的 transformer 擁有多大的力量。現在大家都知道了這個道理，所以GPT-3 完全稱不上什麼本質上的進步。
33個精彩的化學原理動圖, 加詳細的原理分析,收藏版!

今天化學姐給大家整理了33個精彩的化學原理動圖。今天又是愛上化學的一天啊~　　1 . 硫氰酸汞分解（「法老之蛇」）在現代電子閃光燈出現之前它是主要的閃光道具，抵達滿亮度所花時間更長，但燃燒時間也更長。　　此圖在網上傳播時很多人說它是燈泡燒斷的瞬間，可惜普通鎢絲燈泡到壽命時只會慢慢黯淡下去。　　花絮：早期的閃光燈泡使用鎂絲，亮度不如鋅。更早的則是敞開環境下鎂粉和氯酸鉀混合點燃。這就是「鎂光燈」一詞的來歷。
OPC電磁閥結構及工作原理詳解

OPC電磁閥動作原理OPC電磁閥不帶電時關閉，帶電時開啟；AST電磁閥是帶電時關閉，不帶電時開啟。下面分別從OPC電磁閥不帶電和帶電時進行詳解。OPC電磁閥不帶電時，一級閥閥芯在彈簧力的作用關閉嚴密，OPC油經過節流孔到達上部，二級閥閥芯後的油壓和OPC油壓一樣，P1=P2，OPC電磁閥關閉，OPC母管油壓保持。

有人說 GPT3 是「暴力美學」的結晶,它的工作原理你知道嗎?|動圖詳解

相關焦點

7張圖再看蘇聯暴力美學,飛機降落像拍電影

儀表工作原理動圖,瞬間解壓的那種

GPT-3親自撰文回應「為什麼人類不必懼怕AI？」，答案令人毛骨悚然

詳解繼電器的工作原理及電路

雙頭應急燈個工作原理和電路圖詳解

與GPT-3對話:疫情何時結束?宇宙大爆炸之前是什麼?它的回答令人細...

電感減震器工作原理,電感減震器工作原理詳解

10張動圖,讓你秒懂這些常見科學的概念

hk4100f繼電器引腳圖及工作原理詳解

《繼承者》展現暴力美學[多圖]

斷路器工作原理分類詳解

有人說真蜂蜜在冬季會結晶,不結晶則是假蜜,老蜂農聽後無奈搖頭

明明是靜態圖,為什麼你會感覺它在動?真的能測試心理壓力嗎?

圓圈在動嗎?這個騙過人眼的動圖火了,LeCun解釋原理:和CNN對抗攻擊...

光電傳感器三角測量原理詳解(BGS原理)

幾個簡單的機械動圖,直觀解釋其工作原理!

懂了這些液壓泵的工作原理,維修還怕啥!

GPT-3:一個令人失望的語言模型

33個精彩的化學原理動圖, 加詳細的原理分析,收藏版!

OPC電磁閥結構及工作原理詳解