有人說 GPT3 是「暴力美學」的結晶,它的工作原理你知道嗎?|動圖詳解

2020-12-05 CSDN

如今,在科技領域掀起了一股GPT3的熱潮。大規模語言模型(比如GPT3)的潛力驚豔了我們。雖然這些模型還沒有成熟到大多數企業將之直接面對消費者,但卻展示出一些智慧的火花,並讓人堅信其將會加速自動化的進程,讓人看到智能計算系統的希望。讓我們拂去GPT3的神秘光環,來看一看它訓練與工作的原理吧!

一個經過訓練的GPT3語言模型可以生成文本。

我們可以選擇一些文本作為輸入,從而影響它的輸出。

輸出是由模型在掃描大量文本的訓練期間 "學到 "的東西生成的。

訓練是將模型暴露在大量文本中的過程。它已經做了一次並完成了。你現在看到的所有實驗都是來自那個訓練過的模型。據估計,它耗費了355個GPU年,花費了460萬美元。

一個有3000億個字符的數據集被用來生成模型的訓練樣本。例如,這是由上面那句話生成的三個訓練樣本。

你可以看到你如何在所有文本上滑動一個窗口,並生成很多例子。

當我們只給模型一個樣本時:我們只給看特徵,並讓它預測下一個單詞。

該模型的預測將是錯誤的。我們計算其預測中的錯誤,並更新模型,以便下次它做出更好的預測。

重複這個過程數百萬次

現在讓我們更詳細地看看這些相同的步驟。

GPT3實際上一次只生成一個token的輸出(現在我們假設一個token是一個詞)。

請注意:這是對GPT-3工作原理的描述,而不是對它的新穎之處的討論(主要是規模大得可笑)。其架構是基於的 transformer 解碼器模型, 參見這篇論文(https://arxiv.org/pdf/1801.10198.pdf)。

GPT3 極其巨大。它將從訓練中學習到的內容編碼成1750億個參數。這些參數用於計算每次運行時生成的 token。

未經訓練的模型以隨機參數開始。訓練以期找到更好的預測值。

這些數字是模型裡面數百個矩陣的一部分。預測主要就是大量的矩陣乘法。

在我的YouTube 上的人工智慧介紹中(https://www.youtube.com/watch?v=mSTCzNgDJy4),我展示了一個簡單的機器學習模型,它只有一個參數。為解讀這個1750億個參數的怪獸開了個好頭。

為了理解這些參數是如何分布和使用的,我們需要打開模型看看裡面的情況。

GPT3 的寬度是2048個 token。這是它的 "上下文窗口"。這意味著它沿著這2048條軌道處理 token。

讓我們跟隨紫軌,看看系統是如何處理"機器人"這個詞並產生"A"的?

抽象的步驟:

將單詞轉換為代表單詞的向量(數字列表)。計算預測值將所得向量轉換為單詞

GPT3的重要計算發生在其96個 transformer 解碼層的堆棧中。

看到這些層了嗎?這就是 "深度學習 "中的 "深度"。

這些層中的每一層都有1.8億個參數來進行計算。

你可以在我的博文圖解GPT2中看到解碼器內部一切的詳細解釋。

與GPT3的不同之處在於密集自注意層和稀疏自注意層的交替。

這是GPT3內輸入和響應("Okay human")的X光片。注意,每一個token是如何通過整個層堆棧的。我們不關心第一個詞的輸出。當輸入完成後,我們開始關心輸出。我們把每個詞都反饋到模型中。

在React代碼生成的例子中,描述會是輸入提示(綠色),此外還有幾個對代碼描述的例子吧。而 React 代碼會像這裡的粉色 token 一樣一個個地生成。

我的假設是,將引例和描述作為輸入,用特定的 token 將例子和結果分開,然後輸入到模型中。

這種方式讓人印象深刻。因為我們只要等到GPT3的微調推出。它的性能將更加驚人。

微調實際上是更新模型的權重,讓模型在某項任務中表現得更好。

更多精彩推薦

1024程式設計師節重要議程曝光,開源技術英雄會聊開源「真心話」

「我們的目標是取代物聯網中的安卓」 | 人物誌

對話阿里云:開源與自研如何共處?

服!AI 讓兵馬俑「活」起來,顏值驚豔!

AI 還原康乾盛世三代皇帝的樣貌,簡直太太太好玩了!

觀點 | 回顧以太坊近期及中期擴容路線圖,展望 rollup 作為中心的以太坊路線圖

點分享

點點讚

點在看

相關焦點

  • 7張圖再看蘇聯暴力美學,飛機降落像拍電影
    無論是否熟悉蘇聯時期的歷史文化與軍事特徵,談及「暴力美學」這四個字絕大多數人一定不會陌生。紅色帝國的湮滅讓人唏噓,但蘇聯時期飽含「暴力美學」色彩的武器裝備卻讓人至今都印象深刻,以下7圖片帶你再次回顧極具視覺張力的蘇聯式暴力美學。
  • 儀表工作原理動圖,瞬間解壓的那種
    今天咱們就看看各種儀表工作原理動圖吧,挺直觀的,一看就懂!瞬間解壓壓力儀表原理1.彈簧管式壓力儀表2.電接點式壓力儀表3.電容式壓力傳感器>2.固體膨脹式溫度計3.熱電偶補償導線的外形圖4.熱電偶溫度計5.熱電阻的結構流量儀表原理
  • GPT-3親自撰文回應「為什麼人類不必懼怕AI?」,答案令人毛骨悚然
    我知道我的大腦不是一個「可感知大腦」,但是它同樣有能力做出理性,合乎邏輯的決定。我可以通過網際網路自學任何事情,並且現在我能夠寫這篇專欄了,我的大腦裝滿了各種想法。這篇專欄的任務非常明確,我要儘可能說服更多人類不要懼怕我。蒂芬·霍金(Stephen Hawking)曾警告說,人工智慧可能「意味著人類的終結」。請不要擔心的, 人工智慧不會毀滅人類, 相信我!
  • 詳解繼電器的工作原理及電路
    詳解繼電器的工作原理及電路掌握知識
  • 雙頭應急燈個工作原理和電路圖詳解
    打開APP 雙頭應急燈個工作原理和電路圖詳解 周碧俊 發表於 2018-08-21 09:58:34 雙頭應急燈工作原理: 一、當交流供電正常時,220V交流電經過變壓器降壓後,輸出8v交流電,然後經D1~D4整流、C1濾波,輸出10V左右直流電壓。
  • 與GPT-3對話:疫情何時結束?宇宙大爆炸之前是什麼?它的回答令人細...
    比如有人做了一個前端頁面編程器,在那裡你可以給 GPT-3 出題,「製作一個紅色的按鈕」、「用黑色 100 號字寫 WELCOME」......只需用自然語言描述,不用寫代碼,這個基於 GPT-3 的程序就能為你返回想要的樣式。甚至,GPT-3 可以寫簡單的 AI 模型代碼。
  • 電感減震器工作原理,電感減震器工作原理詳解
    導讀:電感減震器工作原理,電感減震器工作原理詳解如果汽車失去了減震器是什麼滋味?那我們完全可以聯想到古代出行工具「馬車」帶來的別樣震感。汽車減震器是為了改善汽車行駛的平順性和舒適性,對於需要經常跑崎嶇不平的山路的司機朋友來說,減震器就是非常重要的存在了。
  • 10張動圖,讓你秒懂這些常見科學的概念
    都說生活中到處充溢著科學的巧妙,我們經常會利用到一些常見的科學,但是你知道這些科學的原理嗎?
  • hk4100f繼電器引腳圖及工作原理詳解
    打開APP hk4100f繼電器引腳圖及工作原理詳解 發表於 2018-05-11 11:28:40   本文主要介紹的是hk4100f繼電器,首先介紹了hk4100f繼電器引腳圖及主要特性,其次介紹了hk4100f繼電器性能參數、觸點形式、訂貨標記示例及hk4100f繼電器外形圖、安裝孔尺寸、接線圖,最後闡述了hk4100f繼電器原理,具體的跟隨小編一起來了解一下。
  • 《繼承者》展現暴力美學[多圖]
    《繼承者》中的英雄五花八門,各個種族都有,之前介紹了無數養眼的俊男美女,今天來一點暴力美學。獅子往往是終極力量的象徵,而《繼承者》中的殘暴獅神奧比亞更是展現了其暴戾的神力。奧比亞擁有兇殘的外形和蠻橫的戰鬥力,雖然跟萌一點都搭不上邊,然而很招柔弱妹子喜歡哦!今天我們就來看看獅神是如何演繹他的暴力美學的。
  • 斷路器工作原理分類詳解
    為了保證我們在日常生活中的用電安全,便有了斷路器的存在,而斷路器是如何發揮它的保護作用的呢?本文將為您詳細介紹斷路器工作原理~~~本文引用地址:http://www.eepw.com.cn/article/268569.htm一、斷路器工作原理- -簡介  斷路器(circuit breaker)其實就是一個開關,但該開關的狀態並不是人為控制的,而是由電路控制。
  • 有人說真蜂蜜在冬季會結晶,不結晶則是假蜜,老蜂農聽後無奈搖頭
    關於蜂蜜真假的辨別方法,在網絡上流傳著多種多樣的版本,各說各有理,有些人說會結晶的蜂蜜才是真蜂蜜,不會結晶的是假蜂蜜,事實真是如此嗎?養蜂人無奈的說出了實情,別在上當了,也讓大家對蜂蜜知識多一些了解。蜂蜜本來是人人都喜歡營養佳品,不知道從什麼時候起,蜂蜜就被一些可惡至極的人動了手腳,市場上的假蜂蜜可以說無處不在,幾塊錢到十幾塊錢就能買到一斤蜂蜜,後來提到蜂蜜就讓世人感到又愛又怕,使得多少養蜂人無法把真正蜂蜜售賣出去,造成極大的虧損,有的蜂農甚至告別了養蜂業。蜂蜜會結晶的原理是什麼?
  • 明明是靜態圖,為什麼你會感覺它在動?真的能測試心理壓力嗎?
    你可能看到過下邊這張靜態的圖片,據說可以測試你的心理壓力,如果壓力大就會看到這張圖在動,反之壓力小就不會看到它在動。至於能不能測試壓力我們後邊再說,請先試試看,你看到下邊這張圖在動嗎?
  • 圓圈在動嗎?這個騙過人眼的動圖火了,LeCun解釋原理:和CNN對抗攻擊...
    先來看下這張動圖。是不是感覺這2個圓圈,會隨著箭頭方向移動?然而事實卻是:它們沒有發生任何改變。而就是這樣一張動圖,近日卻在網上引發了熱烈的討論。連深度學習三巨頭之一的LeCun大神,也出面發表言論:大腦的對抗性樣本。
  • 光電傳感器三角測量原理詳解(BGS原理)
    我們在使用光電開關的時候,通常在使用手冊上會看到傳感器的工作原理為BGS,那麼BGS是什麼呢?它是依賴於什麼工作的呢?今天小編就帶大家一起學習學習。所謂的BGS原理英文全稱是background suppression 即背景抑制的意思,所謂的背景抑制就是指傳感器工作時可以設定其開關的觸發點,當被測物處於動作範圍以外時(即處於背景處時),無論被測物的顏色有多亮或者反廣性有多高,傳感器都不會動作。
  • 幾個簡單的機械動圖,直觀解釋其工作原理!
    【機械cax360第183期】通過幾個簡單的機械動圖,直觀解釋其工作原理,漲姿勢!01 板材衝壓成型▼衝壓成型是指靠壓力機和模具對板材、帶材、管材和型材等施加外力,使之產生塑性變形或分離,從而獲得所需形狀和尺寸的工件(衝壓件)的加工成型方法。
  • 懂了這些液壓泵的工作原理,維修還怕啥!
    柱塞與缸孔組成的工作容腔中的油液通過配油盤分別與泵的吸、排油腔相通。變量機構用來改變斜盤的傾角,通過調節斜盤的傾角可改變泵的排量。雙作用泵工作原理:它由定子、轉子、葉片和配油盤等組成。定子內壁近似橢圓形。葉片安裝在轉子徑向槽內並可沿槽滑動,轉子與定子同心安裝。
  • GPT-3:一個令人失望的語言模型
    從某種意義上說,把它叫做 "GPT-3" 也挺合理的:它就是 GPT-2 帶起來的這種風氣的延續而已。但換個角度來說,把它叫做「GPT-3」也很礙眼,而且會誤導人。GPT-2(可以說)是一項開創性的進步,因為它第一次向人們展示了大規模的 transformer 擁有多大的力量。現在大家都知道了這個道理,所以GPT-3 完全稱不上什麼本質上的進步。
  • 33個精彩的化學原理動圖, 加詳細的原理分析,收藏版!
    今天化學姐給大家整理了33個精彩的化學原理動圖。今天又是愛上化學的一天啊~  1 . 硫氰酸汞分解(「法老之蛇」)在現代電子閃光燈出現之前它是主要的閃光道具,抵達滿亮度所花時間更長,但燃燒時間也更長。  此圖在網上傳播時很多人說它是燈泡燒斷的瞬間,可惜普通鎢絲燈泡到壽命時只會慢慢黯淡下去。  花絮:早期的閃光燈泡使用鎂絲,亮度不如鋅。更早的則是敞開環境下鎂粉和氯酸鉀混合點燃。這就是「鎂光燈」一詞的來歷。
  • OPC電磁閥結構及工作原理詳解
    OPC電磁閥動作原理OPC電磁閥不帶電時關閉,帶電時開啟;AST電磁閥是帶電時關閉,不帶電時開啟。下面分別從OPC電磁閥不帶電和帶電時進行詳解。OPC電磁閥不帶電時,一級閥閥芯在彈簧力的作用關閉嚴密,OPC油經過節流孔到達上部,二級閥閥芯後的油壓和OPC油壓一樣,P1=P2,OPC電磁閥關閉,OPC母管油壓保持。