RoBERTa:高級丹藥煉製記錄

2021-03-01 AINLP

煉丹一道,上可通天,直穿九重天,置於衛星中,巡視萬物;下可通地,直達九幽,便了礦藏所在,預知地震;前通千年,博覽全書,能知未解之迷;後通未來,觀現今,可推將起之事;還通那世間大道,不論何物,只待給個入與出,其中曲折便能仿其八九。如此神通之道,卻是不通個明明白白

往往煉製一爐丹藥,成者不知所以然(自然也能編排出個所以然),敗者亦不知所以然。是故,世人多稱丹道者,玄學也

便是筆者初入丹道,照丹方煉丹,時成時敗,成者自然欣喜萬分,敗者細細回顧解決之,時有抓耳撓腮也解決不了者,只得求助門派師兄。待師兄上前,重開丹爐待重現,半響過後,卻絲毫問題沒有,尷尬萬分,莫非這丹爐還能辨新手與熟手,師兄見之,哈哈大笑幾聲,拍拍肩鼓勵之,便離去,想必此乃常情。玄學之說可見一斑。

然丹道之難者,無外乎其所涉因素過多,丹爐,丹方,丹材,藥引,火候... 便是那天地元氣之運轉,卻或也與此爐丹藥之成敗有關。

於是乎,為煉爐好丹藥,有心者,便是沐浴更衣,洗臉漱口,舉著三炷香,朝著祖師爺爺們拜上一拜,還請討口飯吃。卻說祖師爺爺們,都乃何人,元始天尊韓丁其一,靈寶天尊賁橋其二,道德天尊楊立昆其三。

卻說近來,丹道一途漸趨完備,大門大派仗著人才濟濟,門內財力雄厚,屢練神丹。說來也奇,若是那尋常仙術秘法,各門各派便是打死也不透露,只煉丹一道,卻是大大方方公之於眾,卻也端的不怕他人學去。無奈何,神丹出世,且不說那煉製所需頂級丹爐與神火,便是那煉製所需奇花異草,天才地寶,卻也是難收集齊一二,更不提諸多未公布煉製細節。

縱是備齊材料,租借來丹爐神火,卻也費用頗巨,那小門小派與孤身散修也只得望洋興嘆,只盼得每每煉出神丹,大門大派尊口一開,讓大家觀摩一番。

如若不給觀摩,也是無可奈何,便如那番國之 OpenAI,練得神丹,曰:「此丹乃不祥之物,唯恐心術不正者用其危害人間,是故吾派將其封印之。」 引起丹界一片唇槍舌戰,終放出一二神丹弱化版,供眾人觀摩。剩之者,想是要束之高閣,藏之名山,便是要傳個千百代。

卻說番國之另一大派,狗狗教。番國之教派,甚多怪名,貓貓狗狗,牛牛羊羊多有之。狗狗派自去年末,煉出 BERT 神丹,乃是開天闢地之舉,一時 BERT 徒子徒孫霸佔神丹榜,直至狗狗派再煉神丹 XLNet,在神丹榜上奪得榜首。(XLNet 詳見:《飛躍芝麻街:XLNet 詳解》)

此等舉動,他派焉可服氣,於是乎,與狗狗其名之非死不可派,重煉 BERT 神丹,制出 RoBERTa 神丹,重奪魁首。

在此,在下便來粗解 RoBERTa 煉製過程。

說起丹道,尋常丹師,便多按圖索驥,照著丹方老老實實煉,關鍵在於妙用。通之略深者,便醉心於提升丹道。

提升丹道之途,一來,奇思妙想,發明一新丹方,練出丹藥若較之前丹藥效力更好,那便是好丹方,有幸者更能登上些榜單;二來,勤勤懇懇,便是於原有丹方上花些時間,如何提升其煉製之細微處,如火溫多少,何種丹爐更佳,煉製時間愈長是否影響效力。

RoBERTa 便乃此第二法中佼佼者,改進煉製之法,讓 BERT 神丹效力大增,重回了神丹榜首,壓得 XLNet 一籌。

卻說 RoBERTa 煉製之法妙在何處,一言概之,左龍右鳳,加之五虎上將。潛龍鳳雛,No Next Sentence PredictionDynamic Masking。五虎上將,東南西北中,不是多就是長:More DataMore stepsLarger batchesLarger byte level BPE vocab,再有 1024 數之上好丹爐 V100.

此等比喻,不免有些牽強附會,諸位略聽之即可,不必做真。

More Data

卻說,沒有數據(Data)煉丹便如無根之水,一切無從說起。且 XLNet 便乃海量數據堆之,欲與其較,理當更多數據。於是乎,RoBERTa 用到數據:

Books Corpus + English Wikipedia (16GB):乃 BERT 最初用之數據

CC-News(76GB): 自 CommonCrawl News 數據中去粗存精得之數據,約含六千三百萬篇新聞,自二零一六年九月至二零一九年二月。

OpenWebText(38GB):此數據卻是借鑑 GPT2 ,取道友交流論壇 Reddit 中,karma (道友點讚)數大於三帖中連結內容。

Stories(31GB):同樣取之 CommonCrawl,卻非新聞類數據,乃取故事類數據。

較之 XLNet:

卻是數據量更大,RoBERTa 有 161 GB之多,而 XLNet 略少有 126 GB。

More Steps

煉製更長久,卻只是力氣活,此處最多達五十萬步。

Large Batch

一批量(batch),乃煉製中單次引入數據量, 常規設置一百二十八,二百五十六等等便可,如 BERT 原方即用 二五六之數,RoBERTa 則用八千為批量數。

據些文獻記載,在解決訓練穩定問題情況下,卻有批量數大便是好的說法,其用之三萬二千大批量煉製。而此處用之八千數,因此批量數處尚有探究餘地

大批量煉丹,最為講究訓練過程,如何調節優化器,在大威能下,不炸爐,穩定煉丹,此處對萬金油優化器 Adam 中兩項參數進行了調整

第一,便是 Adam 中二階矩估計時的 β_2,一般對於梯度稀疏之問題,如 NLP 與 CV,建議將此值設大,接近 1,因此通常默認設置為 0.999,而此處卻設 0.98。

第二個,卻是對一貌似沒太大關係之變量進行修改,即 Adam 中的 ε .

據丹方說明,調節此項,可提高煉製穩定性,甚至時有提升表現發生。然 最早只用來防止除零情況發生,沒料到在此處亦可幫助煉製。

可惜文中未對上述兩者進行解釋,私以為,此兩者都與二次距有關,想必與大批量訓練時二次距特殊性有關

larger byte level BPE vocab

此策略需細細解釋,larger 易解,此處難點乃 byte level 與之 Byte Pair Encoding (BPE)。

何謂 byte level,煉丹之道,自最古以來,便是自大到小,初以為萬物即萬物,不想待觀之細處,萬物乃相通,皆由小顆粒組成。

NLP 煉丹,亦如此,上古時期,認知有限加之丹爐過小,多用詞粒度來煉丹,此做法便也是算是將人類對詞語之認知引入。待到今日,丹爐各個巨大無比,便是用之更小粒度,子詞,utf-8 編碼,甚至最底層之字節(byte),來進行煉丹,亦能處理良好。此所謂 byte level,正因其粒度之小,無所不能組成,便能讓 NLP 煉丹少了未知詞之煩惱

至於 Byte Pair Encoding,詳情可查閱別處典籍。最早 NLP 煉丹用其學習子詞,使詞表更小。此處則是習得高頻字節組合,置入詞表。最終詞表總大小五萬上下。

然此法對表現無提升,甚至有下降,但著者們認為其帶來收益遠大於損失,因之其詞表泛用性。

1024 V100s

便如其名,乃用之一千零二十四個上好丹爐 V100,分布式煉製。

No Next Sentence Prediction

卻是不用 BERT 丹方中 Next Sentence Prediction (NSP) 任務,長長一句直接 Masked Language Model (MLM) 訓練,SpanBert 中亦有類似訓練操作,詳見:《SpanBert:對 Bert 預訓練的一次深度探索》

此處,丹師們做出多組有趣實驗:

真實句子對加之 NSP 煉製

成對句子段加之 NSP 煉製,乃原始 BERT 所為

連續長句拼接無 NSP 煉製,句子可跨文檔

同上,句子不可跨文檔

卻說性能對比,簡而言之 1<2<3<4,可觀得

真實句子過短,不如拼接成句子段

無 NSP 任務,略好過有 NSP

不跨文檔好過跨文檔

後兩者想來亦與 SpanBERT 中提之噪音問題有關。

dynamic masking

聽起來似乎很是厲害,然而卻只是一個很簡單改進。

何為 dynamic,只因原 BERT 預處理數據時,先處理好哪些位置被 mask,於是乎,煉製時,也就用著這些 static mask。而 dynamic 卻是在訓練時實時 mask,縱然是同一句話,每次 mask 位置也是隨機不同

煉製結果

此處需關注點,首先橫向 RoBERTa,BERT,XLNet 對比,三者於小數據集 Books + Wiki 上相近設置煉製結果,可見通過改進訓練,RoBERTa 給 BERT 帶來很大提升,根據比較想來主要是 larger batch,dynamic masking,與 no next sentence prediction 三者合力所為。即使相比起 XLNet 本質結構之改進,一些任務也有一較之力,然私以為,若 XLNet 以之相同煉製條件,卻還是更優。

橫向尚有 XLNet 與 RoBERTa 大批量與多步數對比,然因之條件之大不同,難以公平對比。

接著縱向對比, 那便是訓練愈長性能愈好

最終結論,RoBERTa 對 BERT 煉製的改進可謂非常之棒,使其性能提升,尚能與 XLNet 較量,然 XLNet 對丹藥結構本質改進還是更優,因為此處多個技巧也可用於 XLNet,相信 XLNet 改進煉製方法後,會重回榜首

當然,因之 SpanBERT 與 RoBERTa 同出一派,便待日後煉出 SpanRoBERTa 亦或是 RoSpanBERTa 再殺回來,也不足為奇。

 

相關焦點

  • 《覓長生》高品質丹爐煉製低品質丹藥好處分享
    導 讀 《覓長生》中的高品質丹爐是非常煉藥道具,很多玩家都不太清楚高品質丹爐煉製低品質丹藥的好處是什麼,
  • 風起蒼嵐:風來晚反敗為勝,煉製出神級丹藥,她具有丹神的潛質
    導語:風戀晚現在煉製的丹藥已經完成,竟然是審計丹藥,也就是說小晚具有成為丹神的潛質。看來她這次反敗為勝了,完全可以收回一些利息。以她現在的實力,能夠煉製出神級丹藥確實非常不容易,不過藉此能夠反敗為勝,也說明了小晚一直在隱藏實力。而神級丹藥現身,必然會讓小晚成名,並且讓她以後成為丹神的身份也說不定。不過對於風戀晚來說,她很早就能煉製出神級丹藥,只是因為藥材的限制而已。要是給她多一些時間,估計可以煉製出更厲害的丹藥。
  • 鬥破蒼穹:八品丹藥大爆發,蕭炎煉製生血融骨丹,早已穩操勝券
    在鬥破蒼穹漫畫280回中,場上還在煉丹的蕭炎、曹穎等人相繼練出了八品丹藥,宋清頓時感覺自己的存在是多餘的,按照他的預測,蕭炎煉製七品頂峰的丹藥都很困難,不過主角就是主角,在蕭炎的眼中,煉製生血融骨丹早已穩操勝券,即便是慕骨老人的四色丹藥,都無法改變局面。
  • 《我也是大俠》丹藥怎麼玩 丹藥系統玩法攻略
    導 讀 《我也是大俠》中的丹藥我們應該如何使用呢?具體的使用方法是什麼呢?
  • 鬥破蒼穹:藥老煉製六品丹藥,丹香引來邪惡煉藥師,古靈冷火顯威
    藥老和蕭炎這一次去泰戈爾大沙漠必須把吞噬青蓮地心火的六品丹藥練出來才行,可是到現在為止還差冰靈寒泉作為藥引,他們找了好久都沒有找到。在這次拍賣會上,出現了他們想要的冰靈寒泉,得到寒泉之後沒想到被其他人給盯上了,這是兩名大鬥師級別的強者。藥老準備在飛行的這幾天時間裡面將丹藥練出來,以免寒泉流失形象藥性。藥老煉製丹藥果然被那兩個人給盯上了,因為他們同樣也是煉藥師,對靈魂力量非常熟悉。
  • 古人追求長生不老,常服食一些丹藥,所謂不老丹藥又是什麼?
    還是主人生前服用的丹藥?對於這些"紅米粒「,考古專家們也摸不清究竟是什麼,因為這東西在當時是首次發現,且不能摸不能碰,更不能去咬,為了解開」紅米粒「的秘密,有關專家拿了三粒進行化驗,最終被認定這就是東晉時期,非常流行的長生不老丹。那麼它的成分究竟是怎樣的?又是如何煉製而成的呢?
  • 鬥破蒼穹:宋清實力不如蕭炎,想煉丹扳回局面,七品丹藥不夠格!
    鬥破蒼穹最新更新的漫畫中讓宋清的人設一落千丈,宋清是丹塔最年輕的長老,有著七品高級煉藥師徽章。在丹會第二關中與曹穎等人碰到了慕骨老人,結果宋清被鬥尊實力的慕骨老人嚇得發抖,因此宋清為了活命,直接棄曹穎而去獨自逃亡了。
  • 下一站江湖高級丹方有哪些?下一站江湖高級丹方大全
    《下一站江湖》遊戲中丹藥配方有哪些?遊戲中丹藥配方還是非常重要的,玩家想要煉製丹藥就必須有相應的丹藥配方,不然是無法練出的,那麼接下來小編為大家帶來《下一站江湖》高級丹方大全,一起來看看吧。
  • 五本玄幻小說,修行最強的玄功,煉製最好的丹藥——《丹神歸來》
    修行最強的玄功,煉製最好的丹藥第二本《九轉成神》作者:真庸精彩片段:唐風盤坐下來,取出虛天鼎,然後熟練的將靈草、魔獸筋骨和聚靈石投了進去,很快,一顆聚靈丹便煉製出來。唐風吞下後,收起虛天鼎,便衝進了瀑布下!最好的修煉方式便是苦修,一邊吸收靈氣,從內部錘鍊身體細胞,一邊通過外力來激發身體潛力。
  • 風起蒼嵐:劣質丹爐煉出絕品丹藥!小晚瘋狂打臉路人,泊眠已看透
    但是對於路人來講,用劣質丹爐煉製出三階丹藥簡直是天方夜譚!更別提用這個劣質丹爐煉製出三階絕品丹藥了!要知道,之前那個小傢伙用這個劣質丹爐只煉製出了一階下品丹藥。可想而知,當聽說小晚要用同樣的丹爐煉製出三階絕品丹藥,這對於路人的衝擊有多大。而在未煉製出來之前,眾人肯定都會覺得這個老太太在口出狂言。
  • 丹藥產生丹雷!還有兩個
    沒錯就是煉製丹藥。常理來說六品以上的丹藥就會出現天地異象。會引來強者關注。至於那七品丹藥。甚至會出現丹雷現象。而且丹雷還會有顏色的區分。到了八品。則會有數量區別。八品丹藥有幾色丹雷的區別。煉藥師還必須戰勝丹雷。丹藥才算能夠完成。至於到了九品丹藥。丹雷的威力將更加恐怖。九品寶丹會有黑魔雷,九品玄丹可以凝聚天地之力,而達到九品金丹,則會出現九玄金雷。
  • 道家丹藥論真1
    難在用心,我相信今人,有許多人也在照道書的丹藥做法製藥。但我也相信,許多人也只是一古腦打粉做成蜜丸的樣子而已。古人三個月才能做出的東西,他三天做成了。可能他還嘲笑古人:這沙雕,那麼古板,浪費時間……。所有的道家丹藥,必須經過五行運化、移精變氣、去燥減火,這是最基本的。當世陸續有許多大師,說自己的東西是外丹藥,敢問什麼是五行運化?又怎樣移精変氣?又如何去外火閉內火?
  • 可能是服食丹藥與縱慾過度嗎
    頗有爭議的宣宗皇帝為何英年早逝由於明朝沒有風骨文人們的不斷抹黑,似乎宣宗皇帝成為無道昏君,他們不僅在皇帝的愛好上來抹黑,甚至還要杜撰皇帝的私生活,於是各種「桃色新聞」、「服食丹藥」之說便應運而生,可見明朝的史書對他多不友好,所以他英年早逝自然也就被歸入這些荒唐的原因了
  • 鬥羅大陸:提升魂力的4種特殊方式,霍雨浩靠丹藥,唐舞麟靠媳婦
    有仙品藥草,自然也有人制的丹藥,這一點在《絕世唐門》中表現得尤為突出。受益匪淺的人自然是男主角霍雨浩,前期出現過兩種丹藥玄水丹和升魂丹,玄水丹的功效是洗筋易髓,提升先天魂力一級,增強修煉速度,對於先天魂力只有一級的霍雨浩再適合不過了。至於升魂丹嗎,顧名思義,直接提升魂力的丹藥。後期更厲害,霍雨浩用四十多種天材地寶煉製出了「乾坤造化丹」,是玄天寶錄中記載的最好的一種丹藥,功效相當強悍,連普通的唐門弟子聞到藥香都能進入深度冥想!(我能說這些都是霍雨浩的外掛嗎?)
  • 屬性丹藥匯總
    由於光明頂活動的丹藥寶盒,只有丹藥選擇,沒有丹藥屬性,好多朋友在問,特發此貼。
  • 帥哥黃庭堅的丹藥自誤病歷
    詩中憂患出於如何養得長生,似乎唯有丹藥可解百惑,練得仙身。這首詩大概是可追蹤到的黃庭堅可能迷於丹藥的最早文字記錄。這之後,山谷有大量的文字與丹藥相關,或談體驗,或說配製,或求丹於人等等。黃山谷使用這些「金液」再配硫黃、其他金石、並一些中藥材,煉製丹砂(硫化汞)。為了得到最純紅的丹砂,煉丹人會不斷反覆燒煉(釋汞—— 硫化),「燒之成水銀,積變又還成丹砂」。循環往復九轉九合之後(所謂九轉還丹),方得使人長生不老之「仙丹」。煉丹祖師晉人葛洪的《抱樸子·金丹篇》如此指點迷津:「凡草木燒之即燼,而丹砂煉之成水銀,積變又還成丹砂,其去草木亦遠矣,故能令人長生。」
  • 丹藥匯總
    攻擊丹藥:升力丹 攻+19 (上限20顆)  明教 小還丹 攻擊+150(上限3顆)登錄精煉小還丹 攻+150(
  • 《我也是大俠》丹藥最佳選哪個 丹藥最佳選擇推薦
    導 讀 我也是大俠遊戲是一款武俠風格的角色扮演類遊戲,在遊戲玩家們可以使用各種丹藥來提升自己的屬性,那麼丹藥怎麼選擇呢?