浪潮AI伺服器大幅提升NLP模型Transformer訓練性能

2021-01-15 浪潮企業級解決方案

近日,在北京舉行的2019人工智慧計算大會(AICC 2019)上,浪潮發布主流自然語言處理(NLP)模型Transformer的最新性能測試數據。Transformer模型參數規模可達數億,對計算、通信的要求非常高。性能數據顯示,相比同類伺服器,浪潮AI伺服器NF5488M5大幅提升了Transformer的訓練性能,GLUE基準訓練至80.4%的時間相比同類產品大幅減少67%。

浪潮AI伺服器NF5488M5

人工智慧正在由「能看、會聽」的感知智能向「能讀、會寫」的認知智能邁進。由於文字是信息、思想的重要載體,如果計算機能夠理解文字並能夠用文字表達,那麼就具備了讀寫能力,因而NLP被認為是認知智能的重要突破口。目前主流的NLP模型包括Transformer, Bert, GPT, XLNet等,而Bert和GPT都基於Transformer架構。Transformer被視為是NLP的經典模型,2017年由谷歌提出,其利用自注意力(self-attention)機制實現快速並行,並且可以增加到非常深的深度,充分發掘DNN模型的特性,提升模型準確率。

但是Transformer模型訓練是一大難題,因為其參數規模達到數億,對計算力的需求很大。OpenAI的Transformer模型有12層、768個隱藏單元,使用8塊P100 GPU在8億詞量的數據集上訓練40個Epoch需要一個月。背後的原因很大程度上在於GPU通信制約。Transformer Attention機制的全連接層計算時會產生海量參數,而更新參數梯度需要GPU間高速傳輸。同時,模型規模很大導致佔用大量GPU顯存,而batchsize通常都很小,導致每次計算的時間較快,計算後更新參數梯度頻繁,這也進一步要求更高的GPU間傳輸速度。

浪潮AI伺服器NF5488M5 通過無阻塞的GPU全互連設計,突破性地實現了All to All 300GB/s的Peer to Peer帶寬。在當前深度學習通信模型All Reduce性能表現上,NF5488M5的實際通信帶寬可以達到採用常規NVLink互聯的GPU伺服器的3倍以上。正是這種特性,大大提升了Transformer模型在NF5488M5上的通信效率,從而加大了計算通信比,節約了整體運行時間。測試結果表明,NF5488M5大幅提升了Transformer訓練性能,GLUE基準訓練至80.4%的時間比採用PCIe互聯的8GPU伺服器縮短67%,比採用常規NVLink互聯的8GPU伺服器縮短31%。

Transformer訓練性能測試結果

浪潮集團AI&HPC總經理劉軍認為,當前基於Transformer的Bert, XLNet等模型代表了NLP的發展方向,而它們的特點就是加速器間通信制約。測試結果充分表明浪潮AI伺服器NF5488M5在GPU間通信效率上具有顯著領先優勢,能夠大幅提升Transformer等大型AI工作負載的訓練性能,降低訓練成本,加速認知智能研發和應用落地。

浪潮是人工智慧計算的領導品牌,AI伺服器中國市場份額保持50%以上,並與人工智慧領先科技公司保持在系統與應用方面的深入緊密合作,幫助AI客戶在語音、語義、圖像、視頻、搜索、網絡等方面取得數量級的應用性能提升。浪潮與合作夥伴共建元腦生態,共享AI計算、資源與算法三大核心平臺能力,助力行業用戶開發並部署屬於自己的「行業大腦」,加速推進產業AI化落地。

相關焦點

  • 全球最快人工智慧訓練伺服器浪潮NF5488A5在智博會重磅發布
    在前不久公布的全球權威AI測試榜單MLPerf中,浪潮NF5488A5僅用時33.37分鐘,就在包含128萬張圖片的ImageNet數據集上完成Resnet50模型的訓練,相當於每秒訓練23000多張圖片,單機計算性能高居第一,可謂最快人工智慧訓練伺服器。
  • 浪潮擁有全球領先的AI伺服器陣列
    浪潮擁有全球領先的AI伺服器陣列 2020年07月10日 14:10作者:黃頁編輯:黃頁 在反饋階段,參賽選手基於24個訓練數據集,離線開發AutoDL程序,實現訓練數據處理、模型結構設計、參數調校等過程;在決賽階段,參賽選手的AutoDL程序在無任何人工幹預的前提下,自動完成10個私有數據集的模型訓練。決賽階段多輪評估的平均排名將決定獲勝者。浪潮在本次競賽中表現出色,在10個單項競技中取得了1個單項第一、1個單項第二和3個單項第三的好成績。
  • PTMs|2020最新NLP預訓練模型綜述
    該綜述系統地介紹了nlp中的預訓練模型。主要的貢獻包括:1.深入盤點了目前主流的預訓練模型,如word2vec,ELMo,BERT等。2.但是相反,nlp領域的優勢在於,存在大量的無監督數據集,如果能夠充分利用這類數據進行訓練,那麼勢必能夠提升模型的能力以及在下遊任務中的表現。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練,學習得到通用的語言表徵,有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」?
  • NLP/CV模型跨界,視覺Transformer趕超CNN?
    該研究表明,對 CNN 的依賴不是必需的,當直接應用於圖像塊序列時,transformer 也能很好地執行圖像分類任務。該主流方法基於大型文本語料庫進行預訓練,然後針對較小的任務特定數據集進行微調。由於 Transformer 的計算效率和可擴展性,基於它甚至可以訓練出參數超過 100B 的模型。隨著模型和數據集的增長,性能仍然沒有飽和的跡象。然而,在計算機視覺中,卷積架構仍然佔主導地位。
  • 全面提升 浪潮NF5270M4伺服器報40900元
    (中關村在線廣州辦事處)作為國產品牌,浪潮雙路伺服器平臺NF5280M4採用英特爾至強E5-2600 v3系列處理器,憑藉其22納米工藝新一代Haswell架構處理器的誕生,讓浪潮NF5280系列經典產品不僅平滑升級優化,新一代產品更多在設計和優化上符合新一代至強E5 V3的新特性。
  • 性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型
    該研究表明,pQRNN 模型能夠在文本分類任務上實現 BERT 級別的性能,但參數量僅為原來的 1/300。PRADO 的工作原理在一年前開發該模型時,PRADO 在文本分割上充分利用特定領域的 NLP 知識,以降低模型大小和提升模型性能。通常來說,首先通過將文本分割成與預定義通用詞典中的值相對應的 token,將 NLP 模型的文本輸入處理成適用於神經網絡的形式。
  • nlp領域發生了新的技術突破,用attention機制研究nlp領域
    近期,nlp領域發生了一系列的技術突破。包括:attention機制,cnn,adaptive attention network(an),兩層cnn相比較,an表現優於一層的cn。lstm,已經有了兩種不同的,看似性能和效率差異不大的attention機制:rnnattention,lstmattention。今天我們將從這兩種attention機制開始研究nlp領域突破性技術!
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    一:ERNIE 簡介1.1 簡介Google 最近提出的 BERT 模型,通過隨機屏蔽15%的字或者word,利用 Transformer 的多層 self-attention 雙向建模能力,在各項nlp 下遊任務中(如 sentence pair classification task, singe sentence classification task
  • 速度、準確率與泛化性能媲美SOTA CNN,Facebook開源高效圖像...
    研究人員僅用一臺 8-GPU 的伺服器對 DeiT 模型進行 3 天訓練,該方法就在 ImageNet 基準測試中達到了 84.2% 的 top-1 準確率,並且訓練階段未使用任何外部數據,該結果可以與頂尖的卷積神經網絡(CNN)媲美。
  • 山東省浪潮伺服器 浪潮英信NF8480M5熱銷
    (中關村在線 山東行情)近日,浪潮 英信NF8480M5(Xeon Gold 5115*2/16GB*4/4TB)在中關村在線經銷商「山東東柚雲計算浪潮代理商」有售,聯繫電話:13791039135。浪潮 英信NF8480M5新一代光通路診斷系統和深度系統錯誤洞察技術,大幅提升故障排除效率以及系統故障狀態恢復速度。
  • 浪潮ISC19發布AI HPC融合一體機
    但在實際環境中, 由於AI和HPC在工作負載、編程模型以及開發應用等方面存在諸多差異,如何實現資源的整合利用,有效避免資源浪費,已成為AI HPC用戶共同面臨的挑戰。浪潮認為,需要從計算性能、可擴展平臺架構,以及系統優化設計等方面進行優化和重構,才能有效解決AI與HPC融合應用帶來的新挑戰。
  • 為AI而生 「智」臻架構激活企業AI新潛能
    該款伺服器搭載NVIDIA Tesla V100 GPU,嵌入PCIe 4.0、NVIDIA NVLink和OpenCAPI,採用PowerAI,在大幅提升深度學習框架的訓練效率的同時,可多方位滿足企業人工智慧的綜合需求,以三大優勢為企業提供更強、更快、更易開發的人工智慧解決方案,全方位賦能企業實現人工智慧時代的無限可能。
  • 向雲而生 浪潮2U4路伺服器NF8260M6
    正是在這樣的背景下,浪潮開始開發專為雲計算優化的伺服器,並把目標放在了四路伺服器上。四路伺服器的雲化使原本用以關鍵計算的伺服器有機會走入新興的大規模網際網路應用中,滿足網際網路企業在高速發展過程中對計算力的需求,同時也把原來面對關鍵應用的可靠性、穩定性的設計思想和方案進行傳承和推廣。
  • 浪潮NF8380M5和NE5250M5入選CRN2019年度十大企業級伺服器
    日前,CRN發布2019年全球十大頂級企業級伺服器評選結果,浪潮四路伺服器NF8380M5和邊緣計算AI伺服器NE5250M5入選。  CRN認為,伺服器市場未來的增長點主要來自人工智慧、雲計算、VDI(virtual desktop infrastructure)以及邊緣計算等應用,據此,伺服器市場的頭部廠商如Dell、HPE、浪潮圍繞異構加速、存儲、IO負載等方面對伺服器進行優化設計。
  • 高配機架式 浪潮NF5270M4伺服器現售64900
    【PConline山東站 行情】浪潮 NF5270M4(E5-2620v3/8G/300G*3/24×HSB)基於英特爾最新平臺的E5-2620 V3處理器,相比上一代多出50%的內核與高速緩存,大幅提升處理器性能
  • 智能化E5平臺 浪潮NF5280M3伺服器評測
    作為針對至強E5-2600平臺的助推產品,浪潮在研發NF5280M3可謂是浪潮新一代的旗艦產品,新伺服器突破了以往國產品牌產品的軟肋,在產品設計細節、工藝、規格定義、功能性能方面有了很大的提升,採用最新的英特爾至強處理器E5-2600系列,具有強勁的性能表現,相比上一代產品,多方面性能提升至少30%。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對於 mT5-Base 版本的性能提升。最後,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    相比於靜態詞向量,動態詞向量可以根據上下文,更好地處理一詞多義現象,大幅提高自然語言處理多個任務的準確率。車萬翔介紹了研究組基於動態詞向量開展的相關工作,包括跨語言動態詞向量[1]、few-shot learning、輕量級動態詞向量模型等。關於未來的研究方向,車萬翔認為可以挖掘更多的「偽數據」訓練詞向量模型,同時進一步降低模型的複雜度、提升模型速度。
  • AI攢論文指日可待?Transformer生成論文摘要方法已出
    我們先在生成摘要之前執行一個簡單的抽取步驟,然後再將其用於在相關信息上調整 transformer 語言模型,之後將其用於生成摘要。我們表明這個抽取步驟能顯著提升摘要結果。我們還表明這個方法能得到比之前的使用複製機制的方法更抽象的摘要,同時還能得到更高的 rouge 分數。」讀起來怎麼樣?
  • 2019 年 NLP 領域都發生了哪些大事件?
    《Neural Logic Machines》這項工作提出了一種「神經-符號」網絡架構,可以在歸納學習和邏輯推理方面取得很好的性能。該模型在數組排序和尋找最短路徑任務中表現出色。XLNet 是一種用於自然語言處理任務的預訓練方法,它在 20 種任務上相較於 BERT 有了進一步的提升。關於這份卓越的工作的總結,請參閱: https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b。