大數據文摘作品
記者:魏子敏、蔣寶尚
「我每次來中國都學一些中文,總有一天會全程中文做完主題演講。」
英偉達異常低迷的股價似乎並沒有影響黃教主的心情。在剛剛結束的最新GTC 2018中國峰會上,英偉達創始人黃仁勳依然一身皮衣,激情四射地完成了長達兩個小時的主題演講。過程中,黃教主生怕現場中國聽眾聽不懂英文沒有辦法互動,多次轉換中文解釋,「很便宜」、「太重了」、「你們聽得懂嗎」。
同時,他還在現場發布了兩段鬼畜機器學習訓練視頻:和Michael Jackson一起熱舞、以及和李小龍一起玩兒雙截棍,也是煞費苦心。
儘管非常熱鬧,但這次大會並沒有發布希麼非常新的產品,更多是在「炒冷飯」。甚至可以說,整場大會頗像一場英偉達的2018年終成果展。
這場中國峰會上,黃教主回顧了今年早些時候英偉達在日本、歐洲的GTC大會上已經發布的幾個比較重要的產品線,包括新的Turing、新的HGX-2、T2、Rapids、AGX Xavier等。
顯然,今年英偉達的發布重點仍然集中在人工智慧領域,特別是應用端,黃教主在大會中非常高調的宣布了在這些應用領域,英偉達都分別與哪些中國公司達成了合作。
還是一起來看看本次大會的演講精華,或者說是英偉達在今年都發布了哪些成果。
新的Turing 通過光線追蹤和Al重塑圖形學新的HGX-2加速了HPC新的T4加速了超大規模數據中心RAPIDS 加速了機器學習和數據分析AGX Xavier是世界上第一臺用於自主機器的Al計算機,現已全面投入生產
再一起具體來看看。
新的Turing:通過光線追蹤和AI重塑圖形學
演講開始,黃教主提到十五年前,英偉達發明了可編程著色器。 基於可編程著色器設計的GPU徹底改變計算機圖形學。在手機視頻遊戲和遊戲機中都少不了GPU。
英偉達最初設計的GPU,包含可編程著色器的基本處理器。而圖靈(Turing)包括三個處理器,一個用於經典可編程著色的處理器,第二個處理器,專門用於光線跟蹤,以模擬光線在房間內反彈時的特性。
圖靈標誌著第一次實時光線追蹤成為可能。第三個處理器是核心-Tensor Coret,這個處理器使得深度學習、神經網絡、人工智慧以令人難以置信的速度運行。
Turing可憑信超過100TFLOP5的處理速度處理深度學習模型,從而生成特效、增強圖像質量,並打AI角色動畫。甚至可以使人物生動和人造世界非常逼真。
在會議上,黃仁勳以一款名為「劍影」的遊戲為例,展示了GPU處理能力的強大。
順應計算世界兩大趨勢,英偉達的HGX-2
「當前摩爾定律已經終結!」
在本次大會上,黃教主多次提到了這一趨勢。而這也是英偉達和其合作夥伴需要儘快準備應對的形式。
一般來說,在相同的價格下,GPU性能每10年會加速100倍,這是行業輸以依存的基礎。英偉達也已在10年內為眾多關鍵應用程式加速了1000倍,加速計算需要全棧專業知識,其中涵蓋架構、晶片設計、系統、算法以及應用程式優化等。
除了摩爾定律的終結,黃教主提到的英偉達所篤定的第二個趨勢是人工智慧。他大肆讚揚了人工智慧給世界帶來的變化,並表示對於大多數行業來說,沒有佔統治地位的物理定律,不存在可以模仿和改進其策略的基本原則方程,而藉助AI,行業可以從海量數據中學習建立預測模型,並將這些模型應用到行業的環境或運行中。數據越多,訓練強大AI模型的能力越強——電商、等售、金融服務、電信、醫療保健,這些都正在成為數據驅動的Al行業。
那麼,現在我們的數據量級有多大呢?
當然,人工智慧講改變運算,也將重塑計算的設計。
超大規模數據中心是網際網路時代的產物,最適用於Hadoop或MapReduce分布式存儲和計算,數百萬個成本適中的節點可同時為數百萬用戶運行小任務。
科學家正在融合物理模擬和Al預測方法來創建數量級更大的模型-這一嘗試在多精度Volta Tensor Core GPU的支持下得以實現。與此同時,數據科學家和Al 開發者需要使用HPC在更多數據上訓練更複雜的Al模型,英偉達推出的HPC正在成為Al計算機,並且為科學家、數據科學家和Al開發者所用。
黃教主提到,網際網路公司極度依賴機器學習來打造能夠提供個性化推薦的特色服務,超大規模節點必須作為一個HPC集群,來訓練模型或分別為運行各類Al 模型的數百萬並發用戶提供服務。
這樣,超級計算機會變成人工智慧計算機,科研、網際網路和工業領域的工作內容包括機器學習,深度學習,數據分析。
黃教主接下來稱,為了應對這一趨勢,英偉達專為大型模擬仿真設計了HPC,並在今年創建了V100 HGX-2。
這一新產品在今年8月份發布,搭載連接8個V100GPU,總共1PFLOPS,每個GPU以300GB./s的速度與其他GPU交互,並且以每秒3T8的速度訪問所有256GB的顯存。其運用NVIDIA NVSwitch 連接所有GPU並整合記憶體,具備前所未見的運算效能、頻寬和記憶體拓樸,可以更快速、更有效率地訓練這些模型。
「蠻重的」,黃教主手持這臺龐大的運算中心據他介紹重達300-400磅。帶著他演講了一會兒的黃教主氣喘籲籲,甚至需要停下來歇會兒才能繼續演講。
當然,價格用黃教主的話說,也「不是很便宜的」。
英偉達也宣布,中國計算機產業中的領軍企業包括華為,浪潮,聯想,QCT,曙光,Supermicro 都正在使用HGX-2計算機,百度和騰訊將提供基於HGX-2的雲計算服務。
新的T4為超大規模數據中心加速
對大規模計算集群,黃仁勳介紹了英偉達的新產品——T4,主要目的是應對那些必須以低延遲完成的工作。
「一旦軟體構建完成,它們需要在數據中心運行,去年我們推出了第一代推理平臺P4,這是一個被廣泛採用的NVIDIA推理平臺。」
在此基礎上,今年英偉達發布了新的T4——新一代加速超大集群,為超大規模數據中心加速。據了解,T4引入了革命性的Turing Tensor Core技術,具有多精度計算功能,T4提供從FP32到FP16到INT8以及INT4精度的突破性性能,其性能比CPU高出40倍。
「很小,像candybar一樣大」
黃仁勳稱,T4的能耗比CPU還小,但比CPU速度高百倍。
與P4不同,T4在訓練和推理方面都很出色,FP32,FP16TC,INT8 TC,INT4TC可以混合匹配,以實現最高的性能和精度,理論性能從65TFLOPS到230 TOPS。70W-適用於超大規模集群的理想功耗。
相對應還有一系列產品,包括TRT5——推理優化工具,支持Tensor Core和豐富的模型類型,例如,CNN,RNN,MLP等。
TRT 推理伺服器系統也是英偉達今年一款新的開源軟體,並支持單個GPU上運行多種模型,TRT 推理伺服器是容器化的,可在Kubernetes上運行。
黃教主稱,T4已經在30天前開始投入生產,並且宣布了已經有的一批中國合作夥伴
GPU加速機器學習RAPIDS為機器學習和數據分析加速
在2今年10月的歐洲GTC大會上,NVIDIA發布了一款針對數據科學和機器學習的GPU加速平臺,該平臺已為多個行業領先者所採用,並能幫助超大規模公司以前所未有的速度分析海量數據並進行精準的業務預測。
RAPIDS構建於Apache Arrow、pandas和scikit-learn等流行的開源項目之上,為最流行的Python數據科學工具鏈帶來了GPU提速。為了將更多的機器學習庫和功能引入RAPIDS,NVIDIA廣泛地與開源生態系統貢獻者展開合作 ,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 負責人兼Apache Arrow締造者Wes McKinney以及迅速增長的Python數據科學庫pandas等等。
RAPIDS與開源社區合作,加速數據科學和機器學習。藉助V100和HGX-2,T4,RAPIDS以及所有加速堆棧,NVIDIA啟動加速整個新HPC生態的過程。
Xavier:擁有對機器人所需的每項功能優化的專用處理器
2018 年1月,英偉達在CES大會發布了Xavier,擁有對機器人所需的每項功能優化的專用處理器。包括:ISP圖像傳感器處理單元、PVA可編程立體視覺加速器、VPU 視頻處理器、OFE 光流引擎、Tensor Core可編程張量處理器、CUDA 並行計算加速器、GPU 圖像加速器、DLA深度學習加速器、CPU。
Xavier是第一個專為處理機器人計算業務流而設計的晶片,可以處理高速率傳感器、複雜傳感器、Al和控制算法的傳感器、機器人的處理器性能使其具有功能性、靈活性和安全性。
黃仁勳接下來介紹了英偉達AGX系列產品。這個系列是一個用於自主機器的Al計算機,應用適配自動駕駛、機器人和智能儀器等各種應用層面。
Xavier系列目前已經完美囊括包括自動駕駛、機器人等五大最熱的人工智慧平臺,並且每一領域都已經有了一系列合作夥伴。
其中機器人系列已經和京東、美團、菜鳥達成合作:京東運輸機器人具有連接到Jetson AGXXavier的高清傳感器,可提供360度視覺和感知處理,以全面了解環境;美團選擇了Jetson AGXXavier,因為它們需要最高的加工性能;菜鳥選擇Jetson AGXXavier作為其最後一英裡的運輸車輛和倉庫機器人。
自動駕駛領域,黃仁勳稱,NVIDIA DRIVE是全球首個自動駕駛平臺,其每個加速堆棧由3層組成:第1層是核心作業系統和引擎API,第2層由算法加速庫組成,第3層是特定於域的算法或應用程式。
每個平臺都是開放的,開發人員可以訪問任何層並使用每個層的所有部分。
目前,自動駕駛平臺已經與小鵬汽車、奇點和SF Motors合作。還有不少新能源汽車計劃在DRIVE AGX,DRIVE OS,DriveWorks上構建自己的AV軟體