本文首發於微信公眾號:智東西。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
#布告欄#智東西「自動駕駛」社群開放申請。社群已雲集通用、福特、比亞迪、Waymo、百度無人車、Uber、博世、NVIDIA、英特爾、Mobileye等車企和零部件供應商的數千名汽車工程師和從業者。同時,本周3堂自動駕駛系列課將在社群開課。課程免費,添加小卡(ID:zhidxcdx)報名。
智東西 文 | Lina 曉寒
9月26日的北京,天氣陰涼,略有霧霾。
智東西9月26日北京現場消息,今天,英偉達2017 GTC China(GPU技術大會中國分會)的最重磅環節——CEO黃仁勳(粉絲愛稱「老黃」)主題演講——開始了!智東西作為特邀媒體,從大會現場第一排發來報導。(
在智東西公眾號回復「GTC」獲取PPT下載)
GTC大會已經不僅僅是通常意義理解的「顯卡技術大會」了,而是一場展示英偉達AI、VR、深度學習等眾多新技術的重要窗口,在早上8點多就引來上千人到場。
本次演講的幾大亮點如下:推出新版TensorRT 3深度學習應用平臺;推出世界第一款機器人晶片XAVIER;宣布阿里、百度、騰訊「三朵雲」數據中心都開始使用Tesla V100新款GPU;與海康威視合作打造AI城市;宣布與京東在倉儲機器人與送貨無人機方面的合作等。
5月時,英偉達曾在美國主會場舉辦2017 GTC,並推出了新款GPU Tesla V100以及DGX-1超級電腦、HGX-1雲伺服器、ISSAC機器人訓練平臺等眾多新品,智東西作為特邀媒體,受邀來到矽谷對其進行過詳細的深度報導(多人VR交互、30億刀的顯卡、神秘ISAAC黑科技……乾貨滿滿的GTC 2017一文看盡)
和5月的GTC相比,本次GTC China上推出的新品與宣布的合作案例大多集中在深度學習推理應用(Inference)領域。可以看得來,憑藉著超高計算性能的GPU在深度學習訓練(Training)領域賺得盆滿缽滿的英偉達,現在也想要朝應用端發力了。
一、開場:跟5月的GTC差不多
(老黃今天還是一身萬年不變的經典黑色皮衣開場)
9點十幾分,主題演講稍稍延遲開場。名為「i am ai」的開場視頻以「我是科學家」、「我是治癒者(healer)」、「我是保護者」、「我是老師」等第一人稱作為旁白,介紹了以英偉達GPU驅動的人工智慧如何在數據、醫療健康、翻譯、機器人、自動駕駛、教學等等領域進行應用。
這個開場視頻復用了與5月GTC的開場視頻架構,但是加入了本土化的科大訊飛(002230,股吧)、圖森駕駛等鏡頭。
與5月的GTC一樣,老黃在開場時講起了最近的幾年裡摩爾定律開始失靈,人們需要花越來越多的成本來換取計算能力的些微增加。而且,與摩爾定律逐漸失靈形成對比的是GPU的崛起。
隨著人工智慧與深度學習在近年來的興起,以GPU驅動的計算已經隨處可見,英偉達的AI平臺也支持目前所有深度學習框架、所有雲與數據中心,並設立了Inception深度學習創企計劃,目前已經有1900家企業參與。
而且,CUDA開發人員的數量也在5年裡增長了14倍,超過60萬人,CUDA SDK的下載量也達到180萬。世界各地的AI初創公司不斷湧現,今年為止已經獲得了66億美元的融資,而且今年發表的深度學習論文也已經超過了3千篇。
現在有不少AI應用都是此前人類難以想像的,比如利用深度學習自編碼器完成只有部分被渲染的逼真圖像、自動生成語音+3D人臉動畫、人體動作動作實時追蹤、人體動作模擬等等。
接著,老黃又講起了5月曾經發布的VR多人交互平臺Holodeck,不過這一部分跟(多人VR交互、30億刀的顯卡、神秘ISAAC黑科技……乾貨滿滿的GTC 2017一文看盡)展示的相同,沒有增加新內容。
二、將阿里、百度、騰訊「三朵雲」納入囊中
在5月的GTC上,老黃請來了亞馬遜AWS和微軟Azure雲,而這次的GTC China上,又怎麼少得了國內雲服務合作夥伴呢?
這次老黃宣布,阿里雲、百度雲、騰訊雲,國內三個代表雲服務商都開始用上咱們新推出的Tesla V100 GPU啦!
其實在此之前,BAT三朵雲的數據中心裏面已經在使用英偉達的GPU了,這次老黃只是強調下他們都已經用上Tesla V100啦,同時BAT作為深度學習思想領袖贊助商來露個臉~
(Tesla V100參數圖)
Tesla V100是英偉達在今年5月推出的新款GPU,號稱「世界上最昂貴的計算能力項目」——投入30億美元研發。這款GPU採用的是臺積電的12nm Finfet工藝,有210億個電晶體,採用Volta Tensor Cores架構,單個計算單元比原本的速度快了12倍。
此外,老黃還宣布,國內的HGX雲計算伺服器將會由華為、浪潮、聯想作為OEM商進行代理。
HGX-1是英偉達在今年5月GTC上推出的一款專門用於GPU雲計算的超級電腦,適用於公有雲、深度學習、圖形渲染、CUDA計算等。配備了8塊Tesla V100 GPU,售價14.9萬美元。
三、重磅:新版深度學習應用平臺TensorRT 3
深度學習分為訓練(Training)和推理應用(Inference)兩個部分,數據科學家們在將一個神經網絡通過大量數據訓練好之後,再將這個訓練好的神經網絡應用到硬體上,進行人臉識別、語音識別等的AI軟體應用。
然而,從CNN到LSTM再到GANs,現在的深度學習神經網絡框架正變得越來越複雜、越來越多樣、而且在日新月異地變化著,訓練環節的複雜性自然也帶來了應用環節的複雜性——TensorRT就是為了解決這一問題的。
這次GTC China上,老黃帶來了新一代深度學習應用平臺TensorRT 3。
TensorRT是一款可編程應用平臺(Programmable Inference Platform),什麼意思呢?就是你將一個神經網絡訓練好了之後,可以通過TensorRT可編程平臺,簡便快捷地將這個訓練好了的神經網絡部署(Deploy)到Tesla V100、Jetson TX2、Drive PX 2等英偉達的GPU硬體上。
跟上一代相比TensorRT,本次的TensorRT 3有三方面的進化:
1)增加支持的深度學習框架:新一代TensorRT支持TensorFlow、mxnet、Caffe2、PYTORCH、theano、Microsoft Cognitive Toolkit、Chainer、還有百度的PaddlePaddle——幾乎覆蓋了市面上所有的深度學習開源框架。
2)增加支持的GPU:現在TensorRT可以應用到英偉達的全線GPU中,從幾瓦到幾百瓦的Tesla V100、Tesla P4、Drive PX2、Jetson TX2,以及NVIDIA DLA框架都可以支持。
3)增加應用:原先TensorRT相對而言更擅長圖像處理等方面的深度學習應用,現在無論是雲、數據中心、機器、機器人等等,都可以輕易處理。
此外,TensorRT還被老黃稱之為「世界上最快的TensorFlow應用平臺」,在Tesla V100上應用的性能能達到CPU的幾十到數百倍,並且處理圖像時只有7ms的延遲,處理語音的延時不到200ms(前不久谷歌用於數據中心的TPU也是7ms的延遲)為了達到這樣的高效、快速、低延遲、高能效比的效果,TensorRT採用了層級融合、動態內容、多層級並行計算等技術,而且採用的是8bit計算。
工程師將訓練好的深度學習神經網絡應用在GPU板卡上時,最快只需要幾秒鐘就能成功部署,而且需要人工操作的地方非常少。
而且,通過遷移學習,英偉達可以提供事先部分訓練好的神經網絡(Pre-Trained Network),在一個已經經過大量數據訓練過的網絡的基礎上,用戶加入自己少量的需要訓練的部分數據,就可以得到很好的效果。
由於Tesla V100相較於CPU加速了40倍,所以只需要一臺8GPU伺服器就可替代160臺雙CPU伺服器或者4個機架,每臺V100伺服器可以節省50萬美元。
(4個機架的CPU和1個機架的GPU)
在這一頁PPT裡老黃來來回回切換了4、5次,簡直玩得不亦樂乎。而且老黃一而再、再而三地強調了「省錢、省錢、省錢」,「Saving Money」從這一刻開始貫穿了全場演講……
四、TensorRT的合作夥伴與應用案例
阿里雲、百度雲、騰訊、京東、科大訊飛也都宣布成為英偉達GPU應用加速平臺的合作夥伴,他們正競相講AI融合到商業、社交、新聞、凸顯等應用中。
(用CPU和GPU來識別花朵)
現場的Demo中,老黃展示了用CPU和V100+TensorRT 3來識別花朵的速度差別,GPU將近快了100倍。
第二個Demo則是通過語音識別,在《權力的遊戲》中通過搜索臺詞,直接定位到劇中角色講出這句臺詞的鏡頭。
接著,老黃宣布,英偉達將和海康威視一起打造AI城市。海康威視的安防項目端到端解決方案中將會從訓練到應用都使用英偉達平臺。據老黃介紹,這是英偉達和海康威視兩年以來長期合作的成果。
到了2020年,城市裡將會有十億攝像頭,幫助尋找失蹤人口、智能控制交通、協助執法等等,城市將變得更智能、更安全。
此外,英偉達還和華為、大華、阿里巴巴等公司在智能城市、智能交通、虛擬保安等方面進行了合作。
五、L3-L5自動駕駛平臺
這次GTC China並沒有公布新的產品,黃教主重新介紹了一下英偉達在自動駕駛方面的動作——AV(AutonomousDriving ) Computing Platform自動駕駛計算平臺。
從縱向來看,該平臺共有四層,如下圖。
其中DriveOS為自動駕駛汽車所搭載的軟體作業系統,這一部分是各個自動駕駛公司的東西,英偉達提供的主要是計算能力。
這裡計算能力的核心就是基於英偉達GPU的計算模塊Nvidia Drive PX。
目前Drive PX已經發展到了第二代,被稱為Drive PX2,通過組合不同數量的Drive PX2可以支持不同級別的自動駕駛能力。
如1塊PX2可以支持L2級的自動駕駛,4塊PX2則可以支持L4/L5級別的自動駕駛等。
補充一點,PX2上搭載的是基於Pascal架構的顯卡,而英偉達在5月時也推出有升級版的產品Drive PX Xavier。搭載了英偉達那個花費30億美元研製出來的Volta架構的顯卡和8個CPU,被英偉達稱之為迄今為止最複雜的片上系統,支持L4/L5級別自動駕駛能力。Drive PX Xavier 2018年第一季度為早期合作夥伴推出,第四季度全面出貨。
光有硬體不行,為了讓開發者更好的使用PX2與PX Xavier系列產品,英偉達也很貼心的推出了配套的開發者工具——英偉達DriveWorks。
有了硬體,有了開發者工具,自動駕駛技術開發者就可以將自己的軟體系統部署在這些計算平臺上,並運行各種深度學習的網絡。
有了深度學習網絡,自動駕駛汽車就能對車載的雷射雷達、毫米波雷達、超聲波雷達、攝像頭等傳感器的數據進行處理,從而幫助汽車實現感知、定位、規劃三大功能,完成自動駕駛功能。
同樣是得益於GPU在深度學習方面的先天優勢,老黃表示全球有145家從事自動駕駛技術研發的公司在使用英偉達的自動駕駛平臺。
其中包括國內的Momenta、獲得英偉達投資的圖森未來、在前一段剛剛展出了自動駕駛快遞車的京東等公司。
有意思的是,黃教主這次並沒有單獨提及GTC上提出的,包含有Auto-Pilot、Mapping-to-Driving、Guardian Angel、Co-Pilot等功能的AI Car Platform。
最後老黃也表明英偉達的野心其實並不只在自動駕駛汽車,其未來的野心是為無人機、機器人等所有智能設備提供類似的計算能力。
六、從硬到軟,打造機器人大腦
會上,老黃正式宣布推出了世界第一款用於自動機器人的處理(晶片)——Xavier,上文提到的自動駕駛Drive PX Xavier晶片是它的一個架構分支。
Xavier集成了8核CPU、Volta TensorCore & CUDA GPU、傳感器、8K HDR VP、以及CVA。可以應用在30TOPS的計算機視覺、深度學習等機器人所需要的技能領域,有著超高計算力與超高能效比。
這款處理將於2018年第一季度提供給早期合作夥伴,2018年第四季度全面推出。
與此同時老黃還宣布,英偉達的Xavier將會用在京東的倉儲機器人jROVER+京東送貨無人機jDRONE等一系列自主機器人當中。據京東表示,到了2022年,將會部署10億自主機器人。
現在,這些自主機器人有了硬體大腦,可是軟體大腦怎麼辦呢?
別急,今年5月時,英偉達推出了一個用於訓練機器人的增強學習世界模擬器——ISAAC機器人訓練模擬世界(ISAAC Robot Simulator)模擬真實世界的邏輯、原理、物理定律等,然後再將機器放進這個世界裡不斷訓練。
你可以在這個世界裡對成千上萬個機器人進行超越物理時間規律的快速訓練,然後找到裡面最聰明的一個機器人,將它的「大腦」程序複製出來,重複這個過程,直至選出最聰明的一個神經網絡,將它部署到XAVIER上,再將這塊晶片放進機器人的「腦袋」中。
七、日益興旺的AI應用需求
正如前文所言,和5月的GTC相比,本次GTC China上推出的都是集中在深度學習推理應用(Inference)領域的新款計算平臺TensorRT 3、又或是各種BAT雲服務商、京東機器人等的應用端合作落地案例。
憑藉著超高計算性能的GPU,英偉已經在深度學習的兩個環節之一:訓練(Training)這一領域幾乎佔據統治級地位,此時也想要朝另一個環節:推理應用(Inference)端發力了。
如今,LinkedIn上每天有著2萬億條信息需要被個性化處理、科大訊飛每天有5億用戶需要使用語音識別技術、谷歌翻譯每天要處理1400億個單詞、YouTube上每天有600億幀視頻被上傳……在這個數據爆炸的年代,我們對AI應用的需求越來越強大,也越來越迫切。
以上種種問題都可以用AI進行處理,但問題在於現在的數據中心很多都是幾年前針對搜尋引擎等網際網路應用打造的,無論是框架還是工作負載都不適宜進行實時AI應用落地。
英偉達的合作夥伴們——像是擁有十億用戶基礎的微信語音轉文字功能、擁有1千頻道的京東需要智能視頻分析、以及日均80億條信息的阿里巴巴需要的翻譯功能——在其數據中心裡使用了英偉達GPU後,都在速度、準確率、延遲、能效比方面有了極大的提升。
當前人工智慧板卡主要分為GPU、ASIC、FPGA。代表分別為NVIDIA Tesla系列GPU、Google的TPU、Xilinx的FPGA。GPU的優勢在於性能強大、生態成熟,但從另一個角度來說,跟FPGA、ASIC等板卡比起來也會遇到功耗較大、價格較貴、某方面性能不夠極致等弱點。
最近華為推出的麒麟970手機晶片和蘋果推出的A11手機晶片等都屬於ASIC(專用集成電路,Application Specific Integrated Circuit)根據特定的需求而專門設計並製造出的晶片。
結語:大勢所趨的端智能
正常演講中,老黃已經很少提到訓練部分了,大部分都在將深度學習的應用環節。推出新版TensorRT 3深度學習應用平臺;推出世界第一款機器人晶片XAVIER;宣布阿里、百度、騰訊「三朵雲」數據中心都開始使用Tesla V100新款GPU;與海康威視合作打造AI城市;宣布與京東在倉儲機器人與送貨無人機方面的合作等……從本次GTC China的種種落地案例中我們可以看到,英偉達正一步步地努力朝AI應用端發力。
而從日益興旺的AI板卡市場可以看出,端智能(將AI應用落地到硬體終端上)已經成為大勢所趨,無論是英偉達的通用GPU,還是谷歌TPU、華為970、蘋果A11等一系列定製化板卡,都是讓AI在硬體終端開始由軟到硬地落地的表現,是人工智慧進一步產業化落地的典型代表。
文章來源:微信公眾號智東西
(責任編輯:婁在霞 HN151)