無人機/機器人開發實戰,如何優化深度學習?

2020-12-08 愛活網

記者:Jetson TX1能解決您剛才談到的兩個挑戰嗎?有哪些環節,在採用Jetson TX1之前實現起來比較困難?

趙開勇:其實嵌入式人工智慧應用需要的不僅僅是計算。選擇TX1主要有四個理由:

1. 計算模塊從I/O擴展開發平臺獨立,TX1的核心板只有卡片大小(50 mm x 87 mm),所以可以很方便做前期的驗證平臺,甚至直接上產品而不需要再做設計。

2. 性能方面接近1024G flops的F16計算能力,只有10w左右的功耗,完全支持CUDA和cuDNN的接口,可以很方面地把PC上訓練的深度神經網絡直接porting到Tegra X1的嵌入式平臺上。

3. TX1提供豐富的硬體接口,可以很方面接入各種硬體設備,包括攝像頭、各種傳感器等。

4. TX1開發者套件利用Linux環境進行了預先快閃記憶體處理,支持許多常見的API,受NVIDIA完整開發工具鏈的支持。此外,NVIDIA的工具對Caffe等主流的深度學習開源軟體支持得很好。


(圖片來自NVIDIA官網)

談到使用TX1才能做到的,尺寸和功耗的優化無疑是令人激動的,但我最看重還是視覺計算性能——卷積計算的優化對於我們的應用迭代實在太重要了。雖然目前的深度學習硬體類型比較多,但是真正能快速形成戰鬥力的,還是CUDA硬體+CUDA深度學習軟體。GPU架構本身就是一種可編程的並行計算架構,並行計算在70年代就有很多很好的算法。但NVIDIA在核心數量、浮點運算能力、內存等方面的進展,使得GPU性能能夠不斷增長,256核心讓TX1的並行計算能力更好。

另外很重要的一點,Tegra採用與臺式機一樣的架構,所以個人開發者也可以在臺式機上用更強的遊戲卡(推薦Titan系列)來訓練深度神經網絡,然後很方便地移植到嵌入式平臺上,有利於複雜多維空間圖像信息的快速處理。

記者:您談到性能,也曾預言基於行動裝置的高性能計算將會成為未來潮流,現在Jetson TX1提供Teraflop級的浮點運算能力,在實際測試中的表現符合您的預期嗎?

趙開勇:預言不用交稅,但技術突破需要很多工作。TX1的計算能力確實達到了Teraflop級別,在一張信用卡大小的系統上實現,為嵌入式智能設備開發者提供了一個很好的平臺,同時我們也看到,目前只是F16的,而很多深度學習或者神經網絡是F32的,所以還有一定的局限性,當然技術會不斷地發展。另一方面TX1的真正的應用還是比較少,雖然NVIDIA在TX1上提供了大量的軟體包,但是在實際生成中大規模的使用TX1的還是太少,還需要更多的人員參與到TX1的應用開發中來,TX1的性能才能真正發揮出來。

其實NVIDIA在TX1的軟體方面已經提供了大量的支持,因為TX1上使用的是PC級別的GPU架構,可以很方便地把PC上的一些應用直接porting到TX1上來。不過,真正了解如何把深度神經網絡優化到TX1上,還需要更多的人參與。

對於TX1的性能本身,我認為,嵌入式高性能計算平臺在不久的將來還會有更高的性能,TX1隻是一個起步。

記者:能否談談CPU、GPU內存協同調度的經驗?

趙開勇:TX1的CPU和GPU其實是共享一片硬體內存,所以在使用的時候,需要注意內存的管理,需要採用高效的內存管理方法來做開發。當然內存調度管理是所有開發平臺都需要注意的事情,只是在TX1可能會體現得更明顯——如果內存調度管理不好,在GPU上實現的高性能應用可能會受到內存制約,使得性能下降很多,在嵌入式平臺上性能就會損失更多。

前面提到過,想要實現更好的優化,需要了解GPU內部的硬體架構,包括內存架構和線程模型。這方面的入門知識,可以參考我的記者博客文章:http://blog.記者.net/openhero/article/details/42131771

記者:您是否還嘗試過其他類型的嵌入式開發平臺?和Jetson TX1的開發體驗相比有什麼區別?

趙開勇:嘗試過一些。有的提供更簡單的開發平臺,但是沒有TX1的性能高,很難做出一些真正酷的應用;有的開發難度更大,提供的軟體資源不多。

記者:最近有一些無人駕駛汽車撞人、無人機墜毀的新聞,基於Jetson TX1的開發也有一些安全方面的優勢嗎?

趙開勇:這其實和硬體關係不大,重要的是開發過程中需要對安全有更高層次的考慮,需要考慮如何結合更多的傳感器,儘量把各種可能性都編寫到程序中,以避免安全事故的發生。

當然,增加傳感器也需要計算的支持,只有豐富的計算性能和計算資源才能提供各種傳感器融合所需的性能。從這個角度來看,TX1有解決安全問題的優勢,因為這個平臺上有豐富的計算資源,而且在未來的版本中可能會有更高的計算能力。

記者:您認為TX1隻是一個起步,那麼對於它的升級版本的能力,包括編程的支持,您還有哪些期待?

趙開勇:主要是如下幾個方面:

1. 更高的性能,更多的功耗,更小的硬體平臺,不需要太多的外圍設備,把核心板做得更小。

2. 編程方面支持更多的直接從PC移植,更好的工具將PC上開發深度網絡,直接優化到TX1的平臺上。

3. 提供更多穩定豐富的SDK,在PC上提供相同的開發軟體包,這樣就可以在PC上很快速地開發,然後移植到TX1上。

小結

在VR、機器人、無人機、自動駕駛泛濫的時代,將人工智慧技術應用到嵌入式和移動領域的技術趨勢已經不可阻擋,但這些應用的開發,需要計算資源和開發接口、開發工具的支持。從趙開勇的嘗試來看,Jetson TX1平臺具有強大的計算能力,同時提供了豐富的開發資源,以及PC移植的能力,能夠讓開發者更容易地開發出想得到的應用。

相關焦點

  • 推薦算法系統/人臉識別/深度學習對話機器人高級實戰課
    包含了推薦算法系統實戰、深度學習人臉識別實戰、深度學習對話機器人實戰等高級前沿的精品課程,下面分別介紹下各個實戰項目:1、推薦算法系統實戰首先推薦系統不等於推薦算法,更不等於協同過濾。對話機器人從對話的產生方式,可以分為基於檢索的模型(Retrieval-Based Models)和生成式模型(Generative Models),基於檢索我們可以使用搜尋引擎的方式來做,基於生成式模型我們可以使用TensorFlow或MXnet深度學習框架的Seq2Seq算法來實現,同時我們可以加入強化學習的思想來優化Seq2Seq算法。
  • 如何將深度學習應用於無人機圖像的目標檢測
    /how-we-flew-a-drone-to-monitor-construction-projects-in-africa-using-deep-learning-b792f5c9c471如何將深度學習應用於無人機圖像的目標檢測
  • .| 深度學習理論與實戰:提高篇(5)——深度學習在語音識別中的應用
    編者按:本文節選自《深度學習理論與實戰:提高篇 》一書,原文連結http://fancyerii.github.io/2019/03/14/dl-book/。作者李理,環信人工智慧研發中心vp,有十多年自然語言處理和人工智慧研發經驗,主持研發過多款智能硬體的問答和對話系統,負責環信中文語義分析開放平臺和環信智慧機器人的設計與研發。以下為正文。提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。
  • 【PPT下載】深度學習入門指南!六步構建深度神經網絡
    這三種分類基本覆蓋了現在眾多與深度學習相關的應用。另外,可以分得更細一些。從應用上來講,整個市場上有非常多的工具能夠幫到各個開發人員和開發團隊去降低自己的編程工作量,也方便大家去實現各種各樣的開發。上手NVIDIA交互式深度學習訓練平臺DIGITS基於大家對於深入學習的理解,如何快速地啟動深度學習的旅程呢。
  • 離散優化代替反向傳播:Pedro Domingos提出深度學習新方向
    避免這些問題對開發可用於更複雜任務的大型深層網絡系統至關重要。出於以上原因,我們研究使用硬閾值單元學習深層神經網絡的高效技術。我們觀察到硬閾值單元輸出離散值,這表明組合優化(combinatorial optimization)可能提供訓練這些網絡的有效方法,因此本論文提出了一種學習深層硬閾值網絡的框架。
  • 寧夏警用無人機實戰演練「秀肌肉」,用無人機轉移爆炸物
    央廣網銀川9月25日消息(記者徐升)今天下午,寧夏全區公安機關警用無人機練兵實戰演練在銀川花博園通用機場拉開帷幕。全區公安機關15個單位的27名參訓民警,操控數十款新型警用無人機亮相實戰演練現場,充分展示了寧夏警航科技的最新實力。
  • 當無人機有了人一樣的眼睛會怎樣?無人機視覺slam給你答案
    最大的優點是傳感器簡單且成本低廉,但同時也有個大問題,就是不能確切的得到深度。  一方面是由於絕對深度未知,單目SLAM不能得到機器人運動軌跡及地圖的真實大小,如果把軌跡和房間同時放大兩倍,單目看到的圖像是一樣的,因此,單目SLAM只能估計一個相對深度。另一方面,單目相機無法依靠一張圖像獲得圖像中物體離自己的相對距離。
  • 中科視拓創始人山世光:AI人才稀缺,開發任務繁重,限制了深度學習落地
    特別的,上面ABC三點中的A,即算法,最主要的就是指深度學習(Deep Learning)。深度學習在計算機視覺領域,解決了或者推動了一大類非線性的映射函數學習的問題。這樣的方式,使AI開發的方法論產生了極大變化。但與此同時,從落地角度來看,依賴於有標註大數據的深度學習也還存在非常多問題。首先,個性化需求非常多,可批量複製的「標品」比較少。
  • 最大市場來自無人機的深度學習公司Neurala,如今融資1400萬美元
    DroneLife波士頓的深度學習公司Neurala,「Neurala大腦」的創建公司獲得1400萬美元的A輪融資。Neurala表示:「根據最初為NASA開發的工作,」Neurala大腦「使新一代智能產品因應實時環境變化而學習、適應和與環境互動」。Neurala的產品和市場副總裁Roger Matus說:「Neurala大腦的設計是為了和人腦發揮一樣的作用,它的學習和推理速度更加快速。
  • 前沿| 利用遺傳算法優化神經網絡:Uber提出深度學習訓練新方式
    但是,Uber 近日發布的五篇論文表明,神經進化(neuroevolution)這種利用遺傳算法的神經網絡優化策略,也是訓練深度神經網絡解決強化學習(RL)問題的有效方法。開發包括神經進化在內的各種有力的學習方法將幫助 Uber 發展更安全、更可靠的運輸方案。
  • 陳天奇等人提出TVM:深度學習自動優化代碼生成器
    考慮到這種需求的複雜性,開發一種能夠將深度學習高級程序降低為適應任何硬體後端的低級優化代碼的優化框架是最好的方法。 目前的深度學習框架依賴於計算圖的中間表示來實現優化,如自動微分和動態內存管理 [3,7,4]。然而,圖級別的優化通常過於高級,無法有效處理硬體後端算子級別的轉換。另一方面,目前深度學習框架的算子級別庫通常過於僵化,難以輕鬆移植到不同硬體設備上。
  • 前瞻無人機產業全球周報第85期:全球首款探魚無人機發布!手機APP...
    潛鱘 F1是一款為釣魚愛好者設計的數字高清移動可視探魚無人機,可用於尋找釣點,觀察地形、環境和魚層分布,實時觀察、拍攝和直播釣魚過程,帶來前所未有的釣魚體驗。潛鱘F1搭載4個矢量推進器,可通過手機APP無線操控,實現水平全方位精確移動,快速找到釣點。內置1080P全高清星光級數字探頭,探頭內置深度和溫度傳感器,可垂直升降,防水深度可達28米。
  • 在小樹林飛也能又快又穩,這是港科大沈劭劼組的「猛禽」無人機重規劃框架
    從 demo 中我們可以看到,這架無人機可以在障礙重重的室內外快速飛行,即使在拐彎處也不會撞到障礙物。這還要得益於他們提出的一個穩健的 perception-aWare重規劃框架——RAPTOR(字面含義:猛禽)。正如名字中所寄予的期望,RAPTOR 經歷了各種複雜環境的考驗,結果都能保證無人機的平穩、快速自主飛行。相關研究已經提交給機器人學頂會 T-RO 接受評審。
  • 陳天奇:深度學習編譯技術的現狀和未來
    目前深度學習框架的圖優化或者高層優化(HLO)部分和傳統編譯的pass比較匹配,這些優化也會逐漸被標準的pass所替代。但是在高層還會有開放的問題,即高層的抽象如何可以做到容易分析又有足夠的表達能力。TVM的Relay,XLA和Glow是三個在這個方向上的例子。在自動代碼生成上,傳統編譯器的目標是生成比較優化的通用代碼。
  • 深度學習概述:NLP vs CNN
    最初的人工智慧和深度學習算法比較簡單,就像我們所知的簡單感知器模型和單層神經網絡一樣。隨著時間的推移和更加專注的研究,我們已經擁有了具有多層結構的複雜神經網絡。一些公司在他們的軟體和服務中使用了LSTMs、GANs、變分自編碼器等算法。本文在以下部分列出了人工智慧領域當前最熱門的技術以及正在研究這些熱門技術的公司。
  • 運用深度學習教機器人理解自然語言
    他主要研究機器學習和人工智慧如何使用在文本和知識中讓計算機變得更智能。他在德克薩斯農工大學獲得心理學學士學位和工商管理碩士,在德克薩斯大學獲得計算機博士學位。譯者/趙屹華 審校/劉帝偉、朱正貴 責編/周建丁。在深度學習出現之前,文字所包含的意思是通過人為設計的符號和結構傳達給計算機的。
  • 自動生成硬體優化內核:陳天奇等人發布深度學習編譯器TVM
    有了 TVM,業界與學界開發者們可以快速、輕鬆地在各個系統(包括手機、嵌入式設備與低功耗晶片)上部署深度學習應用程式,同時無須擔心資源與速度的限制。「TVM 作為神經網絡和硬體後端之間的共同層,消除了為每類設備或伺服器優化各自基礎架構的需要。」TVM 項目負責人陳天奇表示,「我們的框架允許開發人員快速、輕鬆地部署和優化大量硬體設備上的深度學習系統。」
  • 要理解深度學習,必須突破常規視角去理解優化
    深度學習算法有一些重要的特性並不總是反映在目標值中。所以,要加深對深度學習的理解,還得超越常規視角。但我認為,如果你的目標是對深度學習進行數學理解的話,那麼從常規視角去理解優化明顯是不夠的。優化的常規視角:儘快找到目標最小可能值的解決方案。先驗上來說,並不確定是否所有的學習都要優化一個目標。大腦中的學習是否也如此是神經科學中一個長期存在的開放性問題。大腦的組成部分似乎已經通過各種進化事件被重新利用/拼湊在一起,整個組合可能或不可以歸結為目標的優化。
  • 從腦電波到機器人運動——深度學習:介紹
    由此,產生了一個巨大的挑戰:如何對這些EEG掃描結果進行「解碼」,從而通過非侵入式的腦機接口(BCI)控制機器人假肢或者其他設備。作為一門強數據驅動的學科,在與深度學習相關的模式識別領域最近有了新的突破,創造出了一種新的使用神經網絡分析這些電信號的新方法。
  • 普華鷹眼在2020第四屆世界無人機大會《無人機(應急)實戰應用高峰論壇》上發起討論
    9月13日-15日,2020第四屆世界無人機大會在深圳會展中心舉辦,本次大會由深圳市商務局批准,中國電子信息行業聯合會、深圳市南山區人民政府、工信部政府採購中心、中國科學院無人機應用與管控研究中心主辦,深圳市南山區工業和信息化局、深圳市無人機行業協會承辦。