隨著人工智慧在安防、泛安防等領域迅速落地和普及,各類圖像視覺類AI算法落地的精度和實際效果在提升,獲得了更深廣的業務價值,如安防領域的人臉布控、人車視頻結構化等,泛安防的社區園區通行,新零售的VIP客戶識別等,都是AI技術商業化的典型場景。
同時,視覺類AI算法的深度學習計算,也逐步從雲端部署擴展到邊緣部署。邊緣的設備比雲端多1- 2 個數量級,業內對邊緣AI計算硬體的需求快速升溫,大家呼喚高算力、低功耗、接口豐富的晶片和模組方案的出現,來替代原來的CPU、GPU方案。
而比特大陸算豐AI計算模組SM5,定位為國內最強算力的AI邊緣計算模組,成為讓人眼前一亮的選擇。它基於AI專用晶片(ASIC),在算力上突破了17 TOPS量級,達到了驚人的 16 到 30 路的潛在視頻計算分析能力。難得的是,在高算力同時保持了相對低功耗、被動式無風扇散熱、接口豐富等優點。可以說是國內AI邊緣計算模組中的領軍產品,吸引了諸多安防、泛安防客戶的眼球。不僅如此,作為國產廠商的純自主研發產品,也為特種行業領域提供了新的選擇。比特大陸算豐AI計算模組SM5 實測效果如何,我們一一驗證。
小體積 大集成
從外形來看,比特大陸算豐AI計算模組SM5 (Sophon SM5)極為小巧,尺寸僅為普通信用卡大小,算連接器為87×65×8mm,不算連接器為87×65×3mm。底座為 144 針高密接口,供客戶開發底板,嵌入到各類設備之中。
該模組採用寬溫設計,散熱方案可以選配比特大陸的被動或主動散熱方案,客戶也可自行設計。可適應-20℃到+55℃的工作環境,有效降低惡劣環境對模組的影響,從而支持系統的持續運作。模組滿足極端環境的作業需求,可應用在室外半封閉場所。
比特大陸該模組採用雙模驅動,內置12G內存,既可作為AI計算的從設備(PCIE mode),也可作為主設備獨立運行(SOC mode),可支持FP32(2.2T)高精度的計算,INT8 計算經過自動化編譯校準的精度損失可小於<0.5%。
另外,該模組接口豐富,具有10+接口類型。支持PCIE EP/ PCIE RC / Ethernet / RS485/ RS232/ GPIO /SDIO / PWM等接口。擴展性強,可擴展USB/SATA/HDMI等,可擴展SATA存儲,可擴展4G/5G/wifi等。
總的來說,比特大陸算豐AI計算模組SM5 體積小、低功耗、雙網口、接口豐富,工作寬溫,高集成度,可以方便的被集成在各類邊緣計算設備、嵌入式設備、自動化機器之中。
SM5 模組頂面圖
SM5 模組底面圖
自主研發晶片 算力強大
比特大陸算豐AI晶片是其純自主研發產品,具備200+專利申請。比特大陸算豐AI計算模組SM5 基於比特大陸算豐AI晶片BM1684,為比特大陸的第三代雲端AI晶片,屬於歷代規格最高,算力最強,同時 3 代的產品研發迭代,在客戶持續使用反饋中,產品的成熟度得到了諸多行業客戶的打磨和提升,進入了成熟階段。
判斷晶片的主要標準即為算力、功耗。a&s實測該模組的算力達到17.6TOPS,在Winograd卷積加速下最高可達35.2TOPS。ARM CPU下算力最強, 8 核A53 主頻2.3GHz,邊緣AI晶片內最強,可靈活開發應用。
實測中,該模組Resnet50 的測試吞吐可達到1000 張/秒以上。安防的應用要從整體的視覺應用層面,端到端的來看性能指標。典型的安防視覺AI計算過程包含從外部視頻流/圖片流進入模組,網口取數據,視頻/圖片解碼,視頻前後處理,AI計算,同時CPU參與部分計算,最終輸出等。從該模組的測試結果看,其最高支持 32 路30FPS的1080P解碼,支持H264/H265 格式,支持視頻編碼最高960 FPS;具備硬加速的圖像前後處理能力(Crop/Resize/色域變換),有效提升應用性能。
常見Resnet50 等神經網絡運行典型功耗12W以內, 16 路視頻流全流程分析典型功耗為16W。在滿載情況下,典型功耗也不到20W功耗。可以在無風扇的被動散熱方案下,持續有效的長期運行。
業界比對測試 效果良好
除了從典型安防視覺AI計算過程衡量模組的算力和整體性能,a&s將英偉達TX2、華為ATLS200 等模組方案與比特大陸算豐AI計算模組SM5 進行橫向對比測試,同類對比技術規格來看,算豐SM5 的技術指標在CPU、AI算力、視頻解碼、內存、乙太網埠等等都具備較大的優勢,可以說說得上是業內超強算力。
從測評數據中可以看出以下幾點:
在AI算力方面,與TX2 、ATLS200 相比具有明顯優勢;
在視頻解碼上,是TX2 、ATLS200 的兩倍;
內存為12GB,是TX2 、ATLS200 的1. 5 倍;
乙太網埠是 2 個,而TX2 、ATLS200 均只有 1 個;
從測評數據來看,比特大陸算豐AI計算模組SM5 的優勢相對英偉達TX2、華為ATLS200 優勢明顯,雖然功耗相對較大,但與其餘對比項相結合後,性價比仍然最高。
測試數據來源為比特大陸實驗室
算力和AI分析路數
從實際應用和神經網絡benchmark兩個角度測試比特大陸算豐AI計算模組SM5。
該模組在安防的實際應用主要指標為可接入的視頻路數和視頻分析應用能力。在安裝 1 塊SM5 模組搭載的測試底板後,引出來網絡、電源等接口,將視頻流伺服器發過來視頻進行多路處理和分析,並將檢測人臉框打在視頻流上編碼輸出顯示。在 16 路1080p視頻流輸入的情況下,每路視頻實時畫面達到 10 人臉以上,單個SM5 模組可以實現完全實時的滿幀的處理人臉檢測和跟蹤。
上圖是 16 路1080P的滿幀處理情況,僅僅為初步部署,並未進行優化。用戶可以自行開發算法軟體,並進行適度優化,完全有可能實現單個模組超過 16 路甚至 30 路視頻流的人臉檢測分析,或者視頻結構化的業務分析能力,可以說在應用端到端的算力非常強大。
SM5 模組的實際應用算力實測非常強,相應的神經網絡模型速度肯定也很快。a&s將SM5 模組、Nvidia TX2 模組,以及Huawei ATLAS200 模組做了性能實測比對,在幾種典型的神經網絡分類模型測試中,吞吐數據如下表:
測試數據來源為比特大陸實驗室
從實測結果來看,在性能上,SM5 相比TX2 有十倍級別的性能優勢。相比ATLAS 200,雖然理論峰值標稱算力SM5 和ATLAS200 很接近(17.6T vs 16T),但是從實測來看,SM5 的性能倍數在最典型Resnet50 上有1. 5 倍的優勢,在Mobilenet上有2. 38 倍的優勢!這說明,標稱算力和實際獲得的算力具有一定的差別。算豐SM5 具有較高的有效計算利用率。
總的來看,無論是實際應用的性能,還是神經網絡模型的速度吞吐,SM5 模組都是很強大的,和業內其他產品相比也有較大的優勢。
工具鏈完備,易用度高
對於開發者而言,都希望開發簡單易用,特別是從CPU,GPU等的以前的模型和算法,能夠比較輕易的轉到新的AI硬體上來。而比特大陸的算豐AI晶片的多種產品(板卡、模組、盒子),保持統一的工具鏈和系統軟體。
其中工具鏈完備,開發友好:
包括底層驅動環境、編譯器、推理部署工具等一系列軟體工具;
支持Caffe、Tensorflow、PyTorch、PaddlePaddle等深度學習框架,離線編譯和校準工具易用;
完備的性能監控工具、神經網絡運行庫、視頻編解碼庫、圖像編解碼庫、圖像處理庫;
可提供算法測試用例,包括人臉檢測、物體檢測等。
可應用場景廣泛
比特大陸算豐AI計算模組SM5 的定位是被集成,所以應用場景是多種多樣的,包括了AI邊緣計算伺服器,智能NVR,AI邊緣計算盒,機器人,大中型無人機等等。模組的主要功能就是進行視覺AI的計算,能夠為傳統產品附加AI功能,支持人臉檢測與識別、面部表情分析、物體檢測與識別、車牌識別、聲紋識別等,可應用於人臉識別、自動駕駛、城市大腦、智能安防、智能醫療等人工智慧場景,應用領域廣泛。
可以說,BM1684 作為比特大陸多年AI技術積累和沉澱的第三代AI晶片,構建的AI模組具有鮮明的特點,優勢諸多。
產品特色
1、超強算力、低功耗、自主晶片。
2、易被集成、低功耗、雙網口、接口多。
3、體積小,被動散熱,易集成。
4、雙模驅動,接口豐富,擴展性強。
5、工具鏈完備,易用度高。
點評
這是一款算力超強的AI計算模組,從應用性能和神經網絡實測來看,算力非常強大,可以說是目前階段業內最強。同時具備視頻解碼、後處理、CPU強大能力,有可能在視覺AI全流程起到完美的加速效果。
同時還保持了易集成,低功耗等特點,如此強大的邊緣計算模組,確實是業內的強算力模組的最佳選擇之一。預計算豐SM5 模組會在安防、智慧城市、機器人、新零售等領域,加速AI在業務中的普及和落地。
主要規格參數