「我們現在已經進入到了一個面向特定域設計架構的時代,現在最大的限制因素就是能耗,我們需要提出一系列新的理論指導下的算法,針對特定應用領域,面向應用和算法設計架構,面向應用和架構設計算法,思考怎麼可以更高效地感知、處理我們獲得的數據。」鉑巖科技 CEO 溫江濤在 EmTech China 峰會上表示。
溫江濤於 2012 年回到學術界後僅僅三年即當選國際知名學會 IEEE Fellow,是當時中國大陸最年輕的當選者。他現任清華大學計算機科學與技術系長聘正教授,同時也是媒體與網絡技術教育部 - 微軟重點實驗室聯合主任。
圖 | 溫江濤在 EmTech China 峰會上發表主題演講(來源:EmTech China)
需要提到的是,他於 21 世紀初在美國從事視頻編碼、多媒體通信等相關的研究和標準制定工作,曾有多個專利被國際標準採用。他作為共同創始人,主要技術負責人和天使投資人也參與創辦了多家公司,先後被 Dell、Facebook 等上市公司收購,產品在世界各地廣泛應用,包括三星、華為、阿里巴巴、谷歌等公司都在使用他設計實施的產品。
他在大會上以《摩爾定律之後的視覺感知》為題發表了演講,他認為現在正處在三個趨勢的交匯期:無處不在的視頻和視覺應用;摩爾定律和登納德縮放效應的終結;倫理和隱私問題。
他認為,相機的解析度、處理器能力、AI 算力已遇瓶頸,而能耗更是最終的限制因素。
既使用我們能設想的最先進的理想半導體技術,要實現類似生物大腦的信息處理能力也需要 10 兆瓦的能耗,但是生物大腦的能耗不過 10 瓦,這裡面有 1000000:1 的差距。如果要把視覺數據通過網絡傳輸的話,功耗會更大若干的數量級,而且延時對很多應用來講不能接受。
所以人們希望可以通過 AI 處理器來解決這樣的問題,比如華為和英偉達等公司,它們希望可以讓攝像頭更智能,避免攝像頭和雲伺服器之間的數據傳輸,並且處理視覺信息比傳統通用伺服器更有效率。
圖 | 能耗 1000000:1(來源:溫江濤)
除了數據在晶片上和晶片外、網絡中的傳輸,現有體系對於視覺信號的表示和處理的效率也不是很高。人類大腦可以通過各種方式直接實現非線性處理,但是機器只能處理 0 和 1 這樣的二進位數據,需要用很多門電路才能完成對複雜邏輯和函數的模擬。這在很大程度上也限制了效率。因此有公司希望通過開發不同線路來模擬人類大腦功能,有一些致力於開發神經晶片,通過監控神經元的突起開發出深度學習的算法併集成到線路中。
而在下一代 「視覺感知」 技術中,溫江濤認為「會有這樣一種新的陣列,它的耗能是非常低的,而且整體延遲率非常低,並且可以具有學習能力,可以進行不斷的自我演進,這是後摩爾定律和登納德縮放效應時代視覺處理的必由之路。」
圖 | VPU 直接利用光子的數據,低功耗低延遲實現追蹤等基礎視覺任務(來源:溫江濤)
他把這類視覺處理器架構稱為 VPU,VPU(Visual Perception Unit,視覺感知單元)可以以極低的功耗和延時,更好地完成感知、追蹤和識別等基本視覺任務。
傳統的效果是把光子信息通過光電轉換和複雜的信號處理重建為一系列數據量巨大的高清晰度像素點陣序列信息。這些信息再通過通用或者專用處理器處理,中間涉及大量的無效計算和數據傳輸,並且為了完成數據傳輸,需要壓縮、解壓縮等複雜處理。而 VPU 可以直接感知光子,不需要通過視頻序列的重建就可以直接完成視覺任務,從而在根本上實現現有體系無法達到的功耗、延時和處理性能。
生物視覺的另外一個特徵是大量不同類型的視覺細胞(比如人類就有兩種)甚至複眼系統的信息融合,以達到更寬廣的視野和更好的感知能力。VPU 架構也需要把不同的信息融合在一起,還需要考慮兼容性、同步、異步、可靠性等等問題。這個融合可以在晶片內完成,也可以在晶片外完成,甚至可以通過攝像頭陣列來實現。
因為大量的感知單元運行著一系列隨機的任務,為了能更好地配置資源,必須要高效建模,然後實時動態地對數以萬計的處理資源做優化的分配。這一核心技術也可以用在英特爾 CPU 這樣的通用處理器上,實現諸如實時、低延時、高廣播級超高清視頻編碼這樣對計算資源和數據吞吐率有極高要求的應用。
溫江濤的團隊今年在世界上首次實現了廣播級 8K+5G 的實時轉播,在諸如男籃世界盃比賽,新華社國慶 70 周年慶祝活動 24 小時直播得到了應用。
同時,溫江濤和團隊也在和內容製作商探討,把這項技術更好地運用在體育、音樂等領域。「我們希望能夠搭建起一個生態系統,更好地建立面向下一代的視頻技術。」
圖 | 溫江濤接受 DeepTech 採訪(來源:EmTech China)
DeepTech 在會後採訪了溫江濤,就人工智慧、5G 背景下的 「視覺感知」 相關問題進行了交流(以下為不改變原意的採訪實錄):
DeepTech:從廣播電視一直到網絡數字圖象發展非常速度快,現在已經到 4K、8K、16K,你怎麼評價這種趨勢?
溫江濤:首先肯定是很快,我覺得最核心的幾個要素現在已經具備了:首先是帶寬,其次現在比較流行的一些短視頻軟體都允許用戶直接在手機上進行編輯編碼,從而大大提到用戶生成內容的觀賞價值。
但是這裡有一個非常重要的問題,今天給人看的和給機器看的視頻是沒有區別的。今天拍攝到的絕大部分內容可能是永遠不會有人看的,比如城市監控這些視頻,除非調出來,出事的時候才會有人看。而有更多的攝像機永遠都不會被接到顯示器上去。
在將來,視頻的應用是無處不在的。我們希望被人看的視頻能越來越清晰,而除了娛樂以外,針對機器看的東西希望能開始重新設計一套機理讓它廣泛應用起來,在一些用很複雜的傳感器來解決問題的地方,可以用視頻來解決。但是最核心的東西,一個是成本,一個是功耗。
DeepTech:你演講裡提到的 1000000:1 等等比例,是不是主要指的就是能耗?怎麼去理解視覺感知正處在三種趨勢的交匯期?
溫江濤:對,主要是能耗和它計算的效率。
某種程度上我不像有些專家對人工智慧那麼歡欣雀躍或者憂心忡忡。比如下棋下過人類,這個事情固然了不起,但是首先,它是針對一類特定的問題;這類問題都是人發明出來為難我們自己的,人工智慧系統採用眾多的伺服器恨不得後面有一個核電站給這類機器供電。柯潔、李世石早上隨便吃了點就來跟你下,所以我覺得人的效率的高的不得了。
而伴隨著摩爾定律和登納德縮放效應的終結,現有計算機處理能力既使採用針對應用的架構設計也很難有摩爾定律時代的 10000:1 甚至 1000000:1 的飛躍,能耗更是越來越高,所以我們必須找到下一個 10000:1 飛躍的方向。
我覺得最根本的東西,未來是能量受限的。在這種情況下,真正的人工智慧不是用機器去挑戰一個什麼樣的功能,或許是合成一個什麼樣的「器官」,用兩碗豆漿就可以支撐完成一些任務。現在提到的很多機器人和人工智慧可能沒有關係。所以未來的話,最核心的東西不一定在電化學機理上仿真,但至少從它的系統設計的思想和概念上去仿真。
今天很多的人工智慧的應用其實只要是涉及到人的一些基本功能的,其實相當複雜,視覺只是其中之一。有人在從機理上做生物晶片,試圖模擬電化學反應過程或者電信號處理過程。但是我們現在想的是如何從邏輯上模擬大腦的過程,空氣中有溫度、觸覺等等刺激,大腦是如何將之過濾掉並呈現出視覺表象的?
大腦中間的每一個腦細胞,可能都是不太可靠的。但是大量的東西結合在一起就變得可靠了,我們希望這些東西能解決一些問題,如果大量部署,那麼就會非常便宜而且非常低功耗。可能雷射雷達要賣 2 萬美元,而這個東西只賣 25 美分,但是我們可以放在很多地方。比如讓老人用的輪椅具有避障等安全功能,如果在輪椅上裝雷射雷達那成本太高,我們可以裝很多小的、便宜的攝像頭。
我希望在價格、功耗、延時和性能之間做一個權衡取捨。一些不需要高精度的地方以成本和功耗為主,不斷再去提升性能。
隱私方面,比如我想在停車場拍車牌,除了拍到車牌以外,還會拍到其他那些東西,比如駕駛員的臉之類的,這就涉及到隱私問題。假如我做一個攝像機,它唯一的功能就是識別車牌。那麼,這個攝像機可以抓拍任何地方,大家覺得很安全,不怕被洩漏隱私。
DeepTech:除了在輪椅上以外,你設想的產品還會用在哪些領域?
溫江濤:一些低速的機器人,比如倉庫裡面的,它有一個基本固定的路線,不需要走很快,但是這過程中可能有東西掉下來,周邊的工人需要躲避等等場景。
這樣的一些環境是可以很快應用的,假如成本做得很便宜的話,我們可以裝很多,它協同工作的時候會很可靠,同時這堆東西的出錯概率非常低。
DeepTech:這個思路有沒有別人也想出來或者他們正在做的?
溫江濤:針對人類視覺的想法有很多探索,但是我們這樣定義視覺感知單元(Visual Perception Unit),而不是視頻處理單元(Video Processing Unit),或者人工智慧晶片,應該是沒有了。這是由應用需求、技術發展兩者的綜合效應決定的一個可能是最有效的方式。我們的輸入是 vision, 不是先將其重建為 video. 目標是 perception,也不是處理。事實上現有很多神經晶片用模擬電路仿真深度學習的一些方法,由於架構和算法脫節,可能不會實現非常理想的效果。
DeepTech:5G 對視覺感知領域會帶來什麼影響?
溫江濤:因為 5G 帶來了對消耗帶寬的需求,所以 8K 今年得到了及其大的重視。我們做了世界盃男籃的轉播,「十一」的時候我們做了新華社 24 小時的直播。8K 超高清視頻通過 5G 現網實現直播,這是世界首次,我們也非常榮幸能和上下遊的合作夥伴一起實現這些世界第一。
另外一些 5G 的物聯網或者機器人的應用可能要到明年或者更晚一些。目前來看,普通消費者可能感覺不到 4K、8K、16K 的區別,但是有幾個地方是需要的:安防領域,攝像頭的位置和數量是有限制的,很多裝的非常遠,在建築物頂上,又要看到很寬的範圍,這就需要超高清晰度,這是 8K、16K 的硬需求,甚至這些都還是不夠的,可能需要十億像素級別的解析度;第二個是體育領域,在轉播中因為受機位限制,無法設置過多的 4K 相機,而在一個大的場景裡用 8K 去拍,不用剪來剪去,大解析度可以支持自動剪裁,不需要增加成本和效率。
DeepTech:技術本身有沒有一些挑戰和瓶頸?FPGA 是不是一個有效的方案?
溫江濤:最大的瓶頸在於資源的調度和高性能的計算,還有一個是數據的傳輸,這些都是要動態控制的,是挺難的事情。
FPGA 有一點兒像 CPU 和 GPU 中間的一種,可以用一些硬體的辦法去優化一些核心的處理能力。這一類東西適合在今天人工智慧裡面做深度學習的訓練。但是對視頻來講,輸入沒有辦法把它做得很規整,所以它並不適合做很多的視頻處理。
我認為你只要同意視頻未來有重大的需求,CPU 和 GPU 會遇到巨大的瓶頸,一定會有新的架構出現才可以。
DeepTech:你在美國工作有十多年了,有很多專利被採用,包括在 UCLA 裡面最大的專利授權協議。能不能談一下你是如何推動些學術研究落地的?
溫江濤:實際上今天去看那些發明,不是在做了科學研究或者理論之後,再想這個東西可以在什麼地方用。假如你真正很厲害的話,需要先找到要解決哪一些問題,然後再一一去找解決方案。為什麼有些研究不太能落地,就是因為做了一些不需要的抽象,解決了一些其實不需要解決的問題。
麻省理工學院 Bob Gallager 教授說過,做教授最基本的職責是幫助學生去找到一個最簡單的沒解決的問題,我覺得這裡每一個都是關鍵詞。
所謂硬核的科技,這些東西需要一定的流程和培育方式,一些方式不光是在課本裡。我覺得目前中國對硬核科技或者是真正有價值的技術的認識在不斷改變。