清華教授溫江濤:後摩爾時代的視覺感知應回歸能耗

2020-12-03 DeepTech深科技

「我們現在已經進入到了一個面向特定域設計架構的時代,現在最大的限制因素就是能耗,我們需要提出一系列新的理論指導下的算法,針對特定應用領域,面向應用和算法設計架構,面向應用和架構設計算法,思考怎麼可以更高效地感知、處理我們獲得的數據。」鉑巖科技 CEO 溫江濤在 EmTech China 峰會上表示。

溫江濤於 2012 年回到學術界後僅僅三年即當選國際知名學會 IEEE Fellow,是當時中國大陸最年輕的當選者。他現任清華大學計算機科學與技術系長聘正教授,同時也是媒體與網絡技術教育部 - 微軟重點實驗室聯合主任。

圖 | 溫江濤在 EmTech China 峰會上發表主題演講(來源:EmTech China)

需要提到的是,他於 21 世紀初在美國從事視頻編碼、多媒體通信等相關的研究和標準制定工作,曾有多個專利被國際標準採用。他作為共同創始人,主要技術負責人和天使投資人也參與創辦了多家公司,先後被 Dell、Facebook 等上市公司收購,產品在世界各地廣泛應用,包括三星、華為、阿里巴巴、谷歌等公司都在使用他設計實施的產品。

他在大會上以《摩爾定律之後的視覺感知》為題發表了演講,他認為現在正處在三個趨勢的交匯期:無處不在的視頻和視覺應用;摩爾定律和登納德縮放效應的終結;倫理和隱私問題。

他認為,相機的解析度、處理器能力、AI 算力已遇瓶頸,而能耗更是最終的限制因素。

既使用我們能設想的最先進的理想半導體技術,要實現類似生物大腦的信息處理能力也需要 10 兆瓦的能耗,但是生物大腦的能耗不過 10 瓦,這裡面有 1000000:1 的差距。如果要把視覺數據通過網絡傳輸的話,功耗會更大若干的數量級,而且延時對很多應用來講不能接受。

所以人們希望可以通過 AI 處理器來解決這樣的問題,比如華為和英偉達等公司,它們希望可以讓攝像頭更智能,避免攝像頭和雲伺服器之間的數據傳輸,並且處理視覺信息比傳統通用伺服器更有效率。

圖 | 能耗 1000000:1(來源:溫江濤)

除了數據在晶片上和晶片外、網絡中的傳輸,現有體系對於視覺信號的表示和處理的效率也不是很高。人類大腦可以通過各種方式直接實現非線性處理,但是機器只能處理 0 和 1 這樣的二進位數據,需要用很多門電路才能完成對複雜邏輯和函數的模擬。這在很大程度上也限制了效率。因此有公司希望通過開發不同線路來模擬人類大腦功能,有一些致力於開發神經晶片,通過監控神經元的突起開發出深度學習的算法併集成到線路中。

而在下一代 「視覺感知」 技術中,溫江濤認為「會有這樣一種新的陣列,它的耗能是非常低的,而且整體延遲率非常低,並且可以具有學習能力,可以進行不斷的自我演進,這是後摩爾定律和登納德縮放效應時代視覺處理的必由之路。」

圖 | VPU 直接利用光子的數據,低功耗低延遲實現追蹤等基礎視覺任務(來源:溫江濤)

他把這類視覺處理器架構稱為 VPU,VPU(Visual Perception Unit,視覺感知單元)可以以極低的功耗和延時,更好地完成感知、追蹤和識別等基本視覺任務。

傳統的效果是把光子信息通過光電轉換和複雜的信號處理重建為一系列數據量巨大的高清晰度像素點陣序列信息。這些信息再通過通用或者專用處理器處理,中間涉及大量的無效計算和數據傳輸,並且為了完成數據傳輸,需要壓縮、解壓縮等複雜處理。而 VPU 可以直接感知光子,不需要通過視頻序列的重建就可以直接完成視覺任務,從而在根本上實現現有體系無法達到的功耗、延時和處理性能。

生物視覺的另外一個特徵是大量不同類型的視覺細胞(比如人類就有兩種)甚至複眼系統的信息融合,以達到更寬廣的視野和更好的感知能力。VPU 架構也需要把不同的信息融合在一起,還需要考慮兼容性、同步、異步、可靠性等等問題。這個融合可以在晶片內完成,也可以在晶片外完成,甚至可以通過攝像頭陣列來實現。

因為大量的感知單元運行著一系列隨機的任務,為了能更好地配置資源,必須要高效建模,然後實時動態地對數以萬計的處理資源做優化的分配。這一核心技術也可以用在英特爾 CPU 這樣的通用處理器上,實現諸如實時、低延時、高廣播級超高清視頻編碼這樣對計算資源和數據吞吐率有極高要求的應用。

溫江濤的團隊今年在世界上首次實現了廣播級 8K+5G 的實時轉播,在諸如男籃世界盃比賽,新華社國慶 70 周年慶祝活動 24 小時直播得到了應用。

同時,溫江濤和團隊也在和內容製作商探討,把這項技術更好地運用在體育、音樂等領域。「我們希望能夠搭建起一個生態系統,更好地建立面向下一代的視頻技術。」

圖 | 溫江濤接受 DeepTech 採訪(來源:EmTech China)

DeepTech 在會後採訪了溫江濤,就人工智慧、5G 背景下的 「視覺感知」 相關問題進行了交流(以下為不改變原意的採訪實錄):

DeepTech:從廣播電視一直到網絡數字圖象發展非常速度快,現在已經到 4K、8K、16K,你怎麼評價這種趨勢?

溫江濤:首先肯定是很快,我覺得最核心的幾個要素現在已經具備了:首先是帶寬,其次現在比較流行的一些短視頻軟體都允許用戶直接在手機上進行編輯編碼,從而大大提到用戶生成內容的觀賞價值。

但是這裡有一個非常重要的問題,今天給人看的和給機器看的視頻是沒有區別的。今天拍攝到的絕大部分內容可能是永遠不會有人看的,比如城市監控這些視頻,除非調出來,出事的時候才會有人看。而有更多的攝像機永遠都不會被接到顯示器上去。

在將來,視頻的應用是無處不在的。我們希望被人看的視頻能越來越清晰,而除了娛樂以外,針對機器看的東西希望能開始重新設計一套機理讓它廣泛應用起來,在一些用很複雜的傳感器來解決問題的地方,可以用視頻來解決。但是最核心的東西,一個是成本,一個是功耗。

DeepTech:你演講裡提到的 1000000:1 等等比例,是不是主要指的就是能耗?怎麼去理解視覺感知正處在三種趨勢的交匯期?

溫江濤:對,主要是能耗和它計算的效率。

某種程度上我不像有些專家對人工智慧那麼歡欣雀躍或者憂心忡忡。比如下棋下過人類,這個事情固然了不起,但是首先,它是針對一類特定的問題;這類問題都是人發明出來為難我們自己的,人工智慧系統採用眾多的伺服器恨不得後面有一個核電站給這類機器供電。柯潔、李世石早上隨便吃了點就來跟你下,所以我覺得人的效率的高的不得了。

而伴隨著摩爾定律和登納德縮放效應的終結,現有計算機處理能力既使採用針對應用的架構設計也很難有摩爾定律時代的 10000:1 甚至 1000000:1 的飛躍,能耗更是越來越高,所以我們必須找到下一個 10000:1 飛躍的方向。

我覺得最根本的東西,未來是能量受限的。在這種情況下,真正的人工智慧不是用機器去挑戰一個什麼樣的功能,或許是合成一個什麼樣的「器官」,用兩碗豆漿就可以支撐完成一些任務。現在提到的很多機器人和人工智慧可能沒有關係。所以未來的話,最核心的東西不一定在電化學機理上仿真,但至少從它的系統設計的思想和概念上去仿真。

今天很多的人工智慧的應用其實只要是涉及到人的一些基本功能的,其實相當複雜,視覺只是其中之一。有人在從機理上做生物晶片,試圖模擬電化學反應過程或者電信號處理過程。但是我們現在想的是如何從邏輯上模擬大腦的過程,空氣中有溫度、觸覺等等刺激,大腦是如何將之過濾掉並呈現出視覺表象的?

大腦中間的每一個腦細胞,可能都是不太可靠的。但是大量的東西結合在一起就變得可靠了,我們希望這些東西能解決一些問題,如果大量部署,那麼就會非常便宜而且非常低功耗。可能雷射雷達要賣 2 萬美元,而這個東西只賣 25 美分,但是我們可以放在很多地方。比如讓老人用的輪椅具有避障等安全功能,如果在輪椅上裝雷射雷達那成本太高,我們可以裝很多小的、便宜的攝像頭。

我希望在價格、功耗、延時和性能之間做一個權衡取捨。一些不需要高精度的地方以成本和功耗為主,不斷再去提升性能。

隱私方面,比如我想在停車場拍車牌,除了拍到車牌以外,還會拍到其他那些東西,比如駕駛員的臉之類的,這就涉及到隱私問題。假如我做一個攝像機,它唯一的功能就是識別車牌。那麼,這個攝像機可以抓拍任何地方,大家覺得很安全,不怕被洩漏隱私。

DeepTech:除了在輪椅上以外,你設想的產品還會用在哪些領域?

溫江濤:一些低速的機器人,比如倉庫裡面的,它有一個基本固定的路線,不需要走很快,但是這過程中可能有東西掉下來,周邊的工人需要躲避等等場景。

這樣的一些環境是可以很快應用的,假如成本做得很便宜的話,我們可以裝很多,它協同工作的時候會很可靠,同時這堆東西的出錯概率非常低。

DeepTech:這個思路有沒有別人也想出來或者他們正在做的?

溫江濤:針對人類視覺的想法有很多探索,但是我們這樣定義視覺感知單元(Visual Perception Unit),而不是視頻處理單元(Video Processing Unit),或者人工智慧晶片,應該是沒有了。這是由應用需求、技術發展兩者的綜合效應決定的一個可能是最有效的方式。我們的輸入是 vision, 不是先將其重建為 video. 目標是 perception,也不是處理。事實上現有很多神經晶片用模擬電路仿真深度學習的一些方法,由於架構和算法脫節,可能不會實現非常理想的效果。

DeepTech:5G 對視覺感知領域會帶來什麼影響?

溫江濤:因為 5G 帶來了對消耗帶寬的需求,所以 8K 今年得到了及其大的重視。我們做了世界盃男籃的轉播,「十一」的時候我們做了新華社 24 小時的直播。8K 超高清視頻通過 5G 現網實現直播,這是世界首次,我們也非常榮幸能和上下遊的合作夥伴一起實現這些世界第一。

另外一些 5G 的物聯網或者機器人的應用可能要到明年或者更晚一些。目前來看,普通消費者可能感覺不到 4K、8K、16K 的區別,但是有幾個地方是需要的:安防領域,攝像頭的位置和數量是有限制的,很多裝的非常遠,在建築物頂上,又要看到很寬的範圍,這就需要超高清晰度,這是 8K、16K 的硬需求,甚至這些都還是不夠的,可能需要十億像素級別的解析度;第二個是體育領域,在轉播中因為受機位限制,無法設置過多的 4K 相機,而在一個大的場景裡用 8K 去拍,不用剪來剪去,大解析度可以支持自動剪裁,不需要增加成本和效率。

DeepTech:技術本身有沒有一些挑戰和瓶頸?FPGA 是不是一個有效的方案?

溫江濤:最大的瓶頸在於資源的調度和高性能的計算,還有一個是數據的傳輸,這些都是要動態控制的,是挺難的事情。

FPGA 有一點兒像 CPU 和 GPU 中間的一種,可以用一些硬體的辦法去優化一些核心的處理能力。這一類東西適合在今天人工智慧裡面做深度學習的訓練。但是對視頻來講,輸入沒有辦法把它做得很規整,所以它並不適合做很多的視頻處理。

我認為你只要同意視頻未來有重大的需求,CPU 和 GPU 會遇到巨大的瓶頸,一定會有新的架構出現才可以。

DeepTech:你在美國工作有十多年了,有很多專利被採用,包括在 UCLA 裡面最大的專利授權協議。能不能談一下你是如何推動些學術研究落地的?

溫江濤:實際上今天去看那些發明,不是在做了科學研究或者理論之後,再想這個東西可以在什麼地方用。假如你真正很厲害的話,需要先找到要解決哪一些問題,然後再一一去找解決方案。為什麼有些研究不太能落地,就是因為做了一些不需要的抽象,解決了一些其實不需要解決的問題。

麻省理工學院 Bob Gallager 教授說過,做教授最基本的職責是幫助學生去找到一個最簡單的沒解決的問題,我覺得這裡每一個都是關鍵詞。

所謂硬核的科技,這些東西需要一定的流程和培育方式,一些方式不光是在課本裡。我覺得目前中國對硬核科技或者是真正有價值的技術的認識在不斷改變。

相關焦點

  • 淺析後摩爾時代的AI革命
    淺析後摩爾時代的AI革命 Wilde 發表於 2020-12-04 10:44:00 機器學習已然無處不在。
  • 「芯觀點」後摩爾時代的AI革命:算力需求激增,催生晶片創新
    各大廠商對機器學習的熱情越來越高,對算法、算力和數據提出新的要求,尤其是對算力需求的激增,進一步催生相關晶片和專用設備的蓬勃創新,而在後摩爾時代,這種創新或將成為突破算力極限的關鍵。數據「餵」大的機器智能什麼是機器學習?
  • 蔣尚義回歸中芯國際後首次亮相:摩爾定律接近物理極限
    2020年12月15日晚,蔣尚義回歸中芯國際,擔任第二類執行董事、董事會副董事長、戰略委員會成員,一度引發「內訌」,聯席CEO梁孟松當即辭職,兩位曾在臺積電共事的行業大牛鬧得水火不容。
  • 後摩爾定律時代的計算力破局
    當摩爾定律逐漸失效 過去的半個世紀,得益於半導體晶片產業飛速發展,在摩爾定律的驅動下,計算力一直保持著大跨度的發展。1956年,英特爾創始人戈登·摩爾提出,集成電路的集成度每兩年會翻一番,後這個周期縮短到18個月,微處理器的性能每隔18個月提高1倍。
  • 「感知之維-2020港澳視覺藝術雙年展雲論壇」開幕
    「感知之維-2020港澳視覺藝術雙年展雲論壇」在北京inArt曜空間及線上舉行開幕式,並於11月19日、20日進行12場在線專題演講。開幕式上,港澳臺辦黨委書記、一級巡視員滿宏衛、香港特別行政區政府康樂及文化事務署署長劉明光、澳門特別行政區政府文化局局長穆欣欣、中國對外文化集團有限公司總經理、黨委副書記李保宗發表致辭,中央美術學院藝術與科技方向教授、某集體交互媒體首席創意總監、北京媒體藝術雙年展策展人費俊,北京民生現代美術館負責人李峰,浙江美術館館長、二級教授、浙江省美術家協會副主席應金飛,
  • 計算機視覺已橫跨感知與認知智能
    一、計算機視覺技術概述   計算機視覺橫跨感知與認知智能,現階段應用以感知為主   視覺使人類得以感知和理解周邊的世界,人的大腦皮層大約有70%的活動在處理視覺相關信息。計算機視覺即通過電子化的方式來感知和理解影像,以達到甚至超越人類視覺智能的效果。
  • 後摩爾定律時代的計算技術之探討
    大約10年後,這個創新途徑被IBM的羅伯特·登納德(Robert dennard)歸納為「登納德按比例縮小定律」,從而開創了以指數方式降低器件工作電壓和提高時鐘頻率的可能性。特徵尺寸、頻率和功耗的相互作用的縮放意味著在成本大致恆定的前提下,每一代晶片的性能將隨著時間呈指數級改善。摩爾還預測,伴隨著這種改善,半導體、微電子技術將給社會發展帶來巨大影響。
  • 中科院院士都有為:自旋晶片或成後摩爾時代主流晶片
    在論壇上,中國科學院院士,南京大學物理系教授、博士生導師都有為指出,自旋晶片屬於核心高端晶片,是科技關鍵核心技術,具有高達上萬億美元的巨大市場前景,有可能成為後摩爾時代的主流晶片。都有為認為,自旋晶片兼具SRAM的高速度、DRAM的高密度和Flash的非易失性等優點,是科技關鍵核心技術,可軍民兩用,具有高達上萬億美元的巨大市場前景,有可能成為後摩爾時代的主流晶片。這對提升國家高科技水平和增強國防安全意義重大,國外不會將高端科技在中國生根發芽,國家應予以高度重視與支持。
  • 清華再獲一大牛!AI視覺領域泰鬥級學者回國
    根據知乎上的一則帖子,近日清華大學人力資源開發辦公室發布公示,加州大學洛杉磯分校(UCLA)統計學與計算機科學教授,UCLA 計算機視覺、認知、學習與自主機器人中心主任朱松純擬加入清華大學自動化系工作,職務為教研系列教授。
  • 視覺感知-從人類視覺到計算機視覺
    1.4億個神經元組成,是大腦中最神秘的部分之一,負責處理和解釋視覺數據以提供感知力並建立記憶。 但是,使計算機感知視覺世界有多困難?截至2019年,我們才取得了一定進展,但依舊還有很長的路要走。計算機視覺是計算機科學的一個相對較新的領域,大約有60年的歷史。
  • 爆款網紅沈向洋,續聘清華「雙聘教授」,全網十萬人在線圍觀!
    15年前,2005年的時候,沈向洋博士受聘清華高等研究院雙聘教授,為清華的教學科研工作,做出了非常重要的貢獻。2015年,在沈向洋博士的親自參與和大力推動下,清華大學和華盛頓大學在微軟公司的支持下成立了全球創新學院,GIX。2015年9月23日,習近平主席在訪問美國的時候,專門向GIX贈送了一棵水杉樹。
  • 【觀點】中科院院士都有為:自旋晶片或成後摩爾時代主流晶片
    1.中科院院士都有為:自旋晶片或成後摩爾時代主流晶片;2.首片國產6英寸碳化矽晶圓產品在上海臨港正式發布;3.乘5G+4K/8K之大勢,國科微探索智能機頂盒「芯「發展1.中科院院士都有為:自旋晶片或成後摩爾時代主流晶片;10月16日,
  • UCLA終身教授、AI視覺界泰鬥朱松純被曝入職清華!華人科學家回國潮來了
    或許這個名字,國內大眾聽得不多,但在AI視覺領域,說如雷貫耳也不為過。也就能理解為啥會有網友們如此激動:能把朱松純請回來,清華太頂了!因為朱松純,在計算機視覺領域,可以說是泰鬥級人物。是最知名的華人AI教授之一,在多個領域內都頗有成就。
  • 性能提升5倍,能耗降低30倍!Intel要用自旋電子技術復活摩爾定律
    雖然CMOS電子元件仍遵循摩爾定律,但隨著元件大小越來越接近單個原子尺寸,現有的晶片製程技術已經越來越逼近了物理極限。例如,寬度為 10nm 的電晶體柵極結構,其允許誤差僅為 1nm,這僅相當於3至4個原子層的厚度。而晶片製程要繼續往3nm甚至是1nm製程推進將面臨更多的困難,很快摩爾定律可能將難以為繼。
  • 溫江濤副秘書長深入G105中心城區改線調研項目建設情況
    11月30日上午,市政府副秘書長溫江濤深入G105贛州中心城區改線工程建設現場,實地督導調度項目通車涉及問題,市公路局局長謝文才、副局長劉自田,經開區經發局局長馮鈺,南康區政法委書記黃曉明先後陪同。溫江濤一行先後深入章貢區段東江源大道,經開區段飛翔路,南康區段機場路三處交叉口和廈蓉高速連接線等施工現場實地調度。
  • 畢業於清華的90後學霸,即將加入MIT任助理教授
    值得關注的是,除範楚楚外,2019年已有多位學霸宣布將任教美國頂尖學府,包括出身清華姚班的斯坦福博士畢業生陳丹琦,將前往普林斯頓大學計算機科學系擔任助理教授;華盛頓大學計算機系博士生陳天奇將在 2020 年秋季加入 CMU,擔任助理教授;加州大學伯克利分校的博士生朱俊彥將在 2020 年秋季加入 CMU,擔任助理教授;加州大學伯克利分校電氣工程與計算機科學
  • 摩爾定律日薄西山 計算性能如何增長
    晶片極限 摩爾定律日薄西山   針對這個問題,美國加州大學計算機系校長講席教授、電子工程系教授叢京生先生,日前在中國科技館舉辦的第30期「理解未來」講座上,從專業的角度向公眾介紹了摩爾定律的起源、發展及到達巔峰時刻後邁向「終結」時代的發展歷程,講述了半導體行業應以何種心態面對這一必然現象;又該如何積極應對隨之而來的機遇和挑戰。
  • 紐勱科技詳解視覺感知:視覺模型上線是一個閉環迭代過程
    雷鋒網旗下會員組織「AI投研邦」「大咖Live」第50講,紐勱科技計算機視覺研發總監成二康帶來關於《自動駕駛系統研發:詳解視覺感知模塊》的主題分享,圍繞自動駕駛的視覺感知、基於深度學習的目標檢測和圖像分割任務、紐勱科技如何以數據助力自動駕駛感知模塊研發三方面進行了介紹。
  • 後摩爾時期,計算形態與設計自動化將何去何從?
    原標題:後摩爾時期,計算形態與設計自動化將何去何從?    在後摩爾時代下,我國的計算相關行業對於人工智慧、大數據應用中的關鍵性數學問題和晶片技術的發展,有著更迫切、更緊迫的需求。   新興的集成電路技術面臨著哪些機遇和調整?後摩爾時代下的計算機系統結構如何?下一代人工智慧的發展將如何發展?人工智慧應用的落地與開放情況如何?