張亞勤:深度學習更近一步,如何突破香農、馮諾依曼和摩爾瓶頸?

2020-12-25 騰訊網

機器之心發布

聯想創投2020 CEO年會

近日,在聯想創投 2020 CEO 年會上,清華大學講席教授、智能產業研究院院長、美國藝術與科學院院士、百度前總裁張亞勤先生帶來了《未來科技趨勢展望》。

張亞勤表示,數位化的 3.0 時期已經到來,數位化的範圍已從內容、社交和企業服務領域向物理和生物世界進行延伸,將我們熟悉的城市、工廠、電網、家庭向智慧交通、工業網際網路、智慧醫療等方向進行升級,為了完成物理世界的「數位化」,數據需要更清晰地讓數字世界和現實世界一一對應,通過深度學習,計算機不斷加深著對於人類世界的認知。

隨著數據的海量爆發,如何突破目前的算力,成為了一代又一代科學家攻克的關鍵,香農定律、馮諾依曼架構和摩爾定律奠定了傳統計算與通訊範式,如何突破已經接近極限的三種理論?張亞勤表示,需要通過對信息的重新定義,制定新的計算範式、計算體系和通訊架構,而他們又給產業帶來了新的機會。為此,中國需要抓住機會,引領數位化的 3.0 時代和第四次工業革命浪潮。

清華大學講席教授、智能產業研究院院長、美國藝術與科學院院士、百度前總裁張亞勤發表演講

以下為張亞勤演講全文:

大家下午好!非常高興能夠來到聯想創投 CEO 年會,作為中國 IT 的 icon,聯想 36 年曆經坎坷,也取得很多進展,尤其是聯想的「3S」戰略,和我今天要講的內容「智能技術趨勢」非常吻合。

數位化進程的演變與 3.0 時代的到來

回顧 IT 產業 30 年發展歷程,最大的特徵就是數位化。第一波數位化開始於 80 年代中期,也是聯想成立的時期。圍繞自然界的內容表述,數位化的範圍包括音樂、視頻、聲音、圖像等,算法和標準有 MP3/4、H.26、AVS 等;隨著 PC 的推出,又出現了 PPT、EXCEL、WORD 文檔數位化。

第二波數位化開始於 90 年代中期,在內容數位化的基礎上加上網際網路、HTDP、HTML 的產生,從而催生消費者網際網路,從早期的 PC 網站、門戶,到搜索、電商、社交,再到後來的共享經濟、Zoom 等視頻通訊、數字貨幣和行動支付。從產品體驗和規模等方面來看,中國在移動網際網路時代下的消費互聯領域整體領先於世界。

與此同時,企業也在數位化方向不斷細化與革新,比如 ERP、CRM、HR、Supply Chain、BI、workflow 等管理系統的誕生。在雲領域,中國已在逐步追趕基礎設施雲的建設,逐漸縮小與其他國家在規模效應上的差距。

我認為,中國軟體的發展跳過了以「軟體作為產品」的時代,直接進入以「軟體作為服務」的時代。網際網路本身就是「軟體作為服務」的一種符號,作為一種新軟體模式,我認為大量 SaaS 公司會在 5 年之後陸續出現,未來 SaaS 平臺會有很大的機會。

現在,我們進入了數位化 3.0 時期,也即智能感知時代,這個階段發生了兩方面轉變:一是物理世界的數位化,我也把它叫做「網際網路的物理化」——工廠、電網、機器,乃至所有行動裝置、家庭、城市都在向數位化發展。在這個過程中出現了相較於過去上千甚至上萬倍的海量數據,比如一輛無人車每天產生的數據量大約 5-10T;相比於數據主要提供給人員輔助決策的 1.0 和 2.0 時代,數位化 3.0 時期 99% 以上數據在機器間傳輸,到最後一環節才傳遞給人員。

第二個方面的轉變生物世界的數位化,人們的細胞結構、所有器官乃至整個身體都在數位化,整體數量級比物理世界大上千倍。從虛擬、宏觀到微觀,整個數字信息世界、物理世界和生物世界正在走向融合。此外,「數字孿生」技術可以讓我們更加清晰地將物理世界和生物世界進行一一對應。

有了大數據之後,我們還要實現數據的結構化和智能化。在人工智慧的 60 年發展過程中,有「冬天」也有「春天」。人工智慧根據不同算法大致分為兩類:一種是邏輯推理,是以知識為驅動的算法;另一種是以大數據為驅動的算法,兩者都運用到了人類大腦的基本認識、基本模型和決策模型。

過去十年裡最流行的深度學習,基本是以大數據、大計算、大模型算法來驅動,其中包括 AlphaGO、AlphaZero。深度學習確在過去一段時間取得很好的進展,比如 GAN、Transfer learning,到現在的 GPT-3 等等。未來,深度學習還有很大發展空間,其算法需要結合符號邏輯、知識型推理和更多模型的因果關係和新的範式,目前對於產業來講,未來五至十年,深度學習還會是最重要的算法。

根據 Google AI 負責人Jeff dean 的觀點,人工智慧的三大要素是數據、算法和算力,實際上是數據加上 100 倍的算力,並且算力比數據更重要 100 倍。這個觀點我不完全同意,但我同意在目前深度學習框架下,算力十分重要

突破香農、馮諾依曼、摩爾瓶頸,推動算力發展

怎麼突破目前的算力?過去 60 年,傳統計算與通訊範式有三個重要原理:香農定律、馮諾依曼架構和摩爾定律。

香農定律,定義了熵、信道容量和失真情況下壓縮極限,目前,我們距離這三個極限已比較接近。馮諾依曼架構是指五個最基本模塊加上程序存儲原理,是圖靈意義下最好的一種實現,但它的瓶頸在於數據和計算的分離。在深度學習中,龐大數據量本身就會形成一個瓶頸。最後還有摩爾定律的限制。

如何突破這三個瓶頸?

首先,我們需要對信息做一個重新的定義,制定新的計算範式。另外,進入網際網路時代,香農理論從點對點通訊延伸到多用戶資訊理論,但真正的理論框架並沒有太大進步,所以需要更多理論層面的模型更新,否則深度學習就很難引入因果關係和模型。

目前,圖像視頻編碼技術的發展已經達到性能極限,如何用 AI 徹底、大幅度地進行改善也需要我們的思考。

此外,還需要新計算體系和通訊架構,創新傳感器類型。傳感器能夠獲取各種各樣的數據,所以非常重要。有觀點認為,人用「小數據」就可以做決策,但我認為大數據是機器的優勢,雖在決策方面與人相比稍有欠缺,但在獲取各種不同數據時比人更有優勢。

同時,需要新模態。深度學習需要的 Tensor Products、線性代數、布爾代數等要素在傳統的馮諾依曼架構下不易實現,通過研發 GPU、ASIC 等技術加速並徹底形成新架構成為了大趨勢。除了傳統的英特爾、AMD,谷歌、百度、地平線、寒武紀等公司也在做這件事,在新架構產生之後,就會隨之產生更多新算法、新模型、新型晶片,這將是一個非常大的機會。

這是一個我在百度啟動的項目:崑崙晶片,這是一個大型晶片,主要用於大型訓練,已經在百度部署。第一代崑崙晶片能在 150 瓦的功率下實現 260 TOPS 的處理能力。第二代崑崙晶片採用 7nm 先進工藝,相對於第一代晶片而言,性能提高了 3 倍。

核心基礎設施「ABCD」帶來智能時代的顛覆性改變

計算、通訊、新架構、新算法,它們給產業帶來的新機遇,就像聯想的「3S 戰略」,在 IT 行業不斷升級的背景下,為整個產業帶來了新機遇甚至是顛覆性的改變。

抓住新的行業機遇,我們正在面臨第四次工業革命,如果說前三次工業革命中國是旁觀者,但在這一次,中國有機會在很多方面成為引領者。

面向第四次工業革命,我們希望能夠打造成一個國際化、智能化和產業化的智能產業研究院(AIR)。我們有三個方式達到這個目標:最重要的是吸引一流人才,特別是擔任過 CTO、研究院院長的人才,另外還要有深厚的學術背景和豐富的企業經驗;其次,研究院還要培養目前我們還比較缺乏的、具備深度大系統思維能力和頂層設計能力的 CTO 和頂級架構師;最後,我們要打造核心技術並逐步將其發展為公司。

目前,我們剛剛起步,除我之外,還有兩位聯合合伙人,一位是馬維英博士,他是電氣電子工程師學會院士,字節跳動副總裁、人工智慧實驗室主任,也是微軟亞洲研究院前常務副院長;另一位是趙峰博士,他也是電氣電子工程師學會院士,還是前海爾集團 CTO、副總裁,全球 loT 教科書編寫者。這兩位聯合合伙人非常符合我剛才的描述,不僅發表很多學術文章,同時又有豐富的產業經驗。

我們聚焦於三個研究領域:智慧交通、工業網際網路、智慧醫療。我認為,智慧交通能夠為整個社會和產業帶來巨大的影響,作為未來 5-10 年最有挑戰的技術,無人駕駛還能夠通過狹義的人工智慧解決自身的難題。我們還聚焦工業網際網路、IoT、智能感知,因為他們是數字世界和物理世界的接口;在我們看來,AI 在未來十年還可以深層次地改變整個醫療健康產業,不局限於 AI 機器人針對病人和醫護人員的協助性工作,還包括製藥、蛋白質結構預測等,實現以上三領域的發展都需要基礎設施「ABCD」,即 AI、Big Data、Cloud、Device,以及學者對基礎科學研究的支持。

在 AIR,我們採用完全開放的模式,希望和整個產業有多種形式的合作,比如聯合實驗室、聯合科研項目、共同孵化項目,我們也希望能夠通過這個機會認識更多創業者,讓大家更了解 AIR,大家齊力構建更大的生態圈。

Amazon SageMaker1000元大禮包

ML訓練成本降90%,被全球上萬家公司使用,Amazon SageMaker是全託管機器學習平臺,支持絕大多數機器學習框架與算法,並且用 IDE 寫代碼、可視化、Debug一氣呵成。

現在,我們準備了1000元的免費額度,開發者可以親自上手體驗,讓開發高質量模型變得更加輕鬆。

相關焦點

  • 張亞勤:不太完全認同算力比算法更重要的觀點
    張亞勤強調,深度學習其實是需要很強很強的算力。而摩爾定律過去兩年左右是要雙倍算力的,其實這已經是在放緩了。但是深度學習對算力要求每年差不多是將近10倍的增長。「所以說Jeff dean在谷歌就說三要素,數據算法算力三要素等於數據加上100倍算力,就是說算力比算法更重要。我個人並不完全同意這個觀點。」
  • 捨棄馮諾依曼架構突破內存牆瓶頸的AI晶片,即將轟動市場?
    不過,目前對於AI晶片的定義並沒有一個嚴格和公認的標準,一個非常寬泛的看法是,面向人工智慧應用的晶片都可以稱為AI晶片。需要指出,這一輪的AI熱潮很大程度是機器學習尤其是深度學習受到了追捧。由於目前常見的晶片類型CPU、GPU、FPGA、ASIC都可以運行深度學習算法,因此這些晶片都可以稱為AI晶片。
  • 深度學習領域有哪些瓶頸?
    ,它的出現在很多方面都作出了突破,包括在圖像、NLP以及語音等領域都有很多問題取得很大的突破,但它目前也存在一些問題和瓶頸需要解決。Reddit網友評論道,以Yuille教授的背景,他比別人更清楚在深度學習在計算機視覺領域現狀如何,為什麼出現瓶頸。
  • 【芯觀點】後摩爾時代的AI革命:算力需求激增,催生晶片創新
    它藏身於很多智能設備中,一部智慧型手機、一個智能音響、線上購物娛樂的一個個APP裡……它像是虛擬世界和物理世界的「縫合者」,用算法和數據試圖「猜透」人心。各大廠商對機器學習的熱情越來越高,對算法、算力和數據提出新的要求,尤其是對算力需求的激增,進一步催生相關晶片和專用設備的蓬勃創新,而在後摩爾時代,這種創新或將成為突破算力極限的關鍵。
  • 三個方法幫你快速突破學習瓶頸——心態+視野+自我定位
    任何人在學習的時候都會遇到瓶頸,這一點是毋庸置疑的,而在學習的時候遇到瓶頸,其實本質上就跟在做數學題的時候遇到難題是一樣的,別人都已經順利的解答出來,但我們卻還是卡在了解題過程中的某一個環節裡動彈不得,明明只差最後的那一步便能解答出正確的解答,但卻始終的也跨不過去,正是因為在前面有著一個瓶頸,擋住了我們的步伐。
  • 馮諾依曼和邊緣計算
    這個小故事很有意思的從側面揭示出,當時的也包括如今的電腦基本採用的都是馮諾依曼模型。該模型的本質就是把操作本身和操作對象混合的放進相同的存儲中,用術語來講就是程序和數據共存。 諾依曼模型的出處究竟更多的來自於馮諾依曼本人還是相當程度上來自於圖靈,這是一段公案,此處暫時按下不表。先來解釋一下什麼是馮諾依曼模型。
  • 【正問英語】幫助學習者快速突破學習瓶頸!
    初級班總是無法扎深基礎,難道一定要「好玩」才能留住學生,才能有足夠時間在較高級數教孩子「有深度」的英語?2. 大家時間都是相同的,抓了聽說能力就會忽略讀寫能力的培養,抓了讀寫能力就會變成啞巴英語,怎麼突破技術瓶頸?3.
  • TPU為何能超越GPU,成為深度學習首選處理器?
    9uQednc簡單而言,神經網絡在數據和參數之間需要執行大量的乘法和加法。我們通常會將這些乘法與加法組合為矩陣運算,這在我們大學的線性代數中會提到。所以關鍵點是我們該如何快速執行大型矩陣運算,同時還需要更小的能耗。
  • 突破極限!清華研發出新技術,可大幅提升計算機算力
    該成果所研發的基於多個憶阻器陣列的存算一體系統,在處理卷積神經網絡(CNN)時的能效比圖形處理器晶片(GPU)高兩個數量級,大幅提升了計算設備的算力,成功實現了以更小的功耗和更低的硬體成本完成複雜的計算。
  • 摩爾定律或將無效?中國晶片彎道超車?別想了,還得一步一步來!
    不少自媒體表示:華為可以憑藉碳基晶片技術實現彎道超車;更有甚者直接表示摩爾定律即將失效。那麼我們今天就這兩個問題好好談一談。首先,關於摩爾定律時候會失效的問題。可以直接給出最準確的答案是不會失效。2018年摩根大通正式發布了一份報告,該報告表示:世界晶片產業可以將晶片技術推進至1.5nm晶片工藝製成,並且可以讓摩爾定律有效至2030年。
  • 特稿 如何讓深度學習突破數據瓶頸?這家創業公司直接挑戰生物神經元的計算模型
    所以,對於深度學習來說,如今的神經科學已經是一個非常巨大的寶庫,為提升現有深度學習的學習能力提供重要線索。」Bragi 表示,越來越多的深度學習專家開始研究如何從神經科學中獲取更多的線索,「 Yoshua Bengio 做的非常前沿,一方面研究深度學習的反向傳播算法在生物神經元上是如何實現的,另一方面研究生物神經元的 STDP 學習算法如何提升現有的深度神經網絡的學習能力 。
  • 託福口語如何突破20分瓶頸?
    有想法,有思路,能表達,但是高分難突破?這些問題如果你有,那一定要聽聽講座「託福口語高分句子從哪來」。時間:9月21日(本周日)13:30,地點:天目山路135號玉泉大廈2F。  致電0571-28862299或通過「新通外語學校」(微信訂閱號)預約,到場即可免費參加託福、雅思水平測試。另外,當天連報班課最低可享8.5折,僅限30名。周日講座這些內容不要錯過。
  • 後摩爾定律時代的計算力破局
    然而,矽晶片已逼近物理和經濟成本上的極限,各界紛紛預測,摩爾定律在不久的將來面臨失效,半導體工藝升級帶來的計算性能的提升不能再像以前那麼快了,每一代製程工藝的研發和成熟需要的時間將越來越長。製程發展減緩,新的替代材料和計算方式還未成熟,想要追求更高的計算力,可以從兩個方向發展。
  • 張亞勤任院長,姚期智等擔任顧問
    邱勇、張亞勤為研究院揭牌智能產業研究院的成立是清華大學建設世界一流大學、創新學科與產業交叉融合的又一重要舉措。張亞勤任院長,多名圖靈獎得主任學術顧問清華大學新成立的這個研究院的人員配置可謂「超級豪華」。首任院長由張亞勤擔任。張亞勤院士是數字視頻和人工智慧領域的世界級科學家和企業家。曾任百度公司總裁,並曾在微軟公司工作近16年,歷任全球資深副總裁兼微軟亞太研發集團主席、微軟亞洲研究院院長兼首席科學家、微軟中國董事長等職位。
  • 【學界】深度學習如何影響運籌學?
    其他運籌學的問題(如廣告搜索、路徑規劃、定價估值、倉儲物流)、形式(如 LP、CP、SDP、MIP)、和方法(如內點法、割平面法)也會遇到這樣來自深度學習的挑戰嗎?如果會的話,將如何影響?學界和業界有哪些已有的討論和成果?文中提及回答:王科:YouTube 的視頻推薦算法是怎樣的?
  • Science 好文:強化學習之後,機器人學習瓶頸如何突破?
    針對機器人學習所面臨的瓶頸,麻省理工學院機器人專家Leslie Pack Kaebling在《Science》上發表一篇名為《The foundation of efficient robot learning》的文章。她認為,造成這一現象的一個關鍵因素在於:機器人學習的數據只能通過在現實世界的操作中獲得,成本非常高昂。
  • 機器學習和深度學習的區別
    人工智慧是一類非常廣泛的問題,機器學習是其中一個重要領域和手段,深度學習則是機器學習的一個分支。在很多人工智慧問題上,深度學習的方法突破了傳統機器學習的瓶頸,因而影響力迅速擴大。什麼是機器學習?為什麼叫做「學習」呢?
  • 資訊理論創始人香農:天才是如何解決問題的?
    大數據文摘出品來源:medium編譯:Stats熊、夏雅薇克勞德·香農(Claude Shannon)花費了近10年的時間,才把他開創性的信息理論全部公式化。香農在這一步就跟很多人不一樣。事實上,正如他的傳記作者在《心靈的遊戲》中所指出的那樣,他的角度太過宏觀,以至於一些當代數學家認為,他在構建連貫畫面的步驟中不夠嚴謹。然而,香農的理念是,只有從正在處理的問題中剔除那些無關緊要的東西,你才能看到指引你找到答案的核心。
  • 怎麼突破英語學習瓶頸,英語聽力、完形填空、書面表達更有思路
    完形的一個瓶頸,當時也是120多分,然後突破不到130。你已經做了那麼多道題,覺得我真的已經下了很大的功夫了。買了一些資料,全是完形。我當時在市面上挑了很久,而且挑的全是那種答案,非常詳細的。我自己的一個愛好是我喜歡挑答案,詳細的那些練習冊,因為我想要看到出卷人。
  • 深度學習集體瓶頸,產業化加速時代CV研究出路在哪裡?
    關於計算機視覺和模式識別的研究,過去數年依靠ImageNet數據集之下,通過深度學習該領域獲得長足的發展。但是,如WebVision主辦方成員李文博士指出,依賴於數據標註進行訓練,這也是過去到現在CV研究到達了瓶頸的原因。因為,很多實際場景中是沒有大規模標註數據的,如果WebVision希望推動半監督或無監督學習進行圖像理解的初衷能夠實現,將更符合現實的應用。