完整視頻 谷歌雲首席科學家李飛飛:一堂人工智慧公開課

2021-12-26 極客公園


 極客公園微信號:geekpark 

 GIF2017 

李飛飛,1976 年出生於北京,成長於四川,16 歲隨父母移居美國新澤西州。現為史丹福大學計算機系終身教授,Google Cloud 首席科學家,是全球人工智慧領域最具影響力的科學家之一。

2017 年 1 月 3 日,李飛飛教授正式入職 Google Cloud,宣布自己從學術研究的實驗室走到了產業界。她除了依然是「美國史丹福大學計算機科學系終身教授、史丹福大學人工智慧實驗室主任」之外,又多了一個新的身份——「谷歌雲首席科學家」。

談及自己為何願意加入 Google,李飛飛表示,「我並沒有離開斯坦福。我希望看到越來越多的趨勢,就是產業界和學術界比較密切的結合,(我想)要跟企業之間建立融合、建立一種探索的新方式。」


人工智慧已經到了可以真正走進工業、產業界,為人類服務的階段,人工智慧發展了 60 多年,這是第一次有這樣的機會。

而雲,則是一個讓人工智慧走進各個行業的最好平臺,「我覺得,沒有一個比雲平臺更大的平臺,能實現人工智慧的普適價值。因為雲上面有各個業界,從金融、到健康醫療、電商、交通、再到製造業、農業。各個行業在這種大數據、人工智慧的推動下,它的轉型,都需要雲平臺的幫助。」

回首過去,2007 年,李飛飛與普林斯頓大學教授李凱發起的 ImageNet(圖片網絡),目前已經成為全球最大的圖像識別資料庫,對計算機圖像識別的研究起到了顛覆性的推動作用,是本世紀人工智慧領域最大的進展之一。

加入 Google Cloud,可能意味著李飛飛個人事業和人工智慧產業的一個嶄新開始。

在李飛飛看來,AI 這個領域已經發展了 60 年了,它的進一步發展,這是沒有懸念的。這是一個新興的行業,它的發展帶來諸多希望、期待和機會,但同時,也充滿不確定性。

在這樣的過程中,有人會認為「這裡面會有巨大的泡沫」,李飛飛認同,可能會有一些泡沫,「有一部分的泡沫是會破滅的,但是泡沫之後,這個行業絕對會給我們人類的生活,帶來一些顛覆性的影響。這一點,我也是確信不疑的。」

那麼,回到最最根源的問題,機器是如何看懂這個世界的?人工智慧過去的 60 年以及它的未來是什麼樣的?聽聽李飛飛教授在 GIF 2017 的大會上的完整演講。

我今天帶來的,是比較學術的演講。我想跟大家分享一下人工智慧,站在我自己的實驗室的角度,過去的發展的路徑,和我們最近在做的一些工作。

人工智慧到今天,已經帶來了一場革命的開始,不管是天上、地下、雲上、手機上,我們都會看到它給我們帶來的一些興奮的可能性。

其實,智能這個問題,從人類文明的最初期,有了人,就有了這個問題。人工智慧沒有那麼長的時間,人類的歷史有上千年的歷史,但人工智慧只有大概 60 年的歷史。人工智慧的早期,一個奠基性的人物是 Alan Turing ,大家都知道 Turing 是個數學家。大概在五六十年前,Turing 開始思考,怎麼去創造一個 Thinking  Machine。他說:要建造一個智能的機器的話,可能最好的方法就是,通過最好的感官來提供給它,讓它能夠學會並且使用應用語言。

智能的 Machine,它需要兩個特別重要的元素:

1. 感知。我們可以看人最大的感知系統是視覺,人還有其他的感知系統,機器也可以有其它的感知系統,但視覺是一個最大的感知系統。

2. 對含義的理解和推斷。語言是人類最特別的一個能力,大多數人都會同意,動物是沒有這樣的能力的。

所以,Turing 遠遠沒有建立起人工智慧這個領域。但是,他帶來了最起初的一些重要的思想元素:我們要做一個會思考的機器,裡面需要包括:視覺、語言。

Turing 之後,有這麼一位科學家,他是計算機界的一位泰鬥,是跟馬文·明斯基在 MIT 第一批讀人工智慧的博士生,後來他到斯坦福做教授,他的名字叫 Terry  Winograd。

Terry 是人工智慧界,第一代把 Turing 的思想貫穿下去的人。他不光在人工智慧領域做了最重要的工作,而且他後來轉行去做人機互動,也把這個領域重新帶動了起來。

Terry 和李飛飛二人都是斯坦福教授,並且是鄰居。

Terry 帶來了什麼?Terry 把人工智慧應用在了怎麼去建造一個思考的機器上。他說一個人,或者一個機器,要去理解世界,需要去感知。感知以後,需要做的第一件事是對這個世界的結構進行理解。

這叫 Syntax  Understanding。Syntax 在自然語言處理領域叫語法,在計算機視覺這個領域可能叫三維結構。Terry 說,Syntax 以後,我們需要理解 Semantics(語義)。Semantis 做的事情就是 Understanding  Meaning(了解含義),語言有語言的含義,視覺有物體、有動作,有視覺的含義。

最後,當我們把 Semantics 和 Syntax 解決以後,智能的機器或者是人,主要解決的問題就是 Inference,Inference 就是統計推導、統計推理這個過程。

所以在 Terry 看來  ,要實現人工智慧,需要有這 3 個要素:Syntax、Semantics、Inference。

有了這樣的思想框架做引導,Terry 寫了一篇在人工智慧歷史上非常重要的博士畢業論文。這個論文給了我們一個 System,我不知道在座有沒有同行們聽說過這個 SHRDLU,它用一個像積木一樣的世界,用積木搭建了一個世界,在這個世界裡,讓我們來完成 Syntax(語法)、Semantics(語義)、Inference(推導)這樣的 loop(循環)。

這篇論文是 70 年代初寫的,從 70 年代初一直到 80 年代末 90 年代,其實,人工智慧貌似沒有太多的發展。為什麼呢?如果 70 年代就有一個計算機系統,可以理解人的指令。為什麼我們到 2016 年,才關注到人工智慧?2016 年,亞馬遜的 Echo 和 Alexa,也好像做的事情區別不大。

為什麼 60 年代、70 年代、80 年代的人工智慧,  沒有我們預期的做得那麼好,問題出在它的演進的過程。

在機器學習這個領域崛起之前,人工智慧的系統都是 hand-design rules,這個 rule 十分複雜,而且都完全是用手工,用科學家的聰明的腦袋,想出來的 rule。

這些 rule,會有什麼樣的問題?其實 Terry 這樣絕頂聰明的人,他能建立這個系統,這個 rule 肯定已經是包羅萬象了,但是這些 rule 還是有 3 個比較大的致命問題:

1. Scalable(可擴展的)。你不可能把天下所有的 rule,都寫進一個程序。

2. Adaptable(可適應的)。當你給系統設計這個 rule 的時候,你很難把它轉換到另外一個 rule。比如說,英文的語法、語義,我可以設計很多 rule。可是,我要把它放進中文,它的語法就完全不一樣了,我就得重新設計出來一套 rule。

3. 它是一個 Closed  word。

所以說,Hand-design  Rules 在 AI 這個領域發展的早期,給我們帶來了一些曙光,但是它並沒有把我們帶進真正的光明。到了 80 年代開始,一個重要的子領域在人工智慧領域開始發展,就是機器學習。

機器學習是什麼呢?機器學習和傳統學習最大的區別,我在這裡給大家畫出來了。你可以想像,傳統的學習,是用人認識這個知識,然後再灌輸給它,讓機器學習,這就像 Terry 他們做的事情一樣。

但是,機器學習不一樣,機器學習是把認知知識這一層給省掉了,可以直接把數據放進學習組件,讓這個學習組件去學習一個知識,這個知識可以發揮作用。

但最近一個特別重要的算法,就是所謂的 Artificial Neural Network,從 80 年代開始,它叫神經網絡。神經網絡有很長的歷史,50 年代 Rosenbatt 就提出了 PERCEPTRON 這個概念,這個概念就是把這些細胞怎麼結合起來,然後一層一層地輸入數據,然後輸出結果(take layers of input and take output)。

到了 60 年代初,一個重要的神經生物學的發現,又推動了這個思路,這就是 Huble and Wiesel,在通過對貓的腦子做實驗的時候發現,哺乳動物視覺的感知,實際就有這種神經網絡的概念,它是一層一層的細胞不斷的推進,從簡單的層面到複雜的層面。

到了 1980 年,70 年代末,一個重要的日本計算機科學家,叫 Fukushima,做出了第一個 Neocognnitron 的神經網絡,可以識別數字和字母。

到了 90 年代末,通過 Geoffrey Hinton、Yan LeCun 進一步的把學習的 rules 更優化了以後,就出現了今天大家比較熟悉的卷積神經網絡。

最近,給我們帶來最大的一次神經網絡,或者叫深度學習衝擊的 work,是 2012 年 Alex Krizhevsky 和他的導師 Geoffrey Hinton,一塊寫的 AlexNet,其實 AlexNet 和 1998 年的 Convolutional Neural Networks 區別不大。但是,為什麼在 2012 年這個大致的歷史時期,深度學習和神經網絡發生了一次井噴式的成長和革命呢?是因為 3 個重要的因素:

1. 這些算法的不斷優化和成長。

2. 網際網路給我們帶來的海量數據,這也是我和我的學生們,在 9 年前做的一項工作 ImageNet。

3. 硬體的發展。

所以很多人就說,Deep Learning 的三個 Ingredients : Algorithms(算法)Data(數據)和 Computation(運算)。它給我們帶來了一次革命性的飛躍。

有了這個深度學習和機器學習的崛起,我們其實可以重新回到 Turing 和 Terry 給我們搭建的 AI 大的思路和框架裡,重新解決一些在沒有機器學習前完全解決不了的問題。

比如說,計算機視覺裡面 Syntax 這個問題,這個問題實際上就是三維場景的結構,視覺世界的結構。這個問題,在過去的二三十年,有了長足的發展,用了很多跟機器學習的方法。今天,為什麼無人車可以開始產業化,在算法方面很大的原因要感謝 3D 視覺,這幾十年來的成就。這是其中一部分。

第二部分,我們說 Semantics 這個問題,在計算機視覺裡面它是物體分類、場景分類、物體切割這些。這個領域,也是在這幾年有蓬勃的發展,我們 Image Captioning 團隊一直在主持一個國際上的競賽。從 2010 年開始,一直到 2015 年、2016 年,機器的進步,已經基本上達到了,甚至它有時候超越了人的水平。你現在看到的這幅圖是機器的錯誤率,2010 年第一界 Image Captioning 的時候,錯誤率還在 28% 左右。到了去年 2015 年,這個錯誤率已經到了 3.6%,人也差不多就是這個水平。所以,這是一個非常長足的進步。

剛才,我給大家分享的是兩個單獨的元素:Syntax、Semantics。其實,就像 Terry 提出的一樣,要真正做好 AI,要把這些元素全部結合起來。我們一步一步來看,下一步要結合的是 Syntax、Semantics 在計算機視覺裡面它就是場景結構和語義,或者物體含義,一塊的融合。

這項工作,也有不少人做,前段時間斯坦福的另外一位計算機視覺教授搜沃塞維塞西,他們做了項比較重要的工作,就把這個 3D 的建模和物體場景的識別,結合起來了。

我們再往下推進一步,可以看出,我們現在在儘量完善這個圖片。我們現在把 Language 加進來,結合 Vision,這是 Turing 給我們提出來的人的智能終極目標之一。

所以,Language 和 Vision,是最近人工智慧界非常關注的點。

下面這個工作,主要結合的是 Syntax 和 Inference,它結合了 Semantics,這是我的實驗室最近和 Facebook 的一次合作。我們聯合發現了一個 Benchmark(基準),它的意義是什麼呢?我們跟 ImageNet 比較一下,ImageNet 主要在測試機器對 Semantics 的認知能力,就是物體分類。

這項工作,我們把它取名叫 CLEVR,它測試的是機器對 Language Vision 在 Syntax 和 Inference 方面能達到多好,它跟 ImageNet 基本上是反的。

具體是怎麼做呢?具體我們用了一個圖像引擎,去模仿很多很多的場景,又回到了更像積木一樣的世界。

在這些場景裡面,我們又自動生成了很多問題。比如說,這張圖裡有沒有和半球一樣大的積木?這些問題是在挑戰這個計算機系統對場景結構的理解,這個結構裡面包括物體的大小,或者物體的材料,包括數字計算,也包括比較的能力,也包括空間的關係,最後包括邏輯運算。所以,這在測試計算機好幾層的能力。

這個資料庫,組成了很多很多不同的場景,提出了很多不同的問題。然後,我們就可以通過用最好的深度學習模型,來測試計算機做的怎麼樣。其中最好的,比如用 CNN 和 LSTM, 沒有聽過也沒有關係,這是一種深度學習的模型。然後我們就會發現,計算機現在遠遠達不到人類的,比如數數能力,或者現在對材料的分析還不夠好。而且,我們也遠遠達不到比較的能力,人是很容易比較出一個東西比另外一個東西大,計算機現在還遠遠沒有達到。

這項工作還告訴我們,在 Syntaxt 和 Inference 方面,人工智慧其實還任重道遠,CLEVR 這個 Benchmark,就給我們指出了一些比較明確的方向。

最後一點,我們怎麼把 language、Syntax 和 Semantics 一塊融合進來?這是最近我們做的一系列關於看圖說話的工作。看圖說話就是,一個圖片進來,我希望這個計算機講出一個故事,比如一句話「兩個男人在玩飛盤」。這個模型,我們是用了一個圖片的模型,再加上一個語言的模型。

圖片的模型用的是卷機神經網絡,語言的模型用的是一個 LSTM。

剛開始,這個計算機在還沒有足夠學習能力的時候,給出的語句是非常傻的,慢慢的它就開始學習這個圖片的內容了。到了最後,它可以說出其中的內容。

在我結束之前,跟大家分享一下,我們認為下一步計算機視覺和人工智慧,包括自然語言處理,還要往下怎麼走。

Terry 和 Turing 給我們指出了這個結合 Syntaxt,Inference 和 Semantics 的路徑,我們遠遠還沒有完成這個願景。比如說這幅圖,現在計算機視覺可以告訴我們,這個圖裡有一些人,甚至這幅圖的三維結構是什麼,或者給我們一句話或者給我們幾句話、N 句話,就像剛才我們看的。

但是,我們人看到的遠遠不止這些,我們人看到的是一個非常有意思的故事,我們知道這裡面的人是誰,我們知道他們的關係是什麼,我們知道他們的情緒是什麼,我們知道這幅圖的幽默點在哪裡。它可以給我們帶來很多很多信息,這是計算機現在遠遠沒有達到的。

謝謝!(完)

*點擊「閱讀原文」查看更多 GIF2017 最新現場報導。



相關焦點

  • 谷歌雲AI新掌門被曝與軍方有聯繫,4000員工白抗議了? | AI WORLD峰會議程曝光
    在9月20日上午,周志華、胡國平、張建中還將與京東集團副總裁、人工智慧平臺與研究部負責人周伯文, 百度技術委員會主席、百度自然語言處理部首席科學家吳華進行AI巔峰對話,把脈2018年AI發展的主線,展望AI的下一個突破點。
  • 2018網絡技術通識公開課合集&奪命作業題
    第四課視頻回放:雲管理——大互聯時代企業網絡的自我救贖之路主講人:韓勖 格物資訊創始人第十課視頻回放:人工智慧時代的數據分析主講人:李金洪 北京派網軟體有限公司人工智慧算法專家 代碼醫生工作室主程式設計師第十二課直播預告:蘇遠超詳解Segment Routing第十二課視頻回放:蘇遠超詳解Segment Routing主講人:蘇遠超 思科首席工程師,思科大中華區SP CTO
  • 一場關於人工智慧的光與暗之戰正在打響
    其實涉入五角大樓爭議的谷歌,內部也設立了一個「人與 AI 研究」(People + AI Research Initiative)——PAIR 項目,由谷歌大腦的兩位科學家 Fernanda Viégas 與 Martin Wattenberg 帶領,目標是研究和設計人與 AI 系統有效互動的方式,以及發展以人為中心的人工智慧,除了發表研究成果,還提供研究人員和專家使用的開源工具
  • TED公開課 出人意料的工作動機
    本期給大家介紹的是TED公開課——《出人意料的工作動機》。事業分析師 Dan Pink 用實例為我們揭開動機的秘密。  傳統的報酬是否真的有我們想像的那樣激勵人心?胡蘿蔔加大棒已經過時,獎勵甚至會在需要創造力的項目裡,產生負面影響。那麼到底怎樣的激勵機制才是可持續的?  視頻時長18分36秒,請在wifi環境下觀看。
  • 谷歌和Facebook為何要在這些領域開戰?
    點擊上方「Miss Money」,每天體驗愉快閱讀!
  • DARPA將資助人工智慧造假競賽,集結全球頂級數字取證專家共同「作假打假」
    圖丨偽造歐巴馬的視頻今年夏天,DARPA 將資助一場人工智慧造假比賽,世界頂尖的數字取證專家會齊聚一堂。比賽選手將努力一方面將通過人工智慧技術產生假視頻,假圖像和假音頻,角逐出最為可信的「AI 製品」(也被稱為「Deepfakes」)。同時,在這場比賽中,選手們也將嘗試開發能探測出這些 Deepfakes 的新型高級工具。隨著人們越來越擅長開發專門用來愚弄我們的人工智慧算法,這些工具也正在變得越來越精良複雜。
  • 3D視頻聊天、百萬比特量子計算機、十倍性能TPU:谷歌在I/O大會上讓我們看到了未來
    5 月 19 日凌晨,一年一度的谷歌 I/O 大會在線上召開,在谷歌園區戶外進行的開場 Keynote 上,這家公司發布了一系列引人矚目的全新產品。「我們的目標一直是構建一個能夠幫助所有人的谷歌,」谷歌執行長桑達爾 · 皮查伊說道。用 AI 為更多人提供便利是今天谷歌活動的主題。
  • Thea&Vray3.4公開課視頻上線啦!
    噹噹噹噹,萬眾期待的Thea&Vray3.4公開課視頻上線啦!
  • 2021 年將是「人工智慧硬體年」
    如需更多信息,請參閱這篇文章《新的英特爾:英偉達如何從驅動視頻遊戲到革新人工智慧》(The New Intel: How Nvidia Went From Powering Video Games To Revolutionizing Artificial Intelligence)。英偉達憑藉其 GPU 在深度學習硬體領域佔據主導地位,這在很大程度上要歸功於 CUDA。
  • 弘·揚 | 首席科學家李維科普:NLP 聯絡圖
    正在帶領公司團隊將新一代語言技術融入到Cyclone RPA 業務,打造可解釋、不依賴大規模標註數據的人工智慧解決方案。
  • 南京航空航天大學聘校友擔任思政工作首席專家
    本報南京12月16日訊(記者 繆志聰)C919大型客機、北鬥三號衛星、AG600水陸兩棲飛機、直—19武裝直升機……今天,南京航空航天大學的校園分外熱鬧,一批「國之重器」的總設計師重返母校,變身思政公開課教師,以生動的人生和科研經歷講述自己的家國情懷,給母校師生上了一堂感人至深的思政課。
  • 人工智慧市場動態監控報告Weekly4
    美軍方正測試通過 AI大腦植入物來調節情緒 美國軍方已經開始測試人工智慧大腦植入物,調節人類情緒和行為。通過「情緒控制」晶片釋放電脈衝,改變大腦化學過程,以達到調節情緒和行為。如果測試成功,就可以用來治療多種情緒性疾病。該晶片是由美國國防部下屬國防部高級研究計劃局(DARPA)的科學家研製。2.
  • 雷軍要靠AI+IoT飛起大象,但小愛同學現場翻車(視頻)
    憑藉小米以及生態鏈的產品,小米已經連結1.32億臺設備,這個數量排在世界第一,超越谷歌、蘋果。雷軍說,這只是取得的「一點點成績」。音箱:摘樹的木頭,感覺你是個樂觀視頻據@北京時間儘管翻車,但是小米IoT仍然勢不可擋。截至2018年第三季度,小米IoT消費級物聯網連接設備數已經達1.32億臺(不含手機、平板和筆記本電腦)。
  • LiDAR技術趨勢2021:雲,人工智慧和機器人
    集中數據和分布式處理 雲是大規模LiDAR點雲處理的未來。雲提供的動態可伸縮性提供了並行任務的結果,很難想到一個更合適的解決方案。 原始處理能力更智能的軟體解決方案將利用雲的原始處理能力。使點雲軟體與雲兼容的趨勢將繼續。
  • 人工智慧與人工智障
    深度學習機器可以通過網際網路查看你的帳戶詳情,收集有關你完整財務狀況的所有數據並進行評估,然後根據你的報稅表對未來情況做出準確預測。這便是深度學習 AI。 語言翻譯中的語音識別是深度學習的另一個實例。谷歌公司近日發布了新產品 Pixel Buds,能夠通過藍牙功能與谷歌 Pixel 智慧型手機相連接,使手機可以接入到「谷歌翻譯」軟體。
  • 美國總統大選辯論觀看指南|政見公開課 · 政見CNPolitics
    中文世界的觀眾,也可以通過各種渠道實時獲取辯論進展,圍觀美帝熱鬧的政治舞臺。不過,如果真的想從辯論中看出些門道來,還得事先做足功課,了解相關背景知識。為了幫助大家迅速、全面地了解美國總統大選辯論,政見團隊將開設一堂公開課,提供一份全面的觀看指南。我們採用的形式是——直播。
  • 科學家為什麼想要重返冥王星?
    一批科學家主張,我們必須要重返冥王星——而且這一回,我們得把探測器送入環繞它的軌道。4月24日,包括新視野號任務首席研究員阿蘭·斯特恩(Alan Stern)在內,數十位行星科學家在休斯敦齊聚一堂,討論冥王星的後續任務會是什麼樣的。按照斯特恩的說法,這場研討會從兩年前就開始籌備了,就從新視野號發回第一批冥王星的照片開始。