阿里計算平臺掌門人賈揚清:我對人工智慧方向的一點淺見

2021-02-13 芯東西


本文來自阿里技術官方公眾號(ali_tech)

作者:賈揚清


作為 AI 大神,賈揚清讓人印象深刻的可能是他寫的AI框架Caffe ,那已經是六年前的事了。經過多年的沉澱,成為「阿里新人」的他,對人工智慧又有何看法?最近,賈揚清在阿里內部分享了他的思考與洞察,歡迎共同探討、交流。

賈揚清,浙江上虞人,畢業於清華大學自動化系,在加州大學 Berkeley 分校獲得計算機博士學位,目前擔任阿里計算平臺掌門人。

最近幾年深度學習的流行,大家一般認為是從2012年 AlexNet 在圖像識別領域的成功作為一個裡程碑。AlexNet 提升了整個業界對機器學習的接受程度:以前很多機器學習算法都處在「差不多能做 demo 」的程度,但是 AlexNet 的效果跨過了很多應用的門檻,造成了應用領域井噴式的興趣。

當然,任何事情都不是一蹴而就的,在2012年以前,很多成功的因素已經開始逐漸顯現:2009年的 ImageNet 資料庫奠定了大量標註數據的基礎;2010年開始,IDSIA 的 Dan Ciresan 首次用 GPGPU 進行物體識別;2011年,北京的 ICDAR 大會上,神經網絡在中文離線識別上大放異彩。就算是 AlexNet 中用到的ReLU層,早在2001年神經科學的文獻中就有提及過。所以,一定程度上說,神經網絡的成功也是一個水到渠成的過程。2012年以後的事情,大家可以讀到很多,這裡就不再贅述。

在看待神經網絡成功的同時,我們也要進一步深挖其背後的理論背景和工程背景,為什麼神經網絡和深度學習在幾十年前失敗,但是現在卻成功了?它成功的原因是什麼?而它的局限又在什麼地方?我們這裡只能片面地說幾個重點:

大量的數據,比如說移動網際網路的興起,以及 AWS 這樣低成本獲得標註數據的平臺,使機器學習算法得以打破數據的限制;由於 GPGPU 等高性能運算的興起,又使得我們可以在可以控制的時間內(以天為單位甚至更短)進行 exaflop 級別的計算,從而使得訓練複雜網絡變得可能。要注意的是,高性能計算並不僅限於 GPU ,在 CPU 上的大量向量化計算,分布式計算中的 MPI 抽象,這些都和60年代就開始興起的 HPC 領域的研究成果密不可分。

但是,我們也要看到深度學習的局限性。今天,很多深度學習的算法還是在感知這個層面上形成了突破,可以從語音、圖像,這些非結構化的數據中進行識別的工作。在面對更加結構化的問題的時候,簡單地套用深度學習算法可能並不能達到很好的效果。有的同學可能會問為什麼 AlphaGo 和 Starcraft 這樣的算法可以成功, 一方面,深度學習解決了感知的問題,另一方面,我們也要看到還有很多傳統的非深度學習算法,比如說 Q-learning 和其他增強學習的算法,一起支撐起了整個系統。而且,在數據量非常小的時候,深度學習的複雜網絡往往無法取得很好的效果,但是很多領域,特別是類似醫療這樣的領域,數據是非常難獲得的,這可能是接下去的一個很有意義的科研方向。

接下去,深度學習或者更廣泛地說,AI 這個方向會怎麼走?我個人的感覺,雖然大家前幾年一直關注AI框架,但是近年來框架的同質化說明了它不再是一個需要花大精力解決的問題,TensorFlow 這樣的框架在工業界的廣泛應用,以及各種框架利用 Python 在建模領域的優秀表現,已經可以幫助我們解決很多以前需要自己編程實現的問題,因此,作為 AI 工程師,我們應該跳出框架的桎梏,往更廣泛的領域尋找價值。

往上走,我們會遇到產品和科研的很多新挑戰,比如說:

傳統的深度學習應用,比如說語音、圖像等等,應該如何輸出產品和價值?比如說,計算機視覺現在基本還是停留在安防這個層面上,如何深入到醫療、傳統工業,甚至社會關愛(如何幫助盲人看見這個世界?)這些領域,是不僅需要技術,還需要產品的思考的。

除了語音和圖像之外,如何解決更多問題。在阿里和很多網際網路企業中有一個「沉默的大多數」的應用,就是推薦系統:它常常佔據了超過80%甚至90%的機器學習算力,如何將深度學習和傳統推薦系統進一步整合,如何尋找新的模型,如何對搜索和推薦的效果建模,這些可能沒有像語音和圖像那麼為人所知,卻是公司不可缺少的技能。

即使在科研方向,我們的挑戰也剛剛開始:Berkeley 的教授 Jitendra Malik 曾經說,「我們以前是手工調算法,現在是手工調網絡架構,如果囿於這種模式,那人工智慧無法進步」。如何走出手工調參的老路,用智能提升智能,是個非常有意思的問題。最開始的 AutoML 系統依然停留在用大量算力暴力搜索模型結構的層面上,但是現在各種更高效的 AutoML 技術開始產生,這是值得關注的。

往下走,我們會發現傳統的系統、體系結構等知識,計算機軟體工程的實踐,會給 AI 帶來很多新的機會,比如說:

傳統的 AI 框架都是手寫高性能代碼,但是模型如此多變,新的硬體平臺層出不窮,我們應該如何進一步提升軟體效率?我們已經看到有通過編譯器技術和傳統的人工智慧搜索方法來反過來優化AI框架,比如 Google 的 XLA 和華盛頓大學的 TVM,這些項目雖然處於早期,但是已經展現出它們的潛力。

平臺如何提升整合能力。在開源領域,大家的做法是一個人,一臺機器,幾個 GPU ,訓練比較學院派的模型。但是在大規模應用中,我們的數據量非常大,模型非常複雜,集群還會出現各種調度的挑戰(能不能一下子就要求256個 GPU ?計算資源是否可以彈性調度?),這些對於我們自己的機器學習平臺,以及雲上向客戶提供的服務,都提出了非常多的挑戰。

如何進行軟硬體的協同設計。在深度學習的計算模式開始逐漸固化的時候(比如說 CNN ),新硬體和特殊硬體(比如 ASIC )的優勢就開始體現出來了。如何實現軟硬體的協同設計,防止「硬體出來了,不知道怎麼寫程序」或者「模型已經變了,硬體一出來就過時了」這樣的問題,會是將來幾年中很大的方向。

人工智慧是一個日新月異的領域,我們有一個笑話說,2012年的科研成果,現在說起來都已經是上古時代的故事了。快速的迭代帶來的大量機遇和挑戰是非常令人興奮的,無論是有經驗的研究者還是新學 AI 的工程師,在當今雲化,智能化的年代,如果能快速學習並刷新算法和工程的各種挑戰,就可以通過算法創新引領並且賦能社會各個領域。這方面,人工智慧領域開源開放的各種代碼,科研文章和平臺給大家創造了比以前更容易的入門門檻,機遇都掌握在我們自己手中。

矽谷時間4月22日晚,在斯坦福可容納約2000人的超級大演講廳,以《人類簡史》《未來簡史》享譽全球的以色列著名歷史學家尤瓦爾•赫拉利(Yuval Noah Harari),與斯坦福一個多月前神秘成立的 「以人為本」 AI研究院領導者李飛飛,展開了一場以人工智慧為主題的對話。

在公眾號號後臺回復「AI對話」,獲取論戰詳情!

科技、AI硬核資訊

還有300+專業人工智慧社群等你來撩~

後臺回復「社群」加入

相關焦點

  • 賈揚清:我對人工智慧方向的一點淺見
    最近,賈揚清在阿里內部分享了他的思考與洞察,歡迎共同探討、交流。[ 導讀 ]作為 AI 大神,賈揚清讓人印象深刻的可能是他寫的AI框架Caffe ,那已經是六年前的事了。經過多年的沉澱,成為「阿里新人」的他,對人工智慧又有何看法?最近,賈揚清在阿里內部分享了他的思考與洞察,歡迎共同探討、交流。
  • 賈揚清:我對人工智慧方向的一點淺見(阿里內部分享)
    經過多年的沉澱,成為「阿里新人」的他,對人工智慧又有何看法?最近,賈揚清在阿里內部分享了他的思考與洞察,歡迎共同探討、交流。作者:賈揚清來源:阿里技術(ID:ali_tech)最近幾年深度學習的流行,大家一般認為是從2012年 AlexNet 在圖像識別領域的成功作為一個裡程碑。
  • 科技早聞:AI大神賈揚清加入阿里;下半年5G手機將零星上市
    點評:反正過度追逐流量導致價值觀缺少,平臺不僅僅是技術的提供商。5、蘋果搭載了AR功能的智能硬體有望在今年推向市場各種跡象顯示,蘋果的AR產品呼之欲出。搭載了AR功能的智能硬體有望在今年推向市場。美國專利商標局今天批准蘋果的一項專利,該專利描述了一種「在行動裝置上的真實環境裡呈現興趣點的方法」。與其他AR類產品類似,該頭戴式屏幕能夠將電腦生成的虛擬信息疊加到真實環境視圖之上。
  • 賈揚清:希望Caffe成為深度學習領域的Hadoop
    賈揚清:我個人對此持謹慎的懷疑態度,因為主要的程序都是C++編寫的,所以應該在速度上沒有什麼差別,看到的不同可能只是因為在兩個平臺上編譯器優化不同的結果。因為編譯器的不同優化選項會影響到速度,所以我一般提及速度的比較的時候會比較謹慎。
  • 阿里成中國最大人工智慧公司,最強大腦天團首次集體亮相曝家底
    現在,在阿里工業網際網路平臺上,碳纖維吉他涉及的注塑、噴塗、機械加工的工廠資源、供應鏈金融、C2B訂單已被打通,解決了當年了陸子天找工廠、找資金、找市場遇到的「我太難了」的窘境。而阿里雲工業大腦也是工業網際網路平臺不可或缺的一部分,外觀設計、注塑工藝、音質優化、質量檢測等環節將一步步在人工智慧的幫助下更好地完成。
  • 賈揚清感謝千萬開源人的背後,是國內開源領域的未來……
    開源軟體不僅影響了企業的發展方向,同時開源能力也漸漸成為企業技術實力的象徵之一。近來,國內各大企業在對內部項目進行開源上顯得非常積極,以阿里巴巴、華為、騰訊、百度、滴滴、陌陌為首的知名企業,向社區貢獻了大量的優質項目。
  • AICC2018人工智慧大會詮釋「計算改變世界」
    北京時間2018年9月12日,AICC2018人工智慧計算大會在北京國際飯店舉行。本次大會由中國工程信息與電子工程學部主辦,亞洲超算協會和浪潮集團聯合協辦。大會旨在圍繞AI需求研討AI計算,促進AI技術創新與合作發展。本次大會將有2000多位來自網際網路、金融、公安、能源、醫療、科研院所等行業領域研究人員、開發者、用戶和工業界代表參加。
  • 7月5日,大幕將啟,阿里智能帶你窺見未來!
    而這一次,阿里帶來的人工智慧大生態系統,將更加深刻地改變未來人們的生活方式,從根本上讓技術更加人性化。關於未來,阿里已經掀開了一頁。三巨頭掌門人2017IT領袖峰會論壇,暢談人工智慧前景人工智慧已經成為當下熱論的話題之一,無論從業內關注度還是社會關注度都達到了一個新的高峰。人們期待人工智慧能夠運用到生活中,網際網路企業也在人工智慧領域展開合作。
  • 阿里10 年風雨開源路,致敬所有開源人!
    在這封感謝信裡,賈揚清向我們講述了過去阿里開源之路是如何開始的,未來阿里的開源之路將會走向何方,以及阿里開源貢獻更多技術、分享更多理念的期待。開源軟體不僅影響了企業的發展方向,同時開源能力也漸漸成為企業技術實力的象徵之一。阿里對社區開源的巨大貢獻不光表現在開源項目上,也表現在企業發展計劃中。其開源技術委員會負責人賈揚清在採訪中表示,將開源升級為集團技術戰略之一。
  • 高考失利只能進清華,他35歲成阿里最年輕技術副總裁!
    但是從另一個方面而言,程序共享了,創始人也失去了在經濟上獲利的機會,很多人都為賈揚清惋惜。但是賈揚清卻說:我覺得開源是一個非常好理解的事情,我為人人,人人為我嘛。在賈揚清的理解裡,開源就像有一個開放性的社區,也是一定程度上有一點去中心化的社區,每個人都可以往裡頭貢獻自己的創造性勞動。大學畢業後,幾家知名網際網路公司都向賈揚清發出了offer,最後,他去了谷歌,參與設計開發谷歌AI平臺TensorFlow。
  • 阿里發布圖計算平臺GraphScope,即將向全社會開源
    11月9日,在第二屆世界科技與發展論壇上,阿里發布全球首個一站式超大規模分布式圖計算平臺GraphScope,併入選中國科學技術協會「科創中國」平臺。GraphScope可處理萬億規模的圖數據,能在一毫秒內遍歷全部中國路網,其提供的高效、易用的一站式開發環境,極大降低圖計算門檻。GraphScope將於12月開源。  (圖說:阿里發布一站式圖計算平臺GraphScope)  圖可自然表達數據之間複雜的關聯與結構特徵,圖計算能有效挖掘和利用這種關聯信息,成為數字原生時代的關鍵技術之一。
  • Guten Tag SAP德國總部迎來阿里雲日
    阿里雲智能全球生態總經理沈濤、阿里雲智能計算平臺事業部總裁賈揚清、阿里雲智能資料庫事業部負責人李飛飛等進行了技術交流。  2018年9月,SAP CEO孟鼎銘和阿里巴巴集團CEO張勇共同宣布了雙方的戰略合作。這是雙方合作承前啟後的關鍵節點。
  • 高考失利只能進清華,35歲成阿里最年輕技術副總裁,他來自另一個平行世界!
    但是從另一個方面而言,程序共享了,創始人也失去了在經濟上獲利的機會,很多人都為賈揚清惋惜。但是賈揚清卻說:我覺得開源是一個非常好理解的事情,我為人人,人人為我嘛。大學畢業後,幾家知名網際網路公司都向賈揚清發出了offer,最後,他去了谷歌,參與設計開發谷歌AI平臺TensorFlow。2年後,賈揚清到臉書,和團隊構建了AI平臺Pytorch和Onnx,這個AI平臺很快成為臉書所有AI產品的支柱。
  • 阿里正式開源通用算法平臺Alink,「雙11」將天貓推薦點擊率提升4%
    整理 | 若名近日,阿里雲計算部門已在 GitHub 上發布了其 Alink 平臺的「核心代碼」,並上傳了一系列算法庫,它們支持批處理和流處理,這對支持機器學習任務至關重要。 Alink 是基於 Flink 的通用算法平臺,由阿里巴巴計算平臺 PAI 團隊研發。
  • AI大神離職Facebook加盟阿里,這個浙江80後學霸為的是什麼?
    2016年2月,賈揚清離職Google加盟Facebook,在現任AI首席科學家Le Cun手下提任研究科學家,主打前沿AI研究和平臺開發。賈揚清打造的深度學習框架Caffe,也成為Facebook重點部署框架之一。
  • 有道人工翻譯平臺翻譯新作《極簡人工智慧》中文版首發
    原標題:有道人工翻譯平臺翻譯新作——《極簡人工智慧》中文版首發   人工智慧作為近來中國科技發展的關鍵詞之一,已經成為大勢所趨。最近,「人工智慧」再登政府工作報告,又一次成為「兩會熱點」。
  • 阿里的服務,90%由「阿里小蜜」搞定
    本報訊 「由數據和技術驅動的『智能+服務』始終是我們立命之本和核心競爭力。」昨天,阿里巴巴集團首席客戶官戴珊出席媒體見面會時表示,唯有用戶才能決定企業能走多遠,而只有技術驅動下越來越專業的「人機合一」客服團隊,才能保障用戶獲得「萬人如一」般的優質服務。戴珊是阿里十八羅漢之一。
  • 目前人工智慧技術都有哪些主要研究方向
    人工智慧技術經過六十多年的發展,目前主要的研究內容集中在六大領域,分別是機器學習、計算機視覺、自然語言處理、知識表示、自動推理和機器人學。人工智慧技術的發展和應用需要一系列技術的支撐,這些技術包括物聯網技術、雲計算技術、邊緣計算技術、大數據技術等。以機器學習為例,機器學習的步驟包括數據收集、數據整理、算法設計、算法實現、算法訓練、算法驗證和算法應用,其中算法設計是機器學習的核心,而數據收集是機器學習的基礎。
  • 村裡也用上人工智慧購物 農村用戶逾90%問題由阿里小蜜解決
    村裡也用上人工智慧購物 農村用戶逾90%問題由阿里小蜜解決來源:聯商網2019-02-20 17:48對不少上班族來說,過去的兩周都是在「節後綜合症」中掙扎度過的,鬧過元宵,賞完燈會,春節假期才算是正式結束。