2018年,機器學習和人工智慧領域最重要的突破是什麼?

2021-01-11 電子發燒友

2018年,人工智慧發展到什麼階段了?Quora鼎鼎有名的大V認為,AI炒作和AI威脅論在今年都降溫,並且不會有AI寒冬,升溫的是各種開源框架,2019年的AI,你認為會是怎樣?

2018年,機器學習和人工智慧領域最重要的突破是什麼?

(這裡給你留出充分思考的時間。)

看看其他的觀點。

之前,KDnuggets邀請了11位來自工業、學術和技術一線人員,回顧2018年AI的進展。其中,呼籲阻止AI學術頂會向商業化淪陷的CMU助理教授Zachary C. Lipton認為,2018年 (深度學習) 最大的進展就是沒有進展。

最近,Forbes則採訪了120位AI行業的創始人和高管,在2018年AI技術和產業現狀的基礎上,對2019年進行展望,提出了120個預測。(裡面有讓你覺得英雄所見略同的看法嗎?)

與往年一樣,Quora鼎鼎有名的大V、機器學習研究者、前Quora工程負責人Xavier Amatriain,也寫下了他認為2018年機器學習和人工智慧領域最大的進展:

AI炒作和AI威脅論都有所降溫;

越來越多的人開始關注公平性、可解釋性或因果關係等問題;

深度學習不會再遇到寒冬,並且在圖像分類以外(尤其是自然語言處理)領域投入實用並產生效益;

AI框架方面的競爭正在升溫,要是你想做出點事情,最好發表幾個你自己的框架。

一起來看看。

深度學習寒冬不會到來,2018對AI的期望和恐懼都下降了

正如Xavier Amatriain說的那樣,深度學習的寒冬不會到來——這項技術已經用到產業裡並帶來了收益,現實讓人們收起了一部分對AI的期望和恐懼,業界開始思考數據的公平性、模型的可解釋性等更本質的問題。

如果說2017年是人工智慧炒作和威脅論的風口浪尖,那麼2018似乎是我們開始冷靜下來的一年。 

雖然馬斯克等人確實還在繼續強調他們對人工智慧的恐懼,但他們可能忙於處理其他事務而無暇顧及這個議題。 

與此同時,媒體和公眾看來也都意識到,雖然自動駕駛汽車和類似的技術在推進,但不會很快到來。不過,仍然有聲音支持對AI本身進行管制,Xavier Amatriain認為這種觀點是錯誤的,真正該管制的是AI所造成的結果。

深度學習:可解釋性得到更多關注,NLP迎來ImageNet時刻

關於AI炒作和AI威脅論的降溫實際上前面已經說過了,Xavier Amatriain表示他很高興看到今年的重點似乎已經轉移到去解決更具體的問題上面。

例如,業內圍繞公平性 (fairness)展開了大量的討論,不僅舉辦了多個相關主題的會議 (比如FATML、ACM FAT),甚至還出現了一些在線課程。

ACM FAT會議,2019年1月底在美國召開

關於可解釋性 (interpretability)、對算法或模型的理解 (explanation)和因果關係 (causality)。後者重新成為人們關注的焦點,主要是因為Judea Pearl出版了「The Book of Why」這本書。關於推薦系統的ACM Recsys會議,最佳論文獎也頒給了一篇討論如何在嵌入中包含因果關係的論文 (Causal Embeddings for Recommendations)。

話雖如此,許多其他作者認為,因果關係在某種程度上是對深度學習理論的幹擾,我們應該再次關注更具體的問題,比如 interpretability 或 explanation。說到 Explanation,這個領域的亮點之一可能是華盛頓大學 Marco Tulio Ribeiro等人發表的 Anchor論文和代碼,這他們對自己提出的著名模型LIME的改進。

雖然關於深度學習是最通用的AI範例這一點,仍然存在許多疑問(提問者算我一個);雖然Yann LeCun和Gary Marcus兩人已經是第n次爭論這個問題,但很明顯,深度學習不僅僅停留於此。

在這一年裡,深度學習方法在視覺以外的領域,包括語言、醫療、教育等領域取得了前所未有的成功。尤其是教育方面,國內國外的自適應學習(Adaptive Learning) 都愈發火熱,以中國的松鼠AI (乂學教育) 為代表的個性化自適應教學平臺,甚至請到了「機器學習教父」Tom Mitchell出任首席科學家。

事實上,在NLP領域,我們看到了今年最引人注目的進展。如果讓我必須選擇今年最令人印象深刻的AI應用程式,那麼我的選擇都來自NLP領域(而且都來自谷歌)。第一個是谷歌的超級有用的Smart Compose智能撰寫郵件工具,第二個是Duplex對話系統。

使用語言模型的想法加速了NLP的進步,這個想法在今年由Fast.ai的UMLFit推廣起來。接著,我們看到了其他(改進的)方法,如艾倫研究所的ELMO,Open AI的transformers,以及最近谷歌發布的BERT,它在許多任務上擊敗了此前的SOTA結果。這些模型被描述為「NLP的ImageNet時刻」,因為它們提供了隨時可用的預訓練通用模型,也可以對特定任務進行微調。

除了語言模型之外,還有許多其他有趣的改進,比如facebook的多語言嵌入。值得注意的是,我們還看到這些方法和其他方法是如何迅速地集成到更一般的NLP框架中,比如AllenNLP或Zalando的FLAIR。

生態:AI框架戰升溫,要出成績你最好發表幾個自己的框架

說到框架,今年的「AI框架戰爭」可謂愈演愈烈。令人驚訝的是,隨著Pytorch 1.0的發布,Pytorch似乎正在趕上TensorFlow。

雖然在生產中使用Pytorch的情況仍然不夠理想,但是Pytorch在這方面的進展似乎比TensorFlow在可用性、文檔和教育方面的進展要快。有趣的是,選擇Pytorch作為實現Fast.ai library的框架很可能起了重要作用。

話雖如此,谷歌已經意識到了這一切,並正在朝著正確的方向推進,例如將Keras納入框架。最後,我們都能從所有這些偉大的資源中獲益,所以請繼續迎接它們的到來吧!

pytorch 與 tensorflow 的搜索趨勢

在框架空間中,另一個進展很快的是強化學習。

雖然我認為RL的研究進展並不像前幾年那樣令人印象深刻 (浮現在我腦海中的只有DeepMind最近的Impala工作),但令人驚訝的是,在一年時間裡,我們看到所有主要AI玩家都發布了RL框架。

谷歌發布了用於研究的Dopamine框架,Deepmind發布了某種程度上與Dopamine競爭的TRFL框架。Facebook不甘落後,發布了Horizon,而微軟發布了TextWorld,後者更專門用於訓練基於文本的智能體。希望2019年所有這些開源的優勢能夠幫助RL領域取得更多進步。

最後,我很高興看到谷歌最近在TensorFlow之上發布了TFRank。 Ranking是一個非常重要的ML應用。

數據:用合成數據訓練DL模型

深度學習似乎最終消除了對數據的智能需求,但事實遠非如此。

圍繞著改進數據的想法,該領域仍有一些非常有趣的進展。例如,雖然數據增強已經存在了一段時間,並且對於許多DL應用程式來說是關鍵,但谷歌今年發布了AutoAugment,這是一種深度強化學習方法,可以自動增強訓練數據。

一個更極端的想法是用合成數據訓練DL模型。這已經在實踐中嘗試了一段時間,被許多人視為AI未來的關鍵。NVidia在Training Deep Networks with Synthetic Data這篇論文中提出了有趣的新穎想法。在「Learning from the experts」這篇論文中,我們還展示了如何使用專家系統來生成合成數據,然後將合成數據與實際數據相結合,使用這些數據來訓練DL系統。

最後,還有一個有趣的想法,即使用「弱監督」來減少對大量手工標記數據的需求。Snorkel是一個非常有趣的項目,旨在通過提供一個通用框架來促進這種方法。

基礎理論:AI沒有太多基礎性突破?

我並沒有看到太多AI更基礎性的突破。我並不完全同意Hinton的觀點,他說這種創新的缺乏是由於該領域「資深人士太少,年輕人太多」,儘管在科學上確實存在這樣的趨勢,即突破性研究經常是在更老的年紀完成的。

在我看來,目前缺乏突破的主要原因是,現有方法和變體仍然有許多有效的實際應用,所以很難冒險採用那些可能不太實際的方法。當該領域的大部分研究由大公司贊助時,這一點就更加重要了。

這方面,今年有一篇有趣的論文挑戰了某些假設,題為「對用於序列建模的一般卷積和遞歸網絡的經驗評估」(An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling)。在高度經驗主義和使用已知方法的同時,這篇論文打開了發現新方法的大門,因為它證明了通常被認為是最優的方法實際上並不是最優。

需要明確的是,我不同意Bored Yann LeCun的觀點,他認為卷積網絡是最終的「終極算法」(master algorithm),而且我認為RNN也不是。

即使是序列建模,也有很大的研究空間!另一篇具有高度探索性的論文是最近的NeurIPS最佳論文「Neural Ordinary Differential Equations」,它挑戰了DL中的一些基本內容,包括layers本身的概念。

2018年,機器學習和人工智慧的發展卡在了數據集上面

在 Xavier Amatriain 的觀點之後,新智元也補充一點:

2018年,機器學習和人工智慧的進展卡在了數據集上面。

為什麼這麼說?

昨天,創業公司Graphext在Reddit上發帖,公布了他們對2018年Reddit網站Machine Learning內容分類裡2509條帖子聚類分析的結果 (點擊「閱讀原文」查看大圖):

(Reddit上) 人們最關心的話題 (佔比20%) 是數據集,包括訓練數據,大規模數據集,開源,新的數據、模型、樣本等等;其次是研究論文 (佔比18%),包括復現結果、Kaggle競賽和谷歌、FB的工作;再次是訓練 (佔比16%)。

Graphext對2018年Reddit機器學習帖子聚類結果:最受關注的是數據

雖是一家之言,但這個聚類結果也在一定程度上反映了當前機器學習和人工智慧從業者的關注點——數據!大數據!開源大數據!

也難怪作為學者的Zachary Lipton要說,2018年深度學習最大的進展就是沒有進展——我們仍舊在依靠大數據,手握大數據和大算力的谷歌、FB等巨頭最容易出成果,而迫切復現其算法和模型的其他機器學習工程師則關注訓練的問題。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 2021年重要的機器學習和A人工智慧的發展趨勢
    2021年重要的機器學習和A人工智慧的發展趨勢 Priya Dialani 發表於 2020-12-03 14:41:33 機器學習如今已經成為一種眾所周知的創新技術
  • 2018機器學習最大進展:炒作和恐懼情緒回歸理性 自然語言處理奪得...
    當問道2018年機器學習/人工智慧最重要的進步是什麼?前機器學習研究員,目前領導Engineering團隊的Xavier Amatriain在Quora總結了2018年最重要的機器學習亮點有以下幾方面:人工智慧的炒作和散播恐懼情緒有所降溫。更多地關注諸如公平、可解釋性或因果關係等具體問題。深度學習在實踐中不僅僅適用於圖像分類,自然語言處理取得巨大突破。
  • 機器學習之父Michael I. Jordan 親臨2018全球機器學習技術大會
    他所教過的學生人才輩出,如深度學習領域的權威 Yoshua Bengio,貝葉斯學習領域權威 Zoubin Ghahramani及前百度首席科學家吳恩達等人都是其門下學生。就是這樣一位頂級泰鬥,將於2018年9月22-23日親臨由Boolan在上海世紀皇冠假日酒店主辦的ML-Summit 2018全球機器學習技術大會現場(http://ml-summit.org/)。
  • 人工智慧和機器學習能為抗擊新冠肺炎做些什麼?
    據悉,亞馬遜雲服務AWS將全面亮相本次行業盛會,AWS 副總裁 Swami Sivasubramanian將代表 AWS 在線出席並發表題為《突破常規:機器學習無處不在》的演講。就在這場雲端峰會召開之前,Swami Sivasubramanian發表了題為《人工智慧和機器學習能為抗擊新冠肺炎做些什麼?》
  • 人工智慧的意義,機器學習的三種類型
    其實在今天,人工智慧已經在創造收益了,但主要集中在軟體領域。然而當到了2030年,在軟體行業之外,人工智慧也將創造巨大收益,尤其是在零售、旅遊、交通、汽車、材料、製造等行業。   人工智慧、機器學習、深度學習這些熱詞近來被頻繁使用。讓人工智慧融於世界的現實期望固然很贊,但了解和揭秘人工智慧同樣意義重大。
  • 從零開始的人工智慧和機器學習,該從哪裡入手呢?
    他已經通過深度學習微學位打了基礎,現在該想好下一步要幹什麼了。自創人工智慧碩士學位近期他不打算回到大學上學,也沒有10萬美元去攻讀碩士學位。所以做了他一開始做的事——在網上尋找答案。小芯的朋友在對深入學習領域一無所知的情況下就進入該領域了。相比逐漸攀登至人工智慧的頂峰,他的經歷更像是被直升機直接扔到了山頂。
  • 英特爾收購以色列初創公司Cnvrg.io 深耕機器學習和人工智慧領域
    英特爾收購以色列初創公司Cnvrg.io 深耕機器學習和人工智慧領域 來源:TechWeb • 2020-11-04 17:30:55
  • 2020年終巨獻:人工智慧研究領域重要成果
    在即將過去的2020年裡,科學家們在人工智慧研領域取得了多項重要的研究成果,本文中,小編就對本年度科學家們在該研究領域取得的重磅級研究成果進行整理,分享給大家!
  • 這些姐姐們正在人工智慧領域「乘風破浪」
    答案是未知的:清華大學AMiner團隊2020年1月發布的「AI 2000人工智慧全球最具影響力學者榜單」,旨在未來10年內遴選出2000名頂級學者。而目前的學者名單中,男性佔了1654位,女性179位。榜單指出,人工智慧領域裡存在男女比例失衡問題——人工智慧是人類社會的一面鏡子。
  • 網際網路上20大免費數據科學、機器學習和人工智慧慕課
    機器學習與人工智慧- 機器學習與人工智慧基礎- 深度學習- 自然語言處理- 計算機視覺我沒有實地考察不同課程,也沒有花幾個小時過濾網上的幹擾信息,而是編輯了這個列表,其中包含了我發現在機器學習、人工智慧、數據科學和編程學習中很有用的課程。下面,就來看看這個列表吧!慕課0.
  • 2018人工智慧醫療盤點:科研突破 巨頭髮力 產業聯合 資本依舊
    2018年,醫療人工智慧依舊熱度不減,而貝殼社作為行業的見證者和推動者,也見證者行業的驚喜和蛻變。這一年,醫療人工智慧取得了哪些科研技術突破,產品的應用落地又解決了哪些痛點,資本凜冬下,醫療人工智慧市場融資情況究竟又是怎樣一番面貌?踩著2018年的尾巴,我們從科研、產業、融資三大角度,全面復盤這一年醫療人工智慧的重大事件。
  • 人工智慧是當今科技領域最前沿的課題_三領域獨角獸整裝待發
    作為新一輪科技革命的重要代表之一,人工智慧是當今科技領域最前沿的課題。繼2017年首次被寫入全國政府工作報告一年後,「人工智慧」(AI)再次成為兩會焦點。3月5日上午,總理在2018政府工作報告中指出要「加強新一代人工智慧研發應用」,再次強調人工智慧給中國帶來的歷史機遇。人工智慧在中國的政治、經濟、學術領域都成為重中之重。 在此之前,「證監會給四大行業IPO開特殊通道」已是人盡皆知,這四個行業中就包括人工智慧。
  • 人工智慧、機器學習、神經網絡和深度學習之間是什麼樣的關係?
    更準確的說是1956年學者們在會議上將他們確定為人工智慧,其實關於其具體的一些研究,早就已經開始了。  所以人工智慧已經是有60多年歷史的一個領域。為什麼最近幾年人工智慧才逐漸進入大眾視野呢?其實,這幾年的人工智慧浪潮已經是人工智慧的第三次熱度高漲,並遠遠超過了之前的熱度。
  • 如何區分人工智慧、機器學習和深度學習?
    人工智慧(Artificial Intelligence)是一個最廣泛的概念,人工智慧的目的就是讓計算機這臺機器能夠象人一樣思考,而機器學習(Machine Learning)是人工智慧的分支,專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,使之不斷改善自身的性能。
  • 2018年醫療人工智慧技術與應用白皮書
    人工智慧在醫療領域中的應用已非常廣泛,包括醫學影像、臨床決策支持、語音識別、藥物挖掘、健康管理、病理學等眾多領域。人工智慧技術呈現與醫療領域不斷融合的趨勢,其中數據資源、計算能力、算法模型等基礎條件的日臻成熟成為行業技術發展的重要力量。在新形勢下,我國醫療人工智慧的發展面臨著機遇和挑戰,技術能力不斷增強,但產品和服務仍需完善。
  • Nature新論文報導人工智慧獲得的重要突破
    人工智慧在基因組學研究中的重要突破!實現了期待已久的突破,未來也許可以應用於生物醫學中。
  • 這是一份 2018 年 AI/ML 領域年度進展總結,你準備好了嗎
    雷鋒網 AI 科技評論按,2018 年已到尾聲,今年 AI 領域也取得了很多精彩的突破。人們對 AI 的大肆宣揚和恐慌逐漸冷卻,更多地關注到具體的問題中。和往年不一樣的是,今年深度學習在很多非計算機視覺領域也取得了突破,尤其是在 NLP 領域。
  • 人工智慧、機器學習、深度學習和神經網絡傻傻分不清?看這兒!
    人工智慧、機器學習、深度學習和神經網絡這些詞傻傻分不清?這四個都是非常熱門的詞彙,很多人甚至將四者看成是一種等價的關係,在很多報導中,會混雜使用。事實上,這四者之間既有一定的聯繫,但也有明顯的區別。可以簡單理解為:機器學習是人工智慧領域中的一個重要分支;深度學習是實現機器學習的一種重要方法;而深度學習通常都是基於多層神經網絡的。筆者之前畫了一張圖,比較形象一些。
  • 頂級風投眼中的2018年最重要科技趨勢
    因此在進入新的一年後,問問風投哪些領域是投資的熱點可以幫助你更好地了解矽谷以及矽谷以外有哪些重要機會。  《快公司》近期對8家重量級風險投資公司的投資人進行了採訪。這些投資人關注與科技相關的多個領域。有一點很清楚,2018年不會是突破性技術的的一年。不過風投們表示,他們最感興趣的是成熟的、相對安全的投資領域。  以下是他們認為的、今年最值得關注的投資領域。
  • 人工智慧與設計(1):人工智慧的發展和定義
    人工智慧逐漸開始在保險,金融等領域開始滲透,在未來健康醫療、交通出行、銷售消費、金融服務、媒介娛樂、生產製造,到能源、石油、農業、政府……所有垂直產業都將因人工智慧技術的發展而受益,那麼我們現在講的人工智慧究竟是什麼?人工智慧是什麼?