AI和ML(NLP、計算機視覺、強化學習)技術總結和19年趨勢(上)

2021-01-13 阿里云云棲號

1、簡介:

過去幾年一直是人工智慧愛好者和機器學習專業人士最幸福的時光。因為這些技術已經發展成為主流,並且正在影響著數百萬人的生活。各國現在都有專門的人工智慧規劃和預算,以確保在這場比賽中保持優勢。

數據科學從業人員也是如此,這個領域正在發生很多事情,你必須要跑的足夠的快才能跟上時代步伐。回顧歷史,展望未來一直是我們尋找方向的最佳方法。

這也是我為什麼想從數據科學從業者的角度退一步看一下人工智慧的一些關鍵領域的發展,它們突破了什麼?2018年發生了什麼?2019年會發生什麼?

我將在本文中介紹自然語言處理(NLP)、計算機視覺、工具庫、強化學習、走向合乎正道的人工智慧

2、自然語言處理(NLP)

讓機器分析單詞和句子似乎是一個夢想,就算我們人類有時候也很難掌握語言的細微差別,但2018年確實是NLP的分水嶺。

我們看到了一個又一個顯著的突破:ULMFiT、ELMO、OpenAI的Transformer和Google的BERT等等。遷移學習(能夠將預訓練模型應用於數據的藝術)成功應用於NLP任務,為無限可能的應用打開了大門。讓我們更詳細地看一下這些關鍵技術的發展。

ULMFiT

ULMFiT由Sebastian Ruder和fast.ai的Jeremy Howard設計,它是第一個在今年啟動的NLP遷移學習框架。對於沒有經驗的人來說,它代表通用語言的微調模型。Jeremy和Sebastian讓ULMFiT真正配得上Universal這個詞,該框架幾乎可以應用於任何NLP任務!

想知道對於ULMFiT的最佳部分以及即將看到的後續框架嗎?事實上你不需要從頭開始訓練模型!研究人員在這方面做了很多努力,以至於你可以學習並將其應用到自己的項目中。ULMFiT可以應用六個文本分類任務中,而且結果要比現在最先進的方法要好。

你可以閱讀Prateek Joshi關於如何開始使用ULMFiT以解決任何文本分類問題的優秀教程。

ELMO

猜一下ELMo代表著什麼嗎?它是語言模型嵌入的簡稱,是不是很有創意? ELMo一發布就引起了ML社區的關注。

ELMo使用語言模型來獲取每個單詞的嵌入,同時還考慮其中單詞是否適合句子或段落的上下文。上下文是NLP的一個重要領域,大多數人以前對上下文都沒有很好的處理方法。ELMo使用雙向LSTM來創建嵌入,如果你聽不懂-請參考這篇文章,它可以讓你很要的了解LSTM是什麼以及它們是如何工作的。

與ULMFiT一樣,ELMo顯著提高了各種NLP任務的性能,如情緒分析和問答,在這裡了解更多相關信息。

BERT

不少專家聲稱BERT的發布標誌著NLP的新時代。繼ULMFiT和ELMo之後,BERT憑藉其性能真正擊敗了競爭對手。正如原論文所述,「BERT在概念上更簡單且更強大」。BERT在11個NLP任務中獲得了最先進的結果,在SQuAD基準測試中查看他們的結果:

有興趣入門嗎?你可以使用PyTorch實現或Google的TensorFlow代碼嘗試在自己的計算機上得出結果。

我很確定你想知道BERT代表什麼,它實際上是Transformers的雙向編碼器表示,如果你能夠領悟到這些,那很不錯了。

PyText

Facebook開源了深度學習NLP框架PyText,它在不久之前發布,但我仍然要測試它,但就早期的評論來說非常有希望。根據FB發表的研究,PyText使會話模型的準確性提高了10%,並且縮短了訓練時間。

PyText實際上落後於Facebook其他一些產品,如FB Messenger。如果你對此有興趣。你可以通過GitHub下載代碼來自行嘗試。

2019年NLP趨勢:

塞巴斯蒂安·羅德講述了NLP在2019年的發展方向,以下是他的想法:

預訓練的語言模型嵌入將無處不在,不使用它們的模型將是罕見的。我們將看到可以編碼專門信息的預訓練模型,這些信息是對語言模型嵌入的補充。我們將看到有關多語言應用程式和跨語言模型的成果。特別是,在跨語言嵌入的基礎上,我們將看到深度預訓練的跨語言表示的出現。3、計算機視覺

這是現在深度學習中最受歡迎的領域,我覺得我們已經完全獲取了計算機視覺中容易實現的目標。無論是圖像還是視頻,我們都看到了大量的框架和庫,這使得計算機視覺任務變得輕而易舉。

我們今年在Analytics Vidhya花了很多時間研究這些概念的普通化。你可以在這裡查看我們的計算機視覺特定文章,涵蓋從視頻和圖像中的對象檢測到預訓練模型列表的相關文章,以開始你的深度學習之旅。

以下是我今年在CV中看到的最佳開發項目:

如果你對這個美妙的領域感到好奇,那麼請繼續使用我們的「使用深度學習的計算機視覺」課程開始你的旅程。

BigGAN的發布

在2014年,Ian Goodfellow設計了GAN,這個概念產生了多種多樣的應用程式。年復一年,我們看到原始概念為了適應實際用例正在慢慢調整,直到今年,仍然存在一個共識:機器生成的圖像相當容易被發現。

但最近幾個月,這個現象已經開始改變。或許隨著BigGAN的創建,該現象或許可以徹底消失,以下是用此方法生成的圖像:

除非你拿顯微鏡看,否則你將看不出來上面的圖片有任何問題。毫無疑問GAN正在改變我們對數字圖像(和視頻)的感知方式。

Fast.ai的模型18分鐘內在ImageNet上被訓練

這是一個非常酷的方向:大家普遍認為需要大量數據以及大量計算資源來執行適當的深度學習任務,包括在ImageNet數據集上從頭開始訓練模型。我理解這種看法,大多數人都認為在之前也是如此,但我想我們之前都可能理解錯了。

Fast.ai的模型在18分鐘內達到了93%的準確率,他們使用的硬體48個NVIDIA V100 GPU,他們使用fastai和PyTorch庫構建了算法。

所有的這些放在一起的總成本僅為40美元! 傑裡米在這裡更詳細地描述了他們的方法,包括技術。這是屬於每個人的勝利!

NVIDIA的vid2vid技術

在過去的4-5年裡,圖像處理已經實現了跨越式發展,但視頻呢?事實證明,將方法從靜態框架轉換為動態框架比大多數人想像的要困難一些。你能拍攝視頻序列並預測下一幀會發生什麼嗎?答案是不能!

NVIDIA決定在今年之前開源他們的方法,他們的vid2vid方法的目標是從給定的輸入視頻學習映射函數,以產生輸出視頻,該視頻以令人難以置信的精度預測輸入視頻的內容。

你可以在這裡的GitHub上試用他們的PyTorch實現。

2019年計算機視覺的趨勢:

就像我之前提到的那樣,在2019年可能看到是改進而不是發明。例如自動駕駛汽車、面部識別算法、虛擬實境算法優化等。就個人而言,我希望看到很多研究在實際場景中實施,像CVPR和ICML這樣的會議描繪的這個領域的最新成果,但這些項目在現實中的使用有多接近?

視覺問答和視覺對話系統最終可能很快就會如他們期盼的那樣首次亮相。雖然這些系統缺乏概括的能力,但希望我們很快就會看到一種綜合的多模式方法。

自監督學習是今年最重要的創新,我可以打賭明年它將會用於更多的研究。這是一個非常酷的學習線:標籤可以直接根據我們輸入的數據確定,而不是浪費時間手動標記圖像。

相關焦點

  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    當然這不是網絡上有關ML的最全集合,而且其中有一部分內容很普通。我的目標是要找到最好的有關機器學習子方向和NLP的教程。我引用了能簡潔介紹概念的基礎內容。我已經迴避包含一些大部頭書的章節,和對理解概念沒有幫助的科研論文。那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。
  • ...請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    當然這不是網絡上有關ML的最全集合,而且其中有一部分內容很普通。我的目標是要找到最好的有關機器學習子方向和NLP的教程。我引用了能簡潔介紹概念的基礎內容。我已經迴避包含一些大部頭書的章節,和對理解概念沒有幫助的科研論文。那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。
  • 200個精選ML、NLP、Python及數學最佳教程(附連結)
    [ 導讀 ]近年來,機器學習等新最新技術層出不窮,如何跟蹤最新的熱點以及最新資源,作者Robbie Allen列出了一系列相關資源教程列表,包含四個主題:機器學習,自然語言處理,Python和數學,建議大家收藏學習!
  • 乾貨 | 請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    當然這不是網絡上有關ML的最全集合,而且其中有一部分內容很普通。我的目標是要找到最好的有關機器學習子方向和NLP的教程。 我引用了能簡潔介紹概念的基礎內容。我已經迴避包含一些大部頭書的章節,和對理解概念沒有幫助的科研論文。那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。
  • 2019 年 NLP 領域都發生了哪些大事件?
    關於這份卓越的工作的總結,請參閱: https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b。
  • 人工智慧---計算機的視覺與語音技術
    進入80年代後,隨著對神經網絡的研究取得進展以及基礎設施的完善,強化學習的研究再現高潮。1983年,Barto通過強化學習使倒立擺維持了較長時間。另一位強化學習大牛Sutton也提出了強化學習的幾個主要算法,包括1984年提出的AHC算法,之後又在1988年提出TD方法。1989年,Watkins提出著名的Q-learning算法。
  • 這是一份 2018 年 AI/ML 領域年度進展總結,你準備好了嗎
    雷鋒網 AI 科技評論按,2018 年已到尾聲,今年 AI 領域也取得了很多精彩的突破。人們對 AI 的大肆宣揚和恐慌逐漸冷卻,更多地關注到具體的問題中。和往年不一樣的是,今年深度學習在很多非計算機視覺領域也取得了突破,尤其是在 NLP 領域。
  • CMU大佬分享三類優質數據集:綜合、CV和NLP
    主要包括了綜合性數據集、CV計算機視覺數據集和NLP自然語言處理數據集。 PS:以前我們也分享過一些數據集的資源,感興趣的可以在公眾號歷史文章中搜索查看,數據集系列也會持續更新。 一、綜合性機器學習數據集 1.
  • 探討計算機視覺前沿技術,加速智慧城市落地應用 | CNCC 2019
    從前幾年的概念普及,到如今在智慧城市領域的落地,計算機視覺技術正在深刻改變著整個社會的信息資源使用觀念和方式。一方面,隨著計算機視覺與模式識別理論、方法的研究進展,特別是以深度學習為代表的新一代人工智慧理論在計算機視覺與模式識別研究中的巨大成功,學界不斷提出大量、各具特色、面向各種應用的算法,極大地推動了相關技術的發展。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    據介紹,百度語義計算著力研究如何利用計算機對人類語言的語義進行表示、分析和計算,使機器具備語義理解能力。研發了包括語義表示ERNIE[5]、語義匹配SimNet、語義解析、多模態語義計算在內的多項領先語義技術。語義匹配方面,百度提出了一種基於增強學習的語義匹配框架,有效解決長文本匹配問題。
  • Facebook AI 年度總結來啦
    雷鋒網 AI 科技評論按:2019 年已經過去半個月啦,大家的年末總結和新年計劃做好了嗎?最近,Facebook 做了一份 AI 年度總結,詳述了他們過去一年在 AI 上所做的代表性工作(看到眼花)。Emmm,要是哪位同學的年度總結像 Facebook 一樣豐富多彩,相信一定發 paper、拿 offer 到手軟。
  • 五年後的計算機視覺會是什麼樣?和CV先驅們一同暢想(上) | CVPR 2019
    這幾年來,計算機視覺領域的已有問題在研究者們的努力下普遍得到了越來越好的解決,映入大家視野的新問題也越來越多。不過到了 CVPR 這個供全球計算機視覺研究者齊聚討論的盛會上,一個可能不那麼直接指導短期研究、不那麼容易形成共識問題也就自然地湧上了大家的心頭:在五到十年後的未來,計算機視覺的研究會是什麼樣子,是深度學習幾乎完全替代了目前還在使用的其他一些方法,還是我們應該期待新的革命?
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    最近,他基於十幾篇經典論文盤點了 2018 年 NLP 領域十個令人激動並具有影響力的想法,並將文章發布在 Facebook 上。雷鋒網(公眾號:雷鋒網) AI 科技評論編譯如下:今年,我發現了 十個令人激動並具有影響力的想法,並將其匯總成了這篇文章。在未來,我們可能還會對它們有更多了解。
  • 「終極收藏」AI領域你不能不關注的大牛、機構、課程、會議、圖書...
    Demis Hassabis:DeepMind創始人兼CEOChristopher Manning:史丹福大學計算機科學和語言學教授Fei-Fei Li(李飛飛):史丹福大學教授、谷歌雲AI/ML首席科學家Franois Chollet:谷歌人工智慧研究員、深度學習框架Keras 的作者Dan Jurafsky:史丹福大學計算機科學系和語言學系教授
  • 深度學習概述:NLP vs CNN
    這項技術在過去十年的時間內幾乎將其影響擴展到了所有行業。現在,每家公司都希望在其系統中實現這一尖端技術,以降低成本、節省時間,並通過自動化使整個工作流程更加高效。最初的人工智慧和深度學習算法比較簡單,就像我們所知的簡單感知器模型和單層神經網絡一樣。隨著時間的推移和更加專注的研究,我們已經擁有了具有多層結構的複雜神經網絡。
  • GANs 造假術領銜,看 2018 最具落地潛力的 9 大 AI 技術趨勢
    這三篇博客分別從 AI 研究者、產業界的應用開發人員、普通人的角度介紹了作者對於 2018 年人工智慧發展趨勢的看法。雷鋒網(公眾號:雷鋒網) AI 科技評論對原文進行了編譯。在第一篇 AI 研究趨勢的文章中我嘗試介紹了 2018 年人工智慧研究領域中可能發生重要發展的方向。
  • 量子物理基本上是一個純理論的學科,和具體的生產生活無關
    量子信息技術被稱為「量子與信息科學的雙子星」。因為量子物理基本上是一個純理論的學科,和具體的生產生活無關,所以叫量子信息科學。量子物理學是基礎,信息科學可以看做量子物理學的應用。這裡我們引入常用的2個量子信息科學的術語,即量子信息量子速率和量子信息統計量子優勢。
  • AAAI 2018 論文解讀:基於強化學習的時間行為檢測自適應模型 |...
    因此,視頻中的行為檢測技術也是當下熱點研究任務之一。本文主要介紹的就是一種比傳統視頻行為檢測方法更加有效的視頻行為檢測模型。在近期雷鋒網 GAIR 大講堂舉辦的線上公開上,來自北京大學深圳研究生院信息工程學院二年級博士生黃靖佳介紹了他們團隊在 AAAI 2018 上投稿的一篇論文,該論文中提出了一種可以自適應調整檢測窗口大小及位置的方法,能對視頻進行高效的檢測。
  • 清華大學馮珺:當強化學習遇見自然語言處理有哪些奇妙的化學反應?|...
    雷鋒網AI科技評論按:隨著強化學習在機器人和遊戲 AI 等領域的成功,該方法也引起了越來越多的關注。在近期雷鋒網GAIR大講堂上,來自清華大學計算機系的博士生馮珺,為大家介紹了如何利用強化學習技術,更好地解決自然語言處理中的兩個經典任務:關係抽取和文本分類。 本文根據視頻直播分享整理而成,內容若有疏漏,以原視頻嘉賓所講為準。
  • 【超全資源】自然語言處理(NLP)入門學習資源清單(部分資料下載)
    displaCy網站上的可視化依賴解析樹https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!