1、簡介:
過去幾年一直是人工智慧愛好者和機器學習專業人士最幸福的時光。因為這些技術已經發展成為主流,並且正在影響著數百萬人的生活。各國現在都有專門的人工智慧規劃和預算,以確保在這場比賽中保持優勢。
數據科學從業人員也是如此,這個領域正在發生很多事情,你必須要跑的足夠的快才能跟上時代步伐。回顧歷史,展望未來一直是我們尋找方向的最佳方法。
這也是我為什麼想從數據科學從業者的角度退一步看一下人工智慧的一些關鍵領域的發展,它們突破了什麼?2018年發生了什麼?2019年會發生什麼?
我將在本文中介紹自然語言處理(NLP)、計算機視覺、工具庫、強化學習、走向合乎正道的人工智慧
2、自然語言處理(NLP)
讓機器分析單詞和句子似乎是一個夢想,就算我們人類有時候也很難掌握語言的細微差別,但2018年確實是NLP的分水嶺。
我們看到了一個又一個顯著的突破:ULMFiT、ELMO、OpenAI的Transformer和Google的BERT等等。遷移學習(能夠將預訓練模型應用於數據的藝術)成功應用於NLP任務,為無限可能的應用打開了大門。讓我們更詳細地看一下這些關鍵技術的發展。
ULMFiT
ULMFiT由Sebastian Ruder和fast.ai的Jeremy Howard設計,它是第一個在今年啟動的NLP遷移學習框架。對於沒有經驗的人來說,它代表通用語言的微調模型。Jeremy和Sebastian讓ULMFiT真正配得上Universal這個詞,該框架幾乎可以應用於任何NLP任務!
想知道對於ULMFiT的最佳部分以及即將看到的後續框架嗎?事實上你不需要從頭開始訓練模型!研究人員在這方面做了很多努力,以至於你可以學習並將其應用到自己的項目中。ULMFiT可以應用六個文本分類任務中,而且結果要比現在最先進的方法要好。
你可以閱讀Prateek Joshi關於如何開始使用ULMFiT以解決任何文本分類問題的優秀教程。
ELMO
猜一下ELMo代表著什麼嗎?它是語言模型嵌入的簡稱,是不是很有創意? ELMo一發布就引起了ML社區的關注。
ELMo使用語言模型來獲取每個單詞的嵌入,同時還考慮其中單詞是否適合句子或段落的上下文。上下文是NLP的一個重要領域,大多數人以前對上下文都沒有很好的處理方法。ELMo使用雙向LSTM來創建嵌入,如果你聽不懂-請參考這篇文章,它可以讓你很要的了解LSTM是什麼以及它們是如何工作的。
與ULMFiT一樣,ELMo顯著提高了各種NLP任務的性能,如情緒分析和問答,在這裡了解更多相關信息。
BERT
不少專家聲稱BERT的發布標誌著NLP的新時代。繼ULMFiT和ELMo之後,BERT憑藉其性能真正擊敗了競爭對手。正如原論文所述,「BERT在概念上更簡單且更強大」。BERT在11個NLP任務中獲得了最先進的結果,在SQuAD基準測試中查看他們的結果:
有興趣入門嗎?你可以使用PyTorch實現或Google的TensorFlow代碼嘗試在自己的計算機上得出結果。
我很確定你想知道BERT代表什麼,它實際上是Transformers的雙向編碼器表示,如果你能夠領悟到這些,那很不錯了。
PyText
Facebook開源了深度學習NLP框架PyText,它在不久之前發布,但我仍然要測試它,但就早期的評論來說非常有希望。根據FB發表的研究,PyText使會話模型的準確性提高了10%,並且縮短了訓練時間。
PyText實際上落後於Facebook其他一些產品,如FB Messenger。如果你對此有興趣。你可以通過GitHub下載代碼來自行嘗試。
2019年NLP趨勢:
塞巴斯蒂安·羅德講述了NLP在2019年的發展方向,以下是他的想法:
預訓練的語言模型嵌入將無處不在,不使用它們的模型將是罕見的。我們將看到可以編碼專門信息的預訓練模型,這些信息是對語言模型嵌入的補充。我們將看到有關多語言應用程式和跨語言模型的成果。特別是,在跨語言嵌入的基礎上,我們將看到深度預訓練的跨語言表示的出現。3、計算機視覺
這是現在深度學習中最受歡迎的領域,我覺得我們已經完全獲取了計算機視覺中容易實現的目標。無論是圖像還是視頻,我們都看到了大量的框架和庫,這使得計算機視覺任務變得輕而易舉。
我們今年在Analytics Vidhya花了很多時間研究這些概念的普通化。你可以在這裡查看我們的計算機視覺特定文章,涵蓋從視頻和圖像中的對象檢測到預訓練模型列表的相關文章,以開始你的深度學習之旅。
以下是我今年在CV中看到的最佳開發項目:
如果你對這個美妙的領域感到好奇,那麼請繼續使用我們的「使用深度學習的計算機視覺」課程開始你的旅程。
BigGAN的發布
在2014年,Ian Goodfellow設計了GAN,這個概念產生了多種多樣的應用程式。年復一年,我們看到原始概念為了適應實際用例正在慢慢調整,直到今年,仍然存在一個共識:機器生成的圖像相當容易被發現。
但最近幾個月,這個現象已經開始改變。或許隨著BigGAN的創建,該現象或許可以徹底消失,以下是用此方法生成的圖像:
除非你拿顯微鏡看,否則你將看不出來上面的圖片有任何問題。毫無疑問GAN正在改變我們對數字圖像(和視頻)的感知方式。
Fast.ai的模型18分鐘內在ImageNet上被訓練
這是一個非常酷的方向:大家普遍認為需要大量數據以及大量計算資源來執行適當的深度學習任務,包括在ImageNet數據集上從頭開始訓練模型。我理解這種看法,大多數人都認為在之前也是如此,但我想我們之前都可能理解錯了。
Fast.ai的模型在18分鐘內達到了93%的準確率,他們使用的硬體48個NVIDIA V100 GPU,他們使用fastai和PyTorch庫構建了算法。
所有的這些放在一起的總成本僅為40美元! 傑裡米在這裡更詳細地描述了他們的方法,包括技術。這是屬於每個人的勝利!
NVIDIA的vid2vid技術
在過去的4-5年裡,圖像處理已經實現了跨越式發展,但視頻呢?事實證明,將方法從靜態框架轉換為動態框架比大多數人想像的要困難一些。你能拍攝視頻序列並預測下一幀會發生什麼嗎?答案是不能!
NVIDIA決定在今年之前開源他們的方法,他們的vid2vid方法的目標是從給定的輸入視頻學習映射函數,以產生輸出視頻,該視頻以令人難以置信的精度預測輸入視頻的內容。
你可以在這裡的GitHub上試用他們的PyTorch實現。
2019年計算機視覺的趨勢:
就像我之前提到的那樣,在2019年可能看到是改進而不是發明。例如自動駕駛汽車、面部識別算法、虛擬實境算法優化等。就個人而言,我希望看到很多研究在實際場景中實施,像CVPR和ICML這樣的會議描繪的這個領域的最新成果,但這些項目在現實中的使用有多接近?
視覺問答和視覺對話系統最終可能很快就會如他們期盼的那樣首次亮相。雖然這些系統缺乏概括的能力,但希望我們很快就會看到一種綜合的多模式方法。
自監督學習是今年最重要的創新,我可以打賭明年它將會用於更多的研究。這是一個非常酷的學習線:標籤可以直接根據我們輸入的數據確定,而不是浪費時間手動標記圖像。