「開發者的2018」GAN、AutoML、統一框架、語音等十大趨勢

2021-01-11 新智元

【新智元導讀】本文從開發者的角度，總結了GAN、AutoML、語音識別、NLP等已經可以用於實際產品的技術，以及值得關注的新趨勢。作者認為，有ONNX這類的統一格式，Caffe Zoo等模型庫，以及AutoML等自動化工具，製作基於AI的應用已經變得非常容易。

GAN與造假

雖然生成對抗網絡幾年前就出現了，我對它是相當懷疑的。幾年過去了，即使看到GAN在生成64x64解析度的圖像方面取得了巨大的進步，我對它仍是懷疑的。在閱讀了一些數學文章之後，我更加懷疑了，因為這些文章說GAN並沒有真正了解分布。但在2017年，事情有所改變。首先，一些新的有趣的架構（例如CycleGAN）和數學上改進的架構（例如Wasserstein GAN）讓我實踐了一些GAN網絡，它們的表現一般，但在完成這兩個程序之後，我確信我們可以，並且應該使用GAN來生成東西。

首先，我非常喜歡NVIDIA的一篇關於生成全高清圖像的研究論文，生成的圖像看起來非常真實（與一年前的64x64解析度的令人毛骨悚然的人臉相比）：

還有很多GAN在遊戲行業的應用，例如用GAN生成遊戲場景，英雄乃至整個世界。而且我認為我們必須意識到全新的造假水平正在出現，例如網上的完全虛假的人物（也許很快也會出現在線下）？

神經網絡的唯一格式

現代發展的問題之一（不僅僅在AI領域）是，做同樣的事情有幾十個不同的框架可選。當前，每家做機器學習的大公司都必須擁有自己的框架：谷歌，Facebook，亞馬遜，微軟，英特爾，甚至索尼和Uber都有自己的機器學習框，以及其他許多開源解決方案。在一個AI應用程式中，我們希望使用不同的框架，例如計算機視覺方面用Caffe2，NLP用PyTorch於一些推薦系統用Tensorflow / Keras。但是將這些應用合併起來需要花費大量的開發時間。

解決方案是開發一個唯一的神經網絡格式，它可以很容易地從任何框架中獲得，而且必須讓開發者可以輕鬆部署，讓科學家可以輕鬆使用。這就是ONNX：

事實上，ONNX只是一個非循環計算圖表的簡單格式，但在實踐中它讓我們得以部署複雜的AI解決方案，而且我個人認為它非常有吸引力——人們可以在PyTorch這樣的框架中開發神經網絡，它沒有強大的部署工具，而且不依賴Tensorflow生態系統。

Zoo大爆炸

三年前，人工智慧領域最讓人興奮的是Caffe Zoo。當時我正在做計算機視覺方面的工作，我嘗試了所有模型，檢查它們如何工作以及它們能做什麼。然後，我將這些模型用於遷移學習或特徵提取器。最近我使用了兩種不同的開源模型，只是作為一個大型計算機視覺流程的一部分。這意味著什麼呢？意味著開發者實際上沒有必要自己訓練網絡，例如，訓練ImageNet的對象識別或位置識別網絡，這些基本的東西都可以下載然後插入到你的系統即可。除了Caffe Zoo之外，其他框架也有這樣的Zoo，但是讓我非常驚訝的是，你可以在計算機視覺，NLP甚至是iPhone的加速度計信號處理插入模型。

我認為這類Zoo只會越來越多，並且由於ONNX這樣的生態系統的出現，它們會更加集中（也會使用ML區塊鏈應用來去中心化）。

AutoML替代pipeline

設計一個神經網絡的體系結構是一件痛苦的事情，有時侯只是堆疊一些卷積層就能得到相當好的結果，但是大多數時候，你需要利用直覺和超參數搜索方法（例如隨機搜索或貝葉斯優化）非常仔細地設計寬度，深度和超參數。如果不是計算機視覺方面的工作會尤其難，計算機視覺的話你可以微調在ImageNet上訓練的DenseNet，但是一些3D數據分類或者多變量時間序列應用就很難。

使用另一個神經網絡從頭開始創建神經網絡架構的方法有很多，但對我來說最友好、最清潔的是Google Research最新開發的AutoML：

用AutoML生成的計算機視覺模型比人類設計的網絡工作得更好、更快！我相信很快就會出現很多關於這個話題的論文和開原始碼。我認為我們會看到更多的博客文章或創業公司，說「我們的AI創造了學習其他AI的AI...」，而不是「我們已經開發了一個AI ...」。

形式化 intelligence stack

對於這個概念，我在Anatoly Levenchuk的博客上看了很多。在下面的圖片中，你可以看到一個可以稱為「AI stack」的例子：

它不僅僅包括機器學習算法和你喜歡的框架，而且它的層更深，每個層都有自己的發展和研究。

我認為AI開發行業已經足夠成熟，有許多不同領域的專家。你的團隊中只有一名數據科學家是遠遠不夠的——你需要不同的人員做硬體優化，神經網絡研究，AI編譯器，解決方案優化，生產實施等等。在他們之上必須有不同的團隊領導，有軟體架構師（必須分別為每個問題設計上面的stack）和管理者。

基於語音的應用

如果把準確度設為95%以上，AI可以解決的問題就很少：識別1000個類別的圖像，識別文本是積極還是消極情緒，以及圍繞圖像識別和文本識別的更複雜的一些事情。我認為還有一個領域，即語音識別和生成。事實上，一年前DeepMind發布的WaveNet的表現相當不錯，而且現在還有百度的DeepVoice 3，以及最近谷歌開發的Tacotron2：

這一技術很快會開源（或者被一些聰明人複製），並且每個人都能夠以非常高的精度識別語音以及生成語音。那麼等待我們的是什麼呢？是更聰明的私人助理，自動閱讀器和自動轉錄工具，以及，假冒的聲音。

更聰明的bot

今天的所有bot都有一個很大的問題：99％根本不是AI，只是硬編碼。因為我們沒法簡單地用數百萬次對話數據來訓練一個encoder-decoder LSTM，然後就得到智能系統了。這就是為什麼Facebook Messenger或Telegram中的大多數bot都只有硬編碼的命令的原因，或者最多還有一些基於LSTM和word2vec的句子分類神經網絡。但現在最先進的NLP技術已經超出這個水平。例如Salesforce已經做了一些有趣的研究，他們構建了NLP和資料庫的接口，克服現代 encoder-decoder 自回歸模型的局限，不僅為文字或句子訓練嵌入，而且包括字符（characters）。

我相信伴隨著這些發展，我們至少可以用更智能的信息檢索和命名實體識別來增強bot的能力，以及在一些封閉的領域開發完全深度學習驅動的bot。

時間序列分析

前不久，Uber AI Lab發表了一篇博客，展示了他們的時間序列預測方法。這是將統計特徵和深度學習表示相結合的好例子：

例如使用34-layer 1D ResNet診斷心律失常的模型。它最酷的部分是性能：不僅比常見的統計模型更好，甚至診斷準確率優於專業心臟病專家！

內嵌函數之外的優化

如何訓練神經網絡？說實話，我們大多數人只是使用一些「Adam()」和標準的學習率。更聰明的人會選擇最合適的優化器，並調整學習率。我們總是低估優化，因為我們只需按下「train」按鈕，然後等待網絡收斂。但是在計算能力，內存和開解決方案方面，我們都擁有或多或少的平等機會，優勝者是那些能夠用最短時間獲得最佳性能的——這一切都來源於優化。

炒作放緩

來源：cdn.aiindex.org/2017-report.pdf

上圖說明了什麼呢？考慮到已經發布的開源工具和算法有多少，開發一些新的有價值的東西並且為之獲得大量資金並不容易。我認為2018年對於創業公司來說不是最好的一年——競爭對手會更多，把開源的網絡作為行動應用程式來部署，也可以稱之為創業公司。

結論

有幾種技術已經可以用於實際產品：時間序列分析，GAN，語音識別，以及NLP的一些進步。我們不需要自己設計分類或回歸的基本體系結構，因為AutoML能夠幫我們做這些事情了。我希望通過一些優化改進，AutoML能夠更快。加上ONNX和Model Zoo，只需兩行代碼就能為我們的app加入基本的模型。我認為至少在目前最先進的水平上，製作基於AI的應用程式已經變得非常容易，這對整個行業來說都是好事！

原文：https://medium.com/swlh/ai-in-2018-for-developers-2f01250d17c

相關焦點

從「帶屏音箱」到「智能屏」,小度在家的兩年進化史

在音箱逐步向家庭滲透的過程中，一個重要的趨勢不可忽視，那就是越來越多的用戶已經不再把帶屏音箱當作智能音箱去使用。顯然，如今再把帶屏音箱歸屬到音箱品類已不合時宜。以小度為代表的賽道玩家，經歷了這一新物種從摸索到確立的完整過程。最新發布的旗艦級產品小度在家智能屏 X8，重新定義了「帶屏音箱」，並開啟了「智能屏」時代。
Gartner預測2019年十大「數據和分析技術」趨勢:增強型分析成為...

增強型數據分析，增強型數據管理，持續型智能，可解釋的 AI，數據結構，NLP/對話式分析，商業 AI 和 ML，區塊鏈和持久性內存伺服器共同構成了 Gartner 2019 年十大「數據和分析技術趨勢」。最近兩天裡，2 月 18 日-19 日，在雪梨舉行的 Gartner 數據與分析峰會上，增強型數據分析和可解釋的人工智慧成為焦點。
【新科技創業2018】從To C到To B ,「奇點機智」推「對話流...

產品方面，公司已於2018年推出語音對話平臺 To B 產品「對話流」，經歷了由 To C 語音助手向 To B對話平臺的轉型。基於自主研發的語音識別、自然語言理解、深度學習技術，對話流能夠為企業內部服務、客服、應用助手、聊天機器人等產品創建即時可用的智能對話體驗，可集成於WEB、APP、小程序、微信公眾號、智能硬體等終端。
2018 年度人工智慧熱門事件大盤點:「悲喜交加」

以下 AI 科技評論就帶領讀者們回顧一下 2018 人工智慧領域的發展情況以及熱點事件。如果用「高歌猛進」來作為人工智慧 2017 年發展的形容詞，那它在 2018 年的發展則可稱得上是「悲喜交加」了。
2020,穿山甲要幫遊戲開發者重新定義「變現」

在業務的大幅增長之下，穿山甲宣布品牌升級，定位「全球開發者成長平臺」。我在此次活動中，重點聽了主辦方在遊戲分會場中的分享。穿山甲的海外遊戲商務負責人鍾樂揭示了另一個核心數據：去年8月到今年8月，穿山甲給遊戲開發者的分成提升了230%。我相信，開發者能從廣告平臺這裡實現收入增長，一定有「宅經濟」的助推。不過，穿山甲對此則有另一種觀察角度：將挑戰轉變為機遇。
ODC19開發者服務論壇丨「引力計劃2.0」助力提升移動服務

以快應用開發為例，目前開發流程已支持統一前端框架，並為開發者建立了線上運行監控系統。快應用建站工具零門檻使用，由圖片/文字/表單組建製作和適配，開發者1分鐘就能生成快應用，讓開發效率迅速提升。不僅如此，快應用還能夠進入全局搜索、負一屏和Breeno語音等分發場景，讓快應用在基於以上場景搭建的OPPO智慧服務，觸達OPPO億級日活用戶。同時，OPPO智慧服務輻射手機、家居大屏、車載等多終端場景，讓快應用開發者享受流量扶持、一鍵接入分發、VIP專人服務等權益。
谷歌AutoML新進展,進化算法加持,僅用數學運算自動找出ML算法

2018 年 3 月，谷歌大腦團隊即進行相關研究，使用進化的 AutoML 來發現神經網絡架構。如今，谷歌將這項研究進一步擴展，證明從零開始進化 ML 算法是有可能的。相關研究被 ICML 2020 接收，這項研究出自谷歌大腦團隊 Quoc V. Le 等學者之手。
SegmentFault 發布「 2020 最受開發者歡迎的技術活動」,七牛雲連...

【天極網IT新聞頻道】近日，中國領先的新一代開發者社區 SegmentFault 思否陸續發布《2020 中國技術品牌影響力企業 30 強》，《中國開源先鋒 33 人之心尖上的開源人物》，《2020 最受開發者歡迎的技術活動》榜單，七牛雲公司、CEO 許式偉、以及技術活動 ECUG Con 獲得 3 項榮譽。
「洋娃娃」的臺語怎麼說?

這幾年大家對臺語的興趣似乎有升高的趨勢，實在可以說是一則以喜、一則以憂，喜的是臺語能見度跟引起興趣討論的熱能未減，憂的是許多日常詞彙似乎已漸漸將淡出我們的生活圈，該如何尋回、並重新介紹給大家認識呢？
小米、OPPO等十大手機廠商聯手的「快應用」,為什麼註定會失敗?

招股書中，玩咖歡聚提到，「利用我們與硬核聯盟成員建立了戰略性關係，我們取得獨特優勢，可利用廣大的智慧型手機用戶群。我們與硬核聯盟成員之間的關係亦給予我們可為廣告主提供穩定的分發渠道來源。同時，硬核聯盟所建立的大型用戶基礎令我們有可能統一快應用的開發及分發標準。」
CVPR 2018 中國論文分享會之「GAN 與合成」

雷鋒網 AI 科技評論按：2018 年 5 月 11 日，由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會，數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
智聚臨港,合啟未來,2020上海臨港人工智慧開發者大會成功舉行

本次大會先後舉行了消弭「數字鴻溝」倡議儀式、上海市第二批人工智慧創新中心授牌、BPAA全球算法最佳實踐典範大賽啟動、臨港人工智慧專項政策2.0解讀、「WAIC 開發者生態-優秀開發者認證計劃」頒獎、2020全球AI技術趨勢發展演進報告等一系列發布儀式。
這些細節可不是在「捕風捉影」

距離上次「Google 重新入華」的消息傳出已經過去一個多月時間，「極客公園」也在第一時間採訪了事件的相關當事人。昨日，多方消息均顯示 Google 重回大陸的好事將近，而這一次，Google 要帶來的似乎遠不止 Google Play。一個月時間，Google 拆掉了哪些「牆」？
迎來PyTorch,告別 Theano,2017 深度學習框架發展大盤點

年初發布 PyTorch 時，Facebook 曾表示，「它有望輔助、或在一定程度上替代現有的 Python 數學庫（比如 NumPy）。」目前來看，PyTorch 的使用越來越廣泛，這一預言成為現實。在眾多開發者眼中，PyTorch 是 TensorFlow 之外一個非常好的選擇。
2018 年最棒的三篇 GAN 論文

「What are best papers regarding GANs for 2018 you read?」受 Reddit 網站上「What are best papers regarding GANs for 2018 you read?」
車載語音越來越好用了,原來背後有這些原因

現在來看，這些基礎能力正變得更強，基本可以稱得上是一個「有價值的工具」。所以現在的車載語音還將觸手伸向了更多領域： 1. 將語音和軟體功能結合。比如和作業系統結合，和地圖導航結合，和車機上所有的應用生態結合，和市面上主流的 Feed 流結合。舉個例子，你可以說「屏幕亮一點」，「回到主頁」，「打開 XX 地圖」，「我想聽周杰倫的歌」，「搜索附近的充電站」，「蘋果今天的股價是多少」，「林則徐是誰」等等。
超越PyTorch 和 TensorFlow,這個國產框架有點東西

他的想法很簡單，又很複雜，要做一款「開發者愛用」的產品。一群天才+21個月，OneFlow初版上線2017年 1月，袁進輝成立一流科技，召集了 30多位工程師，開啟了 OneFlow的正式「團戰」。儘管大家對困難已經做了充分預估，但是隨著開發的逐漸深入，湧現的重重困難還是出乎的團隊的意料。
機器之心年度盤點:2018年重大研究與開源項目

因此在 2018 年中，使用預訓練語言模型可能是 NLP 領域最顯著的趨勢，它可以利用從無監督文本中學習到的「語言知識」，並遷移到各種 NLP 任務中。這些預訓練模型有很多，包括 ELMo、ULMFiT、OpenAI Transformer 和 BERT，其中又以 BERT 最具代表性，它在 11 項 NLP 任務中都獲得當時最佳的性能。
NumPy、AI基礎設施可微分編程、技術實踐,這是一場開發者的盛會

在 WAIC 2019 開發者日的主單元環節，機器之心邀請到了賈揚清為開發者們做精彩分享，他的分享主題為「Lessons from building a research to product AI infrastructure」。賈揚清，現任阿里巴巴計算平臺事業部總裁，阿里巴巴集團副總裁。
讓車燈「說話」,汽車的下一個交互入口?

發展歷程中最令人著迷的領域之一是汽車照明的創新，它不僅是一輛車的「眼睛」，有時候它甚至決定這一輛車的性格、辨識度等等特性的關鍵要素。但如今，儘管汽車行業不斷的湧現前瞻思考，不少從業者卻認為汽車照明創新的「黃金時代」已經過去。

「開發者的2018」GAN、AutoML、統一框架、語音等十大趨勢

相關焦點

從「帶屏音箱」到「智能屏」,小度在家的兩年進化史

Gartner預測2019年十大「數據和分析技術」趨勢:增強型分析成為...

【新科技創業2018】從To C到To B ,「奇點機智」推「對話流...

2018 年度人工智慧熱門事件大盤點:「悲喜交加」

2020,穿山甲要幫遊戲開發者重新定義「變現」

ODC19開發者服務論壇丨「引力計劃2.0」助力提升移動服務

谷歌AutoML新進展,進化算法加持,僅用數學運算自動找出ML算法

SegmentFault 發布「 2020 最受開發者歡迎的技術活動」,七牛雲連...

「洋娃娃」的臺語怎麼說?

小米、OPPO等十大手機廠商聯手的「快應用」,為什麼註定會失敗?

CVPR 2018 中國論文分享會之 「GAN 與合成」

智聚臨港,合啟未來,2020上海臨港人工智慧開發者大會成功舉行

這些細節可不是在「捕風捉影」

迎來PyTorch,告別 Theano,2017 深度學習框架發展大盤點

2018 年最棒的三篇 GAN 論文

車載語音越來越好用了,原來背後有這些原因

超越PyTorch 和 TensorFlow,這個國產框架有點東西

機器之心年度盤點:2018年重大研究與開源項目

NumPy、AI基礎設施可微分編程、技術實踐,這是一場開發者的盛會

讓車燈「說話」,汽車的下一個交互入口?

CVPR 2018 中國論文分享會之「GAN 與合成」