譯者:AI研習社(Champagne Jin)
雙語原文連結:https://www.yanxishe.com/TextTranslation/2999
數據科學可能是一個年輕的領域,但這並不意味著你不期待了解某些相關主題。本文涵蓋了最近幾個極為重要的發展以及頗有影響力的理論片段。
這些論文所涉及的主題包括:編制數據科學工作流、輕量化神經網絡的突破、重新思考使用統計學解決問題的基本方法。對每篇論文,我都給出了將其思想應用到自己手頭工作上的一些想法。
這是由谷歌研究院團隊傾情奉獻(2015年NeurIPS),當我們需要設置自己的數據科學工作流時,我們可以從該論文中學習到多個避免反模式的明確方案。(所謂反模式,就是讓系統逐漸惡化的典型場景)
via DataBricks. (譯者註:你瞅瞅這圖,機器學習在最終的系統中看起來不過是滄海一粟)
下一篇將要介紹的論文裡會更詳盡地探討這個問題,構建機器學習產品是軟體工程的一個高度專業化的子集,因此從軟體工程這個學科中吸取的許多經驗教訓應用於數據科學也是很有意義的。
那麼究竟該怎麼做呢?不妨試試論文中專家談到的實用技巧來簡化你的開發和生產。
這篇來自於Andrej Karpathy的優質博文闡明了機器學習模型是基於數據進行編程的軟體應用程式之範例。
如果數據科學是軟體,那麼我們到底要朝著什麼方向發展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個問題。
數據產品代表了機器學習項目的運作化階段。圖源:Noémi Macavei-Katócz on Unsplash.
那麼如何使用呢?多讀讀數據產品適應模型選擇過程的相關文章吧。
Something something something ーー bert: 語言理解的深度雙向轉換器的預訓練
這篇論文中,來自谷歌研究院的團隊提出了一種全新的自然語言處理(NLP)模型,該模型的出現堪稱機器文本分析能力的階梯式增長。
In this paper, a team from Google Research (and you) has come up with a new natural language processing (NLP) model that represents a step-by-step increase in machine text analysis capabilities.
對於為何BERT能夠恐怖如斯仍有不少爭議,不過這也提醒了我們,機器學習領域可能已經發現了一些成功的方法,但可惜我們卻沒有完全理解它們是如何工作的。與大自然一樣,人工神經網絡也充滿神秘感。
There’s a lot of debate about why Bert is so scary, but it’s also a reminder that the field of machine learning may have found some successful methods, but we don’t fully understand how they work. Like nature, artificial neural networks are full of mystery.
(此處為一段YouTube視頻,?:在這個歡快的問答片段中,諾德斯特龍數據科學主任解釋了人工神經網絡是如何從自然中獲得靈感的。)
(in a YouTube video, the director of data science at Nordstrom explains how artificial neural networks are inspired by nature in this hilarious Q & a clip.)
具體該怎麼入手呢?
How do you get started?
誠然,NLP模型正在越變越大(你看,GPT-3的參數量達到了恐怖如斯的1750億!),不過也有一些研究人員偏愛「倒行逆施」,他們的目標是開發更小、更快、更高效的神經網絡。這些網絡能夠確保其更快的運行速度,更低的訓練成本以及對於計算資源的更少需求。
在這篇具有開創性意義的論文中,機器學習小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網絡,這些子網絡可以達到堪比原始超大型神經網絡的性能。
圖源:Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis》
彩票(lottery ticket)是指剪枝策略與有效的初始權重之間的聯繫(這可不就跟刮彩票一樣嘛)。神經網絡剪枝這一發明在存儲空間、運行時間和計算性能方面提供了諸多優勢,並贏得了ICLR 2019年度最佳論文獎。在此基礎上所進行的進一步研究證明了該方法的適用性,甚至將其應用於原本就很稀疏的網絡中。
具體怎麼操作呢?
再來點加餐:
經典的假設檢驗會導致過度的確定性,並產生了通過統計方法來確定原因的錯誤想法。(更多內容)
假設檢驗在計算機出現之前就被廣泛使用。考慮到這種方法所帶來的深刻挑戰(例如,即使是統計學家也發現要解釋p值幾乎是不可能的),也許是時候考慮其他方法了,比如某種程度上的精確結果測試(SPOT)。
「顯著性」via xkcd
怎麼辦呢?
AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。
如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。