5篇必讀的數據科學論文(以及如何使用它們)

2020-12-04 雷鋒網

譯者:AI研習社(Champagne Jin

雙語原文連結:https://www.yanxishe.com/TextTranslation/2999


數據科學可能是一個年輕的領域,但這並不意味著你不期待了解某些相關主題。本文涵蓋了最近幾個極為重要的發展以及頗有影響力的理論片段。

這些論文所涉及的主題包括:編制數據科學工作流輕量化神經網絡的突破重新思考使用統計學解決問題的基本方法。對每篇論文,我都給出了將其思想應用到自己手頭工作上的一些想法。

這是由谷歌研究院團隊傾情奉獻(2015年NeurIPS),當我們需要設置自己的數據科學工作流時,我們可以從該論文中學習到多個避免反模式的明確方案。(所謂反模式,就是讓系統逐漸惡化的典型場景)

via DataBricks. (譯者註:你瞅瞅這圖,機器學習在最終的系統中看起來不過是滄海一粟)

下一篇將要介紹的論文裡會更詳盡地探討這個問題,構建機器學習產品是軟體工程的一個高度專業化的子集,因此從軟體工程這個學科中吸取的許多經驗教訓應用於數據科學也是很有意義的。  

那麼究竟該怎麼做呢?不妨試試論文中專家談到的實用技巧來簡化你的開發和生產。 

這篇來自於Andrej Karpathy的優質博文闡明了機器學習模型是基於數據進行編程的軟體應用程式之範例。

如果數據科學是軟體,那麼我們到底要朝著什麼方向發展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個問題。 

數據產品代表了機器學習項目的運作化階段。圖源:Noémi Macavei-Katócz on Unsplash.

那麼如何使用呢?多讀讀數據產品適應模型選擇過程的相關文章吧。

Something something something ーー bert: 語言理解的深度雙向轉換器的預訓練

這篇論文中,來自谷歌研究院的團隊提出了一種全新的自然語言處理(NLP)模型,該模型的出現堪稱機器文本分析能力的階梯式增長。

In this paper, a team from Google Research (and you) has come up with a new natural language processing (NLP) model that represents a step-by-step increase in machine text analysis capabilities.

對於為何BERT能夠恐怖如斯仍有不少爭議,不過這也提醒了我們,機器學習領域可能已經發現了一些成功的方法,但可惜我們卻沒有完全理解它們是如何工作的。與大自然一樣,人工神經網絡也充滿神秘感。

There’s a lot of debate about why Bert is so scary, but it’s also a reminder that the field of machine learning may have found some successful methods, but we don’t fully understand how they work. Like nature, artificial neural networks are full of mystery.

(此處為一段YouTube視頻,?‍:在這個歡快的問答片段中,諾德斯特龍數據科學主任解釋了人工神經網絡是如何從自然中獲得靈感的。)

(in a YouTube video, the director of data science at Nordstrom explains how artificial neural networks are inspired by nature in this hilarious Q & a clip.)

具體該怎麼入手呢?

How do you get started?

誠然,NLP模型正在越變越大(你看,GPT-3的參數量達到了恐怖如斯的1750億!),不過也有一些研究人員偏愛「倒行逆施」,他們的目標是開發更小、更快、更高效的神經網絡。這些網絡能夠確保其更快的運行速度,更低的訓練成本以及對於計算資源的更少需求。

在這篇具有開創性意義的論文中,機器學習小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網絡,這些子網絡可以達到堪比原始超大型神經網絡的性能。

  圖源:Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis》

彩票(lottery ticket)是指剪枝策略與有效的初始權重之間的聯繫(這可不就跟刮彩票一樣嘛)。神經網絡剪枝這一發明在存儲空間、運行時間和計算性能方面提供了諸多優勢,並贏得了ICLR 2019年度最佳論文獎。在此基礎上所進行的進一步研究證明了該方法的適用性,甚至將其應用於原本就很稀疏的網絡中。

具體怎麼操作呢?

再來點加餐:

經典的假設檢驗會導致過度的確定性,並產生了通過統計方法來確定原因的錯誤想法。(更多內容)

假設檢驗在計算機出現之前就被廣泛使用。考慮到這種方法所帶來的深刻挑戰(例如,即使是統計學家也發現要解釋p值幾乎是不可能的),也許是時候考慮其他方法了,比如某種程度上的精確結果測試(SPOT)。

「顯著性」via xkcd

怎麼辦呢?


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AI專家們推薦的13篇「必讀」論文
    我們在一月份的時候就和Jeff談過,當時他不能只選一篇論文作為必讀,所以我們讓他選了兩篇。下面列出這兩篇論文。Learning to Reinforcement Learn(2016)--Jane X Wang et al.本文解讀了兩個關鍵的討論點,即稀疏訓練數據的局限性,以及循環網絡是否能在完全監督的情況下支持元學習。
  • AI專家們推薦的「必讀」論文
    我們之前寫了一篇文章,向大家推薦了一些AI必讀論文,引起很好的反響。現在,我們推出了第二篇文章。這次推薦的論文依然是分量十足、誠意滿滿,各位推薦者都認為自己推薦的論文是AI人員必讀的經典之作,不知各位讀者怎麼看。現在,我們來看看這次入選的是哪些論文吧!不過在這之前,我還是向您推薦我們之前的那一篇文章,那篇文章也絕對值得一讀。
  • 網絡表示學習領域(NRL/NE)必讀論文匯總
    這份清單共包含 5 篇綜述論文和 64 篇會議期刊論文。同時兩位研究者在 GitHub 上發布了 NE / NERL 的開源工具包 OpenNE。該庫提供了標準的 NE / NRL(網絡表示學習)培訓和測試框架,目前在 OpenNE 中實現的模型包括 DeepWalk,LINE,node2vec,GraRep,TADW 和 GCN。
  • 2018年最具影響力的20篇數據科學研究論文,盤它!
    吳恩達提到,他經常隨身攜帶一個裝滿研究論文的文件夾,利用搭車的空閒時間研究論文。Daniel Gutierrez因此建議,不管是數據科學從業者還是研究者,都可以準備一個論文文件夾來裝一些論文,就像吳恩達建議的:如果你每周閱讀幾篇論文(部分論文可以泛讀),一年後你就閱讀了100多篇論文,足夠比較深入地了解一個新領域。
  • 他發了183篇偽造數據論文:史上最大科學造假者如何被發現
    在被統計學家「抓住」前,日本東邦大學副教授、麻醉醫生藤井善隆發表於國內外學術雜誌上的兩百餘篇論文中,183篇涉及偽造數據而藤井善隆的論文合著者中,有人根本沒有從事過相關研究,有人甚至根本不知道有論文的存在。2000年,《麻醉與鎮痛學報》(Anesthesia & Analgesia)上發表了彼得·克蘭克的一篇致《學報》編輯信,認為藤井善隆的數據太過完美。《學報》把這封信同藤井的解釋一同發表。此後,藤井又在《學報》上發表了11篇論文。
  • 問題軟體毀了5篇論文
    本報訊 2006年12月22日出版的美國《科學》雜誌,刊登了美國斯克裡普斯研究所蛋白質結晶學家Geoffrey Chang和5位共同作者的一篇請求撤銷發表在《科學》上的3篇論文的信,其中1篇論文發表於2001年,另外兩篇論文發表於2005年。
  • 從4710萬論文大數據,看科學概念如何演化和傳播?
    然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。
  • 關於決策的書籍推薦,這本書科學決策必讀
    關於決策的書籍,我只推薦《決策必讀12篇》。《決策必讀12篇》絕對是我看過的最好的決策書籍,沒有之一。為什麼這麼說呢?首先,這本書是一本真正聚焦決策的書,裡面全是關於如何做好決策和科學決策的乾貨,沒有摻雜任何其他內容,是一本非常純粹的決策書籍。
  • 如何寫好綜述論文?Nature分享5大要領
    它們可以提供一個領域的歷史背景,以及關於該領域未來發展的個人看法。同時,撰寫這類文章可以為自己的研究提供靈感,還可以做一些寫作練習。不過,很少有科學家接受過如何寫綜述類論文的訓練,或者不知道一篇優秀的綜述文章是怎樣構成的。甚至選擇要使用的合適軟體也是一個棘手的決定。
  • 如何寫好綜述論文?Nature分享5大要領
    馮維維 | 編譯 綜述類論文是科學家的重要資源。它們可以提供一個領域的歷史背景,以及關於該領域未來發展的個人看法。同時,撰寫這類文章可以為自己的研究提供靈感,還可以做一些寫作練習。
  • 如何閱讀論文
    這些重點可以是將你(期望看到)的結果與作者提出的結果進行比較,將你自己的分析置於上下文中,或者使用新發布的數據對其進行擴展等。引文列表可以幫助你決定為什麼這篇論文與你最相關,給你一個第一印象,讓你知道和你做過類似研究的研究者是如何使用這篇論文的。——Cecilia Tubiana如果我的目標是抓住要點,我會閱讀摘要,跳到圖表並瀏覽討論部分的要點。
  • 10本機器學習和數據科學的必讀書籍推薦
    雷鋒網按:Matthew Mayo 是知名數據科學網站 KDnuggets 的副主編,同時也是一位資深的數據科學家、深度學習技術愛好者,在機器學習和數據科學領域具有豐富的科研和從業經驗。近日,他在 KDnuggets 上推薦了一份機器學習和數據科學相關的免費必讀書單,雷鋒網特來與大家分享。
  • 45篇SCI論文爆雷?天津醫大一課題組論文被指涉嫌圖片重複使用問題
    以下為Elisabeth Bik帖子內容譯文:本周,我研究了天津醫科大學天津生命科學研究中心一個研究小組的大量論文。該小組由Hua Tang博士領導,得到了國家自然科學基金的多項資助,共發表了113篇PubMed索引論文。
  • 年度必讀:2018最具突破性人工智慧論文Top 10
    概要總結 這篇論文建議使用預訓練的模型來解決廣泛的NLP問題。使用這種方法,你不需要從頭開始訓練模型,只需要對原始模型進行微調。他們的方法稱為通用語言模型微調(ULMFiT),其性能優於最先進的結果,誤差降低了18-24%。
  • 機器學習必讀TOP100論文高引用清單
    網絡第一層的特徵並非特定於某一數據集或者某一任務,而是通用的特徵,它們適用於許多數據集和普遍的任務。在較深的模型層,特徵會從通用的特徵逐漸轉換為更專業的特徵(和任務、數據集緊密相關的特徵)。4、CNN features off-the-Shelf: An astounding baseline for recognition (2014), A. Razavian et al.
  • 學術圈「造假之王」,200餘篇論文有183篇論文被撤稿
    在此之後,藤井又先後在該雜誌上發表了11篇論文。致編輯部信函的共同作者之一克裡斯蒂安·阿普費爾(Christian Apfel)曾赴美國食品與藥物管理局提醒他們注意藤井的問題,但並沒有收到回復。或許感到他的好運要受到挑戰了,在2005年前後,藤井便差不多終止了在麻醉學領域的文章發表,繼而轉戰眼科和耳鼻喉科學。
  • 「送」5篇SCI論文,意味著什麼?
    不過,相比男主的送房、送車,大家更關心的是他「送」了5篇SCI論文給女主。對於頭懸梁錐刺股、只為發表一篇SCI論文的博士們來說,5篇SCI論文真的太有震撼力了,其中還包括一篇發在《自然》子刊的論文。5篇SCI論文對於博士意味著什麼?到底需要花費多少時間和精力?這引發了人們的熱議。送了哪5篇論文?
  • Nature分享:如何寫好綜述論文?
    綜述類論文是科學家的重要資源。它們可以提供一個領域的歷史背景,以及關於該領域未來發展的個人看法。同時,撰寫這類文章可以為自己的研究提供靈感,還可以做一些寫作練習。不過,很少有科學家接受過如何寫綜述類論文的訓練,或者不知道一篇優秀的綜述文章是怎樣構成的。
  • 某醫科大學一課題組45篇SCI論文爆雷?被指涉嫌圖片重複使用問題
    著名學術打假人Elisabeth Bik又有新動作了,這次她盯上了天津醫科大學一課題組發表的論文。12月18日,Elisabeth Bik在Science Integrity Digest網站上發表了一篇帖子,帖子內容劍指天津醫科大學一課題組近年來發表的45篇SCI論文涉嫌圖片重複使用問題。值得關注的是,這之中的大部分論文由國自然基金資助。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    大數據文摘作品編譯:糖竹子、吳雙、錢天培自然語言處理(NLP)是一種藝術與科學的結合,旨在從文本數據中提取信息。從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?