5篇必讀的數據科學論文(以及如何使用它們)

2020-11-25 手機鳳凰網

數據科學可能是一個年輕的領域,但這並不意味著你不期待了解某些相關主題。本文涵蓋了最近幾個極為重要的發展以及頗有影響力的理論片段。

這些論文所涉及的主題包括:編制數據科學工作流、輕量化神經網絡的突破、重新思考使用統計學解決問題的基本方法。對每篇論文,我都給出了將其思想應用到自己手頭工作上的一些想法。

第一篇:Hidden Technical Debt in Machine Learning Systems

這是由谷歌研究院團隊傾情奉獻(2015年NeurIPS),當我們需要設置自己的數據科學工作流時,我們可以從該論文中學習到多個避免反模式的明確方案。(所謂反模式,就是讓系統逐漸惡化的典型場景)

via DataBricks. (譯者註:你瞅瞅這圖,機器學習在最終的系統中看起來不過是滄海一粟)

下一篇將要介紹的論文裡會更詳盡地探討這個問題,構建機器學習產品是軟體工程的一個高度專業化的子集,因此從軟體工程這個學科中吸取的許多經驗教訓應用於數據科學也是很有意義的。

那麼究竟該怎麼做呢?不妨試試論文中專家談到的實用技巧來簡化你的開發和生產。

第二篇:Software 2.0

這篇來自於Andrej Karpathy的優質博文闡明了機器學習模型是基於數據進行編程的軟體應用程式之範例。

如果數據科學是軟體,那麼我們到底要朝著什麼方向發展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個問題。

數據產品代表了機器學習項目的運作化階段。圖源:Noémi Macavei-Katócz on Unsplash.

那麼如何使用呢?多讀讀數據產品適應模型選擇過程的相關文章吧。

第三篇:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Something something something ーー bert: 語言理解的深度雙向轉換器的預訓練

這篇論文中,來自谷歌研究院的團隊提出了一種全新的自然語言處理(NLP)模型,該模型的出現堪稱機器文本分析能力的階梯式增長。

In this paper, a team from Google Research (and you) has come up with a new natural language processing (NLP) model that represents a step-by-step increase in machine text analysis capabilities.

對於為何BERT能夠恐怖如斯仍有不少爭議,不過這也提醒了我們,機器學習領域可能已經發現了一些成功的方法,但可惜我們卻沒有完全理解它們是如何工作的。與大自然一樣,人工神經網絡也充滿神秘感。

There’s a lot of debate about why Bert is so scary, but it’s also a reminder that the field of machine learning may have found some successful methods, but we don’t fully understand how they work. Like nature, artificial neural networks are full of mystery.

(此處為一段YouTube視頻,?‍:在這個歡快的問答片段中,諾德斯特龍數據科學主任解釋了人工神經網絡是如何從自然中獲得靈感的。)

(in a YouTube video, the director of data science at Nordstrom explains how artificial neural networks are inspired by nature in this hilarious Q & a clip.)

具體該怎麼入手呢?

How do you get started?

BERT 伯特這篇論文很快就能讀完,而且論文裡還包含一些默認超參數設置,完全可以從這些參數著手開動起來(具體參見論文附錄A.3)。 This paper will be read in no time,

無論你是否是NLP新手,不妨看看Jay Alammar的<A Visual GUide to Using BERT for the First Time>,這篇文章裡對於BERT的技能有著相當引人入勝的展示。

哦對了,記得看看ktrain,這是一個基於Keras的庫。ktrain能讓你在自己的工作中無痛實現BERT。Arun Maiya開發了這個強大的庫,目的就是讓我們快速獲取對於NLP,圖像識別以及圖相關方法的深刻認知。

第四篇:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

誠然,NLP模型正在越變越大(你看,GPT-3的參數量達到了恐怖如斯的1750億!),不過也有一些研究人員偏愛「倒行逆施」,他們的目標是開發更小、更快、更高效的神經網絡。這些網絡能夠確保其更快的運行速度,更低的訓練成本以及對於計算資源的更少需求。

在這篇具有開創性意義的論文中,機器學習小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網絡,這些子網絡可以達到堪比原始超大型神經網絡的性能。

圖源:Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis》

彩票(lottery ticket)是指剪枝策略與有效的初始權重之間的聯繫(這可不就跟刮彩票一樣嘛)。神經網絡剪枝這一發明在存儲空間、運行時間和計算性能方面提供了諸多優勢,並贏得了ICLR 2019年度最佳論文獎。在此基礎上所進行的進一步研究證明了該方法的適用性,甚至將其應用於原本就很稀疏的網絡中。

具體怎麼操作呢?

在將你的神經網絡部署到生產環境之前,不妨考慮一下對其進行剪枝。網絡權重剪枝能夠大幅降低參數數量(參數可減少達90%+)同時確保其與原始網絡相近的性能表現。

還有,聽聽Ben Lorica與Neural Magic在這一集數據交換播客裡面的相關討論。Neural Magic是一家初創公司,其希望利用剪枝和量化等技術,搭配一個精巧的用戶界面,使實現網絡稀疏性更容易。

再來點加餐:

看看這個很有意思的側邊欄目,原論文作者之一在這裡聊了聊機器學習社區評估好想法的缺陷。

第五篇:Releasing the death-grip of null hypothesis statistical testing (p < .05)

經典的假設檢驗會導致過度的確定性,並產生了通過統計方法來確定原因的錯誤想法。(更多內容)

假設檢驗在計算機出現之前就被廣泛使用。考慮到這種方法所帶來的深刻挑戰(例如,即使是統計學家也發現要解釋p值幾乎是不可能的),也許是時候考慮其他方法了,比如某種程度上的精確結果測試(SPOT)。

「顯著性」via xkcd

怎麼辦呢?

看看這篇博文,《The Death of the Statistical Tests of Hypotheses》。文中,一個沮喪的統計學家概述了一些與經典假設檢驗方法相關的問題,並利用置信區間解釋了一種替代方法。

AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

相關焦點

  • 觀點| 從數據科學的角度,看斯坦福神經網絡檢測性取向的研究
    數據收集過程侵犯隱私嗎?參與這項研究的人合適並反映真實分布嗎?對研究結果的交流周到體貼、富有同理心嗎?這些問題都很重要,而且沒有任何個人能夠回答。因為深度學習做到了這件之前不可能做到的事情,我們需要在更多的領域中考察這些問題將如何發展。因此,我們需要考察更多由跨學科團隊做的跨學科研究。在這個案例中,研究員是數據科學家和心理學家,但是論文涉及的論題(以及結論的推演過程)覆蓋了從社會學到生物學的範圍。
  • 口腔科SCI論文大數據分析「2021」
    導言:最近留言查找口腔科論文大數據分析的朋友特別特別多。我們之前嘗試過多次,都放棄了。因為檢索詞太多了,另外中外口腔科設置差別很大。不過,在朋友們的要求下,我們還是試試。並會總結2020年中國醫院口腔科發表的SCI論文的大致情況。
  • 高質量論文圖表製作及美化專題研討會
    沒有按照科研應遵循的「三表理念」來整理實驗數據導致數據凌亂、圖表沒有用論文應該使用的軟體製作、製作的圖表美觀性不佳、不符合學術規範、沒有使用正確的圖表類型,且不知道如何美化圖表。莫速乎教育的萬方軍老師近幾年仔細對比研究了200本國外頂級期刊中的8000餘篇論文中的數萬張插圖中的圖表,並查閱了大量英文書籍,總結一些規律、技巧、思維方法和理念,並以學習會議的形式來教導科研人員如何精通圖表。此課程自2015年推出以來,參加人數爆滿,好評無數。經過近兩年的反覆改進,逐漸融入了這幾十場會議現場學員帶來的問題和案例,相信一定有你需要的!
  • 這篇引發抗議的論文差點登上頂刊
    該論文的作者包括哈裡斯堡大學博士生、前紐約警察局警官喬納森·科恩(Jonathan W. Korn)。論文稱,該算法「僅憑一張人臉照片就能預測一個人是否是罪犯」。論文作者表示,他們的算法是專門為執法部門使用而設計的。此前,論文被學術出版商Springer Nature接收,計劃刊載在《Springer Nature-研究叢書:計算科學與計算智能學報》上。
  • hxl,不僅00後愛用縮寫,連學術論文作者也沉迷「黑話」
    本文轉載自公眾號:科研圈 哪怕你是個英語母語者,在讀自己專業方向的英文論文,你也會被千奇百怪的縮略語繞暈。一項研究分析了 PubMed 收錄的 1800 萬篇論文,發現生命科學和醫學論文中縮略語的使用頻率六十多年來不斷增長,而其中大部分縮略語並未成為主流。
  • 買賣SCI論文的「十年老店」:牟利數百萬,自稱受法律保護
    他介紹,價格取決於學術期刊及其影響因子,幾天後有一篇材料方面的稿子到位,影響因子3.2,價格在3萬至5萬元間,具體價格還要看改稿時的工作量和影響因子測試的多少而定。「如發表在一區的稿子,影響因子6.3,價格6.5萬元。發表在二區的稿子,影響因子2.9,價格則是3.5萬元。」
  • 論文買賣生意「風生水起」:有人花10萬買兩篇
    近期,科技部會同相關部門和單位對學術論文造假、違規使用科研項目資金等案件進行了調查。9月16日,其通報了已完成調查處理的9起違規案件,其中7起涉及論文買賣。買家來自中國醫科大學腫瘤醫院、青島大學附屬醫院、福建醫科大學附屬漳州市醫院、南京醫科大學附屬蘇州醫院、山東大學和南京理工大學等。
  • 觀測數據表明,人馬座A*正變得「耀眼」
    本文參加百家號 #科學了不起# 系列徵文賽。文章介紹了早期研究耀斑的一些工作以及進來研究耀斑的工作和獲得的結果,天文學家現在已經證實,在過去的幾年裡,SGR A*最具活力的X射線耀斑一直在增加。人馬座A*是銀河系中心的超大質量黑洞,但它並不是一直都很活躍。
  • 「看面相識別罪犯」論文要上Nature?遭1700名科學家聯名反對
    機器之心報導參與:澤南、小舟有 1700 名研究者籤字聯名抵制 Nature 出版一篇 AI 研究論文,這可是頭一次。「我們敦促審核委員會公開撤銷論文通過的決定,並解釋評估該論文通過的標準。Springer 需要公開聲明譴責使用刑事司法統計數據預測犯罪行為,並承認其過去在激勵這種有害學術方面的作用。
  • 天大學子兩年申請9項專利和軟體著作權 ,2篇論文被錄用!
    天大學子兩年申請9項專利和軟體著作權 ,2篇論文被錄用!人)天津市優秀學生校三好學生天津大學優秀共青團員建工學院第十五屆十佳傑出青年(提名)曾任天津大學土木工程學科國際同行評議會代表獲得39項校級及以上榮譽申請9項專利和軟體著作權2篇論文已被錄用
  • 一個科研狗對「南開校長曹院士論文造假事件」的完全剖析
    最近南開大學校長、中國工程院院士曹雪濤被曝出40多篇論文涉嫌學術造假,數據圖有PS痕跡。 曹院士是免疫學大牛,在全世界的學術地位都極高!但學術界是一個特別容不得造假的地方。這一錘下去,半個科研圈都驚得信仰崩潰了。
  • 26歲研究生凌晨猝死,疑因受導師學術不端事件影響重寫論文
    面對延期的壓力,新方向的無從下手,這篇新論文遲遲難以完成,直到2020年9月,李源猝死在湖北的家中。在此之前,他已經沒日沒夜的為這篇不能面世的論文,熬夜工作了很久。我感覺我的導師好像不喜歡我」。2020年1月20日,寒假回家前,李源(化名)對自己的好友說。
  • Pandas 基本數據框架操作 第二篇
    作為人類,我們習慣於從左到右閱讀語言,這影響了我們對數據的解釋。當考慮到列順序時,查找和解釋信息要容易得多。沒有一套標準化的規則來規定如何在數據集中組織列。然而,制定一套你一貫遵循的準則是一種很好的做法。如果你與一群共享大量數據集的分析師合作,這一點尤其正確。
  • 2019年5月17日Science期刊精華
    論文通訊作者為劍橋大學的Jerome Jullien博士。論文第一作者為劍橋大學的Can Aztekin和Tom Hiscock博士。通過使用單細胞基因組學技術,這些研究人員開發出一種巧妙的策略來揭示不同蝌蚪細胞在再生它們的尾巴時會發生什麼。具體而言,他們詳細地分析了非洲爪蟾(Xenopus laevis)蝌蚪受損後參與再生的細胞類型。
  • 碩士學位論文英文摘要寫作研究述評
    例如,在其語料庫中,經常出現的過去時體現出了語篇的「歷史」類型;而現在時態通常用在結論、建議以及數據分析中,用來強調特殊的研究發現;除此之外,現在完成時被用來揭示作者與前人研究不一致的發現。Hyland和Tse認為,一個領域或一個學科有確切的學術詞彙表是必要的,這為實現不同的學術目的提供了很大的幫助。
  • 留法博士寫論文解釋擀麵科學原理
    這篇論文,講的是老陝熟悉的手擀麵,將和面、擀麵、煮麵的全過程展示出來,從科學的角度回答了為什麼要餳(xng)面、為何要卷著擀、擀麵翹邊是什麼原因,煮麵時又為什麼要加少量涼水。>>和面和面為啥要餳面?
  • 宜昌ISTP論文發表多長時間能檢索
    表示物質在人體的含量,統一用L(升)作分母,不得使用帶詞頭的分母(如μl、ml、dl、mm3),更不宜使用不是計量單位的「%」來表示每百毫升(/dl);克分子濃度、克當量濃度應改為物質的量濃度(mol/L)。構成比一律用小數表示(如中性粒細胞佔70%應為中性粒細胞佔0.70)。
  • 數據科學中的崗位有哪些區別?
    職場每個工作角色所需的技能不同,數據科學領域需要使用數學、統計和計算機科學學科以及Python,Tableau,SQL等通用工具集。在數據智能時代,數據科學中的崗位有哪些區別呢?數據科學家主要分為以下這幾個崗位:1、數據科學家數據科學家是當今世界上最熱門的職位之一,也是該領域最受歡迎的職位之一。他們主要負責處理原始數據,在各種技術的幫助下對其進行分析,他們使用機器學習,並且根據過去的模式預測未來。
  • 熱烈祝賀西安高新技師學院榮獲學術論文交流會一等獎
    為增強學院品質化建設、內涵化發展的中心要求,院校之間需要進行科學系統的學術探討與交流。為進一步完善現代職業教育體系,培養教職工的學習能力和素質,達到資源共享、共同提高的目的,1月5日上午,由陝西宇民教育集團組織,西安高新技師學院與數家兄弟院校共同舉辦了學術交流會。在院長許士明的帶領下,西安高新技師學院各部門負責人及部分教師代表出席本次交流會。