2018年最具影響力的20篇數據科學研究論文,盤它!

2021-01-10 大數據文摘

大數據文摘出品

文章來源:opendatascience.com

編譯:Ivy、狗小白、雲舟

作為一名前半生奉獻給學術,現在投身業界的研究者,Daniel Gutierrez習慣在數據科學業內工作的同時,跟進學術界的最新動態。

最近,通過一場網絡研討會,他發現人工智慧大神吳恩達(Andrew Ng)也有一樣的習慣。吳恩達提到,他經常隨身攜帶一個裝滿研究論文的文件夾,利用搭車的空閒時間研究論文。

Daniel Gutierrez因此建議,不管是數據科學從業者還是研究者,都可以準備一個論文文件夾來裝一些論文,就像吳恩達建議的:如果你每周閱讀幾篇論文(部分論文可以泛讀),一年後你就閱讀了100多篇論文,足夠比較深入地了解一個新領域。

在這篇文章中,Daniel Gutierrez列出了2018年最具影響力的20篇數據科學研究論文清單,所有數據科學家都應該認真回顧。我還收錄了一些綜述性文章,它們可以幫助你看到當前技術領域的發展情況,同時還有完整的參考文獻列表,其中不乏很多具有開創性的論文。

新一年隨身攜帶的論文合集,不如就從這裡開始吧!

無法科學上網的同學,可以在大數據文摘後臺回復「數據科學論文」下載合集。

一種新型無梯度下降的反向傳播算法

我們都知道,在20世紀70年代初引入的反向傳播算法是神經網絡學習的支柱。反向傳播利用大名鼎鼎的一階迭代優化算法進行梯度下降,用於尋找函數的最小值。本文中, Bangalore的PES大學研究人員描述了一種不使用梯度下降的反向傳播方法。他們設計了一種新算法,使用Moore-Penrose偽逆找出人工神經元權重和偏差的誤差。本文還在各種數據集上進行了數值研究和實驗,旨在驗證替代算法的結果是否符合預期。

下載連結:

https://arxiv.org/pdf/1802.00027.pdf

一份基於深度學習的情感分析

情感分析經常被用於識別和分類文本中所表達的觀點,因為它可以確定作者對特定主題、產品等態度是積極、消極還是中性的,所以在處理社交媒體數據時,情感分析非常有價值。

深度學習日益流行,它是一種強大的機器學習技術,可以學習到數據的多層特徵並生成預測結果。隨著深度學習在許多其他應用領域的成功,近年來,深度學習在情感分析中也得到了廣泛的應用。本文對深度學習進行了全面的綜述,並對其在情感分析領域的應用現狀也進行了分析。

下載連結:

https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf

應用數學家所理解的深度學習是什麼

作為一名數學家,我喜歡看一些關於數據科學的技術文檔,並找到它們與應用數學的聯繫。本文從應用數學的角度出發,對深入學習的基本思想進行闡述。多層人工神經網絡已在各個領域中被廣泛使用,這場深度學習革命的核心實際上可以追溯到應用和計算數學的基礎概念:特別是在微積分、偏微分方程、線性代數和近似/優化理論的概念中。

下載連結:

https://arxiv.org/pdf/1801.05894.pdf

論深度學習的起源

本文對深度學習模型進行了全面的歷史回顧,它從人工神經網絡的起源介紹到在過去十年的深度學習研究中佔據主導地位的模型:如卷積神經網絡、深度信念網絡和循環神經網絡。本文還重點介紹了這些模型的先例,分析了早期模型的構建過程,以及模型的發展歷程。

下載連結:

https://arxiv.org/pdf/1702.07800.pdf?

遞歸神經網絡研究進展

遞歸神經網絡(RNN)能夠從時間序列數據中學習序列特徵和長期依賴性。RNN由一堆非線性單元組成,單元之間至少有一個連接形成有向循環。一個訓練完備的RNN可以模擬任何一個動態系統,然而,RNN在訓練時一直受到長期依賴性問題的困擾。本文對RNN進行了綜述,並著重介紹了該領域的一些最新進展。

下載連結:

https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf

關於深度學習的十大質疑

儘管深度學習的歷史根源可以追溯到幾十年前,但「深度學習」這一術語和技術在五年前才開始流行起來,當時該領域被Krizhevsky、Sutskever和Hinton等人所統治,他們在2012年發表了經典之作「基於深度卷積神經網絡的圖像分類」。但在接下來的五年中,深度學習領域中又有什麼發現呢?在語音識別、圖像識別和遊戲等領域取得長足進步的背景下,紐約大學的AI反對者Gary Marcus對深度學習提出了十個問題,並表明如果我們想要獲得通用的人工智慧,深度學習必須輔以其他技術。

下載連結:

https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf

深度學習中的矩陣微積分

本文較為全面的介紹了深度神經網絡中(以及參考文獻表中大多數論文)所需的所有線性代數知識。除了基礎微積分知識之外,本文深奧的數學知識很少。請注意,若你還是深度學習新手,這篇論文對你來說意義不大;相反,若你已經熟悉神經網絡基礎知識並希望加深對基礎數學的理解,這篇論文將非常適合你研究。

相關報導:

https://arxiv.org/abs/1802.01528

群組歸一化

批量歸一化(BN)是深度學習開發中的裡程碑技術,它使得各種網絡的訓練成為了可能。但是,沿批量維度進行歸一化會帶來一些問題:當批量大小變小時,由於批次統計估計不準確,BN的誤差會迅速增加。這限制了BN在訓練大型模型以及計算機視覺任務(包括檢測、分割視頻)中的使用,因為這些任務需要的是受內存消耗限制的小批量。本文由Facebook AI研究人員(FAIR)提出,將Group Normalization(GN)作為BN的簡單替代方案。GN將通道分成群組,並在每組內計算標準化的均值和方差。GN的計算與批量大小無關,並且其準確性在各種批量大小中都是穩定的。

下載連結:

https://arxiv.org/pdf/1803.08494.pdf

平均參數比重能帶來更廣泛的優化和更好的概括能力

深度神經網絡的訓練一般通過使用隨機梯度陡降(SGD)變量和遞減學習率來優化一個損失函數,直至其收斂。這篇論文指出,對SGD曲線上的多個點取簡單平均數,並使用周期波動或恆定的學習率比傳統訓練方式有更好的概括能力。這篇論文還展示了,這個隨機平均參數比重(SWA)過程比SGD有更廣泛的優化能力,僅用一個模型就達到了之前快速集合法的效果。

下載連結:

https://arxiv.org/pdf/1803.05407.pdf

對基於神經網絡進行文本總結方法的調查

自動總結歸納文本,或者說在保留主要含義的同時壓縮文本長度,是自然語言處理(NLP)領域的一個重要研究範疇。這篇論文對近來基於神經網絡的模型在自動文本總結方面進行了研究。作者詳細審查了十款最前沿的神經網絡摘要器:五款摘要模型,以及五款提煉模型。

下載連結:

https://arxiv.org/pdf/1804.04589.pdf

神經網絡風格傳輸的回顧

Gatys等人在2015年「針對藝術風格的神經網絡算法」這篇開創性著作中,展示了卷積神經網絡(CNN) 能夠分離和重組圖片的內容和風格,在生成藝術圖像上表現出了強大的能力。這個使用CNN來渲染不同風格的內容圖像被稱作神經網絡風格傳輸(NST)。此後,NST在學術著作和工業應用上都很是熱門,受到越來越多的關注,也產生了很多種致力改善或者擴展原有NST算法的方法。這篇論文對NST目前的發展狀況提供了概覽,也對未來研究提出了一系列問題。

下載連結:

https://arxiv.org/pdf/1705.04058.pdf

幾何數據:在機器學習領域針對黎曼幾何的一個Python包

在機器學習領域應用黎曼幾何越來越受人們關注。這篇論文引入了幾何數據這一概念,也給出了應用於諸如超球面、雙曲空間、空間對稱正定矩陣和李群變換等多重內容計算的python包。此外,論文中還包含了對於這些多重內容的應用,以及實用的黎曼度量和相關的外生性、對數圖。相應的測地線距離提供了一系列機器學習損失函數的直觀選擇。作者還給出了對應的黎曼梯度。幾何數據的操作可用於不同的計算後臺,比如numpy, tensorflow和keras。文章作者使keras深度學習框架綜合應用GPU和幾何數據多重內容計算變成了可能。

下載連結:

https://arxiv.org/pdf/1805.08308.pdf

一個更通用的穩健損失函數

這篇論文展示了一個雙參數損失函數,可視為對穩健統計學中很多常用的損失函數的一個概括,這些常用的損失函數包括Cauchy/Lorentzian, Geman-McClure, Welsch/Leclerc和廣義卡爾波涅爾損失函數(按傳遞性分為L2,L1,L1-L2和pseudo-Huber/Charbonnier損失函數)。作者描述並可視化展示了這個損失和相應的分布,並列出了它的一些實用性特質。

下載連結:

https://arxiv.org/pdf/1806.01337.pdf

反向退出:隨機反向傳播算法

這篇論文引入了「反向退出」的概念,也即一個靈活而應用簡便的方法,可以直觀地表述為,退出現象僅沿著反向傳播管道發生。反向退出的應用是沿著網絡中特定點插入一個或多個屏蔽層。每個反向退出的屏蔽層在正推法中被視為特徵,但幾乎不屏蔽部分反向梯度傳播。直觀來看,在任何卷積層之後插入反向退出層會帶來隨機梯度,隨刻度特徵不同而有不同。因此,反向退出非常適用於那些有多重刻度、金字塔結構的數據。

下載連結:

https://arxiv.org/pdf/1806.01337.pdf

關係型強化深度學習

這篇論文引入了一個通過結構化感知和關係型推理從而提升強化深度學習(RL)的方法,主要表現在改善效率、泛化能力和提升傳統方法的解讀能力。通過自我感知來迭代推理場景中的主題和引導無模型原則之間的關係。結果顯示,在一個擁有新型導航和任務計劃的「盒世界」中,代理找到了可解釋的解決方案,從而可以在基線之上改善樣本的複雜度、泛化能力(在訓練中能應對更的複雜場景)以及整體表現。

下載連結:

https://arxiv.org/pdf/1806.01830.pdf

一個非常有趣的案例:卷積神經網絡和執行坐標轉化方法的失敗

深度學習裡幾乎沒有別的概念像「卷積」那樣大的影響力了。對包含像素或空間表徵的任何問題,普遍的直覺就是試試看CNNs。這篇論文通過一個看似微不足道的坐標轉化問題展示了一個反直覺的案例,也即單純要求機器在坐標(x,y)笛卡爾空間和一個熱像素的空間之間學習一個地圖。雖然CNNs似乎很適用於這個場景,來自Uber的作者們證明了卷積神經網絡法最終失敗了。這篇論文展示並仔細檢驗了這個失敗案例。

下載連結:

https://arxiv.org/pdf/1807.03247.pdf

反向傳播法的演變

反向傳播算法是深度學習的基石。儘管其非常重要,但很少有方法嘗試調整其算法。這篇論文展示了一種發現新的反向傳播方程變式的方法。來自Google的作者使用了一種領域專用語言,將升級的方程描述為一系列原始方程。基於進化的方法被用來發現新的反向傳播原則,該原則在一系列最大訓練次數後能夠最大化泛化能力。這個研究發現了一些升級方程,相較標準的反向傳播算法在較少次數內訓練得更快,並在收斂時有與標準反向傳播算法近似的表現。

下載連結:

https://arxiv.org/pdf/1808.02822.pdf

在深度卷積神經網絡學習時代裡,物體探測領域近來的發展

物體探測就是對於特定類別圖片,比如車、飛機等進行探測的計算機視圖任務 ,它在過去五年裡在人工智慧領域裡吸引了非常多的關注。這些關注,既源於該領域在實際應用的重要性,也是因為自從CNNs時代的到來,它是人工智慧領域裡現象級的發展。這篇論文是對近來使用深度卷積神經網絡學習方法的物體探測領域著作的一個全面回顧,也對近來這些發展進行了深刻的透析。

下載連結

https://arxiv.org/pdf/1809.03193.pdf

語言交互式AI的神經網絡法

這篇論文對近年來發展出的語言交互式AI中神經網絡方法進行了調查。語言交互式AI可被分為三個類別:1. 回答問題的機器人2. 以任務為導向的對話機器人3. 自動化語音聊天機器人。針對每個類別,文章使用特定系統和模型為案例,展示了領域最前沿的神經網絡方法,並將其與傳統方法比較,討論其進步之處和仍面臨的問題。

下載連結:

https://arxiv.org/pdf/1809.08267.pdf

可撤銷的循環神經網絡

循環神經網絡(RNNs)在運行序列數據上表現最優秀,但訓練起來更佔用內存,也就限制了RNNs模型的靈活性。可撤銷的循環神經網絡,也就是「隱藏對隱藏」的轉化能被撤銷的RNNs,提供了減少訓練所需內存的一個路徑,因其隱藏狀態無需存儲,從而能夠在反向傳播算法中被重新計算。這篇論文展示了完美可撤銷RNNs從根本上就是受限的,因為它們依然需要記住隱藏狀態。隨後,為了實現能夠忘記隱藏狀態的完美可撤RNNs,文章提供了存儲少量bits的方法。作者這個方法達到了傳統模型的近似效果,同時減少了活動內存成本約10-15個百分點。

下載連結:

https://arxiv.org/pdf/1810.10999.pdf

相關報導:

https://opendatascience.com/most-influential-data-science-research-papers-for-2018/

相關焦點

  • 我國科技論文國際影響力持續上升
    值得一提的是,我國有8個學科領域的高質量國際論文數量在學科排名中位列世界首位,它們分別是:工程技術、化學、環境與生態學、計算機科學、材料科學、農業科學、物理學和數學。高被引論文數佔世界份額23.0%各學科領域影響因子最高的期刊被稱作該學科最具影響力期刊。
  • 最具影響力青年學者出爐 百度學術助力科研發展
    近日,「2015年度中國人文社科最具影響力青年學者」頒獎典禮在中國人民大學召開。此次評選在中國人民大學人文社會科學學術成果評價研究中心指導下,由百度學術、「壹學者」移動學術科研服務平臺共同完成。通過表彰一批水平高、影響大的優秀青年學術帶頭人,調動、鼓舞廣大青年學者積極從事科學研究。
  • 年度必讀:2018最具突破性人工智慧論文Top 10
    [導讀]本文總結了2018年以來最重要的10篇AI研究論文,讓你對今年機器學習的進展有一個大致的了解
  • 我國高質量國際論文數排名世界第二,國際影響力持續上升
    值得一提的是,我國有8個學科領域的高質量國際論文數量在學科排名中位列世界首位,它們分別是:工程技術、化學、環境與生態學、計算機科學、材料科學、農業科學、物理學和數學。高被引論文數佔世界份額23.0%各學科領域影響因子最高的期刊被稱作該學科最具影響力期刊。
  • 我國高質量國際論文數排名世界第二 國際影響力持續上升
    高被引論文數佔世界份額23.0% 各學科領域影響因子最高的期刊被稱作該學科最具影響力期刊。據中國科學技術信息研究所副所長郭鐵成介紹,2019年我國在155種最具影響力期刊上發表的論文數為13068篇,比2018年增加1750篇,連續第十年排在世界第2位。
  • ACL 2018最佳論文公布!計算語言學最前沿研究都在這裡了
    新智元報導 來源:acl2018.org編輯:聞菲、小芹【新智元導讀】ACL 會議是計算語言學領域的首要會議,廣泛涉及自然語言的計算方法及其各類研究領域。ACL 2018將於7月15日至20日在澳大利亞墨爾本舉行。昨天,ACL官網公布了本屆大會的最佳論文,包括3篇最佳長論文和2篇最佳短論文,新智元帶來介紹。
  • 2018 年最棒的三篇 GAN 論文
    這一話題討論受到啟發,挑選出來 2018 年度三篇最佳 GAN 論文,並整理成文進行發布。雷鋒網(公眾號:雷鋒網) AI 科技評論編譯如下。今年我很榮幸能參與到一個研究項目中,它要求我熟悉大量計算機視覺深度學習相關論文,讓我深入到這個領域中學習,在此過程中,對於該領域在近兩三年時間裡所取得進步,我深為震撼。
  • 2018年中國科技論文統計結果發布 國際頂尖學術期刊發表論文數居...
    統計顯示,我國科技論文產出轉向高質量發展階段,在國際頂尖學術期刊上發表論文數量排名前進到世界第4位,發表在各學科最具影響力國際期刊上的論文數量連續第八年排在世界第2位,其中材料科學領域論文被引用次數保持世界首位。 據統計,2017年被引次數超過10萬次且影響因子超過35的國際期刊有7種,包括《自然》、《科學》等。
  • 10 種最具影響力的程式語言
    前幾天,我讀了這篇「 20 種有史以來最重要的程式語言」,這是一張「我剛剛編出來的荒謬的表格」。它之所以荒謬,是因為他列出的「最重要的」語言中包含了 Go,但沒有包含 ALGOL、Smalltalk 或 ML。他也沒有提到 Pascal,因為它「基本上已經消亡了」。荒謬!這完全違背了「有史以來最重要」的含義。
  • 2018 年重磅復盤:中國產出全球 25% AI 論文、政府署名 AI 論文...
    由於報告信息體量較大,雷鋒網 AI 科技評論挑選了其中大部分的學術章節與小部分的業界章節進行翻譯,其他內容可自行查閱:http://cdn.aiindex.org/2018/AI%20Index%202018%20Annual%20Report.pdf活動體量
  • 2018最具突破性計算機視覺論文Top 10
    新智元報導 來源; topbots.com編輯:肖琴、三石【新智元導讀】本文總結了2018年以來最重要的10篇計算機視覺/圖像生成相關的研究,包括許多新穎的架構設計,圖像生成方面的突破等。自從卷積神經網絡在特定的圖像識別任務上開始超越人類以來,計算機視覺領域的研究一直在飛速發展。
  • 5篇必讀的數據科學論文(以及如何使用它們)
    本文涵蓋了最近幾個極為重要的發展以及頗有影響力的理論片段。這些論文所涉及的主題包括:編制數據科學工作流、輕量化神經網絡的突破、重新思考使用統計學解決問題的基本方法。對每篇論文,我都給出了將其思想應用到自己手頭工作上的一些想法。
  • 《細胞研究》的「30」年和「20分」
    像其他取得重大發現的科學家一樣,俞立第一時間把這篇論文投到了領域內最具聲名的國際期刊。審稿意見回來了,審稿人的要求非常中肯,就是補充「遷移體」的更多信息和證據。「回答這些問題,需要再花上幾年時間。但在那種情況下,我等不了。」
  • 地學中心付昊桓研究小組論文獲選為
    地學中心付昊桓研究小組論文獲選為FPL國際會議25年來最具影響力文章之一清華新聞網9月14日電 日前,在第25屆現場可編程邏輯與應用國際會議(FPL 2015)上,清華大學地學中心付昊桓副教授研究小組所發表的論文《基於可重構數據流引擎的全球大氣動力方程快速求解器》「Accelerating Solvers
  • 東南大學年度最具影響力畢業生出爐
    5月22日晚,「東大畢業生,領show影響力」——東南大學2015年最具影響力畢業生現場評選活動在九龍湖校區焦廷標館舉行。東大黨委書記郭廣銀、常務副書記劉京南、黨委副書記兼副校長劉波、副校長鄭家茂等出席,與一千多名東大學子共同見證了年度最具影響力畢業生的誕生。
  • 科學網—《細胞研究》的「30」年和「20分」
    2014年,他的課題組在細胞裡發現了一種長得像石榴的結構。他們相信這是一種新的細胞器,並取名為「遷移體」。像其他取得重大發現的科學家一樣,俞立第一時間把這篇論文投到了領域內最具聲名的國際期刊。 審稿意見回來了,審稿人的要求非常中肯,就是補充「遷移體」的更多信息和證據。 「回答這些問題,需要再花上幾年時間。但在那種情況下,我等不了。」
  • 《自動化學報》20篇文章入選2019「領跑者5000」頂尖論文
    F5000中國科學技術信息研究所在中國精品科技期刊中遴選優學術論文,建設了「領跑者5000-中國精品科技期刊頂尖學術論文平臺(F5000)」,集中對外展示和交流我國的優秀學術論文,進一步推動我國科技期刊的發展,提高整體水平,更好地宣傳和利用我國的優秀學術成果,起到引領和示範作用。
  • 【合集】2018年20篇權威疾病統計報告(全球或中國數據)
    某個疾病的發病率、患病率和死亡率等數據,對於我們了解這個疾病的整體情況很有幫助;在寫論文時,研究背景也經常要用到這些數據。全球整體情況這8篇文章包括: 不同年齡、性別的死亡率和預期壽命; 282種死因的年齡-性別特異性死亡率; 354種疾病的發病率和患病率; 359種疾病的傷殘調整壽命年(DALYs); 84種危險因素造成的疾病負擔; 195個國家/地區不同性別和年齡的人口和生育力;2040年預期壽命; 健康相關SDG指標的測量2018年6月6
  • 2018年納米技術熱點論文文獻計量分析 曹原魔角石墨烯論文登頂
    2018年共出版了222篇與納米技術相關的熱點論文,其中中美大學的出版量最大。環境和能源相關問題是這些文章中調查的最重要的主題之一; 石墨烯及其衍生物佔有這些納米材料研究論文的最高比例。在2018年發表的所有納米技術論文中,222篇被認為是過去兩個月的熱點論文。這些論文總共被引用了8,000多次。
  • 《細胞研究》的「30」年和「20分」—新聞—科學網
    2014年,他的課題組在細胞裡發現了一種長得像石榴的結構。他們相信這是一種新的細胞器,並取名為「遷移體」。像其他取得重大發現的科學家一樣,俞立第一時間把這篇論文投到了領域內最具聲名的國際期刊。 審稿意見回來了,審稿人的要求非常中肯,就是補充「遷移體」的更多信息和證據。 「回答這些問題,需要再花上幾年時間。但在那種情況下,我等不了。」