NLP和其他ML項目的10個最佳 Reddit 數據集

2020-12-20 AI環球速遞

在這篇文章中，我想分享一份 Reddit 數據集列表，當它首次發布時，在社交媒體上獲得了很多關注。

Reddit 被稱為「網際網路的首頁」，它既是論壇，又是社交媒體網站，用戶可以發布幾乎所有東西。

與 Facebook 、 Twitter 或 Instagram 不同，大多數 Reddit 用戶都是匿名的。Reddit 版主嚴格審查和管理子目錄，即子reddit。

然而，匿名允許人們以他們想要的方式來表達他們想要的東西。因此， Reddit 評論和帖子完美適用於測試和訓練自然語言處理（ NLP ）模型。

警告：下面的一些數據集是專門為訓練內容管理模型而編制的。因此，數據可能包括顯式內容。

Reddit 評論數據集

1. Cryptocurrency Reddit 評論數據集（Cryptocurrency Reddit Comments Dataset） —— 此數據集包含來自 r/cryptocurrency 子reddit 的評論。這些數據包括2017年11月至2018年3月共5個月發布的評論。

2. Reddit 川普評論（Donald Trump Comments on Reddit） —— 一個簡單的數據集，包含了來自 Reddit 的數千條提到了 Donald Trump的評論。

3. Reddit 評論得分預測（Reddit Comment Score Prediction） —— 該數據集的建立是為了幫助創建一個模型，該模型可以預測 Reddit 評論會獲得贊還是踩。該數據集包括400萬 Reddit 評論：200萬差評（被踩）和200萬好評（被贊）。

Reddit 新聞數據集

4. 股票市場預測每日新聞（Daily News for Stock Market Prediction）——正如標題所示，這個數據集最初是為了建立能夠預測股市波動的模型。這些數據包括從2008年6月至2016年7月的 r/worldnews 中獲取的新聞，以及道瓊工業股票平均價格指數( Dow Jones Industrial Average )的數據。

5. Reddit 世界新聞（World News on Reddit）—— 從 r/worldnews 子reddit獲取，此數據集包含從2008年開始在這個子reddit上發布的所有新聞的信息。數據集包括以下信息：創建日期、贊和踩、標題、作者以及新聞是否包含成熟內容。

來自 Reddit 的其他數據

6. Reddit's Top 1000 —— 這個數據集包含了來自18個子reddit的以贊票數排前1,000個帖子。對於每個帖子， CSV 文件都包含帖子的標題和貼主的用戶名。此外，還包括了贊和踩的數量、子reddit名稱、 url 和其他元數據。

7. Reddit 用戶名（Reddit Usernames）—— 一個簡單的數據集，是一個包含2600萬 Reddit 用戶名的 CSV 文件。此外，數據集包括每個用戶所做的評論的總數。

8. SARC：自標註Reddit 諷刺語料庫（Self-Annotated Reddit Corpus for Sarcasm） —— 此數據集包含從 Reddit 抓取的超過130萬條諷刺評論和帖子。數據集創建者在每個語句中標記了諷刺。此外，每個語句中還包含貼主用戶名、主題和上下文。

9. Reddit 的科學和技術縮略語（Science and Tech Acronyms from Reddit）—— 該數據集包含在科學、生物學、技術和未來學方面的子reddit 中發現的140,000多個首字母縮略詞。數據的形式是 CSV 文件，其中包括評論 ID 、時間、用戶名、子reddit 名和所提到的縮寫。

10. Reddit 物品/產品（Things on Reddit (products)）—— 這個產品數據集是亞馬遜產品的前100名的集合，這些產品來自從2015年到2017年發布過亞馬遜產品的每個子reddit。數據集中的每個 CSV 文件都包含產品名稱類別和產品的 URL 。此外，數據中還包括了 Reddit 和子reddit 中提到的總數。

上面的數據集可用於幫助訓練情感分析模型、文本分類器、預測模型和其他 NLP算法。

有關更多數據集，請查看我們的相關資源

相關焦點

用Spark-NLP建立文本分類模型

介紹自然語言處理是全球數據科學團隊的重要過程之一。隨著數據的不斷增長，大多數組織已經轉移到大數據平臺，如apachehadoop和AWS、Azure和GCP等雲產品。這些平臺不僅能夠處理大數據，使組織能夠對非結構化數據（如文本分類）進行大規模分析。但在機器學習方面，大數據系統和機器學習工具之間仍然存在差距。
自然語言處理(NLP)入門指南

（Daniel Jurafsky和James H.Martin）[經典的NLP教科書，涵蓋了所有NLP的基礎知識，第3版即將出版]https://web.stanford.edu/~jurafsky/slp3/• 統計自然語言處理的基礎（Chris Manning和HinrichSchütze）[更高級的統計NLP方法]https://nlp.stanford.edu/fsnlp/• 信息檢索簡介
資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)

在這篇文章中，他們還放出了在多種翻譯任務上（比如英德翻譯和英語-捷克語翻譯）實現了當前最佳結果的代碼庫（codebase）。除此之外，「為了鼓勵再現和增加透明」，他們還放出了他們用於訓練模型的處理過的數據以及可以通過他們的代碼庫使用的預訓練好的模型。
nlp課程的危害 - CSDN

所以說這是個更加「工程」的崗位。——益達：聊聊NLP和推薦系統的選擇https://www.zhihu.com/question/268751628/answer/342223389(觀眾批駁1：文章中有一些事實類錯誤。nlp問題可以歸結為分類，標註和生成這三類問題。
自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

本文的目的是追蹤自然語言處理（NLP）的研究進展，並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務，例如依存句法分析和詞性標註。以及更多近期出現的任務，例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽，作為未來研究的墊腳石。
資源| 數據至上的人工智慧時代,最好的公開數據集有哪些?

25x25 的數據集，中心化，B&W 手寫數字。這是個容易的任務——但是在 MNIST 有效，不等同於其本身是有效的。地址：http://pjreddie.com/projects/mnist-in-csv/CIFAR 10 & CIFAR 100: 32x32 彩色圖像。
發布數據集論文和挑戰賽,卻拒絕公開數據集

昨天谷歌AI大佬Jeff Dean剛剛發表長文總結了 2018年的主要研究成果，其中包括「開源軟體和數據集」：發布開源軟體和創建新的公共數據集是我們為研究和軟體工程社區做出貢獻的兩種主要方式。
復旦邱錫鵬教授:2020最新NLP預訓練模型綜述

nlp領域的發展比cv領域相對緩慢的原因是什麼呢？相比於cv領域，「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯)，導致深度學習模型容易過擬合，不能很好地泛化。
NLP預訓練利器:小模型也有高精度,單個GPU就能訓練

而像BERT、RoBERTa和ALBERT屬於MLM，它們可以預測輸入中被掩蓋的少量單詞。MLM具有雙向的優勢，它們可以「看到」要預測的token兩側的文本。但MLM也有它的缺點：與預測每個輸入token不同，這些模型只預測了一個很小的子集(被掩蓋的15%)，從而減少了從每個句子中獲得的信息量。
PTMs|2020最新NLP預訓練模型綜述

「nlp領域的發展比cv領域相對緩慢的原因是什麼呢」？相比於cv領域，「nlp領域的劣勢在於有監督數據集大小非常小」(除了機器翻譯)，導致深度學習模型容易過擬合，不能很好地泛化。但是相反，nlp領域的優勢在於，存在大量的無監督數據集，如果能夠充分利用這類數據進行訓練，那麼勢必能夠提升模型的能力以及在下遊任務中的表現。nlp中的預訓練模型就是這樣一類能夠在大規模語料上進行無監督訓練，學習得到通用的語言表徵，有助於解決下遊任務的nlp模型。「那麼什麼是好的語言表徵呢」？
研究了個寂寞?Reddit熱議:AI教父Yann LeCun提出的「能量模型...

近幾年，深度學習在計算機感知、自然語言理解和控制方面取得了重大進展。但這些成功在很大程度上都依賴於監督學習或無模型強化學習。其中，監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。強化學習分為有模型和無模型兩種策略，前者區別與後者的特點是，有模型的方法主要學習前向狀態轉移模型p(st+1|st,at)，而無模型方法則不是。
一文概述 2018 年深度學習 NLP 十大創新思路

代表性論文：《基於短語和神經的無監督機器翻譯》（EMNLP 2018）這篇論文很好地為無監督機器翻譯提取了三個關鍵要求：良好的初始化、語言建模以及你想任務建模（通過反向翻譯）。我們在下文中會看到，這三項要求同樣對其他的無監督場景有益。
Kaggle Grandmaster 的 NLP 方法

數據科學新手 Dean Sublett 和數據科學家，Kaggle Grandmaster Abhishek 進行了交流，並寫了一篇關於他的 kaggle Kernel 的文章，AI 開發者編譯整理。
2019 年 NLP 領域都發生了哪些大事件?

三、ML/NLP 工具和數據集這部分將重點介紹與軟體和數據集相關的事件，它們對自然語言處理和機器學習的研究和工程大有助益。Hugging Face 發布了一種廣受歡迎的基於 PyTorch 的 Transformer 程序庫「pytorch-transformers」。
性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型

只有語言建模和機器翻譯等少數 NLP 任務需要了解文本片段之間的細微差異，因此可能需要唯一識別所有可能的文本片段。其他大多數任務僅通過了解這些文本片段的子集即可解決。此外，任務相關的文本片段子集並不一定是頻率最高的部分，因為可能很大一部分是專用的冠詞，如 a、an 和 the，而這些對很多任務來說並不重要。
使用Scikit Learn的分類器探索Iris數據集

剛毛鳶尾屬，花色鳶尾屬和維吉尼亞鳶尾屬（setosa, versicolor, virginica）？我知道我不能…但是，如果我們有一個包含這些物種實例的數據集，以及它們的萼片和花瓣的測量結果呢？換言之，我們能從這個數據集中學到什麼來幫助我們區分這三個物種嗎？目錄我們為什麼選擇這個數據集？我們想回答什麼問題？
從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...

另外，雷鋒網 AI 研習社在原文的基礎上補充了部分開源項目，為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年，隨著數據的開發、算法的改進以及硬體計算能力的提升，機器學習技術得以快速發展，不斷延伸至新的領域。
MIT下架偏見數據集,Bengio兄弟建議多引少數群體論文:BLM運動持續

機器之心報導參與：杜偉、小舟、張倩繼 Yann LeCun 為存在數據偏見的算法辯護被罵退出推特之後，BLM 運動繼續在學界蔓延。MIT 宣布永久下架包含種族和性別歧視標籤圖像的 Tiny Images 數據集，並致歉。
哥倫布的智能城市新進展:首輛電動自動化巴士上線無人機和數據集...

俄亥俄州哥倫布市一直被認為是「美國的測試城市」，其在進行智能城市的發展計劃，目前取得的進展有開放首款全電動自動穿梭巴士，推動城市過渡到共享交通模式；建立智能哥倫布作業系統和啟動無人機計劃，利用數據集整合資源來解決交通及其他問題
數據可視化圖表的使用方式及最佳做法,你用對了嗎?

網絡數據集與其他數據集緊密相連，網絡數據可視化顯示了它們如何在網絡中相互關聯；換句話說，無需冗長的解釋就能說明數據集之間的關係。多維的就像名稱一樣，多維數據可視化具有多個維度；這意味著在混合中總會有2個或更多變量來創建3D數據可視化。由於存在許多並發的圖層和數據集，這些類型的可視化往往是最生動或引人注目的視覺；另一個加「？」這些視覺效果可以將大量數據分解為關鍵要點。

NLP和其他ML項目的10個最佳 Reddit 數據集

相關焦點

用Spark-NLP建立文本分類模型

自然語言處理(NLP)入門指南

資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)

nlp課程的危害 - CSDN

自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文

資源| 數據至上的人工智慧時代,最好的公開數據集有哪些?

發布數據集論文和挑戰賽,卻拒絕公開數據集

復旦邱錫鵬教授:2020最新NLP預訓練模型綜述

NLP預訓練利器:小模型也有高精度,單個GPU就能訓練

PTMs|2020最新NLP預訓練模型綜述

研究了個寂寞?Reddit熱議:AI教父Yann LeCun提出的「能量模型...

一文概述 2018 年深度學習 NLP 十大創新思路

Kaggle Grandmaster 的 NLP 方法

2019 年 NLP 領域都發生了哪些大事件?

性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型

使用Scikit Learn的分類器探索Iris數據集

從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...

MIT下架偏見數據集,Bengio兄弟建議多引少數群體論文:BLM運動持續

哥倫布的智能城市新進展:首輛電動自動化巴士上線 無人機和數據集...

數據可視化圖表的使用方式及最佳做法,你用對了嗎?

哥倫布的智能城市新進展:首輛電動自動化巴士上線無人機和數據集...