在這篇文章中,我想分享一份 Reddit 數據集列表,當它首次發布時,在社交媒體上獲得了很多關注。
Reddit 被稱為「網際網路的首頁」,它既是論壇,又是社交媒體網站,用戶可以發布幾乎所有東西。
與 Facebook 、 Twitter 或 Instagram 不同,大多數 Reddit 用戶都是匿名的。Reddit 版主嚴格審查和管理子目錄,即子reddit。
然而,匿名允許人們以他們想要的方式來表達他們想要的東西。因此, Reddit 評論和帖子完美適用於測試和訓練自然語言處理( NLP )模型。
警告:下面的一些數據集是專門為訓練內容管理模型而編制的。因此,數據可能包括顯式內容。
Reddit 評論數據集
1. Cryptocurrency Reddit 評論數據集(Cryptocurrency Reddit Comments Dataset) —— 此數據集包含來自 r/cryptocurrency 子reddit 的評論。這些數據包括2017年11月至2018年3月共5個月發布的評論。
2. Reddit 川普評論(Donald Trump Comments on Reddit) —— 一個簡單的數據集,包含了來自 Reddit 的數千條提到了 Donald Trump的評論。
3. Reddit 評論得分預測(Reddit Comment Score Prediction) —— 該數據集的建立是為了幫助創建一個模型,該模型可以預測 Reddit 評論會獲得贊還是踩。該數據集包括400萬 Reddit 評論:200萬差評(被踩)和200萬好評(被贊)。
Reddit 新聞數據集
4. 股票市場預測每日新聞(Daily News for Stock Market Prediction)——正如標題所示,這個數據集最初是為了建立能夠預測股市波動的模型。這些數據包括從2008年6月至2016年7月的 r/worldnews 中獲取的新聞,以及道瓊工業股票平均價格指數( Dow Jones Industrial Average )的數據。
5. Reddit 世界新聞(World News on Reddit)—— 從 r/worldnews 子reddit獲取,此數據集包含從2008年開始在這個子reddit上發布的所有新聞的信息。數據集包括以下信息:創建日期、贊和踩、標題、作者以及新聞是否包含成熟內容。
來自 Reddit 的其他數據
6. Reddit's Top 1000 —— 這個數據集包含了來自18個子reddit的以贊票數排前1,000個帖子。對於每個帖子, CSV 文件都包含帖子的標題和貼主的用戶名。此外,還包括了贊和踩的數量、子reddit名稱、 url 和其他元數據。
7. Reddit 用戶名(Reddit Usernames)—— 一個簡單的數據集,是一個包含2600萬 Reddit 用戶名的 CSV 文件。此外,數據集包括每個用戶所做的評論的總數。
8. SARC:自標註Reddit 諷刺語料庫(Self-Annotated Reddit Corpus for Sarcasm) —— 此數據集包含從 Reddit 抓取的超過130萬條諷刺評論和帖子。數據集創建者在每個語句中標記了諷刺。此外,每個語句中還包含貼主用戶名、主題和上下文。
9. Reddit 的科學和技術縮略語(Science and Tech Acronyms from Reddit)—— 該數據集包含在科學、生物學、技術和未來學方面的子reddit 中發現的140,000多個首字母縮略詞。數據的形式是 CSV 文件,其中包括評論 ID 、時間、用戶名、子reddit 名和所提到的縮寫。
10. Reddit 物品/產品(Things on Reddit (products))—— 這個產品數據集是亞馬遜產品的前100名的集合,這些產品來自從2015年到2017年發布過亞馬遜產品的每個子reddit。數據集中的每個 CSV 文件都包含產品名稱類別和產品的 URL 。此外,數據中還包括了 Reddit 和子reddit 中提到的總數。
上面的數據集可用於幫助訓練情感分析模型、文本分類器、預測模型和其他 NLP算法。
有關更多數據集,請查看我們的相關資源