Kaggle最受歡迎的10個競賽數據集下載

2021-03-06 Python與算法社區

點擊上方藍色字體關注公眾號

這周兩篇文章:


最近有人問有沒有相關數據集,這幾天抽時間整理了以下數據集,標題即是Kaggle競賽題目,可以直接搜索獲得賽題詳細介紹,在此列出10個參賽隊伍最多的競賽題及標籤,最重要的是提供數據集的下載。

Kaggle是提升理解ML的較好平臺,學的再多,都不如現在開始動手實踐,簡歷上寫的會再多算法,都不如有1個競賽TOP3有說服力。

1 Titanic: Machine Learning from Disaster

Start here!
Predict survival on the Titanic and get familiar with ML basics

2 House Prices-Advanced Regression Techniques

Predict sales prices
practice feature engineering, RFs, and gradient boosting

3 Digit Recognizer

CV starts here!
Learn computer vision fundamentals with the famous MNIST data

4 TalkingData AdTracking Fraud Detection Challenge

fraudulent click starts here!
Can you detect fraudulent click traffic for mobile app ads?

5 Toxic Comment Classification Challenge

NLP starts here!
Identify and classify toxic online comments

6 Santander Customer Satisfaction

HOT
Which customers are happy customers?

7 2018 Data Science Bowl

CV
Find the nuclei in divergent images to advance medical discovery

8 Bike Sharing Demand

Forecasting
Forecast use of a city bikeshare system

9 Instacart Market Basket Analysis

選品分析
Which products will an Instacart consumer purchase again?

10 San Francisco Crime Classification

多分類預測
Predict the category of crimes that occurred in the city by the bay

後臺回覆:kaggledata 直接下載。若不反感,可否點下廣告!

相關焦點

  • 競賽//Kaggle大數據競賽平臺
    Kaggle以數據挖掘起家,為了快速高效的解決最棘手的問題,該平臺發布了眾多數據科學、機器學習相關的競賽。Kaggle的多數競賽由企業或者研究機構發布,以競賽獎勵的方式向全球徵集解決方案。✔️Right Whale Recognition-識別航空照片中瀕臨滅絕的露脊鯨✔️Large Scale Hierarchical Text Classification-將維基百科分類成300,000個類別3.Getting Started是Kaggle最簡單的競賽類型,
  • 【乾貨】2010-2017最全KDD CUP賽題回顧及數據集下載
    競賽提供3個開發(develop)數據集和2個挑戰(challenge)數據集,每個數據集又分為訓練(train)部分和測試(test)部分。Challenge數據集的test部分被隱藏,參賽者需要開發一種學習模型,來準確預測這部分隱藏部分的成績。
  • Kaggle創始人Goldbloom:我們是這樣做數據科學競賽的
    各路英豪在這個平臺上實戰練習、膜拜大神、打怪升級,用某個媒體人的一句話,「簡而言之,Kaggle 是玩數據、機器學習的開發者們展示功力、揚名立萬的江湖。」為什麼有這麼多的數據科學家會在Kaggle花這麼多的時間?kaggle最著名的就是競賽了,那麼具體的競賽怎麼做呢?
  • 加入Kaggle 大數據競賽,總共分幾步?
    為此,雷鋒網編譯了一篇國外大牛的博文,其中總結了入門 Kaggle 競賽的四個簡單步驟,希望對相關人員有所幫助。概述這裡,我總結了入門 Kaggle 競賽的四個簡單步驟:1. 選定一個平臺2. 基於標準的資料庫練習3. 練習舊的 Kaggle 題目4.
  • Kaggle|處理大規模數據集的Tips & Tricks
    1.推薦閱讀:kaggle的riiid比賽裡關於數據處理時間空間優化的筆記 - 砍手豪的文章 - 知乎https://zhuanlan.zhihu.com
  • 除Kaggle外,還有哪些頂級數據科學競賽平臺
    Kaggle不僅是一個競賽平臺,也提供了非常好學習機會。通過比賽,你可以接觸最先進的方法和數據集、可以與志同道合的人一起參賽,最重要的是能夠向全世界展示你的才華。除了Kaggle,其實還有不少類似的平臺,下面文摘菌就給大家盤點一下這些頂級競爭數據科學平臺。
  • kaggle、TDS、arXiv等,我最喜歡的數據科學資源
    -favorite-resources-for-learning-data-science-online-c645aa3d0afb當我聲明數據科學正在成為最受歡迎的工作領域之一時,我想你不會與我爭辯,特別是考慮到《哈佛商業評論》將 "數據科學家 "評為21世紀最性感的工作。
  • Kaggle平臺入門(二)Titanic初試身手
    因此,本篇文章主要針對剛剛接觸Kaggle、希望馬上完成一個比賽的同學,介紹參加Kaggle數據分析競賽的完整流程。前言Kaggle是一個數據分析的競賽平臺。企業可以將數據、問題描述和期望指標發布到Kaggle平臺,以競賽的形式向廣大的數據科學家徵集解決方案。
  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    推薦一個數據平臺:www.kaggle.com數據科學的很多數據是來源於kaggle,這個平臺上有很多公開的數據,而且這些數據都是真實的數據,因此我們後面通過pandas去處理的數據都是從kaggle上下載的數據。●註冊並激活kaggle帳號首先你需要在kaggle註冊一個帳號,才能下載它的數據。
  • 數據科學最重要的Kaggle比賽如何從入門到精(fang)通(qi)
    幾乎每個在數據領域有追求的人,都或多或少有和 Kaggle 打過交道或者有想要參加的 Kaggle 的想法。但是對於初入數據領域的小白來說,連搞清楚 Kaggle 的具體規則都不是一件非常容易的事情,這就讓我們多了一份使命和責任。全網唯一一家真正指導學生參加 Kaggle 的數據科學訓練營。我們希望的不僅僅是給學生最有用的知識,更是希望學生能夠最高效地了解並參與到這個數據的大圈子裡。
  • 數據科學最重要的 Kaggle 比賽如何從入門到金(fang)牌(qi).
    幾乎每個在數據領域有追求的人,都或多或少有和 Kaggle 打過交道或者有想要參加的 Kaggle 的想法。但是對於初入數據領域的小白來說,連搞清楚 Kaggle 的具體規則都不是一件非常容易的事情,這就讓我們多了一份使命和責任。全網唯一一家真正指導學生參加 Kaggle 的數據科學訓練營。我們希望的不僅僅是給學生最有用的知識,更是希望學生能夠最高效地了解並參與到這個數據的大圈子裡。
  • 最新Kaggle年度報告!年輕多金、年薪百萬的數據科學家你愛了嗎?
    Kaggle成立於2010年,目前已經被Google收購,是全球頂級的權威性數據科學競賽平臺。企業和研究者可在其上發布數據,數據科學家可在其上進行競賽,提供潛在的解決方案,類似於KDD-CUP(國際知識發現和數據挖掘競賽)。
  • 【數據競賽】高質量數據科學競賽平臺匯總
    1. kaggle一個比較權威的全球性的數據競賽平臺,也是一個很好的技術和數據分享社區。可以找到各個領域的比賽和數據,最重要的是可以找到很多有用的經驗貼和一個開源的代碼,可以幫助小白前進,小編做個幾個比賽,該平臺對我的幫助很大,學到很多東西。
  • Kaggle知識點:偽標籤Pseudo Label
    與完全的無監督學習相比,半監督學習擁有部分的標註數據和大量的未標註數據,這種形式也更加適合現實場景和競賽場景。在現實,標註數據少,未標註數據多;在競賽,訓練集有標註,測試集未標註;在半監督學習中偽標籤是其中的方法,具體思路如下:首先利用現有的標註數據,訓練得到一個模型;利用訓練得到的模型對無標註數據進行預測;然後將無標註數據的預測標籤和數據加入訓練集一起訓練;
  • 170多萬篇論文打包下載,1.1 TB,Kaggle上線arXiv完整數據集
    與此同時,Kaggle 通常是數據科學家和機器學習工程師尋求有趣數據集、公開筆記和賽題的重要平臺。研究者可以利用 Kaggle 上廣泛的數據探索工具,輕鬆地與他人共享相關腳本和輸出。所以,是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢?
  • Kaggle 開放數據研究基金,1 月 9 日截止申請
    申請基金的人員可以是研究生、博士生、研究科學家、博士後研究員和受到認可的大學的教員,kaggle 歡迎這些人申請 Kaggle 開放數據研究補助金(以條款為準)。獲得資助的研究人員在發表他們的研究成果時,將被要求在 Kaggle 上公開他們的數據和代碼。這項撥款旨在幫助推進個別研究項目,而不是支持更廣泛的研究計劃,這些項目將在撥款後的六個月內公布。
  • 除了Kaggle,這裡還有一些含金量高的數據科學競賽哦
    ,數據科學家可以參加的數據競賽平臺其實還蠻多的。Kaggle 是很有名的數據科學競賽平臺。這個在線社區有 10 萬多註冊用戶,這些用戶有新手也有專家。但除了 Kaggle,還有一些其它值得了解和研究的數據挖掘競賽平臺。
  • 教程 | Kaggle CTO Ben Hamner :機器學習的八個步驟
    選擇好的入門問題有幾個標準:問題涵蓋了你個人很感興趣的某一領域數據隨時可用且非常適宜解決問題(否則你的大部分時間將被耗掉)你可在單臺機器上舒服地使用數據(或者數據的一些相關子集)沒有發現問題?被擔心!我們通過入門競賽系列在 Kaggle 上提供了一些很好的機器學習問題。
  • 圖像分類:13個Kaggle項目的經驗總結
    機器學習和圖像分類也不例外,工程師們可以通過參加像Kaggle這樣的競賽來展示最佳實踐。在這篇文章中,我將給你很多資源來學習,聚焦於從13個Kaggle比賽中挑選出的最好的Kaggle kernel。註:一般的經驗法則是始終使用數據增強技術,因為它有助於使我們的模型見識更多的變化並更好地泛化。即使我們有一個很大的數據集,也要使用數據增強,但這是以較慢的訓練速度為代價的,因為增強是在線完成的(即在訓練期間)。此外,對於每個任務或數據集,我們必須使用反映可能的現實場景的增強技術(例如,如果我們有一個貓/狗探測器,我們可以使用水平翻轉、剪裁、亮度和對比度,因為這些增強匹配不同的照片拍攝方式。
  • 170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集
    與此同時,Kaggle 通常是數據科學家和機器學習工程師尋求有趣數據集、公開筆記和賽題的重要平臺。研究者可以利用 Kaggle 上廣泛的數據探索工具,輕鬆地與他人共享相關腳本和輸出。所以,是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢?