除了Kaggle,這裡還有一些含金量高的數據科學競賽哦

2021-01-13 機器之心Pro

選自 towardsdatascience

作者:Parul Pande

機器之心編譯

參與:李詩萌、王淑婷

除了大名鼎鼎的 kaggle,數據科學家可以參加的數據競賽平臺其實還蠻多的。有些比賽平臺不僅提供比賽,還讓你有機會自己創辦比賽。有些比賽由公司贊助,有些由政府機構贊助。參加這些比賽不僅能讓你的能力獲得認可,還可以獲得一些不菲的獎金呢~

在聽了上百節慕課(MOOC)、看了上千本書和筆記、聆聽了上百萬人對數據科學的看法後,你會做什麼呢?你要開始應用這些概念啦。應用機器學習概念的唯一方法就是親自動手。你可以在感興趣的領域選一些現實問題,也可以參加編程馬拉松(Hackathon)和機器學習競賽。

數據科學比賽不僅是算法的應用。從本質上講算法是一種工具,任何人都可以寫幾行代碼來使用它。參加這些比賽的主要原因是它們能提供很好的學習機會。當然,競賽中的問題和現實問題不一定一樣,但這些平臺可以讓你將學到的知識付諸實踐,還能讓你了解自己和他人的差距。

參加數據科學比賽的好處

參加這些比賽可以說是有百利而無一害。它裡裡外外的好處有很多,比如:

這是一個學習的好機會;可以接觸當前最佳的方法和數據集;可以和志同道合的人交往,團隊合作很棒的地方在於可以從不同角度思考問題;可以向世界展現你的才華,從而獲得更好的就職機會;參與並了解自己在排行榜上的表現也很好玩;還有獎品作為額外福利,但不應把它作為唯一的標準。

2009 年 9 月 18 日,BellKor Pragmatic Chaos 團隊在決賽中獲勝,正式贏得 NetFlix 的比賽。

Kaggle 是很有名的數據科學競賽平臺。這個在線社區有 10 萬多註冊用戶,這些用戶有新手也有專家。但除了 Kaggle,還有一些其它值得了解和研究的數據挖掘競賽平臺。

Driven Data

Driven Data 舉辦數據科學競賽的目的是要建設更美好的世界,用最先進的預測模型來解決世界上最棘手的問題。Driven Data 在國際發展、醫療、教育、研究和保護以及公共服務等領域舉辦數據科學競賽,以謀求社會利益。你既可以參加平臺上的競賽,也可以通過該平臺舉辦自己的競賽。

該網站有專門的示例項目部分,這部分以案例研究的形式展示了一些成功的項目。Driven Data 列出的數據集都與一些非營利組織相關,數據從野生動物保護到公共衛生都有。因此,如果你想將自己的技能應用於實際問題,那這個平臺簡直就是為你而建的。

Driven Data:https://www.drivendata.org/參加比賽:https://www.drivendata.org/competitions/組織比賽:https://www.drivendata.org/partners/示例項目:http://drivendata.co/projects.htmlCrowdANALYTIX

CrowdANALYTIX 是一個眾包分析平臺,該平臺將商業上的挑戰和問題轉換成競賽題目。CroudANALYTIX 社區通過合作與競爭的方式來構建和優化 AI、ML、NLP 和 深度學習算法。該平臺還有社區博客,其中有包括訪談和參考資料在內的大量資源。

CrowdANALYTIX:https://www.crowdanalytix.com/communityCommunity Blog:https://www.crowdanalytix.com/jq/communityBlog/listBlog.htmlInnocentive

InnoCentive 的重點在生命科學上,但也有其它有趣的競賽主題。參賽者可以參與解決一些世界上最緊迫的問題——從促進家用淨水供應到旨在吸引和殺死攜帶瘧疾的蚊子的被動式太陽能裝置。挑戰是真正的問題,它需要持續集中注意力、批判性思維、研究、創造力以及綜合性知識。開發出解決方案就是最大的獎勵,在這個過程中還可以進行無與倫比的腦力鍛鍊。

InnoCentive:https://www.innocentive.com/our-solvers/

TunedIT

TuneIT 最初是華沙大學(University of Warsaw)的一個理科博士項目,其目的是幫助數據挖掘科學家進行可重複的實驗並輕鬆評估數據驅動算法。後來出於教育、科研以及商業目的,補充了用於舉辦數據競賽的 TunedIT Challenges 平臺。

TunedIT:http://tunedit.org/TunedIT Challenges:http://tunedit.org/challengesCodalab

Codalab 是一個基於 web 端的開源平臺,平臺上的研究人員、開發人員以及數據科學家互相合作,以推進使用機器學習和高級計算的研究領域的發展。CodaLab 通過其在線社區解決數據導向研究領域的很多常見問題,人們可以在該社區共享 worksheets 並參與競賽。你既可以參加現有競賽,也可以舉辦新的競賽。

CodaLab:https://competitions.codalab.org/

Analytics Vidhya

Analytics Vidhya 除了為分析和數據科學專業人士提供了基於社區的知識門戶,還提供了大量數據科學的學習資源。該平臺還會舉辦編程馬拉松,通過競賽形式解決真實的行業問題。你既可以參加競賽,也可以贊助編程馬拉松。大多數在 Analytics Vidhya 上組織編程馬拉松的公司,都會給表現優異的參賽者提供很好的工作機會。

Analytics Vidhya:https://datahack.analyticsvidhya.com/?utm_source=main-logo

CrowdAI

數據科學挑戰平臺 crowdAI 每年都會舉辦很多開放的數據科學挑戰賽。這些比賽覆蓋了圖像分類、文本識別、強化學習、對抗攻擊、圖像分割、資源配置優化等多個領域。2017 年亞馬遜和英偉達贊助的競賽叫做「Learning to Run」,獎金高達 10 萬多美元。

crowdAI:https://www.crowdai.org/challengesLearning to Run:https://www.crowdai.org/challenges/nips-2017-learning-to-runNumerai

Numerai 是由眾多數據科學家建立的、AI 運營的眾包對衝基金平臺。該平臺每周都會舉辦數據科學競賽以支持真正的對衝基金。Numerai 每周給參賽者提供加密數據,然後參賽者們提交其預測值。之後 Numerai 會根據所有提交結果構建元模型,並進行投資。

數據科學家們提交自己的預測值來換取一些 Numeraire,這是一種以太坊區塊鏈上的加密貨幣。

Numerai:https://numer.ai/rounds

天池

天池是阿里雲創建的數據競賽平臺,它和 Kaggle 很像。該社區中有成千上萬互相合作的數據科學家,他們還可以在該平臺中聯繫全球的企業和政府,以解決各行業中最棘手的問題。

天池:https://tianchi.aliyun.com/competition/gameList/activeList

DataScienceChallenge

Data Science Challenges 是由國防科學技術實驗室(Dstl)以及包括政府科學辦公室(Government Office for Science)、SIS 和 MI5 在內的許多英國政府部門共同贊助舉辦的,旨在鼓勵數據科學領域的優秀人才解決現實問題。該平臺提供的兩個挑戰賽現在已經結束了,但很快就會出現新的問題,這些比賽將鼓勵你找出現實問題的非正統答案。

Data Science Challenges:https://www.datasciencechallenge.org/

此外還有一些每年僅舉辦一次的比賽。

KDD CUP

KDD Cup 是 ACM 的數據挖掘及知識發現專委會(SIGKDD)組織的數據挖掘與知識發現競賽,該競賽一年舉辦一次,是數據挖掘人才的頂級專業盛會。KDD-2019 將於 2019 年 8 月 4 日至 8 月 8 日在美國阿拉斯加州的安克雷奇舉行。

KDD-2019:https://www.kdd.org/kdd2019/kdd-cup

VizDoom AI competition(VDAIC)

ViZDoom 是基於 Doom 的 AI 研究平臺,通過原始視覺信息進行強化學習。Visual Doom AI 競賽的參賽者要提交可以玩 Doom 的控制器(C++、Python 或 Java 均可)。

ViZDoom:https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1/leaderboards

結論

儘管這個名單會隨著時間推移而有所改變,但你最終會找到自己最感興趣的比賽。那麼,加油吧!

相關焦點

  • 我是如何成為Kaggle全網第一的?
    而近日,畢業於莫斯科國立大學的數據科學家Andrey Lukyanenko在一次競賽中達成Kaggle金牌,並在Kernel Grandmaster排名全網第一。本文是他的心路歷程。參加Kaggle競賽對於任何人來說都是一項嚴峻的挑戰。你需要花費大量時間和精力來學習新知識、嘗試新技巧,努力獲得高分。
  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    推薦一個數據平臺:www.kaggle.com數據科學的很多數據是來源於kaggle,這個平臺上有很多公開的數據,而且這些數據都是真實的數據,因此我們後面通過pandas去處理的數據都是從kaggle上下載的數據。●註冊並激活kaggle帳號首先你需要在kaggle註冊一個帳號,才能下載它的數據。
  • 讀研期間除了搞科研,別錯過含金量高的榮譽,對未來很有利
    但是大學生在讀研期間時間也是非常寶貴的,所以學生在讀研期間千萬不要放鬆警惕,做好一些對自己有意義的事情,這樣才不會辜負大學的好時光,也不會辜負自己。讀研期間,要盡力爭取含金量高的榮譽,對未來有利一般在校大學生讀研不是一件簡單的事情,可以說是一件非常辛苦的事情。出了要讀研還需要學生準備自己的學術論文,所以說只有順利的通過論文答辯,才是最圓滿的畢業。
  • 揭穿AI競賽真實面目:各種冠軍模型根本沒用,Kaggle受益者挺身反駁
    編譯|新智元 肖琴 鵬飛最近,一個新的大型CT腦掃描數據集被發布,其目的是訓練模型以檢測顱內出血。圍繞該數據集,北美放射學會(RSNA)發布了一場Kaggle競賽,有人在Twitter搞了個小投票:缺乏大型、標記良好的數據集是構建有用的臨床AI的最大障礙,因此該數據集應該有所幫助。但是說數據集有用並不等於說競賽將產生好模型。因此,為了定義術語,讓我們假設一個好模型是指:一個可以在未見過的數據(模型不知道的情況)上檢測腦出血的模型。相反,一個糟糕的模型是,它不能在未見過的數據中檢測出腦出血。這些定義毫無爭議。
  • 深度高能粒子對撞追蹤:Kaggle TrackML粒子追蹤挑戰賽亞軍訪談
    雖然編排碰撞和觀測已經是一項巨大的科學成就,但是分析由實驗產生的大量數據正成為一個最為嚴峻的挑戰。 實驗的速率已經達到了每秒數億次的碰撞,這意味著物理學家必須每年對數十千兆字節的數據進行篩選。而且,隨著探測器解析度的提高,需要更好的軟體來實時預處理和過濾最有用的數據,從而產生更多的數據。為了幫忙解決這個問題,一個在 CGRN(世界上最大的高能物理實驗室)工作,由機器學習專家和物理學家組成的小組,已經與 kaggle 和著名的贊助商合作來回答這個問題:機器學習能幫助高能物理學發現並描述新粒子嗎?
  • Kaggle Grandmaster 的 NLP 方法
    在進入德國各大公司開始數據科學家的工作之前,Abhishek Thakur 先後在 NIT Surat 和人 Bonn 大學獲得了電氣工程學士學位和計算機科學碩士學位。目前,他擔任挪威 Boost.a i 的首席數據科學家,這是一家「專門研究會話人工智慧(ai)的軟體公司」,但我對 Abhishek 印象最深的地方在於他的 Kaggle 影響力。
  • 數據科學入門前需要知道的10件事
    數據科學的技術內容包括了數據收集,數據預處理,數據深度分析,數據可視化,統計分析,機器學習,編程和軟體工程。除了這些技術要求,數據科學家還需要具有各種軟技能。下面信息圖所示概括了數據科學家必備的一些技能。
  • 數據科學入門前需要知道的10件事
    數據科學的技術內容包括了數據收集,數據預處理,數據深度分析,數據可視化,統計分析,機器學習,編程和軟體工程。除了這些技術要求,數據科學家還需要具有各種軟技能。下面信息圖所示概括了數據科學家必備的一些技能。 1.
  • 劇透,發現一個相當有含金量的賽事!
    小編告訴你,競賽獎牌,要有,更要有含金量,不是隨便什麼全省踢毽子大賽第一名就能打動招生官的。近期小編發現了一個極富含金量的競賽,聽說還有就業直通車,進入大廠不是夢。權威+高規格,更有百萬大獎和直通就業機會賽事全稱為中國科學院「先導杯」並行計算應用大獎賽,其目的是為了突破計算機軟體環境與學科應用等方面的瓶頸,充分發揮計算對於科學發現、科技創新的驅動力,以及培育高水平技術交叉型人才。
  • 西南財經大學「新網銀行」杯數據科學競賽圓滿結束
    11月24日,西南財經大學「新網銀行」杯數據科學競賽暨第十七屆統計建模大賽決賽舉行。據悉,本次比賽由西南財經大學與四川新網銀行聯合舉辦,以「金融科技,『數』領未來」為主題,聚焦風險識別模型建構,鼓勵學生運用前沿的統計方法,解決金融科技領域中的實際問題,契合學校引領新財經的發展戰略。
  • 14個超有趣的數據科學項目,數據集都準備好了!
    對於對數據,數據分析或數據科學感興趣的人,我們提供了一份可以利用業餘時間完成的數據科學項目清單,一共14個! 項目分為三種類型: 可視化項目 探索性數據分析(EDA)項目 預測建模 可視化項目 最容易上手的就是數據可視化, 以下三個數據集可以用於創建一些有意思的的可視化效果並加到你的簡歷中
  • 數據分析秘籍在這裡:Kaggle 六大比賽最全面解析(上)
    雖然這些數據在類型上類似 Titanic,但實際上複雜得多。在愛荷華州埃姆斯住宅問題中,有 79 個解釋變量用來描述這些房子的方方面面。該競賽要求你預測每間房的價格。Pedro 描繪了售價Angela 和 Pedro 花了一些時間來研究與 Titanic 比賽中類似的原始數據。Angela 在直方圖上畫出了售價,並繪製了關於這些特徵的熱圖。
  • 數據科學課應該如何開展,數據競賽平臺帶來的啟示
    隨著數據科學與人工智慧相關理論的快速發展,傳統行業若沒有借用數據科學方法,僅在自己的專業領域深耕,已經無法高效解決快速變化的學科研究與應用中面臨的一些新問題。在數據智能時代,如何利用人類有限的算法來處理日益增長的數據,如何幫助社會實現「數據商業化」、創造數據產生的衍生價值,已經成為眾多領域亟待解決的問題。
  • 一些作文競賽步步為「盈」,堪稱「搖錢賽」
    當然不是白參加,復活賽除了更高的報名費,還必須配合上相關的網絡課程,購買指定的學習資料,七七八八算下來,五六百塊都止不住。」  有些作文競賽在晉級過程中,除了繳納報名費,還必須參加「寫作夏令營」「小作家交流營」等活動。複賽或決賽多在夏令營期間舉辦,不參加就相當於失去比賽資格。
  • 含金量高的5個證書,通過率不超過50%,有證以後薪資待遇高
    在求職的時候,除了工作經驗之外,你的學歷就是一塊「敲門磚」,當然,對於一些行業(例如建築、金融、網絡等),如果你持有相關的證書,那麼,可能會給你的面試,帶來更多的機會,因此,考取一些含金量高的證書,對於部分行業來說,是不可或缺的,有不少企業所提供的崗位,都是需要持有相關資格證書的,不然升職加薪會很慢,下面來看一看含金量高的5個證書
  • 2017年中美數據科學對比報告,Python排名第一,年薪中位數高達11萬...
    但令人意外的是,我們在圖表中看到一位年滿100歲的大牛,還有幾位年齡接近0歲的小朋友。我們尚不清楚Kaggle這裡數據清洗的細節,不過這幾位大牛果真存在的話,務請聯繫AI科技大本營,我們對您的存在非常感興趣。中美就業狀況對比中國全職工作者佔53.%%,美國則高達70.9%
  • 2019年含金量最大的中小學全國性競賽活動——五大學科競賽
    五大學科競賽歷史是我國含金量最高的中小學全國性競賽活動,在各高校自主招生過程中,具有較高的參考價值。對相關方面有一定興趣的同學,也可以積極參與。五大賽面向的對象都是高中學生。自1986年起,已經舉辦了34屆比賽,2019年即將舉辦第35屆中學數學奧林匹克競賽。由於大賽舉辦時間在每年的11月、12月期間,所以具體的參賽事宜還沒有最終出臺。二、全國中學生物理奧林匹克競賽全國中學生物理競賽開始於1984年,由中國物理學會主辦,每年一屆。競賽分為預賽、複賽和決賽。
  • 詳解Kaggle 房價預測競賽優勝方案:用 Python 進行全面數據探索
    今天我們介紹的是目前得票數最高的優勝方案:《用 Python 進行全面數據探索》,該方案在數據探索,特徵工程上都有十分出色的表現。作者 Pedro Marcelino 在競賽中使用的主要方法是關注數據科學處理方法,以及尋找能夠指導工作的有力文獻資料。
  • Kaggle比賽入門——房價預測
    我們可以在房價預測比賽的網頁上了解比賽信息和參賽者成績,也可以下載數據集並提交自己的預測結果。該比賽的網頁地址是https://www.kaggle.com/c/house-prices-advanced-regression-techniques。獲取和讀取數據集比賽數據分為訓練數據集和測試數據集。
  • 公布能量療愈師證正規可靠含金量高報名入口
    (有持續多年的頭暈症、、眼睛乾澀、據說一輩子都治不好的月子、背痛、頸椎、、腿疼、手臂長期酸疼等等…)能量療愈師證正規可靠含金量高報名入口在開始用能量治癒另一個人之前,你需要將你的能量意識調頻到一個高頻狀態,並與宇宙中無限的能量連接。能量療愈師證正規可靠含金量高報名入口你也可以選擇觀想從你身上散發出這種療愈之光。